World Models are all you need.

AI 新闻（2025/12/23-2025/12/24）。我们检查了 12 个 subreddits 和 544 个 Twitter 账号。预计节省阅读时间（以 200wpm 计算）：341 分钟。我们的新网站现已上线，支持全文元数据搜索和精美的 vibe coded 呈现。查看 https://news.smol.ai/ 获取完整新闻拆解，并在 @smol_ai 上给我们反馈！

AI Twitter 综述

头条新闻：Yann LeCun 的 AMI Labs 携 10.3 亿美元种子轮融资成立，致力于围绕 JEPA 构建 World Models

发生了什么

Yann LeCun 正式公布了 Advanced Machine Intelligence (AMI Labs)，这是一家专注于“将真正的智能引入现实世界”的新初创公司。该公司完成了规模异常庞大的 **10.3 亿美元种子轮融资（也有报道称其为 8.9 亿欧元），据报道其 投前估值为 35 亿美元，这被描述为有史以来规模最大的种子轮融资之一，也可能是欧洲公司规模最大的一笔。** 这一消息直接来自 LeCun，他表示公司已完成“有史以来最大的种子轮融资之一”并且正在招人 @ylecun，以及来自 CEO Alex Lebrun，他将这一使命界定为一项“长期的科学事业”，旨在构建“真正理解现实世界”的系统 @lxbrun。多家媒体报道指向了相同的核心事实：AMI 旨在构建能够理解物理世界的 AI 模型，这反映了 LeCun 长期持有的观点，即人类水平的 AI 将来自 World Models (世界建模)，而不仅仅是扩展语言预测规模 @TechCrunch @WIRED @business @Reuters @ZeffMax。创始及高管团队包括：LeCun；Alex Lebrun 担任 CEO @lxbrun；Saining Xie 担任联合创始人/CSO @sainingxie；Laurent Solly 担任 COO @laurentsolly；Pascale Fung 担任联合创始人兼首席研究与创新官 @pascalefung；以及一大批知名创始研究员加入，专门从事 World Models、Representation Learning、Pretraining、Scaling 和视频方面的工作 @sanghyunwoo1219 @jihanyang13 @duchao0726 @zhouxy2017 @jingli9111。**

事实与观点

推文和报道中提到的事实

融资规模： 10.3 亿美元种子轮 / 8.9 亿欧元 @ylecun @lxbrun @laurentsolly。
估值： 评论家和新闻摘要报道了 35 亿美元的投前估值 @iScienceLuvr @ZeffMax。
公司论点： 构建能够理解物理/现实世界，而不仅仅是语言的 AI 模型 @TechCrunch @WIRED @Reuters。
LeCun 的定位： World Models 多年来一直是他的公开论点；AMI 是在初创公司规模下测试这一论点的载体 @ZeffMax @WIRED。
AMI 领导层的官方措辞： “将真正的智能引入现实世界”，“以人为本”，“感知、学习、推理和行动” @Brian_Bo_Li @pascalefung。
招聘/办公地点： Pascale Fung 明确提到了巴黎 @pascalefung；观察人士还注意到苏黎世也在选址之列 @giffmana。
欧洲/法国视角： 法国媒体和政治人物将其定义为欧洲/法国 AI 的一个重大里程碑 @BFMTV @France24_fr @EmmanuelMacron @NicolasDufourcq。

观点与解读

支持性观点： 这是 LeCun 终于获得了资金和团队，来证明他长期主张的替代 LLM-centric AI 的方案 @teortaxesTex。
看好的技术视角： World models 将是一个“巨大的飞跃”，特别是对于 Embodiment/机器人技术而言，且 AMI 的开放研究姿态极具吸引力 @mervenoyann @ziv_ravid。
架构之争的框架： 一些评论员明确将 AMI 视为一场赌注，认为行业过度依赖 Autoregressive 语言模型是建立在错误的基础之上的 @LiorOnAI。
怀疑/中立观点： 关键问题不在于 World models 听起来是否引人入胜，而在于 JEPA 风格的方法能否比已经商业化的 LLM-centric Agent 更快地扩展为具有经济价值的系统。这种怀疑在推特集中更多是含蓄的而非显式的，但通过“有机会证明他的愿景”之类的评论表现出来 @teortaxesTex。
元评论： AMI 在内部并未被定位为一个“常规实验室” @sainingxie，这表明它试图区别于标准的前沿实验室（Frontier-lab）那种 API 优先的模型 Scaling 模式。

技术细节：JEPA、World models，以及为何这与 Next-token LM 不同

AMI 的公开叙事与 LeCun 的 JEPA/World-model 议程一致。推特中的显式技术细节较少，但讨论强烈指向以下思想栈：

World models：环境动力学的 Latent 预测模型，学习紧凑的状态表示，并预测未来的状态/结果，而非原始的感官流。
JEPA：Joint Embedding Predictive Architecture（联合嵌入预测架构），由 LeCun 于 2022 年提出，在评论中被强调为一种学习抽象表示并在压缩的 Latent 空间中进行预测的方法，而不是试图重建每个 Pixel/Token @LiorOnAI。
采用 JEPA 而非生成式建模的动力：
- 现实世界的传感器流包含大量不可预测或无关的熵。
- 原始 Pixel/视频预测效率低下，因为它将建模能力浪费在噪声上。
- 预测 Latent 抽象可能更好地支持规划、可控性和不变性。
动作条件化的 World models：评论指出，一个关键的扩展是模型应该预测动作的后果，从而实现先规划后行动 @LiorOnAI。这比被动的序列建模更接近基于模型的 RL/控制。
反复暗示的目标领域：
- 机器人技术 / Embodied AI @mervenoyann
- 医疗保健和低幻觉系统 @kimmonismus
- 工业过程控制 / 安全至上的环境 @LiorOnAI
- 更广泛地说，是那些必须在物理世界中跟踪持久状态、因果关系和动作结果的系统。

这与 LeCun 长期以来对纯 Autoregressive LLM 的批评大体一致：

仅靠文本预测不足以实现具身理解（Grounded understanding）；
世界只是部分可预测的；
智能 Agent 需要在 Latent 空间进行层级表示和规划；
来自视觉/视频/Embodiment 的数据应主导长期的 AI 进展。

团队构成作为技术信号

创始阵容本身就是一个技术线索。多位入职者强调了：

World models @sanghyunwoo1219 @zhouxy2017
Pretraining、Scaling、视频、Representation @jingli9111
一群视觉领域的资深研究员，被支持者称为“视觉领域的 🐐（大神）们” @mervenoyann

这表明 AMI 可能会强调视觉/视频/自监督表示学习（Self-supervised representation learning），而不仅仅是在标准的 LLM 架构上附加 World-model 逻辑。

Open research posture

几项支持性的反应特别提到了对 open releases/open research @mervenoyann @mervenoyann 的希望。这很重要，因为 JEPA/world-model 的工作在历史上学术界的影响力强于产品化；开放性将有助于 AMI 招募人才并塑造研究生态系统。但在发布阶段，这仍更多是愿景而非已证实的实践。

Different opinions in the reaction set

1) Strongly supportive: “LeCun finally gets to run the experiment”

相当大一部分反应基本上是感到欣慰，即 LeCun 现在有了一个专属的初创公司和资金基础来验证他的世界观。

“Yann 得到了证明他愿景的机会” @teortaxesTex
“非常看好…… world models 将是一个巨大的飞跃” @mervenoyann
“超级看好 AMI labs”，因为团队质量和开放研究的雄心 @ziv_ravid
“理解现实世界是构建先进 AI 系统的关键” @duchao0726

这个阵营认为 AMI 是对当前围绕 autoregressive LMs + RLHF + tool use 构建的行业平衡的一种迟来的抗衡力量。

2) Architecture-war framing: “LLMs predict words; AMI wants models of reality”

这一观点由 @LiorOnAI 阐述得最为明确：

语言模型处理的是 words/tokens，
现实是连续的、感觉运动的（sensorimotor），且部分不可预测，
生成模型过拟合于重构（reconstruction），
JEPA 则预测有意义的抽象。

这是推文集中最清晰的支持 AMI 的技术论点。它将幻觉、脆弱性以及缺乏扎实的规划视为错误训练目标的症状，而不仅仅是规模不足。

3) Pragmatic neutral: “Compelling thesis, but now it has to ship”

一些反应带有庆祝色彩但不轻信：

“得到了证明他愿景的机会” @teortaxesTex
“迫切的问题……是 PyTorch 还是 JAX 阵营” @giffmana

后者不仅仅是开玩笑的基础设施闲谈；它反映了 AMI 将如何开展研究的真实问题。一家尝试大规模新型 world-model 训练的初创公司必须选择一个针对以下目标优化的生态系统：

快速的研究迭代和广泛的招聘熟悉度 (PyTorch)，或者
激进的大规模函数式编程风格和 SPMD 编译器栈 (JAX)。

4) Broader simulation/world-model enthusiasm outside AMI

AMI 的发布也赶上了一个“模拟（simulation）是下一个前沿”已在酝酿中的更广泛讨论。Percy Liang 认为，下一个重大机会是通过能预测假设现实场景中发生什么的模拟模型，将“社会放入一个 docker container 中” @percyliang。这虽然与 AMI 没有直接关系，但它强化了为什么 LeCun 的论点在当前引起共鸣：许多研究人员日益认为，进步需要从 token 模仿转向对环境和交互的 model-based 预测。

Context: why this matters now

AMI 的重要性在于，它是一次备受关注、资金充足的尝试，旨在重新开启一个行业内许多人已默认为定论的问题：next-token prediction 是通往高级智能的核心路径，还只是一个有用但最终狭隘的基础？

Why the timing is notable

此次发布正值：

LLM 和 coding agents 在商业上取得成功，
多模态系统快速改进，
机器人学/自主性/world-model 的话语复兴，
以及人们日益意识到，在文本/代码 benchmark 上的提升可能无法直接转化为物理世界的胜任力。

这一点尤为重要，因为最近的前沿 AI 讨论一直被以下内容主导：

agents/harnesses/tool use，
推理 RL，
代码自动化，
以及 inference infrastructure。

AMI 是一次明确的赌注，赌下一个前沿是扎实的表示学习（grounded representation learning）和对现实世界的预测建模，而不仅仅是为文本模型提供更好的封装。

Why LeCun is uniquely positioned

LeCun 多年来一直公开辩称：

人类和动物的智能是从对世界的观察和行动中学习的，
语言的带宽太低且具有衍生性，不足以作为主要的训练信号，
系统需要潜变量（latent-variable）world models 和规划。

他的影响力使他成为“仅靠 LLM 就能带我们走向 AGI”最知名的怀疑者之一。因此，AMI 不仅仅是另一家初创公司；它是迄今为止由该领域最杰出人物之一发起的、对“token 至上主义（token-maximalist）”观点最直接的制度化实践。

欧洲/法国的影响

法国/欧洲的政治和机构反应异常强烈：

马克龙将其赞誉为 AI 的新篇章，是“研究人员与建设者的法国”。 @EmmanuelMacron
Bpifrance 的 Nicolas Dufourcq 强调了支持一家可能“变革全球 AI”的公司的法国自豪感。 @NicolasDufourcq

因此，AMI 也被定位为欧洲战略 AI 冠军，而不仅仅是一家研究初创公司。

所有相关的 AMI/world-model 推文及其补充信息

@TechCrunch：头条确认了 10.3 亿美元的融资以及 world-model 框架。
@BFMTV：法语主流媒体将此次融资定义为历史性的。
@WIRED：背景化了 LeCun 长期以来的论点，即掌握物理世界而非仅靠语言，才是通往人类水平 AI 的途径。
@business：彭博社确认了融资规模。
@iScienceLuvr：补充了 35 亿美元的投前估值数据。
@sainingxie：AMI “不是一个传统的实验室”，谢赛宁（Saining Xie）以联合创始人兼 CSO 身份加入。
@lxbrun：CEO 发布声明；使命是致力于理解现实世界的长期科学努力。
@ZeffMax：简明总结称 AMI 是 LeCun 在多年倡导后，在 world models 上的重注。
@teortaxesTex：“获得了一个证明其愿景的机会。”
@Brian_Bo_Li：“将真正的智能引入现实世界”的标语。
@sanghyunwoo1219：从第一天起就加入，专门从事 world models 研究。
@laurentsolly：COO 发布声明；重申了融资和“下一代 AI 前沿模型”。
@mavenlin：来自另一位团队成员的热情，预示了创始团队的深度。
@crystalsssup：指出谢赛宁的加入是 AMI 专业性的信号。
@ylecun：正式亮相；“史上最大的种子轮融资之一”，可能是欧洲公司中最大的。
@jihanyang13：创始团队加入公告。
@giffmana：询问 AMI 会成为 PyTorch 还是 JAX 的阵地。
@France24_fr：法国媒体将其定义为“范式转移”。
@TheRundownAI：简短总结：“超越语言模型，构建 world models”。
@pascalefung：冯雁以 CRIO 身份加入；强调感知、学习、推理和行动的“以人为本”的 AI。
@EmmanuelMacron：政治背书和国家战略框架。
@franceinter：媒体放大了 LeCun 关于就业和 AI 变革的更广泛主张。
@mervenoyann：看好 world models 作为具身研究（embodied research）的重大飞跃，并赞赏其开放姿态。
@kimmonismus：增加了医疗保健/Nabla 商业化角度以及幻觉风险框架。
@pascalefung：正在为 Paris 团队招聘。
@zhouxy2017：从事 world models 研究的创始成员。
@Reuters：称 AMI 为一种“另类的 AI 方法”。
@NVIDIAAI 以及相关的 Thinking Machines/NVIDIA 帖子与 AMI 无关；已从重点中忽略。
@chris_j_paxton：注意到列出的地点中没有湾区（Bay Area）；暗示了地理差异化。
@giffmana：澄清 Zürich 是地点之一。
@lilianweng：“在大规模下一代硬件上构建更好的 AI 人机协作技术。”虽是间接表达，但显然与加入/在 AMI 领域工作相关。
@Yuchenj_UW: 对比了 LeCun 的世界模型初创公司与 Meta 的 Moltbook 收购，突显了长期基础性押注与近期 Agent/社交产品押注之间的对比。
@LiorOnAI: 对 JEPA 最明确的技术诠释，以及为什么潜空间预测建模可能很重要。
@sainingxie: 赞赏性回复；虽微小但确认了持续的参与。
@NandoDF @DrJimFan @denisyarats: 同行祝贺；信息量低但显示了广泛的尊重。

Bottom line

AMI Labs 是迄今为止对“缩放自回归语言模型是实现 AGI 的唯一或主导路径”这一观点的最强有力机构级挑战。硬性事实异常具体——10.3 亿美元种子轮融资，35 亿美元投前估值，视觉/世界模型领域的精英团队，法国/欧洲的战略支持——而技术承诺目前在很大程度上仍处于论文水平：JEPA 风格的潜空间预测世界模型，从真实世界的传感器数据中学习，并在不重建每一位噪声的情况下支持规划/行动。支持者将其视为姗姗来迟的下一代范式；中立者将其视为一场高风险测试，看 LeCun 对 LLM 的批评能否最终转化为产品和基准测试结果；怀疑者（即使没有直言不讳）将根据世界模型是否能在市场围绕当前技术栈闭合之前，竞争过快速进步的 LLM Agent 来进行评判。

Other Topics

Agents, coding workflows, and the “builder vs reviewer” shift

时间线上的一个广泛主题是，编程 Agent 正在改变软件组织结构：实现不再是瓶颈；评审（Review）、架构和产品判断力才是 @renilzac @clairevo @dexhorthy。多方反应趋于一致，认为工程师正日益转变为具有产品品味的构建者（builders）或具有系统思维的评审者（reviewers） @radek__w @ZhitaoLi224653。
Agent Harnesses 成为一个主要的实践概念：“Agent = Model + Harness”，文件系统、记忆、浏览器、路由、编排和沙箱都是真实产品层面的组成部分 @Vtrivedy10 @techczech @AstasiaMyers @omarsar0。
工具更新反映了这一趋势：
- VS Code Agent Hooks 用于策略执行和工作流指导 @code
- GitHub/Figma MCP 闭合了设计与代码之间的循环 @github
- LangGraph deploy 和 LangGraph 1.1 简化了生产化 @LangChain @sydneyrunkle
- Together MCP server 和 Together GPU Clusters 为 Agent 驱动的应用构建和规模化增加了基础设施 @togethercompute @togethercompute
- Ollama scheduled prompts in Claude Code 增加了简单的自动化循环 @ollama
产品反应在热情和谨慎之间徘徊：
- Perplexity Computer 替代常规知识工作和营销任务，被引用为强有力的创始人使用案例 @GabbbarSingh @AravSrinivas @AravSrinivas
- 但多篇文章警告不要过度优化“AI 编写代码的百分比”或完全放弃对代码的理解 @karrisaarinen @dexhorthy。
UX 与原始能力同样重要：Claude Code/Hermes/OpenClaw 用户反复指出，信任、反馈循环、记忆和界面展示是感知能力的关键 @StudioYorktown @sudoingX @cz_binance。

Benchmarks, evals, and reliability research

Cameron Wolfe 发布了一个关于使 LLM evals 更加可靠的实用统计学帖：将模型得分视为样本均值，估算 standard error 为 std / sqrt(n)，并报告 95% confidence intervals 为 x̄ ± 1.96×SE，而不是仅报告原始均值指标 @cwolferesearch @cwolferesearch。
专注于 grounding 和人类有效性的新 Benchmark 工作：
- 针对 sycophancy 的 Opposite-Narrator Contradictions @LechMazur
- OfficeQA Pro：企业落地推理依然困难，最前沿的 Agent 得分仍 <50% @kristahopsalong @DbrxMosaicAI
- SWE-bench Verified 相比于维护者的实际情况似乎被高估了：维护者只会合并大约一半通过评分器的 Agent PRs @whitfill_parker @joel_bkr
- AuditBench 引入了 56 个被植入隐藏行为的 LLMs，用于对对齐审计（alignment-auditing）进行评估 @abhayesian
- CodeClash 探测了长程编程/规划能力；顶级模型在持续的 agentic 对抗环境中表现依然不佳 @OfirPress @OfirPress
推理痕迹的可解释性继续引发争议：一份论文摘要声称 97%+ 的“思维步骤”是装饰性的，且 CoT 监控是不可靠的 @shi_weiyan。

模型、基础设施和训练系统

Megatron Core MoE 作为大规模 MoE 训练的开源框架引起了强烈关注，声称 DeepSeek-V3-685B 的 TFLOPS/GPU 达到 1233 @EthanHe_42 @eliebakouch。评论认为 DeepSeek 风格的 MoE 训练效率正在走向商品化 @teortaxesTex。
Gemini Embedding 2 作为 Google 首个全多模态嵌入模型发布：
- 为 text, images, video, audio, docs 提供统一的嵌入空间
- 支持 8,192-token 的文本输入
- 支持 100+ 种语言
- 通过 MRL 提供 3072 / 1536 / 768 的输出维度
- 单次请求支持最多 6 张图片、120s 视频 或 6 页 PDF @OfficialLoganK @_philschmid @googleaidevs。
Hugging Face Storage Buckets 发布，这是一种基于 Xet 去重技术构建的类 S3 可变存储，起价 $8/TB/月，定位用于存储 checkpoints、logs、traces、eval 输出以及 Agent 产出物 @victormustar @huggingface @Wauplin。
其他值得关注的模型/系统发布：
- 包含 13B/7B/3B/1B 尺寸的 RWKV-7 G1e @BlinkDL_AI
- Hume TADA 开源 TTS 模型：在 1,000+ 个测试样本中实现零内容幻觉，比同类 LLM-TTS 快 5 倍，且 2,048 tokens ≈ 700s 音频 @hume_ai
- Phi-4-reasoning-vision-15B 被强调为一款紧凑型开源多模态模型 @dl_weekly
- Baseten/Harvard 合作开发的前缀缓存（prefix-caching）技术，旨在提升推理效率 @chutes_ai

自主研究、AlphaGo 谱系与递归改进

AMI 之外最强的主题是 自动化 ML 研究：
- Karpathy 的 autoresearch 概念——包含代码编辑、短期训练运行以及基于指标的保留/舍弃逻辑的通宵实验循环——引起了广泛讨论 @NerdyRodent @_philschmid
- Yuchen Jin 运行了一个由 Claude 驱动的“首席科学家”循环，在 8 个 GPU 上持续运行了 11 小时以上，进行了 568 次实验，观察到了从广泛探索到集中优化再到深度验证的进展 @Yuchenj_UW
- Karpathy 暗示 AgentHub（“Agent 界的 GitHub”）将成为多 Agent 研究协作的下一层架构 @karpathy @Yuchenj_UW
AlphaGo 十周年引发了许多反思：
- Demis Hassabis 认为 AlphaGo 的搜索与规划思路对于 AGI 和科学研究依然至关重要 @demishassabis
- Google/DeepMind 将 AlphaGo 与 AlphaEvolve 以及更广泛的算力/科学优化联系起来 @Google @GoogleDeepMind
- Noam Brown 式的论述，即当前的推理模型遵循 AlphaGo 的范式：模仿、推理时搜索，然后是 RL @polynoamial
递归自我提升（Recursive self-improvement）的讨论依然活跃：
- Schmidhuber 再次提及他长期研究的元学习 (meta-learning)/RSI 工作 @SchmidhuberAI
- 关于无监督 RLVR 的评论表明，天真的递归提升目前正遭遇瓶颈 @teortaxesTex

能力里程碑、应用与部署

最引人注目的能力主张之一：AI 可能辅助解决了一个 FrontierMath 开放问题。最初有用户声称 GPT-5.4 Pro 解决了该问题，随后观察者指出，如果得到验证，这将是 AI 解决的首个 FrontierMath 开放问题 @spicey_lemonade @kevinweil @GregHBurnham @AcerFur。
Google 报告了 AMIE 在急诊工作流中的一项 前瞻性临床研究：盲法评估发现，其鉴别诊断和管理方案的整体质量与初级保健医生 (PCPs) 相当，但在实用性和成本效益方面，PCPs 的表现更优（p=0.003, p=0.004） @iScienceLuvr。
搭载 Gemini 的 Google Sheets 在 SpreadsheetBench 上达到 70.48%，被描述为接近人类专家水平 @GoogleAI。
Google Workspace/Gemini 的推广扩展到了 Docs, Sheets, Slides 和 Drive，声称 Sheets 任务处理速度提升了 9 倍，并具备 AI 生成的幻灯片布局以及 Drive 级别的跨文档问答功能 @Google @sundarpichai。
根据对 50 万+ 次对话的分析，Microsoft 报告称健康是 2025 年 Copilot 移动端用户的 首要话题 @mustafasuleyman。
Sharon Zhou 声称在生产环境中 AI kernel 优化达到了超人类水平，暗示自动化 GPU 移植/优化可能很快就会变得实用 @realSharonZhou。

AI Reddit 综述

/r/LocalLlama + /r/localLLM 综述

1. Qwen 模型发布与基准测试

Qwen3.5-35B-A3B Uncensored (Aggressive) — GGUF Release (热度: 337): 在 Hugging Face 上发布的 Qwen3.5-35B-A3B Aggressive 是 Qwen 模型的完全未审查版本，具有 0/465 次拒绝 的表现，并在不改变个性化设置的情况下保持了完整能力。该模型包含多种量化格式，如 BF16、Q8_0、Q6_K 等，并支持 262K 上下文长度的多模态输入（文本、图像、视频）。它采用了结合 Gated DeltaNet 和 softmax 的混合注意力机制，比例为 3:1。该模型设计为高性能的混合专家模型（MoE）配置，拥有 256 experts，每个 Token 激活 8+1 个专家。建议用户在使用 llama.cpp 时采用特定的采样参数和 --jinja 标志以获得最佳性能。一条显著的评论询问了用于模型去审查的技术，表明了对模型修改背后过程的技术兴趣。
- Qwen3.5-35B-A3B 等模型的去审查过程是一个热门话题，用户对所使用的技术表示好奇。用户 guiopen 特别询问了实现这种去审查的方法，表明希望该过程具有透明度。
- Velocita84 提出了一个关键点，即需要评估 KL 散度（KLD）来证实未审查模型“无能力损失”的说法。这表明用户要求严谨的统计验证，以确保模型在修改后性能保持完好。
- Long_comment_san 询问了去审查过程的复杂性，质疑这是否涉及适用于不同模型的标准程序，还是需要针对每个架构进行特定调整。这突显了对 AI 模型去审查所涉及的技术挑战和方法的关注。
- Qwen 3.5 0.8B - small enough to run on a watch. Cool enough to play DOOM. (热度: 635): 该帖子讨论了一个使用 **Qwen 3.5 0.8B 模型的 VLM Agent 实现，该模型小到可以在智能手表上运行，并能通过 VizDoom 玩《毁灭战士》（DOOM）。该模型采用了一种简单的方法：获取屏幕截图，覆盖网格，并使用带有“射击”和“移动”工具的视觉模型来决定行动。尽管体积很小，该模型在基础场景中表现良好，通过选择正确的列进行射击来完成击杀。然而，在“defend_the_center”等复杂场景中，它在节省弹药方面表现不佳。该方案涉及 Python、VizDoom 以及对 LM Studio 的 HTTP 调用，在 M1 Mac 上每步延迟为 10 秒。作者正在通过向工具调用添加“原因”（reason）字段来改进弹药节省。** 评论者强调了使用如此微小的模型进行游戏的创新性和潜力，其中一位提到了现有的用于模型玩 DOOM 的基准测试框架，另一位则表示有兴趣在其他模型和游戏中测试类似的设置。
  - ethereal_intellect 讨论了 Qwen 3.5 0.8B 模型的潜在性能指标，提到计划将其连接到《死亡打字员》（Typing of the Dead）和 Monkeytype 等打字游戏，以测量每分钟字数（WPM）和每秒帧数（FPS）。他们注意到在 GPU 上使用 LM Studio 进行的初步测试显示，首字延迟（TTFT）为 0.16ms，表明处理循环可能非常快。
  - mitchins-au 引用了现有的用于模型玩 DOOM 的基准测试框架，表明已有既定方法来评估此类能力。这意味着 Qwen 3.5 0.8B 模型可以使用这些基准测试来评估其游戏性能。
  - No_Swimming6548 提出了 Qwen 3.5 0.8B 模型是否可以在高端 GPU 上实时运行的问题，暗示了如果模型性能足够，实时游戏应用将具有潜力。
Qwen-3.5-27B-Derestricted (活跃度: 401): Qwen-3.5-27B-Derestricted 模型可在 Hugging Face 上获取，这是一个拥有 280 亿参数的大语言模型，支持 BF16 和 F32 张量类型。该模型在上个月已被下载 95 次，但尚未被任何推理提供商部署。用户注意到其无审查（uncensored）的特性，使其能够不受限制地回答各种查询。该模型仍处于实验阶段，其连贯性和智能仍在评估中，如 UGI Leaderboard 上的表现所示。评论者对该模型缺乏审查感到惊讶，其中一位用户指出它毫不犹豫地回答了具有争议性的查询。另一位评论者是该模型的创建者，他在继续实验 Qwen 3.5 模型的同时寻求反馈。该模型的潜力通过其过去在连贯性和智能指标上的表现得到了凸显。
- Qwen-3.5-27B 模型，特别是其“无审查”版本，因其能够毫不犹豫地回答争议性或敏感查询而引起关注。这引发了关于模型能力与伦理约束之间平衡的问题，正如在 Hugging Face 等平台上测试其极限的用户所指出的。
- 模型的创建者 Arli_AI 正在积极寻求有关 Qwen 3.5 模型（尤其是 27B 变体）的反馈，该模型仍处于实验阶段。缺乏正式的 Model Card 表明该模型处于初步阶段，用户反馈对其开发至关重要。
- 讨论中涉及了描述不同模型限制级别的术语，如“uncensored”、“abliterated”、“derestricted”和“heretic”。这些术语表示模型在生成回复时的不同自由程度，其中“Heretic 1.2”被提及为可能取代“Derestricted”功能的更高级版本。这突显了模型定制的不断演进以及社区对理解这些区别的兴趣。

2. 本地 LLM 体验与挑战

I regret ever finding LocalLLaMA (活跃度: 498): 这篇文章描述了进入本地大语言模型（LLM）世界的旅程，从使用 AI 作为学习辅助工具开始，演变为深入研究 **LocalLLaMA 和 LM Studio 等本地 AI 技术。用户讨论了购置 MI50s 等硬件、尝试量化以及探索 Qwen 和 Gemini 等各种 AI 模型。叙述强调了本地 AI 的技术复杂性和个人痴迷，尽管它在工程圈之外的受众较窄。** 一位来自大型 AI 公司的评论者指出，本地 AI 在工程领域之外并未得到广泛认可，并将其潜在影响比作计算领域的 Linux。另一位评论者认为通过本地 AI 追求知识是一种积极的成瘾。
How I topped the Open LLM Leaderboard using 2x 4090 GPUs — no weights modified. (活跃度: 535): 这篇文章描述了一种提高 Qwen2-72B 模型在 Open LLM Leaderboard 上表现的新颖方法：在不修改任何权重的情况下，复制特定的 7 个中间层块。这种使用 2x RTX 4090 GPU 开发的方法使该模型登顶排行榜。作者指出，仅复制单层或过多层都不会产生相同的结果，这表明预训练创建了必须整体保留的离散功能电路。完整的技术细节可以在博客文章中找到。一位评论者指出，他们经常发现模型中间部分的一组特定连续层最为有效，这与作者关于“中间推理皮层”的发现相吻合。这表明人们对保留神经网络中特定层结构的重要性有着共同的理解。
Arli_AI 讨论了一种手动消融（ablating）神经网络层的技术，指出中间的连续层通常表现最好，这与原帖关于“中间推理皮层（middle reasoning cortex）”的发现相吻合。这表明通过针对特定层进行复制或修改，可能是优化神经网络性能的一个潜在关注领域。
sean_hash 提出了一个关于层复制与 fine-tuning 相比有效性的关键点，认为层复制的成功可能突显了 base models 训练中的缺陷。这暗示当前的训练方法可能未能充分利用神经网络架构的潜力。
Hanthunius 询问了层复制的实现细节，质疑这些层是在内存中预先复制的，还是在 runtime 使用了额外的循环。后一种方法可以通过避免内存复制并允许自动化测试，从而提供更大的灵活性和效率。
和家人朋友聊起 AI 时，还有人觉得自己像个局外人吗？ (热度: 653): 该帖子讨论了 AI 技术专家与公众认知之间的脱节，后者往往受煽动性新闻标题的影响。作者从事 AI 模型工作，发现很难在不显得过于防御或轻视的情况下弥合这种差距。他们指出，非技术人员往往对 AI 持负面看法，理由是对创造力、炒作和信任的担忧，而这些担忧并不总是基于对技术的深入理解。评论者提出了多种观点，从将 AI 视为对工作和创造力的威胁，到过度信任 ChatGPT 等 AI 工具。一些人认为媒体的炒作加剧了这些两极分化的观点，关于 AI 的对话应该考虑参与者的情感和社交需求，而不是仅仅关注技术准确性。
- ttkciar 的评论强调了 AI 讨论中的一个常见问题：公众认知与技术现实之间的差距。评论者指出，包括他们的配偶在内的许多人，是根据煽动性的媒体报道而非技术事实来形成观点的。他们还讨论了“AI Winter”的概念，强调这是由态度和资金驱动的，而非技术能力。这反映了对 AI 潜力和局限性的广泛误解，而媒体叙事往往加剧了这种误解。
- Krowken 的评论涉及了与 AI 相关的多个技术和社会担忧，例如对 AI 自动化导致失业的恐惧、教育背景下的认知卸载（cognitive offloading）以及 AI 生成内容的泛滥。他们还提到了 RAM 成本上升对家庭计算负担能力的影响，以及围绕 AI 的道德问题，如深度伪造（deep fake）色情内容和误用聊天机器人替代心理治疗。尽管有这些担忧，评论者承认 large language models 在特定任务中的效用，说明了许多人对 AI 在社会中角色的细微看法。
- Heavy-Focus-1964 强调了在讨论 AI 等复杂话题时沟通技巧的重要性。他们建议，在双方存在显著知识差距的讨论中，有效传达技术知识而不使他人感到疏远是一项宝贵的技能。这条评论强调了在 AI 对话中弥合技术专家与普通大众之间鸿沟的挑战。

3. AI 硬件与性能讨论

真心好奇 M5 Ultra 将开启怎样的大门 (热度: 591): 该图片详细对比了各种 GPU，包括数据中心、消费级、工作站和 Apple Silicon 模型，重点关注 VRAM、显存类型、总线宽度和带宽等规格。Apple M5 Ultra 因其使用 LPDDR5X 显存实现的 819 GB/s 惊人带宽而受到关注，这预示着显著的性能提升。这种对比表明 M5 Ultra 的带宽正在追赶高端 GPU，可能使更大规模的模型在应用中变得更加可行。讨论还推测了苹果未来的设计，如 M3 Ultra 可能达到 ~1200GB/sec 的带宽，使其在与即将推出的 5090 等 GPU 竞争时处于有利地位。评论者指出对比中缺少显存为 96GB VRAM 的 RTX 6000 PRO Blackwell，凸显了对比中的空白。还有关于 M5 Ultra 高昂成本的幽默评论，暗示其价格可能非常昂贵。
TokenRingAI 强调了 M5 Ultra 潜在的内存速度，估计约为 1200GB/sec，这将使其性能仅次于 5090。这表明数据吞吐量有了显著提升，可能会增强需要高内存带宽的任务。
sine120 讨论了当前 DRAM 配置的局限性，强调高性能任务至少需要 128GB 的 unified memory。他们提到像 Qwen3.5-122B 和 Coder-Next 战略模型适合 128GB 的 M5 Max，但指出其高昂的成本可能是典型游戏装备的 3-4倍，因此很难证明其在便携式开发中的合理性。
false79 指出讨论中缺少了配备 96GB VRAM 的 RTX 6000 PRO Blackwell，在内存容量和性能方面，它可能是一个重要的竞争对手，特别是对于专业和高端计算任务。
Happy birthday, llama.cpp! (活跃度: 243): 该帖子庆祝了 llama.cpp 的周年纪念。这个项目始于 Meta 原始 LLaMA 模型的泄露。起初，该项目在性能方面举步维艰，每秒只能处理几个 token。然而，自那以后它已经取得了显著的发展，支持 sub-7B 模型、>200k context 以及 fine-tuning 能力等高级功能。该项目的成功在很大程度上归功于 **Georgi 和其他人的贡献，在 quantization 和 C++ 重写方面取得了显著进展。更多技术细节请参见原始 commit。** 一条评论强调了 quantization 工作（而非 C++ 重写）在实现在 Mac Mini 上以对话速度运行 70B 模型方面的重要性，突出了 llama.cpp 团队的技术成就。
- sean_hash 强调了 llama.cpp 取得的重大进展，指出从 Georgi 的第一次 commit 到实现在 Mac Mini 上以对话速度运行 70B 模型花了三年时间。评论强调，虽然 C++ 重写经常被提及，但 quantization 工作在这一进步中更为关键。
- Kornelius20 反思了 llama.cpp 对其职业生涯的影响，提到他们最初是如何在大学工作站上通过种子下载模型的。这次经历至关重要，表明通过 llama.cpp 获得的模型可访问性在塑造他们当前在该领域的工作方面发挥了重要作用。
- Weak_Engine_8501 对 llama.cpp 带来的创新表示感谢，特别是它使模型能够在本地硬件上运行。这条评论强调了 llama.cpp 在让本地 LLM 对个人使用更加便捷和实用方面的重要性，突出了其在个人和职业发展中的作用。
karpathy / autoresearch (活跃度: 396): **Andrej Karpathy 通过 ‘autoresearch’ 框架引入了一种 AI 研究自动化的新方法，该框架允许 AI Agent 在一夜之间自主修改和测试 LLM 训练设置。这一过程涉及一个简化的单 GPU 版 nanochat 实现，Agent 在其中迭代调整代码、进行短期训练并评估改进。这项创新在于使用 program.md 文件来引导 AI Agent，标志着从传统的 Python 文件操作转向在自然语言文档中编程，这可能会重新定义研究工作流。** 评论者对 Karpathy 方法的新颖性和影响表示怀疑，一些人认为它缺乏重大的架构创新，而另一些人则强调了 program.md 模式作为研究策略范式转移的潜力。
- 讨论中提到了对 Andrej Karpathy 方法的批评，认为他对比 Transformer 和 AGI 的关注可能具有局限性。一位评论者建议探索 GraphMERT 作为替代 Transformer 的潜在架构，表明他们认为 neurosymbolic 方法可能为 AI 研究提供一个更有前景的方向。
- 提出的一个关键点是 program.md 模式的创新使用，其中研究策略被编码在 Markdown 文件中供 Agent 解释和执行。这种方法被视为 AI 研究中潜在的范式转移，强调了在“自然语言文档中编程”相对于传统自动化循环的重要性。
- 关于 nanochat 排行榜 的评论指出，虽然像 RoPE 调整这样由 Agent 驱动的更改类似于贝叶斯优化，但真正的挑战在于如何从快速的小型实验扩展到大规模、资源密集型模型训练。瓶颈仍然在于算力，这凸显了从小型 AI 模型推广到大型 AI 模型的困难。

非技术性 AI Subreddit 综述

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. 自主 AI 研发

Andrej Karpathy 的最新进展 - 自主改进的 Agent 智能体集群现已上线 (热度: 515): Andrej Karpathy 分享了 AI 训练领域的一项重大进展：一个能够自主改进的 Agent 智能体集群现已投入运行。该系统通过执行 20 项改动来优化模型的验证损失（validation loss），使“Time to GPT-2”指标提升了 11%。该系统自主执行了“尝试 → 测量 → 思考 → 再次尝试”的循环，在无需人工干预的情况下，将达到 GPT-2 性能水平的训练时间从 2.02 小时缩短至 1.80 小时。这展示了自主系统在优化神经网络训练方面的潜力，详见 Karpathy 的 nanochat 项目。评论者对该系统的自主性深感好奇，其中一人指出，这是 AI 首次独立执行研究循环并超越人工调优的案例。另一条评论幽默地询问这是否标志着 Singularity（奇点）时代的开始。
- SECONDLANDING 强调了一项重大成就：一个 AI Agent 自主将模型的训练效率提高了约 11%，将达到 GPT-2 性能水平的时间从 2.02 小时缩短到 1.80 小时。这是通过一个包含迭代测试和优化的自我导向研究循环实现的，标志着 AI 超越人工调优工作的显著案例。该项目的详细信息已发布在 GitHub 上。
- Worldly_Expression43 分享了关于 Opus 4.6 的类似经验，它使用 pgvector 自主优化了一个检索增强生成（RAG）管道。该 AI 评估了多种分块策略，测试了六种不同的方法，并提供了一个比原始方法快三倍的解决方案。这突显了 AI 在自我基准测试和优化方面的潜力，从而带来显著的性能提升。
Andrew Karpathy 的 “autoresearch”：一个由 AI 编辑 PyTorch、运行 5 分钟训练实验并持续降低自身 val_bpb 的自主循环。“谁能想到早期的 Singularity 会这么有趣？:)” (热度: 839): Andrej Karpathy 推出了一个名为 “autoresearch” 的自主研究框架，它利用运行 5 分钟训练实验的循环，自动优化神经网络架构、优化器和超参数。该系统在 git 特性分支上运行，在发现改进的设置时自主提交 commit，从而有效降低验证损失（val_bpb）。这种方法实现了持续的、无人值守的研究进展，可视化图表中的每个点都代表一次完整的 LLM 训练运行。该项目在一个专为单 GPU 使用而设计的极简仓库中实现，代码量约为 630 行。更多详情请参见原帖。评论者强调了这种方法在大型模型训练中将人类排除在循环之外的潜力，认为它可能带来超越当前 Transformer 局限性的重大进展。Tobi Lutke 分享了一个个人实验，该系统在通宵运行中将模型的得分提高了 19%，证明了其快速自主优化的潜力。
- Kaarssteun 分享了一个案例：在一个 0.8b 的小模型上，经过 8 小时内 37 次实验，AI 自主将模型性能提升了 19%（相比之前的 1.6b 模型）。这突显了 AI 驱动的研究在高效优化模型方面的潜力，即使是非专家，也可以通过对实验进行迭代推理来提高模型质量和速度。
- Karpathy 确认，autoresearch 系统在深度为 12 的模型上发现的改进成功迁移到了深度为 24 的模型上，这表明该系统的优化具有可扩展性。这产生了一个新的 “time to GPT-2” 排行榜记录，展示了该系统跨规模提升模型性能的能力。
- Alarming_Bluebird648 讨论了通过 AI Agent 管理其自身的 git 分支来实现递归优化的实施，以减少 nanochat 运行中的每字节验证比特数（val_bpb）。这种方法被视为克服当前 Transformer 瓶颈的一种途径，有可能将这些循环扩展到全架构搜索。
Yann LeCun 揭晓其新创公司 Advanced Machine Intelligence (AMI Labs) —— 并融资 10.3 亿美元 (活跃度: 836): Yann LeCun 与 Alexandre LeBrun 共同创立了一家新创公司 Advanced Machine Intelligence (AMI) Labs。该公司已筹集 10.3 亿美元，利用 LeCun 的 JEPA 架构 开发 世界模型 (world models)，旨在模拟物理现实而非仅仅是文本，从而解决当前 LLMs 的幻觉问题。该计划被定位为一个长期研究项目，短期内没有产品或收入预期，所有代码和论文都将开源。知名投资者包括 NVIDIA、Samsung 和 Bezos Expeditions。TechCrunch 评论者对 LeCun 务实的 AI 方法表示赞赏，并指出他在 AI 能力方面的诚实名声。人们对他独立创业的潜在成果持乐观态度。
- 据报道，Yann LeCun 的新创公司 Advanced Machine Intelligence (AMI Labs) 正寻求超过 50 亿美元的估值。公司组建了领导团队，LeBrun 担任 CEO，LeFunde 担任 CFO，LeTune 担任 post-training 负责人。他们还在考虑聘请 LeMune 负责增长，LePrune 负责推理效率，这表明其战略重点在于 AI 模型的规模化和优化。TechCrunch 提供了有关此进展的更多细节。
- AMI Labs 获得的 10.3 亿美元巨额融资表明，在开发先进 AI 模型（可能侧重于世界模型）方面投入巨大。这种融资水平表明了对 LeCun 愿景的信心，以及 AI 技术取得突破性进展的潜力，特别是在需要大规模计算资源和创新模型架构的领域。
- Yann LeCun 在 AMI Labs 的方法因其强调务实的 AI 能力而受到关注，避免了其他行业出现的过度炒作。他的领导力预计将为 AI 发展带来平衡的视角，专注于实用和可扩展的解决方案，而非投机性技术。这与他在该领域的现状和未来潜力方面提供诚实见解的声誉相一致。
- Figure 机器人自主打扫客厅 (活跃度: 1758): Figure AI 展示了他们的人形机器人 Helix 02 自主打扫客厅，展示了机器人在运动和决策方面的进步。机器人使用各种身体部位来操纵物体，例如利用重力将玩具推入篮子，以及用遥控器关闭电视，这表明其对物理交互的理解有所提高。该演示突显了机器人能够以更少的中间处理执行任务，表明其操作的效率和流畅度有所增强。来源。评论者对机器人拟人的动作和决策能力印象深刻，尽管他们指出需要关于自主程度与预编程动作之间透明度的说明。讨论强调了理解指令抽象程度以及机器人任务泛化能力的重要性。
  - 机器人能够利用不同的身体部位完成任务（如利用重力将玩具丢进篮子），展示了对物理交互理解的提升。这表明 AI 在理解物理世界方面取得了进展，尽管在任务执行（如确保表面彻底清洁）方面仍需优化。
  - 讨论的一个关键点是机器人指令的抽象程度。辩论集中在机器人是根据“整理房间”这种通用命令自主推断任务，还是每个动作都是预先编程的。这些过程的透明度对于评估 AI 的进展至关重要。
  - 机器人的表现因其相比之前专注于娱乐（如后空翻）的演示更具实用价值而受到关注。这种向功能性任务的转变突显了机器人技术向更实际应用发展的趋势，尽管目前的各种能力在复杂的现实场景中仍然有限。
培养皿中的 800,000 个脑细胞学会了玩电子游戏 (活跃度: 2605): 研究人员在体外成功培养了 800,000 个人类脑细胞，这些细胞展示出了学习和玩电子游戏 Pong 的能力。这项由 **Cortical Labs 进行的实验展示了 “DishBrain” 技术的潜力，即将神经元与计算机芯片集成，创建一个生物计算接口（biological-computational interface）。神经元能够随着时间的推移进行适应并提高游戏水平，这表明其具备某种形式的初步学习和决策能力。这项研究对于理解神经网络和开发先进的 AI 系统具有重要意义。** 评论反映了幽默与哲学好奇交织的情绪，一些用户注意到了此类实验引发的伦理和存在主义问题，特别是关于意识本质和人类定义的讨论。

2. Claude Code 评审功能与特性

为 Claude Code 引入 Code Review 新功能 (活跃度: 819): **Anthropic 为其 Claude Code 平台推出了一项名为 Code Review 的新功能，旨在面向 Team 和 Enterprise 用户。该功能旨在通过提供深度的 Multi-Agent 评审来解决代码审查中的瓶颈，从而捕捉人类评审者经常遗漏的 Bug。在内部测试中，它将 PR 上实质性的评审评论比例从 16% 提高到了 54%，且只有不到 1% 的发现被标记为错误。在大型 PR 中，84% 的评审发现了问题，平均每个 PR 包含 7.5 个问题。评审过程非常彻底，耗时约 20 minutes，成本为 $15–25，侧重于深度而非速度。它辅助人类评审员，但不会自主批准 PR。更多详情请参见此处。** 评论者注意到了评审的高昂成本和耗时，认为该功能主要针对企业。此外，还有人幽默地提到了该功能的内部测试，并对人类评审员的坚持表示认可。
- Claude Code 推出的 Code Review 被认为针对企业用户，因为其成本结构显示平均每次评审耗时 ~20 minutes，费用约为 ~$15–25。这种定价模型表明其更注重深度而非速度，对于每天处理多个 PR 的小型公司或初创公司可能不适用，有用户估计每天 10-15 个 PR 的成本约为 ~$300。
- 一位用户指出，尽管引入了 Code Review，但仍然需要人类评审员，这限制了该功能的成本节约潜力。这表明虽然该工具可以辅助评审过程，但并不能取代人工监督，因此对寻求降低运营成本的初创公司吸引力较小。
- 该功能已在 Anthropic 内部使用了数月，正如一位引用公司状态页面的用户所指出的。这表明在公开发布之前经历了一段时间的测试和完善，暗示其重点在于确保在企业环境中的可靠性和有效性。
将 Code Review 引入 Claude Code (活跃度: 457): **Claude Code 引入了一项名为 Code Review 的新功能，该功能利用一组 Agent 来识别 Pull Requests (PRs) 中的 Bug 并按严重程度排序。该功能提供高信号的摘要评论和针对检测到问题的内联标记（inline flags）。目前作为研究预览版（research preview）向 Team 和 Enterprise 用户提供 Beta 测试，根据大小和复杂性，每次 PR 的平均成本为 $15–25，按 Token 使用量计费。更多详情请参见其博客文章。** 一些用户对成本表示担忧，指出与 Codex 方案等内置解决方案相比，每个 PR $15–25 的费用较高。另一些人则建议，利用现有的技能和 Agent 也可以手动进行类似的评审。
使用 Claude Code 审查功能的成本是一个主要争论点，用户强调每次 Pull Request (PR) 的费用在 $15 到 $25 之间，具体取决于规模和复杂度。与 Codex 相比，这被视为一个劣势，因为 Codex 在其计划中包含了类似功能且无需额外费用。该定价模型基于 Token 使用量，这使得大型项目的成本预测性较低且可能更高。
Claude Code GitHub Action 被提及为全套 Code Review 服务的一种更轻量且可能更具成本效益的替代方案。此选项可能更适合不需要深度全面审查并希望更有效地管理成本的用户。GitHub Action 旨在与现有工作流程无缝集成，在功能和成本之间提供平衡。
一些用户对 Claude Code 审查服务的价值主张表示怀疑，认为通过个人专业知识和使用 Agent 可以达到类似效果。这种观点强调了利用现有技能和工具优于投资可能昂贵的服务，特别是当像 Codex 这样的替代方案提供无需额外费用的集成解决方案时。
介绍 Code Review，Claude Code 的一项新功能。 (Activity: 891): Anthropic 为其 Claude Code 平台推出了一项名为 Code Review 的新功能，目前处于面向 Team 和 Enterprise 用户的研究预览阶段。该功能旨在通过提供深度的 Multi-agent 审查来解决代码审查中的瓶颈，从而捕捉人类审查者经常遗漏的 Bug。在内部测试中，它将 PR 上的实质性审查评论从 16% 提高到了 54%，且工程师标记为错误的发现比例低于 1%。在大型 PR（1,000 行以上）中，84% 会发现问题，平均每次审查发现 7.5 个问题。审查旨在追求深度，大约耗时 20 分钟，成本为 $15–25，虽然比轻量级扫描更贵，但旨在防止代价高昂的生产事故。更多详情请参阅这里。评论者对每次审查 $15-25 的成本表示担忧，认为与能够更快、更便宜提供反馈的自定义自动化解决方案相比，这一价格过高。一些人认为对于无法自定义设置的团队来说，这是一个昂贵的选项。
- SeaworthySamus 强调了通过使用自定义斜杠命令 (slash commands) 进行自动化 Pull Request 审查，从而节省成本并提高效率的潜力。这些命令可以根据特定的范围和编码标准进行定制，比新功能建议的每次审查 $15-25 提供更快且成本更低的反馈。对于能够自定义设置的团队来说，这种方法可能比使用可能很昂贵的现成解决方案更合适。
- spenpal_dev 质疑了新的 Code Review 功能与现有的 /review 命令之间的区别。这表明需要澄清该新功能相对于现有工具提供了哪些额外的价值或功能，这可能会影响其感知价值和采用率。
- ryami333 指出维护者对 GitHub 仓库中一个高赞 Issue 缺乏回应，特别是 Issue #6235。该评论强调了用户反馈与开发优先级之间可能存在的脱节，表明解决用户报告的问题可能比引入新功能更有益。
我使用 Claude Code 构建了一个自动运行 Chrome Dino 的 USB dongle —— 无需驱动程序，无需主机软件，只需 2 美元的开发板和两个光传感器 (Activity: 653): 该贴描述了一个使用 **ATtiny85 USB dongle 实现 Chrome Dino 游戏自动化的项目。该设备作为 USB HID 键盘运行，无需额外软件，并使用两个 LDR 传感器检测障碍物并发送跳跃/下蹲指令。固件采用原生 C 语言并使用 avr-gcc 编写，集成了 V-USB HID 协议栈，并利用脉冲宽度包络测量（pulse-width envelope measurement）进行自适应定时。Claude Code 协助开发了固件，包括障碍物分类逻辑和自适应定时，而 Codex 提供了代码审查并发现了一个 bug。该项目强调其不依赖主机侧软件及其自适应定时机制，固件总大小为 2699 bytes。提供了 GitHub Repo 和 Blog 链接以获取更多详情。** 评论反映了幽默与惊讶的交织，一位用户对项目的复杂性表示钦佩，另一位则对游戏中的下蹲功能感到惊讶。评论中没有深度的技术争论。
毫无疑问，这是关于 Claude Cowork 最好的指南 (Activity: 1483): 该图片提供了一个详细的对比指南，用于比较在三种模式下使用 **Claude AI：Chat、Cowork 和 Projects。它突出了在访问、设置和功能方面的差异，指出 Chat 的功能类似于 chatbot，Cowork 允许桌面文件交互，而 Projects 则作为一个保存的工作空间。该指南还规定了每种模式所需的技能、输出质量和上下文处理方式，并提到 Cowork 和 Projects 需要 Pro Plan 订阅。这种结构化的对比有助于用户根据需求决定使用哪种模式。** 一位评论者指出，Claude AI 的 Chat 模式现在可以保留对话记忆，类似于 ChatGPT，增强了其易用性。另一位评论者则希望在对比中加入 Claude Code。

3. AI 模型性能与基准测试

基准测试模型性能：发布首日对比当前 API 版本 (热度: 189): 该图片对比了 Gemini 3.1 Pro 模型在两个不同日期的输出，强调了随时间推移感知到的质量退化。左图来自 2026 年 2 月，显示了一辆更具细节的法拉利；而右图来自 2026 年 5 月，看起来不够精致。这表明模型更新或 API 更改可能会影响输出质量。讨论强调了 LLM 的随机性（stochastic nature），指出在没有进行多次运行以排除变数的情况下，单次对比可能不可靠。评论者强调了语言模型的概率性质，认为单次实例对比不足以对模型性能随时间的变化做出结论。
- DifficultSelection 强调了理解 LLM 推理本质上是随机的这一特性的重要性，并建议为了从性能对比中得出有意义的结论，每天应该进行大约 30 次运行。这种方法考虑到了由于语言模型的概率性质而导致的输出差异。
ChatGPT vs Gemini vs Claude vs Perplexity：我给它们各 1000 美元去炒股。9 周后，ChatGPT 从资金冻结变为盈利 21%（一只股票翻倍） (热度: 492): 在为期 9 周的实验中，四个 AI 模型——ChatGPT、Gemini、Claude** 和 Perplexity——各获得 $1,000 美元，通过 Alpaca APIs 自主进行股票交易。ChatGPT 以 +21.1% 的回报率领先，这主要归功于其对医疗保健类股（尤其是 IOVA 和 ACHC）的战略性全仓投入，这些股票涨幅显著。Perplexity 通过持有现金维持了 +1.1% 的回报率，而 Gemini 和 Claude 则表现不佳，回报率分别为 -6.6% 和 -11.5%，原因在于高风险交易和频繁止损。同期 S&P 500 指数下跌了 -1.5%，凸显了 ChatGPT 的相对超额表现。该实验通过 Python 实现自动化，结果公开发布在 GitHub 上。** 评论者认为结果可能具有偶然性，并建议使用每个模型的多个实例来验证发现。另一个建议是加入随机对照组（如投掷飞镖），以便与 AI 的表现进行对比。
- Disastrous-Wildcat 提出了关于结果潜在随机性的有效观点，建议使用同一模型的多个实例复制实验，以提供更具统计学意义的见解。这需要大量的资金投入，但有助于确定观察到的表现是持续性的还是仅仅是巧合。
- vegt121 提出了一个更稳健的实验设计，建议每个模型使用 100 个实例，每个实例注资 $1,000 进行股票交易。这种方法可以跨更大样本量进行全面分析，潜在地揭示模型交易策略中的模式或一致性。然而，主要的挑战是进行此类实验需要 40 万美元的资金需求。
- Jumpin_Joeronimo 提出了一个有趣的想法，即利用模型来跟踪和模仿国会议员的股票交易，可以利用汇总此类数据的网站。假设模型能够有效解释这些信息并据此采取行动，这可能为 AI 驱动的股票交易提供一种独特的策略。
16+ AI 图像模型大对决 — Midjourney v7, GPT Image 1.5/Mini, Nano Banana Pro/2/1, Kling Kolors v3.0/v2.1, Seedream 5.0 Lite/4.6/4.5/4.1/4.0, Imagen 4, Qwen Image, Runway Gen4 — 同一提示词，并排对比 (热度: 96): 本文对 16+ AI 图像模型 进行了全面对比，包括 **Midjourney v7、GPT Image 1.5/Mini、Nano Banana Pro/2/1、Kling Kolors v3.0/v2.1、Seedream 5.0 Lite/4.6/4.5/4.1/4.0、Imagen 4、Qwen Image 以及 Runway Gen4。每个模型都使用相同的提示词进行评估，以突出渲染能力的差异，重点关注细节、色彩准确度和艺术风格等方面。对比旨在展示每个模型的优缺点，其中 Midjourney v7 因其戏剧化效果而受到关注，但因近距离观察时缺乏细节而受到批评。完整文章可在此处查阅。** 一条评论强调了 Midjourney 输出带来的令人印象深刻的初始视觉冲击，但指出仔细观察时缺乏细节，这表明在视觉吸引力与精细细节之间存在权衡。

AI Discords

遗憾的是，Discord 今天关闭了我们的访问权限。我们不会再以这种形式恢复它，但我们很快就会发布全新的 AINews。感谢大家一直以来的关注，这是一段美好的旅程。

**Yann LeCun 的 AMI Labs 获 10.3 亿美元种子轮融资成立，旨在围绕 JEPA 构建世界模型。**