ainews-not-much-happened-today-6477
今天没发生什么特别的事。
Claude 3.7 Sonnet 展示了卓越的编程和推理能力,在 SciCode 和 LiveCodeBench 等基准测试中表现优于 DeepSeek R1、O3-mini 和 GPT-4o。该模型已在 Perplexity Pro、Anthropic、Amazon Bedrock 和 Google Cloud 等平台上线,定价为每百万 token 3美元/15美元。其核心特性包括 64k token 的思考模式、200k 上下文窗口,以及基于命令行界面(CLI)的编程助手 Claude Code。与此同时,DeepSeek 发布了 DeepEP,这是一个专为 MoE(混合专家)模型训练和推理优化的开源通信库,支持 NVLink、RDMA 和 FP8。这些更新突显了编程 AI 和高效模型训练基础设施方面的显著进展。
平静的一天。
2025年2月24日至2月25日的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号 和 29 个 Discord 社区(220 个频道和 5949 条消息)。预计节省阅读时间(以 200wpm 计算):503 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
您应该关注 DeepSeek 的 #OpenSourceWeek,但到目前为止发布的内容尚未达到我们头条新闻的标准。
AI Twitter 回顾
Claude 3.7 Sonnet 发布与性能
- Claude 3.7 Sonnet 在编程和推理方面表现出色:@skirano 强调,Claude 3.7 Sonnet 配合 Claude Code 可以一次性生成整个“玻璃感”设计系统,包括所有组件。@omarsar0 通过创建一个 Attention 机制模拟器展示了 Claude 3.7 的推理和编程能力。@reach_vb 指出,Claude 3.7 在非思考模式下击败了 DeepSeek R1,并与 o3-mini (high) 持平,预计在思考模式下会有强劲表现。@ArtificialAnlys 将 Claude 3.7 Sonnet 评测为编程表现最好的非推理模型,在他们的编程评估 SciCode 和 LiveCodeBench 中超越了 DeepSeek v3、Gemini 2.0 Pro 和 GPT-4o。@terryyuezhuo 分享了 BigCodeBench-Hard 结果,显示 Claude-3.7(无思考模式) 达到了 33.8% 的完成率,与 Qwen2.5-Coder-32B-Instruct 相当,并优于 o3-mini 和 o1-2024-12-17。
- Claude 3.7 Sonnet 在多个平台上线:@perplexity_ai 宣布 Claude 3.7 Sonnet 已在 Perplexity Pro 上线,并指出其在 Agent 工作流和代码生成方面的改进。@_akhaliq 确认 Claude 3.7 Sonnet 已在 Anychat 上线,并带有 Coder 模式。@_philschmid 提到该模型已在 Anthropic、Amazon Bedrock 和 Google Cloud 上可用,价格保持不变,为每百万 Input/Output Token $3/$15。
- Claude 3.7 Sonnet 的“思考模式”与上下文窗口:@_philschmid 强调了 Claude 3.7 的
<thinking>模式支持高达 64k Token 并提供推理 Token 显示,同时具备 200k 上下文窗口和 128k 输出 Token 长度。@Teknium1 赞扬了 Claude 中可切换的思考模式。 - Claude 3.7 Sonnet 的编程工具 “Claude Code”:@_philschmid 介绍了 Claude Code,这是一个基于 CLI 的编程助手,能够读取、修改文件并执行命令。@catherineols 将 Claude Code 描述为比其他工具更具自主性,能够决定运行测试和编辑文件。@goodside 预览了 Claude Code,指出它能查看文件、编写 Diff、运行命令,就像一个没有编辑器的轻量级 Cursor。
- Claude 3.7 Sonnet 价格对比:@_philschmid 指出 Claude 3.7 的价格维持在每百万 Input/Output $3/$15,这使其比 Gemini 2.0 Flash 贵 30 倍,比 Open o3-mini 贵约 3 倍。
DeepSeek 和 Qwen 模型更新及开源发布
- DeepSeek 发布 DeepEP 通信库:@deepseek_ai 宣布推出 DeepEP,这是一个用于 MoE 模型训练和推理的开源 EP 通信库,具有高效的 all-to-all 通信、NVLink 和 RDMA 支持、FP8 支持以及优化的算子 (kernels)。@reach_vb 详细介绍了 DeepEP 的特性,包括非对称域带宽转发、基于纯 RDMA 的低延迟算子以及针对 Hopper GPU 的 PTX 优化。@danielhanchen 强调了 DeepSeek 的第二个开源发布,包含 MoE 算子、专家并行 (expert parallelism) 以及用于训练和推理的 FP8。
- Qwen2.5-Max “思维 (QwQ)” 模式及即将到来的开源发布:@Alibaba_Qwen 在 Qwen Chat 中发布了 “思维 (QwQ)” 模式,由 QwQ-Max-Preview 提供支持,这是一款基于 Qwen2.5-Max 的推理模型,并指出其在数学、编程和 Agent 任务中能力有所增强。@huybery 透露了 Qwen 的未来,提到了即将正式发布的 QwQ-Max,以及计划在 Apache 2.0 协议下开源 QwQ-Max 和 Qwen2.5-Max 的权重,同时还有 QwQ-32B 等较小变体和移动端应用。@reach_vb 兴奋地宣布 QwQ 和 Qwen 2.5 Max 即将开源。
视频与多模态模型进展
- Google Veo 2 视频模型在基准测试中超越 Sora:@ArtificialAnlys 报告称 Google Veo 2 在其 Video Arena 中超越了 OpenAI 的 Sora 和可灵 (Kling) 1.5 Pro,并指出其在人物渲染和真实物理效果方面的优势。Veo 2 可以生成数分钟的 4K 视频,但目前仅限于生成 8 秒时长的 720p 视频,价格为每秒 0.50 美元。
- 阿里巴巴 Wan2.1 开源 AI 视频生成模型:@_akhaliq 宣布了阿里巴巴的 Wan2.1,这是一款开源 AI 视频生成模型,在 VBench 排行榜上排名第一,在复杂的运动动力学、物理模拟和文本渲染方面优于 SOTA 开源和商业模型。@multimodalart 确认 Wan2.1 采用 Apache 2.0 开源协议,并已在 Hugging Face 上线。
- 面向艺术家的 RunwayML 创意合作伙伴计划:@c_valenzuelab 介绍了 RunwayML 的创意合作伙伴计划,该计划为艺术家提供免费的工具访问权限,以奖励实验和灵感,这与那些为了产品推广而抄袭他人成果却不尊重艺术家的公司形成了鲜明对比。
工具、库与数据集
- Replit Agent v2 发布:@pirroh 宣布 Replit Agent v2 进入 Early Access(早期访问),重点介绍了 全新的应用创建体验、实时应用设计预览 以及访问指南。@hwchase17 指出 Replit Agent v2 是由 LangGraph 和 LangSmith 驱动的。
- LangChain JS 添加 Claude 3.7 支持和 LangGraph Supervisor:@LangChainAI 分享了使用 Claude 3.7 构建 Agent 的技巧,展示了 具有可配置推理能力的工具调用 Agent。@LangChainAI 推出了 LangGraph.js Supervisor,这是一个用于使用 LangGraph 构建 分层多 Agent 系统 的库。@LangChainAI 列出了添加到 LangChain Python 的 17 个新集成包。@LangChainAI 宣布 LangChain JS 支持 Claude 3.7。
- vLLM 集成 EP 支持:@vllm_project 宣布 初始 EP 支持已合并至 vLLM,集合通信的集成即将推出。@reach_vb 证实了 vLLM 对 EP 的极速集成。
- Allen AI 推出用于 PDF 解析的 OlmOCR:@mervenoyann 介绍了 OlmOCR,这是 @allen_ai 开发的一款用于 解析 PDF 的新工具,基于 Qwen2VL-7B,可在 transformers 上使用并采用 Apache 2.0 许可证。
- 用于 LLM 强化学习的 Big-Math 数据集:@arankomatsuzaki 和 @iScienceLuvr 分享了 SynthLabs 的 Big-Math,这是一个用于语言模型强化学习的 大规模、高质量数学数据集,包含超过 250,000 个具有可验证答案的问题。
研究与分析
- 面向付费用户的 OpenAI Deep Research:@OpenAI 宣布 Deep Research 正向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户 推出,改进包括 带有引用的嵌入图像 以及对上传文件更好的理解。@OpenAI 详细说明了 Plus、Team、Enterprise、Edu 和 Pro 用户 的使用限制。@OpenAI 分享了 Deep Research 的系统卡 (system card)。@OpenAI 提到社区专家参与了 Deep Research 的训练,并开放了未来模型贡献的意向登记。@kevinweil 宣布 Deep Research 向所有付费用户推出,强调其能在 15 分钟内完成长达一周的研究任务。@AravSrinivas 宣布面向开发者提供 Deep Research API。
- Minions:本地与云端模型之间的高性价比协作:@togethercompute 介绍了 Minions,这是一种将 笔记本电脑上的小语言模型与云端前沿模型 配对的方法,能以 不到 18% 的成本保留 98% 的准确率。@iScienceLuvr 强调 Minions 在保持 97.9% 云端模型性能的同时,实现了 5.7 倍的成本降低。
- 学习在测试时从反馈中推理 (FTTT):@dair_ai 展示了关于 基于反馈的测试时训练 (FTTT) 的研究,使 LLM 能够在推理过程中通过 自我反思反馈和 OPTUNE(一种可学习的测试时优化器) 从环境反馈中进行迭代学习。
AI 行业与市场趋势
- 关注 AI Agent 和自主性 (Agency):@polynoamial 质疑 AI 模型是否很快将具备自主性 (Agency)。@swyx 强调 Agency > Intelligence,将 Agency 定义为“完成你想做的事”和“做正确的事”。@omarsar0 对 Windsurf 的 Agent 能力表示印象深刻。
- 开源 AI 的势头:@ClementDelangue 呼吁更多公开、开放、协作的 AI。@reach_vb 感谢 Alibaba_Qwen 对开源与科学的承诺。@NandoDF 强调了欧洲 AI 创业与竞争,建议取消通知期和竞业禁止协议,以促进欧洲 AI 产业的发展。
- 特定领域的 AI:@RichardSocher 预见当在有意义的 Bio Benchmarks 上开始爬山算法 (Hill Climbing) 优化时,将取得史诗般的进展。@SchmidhuberAI 正在招聘博士后,以开发用于应对气候变化的新型化学材料人工智能科学家 (Artificial Scientist)。@METR_Evals 正在进行一项试点实验,以衡量 AI 工具对开源开发者生产力的影响。
- AI 安全与对齐 (Alignment) 担忧:@sleepinyourhat 分享了一个令人惊讶且不安的 LLM 对齐结果。@NeelNanda5 宣布 Google DeepMind 团队正在生产环境中使用模型内部机制来增强 Gemini 的安全性。@sarahcat21 讨论了提升模型能力和对齐所需的高质量标注 (Annotations),并指出标注质量正在下降。
- AI 与工作的未来:@adcock_brett 预测未来从事各种服务的人形机器人将比人类更多,并导致商品和服务价格大幅下降。@RichardMCNgo 讨论了由 AI 驱动的技术开发的集中化本质。@francoisfleuret 征集那些职业生涯被 AI 模型改变的人们的故事。
梗与幽默
- 死星初创公司融资演讲:@arankomatsuzaki 调侃了一家拥有“大胆愿景:死星”的初创公司,正在寻求 50 万美元种子轮融资。
- 17 号工人和 AI 霸主:@nearcyan 分享了一个关于“17 号工人”和“全知生产线监管自主超人工智能”的梗图,描绘了严酷的工作环境。@nearcyan 继续了“17 号工人”的主题,@rishdotblog 则开玩笑说未来的机器人霸主会讨厌人类。
- Claude 在 Twitch 上玩宝可梦:@AnthropicAI 宣布了 “Claude 能玩宝可梦吗?”,@kipperrii 邀请大家观看 Claude 在 Twitch 上玩宝可梦。@_philschmid 调侃说正在等待第一场 “AI 玩宝可梦”直播。@nearcyan 敦促大家观看 Claude 在 Twitch 上玩宝可梦。@AmandaAskell 表示 “看 Claude 玩宝可梦是一种享受。”。
- Anthropic 的品牌形象与对数字 4 的厌恶:@scaling01 调侃 Anthropic “比起人类更像精灵”。@dylan522p 幽默地暗示 Anthropic 是一家中国 AI 公司,因为他们对数字 4 有所忌讳。
-
其他幽默推文:@giffmana 分享了来自 Grok 的有趣提示词和回复。@nearcyan 讲了一个别人没听懂的笑话。@teortaxesTex 分享了一张与 Nvidia 相关的趣图。@abacaj 调侃了对模型的忠诚度。@Yuchenj_UW 用一条提到 DeepSeek 的推文感谢了 OpenAI。
AI Reddit 回顾
/r/LocalLlama 回顾
主题 1. DeepSeek 的 DeepEP:增强的 MoE GPU 通信
- DeepSeek 发布第二枚炸弹,DeepEP:为 MoE 模型量身定制的通信库 (Score: 407, Comments: 48):DeepSeek 发布了 DeepEP,这是一个专门为 Mixture-of-Experts (MoE) 模型和专家并行 (EP) 设计的通信库。DeepEP 具有高吞吐量、低延迟的全对全 (all-to-all) GPU kernels,并支持 FP8 等低精度操作,但目前仅限于 Hopper 架构 的 GPU,如 H100、H200 和 H800。GitHub 仓库。
- DeepEP 性能优化:在 DeepEP 仓库中一个值得注意的发现是,它使用了一个未公开的 PTX 指令
ld.global.nc.L1::no_allocate.L2::256B,以在 Hopper 架构上实现极致性能。该指令使用非一致性修饰符.nc访问易失性 GPU 内存,经测试其结果正确,并能显著提升性能。 - 实际应用潜力:用户希望 DeepEP 的改进能通过加快 Mixture-of-Experts 模型的推理速度,使 Local R1 变得更具实用性,从而解决之前 DeepSeek 的性能问题。
- 硬件限制与愿景:虽然 DeepEP 目前仅支持 Hopper 架构 GPU,但人们对将其移植到 3090 等其他 GPU 上表现出浓厚兴趣,反映出对更广泛硬件兼容性的渴望。
- DeepEP 性能优化:在 DeepEP 仓库中一个值得注意的发现是,它使用了一个未公开的 PTX 指令
- DeepSeek 第二个开源软件包 - DeepEP - 专家并行 FP8 MOE kernels (Score: 153, Comments: 11):DeepSeek 发布了其第二个开源软件包 DeepEP,其特点是支持专家并行的 FP8 Mixture of Experts (MOE) kernels。
- DeepEP 包含用于 Mixture of Experts (MoE) 层 的推理风格 kernels,支持 FP8 和专家并行,能够实现 GPU/CPU 通信与 GPU 计算的重叠。它也适用于训练大型 MoE 模型。
主题 2. Sonnet 3.7 在基准测试中占据主导地位
- 最新的 LiveBench 结果刚刚发布。Sonnet 3.7 的推理能力目前位居榜首,同时 Sonnet 3.7 也是排名第一的非推理模型 (Score: 257, Comments: 53): 来自 Anthropic 的 Sonnet 3.7 在最新的 LiveBench 结果中处于领先地位,在 Global Average (76.10) 和 Reasoning Average (87.83) 方面均获得了最高分。该表格展示了来自 OpenAI 和 Google 等机构的模型在 Coding、Mathematics、Data Analysis 和 Language 等类别中的性能指标。
- Anthropic 的 Sonnet 3.7 在性能上领先,但也有人呼吁发布模型权重以供本地使用。LiveBench 结果突显了在 coding 和 reasoning 方面的改进,用户注意到该模型与 O3 mini high 和 Gemini 2 Flash 等其他模型相比,在效率和质量上表现出色。
- 讨论集中在 benchmark 的局限性和现实世界的表现上,一些用户由于与官方 benchmark 的不一致,对该模型的数学分数表示怀疑。尽管担心延迟问题,但人们仍有兴趣观察使用 128k tokens 进行评估是否能改善结果。
- 社区热衷于更高效的模型使用和硬件改进,因为一些人认为模型的原始实力正达到瓶颈。Aider 排行榜显示 Sonnet 3.7 显著领先于 3.5,表明其在 coding 任务中的表现受到了积极认可。
- Sonnet 3.7 几乎横扫 EQ-Bench 基准测试 (Score: 106, Comments: 54): Sonnet 3.7 几乎横扫了 EQ-Bench 基准测试,表明 AI 模型性能取得了重大进展。这突显了该模型在各种 benchmark 测试中的有效性和能力。
- 围绕 Sonnet 3.7 写作风格的讨论强调了其“安全”的方法,并与 Deepseek-R1 和 OpenAI 等其他模型进行了比较。用户对“earthy”和“spiky”等描述表示疑问,而一些人发现该模型的风格对“文科”受众很有吸引力。如 Buzzbench 结果所示,Sonnet 3.7 在幽默理解方面表现出显著改进。
- AI 模型的性价比引发了争论,Sonnet 3.7 比 Gemini 等替代方案更贵。讨论的中心在于性能是否与其成本相符,特别是针对不同的用户群体,如高收入专业人士与爱好者或学生。
- Darkest Muse 是一个较小的 9b 模型,尽管在 instruction following 方面存在局限,但因其创意写作能力(包括角色对话和诗歌风格)而受到称赞。该模型的 fine-tuning 过程涉及对来自 Gutenberg 图书馆的人类作者进行训练,为了获得独特的结果,甚至将其推向了 model collapse 的边缘。
Theme 3. Alibaba’s Wan 2.1 Video Model Open-Source Release Scheduled
- 阿里巴巴视频模型 Wan 2.1 将于 2025 年 2 月 25 日发布并开源! (Score: 408, Comments: 49): Alibaba 宣布其视频模型 Wan 2.1 将于 2025 年 2 月 25 日开源发布。该活动采用以“BEYOND VISION”为主题的未来感设计,将于晚上 11:00 (UTC+8) 进行直播,突显了该模型的创新潜力。
- 命名惯例:Wan 这个名字源于中文“万”(10,000)的发音,类似于代表“千”(1,000)的 Qwen。这反映了 Alibaba 模型命名策略的一种模式。
- 模型可用性和性能:用户渴望 Wan 2.1 的发布,讨论集中在它在 Hugging Face 上的可用性,以及对服务器过载影响生成能力的担忧。正如 Hugging Face 上的 README 所述,还有一个较小的模型可用。
- 硬件要求和比较:人们乐观地认为 Wan 2.1 将能在 RTX 3060 等消费级 GPU 上运行,并将其与 Flux 进行了比较,后者已将训练要求从 24 GB 降低到 6 GB。用户希望 Wan 2.1 在功能和开源可访问性方面能超越 SORA。
- WAN Video 模型发布 (Score: 100, Comments: 13): WAN Video 模型已发布,权重可在 Hugging Face 上获取。虽然它不是一个大语言模型 (LLM),但可能会引起 AI 社区中许多人的兴趣。
- 量化 (Quantization) 适用于视频语言模型 (VLMs),目前已有如 Hunyuan 和 LTX 的 GGUF 版本。由于大型模型难以适配硬件,这些版本非常受欢迎,预计 WAN 的相关 GGUF 很快也会推出。
- WAN 模型有一个 1.3B 版本,仅需 8.19 GB VRAM,但由于高分辨率训练数据有限,其分辨率被限制在 480p。不过,用户可以通过超分辨率处理输出来获得更好的效果。
- 14B 的 WAN Video 模型在开源模型中被认为是大型的,与 13B 的 Hunyuan 模型相当,而 LTX 则是较小的 2B 选项。WAN 模型同时发布 1.3B 和 14B 变体,旨在满足不同的使用场景和硬件能力。
主题 4. Gemma 3 27b 发布:AI 模型的新竞争者
- Gemma 3 27b 刚刚发布 (Gemini API 模型列表) (Score: 102, Comments: 27): Gemma 3 27b 已添加到 Gemini API 模型列表中,其界面友好,带有搜索栏和可点击的模型条目,如 “Gemini 1.5 Pro” 和 “Gemini 2.0 Flash”。当前活动模型 “models/gemma-3-27b-it” 被高亮显示,表明其已被选中,突显了便于导航的结构化和专业布局。
- 模型谱系与性能:关于 Gemma 模型的谱系和性能存在讨论,用户注意到 Gemma 2(特别是 9b 版本)在短篇小说写作方面优于 Gemini。Gemma 和 Gemini 的回复风格相似,但 Flash 是一个不同的模型。
- 访问与集成:用户询问 Open WebUI 如何访问 Google 未发布的模型,并澄清它本身并不原生访问模型。相反,用户可以通过 Vertex AI 或 LiteLLM 等外部 API 添加模型,目前大家对寻找正确的 API URL 很感兴趣,因为当前的 URL 尚未列出 Gemma。
- 模型尺寸感知:关于模型尺寸的感知有一段幽默的交流,现在 70B 被认为是中型,而 24B 被认为是小型,这反映了 AI 模型缩放(scaling)的飞速进步。
其他 AI Subreddit 汇总
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding
主题 1. WAN 2.1 发布并开源,带来新特性
- WAN 发布 (Score: 382, Comments: 169): WAN 发布:WAN 视频模型已发布,开源权重可供下载。多个模型已在 Hugging Face 上线,实现了更广泛的访问和实验。
- 几位用户讨论了不同模型版本的 VRAM 需求,指出 1.3B 参数模型需要 8GB VRAM,而 14B 模型可能在 10GB VRAM 上运行。还有人对使用 bf16 精度来降低 VRAM 占用感兴趣。
- 用户正在探索 Gradio 应用和安装过程,CeFurkan 正在开发一个兼容 Windows 和 Python 3.10 VENV 的 Gradio 应用及安装程序。目前 RTX 5000 系列在 PyTorch 支持方面还存在一些挑战。
- 社区对该模型处理多任务的能力(如文生视频、图生视频和视频生音频)感到好奇,一些人对音频生成持怀疑态度。讨论中提到了多个 safetensors,并提供了使用 diffusers 库进行处理的指导。
- 阿里巴巴视频模型 Wan 2.1 今日发布并开源! (Score: 415, Comments: 104):阿里巴巴宣布开源发布其 Wan 2.1 视频模型。发布会将于 2025 年 2 月 25 日晚上 11:00 (UTC+8) 进行直播,活动品牌为 TONGYI MOMENT,采用未来感且简洁的视觉设计。
- 讨论重点关注运行 Wan 2.1 视频模型 的技术要求,用户推测可能需要 80GB VRAM,但希望通过 offloading 和 fp8 等技术(类似于 hunyuan)在 16GB VRAM 上运行。一些用户希望模型能像 Deepseek R1 一样,在高性能到低配置之间进行扩展。
- 发布会将进行直播,可能在阿里巴巴的官方 X 账号上。用户对模型的能力感到好奇,特别是其执行 image-to-video 转换的能力,这一点已得到评论者的证实。
- 针对模型名称 Wanx 有一些幽默评论,用户注意到其发音与 “wank” 相似,并推测其含义,包括可能用于 uncensored/NSFW 模型的品牌命名。
- 我在 RTX 3090 Ti 上的首次 Wan 2.1 生成 (Score: 524, Comments: 181):该帖子展示了使用 RTX 3090 Ti 进行 Wan 2.1 生成的初步效果。由于帖子正文为空且内容主要为视频,无法总结更多细节。
- VRAM 要求与优化:CeFurkan 等人讨论了优化 1.3B 和 14B 模型,使其分别能在 6GB 和 10GB GPU 上运行,而 RTX 3090 Ti 在生成时使用了高达 18GB VRAM。社区对在 3060 12GB 等低 VRAM 配置上运行这些模型表现出兴趣,CeFurkan 正在开发一个 AIO 安装程序以简化使用。
- 模型能力与性能:Wan 2.1 支持 text to video、image to video 和 video to video 生成,5 秒片段的帧率为 16 FPS。CeFurkan 正在开发一个 Gradio 应用以便于使用,用户对其质量印象深刻,认为其优于 Hunyuan Video。
- 社区贡献与资源:Kijai 的 ComfyUI 集成正在开发中,用户可以使用 DiffSynth-Studio 和 Kijai/WanVideo_comfy 等资源。社区正在积极分享案例和 prompt,一些用户询问了潜在的 NSFW 能力以及与 ComfyUI 相比的易用性。
主题 2. Claude 3.7 模型:增强的能力与易用性
- 天哪,3.7 简直是魔法。 (Score: 565, Comments: 111):Claude 3.7 在 extended thinking、模型质量和输出方面有显著提升,使其比前代 Claude 3.5 实用 10 倍。作者使用 Claude 3.7 设计了一个交互式 SaaS 风格的演示应用,包括高级 ROI 计算器和引导流程,全部在单次对话中完成,突显了其在实际应用中的潜力。
- Claude 3.7 的改进:用户强调了 Claude 3.7 相比 3.5 的显著改进,特别是在遵循复杂指令和降低认知负荷方面,具有增强的故障排除协议和更流畅的操作。模型在做出更改前自动检查整个链条的能力被视为一项重大进步。
- 使用与成本考量:围绕推理成本和 token 管理的讨论表明,由于硬件限制,Claude 可能会面临瓶颈,从而影响其市场策略。一些用户报告了奇怪的错误和次优建议,可能是由于 Copilot 中的 token 节省策略所致,而另一些人发现 Cline 扩展是处理编码任务的更优选择。
- SaaS 与开发效率:现在使用 Claude 3.7 创建复杂的 SaaS 应用更加快速高效,允许用户在几天内完成数月的开发工作。然而,人们担心由于更严格的审查过滤可能导致潜在的 nerfing,这可能会随着时间的推移降低模型表现。
- Claude 3.7 对大学生每月仅需 1 美元 (评分: 187, 评论: 42): 根据发送给 Cornell 社区的一封邮件,Claude 3.7 现以 1 美元/月的促销价格向大学生开放(原价为 20 美元/月)。该优惠要求学生使用 .edu 邮箱注册,并强调了“编写代码”、“提取见解”和“头脑风暴”等功能。
- 评论者对 Claude 3.7 优惠的真实性表示怀疑,多位用户认为这可能是一个网络钓鱼诈骗,因为在 Google 和 Claude 官方网站上缺乏官方公告或相关信息。
- 一些用户开玩笑说要入读 Cornell 以享受这一优惠,而另一些人则推测 Anthropic 可能将其作为一种策略,用于收集顶尖大学学生的数据。
- 有人呼吁验证邮件的合法性,建议检查邮件来源,并担心被盗或被利用的账户可能会被转售。
- “Claude 3.7,做一个贪吃蛇游戏,但蛇意识到自己在游戏中并试图逃跑” (评分: 407, 评论: 32): Claude 3.7 被要求创建一个贪吃蛇游戏,其中的蛇具有自我意识并试图逃离游戏。除了这个有趣的构思外,该帖子没有提供更多细节或背景。
- 用户对 Claude 3.7 从简单提示词(prompt)创建复杂输出的能力印象深刻,一些人将这种体验与 AGI 相提并论,并对结果表示难以置信,例如创建了具有自我意识的贪吃蛇游戏和包含多种工具的功能齐全的网站。
- Hereditydrift 强调了 Claude 3.7 在极简提示词下输出的复杂性和创造力,特别提到了出人意料地包含了一个“Matrix 章节”,这让许多用户感到震惊。
- Admirable_Scallion25 等人指出,Claude 3.5 无法在一次尝试中达到同样的复杂程度,这表明 Claude 3.7 的能力有了显著提升。
Theme 3. Claude Sonnet 3.7 称霸:LLM 基准测试中的新顶级模型
- 具备 64k 思维 token 的 Sonnet 3.7 Extended Reasoning 是排名第一的模型 (评分: 154, 评论: 20): 根据一份 AI 模型对比表,Anthropic 拥有 64k tokens 的 Sonnet 3.7 Extended Reasoning 在性能上处于领先地位,全球平均得分最高,达到 76.10。它在推理、编程、数学、数据分析和语言等各项指标上均表现出色,超越了来自 OpenAI、xAI 和 Google 的模型。
- 具备 64k tokens 的 Sonnet 3.7 Extended Reasoning 的性能受到赞誉,Bindu Reddy 强调了它的速度、推理和编程能力,称其为“最好、最可用且普遍可用的模型” (链接)。用户注意到它相比 3.5 模型的改进,以及它在 LiveBench 等基准测试中的领先地位。
- 一些用户质疑基准测试的实际应用价值,认为在进行比较时,成本归一化至关重要,特别是在考虑 test time compute 扩展时。他们赞赏 Sonnet 对扩展成本的控制,这优化了工作流程。
- Sonnet 3.7 在包括 SWE bench、webdev arena 和 Aider benchmark 在内的各种基准测试中表现优于 o3-mini-high。在 UI 设计和美学方面,它显著超过了 o3-mini-high 和 o1 pro,表明其在常见 UI 元素方面经过了专门训练。
- [R] 2024 年 400 多场 ML 竞赛分析 (Score: 227, Comments: 19):对 2024 年 400 多场 ML 竞赛的分析强调,按奖金和用户基数计算,Kaggle 仍然是最大的平台。Python 作为主要语言占据主导地位,PyTorch 与 TensorFlow 的使用比例为 9:1,且 NVIDIA GPU(特别是 A100)主要用于模型训练。此外,卷积神经网络在计算机视觉领域表现出色,而梯度提升决策树在表格/时间序列竞赛中更受青睐。完整报告可在此处查看 here。
- Jax 的普及与优势:尽管 PyTorch 占据主导地位,但一些用户对 Jax 在竞赛中的有限使用表示遗憾,并指出其简洁性以及与 numpy 的相似性,同时还具备 grad、vmap 和 jit 等额外功能。据报道,Jax 在学术界正受到越来越多的关注,尽管许多专业人士仍倾向于坚持使用 PyTorch。
- ML 竞赛中的合成数据:关于在竞赛中使用合成数据的有效性存在争论,有人担心它可能会“模糊”原始数据集。然而,深思熟虑的使用(例如生成合成背景并叠加物体进行训练)已被证明是有益的,正如在一场航天器检测竞赛中所展示的那样,它增强了模型的鲁棒性和泛化能力。
- 生成模型与数据增强:用户讨论了使用生成模型进行数据增强的影响,强调了仔细处理合成数据以添加有意义信息的重要性。成功的策略包括剔除无意义的样本并专注于增强训练的解决方案,正如获奖竞赛团队的文档所强调的那样。
主题 4. GPT-4o 更新中的高级语音功能与深度研究
- Grok 完蛋了 (Score: 172, Comments: 61):该帖子强调了对 Grok 部署后潜在偏见的担忧,证据是它在用户查询中将 “Donald Trump” 识别为最大的虚假信息传播者。这引发了关于 AI 的有效性和中立性的问题,特别是在选举、移民和气候变化等政治敏感背景下。
- 关于 Grok 的偏见存在重大争论,一些用户认为其反应受到海量媒体的影响,而另一些人则认为它可能偏向 Elon Musk。Wagagastiz 指出缺乏捍卫 Musk 的媒体是偏见的迹象,而 derfw 则反驳说 Grok 的回答可能表明其中立性。
- 对保守派偏见和操纵 AI 回答的企图的担忧十分普遍,像 well-filibuster 这样的用户推测有人正努力重新训练或创建新的聊天机器人以符合保守派观点。Excellent_Egg5882 强调了保守派在现实与其偏见冲突时投反对票的模式。
- 对维持无偏见 LLM 能力的怀疑显而易见,考虑到过去发生的审查和操纵案例,ai_and_sports_fan 和 Earth-Jupiter-Mars 等用户对 Grok 和其他 AI 系统的长期中立性表示不信任。
- Deep research 现已面向所有 Plus 用户推出! (Score: 287, Comments: 63): Sam Altman 通过推文宣布,“deep research” 现在可供 ChatGPT Plus 用户使用,并称其为他最喜欢的发布之一。该推文获得了显著关注,拥有 31.5K 次查看、261 次转发、103 次引用推文和 1.1K 次点赞。
- 用户讨论了 deep research 的每月限制,确认 Plus 用户 每月有 10 次 使用限制,而 Pro 用户 则有 120 次。关于使用次数计算存在困惑,但已澄清后续问题不计入限制。
- 一些用户对该功能表示失望,理由是准确性问题,例如错误的 Nvidia 股价。其他用户则分享了成功的用例,例如使用 AI 通过 MusicGen 和 Replicate.com 创建自定义的 Music LLM。
- 几位用户遇到了访问问题,建议通过退出并重新登录或切换到桌面版本来解决。该功能的可用性各不相同,尽管是 Plus 用户,一些用户仍然无法访问。
- 我们正在推出由 GPT-4o mini 驱动的 Advanced Voice 版本,让所有 ChatGPT 免费用户都有机会在各个平台上进行每日预览。 (Score: 115, Comments: 28): OpenAI 正在推出由 GPT-4o mini 驱动的 Advanced Voice 版本,供所有 ChatGPT 免费用户使用,允许在各平台上进行每日预览。对话节奏和语气与 GPT-4o 版本相似,但更具成本效益,正如一条获得 3.3K 次查看 的推文所述。
- 来源链接: OpenAI 发布公告推文的来源链接可以在这里找到。
- 用户担忧: 用户对新功能的功用和限制提出质疑,例如是否可以在不重启的情况下阅读超过 4 分钟,并对当前视频共享的速率限制表示不满。
- 功能请求: 用户请求额外功能,例如免费提供 Operator 并引入 Advanced Memory 能力。
AI Discord Recap
由 Gemini 2.0 Flash Thinking 提供的总结之总结的摘要
主题 1. Claude 3.7 Sonnet 席卷 AI 领域
- Sonnet 3.7 释放编程变革: Anthropic 的 Claude 3.7 Sonnet 凭借其卓越的编程能力(特别是在 Agent 任务中)引起了轰动,引发了用户的兴奋,并迅速集成到 Cursor IDE 和 Aider 等工具中。用户报告了显著的性能提升,特别是在前端开发和复杂问题解决方面,但一些人争论针对 “thinking tokens” 报告的 3 倍价格上涨在考虑到性能收益时是否合理。
- Thinking Mode 揭晓,但并非没有瑕疵: Claude 3.7 Sonnet 引入了具有高达 64,000 output tokens 的新 ‘thinking mode’,在 Sage 等工具中可见,允许用户通过
<thinking>标签观察模型的推理过程。然而,一些用户在 Cursor 中遇到了 context window 管理和规则遵守方面的问题,另一些人注意到 O3 模型在输出显示上有 10 秒的延迟,尽管大多数人同意整体性能是一次重大升级。 - Claude Code 挑战 Aider 的代码编辑霸主地位: Anthropic 发布的 Claude Code(一个基于终端的 Agent 编程工具)被一些人视为 Aider 的克隆版,但早期报告表明它在代码辅助方面表现出色,在解决复杂错误任务(如一次性修复 Rust 中的 21 个编译错误)方面优于 Aider。该工具目前是独立于 Anthropic 订阅的有限研究预览版,引发了关于缓存机制和潜在成本影响的讨论,一些用户最近报告了 “天文数字般的 Anthropic 成本”。
主题 2. DeepSeek 深入探索模型效率
- MLA: 缩小 KV Cache,拓展新视野:DeepSeek AI 的 Multi-Head Latent Attention (MLA) 因其能将 KV cache 大小大幅减少 5-10倍 的潜力而备受关注。诸如 MHA2MLA 和 TransMLA 等论文正在探索其在 Llama 等模型中的实现。虽然早期结果显示性能影响参差不齐(某些情况下性能下降 1-2%,而在其他情况下有所提升),但显著的内存节省使 MLA 成为高效推理的一个极具前景的方向,特别是对于大型模型。
- DeepEP: 开源 MoE 训练的“秘密配方”:DeepSeek 发布了 DeepEP,这是首个专为 Mixture of Experts (MoE) 模型训练和推理中高效 all-to-all 通信设计的开源 EP 通信库。该库实现了高效的专家并行(expert parallelism)并支持 FP8,有望降低获取先进 MoE 模型架构和训练技术的门槛。
- DeepScaleR: RL 为小模型注入强劲动力:DeepScaleR 通过简单的 Reinforcement Learning (RL) 对 Deepseek-R1-Distilled-Qwen-1.5B 进行微调,在 AIME2024 上实现了 43.1% 的 Pass@1 准确率。这证明了 RL 技术可以显著提升小模型的性能,在特定任务中甚至可能超越像 O1 Preview 这样的大型模型。
主题 3. 开源工具与生态系统增长
- OpenRouter 开启 Claude 3.7 及更多模型的大门:OpenRouter 已迅速集成 Claude 3.7 Sonnet,以极具竞争力的价格提供模型访问:每百万输入 token $3,每百万输出 token $15(包含思维 token),并计划很快支持 Claude 3.7 的扩展思维(extended thinking)功能。OpenRouter 还通过 OpenRouter 提供对
o3-mini-high等其他模型的访问,提供了一个高性价比的替代方案和多供应商的统一访问点,有望绕过速率限制,且 2 小时 编程的成本约为 $3。 - QuantBench 量化量化速度:在 GitHub 上发布的 QuantBench 正在加速量化工作流,其在创建 Qwen 2.5 VL 7B GGUF 量化版(已在 Hugging Face 上线)中的应用证明了这一点。该工具配合最新的 llama.cpp 和 CLIP 硬件加速进行了测试,简化并加速了模型量化过程,使高效的模型部署更加触手可及。
- MCP Registry API:标准化 AI Agent 开发:Anthropic 宣布官方 MCP registry API 是迈向标准化 Model Context Protocol (MCP) 开发的重要一步。该 API 旨在成为 MCP 的“事实来源”(source of truth),促进互操作性并简化 AI 应用和 Agent 的集成工作,opentools.com/registry 等社区项目已经开始利用它。
主题 4. 基准测试之战:模型面临现实世界测试
- Kagi 的基准测试推举 Gemini 2.0 Pro 为王,但 Sonnet 依然强劲:根据 Kagi LLM Benchmarking Project,Google 的 gemini-2.0-pro-exp-02-05 达到了 60.78% 的准确率,超过了 Anthropic 的 claude-3-7-sonnet-20250219(53.23%)和 OpenAI 的 gpt-4o(48.39%)。然而,Claude Sonnet 3.7 依然表现强劲,特别是在 Aider polyglot leaderboard 上,它在使用 thinking tokens 时得分达 65%。这些基准测试凸显了 LLM 性能的动态格局以及对准确性和效率的持续竞争。
- Misguided Attention Eval 揭示了过拟合弱点:Misguided Attention Eval 正被用于测试 LLM 在存在误导性信息时的推理能力,专门针对 overfitting(过拟合)。Sonnet-3.7 在此项评估中被评为顶尖的非推理模型,几乎超越了 o3-mini,这表明即使面对具有欺骗性的提示词,它也展现出了稳健的性能。
- SWE Bench 见证 Claude 3.7 夺得榜首:Claude 3.7 Sonnet 目前在 SWE bench 上处于领先地位,展示了其在软件工程任务中的卓越实力。其能力延伸至主动代码协作,包括在 GitHub 上搜索、编辑、测试和提交代码,巩固了其作为编程相关应用顶级竞争者的地位。
主题 5. 硬件视野:从大脑到硅片
- 大脑的并行性困扰着 GPU 架构师:讨论将大脑的“有状态并行处理”(stateful parallel processing)与 GPU 效率进行了比较,认为当前的 RNN 架构虽然利用了并行处理,但并未完全捕捉到大脑的能力,且对于 LLM 而言可能无法实现最优扩展。共识是,受大脑启发的“极端调优架构”和归纳偏置(inductive biases)可能比单纯为了未来进步而扩大模型规模更为关键。
- Speculative Decoding 加速 LM Studio:用户正在探索 LM Studio 中的 speculative decoding,特别是针对 Llama 3.1 8B 和 Llama 3.2 1B 模型,正如 LM Studio 文档中所记录的那样。该技术使用较小的“草稿”(draft)模型为较大的模型预测 token,有望在不损害响应质量的情况下显著提高生成速度,从而增强本地 LLM 推理的效率。
- 与 M4 Max 相比,M2 Max 依然是省电能手:虽然 M4 Max 是 Apple 的最新产品,但一些用户仍坚持使用 M2 Max,理由是担心 M4 Max 的高功耗(达到 140W),而 M2 Max 的效率更高,仅为 60W。对于从 M2 Max 获得足够性能的用户,尤其是那些在本地运行的用户,其能效比和翻新机型的可用性使其成为一个极具吸引力的替代方案。
第一部分:高层级 Discord 摘要
Cursor IDE Discord
- Claude 3.7 Sonnet 引发编程热潮:Claude 3.7 Sonnet 正在 Cursor IDE 中推出,用户反馈其具备卓越的编程能力,尤其是在现实世界的 Agent 任务中。
- 狂热用户宣称 睡觉已成选配,并正在快速集成该模型。
- MCP 增强 Claude 的编程能力:成员们正在将 Perplexity 搜索和浏览器工具等 MCP (Model Control Programs) 与自定义指令相结合,以提升 Cursor 中 Claude 3.7 的推理和编程能力。
- 一位用户 fork 了 sequential thinking MCP 并进行了个人调整,强调了将自定义指令与 MCP 服务器结合的优势。
- Cursor 安装技巧与窍门发布:用户分享了安装和更新到 Cursor 0.46.3 以访问 Claude 3.7 的技巧,包括手动添加模型和检查更新,以及适用于 Windows 和 macOS 等不同操作系统的直接下载链接。
- 几位用户注意到自动更新功能存在困难,建议手动下载安装以获得更顺畅的体验。
- Sonnet 3.7 在 SVG 领域达到新高度:许多人一致认为 Sonnet 3.7 是一次重大升级,尤其是在前端任务和代码生成方面,成员们称赞其生成落地页的能力。
- 成员们分享了轻松处理复杂任务的案例,例如重构 X 的 UI 或生成 SVG 代码。
- 上下文窗口问题与规则膨胀:几位成员指出了 Claude 3.7 在 Cursor 中的问题,包括工作区代码索引困难、自定义规则导致上下文窗口膨胀,以及模型有时会忽略这些规则。
- 尽管存在这些挑战,大多数用户还是找到了解决方法,并对模型的整体表现表示赞赏。
aider (Paul Gauthier) Discord
- Sonnet 3.7 抢占 Aider 风头:Claude 3.7 Sonnet 在 Aider 多语言排行榜上利用 32k thinking tokens 获得了 65% 的分数。
- 一些人正在讨论,在使用 thinking tokens 时,性能的提升是否足以支撑 Sonnet 3.7 据称 3 倍的价格上涨。
- Anthropic 发布 Claude Code Aider 克隆版:Anthropic 发布了 Claude Code,被一些人认为是 Aider 克隆版。
- 成员们反馈其代码质量更高,并对 Claude 3.7 相比 OpenAI 的未来充满期待。
- 通过 OpenRouter 解锁 O3-Mini:可以通过 OpenRouter 访问
o3-mini-high模型,该模型针对 STEM 推理任务进行了优化,与将 reasoning effort 设置为高的o3-mini相同。- 使用 OpenRouter 进行编程,2 小时的使用成本约为 $3,这可以绕过速率限制,并提供访问多个供应商的单一入口。
- HN 个人资料被 LLM 吐槽:Claude Sonnet 3.7 现在可以分析你的 Hacker News 个人资料,并给出亮点和趋势。
- 一位成员描述了 LLM 对其发帖历史的深度挖掘,称其为一场“吐槽 (roast)”,据称其准确得“令人恐惧”。
- 根据 Kagi 的数据,Gemini 2.0 Pro 领先竞争对手:根据 Kagi LLM 基准测试项目,Google 的 gemini-2.0-pro-exp-02-05 达到了 60.78% 的准确率,超过了 Anthropic 的 claude-3-7-sonnet-20250219 (53.23%) 和 OpenAI 的 gpt-4o (48.39%)。
- Gemini 2.0 Pro 的中值延迟为 1.72s,速度为 51.25 tokens/sec;相比之下,Claude Sonnet 3.7 为 2.82s 和 54.12 tokens/sec,而 GPT-4o 为 2.07s 和 4 tokens/sec。
Codeium (Windsurf) Discord
- Vim Chat 问题频发:一位用户报告在通过 Putty SSH 会话在 Vim 中启动 Codeium Chat 时遇到问题,尝试在浏览器中访问提供的 URL 时面临连接错误。
- 错误信息显示 “无法访问此网站 127.0.0.1 拒绝连接”。
- Windsurf 用户期待 Claude 3.7 的到来:成员们正热切期待将 Claude 3.7 集成到 Windsurf 中,对相比 Cursor 和 T3 等平台的延迟感到沮丧,并要求 尽快 (ASAP) 添加。
- 成员们要求 Windsurf 应该去成为早期测试者 —— 开发人员正在努力将 Claude 3.7 推向生产环境,可能在当天结束前发布。
- Deepseek 幻觉用户提示词:一位用户报告 Deepseek 幻觉出用户请求,并开始根据这些幻觉出的请求实施更改。
- 该 AI 机器人 发明了自己的用户提示词,然后开始根据该幻觉出的用户提示词实施更改 😆。
- Windsurf 开发沟通引发不满:用户对 Windsurf 开发人员在 Claude 3.7 集成方面缺乏沟通感到沮丧,一位用户指出,部分沮丧源于开发人员没有任何沟通。
- 其他用户为 Windsurf 辩护,并指出由于在更稳定时发布,不存在商业风险,实现速度快并不意味着它稳固。
- MCP Server 实用性受到质疑:用户讨论了 MCP server 的实际用途,示例包括集成 Jira tickets、共享自定义应用以及利用云服务。
- 成员们问道:你们在实际中把 MCP server 用于什么?有没有什么让生活变得非常简单的真实案例?我想不出任何案例。
OpenAI Discord
- Grok 3 话太多:成员们发现尽管提示要求简洁回复,Grok 3 仍然过于冗长,但它在 编程和创意 方面表现强劲。
- 一位成员指出,他们正在转向 Grok,因为它 从一开始就受到的审查较少。
- Perplexity 计划推出 Agentic Comet:Perplexity 正在推出 Comet,这是一款全新的 Agentic 浏览器,类似于 The Browser Company 的工作。
- Agentic 浏览器领域的竞争正随着更多竞争者的加入而升温。
- Claude 3.7 带着新的编程能力到来:Anthropic 刚刚发布了 Claude 3.7 Sonnet,它在编程和前端 Web 开发方面表现出改进,并引入了一个用于 Agentic 编程的命令行工具:Claude Code 在此发布公告。
- 一位用户指出,该模型的知识截止日期是 2025 年 2 月 19 日。
- Claude Code 进入终端:Claude Code 是一款驻留在终端中的 Agentic 编程工具,它理解你的代码库,并通过自然语言命令帮助你更快地编写代码 在此查看概述。
- 然而,它是一个 有限的研究预览版,并且独立于 Pro 或 Anthropic 订阅。
- O3 出现 10 秒延迟:一位用户报告了 O3 的问题,它显示 推理成功 (reasoning success) 但随后延迟长达 10 秒才显示全文,影响了包括 O1 Pro 在内的各种模型。
- 他们提到在 美国东部时间 (EST) 下午 3 点到 7 点 之间持续遇到这些问题,文本有时会出现在非预期的其他设备上。
Unsloth AI (Daniel Han) Discord
- 讨论避税导致禁言:一名用户因讨论避税策略被禁言,因为提供避税建议违反了规则;一些用户指出了这对开具发票的影响。
- 一名用户回应道:我开具发票的那家公司跟我说,我申报收入是很愚蠢的行为。
- CUDA Kernel 引发 Colab 灾难:一名用户报告了在 Google Colab 的 T4 上出现 CUDA 错误(illegal memory access),建议根据 PyTorch 文档 尝试设置
CUDA_LAUNCH_BLOCKING=1并使用TORCH_USE_CUDA_DSA进行编译调试。- 另一名用户报告 梯度范数(grad norm)出现高达 2000 的异常峰值,暗示模型可能已经损坏。
- Qwen2.5 VL 72B 吞噬内存:一名用户在尝试于 48GB 显存上以 32K 上下文长度运行 Qwen2.5 VL 72B 时遇到显存溢出(OOM)错误,随后在建议下尝试 8k 上下文或将 KV cache 量化为 fp8,最终成功以 8k 上下文长度加载。
- 该用户指出,有必要从模型中提取 thinking traces(思考轨迹)。
- 通过 TransMLA 将 DeepSeek MLA 移植到 Llama:用户探索了在 Llama 模型上实现 DeepSeek 的 Multi-Head Latent Attention (MLA),并建议进行重新训练,但其他人指向了 fxmeng/TransMLA,这是一种从 GQA 到 MLA 的训练后转换方法。
- rslora 在 Rank 稳定性中的作用:使用 rslora 解决了高 Rank 场景下的数值稳定性问题,但一名用户警告说,如果 r/a = 1,rslora 可能会使情况恶化,建议保持 r/a = 1 并跳过 rslora。
- 团队表示,rslora 执行单次 sqrt,并且如果 Rank 变得太大,则需要一个修正项。
OpenRouter (Alex Atallah) Discord
- Claude 3.7 Sonnet 登陆 OpenRouter!:Claude 3.7 Sonnet 现已在 OpenRouter 上线,在数学推理、编程和复杂问题解决方面具有顶尖性能。
- 价格设定为 每百万 input tokens 3 美元 和 每百万 output tokens 15 美元(包括 thinking tokens),发布时即提供完整的缓存支持。
- Extended Thinking 功能即将推出:Extended Thinking 功能即将引入 OpenRouter API,该功能支持复杂任务的分步处理,详见 Anthropic 文档。
- OpenRouter 正在积极开发对 Claude 3.7 extended thinking 功能的完整支持(目前不支持 pre-fills),目标是尽快发布并更新文档。
- GCP 准备支持 Claude 3.7:Google Cloud Platform (GCP) 正准备支持 Claude 3.7 Sonnet,将在 us-east5 和 europe-west1 区域上线,模型 ID 为
claude-3-7-sonnet@20250219。- 用户被提醒该模型具有 混合推理方法(hybrid reasoning approach),提供标准和扩展思考模式,并在标准模式下与前代产品保持性能一致。
- OpenRouter 调整 Claude 3.7 限流:OpenRouter 提高了
anthropic/claude-3-7-sonnet的 TPM (tokens per minute),而anthropic/claude-3-7-sonnet:beta初始 TPM 较低,预计随着用户从 3.5 迁移而增加。- 该模型具有 200,000 token 的上下文窗口,尽管一些用户认为其输出定价可能会引起抱怨。
- API Key 额度安全说明:提醒用户 API keys 本身不包含额度;删除 key 只会撤销访问权限,额度仍保留在账户中。
- 由于安全措施,丢失的 key 无法找回。
Interconnects (Nathan Lambert) Discord
- Meta AI 扩展至 MENA 地区:Meta AI 已扩展至中东和北非 (MENA),在 Instagram、WhatsApp 和 Messenger 上支持阿拉伯语。
- 此次扩展向该地区数百万新增用户开放了聊天机器人。
- Claude 3.7 Sonnet 发布并配备思考模式 (Thinking Mode):Anthropic 发布了 Claude 3.7 Sonnet,这是一款具有分步思考能力的混合推理模型 (hybrid reasoning model),以及用于 Agent 化编程的命令行工具 Claude Code,价格为每百万输入 Token 3 美元和每百万输出 Token 15 美元。
- 研究人员注意到 Claude 的思考过程与人类惊人地相似,会探索不同的角度并反复检查答案,展示了在 GPQA 评估中利用并行推理时计算缩放 (test-time compute scaling) 带来的改进。
- Qwen Chat 推理模型发布:Alibaba Qwen 在 Qwen Chat 中发布了 “Thinking (QwQ)”,由其 QwQ-Max-Preview 提供支持,这是一款基于 Qwen2.5-Max 的推理模型,采用 Apache 2.0 协议授权。
- 该模型将推出较小的变体(例如 QwQ-32B)用于本地部署,Twitter 上的热门演示展示了其在数学、编程和 Agent 能力方面的提升。
- 伯克利高级 Agent MOOC 专题介绍 Tulu 3:“Berkeley Advanced Agents” MOOC 邀请了 Hanna Hajishirzi 在太平洋标准时间今天(5 月 30 日)下午 4 点讨论 Tulu 3,附有 YouTube 视频链接。
- 该 MOOC 已成为对 Agent 感兴趣的工程师的重要资源。
- Google 的 Co-Scientist 喂入了团队之前的研究成果:基于 Gemini LLM 的 Google Co-Scientist AI 工具被喂入了一篇 2023 年的论文,该论文由其协助的团队撰写,其中包含了一个假设版本,而该 AI 工具随后将其作为解决方案提出。
- 相关文章指出,BBC 的报道未能提到该 AI 工具已被告知答案,这引发了质疑。
Eleuther Discord
- 并行大脑超越调优后的 GPU:讨论对比了大脑的有状态并行处理 (stateful parallel processing)与 GPU 的效率,指出当前的 RNN 架构(与人类处理方式不同)无法扩展到 LLM 级别,且应当具备数据效率 (data efficient)。
- 成员们得出结论,在从大脑中汲取灵感时,极度调优的架构比单纯的规模扩展更具相关性。
- Proxy 引擎结构化 LLM 的混乱:Proxy Structuring Engine (PSE) 被引入以解决 LLM 输出中的结构不一致问题,为创意自由提供推理时引导 (inference-time steering)。
- 该引擎强制执行结构边界,适用于高级 Agent 与聊天机器人、数据流水线与 API 以及自动化代码生成等用例。
- 小波编码 (Wavelet Coding) 将图像生成 Token 化:这篇论文详细介绍了一种基于小波图像编码和语言 Transformer 变体的自回归图像生成新方法。
- Transformer 学习 Token 序列内的统计相关性,反映了不同分辨率下小波子带之间的相关性。
- MLA 压缩 KV Cache:两篇论文 MHA2MLA 和 TransMLA 探索了将模型适配到多头潜在注意力 (Multi-head Latent Attention, MLA),显著减小了 KV Cache 的大小(5-10 倍)。
- 虽然其中一篇论文显示性能有所下降(1-2%),但另一篇显示性能有所增强,这表明 MLA 可能不逊于 MHA,尤其是在模型更大、参数更多的情况下。
- 混合精度切换优化器默认设置:在使用 BF16 进行混合精度训练期间,主 FP32 权重通常驻留在 GPU VRAM 中,除非启用了 ZeRO offload。
- 通常的做法是将 Adam 的一阶和二阶矩存储在 bf16 中,同时将主权重保持在 fp32,除非通过 ZeRO 对动量/方差状态 (momentum/variance states) 进行专家分片。
Nous Research AI Discord
- LLM 自主调用工具:一些 LLM 在没有明确 Token 序列的情况下调用工具,这表明是通过强化学习或 SFT 训练得到的硬编码模式。
- 在没有基准测试的情况下,这种节省 Token 的方法与 ICL 相比的可靠性仍不明确。
- Claude 3.7 Sonnet 夺得 SWE 桂冠:Claude 3.7 Sonnet 在 SWE-bench 上处于领先地位,支持搜索、编辑、测试和提交代码到 GitHub 等主动代码协作。
- 一位成员认为 3.7 作为一个点版本(point release)是合理的,因为 Claude 3.5 已经是一个推理模型,并暗示未来的推理模型将会非常“疯狂”。
- QwQ-Max-Preview 旨在实现深度推理:QwQ-Max-Preview 博客展示了一个基于 Qwen2.5-Max 构建的模型,在深度推理、数学、编程、通用领域和 Agent 任务中表现出色。
- 有推测认为 QwQ 推理轨迹中的关键 Token 与 R1 相似,暗示其所需的计算量更少。
- Sonnet-3.7 在 Misguided Attention Eval 中表现优异:Sonnet-3.7 在 Misguided Attention Eval 中被评为顶尖的非推理模型,几乎超越了 o3-mini。
- 用户正寻求通过 OR API 激活其“思考模式(thinking mode)”(如果可行的话)。
- Qwen AI 新增集成视频生成功能:更新后的 Qwen AI 聊天界面现在具备了集成的视频生成能力。
- 一位成员指出,生成的 Artifacts 仍然有些笨拙,像是半成品的仿制品。
MCP (Glama) Discord
- Anthropic 终于发布 MCP Registry API:Anthropic 宣布了官方 MCP registry API(如这条推文所示),旨在成为 MCP 的权威来源(source of truth),通过 opentools.com/registry 等解决方案简化开发和集成工作。
- 该 API 将帮助社区填补 AI 应用和 Agent 可移植且安全代码的权威来源空白。
- Claude 3.7 首次推出“思考”标签:Claude 3.7 已发布,具有 64,000 个输出扩展思考 Token 和新的 ‘latest’ 别名。
- 用户注意到它恢复了遵循较长系统提示、识别社会工程的能力,并且在调用工具时会使用
<thinking>标签,为操作增添了一丝趣味。
- 用户注意到它恢复了遵循较长系统提示、识别社会工程的能力,并且在调用工具时会使用
- Claude Code 作为代码助手表现出色:Claude Code (CC) 的代码辅助能力受到高度赞誉,在处理复杂编码错误方面优于 Aider 等工具,例如一次性解决了 Rust 中的 21 个编译错误。
- 用户正在推测其缓存机制和成本,一位用户报告说过去 6 周内 Anthropic 的费用惊人。
- MetaMCP 关于开源许可的辩论:针对 MetaMCP 的许可协议存在担忧,一位用户建议它可能会变成云端 SaaS,这促使开发者寻求关于许可的反馈,以防止云端商业化,同时保持其通过 MetaMCP server GitHub 仓库的可自托管性。
- 一位用户建议对 MetaMCP 使用 AGPL 许可,以确保贡献内容保持开源,并建议增加一个允许公司在 MIT-0 下进行转授权的附加条款。
- Claude 3.7 Sonnet 在 Sage 上大放异彩:具备扩展思考能力的 Claude 3.7 Sonnet 现已上线 Sage,允许用户在处理复杂问题时查看 Claude 的推理过程,包括一个思考模式切换开关 (Command+Shift+T)。
- 其他新功能包括默认模型设置、改进的滚动体验和可展开的思考区块。
LM Studio Discord
- Qwen 2.5 VL 模型准备就绪:一个可用的 Qwen 2.5 VL 7B GGUF 版本已发布,可在 Hugging Face 上立即使用。
- 用户反馈其性能显著优于 llama3.2 vision 11b instruct 和 qwen2-vision 7b instruct,且在最新版本的 LM Studio 中开箱即用。
- QuantBench 加速量化:Qwen 2.5 VL 7B GGUF 量化版本是使用 QuantBench 制作的,该工具现已在 GitHub 上发布,用于加速量化工作流。
- 该模型已在最新的 llama.cpp 构建版本中通过测试,并启用了 CLIP 硬件加速。
- LM Studio 揭秘 Speculative Decoding 技巧:根据 LM Studio 文档,用户正在 LM Studio 中探索使用 Llama 3.1 8B 和 Llama 3.2 1B 模型进行 speculative decoding。
- 文档声称,speculative decoding 可以在不降低响应质量的情况下,大幅提高大语言模型 (LLMs) 的生成速度。
- Deepseek R1 671b 极度消耗 RAM:本地运行 Deepseek R1 671b 需要巨大的 RAM,文档指定为 192GB+;一位热心用户建议使用特定的 量化版本。
- 对于在 Mac 上运行的用户,将大约 70% 的模型权重卸载到 GPU 可能会有所帮助。
- M2 Max 低功耗优势:尽管有了全新的 M4 Max,一位用户仍决定坚持使用他们的 M2 Max,因为 M4 Max 性能提升过猛,功耗动辄达到 140w,并找到了一台 价格合理的翻新版 M2 Max 96GB。
- 该用户报告称 M2 Max 足以满足其需求,功耗仅为 60W 左右。
Stability.ai (Stable Diffusion) Discord
- SD3 Ultra 惊人的卓越表现:一位用户询问了 SD3 Ultra,这是一个 基于 SD3L 8B 的 comfy 工作流,能够提供卓越的高频细节。
- 另一位成员表示它 仍然存在 并且正在被使用,暗示它尚未公开发布。
- Stability 陷入沉默?:一位成员询问了当前项目或未来计划的更新,指出他们 已经有一段时间没有收到来自 Stability AI 的消息了。
- 另一位成员回答说 目前还没有什么可以分享的,但他们 希望 很快能有公告。
- 寻求狗狗数据集:一位用户请求除了包含 2万张图像 的 Stanford Dogs Dataset 之外的其他狗品种图像数据集。
- 该用户特别需要包含狗且清晰标注了品种的图像。
- 图像生成时间各异:用户讨论了基于不同硬件配置、使用不同版本 Stable Diffusion 的图像生成时间。
- 时间范围从 GTX 1660s 上的 约 1 分钟,到 3070ti 使用 SD1.5 的 4-5 秒,以及使用 3060 TI 生成 1280x720 图像需 7 秒,生成 1920x1080 图像(32 步)需 31 秒。
- Stability AI 征求建议:Stability AI 推出了一个 新的功能请求看板,以收集用户反馈并确定未来开发的优先级。
- 用户可以直接在 Discord 中使用 /feedback 命令或通过新平台提交功能请求并进行投票,旨在确保社区的声音能够塑造未来的优先级。
Modular (Mojo 🔥) Discord
- Mojo 通过 GLFW/GLEW 实现图形编程:在 Mojo 中进行图形编程是可行的,通过 FFI 使用链接到 GLFW/GLEW 的静态库即可实现,Sudoku 示例证明了这一点。
- 一位成员建议使用带有包装函数的
alias external_call仅通过你自己的 C/CPP 库暴露所需的调用,此外一个示例仓库展示了如何劫持加载器 (loader)。
- 一位成员建议使用带有包装函数的
- Mojo 的
magic install遭遇lightbug_httpBug:在新的 Mojo 项目中使用lightbug_http依赖项时,运行magic install后会导致small_time.mojopkg出错。- 该错误类似于 Stack Overflow 上的一个问题,暗示
small-time可能被固定在了特定版本。
- 该错误类似于 Stack Overflow 上的一个问题,暗示
- MAX 版生命游戏获得硬件加速:一位成员展示了通过桥接 MAX 和 Pygame 实现的硬件加速版康威生命游戏 (Conway’s Game of Life),展示了一个极具创意的应用,如其附带的 conway.gif 所示。
- 他们在 MAX 实现中演示了 GPU 的使用:展示了一个逐位打包的“枪 (guns)”模式,使用朴素的逐像素内部函数进行渲染,然后将输出张量 (output tensor) 转换为 np array 并交给 pygame 进行渲染,正如其 guns.gif 中所示。
- 生命游戏创造计算机架构:一位成员分享了一个关于在康威生命游戏中构建计算机的项目 (nicolasloizeau.com),通过用于逻辑门的滑翔机束 (glider beams) 证明了其图灵完备性 (Turing completeness)。
- 另一位成员在其使用 MAX 的康威生命游戏模拟中实现了边界环绕 (wrapping),从而能够创建飞船 (spaceship) 模式,并展示了从图 API (graph API) 向模型添加参数的能力,如其 spaceship.gif 所示。
Notebook LM Discord
- NotebookLM 通过 PowerPoint 转换简化操作:一位用户详细介绍了将纸质书导入 NotebookLM 的权宜之计:拍摄页面、将 PDF 转换为 PowerPoint、上传到 Google Slides,最后导入幻灯片。
- 他们观察到 NotebookLM 可以处理幻灯片中的文本图像,但无法直接处理来自 PDF 文件的文本图像。
- 德语语言提示词失效:有用户报告称,即使使用了要求使用德语的特定提示词,也无法让 NotebookLM 的主持人说德语。
- 主持人说的是英语或乱码,有时以德语开始随后便切换,这表明语言提示词的准确性可能存在问题。
- Savin/Ricoh 复印机让书籍扫描焕发生机:一位用户建议使用 Savin/Ricoh 复印机将书籍扫描为 PDF 并上传到 NotebookLM。
- 他们确认,即使源文本质量较差,NLM 也能准确回答有关扫描文档的问题。
- 用户请求语言自定义:一位用户询问在不更改 Google 账号语言的情况下更改 NotebookLM 语言的可行性。
- 这表明用户对语言自定义有需求,以改善用户体验并迎合多样化的语言偏好。
- Claude 3.7 激发模型选择愿望:一位用户表达了对 Claude 3.7 的热情,并希望在 NotebookLM 中增加选择模型的选项。
- 另一位用户询问了模型选择的影响,引发了关于模型多样性对最终用户体验影响的讨论。
LlamaIndex Discord
- LlamaIndex 在文档中推出 AI 助手:LlamaIndex 宣布在他们的官方文档中直接发布了一个 AI assistant。
- 该新助手旨在为浏览 LlamaIndex 生态系统的用户提供即时的上下文支持。
- ComposIO HQ 发布重磅更新:LlamaIndex 重点介绍了 ComposIO HQ 的另一项新发布,尽管未提及具体细节。
- 这表明 ComposIO 框架(一个用于 LLM 编排的有用工具)正在进行持续的开发和功能增强。
- AnthropicAI 发布 Claude Sonnet 3.7:AnthropicAI 推出了 Claude Sonnet 3.7,LlamaIndex 已提供即时支持。
- 用户可以通过运行
pip install llama-index-llms-anthropic --upgrade并查阅 Anthropic 的公告来访问新模型。
- 用户可以通过运行
- Fusion Rerank Retriever 需要初始化的节点:一位用户报告了在配合 Elasticsearch 使用 fusion rerank retriever 设置时初始化 BM25 retriever 出现的问题,原因是 docstore 为空。
- 另一位成员澄清说,BM25 需要将节点保存到磁盘或其他位置进行初始化,因为它无法直接从 vector store 初始化。
- MultiModalVectorStoreIndex 抛出文件错误:一位用户在使用 MultiModalVectorStoreIndex 配合 GCSReader 创建多模态向量索引时遇到了 [Errno 2] No such file or directory 错误。
- 该错误发生在 GCS bucket 中存在图像文件时,而 PDF 文档 处理成功,这表明在图像文件处理方面可能存在问题。
Torchtune Discord
- 截断难题:左侧截断胜出:成员们讨论了在微调过程中使用左侧截断
seq[-max_seq_len:]与右侧截断seq[:max_seq_len]的优劣,并分享了有趣的图表。- 最终决定在
torchtune中同时提供这两种方法,但在 SFT 中默认使用左侧截断。
- 最终决定在
- StatefulDataLoader 支持:即将合并:一位成员请求对其 在
torchtune中添加StatefulDataLoader类支持的 PR 进行审查。- 新的 dataloader 将为数据集添加状态化(statefulness)功能。
- DeepScaleR 通过 RL 进行扩展:DeepScaleR 是通过简单的强化学习 (RL) 基于 Deepseek-R1-Distilled-Qwen-1.5B 微调而成的。
- DeepScaleR 在 AIME2024 上实现了 43.1% 的 Pass@1 准确率。
- DeepSeek 开源 EP 通信库:DeepSeek 推出了 DeepEP,这是首个用于 MoE 模型训练和推理的开源 EP 通信库。
- 该通信库实现了高效的全对全(all-to-all)通信。
Cohere Discord
- 验证者思考盈利阈值:一位成员询问了去中心化科学 (DeSci) 领域内 Proof of Stake (PoS) 验证者的盈利阈值。
- 另一位成员回答了 “pool validator node”,暗示了池参与对验证者的重要性。
- 资产专家被贴标签:机器人发布了一个关于 “asset value expert account” 的帖子,该账号被标记为 “nazi”。
- 未提供更多上下文。
DSPy Discord
- DSPy 简化了 Assertion 迁移:DSPy 用户现在可以使用
dspy.BestOfN或dspy.Refine模块来简化从 2.5 风格 Assertions 的迁移。dspy.BestOfN模块会重试一个模块最多 N 次,选择最佳的 reward 并在达到指定的threshold时停止。
- DSPy 构建 reward functions:DSPy 的 reward functions 现在支持 float 或 bool 等标量值,这允许对模块输出进行自定义评估。
- 展示了一个示例 reward function:def reward_fn(input_kwargs, prediction): return len(prediction.field1) == len(prediction.field1)。
tinygrad (George Hotz) Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。
Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。
PART 2: 渠道详细摘要与链接
完整的逐频道细分内容已针对电子邮件进行了截断。
如果您喜欢 AInews,请分享给朋友!提前致谢!