ainews-gpt-41-the-new-openai-workhorse
GPT 4.1:OpenAI 的新主力
OpenAI 发布了 GPT-4.1,包括 GPT-4.1 mini 和 GPT-4.1 nano,重点提升了编程、指令遵循以及处理高达 100 万 token 的长上下文能力。该模型在 SWE-bench verified 测试中获得了 54 分,并在内部基准测试中比 GPT-4o 提升了 60%。GPT-4.1 nano 的定价极低,每百万输入 token 仅需 0.10 美元,每百万输出 token 为 0.40 美元。GPT-4.5 Preview 正被弃用,取而代之的是 GPT-4.1。集成支持方面,Llama Index 提供了首日(day 0)支持。此外,也有一些针对 GPT-4.1 nano 的负面反馈。与此同时,Perplexity 的 Sonar API 与 Gemini-2.5 Pro 在 LM Search Arena 排行榜上并列第一。随着更新的提示词指南和 Cookbook(示例库)的发布,还引入了 MRCR 和 GraphWalks 等新基准测试。
GPT 4.1 是你对 OpenAI 的全部需求吗?
2025/4/11-2025/4/14 的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号 和 29 个 Discord 服务器(211 个频道和 16961 条消息)。预计节省阅读时间(以 200wpm 计算):1382 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!
GPT 4.1 相关链接:
- https://openai.com/index/gpt-4-1/
- 新基准测试:MRCR 和 GraphWalks
- 新的 提示指南 和 cookbook
以及在 Latent Space 上发布的新访谈:
https://youtu.be/y__VY7I0dzU
AI Twitter 综述
GPT-4.1 发布与性能
- 可用性与特性:@sama 宣布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现已在 API 中可用,并强调了它们在 coding、指令遵循和处理长上下文(最高 100 万 token)方面的优势。@kevinweil 指出 GPT-4.1 在 SWE-bench verified 上获得了 54 分。
- 指令遵循:@OpenAIDevs 指出 GPT-4.1 比 GPT-4o 更可靠地遵循指令,特别是在 格式遵守、执行否定指令和排序 方面。
- 定价与成本:@stevenheidel 表示 GPT-4.1-nano 是已发布的最便宜且最快的模型,成本为 $0.10/1M input ($0.03 缓存) 和 $0.40/1M output。
- 编程性能:@omarsar0 强调,根据 Windsurf AI 的数据,GPT-4.1 在 SWE-benchmark 等内部基准测试中比 GPT-4o 提升了 60%,减少了 40% 的不必要文件读取,并减少了 70% 的不必要文件修改。@OpenAIDevs 表示它在前端 coding 方面技能显著提升,并具有可靠的 tool use 能力。@polynoamial 提到 GPT-4.1 在 SWE-Bench Verified 上达到了 55%,且它并非推理模型。
- 集成与支持:@llama_index 提到 Llama Index 现在已提供对 GPT-4.1 的首日支持。
- 初步印象:@aidan_mclau 指出初创公司工程师对 GPT-4.1 mini/nano 感到惊讶,发现它与 GPT-4o 相当,但价格便宜得多。@aidan_mclau 将其描述为 帕累托最优(Pareto optimal)的瑞士军刀级 API 模型,是 Agent 栈中优于 newssonnet 的升级选择。
- ChatGPT 上的受限可用性:@DanHendrycks 建议免费的 GPT-4.1 mini 在 ChatGPT 上可能被刻意限制,以激励大学生订阅 ChatGPT Plus。
- 命名规范:@polynoamial 开了关于模型命名的玩笑。@iScienceLuvr 指出 GPT 模型的命名方案遵循 GPT-4.10,因此它排在 GPT-4.5 之后,而 @kevinweil 则开玩笑说本周它在命名方面不会变得更好。
- GPT-4.5 的弃用:@OpenAIDevs 宣布 API 中的 GPT-4.5 Preview 将从今天开始弃用,并于 7 月 14 日完全关闭,因为 GPT-4.1 提供了改进或类似的性能。
- 负面评价:@scaling01 建议不要使用 GPT-4.1-nano,称其为一个糟糕的模型。 @scaling01 报告称 GPT-4.1 API 版本比 Optimus Alpha 更差。
模型基准测试与对比
- Search Arena 排行榜:@AravSrinivas 报告称 Perplexity 的 Sonar API 与 Gemini-2.5 Pro 在 LM Search Arena 排行榜上并列第一。@lmarena_ai 报告称 Gemini-2.5-Pro-Grounding 和 Perplexity-Sonar-Reasoning-Pro 位居榜首。
- Llama 4 ELO 下跌:@casper_hansen_ 报告称 Llama 4 的 ELO 评分悄然从 1417 降至 1273,与 DeepSeek v2.5 持平。
- Google Gemini 2.5 Pro:@abacaj 表示 Google 终于凭借 Gemini 2.5 Pro 打造出了最强模型。@omarsar0 对 Gemini 2.5 Pro 在调试和重构方面的出色表现感到惊讶,并认为它是理解大型代码库的最佳模型之一。
- Gemini 2.0 Flash:@_philschmid 报告称 Gemini 2.0 Flash 的价格为 $0.1/$0.4(每 1M tokens 的输入/输出),在 GPQA Diamond、Multilingual MMLU 和 MMMU 上均取得了优异成绩。
- Mistral 模型:@casper_hansen_ 表示 Long Mistral 模型表现出色,其最新的 24B 模型非常有竞争力。
- Nvidia Llama Nemotron-Ultra:@adcock_brett 指出 Nvidia 发布了 Llama Nemotron-Ultra,这是一款拥有 253B 参数的推理 AI,击败了 DeepSeek R1、Llama 4 Behemoth 和 Maverick,并且完全开源。
- Meta Llama 4:@adcock_brett 详细介绍称 Meta 发布了 Llama 4 系列原生多模态开源模型,上下文窗口高达 10M tokens,包括 109B 参数的 Scout、400B 参数的 Maverick,以及第三款 2T 参数的 Behemoth。@DeepLearningAI 指出 Llama 4 Scout 拥有前所未有的 1000 万 token 上下文窗口,Maverick 击败了 GPT-4o 的公开基准测试,而 Behemoth 声称性能超越了 GPT-4.5 和 Claude 3.7 Sonnet。
- Kimina-Prover 与其他模型对比:@_lewtun 指出,在新的编程语言 Lean 中,Kimina-Prover 仅凭 7B 参数就在奥数级数学竞赛中击败了 Gemini 2.5 Pro 和 o3-mini!
- GPT-4.1 vs DeepSeek-V3:@scaling01 表示 GPT-4.1 在 AIME 上的表现比 DeepSeek-V3-0324 低 10% 以上,且价格贵 8 倍,在 GPQA 上的表现也逊色。
- GPT-4.1 vs. GPT-4.5:@scaling01 表示 GPT-4.1 在 AIME 和 MMLU 上的表现优于 GPT-4.5。
机器人与具身智能 (Robotics and Embodied AI)
- Hugging Face 收购:@ben_burtenshaw 报告称 Hugging Face 收购了开源机器人制造商 Pollen Robotics。
- Fourier 的开源人形机器人:@adcock_brett 提到了 Fourier 的全开源人形机器人。
- 三星与 Google 合作:@adcock_brett 指出 三星 宣布与 Google 建立合作伙伴关系,为其 Ballie 家庭机器人提供支持,采用 Google 的 Gemini 及其自有的多模态 AI 模型。
AI 研究与论文 (AI Research and Papers)
- 预训练中的反思:@omarsar0 总结了一篇论文,认为反思能力在 Pre-Training 阶段就已经出现,并引入了对抗性推理任务,以证明即使没有经过监督式的 Post-Training,自我反思和纠错能力也会随着 Compute 的增加而提升。
- 强化学习与推理:@rasbt 总结了一篇论文,显示 Reinforcement Learning (RL) 会导致推理模型生成更长的回复,这并非因为准确性需要,而是因为 RL 训练更倾向于长回复。
- 多模态模型 Scaling Laws:@TheAITimeline 总结了一项涉及 457 个原生多模态模型 (NMMs) 的 Scaling Laws 分析,揭示了早融合 (early-fusion) 架构优于晚融合 (late-fusion) 架构,且 Mixture of Experts (MoEs) 能显著提升性能。
- 论文列表:@TheAITimeline 发布了一份顶级 AI/ML 研究论文列表,@dair_ai 也分享了类似的顶级 AI 论文。
- 视觉分词器:@iScienceLuvr 指出,在扩展视觉 Tokenizers 时,GigaTok 提升了图像重建、生成和表示学习的效果。
其他模型与 AI 工具发布
- Deep Cogito 模型:@adcock_brett 提到 Deep Cogito 结束隐身状态并发布了 Cogito v1 Preview,这是一个全新的开源模型系列。
- Runway Gen 4 Turbo:@adcock_brett 分享了 Runway 发布 Gen 4 Turbo 的消息,这是其视频模型的更快版本,面向所有用户开放,包括免费层级用户。
- Midjourney V7:@adcock_brett 报道 Midjourney 发布了 V7 版本,具有更高的质量、增强的提示词遵循能力以及支持语音的 Draft Mode。
- Microsoft Copilot 更新:@adcock_brett 提到微软升级了其 Copilot 应用,增加了新的记忆功能、网页浏览操作和视觉功能。
- Amazon AI:@adcock_brett 表示亚马逊发布了一款名为 “Nova Sonic” 的语音转语音 AI,并推出了 Reel 1.1 AI,支持长达 2 分钟的视频生成。
- Nvidia 卡通 AI:@adcock_brett 分享了 Nvidia 和斯坦福大学的研究人员展示的一种 AI 技术,可以生成连贯的、长达一分钟的卡通片。
- DolphinGemma:@GoogleDeepMind 推出了 DolphinGemma,这是一款帮助我们深入探索海豚交流世界的 AI 🐬,它是一个音频到音频 (audio to audio) 模型。
AI 基础设施与工具
- OpenAI 基础设施规模:@sama 提到 OpenAI 的计算系统规模非常惊人,他们需要帮助。
- ElevenLabs MCP 集成:@adcock_brett 报道 ElevenLabs 推出了其 MCP 服务器集成,使 Claude 和 Cursor 等平台能够访问 AI 语音功能。
- Qdrant + n8n:@qdrant_engine 指出 Qdrant 和 n8n 正在实现超越相似性搜索的流程自动化。
- LangChain 工具:@LangChainAI 推广了一个开源库,可将任何 LLM 连接到 MCP 工具以构建自定义 Agent,其特点是与 LangChain 集成,并支持网页浏览、Airbnb 搜索和 3D 建模。
- Hamel Husain Chrome 扩展:@HamelHusain 创建了一个 Chrome 扩展程序,允许你将整个 Gemini 对话(通过 aistudio)保存到 gist 或复制为 Markdown,同时也为 Claude 提供了一个类似的扩展。
AI 策略与讨论
- 开源机器人:@ClementDelangue 倡导将 AI 机器人开源。
- 优先考虑医疗诊断:@iScienceLuvr 指出,更好的诊断和护理交付比寻找一种新的化疗药物来治愈癌症更具影响力。
- LLM 与搜索引擎:@rasbt 认为 LLM 不会取代搜索引擎。
- 通过 RL 实现简洁性:@TheAITimeline 总结了一项研究,该研究揭示了简洁性与推理准确性之间的相关性,并提出了一种通过二次 RL 阶段在 LLM 中实现更简洁推理的方法。
- 开发者体验:@sedielem 强调了开发者体验的重要性。
- RAG 中专业知识的价值:@HamelHusain 强调了与那些在优化检索和搜索方面投入大量时间的人交流,对于提升 RAG 能力的价值。
- AI 的未来:@scaling01 分享道,LLM 的基本情况是,在未来几年内,它们将演变成高度专业化的“孤独症式”超智能(autistic superintelligences),在验证过程简单的领域表现出色。
幽默与杂项
- 扁平化组织:@typedfemale 开了一个关于扁平化组织的玩笑。
- 辣酱:@vikhyatk 开玩笑说不要在睡前 5 分钟尝试“杀人胡蜂”辣酱。
- 过度炒作的估值:@andrew_n_carr 谈论了 SSI 的估值。
- 个人轶事:@DavidSHolz 因为自动纠错,不小心问朋友在 “jew york” 玩得怎么样。 @sjwhitmore 表示他们刚把宝宝哄睡,30 分钟后就发现自己在看宝宝的照片。 @willdepue 提到 OpenAI 猎帽是下次播客的必备品;@sama 买了很多没用上的傻傻的婴儿用品,但他推荐 Cradlewise 婴儿床,以及比你想象中多得多的拍嗝布。
AI Reddit 回顾
/r/LocalLlama 回顾
主题 1:“GLM-4 强化学习模型的令人兴奋的进展”
-
glm-4 0414 已发布。包含 9B、32B 版本,提供具备和不具备推理及反思能力的模型 (Score: 190, Comments: 64): GLM-4 0414 已发布,推出了 9B 和 32B 两种尺寸的六款新模型,包含具备和不具备推理及反思(rumination)能力的版本。这些模型包括 **GLM-Z1-32B-0414,这是一款具备深思熟虑能力的推理模型,基于 GLM-4-32B-0414 通过冷启动、扩展强化学习(RL)以及在数学、代码和逻辑等任务上的进一步训练开发而成。GLM-Z1-Rumination-32B-0414 是一款具备反思能力的深度推理模型,能够进行更深、更长时间的思考,以解决更具开放性和复杂性的问题。GLM-Z1-9B-0414 是一款 9B 参数模型,采用了上述所有技术,在数学推理和通用任务中表现出卓越的能力,在同尺寸开源模型中性能名列前茅。** GLM-Z1-9B-0414 被视为一个惊喜,在效率和效果之间实现了极佳的平衡,是寻求轻量化部署用户的强大选择。这些模型在数学能力、研究型写作以及解决复杂任务的能力方面都有显著提升。
- 一位评论者指出,新的 32B 模型只有 2 个 KV 值头,导致 KV cache 占用的空间比 Qwen 2.5 32B 少约四倍,并好奇这是否会导致处理长上下文时出现问题。
- 另一位评论者对基准测试结果印象深刻,提到 GLM 模型自 Llama 1 时代就已存在且一直表现出色,但认为它们在西方需要更好的营销,因为它们似乎被忽视了。
- 一位评论者对模型包含 SuperGPQA 基准测试结果表示赞赏,这使得该模型能与许多其他模型更具可比性。
主题 2. “DeepSeek 对 AI 推理的开源贡献”
-
DeepSeek 即将开源其推理引擎 (Score: 1312, Comments: 92): DeepSeek 即将开源其推理引擎,这是一个基于 **vLLM 的修改版本。他们正准备将这些修改回馈给社区。一篇题为《DeepSeek 推理引擎开源之路》的文章概述了他们的动机和步骤,包括代码库分歧、基础设施依赖以及有限的维护带宽等挑战。他们对开源生态系统表示感谢,并计划与现有项目合作,将功能模块化并分享优化成果,旨在提升通用人工智能 (AGI) 以造福人类。更多详情可以在他们的 GitHub 仓库中找到。** 发帖者对 DeepSeek 对社区的承诺表示热忱,特别赞赏他们的目标——“旨在让社区从第一天起就能获得最先进 (SOTA) 的支持”。人们对 DeepSeek 的贡献可能给开源 AI 社区带来的积极影响感到兴奋。
- 一位用户指出,DeepSeek 可能不会直接开源其推理引擎,而是将其改进贡献给 vLLM 和 sglang,因为他们的分支版本已经太陈旧了。
- 另一位评论者对 DeepSeek 表示深切赞赏,将他们对这家公司的喜爱比作对 Wikipedia 的喜爱。
- 一位用户认为 DeepSeek R1 的发布是 AI 竞赛中的一个关键时刻,指出虽然它不是最聪明或最便宜的模型,但它标志着除了 OpenAI 之外还有 Claude、Gemini 和 DeepSeek 等替代方案,并赞赏他们在开源领域的持续创新。
-
DeepSeek 将开源其推理引擎的部分内容——分享独立的功能和优化,而非全栈 (Score: 252, Comments: 9): DeepSeek 将开源其推理引擎的部分内容,通过分享独立的功能和优化,而不是发布整个技术栈。他们正致力于将优化成果移植到流行的开源推理引擎中,如 **vLLM、llama.cpp 和 kobold。** 一些人认为标题具有误导性,暗示 DeepSeek 保留了部分技术栈。然而,其他人认为,通过将优化移植到流行的开源推理引擎,DeepSeek 正在更有效地为社区做出贡献。用户对这些贡献带来的推理性能提升感到乐观。
- 评论者注意到 DeepSeek 正在通过移植优化来增强 vLLM、llama.cpp 和 kobold 等流行的开源推理引擎。
- 一些用户对 DeepSeek 的贡献可能带来的更好推理性能感到兴奋。
- 用户正在询问目前是否有任何来自 DeepSeek 的资源可用于个人项目。
其他 AI Subreddit 汇总
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding
主题 1. “变革科学:OpenAI 的新推理模型”
-
科学突破即将到来 (Score: 724, Comments: 207): OpenAI 即将发布名为 **o3 和 o4-mini 的新推理模型,这些模型首次能够独立开发新的科学构想 [1]。这些 AI 模型可以同时处理来自不同专业领域的知识并提出创新实验——这种能力此前被认为是人类的专属领域。早期版本已显示出可喜的成果:Argonne National Laboratory 的科学家们使用这些模型的早期版本,能够在几小时内设计出复杂的实验,而以往则需要数天时间。 OpenAI 计划为这些高级服务每月收取高达 20,000 美元的费用,这将是标准 ChatGPT 订阅价格的 1000 倍。** 这项技术可能会极大地加速科学发现进程,特别是当与能够控制模拟器或机器人的 AI agents 结合使用,以直接测试和验证生成的假设时。这代表了该领域的一次潜在革命,将以前认为人类独有的能力转移到了 AI 身上。
- 一些用户对 OpenAI 为这些 AI 模型每月收取 20,000 美元的做法持怀疑态度,质疑为什么该公司不自己利用它们来解决重大问题。
- 另一些人认为该信息是可信的,因为消息来源在 OpenAI 新闻方面非常准确,并暗示这可能是公司有意泄露的。
- 对于高昂的订阅费存在困惑和猜测,用户回想起之前的案例,当时传闻的价格比实际发布价格更高。
主题 2. “令人兴奋的 AI 模型创新与竞争动态”
-
GPT 4.1 具备 100 万 token 上下文。输入 2 美元/百万 token,输出 8 美元/百万 token。比 4o 更聪明。 (评分: 313, 评论: 140): GPT-4.1 被宣布为处理复杂任务的旗舰模型,具有 **100 万 token 的上下文窗口,最大输出能力为 32,768 个 token。定价设定为输入 每百万 token 2 美元,输出 每百万 token 8 美元,并提供了关于缓存输入成本的额外信息。该模型声称比之前的版本具有更高的智能。** 原帖作者强调 GPT-4.1 比 4o 更聪明,突出了其先进的能力,并暗示它是对之前模型的重大改进。
- 用户将 GPT-4.1 与 Google 的 Gemini 模型进行了比较,讨论了定价和性能差异,一些人表示希望成本能更低。
- 对于 GPT-4.1 如何有效利用其 100 万 token 上下文窗口存在质疑,有人提到像 Gemini 2.5 这样的模型可以完美处理约 10 万个 token。
- 一些人推测 GPT-4.1 可能会导致 GPT-4.5 的取消,并希望即将推出的 o4-mini 等模型能达到 State-of-the-art 水平。
-
OpenAI 发布 GPT 4.1 模型及定价 (评分: 245, 评论: 119): OpenAI 宣布发布 **GPT 4.1 模型及其定价详情。** 这一公告引起了褒贬不一的反应,一些用户对模型数量的激增表示沮丧,而另一些人则在讨论 GPT-4.1 的可用性和改进。
- 一位用户对众多的模型表示沮丧,称他们厌倦了这堆乱七八糟的随机模型。
- 另一位用户指出 GPT-4.1 将仅通过 API 提供,并注意到改进已逐渐融入 ChatGPT 中最新版本的 GPT-4o。
- 一些用户拿 2024 年 6 月的知识截止日期开玩笑,幽默地希望自己能像 GPT 4.1 一样好骗 😂。
-
Kling 2.0 将于明天揭晓。 (评分: 281, 评论: 29): Kling 2.0 将于明天,即 **2025 年 4 月 15 日格林威治标准时间上午 6:00 揭晓。公告包含一张带有动态绿色背景和口号 “From Vision to Screen”(从愿景到屏幕)的图片,强调创新与技术。更多详情请访问 https://x.com/Kling_ai/status/1911702934183882986 和 https://xcancel.com/Kling_ai/status/1911702934183882986。** 宣传图片传达了对 Kling 2.0 的兴奋和期待,以其动态设计吸引了关注。该口号暗示了相对于之前版本的重大进步,激发了潜在用户的热情。
- 用户对 Kling 2.0 的快速发布感到惊讶,其中一位指出 “1.6 版本仍然是第一名”。
- 讨论强调了过去的一周是多么 “疯狂”,出现了众多 AI 进展,如 Midjourney v.7、OpenAI GPT-4.1 和 Google Agentspace Boxing。
- 用户对 Kling 2.0 的新功能充满期待,例如更长的视频生成,因为目前用户“卡在 5-10 秒”。
AI Discord 摘要
由 Gemini 2.0 Flash Thinking 提供的摘要之摘要的总结
主题 1. GPT-4.1 模型:发布、性能与可用性
- OpenAI 发布 GPT-4.1,基准测试超越 4o:OpenAI 的博客文章 宣布了 GPT-4.1,该模型以长上下文推理为卖点,基准测试显示比 GPT-4o 提升了约 10%。Windsurf AI 立即集成了该模型,并提供为期一周的免费无限访问;同时 OpenRouter 推出了 GPT-4.1、Mini 和 Nano 版本,并透露 Optimus Alpha 和 Quasar Alpha 是 GPT-4.1 的早期测试版本。
- Windsurf 为用户提供免费 GPT-4.1:Windsurf AI 已将 GPT-4.1 设为其新的默认模型,并在所有方案中提供为期一周的免费无限使用,随后将以 每次使用 0.25 积分 的折扣费率计费。Cursor 社区成员预计 GPT-4.1 将成为新标准,随着用户向 4.1 迁移,4.5 版本将被弃用。
- Aider v0.82.0 支持 GPT-4.1 Patch 格式:Aider v0.82.0 现在支持 GPT-4.1,包括 OpenAI 新的
patch编辑格式。成员反馈其性能与 Quasar/Optimus 相似,但单次运行成本为 4.76 美元。LlamaIndex 也宣布通过llama-index-llms-openai对 GPT-4.1 API 提供零日支持,并指出在 Agent 方法上提升了约 2%。
主题 2. Gemini 2.5 Pro:性能波动与价格变动
- Google 削弱了 Gemini 2.5 Pro 的 Tool Calling 能力:LMArena Discord 成员报告称 Google 削弱了 Gemini 2.5 Pro 的 Tool Calling 功能,可能是出于成本考虑,导致其无法执行工具调用。OpenRouter 也开始对 Gemini 的长 Prompt 收取正常价格,结束了对 Gemini 2.5 超过 200k token 以及 Gemini 1.5 超过 128k token 的 Prompt 提供的 50% 折扣。
- Gemini 2.5 Pro 仍是 UI 设计冠军:尽管存在 Tool Calling 问题,Cursor 社区成员仍称赞 Gemini 2.5 Pro 具有“惊人”的 UI 设计能力,强调了其独特的输出和上下文保留能力。然而,Aider 用户发现与 Claude 3.7 相比,Gemini 2.5 Pro 在处理长上下文和代码补全方面表现吃力。
- Gemini 2.5 Pro 数据处理强劲,抢占 Perplexity 订阅:Manus.im Discord 用户赞扬了 Gemini 2.5 Pro 的数据处理实力,一位用户因 Gemini 2.5 Pro 的优越性以及单次任务更低的积分消耗而取消了 Perplexity 订阅。不过,Perplexity AI 的 Sonar 模型在 LM Arena 的 Search Arena 中与 Gemini-2.5-Pro-Grounding 持平,并指出 Sonar 表现出色归功于其搜索来源多出 2-3 倍。
主题 3. 开源模型与工具势头强劲
- OpenRouter 开启免费模型大门:OpenRouter 新增了 六款免费模型,包括 NVIDIA 针对推理和 RAG 优化的 Llama-3 变体(Nano-8B、Super-49B、Ultra-253B),以及经过角色扮演微调的 QwQ-32B-ArliAI-RpR-v1。Hugging Face 也迎来了 Meta 的 Llama 4 Maverick 和 Scout 进行测试。
- DeepSeek 开源推理引擎,DeepCoder 展现编程实力:DeepSeek 开源了其 Inference Engine,引发了关于小型供应商推理性能的讨论。Nous Research AI 重点介绍了 DeepCoder,这是一个 14B 参数的开源模型,通过增强的 GRPO 和 64K 上下文泛化实现了顶尖的编程性能。
- Aider 和 Ollama 拥抱开源生态系统:Aider v0.82.0 增加了对 Fireworks AI 的 deepseek-v3-0324 模型 的支持,并改进了与 Gemini 2.5 Pro 配合的架构师模式。Hugging Face 用户越来越多地使用 Ollama 在本地运行模型 以替代受 API 限制的模型,LlamaIndex 则建议在 Agent 工作流中通过 Ollama 使用 Llama3 或 Mistral 等大型开源模型。
Theme 4. 硬件优化与 CUDA 深度探索
- GPU Mode 探索用于 GEMM 性能的希尔伯特曲线:GPU Mode Discord 成员讨论了在 GEMM 实现中使用 希尔伯特曲线 (Hilbert curves),基准测试显示随着矩阵规模增加,其效果优于 cuBLAS,尽管 Morton 排序被认为是更实际的折中方案。NVIDIA 还发布了其 Video Codec SDK,并提醒警惕 AI 生成的 PR 提交。
- CUDA 同步与
memcpy_async注意事项:GPU Mode 成员交流了 CUDA 同步指南,建议使用自定义算子 (custom ops) 和内联加载 (load inline),并调查了cuda::memcpy_async的性能下降问题,指出这是一个协作式 API,要求所有线程传递相同的指针,且对齐问题可能会阻碍合并内存访问 (coalesced memory access)。 - Threadripper vs Xeon 以及 DDR5 RAM 带宽瓶颈:LM Studio 的硬件讨论辩论了 Threadripper 与 Xeon CPU 在 Token 生成方面的性价比,并认为 DDR5 RAM 带宽是一个瓶颈,理论上它限制了整体硬件利用率,且首字延迟限制了最大 tokens/s。
Theme 5. Agent 开发与工具生态系统的演进
- MCP Server 工作坊与日益增长的采用率:MLOps@Chipro 宣布将于 4 月 17 日举办一个用于构建生产级 MCP Server 的 AWS 工作坊,强调 MCP 是改善 ML 上下文管理的新兴标准。由于 MCP 的普及,Wildcard 暂停了
agents.json的维护;AutoMCP 作为一个平台推出,旨在提供类似 Vercel/Heroku 的体验来将 Agent 项目部署为 MCP Server。 - LlamaIndex LlamaParse 在文档解析方面表现出色:LlamaIndex 强调了 LlamaParse 在处理包含图像、表格和图表的文档时增强的解析质量,在解析质量上超越了 SimpleDirectoryReader 等基础读取器,并提供了一份关于 LlamaParse Layout Agent Mode 视觉引用 (Visual Citations) 的指南。
- Brave Search API 在 Agent 流水线中受到关注:Yannick Kilcher Discord 成员建议将 Brave Search API 作为 Agent 流水线的一个不错选择,即使是免费层级,并指出其 AI 摘要功能比 OpenAI 的 Web Search API 更便宜。Hugging Face 正在为使用 smolagents 的新 Deep Search Agent 寻找早期测试者,Nomic.ai 成员探索了用于自动网站链接的 Nomic embeddings,以创建互连的文档网络。
PART 1: 高层级 Discord 摘要
Perplexity AI Discord
- Perplexity 发布六项新功能!:Perplexity AI 宣布了六项新功能,包括 Android Draw to Search、欧冠 (Champions League) 集成、语音搜索 (Voice Search)、Box 和 Dropbox 连接器、Perplexity Finance 时间对比以及 Perplexity Telegram Bot,详情见其 更新日志。
- 此次更新旨在增强各平台用户的搜索和自动化能力。
- Sonar 模型在 Search Arena 中击败 Gemini:Perplexity AI 的 Sonar-Reasoning-Pro-High 模型在 LM Arena 的 Search Arena 中与 Gemini-2.5-Pro-Grounding 并列第一,得分分别为 1136 和 1142。
- 根据 Perplexity 博客,由于搜索深度显著更高(引用了 2-3 倍的来源),Sonar 模型表现优于 Gemini 模型。
- Perplexity 关注直播录像、API 开关和 ComfyUI 集成:在用户询问后,团队确认 Perplexity 直播 的录像将在网上公开,详见 X.com。
- 此外,一名成员暗示了 Perplexity ComfyUI 集成,并询问类似于 “Social” 开关 的 API 开关 是否即将推出。
- 用户被假播放按钮误导:General 频道的成员承认被一个假播放按钮骗了。
- 一位成员表示“那个假播放按钮骗到我了”,另一位回复说“下意识就点进去了”。
LMArena Discord
- Google 削弱了 Gemini 2.5 Pro 的 Tool Calling 功能:成员报告称 Google 削弱了 2.5 Pro 的 Tool Calling 功能,由于存在大量 Bug,2.5 Pro 现在无法执行工具调用。
- 成员认为这种 nerfing(削弱) 可能与成本有关。
- GPT 4.1 在 Windsurf AI 上线:GPT 4.1 在接下来的 7 天内可在 Windsurf 中免费使用,提示用户进行尝试。
- 一些用户对 OpenAI 选择与 Windsurf 而非 Cursor 合作发布感到惊讶。
- RooCode 脱颖而出成为顶尖编程 IDE:在一些推荐下,部分成员尝试了 RooCode,称其绝对优于 Cline,且极有可能是目前最好的编程 IDE。
- 缺点包括 GitHub Copilot 集成到 RooCode 中存在速率限制且不稳定。
- GPT-4.1 胜过 GPT-4o Mini:成员认为 Quasar/Optimus 是最近发布的 GPT-4.1 和 GPT-4.1 Mini 模型的测试版本,这些模型并不像最初希望的那样具有突破性或令人印象深刻。
- GPT-4.5 模型已被弃用,其改进已合并到 4.1 模型中。
- GPT 4.1 融入 GPT4 Turbo:成员报告称 GPT 4.1 无法通过 API 获取,其在指令遵循、编程和智能方面的改进正逐渐整合到最新版本的 GPT 4o 中。
- 一些成员确认 GPT 4.1 的改进已合并到 GPT 4o 模型中,并可以在 OpenAI 官网上访问。
aider (Paul Gauthier) Discord
- Aider 最新更新支持 GPT-4.1:Aider v0.82.0 获得了对 GPT 4.1、Gemini 2.5 Pro 架构模式以及 Fireworks AI 模型 deepseek-v3-0324 的支持,同时新增了
patch、editor-diff、editor-whole和editor-diff-fenced编辑格式。- 该版本还支持
xai/grok-3-beta、openrouter/openrouter/optimus-alpha,以及grok3和optimus等别名,以替代 OpenRouter 现已退役的 Optimus 和 Quasar 免费 Alpha 端点。
- 该版本还支持
- Discord 用户讨论是否为 Aider 开设闲聊频道:成员们在 Aider Discord 服务器是否有必要开设闲聊频道(off-topic channel)上存在分歧,讨论如何在“寻找乐趣”与保持主频道专注之间取得平衡,并请求 Paul G. 改变主意。
- 成员们无法就该专注于 Aider 还是该有一个讨论笑话的地方达成一致。
- Claude 3.7 胜过 Gemini 2.5:成员报告称 Gemini 2.5 Pro 在处理长上下文和代码块补全时表现吃力,但可以通过“发誓(swear oath)”来改善;而 Claude 3.7 在自然写作和特定任务中表现更好。
- 社区成员称赞 Claude 3.7 的自然语言能力,其他人发现这些模型在消除过度注释行为方面表现出色。
- 用户寻求在 Aider 中复制 Cline 的 Memory Bank 工作流:一名成员询问如何在 Aider 中复制类似 Cline 的 Memory Bank 工作流,方法是将
plan.md添加到聊天中,然后在“执行下一步”和“标记该步骤已完成”之间交替操作。- 这样做的目的是帮助创建任务列表,以便 Aider 可以与用户一起逐一完成任务。
- 成员分享 Prompt Engineering 资源:一名成员发布了 Kaggle 的 Prompt Engineering 白皮书链接,其他成员分享了 GPT-4.1 Prompting 指南。
- 该 Prompting 指南旨在帮助用户优化与 GPT-4.1 模型的交互。
OpenRouter (Alex Atallah) Discord
- Gemini 价格回归正常:OpenRouter 开始对较长的 Gemini 提示词收取正常费用,影响超过 200k 的 Gemini 2.5 提示词和超过 128k 的 Gemini 1.5 提示词,价格与 Vertex/AI Studio 的费率保持一致。
- 这一变化是由于 Gemini 2.5 的使用量激增,从而结束了长上下文提示词的 50% 折扣。
- 免费模型涌入 OpenRouter!:OpenRouter 新增了六款免费模型,包括针对角色扮演微调的 QwQ-32B-ArliAI-RpR-v1、长上下文代码生成模型 DeepCoder-14B-Preview,以及混合专家(Mixture-of-Experts)VLM Kimi-VL-A3B-Thinking。
- 这些模型提供了从角色扮演到代码生成的多种能力,扩展了平台上的可用选项。
- NVIDIA Llama-3 变体免费开放!:新增了三款来自 NVIDIA 的 Llama-3 变体(Nano-8B、Super-49B、Ultra-253B),它们针对推理、工具使用和 RAG 任务进行了优化,并拥有高达 128K token 的扩展上下文窗口。
- 用户已开始测试这些模型的相对性能。
- GPT-4.1 模型:下一代迭代:GPT-4.1、GPT-4.1-mini 和 GPT-4.1-nano 模型在 OpenRouter 上线,全量模型针对长上下文推理进行了优化。
- 用户注意到 GPT-4.1 和 4.1 mini 在某种程度上表现相当,至少在 spaceship prompt 上是这样,但也有人正在进行彻底的测试以衡量性能。
- Skywork-OR1 系列释放推理能力:推出了 Skywork-OR1 模型系列,其中 Skywork-OR1-Math-7B 擅长数学推理,而 Skywork-OR1-32B-Preview 在数学和编码任务上的表现足以与 Deepseek-R1 媲美。
- 这两款模型分别基于 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 训练而成。
Manus.im Discord Discord
- PDF 转网站功能走红:一位成员注意到将 PDF 转换为网站的便捷性。
- 该解决方案被认为是一个极佳的案例。
- DeepSeek V3 蓄势待发:一位成员询问了 Manus 的项目创建能力,但结论是 Manus 目前仅提供 DeepSeek R1,预计在几个月内会升级到其顶尖模型。
- 另一位成员对 Qwen 最近的代码能力表示不屑。
- 网络安全职业组合考量:一位成员考虑转行,但鉴于其编码熟练度,决定继续留在网络安全领域。
- 会议还讨论了量子技术对网络安全的潜在影响。
- 机构选择 GCP 而非 Firebase:一家机构因基础设施的成本效益选择了 GCP,另一位用户提交了一份 40 页的分析报告,支持从 Microsoft 转向 GCP。
- Google 获得了 5 分中的 4.7 分,而 Microsoft 得分为 4.4。
- Gemini 2.5 Pro 处理数据能力极强:一位用户称赞 Gemini 2.5 Pro 的数据处理实力优于 ChatGPT,这促使他们取消了 Perplexity 的订阅。
- 用户观察到 Gemini 2.5 Pro 每个任务所需的额度更少,并且随着 Claude max pro 的发布和成本的降低,它正在不断进步。
Unsloth AI (Daniel Han) Discord
- Gemma GRPO 磨合期:成员们讨论了在 GRPO 中使用 Gemma 4B 还是 Gemma 1B,并澄清虽然两者都可以进行 GRPO,但 4B 版本 无法在 Colab 上运行。
- 针对 15k 行数据集设置合适的训练步数引发了关注,建议检查 batching(批处理)、epochs(轮数)和 gradient accumulation(梯度累积)如何协同工作。
- AMD GPU Anaconda:用户正努力让 Unsloth 在 AMD GPU 上运行,由于 Unsloth 最初专注于 NVIDIA,因此遇到了 NotImplementedError。
- 核心问题在于 BNB 无法正确构建,即使 AMD torch.cuda.is_available() 返回 True。
- LM2 Memory:Gemma 的收益:进行了将 LM2 的 memory units 直接集成到 Gemma 3 中的实验,以提升 Prompt 之间的上下文感知能力。
- 对模型层进行 Monkey patching 以挂载 memory 导致了量化方面的挑战(为了降低硬件要求),其中一名成员在 gma6 [[https://github.com/jagoff2/gma6]] 中对每 6 层进行了挂钩。
- DeepSeek 的推理见解:DeepSeek Inference Engine 引发了关于小型供应商推理性能预期的讨论。
- 有人担心供应商可能会以次优配置运行 vllm serve,从而在提供 DeepSeek R1 服务时影响模型性能。
- Apple 的 Cross Entropy 深度解析:分享了一篇解释 Apple’s cut cross entropy 的深刻文章,将 transformers 框架化为 for 循环上的顺序 ML 分类任务 (zhuanlan.zhihu.com)。
- 由于原始链接的访问问题,提供了一个替代的 GitHub repo。
OpenAI Discord
- OpenAI 直播即将开始!:OpenAI 宣布了定于 太平洋时间上午 10 点 的直播 <t:1744650000:f>,社区成员正推测 API 中可能发布 GPT-4.1。
- 公告特别标记了 GPT 角色,暗示可能专注于 GPT models 或相关更新。
- 视频领域的 Veo 2 对决 Sora:成员们将 Google 的 Veo 2 与 OpenAI 的 Sora 在视频生成方面进行了对比,一些人更青睐 Veo 2 更 自然的 24 fps 视频。
- 一位成员指出,过度平滑的帧率在他们大脑中会被识别为 即时的 AI 生成内容,另一位成员成功越狱(jailbreak)了模型来为《狮子王》制作动画。
- Memory 控制功能详解!:OpenAI Memory FAQ 的详细信息展示了 ChatGPT memory 的控制功能,采用了已保存记忆和聊天历史引用的双层架构。
- 此次更新允许用户通过启用或禁用 memory 和聊天历史记录来控制和编辑偏好。
- 用户与 Prompt 默认值作斗争!:一位用户报告称,他们两个月前构建的 ChatGPT agent 现在正严厉地忽略 Prompt 默认设置(如表格格式或列规范),尽管庞大的 Prompt 并没有任何改动。
- 用户请求针对模型忽略过去已确立参数的问题提供见解或解决方案。
- 通过 Prompt 调整让图像更清晰!:一位用户询问如何消除图像生成中的 模糊感(smudged look),另一位用户建议这取决于 Prompt,并分享了引导模型的 prompting techniques 。
- 此外,一位用户通过向 ChatGPT 提供所需字体的截图,成功在图像中生成了特定字体。
Cursor Community Discord
- OpenAI 发布新模型,中国对此做出反应:OpenAI 发布了新模型,引发了与 DeepSeek、Claude、GPT 和 Gemini 的比较。
- 一位成员观察到中国在这个领域表现不佳,而另一位成员则评论说美国像往常一样低估了一切。
- Claude 3.7 成为 Cursor 的首选:成员们发现 Claude 3.7 Sonnet 是 Cursor 中的最佳选择,在稳定性、one-shot 能力和代码质量方面优于 Gemini 和 Google 的模型。
- 有人补充说 Claude 模型正在进步,对我来说,越老的模型越聪明。
- Gemini 2.5 在 UI 方面表现惊人:Gemini 2.5 Pro 因其惊人的 UI 设计能力而受到认可,成员们分享了其独特输出的示例,并能保持上下文。
- 一位用户评论道,Gemini 的 UI 修改简直疯了。
- Windsurf 没落,用户更倾向于 Cursor:用户报告了 Windsurf 的可靠性问题,称其过度承诺,导致一些人建议在正确使用的情况下选择 Cursor。
- 一位用户调侃道:欢迎来到 shit surf。
- 社区期待 GPT-4.1:社区正在讨论即将发布的 GPT-4.1 以及如何开始使用它,并提到了 4.5 预期的弃用。
- 成员们预计 每个人都会开始转向 4.1;2.5 资源池会清空,Claude 3.5 3.7 也会清空一点,直到 4.1 的配额用完,然后在新模型上重复同样的过程。
LM Studio Discord
- LM Studio 取消了多模型联动的魔力:用户哀叹 LM Studio 0.3 版本中删除了多模型提示(multi-model prompting)功能,该功能此前在 0.2 版本中可用。一位用户评论说,使用 LM Studio 比较模型是 “世界上最好的事情”。
- 他们正在寻找模型比较的替代方案。
- 离线运行 LM Studio 需要手动处理运行时:要在离线 PC 上运行 LM Studio,用户必须手动传输位于
C:\Users\jedd\.cache\lm-studio\extensions\backends的 LM runtimes。- 有关通过 localhost 导入模型的文档可以在这里找到。
- Python 炼狱:示例从 LM Studio 服务器文档中移除:用户注意到 LM Studio 的服务器部分缺少 Python 示例,并正在请求 Python 示例。
- 有人分享了一个替代方案:lmstudioservercodeexamples。
- Threadripper 在 Token 效率上完胜 Xeon:一位成员表示,纯粹出于成本考虑,Threadripper 或 Epyc 芯片比双路 Intel Xeon w7-3565X CPU 具有更好的性价比(dollars per token)。
- 据指出,在 Threadripper 7xxx 上,当 llama.cpp 使用超过 20 个线程后,性能几乎没有差异,但当超过 64 个线程需要跨 CPU 调用另一个 CPU 时,性能会变慢。
- ROCm 的困境:重新考虑 RX 6700 XT 的建议:一位成员询问购买 AMD Radeon RX 6700 XT 来运行 Gemma,以及 ROCm 是否像 CUDA 一样强大。
- 回复是 6700XT 不支持 ROCm,运行 Gemma 12b 至少需要 16GB 的 VRAM,因此如果必须使用 AMD 显卡,建议攒钱购买拥有 24GB VRAM 的 7900XT。
Yannick Kilcher Discord
- LLMs 与概率 FSA 的比较:有人认为 LLM 近似于概率有限状态自动机 (FSA),这暗示了其在扩展上的障碍和数学方面的弱点;有一位成员反驳说这种类比没有太大意义。
- 成员们补充说,这种比较类似于说人类“近似于猴子”,削弱了该类比的分量。
- AlphaProof 获得银牌:成员们观看了一段关于使用 AI 辅助证明的视频,并总结道 AlphaProof 在没有使用任何人类知识的情况下获得了银牌。
- 另一位成员指出,这一信息是基于公司的说法,并表示“AlphaProof 在没有使用任何人类知识的情况下获得了银牌(据他们所说)”。
- Brave Search API 受到关注:成员们建议将 Brave Search API 作为 Agent 流的一个很好的替代方案,并强调即使在免费层级也有良好的体验。
- 有人提到其 AI 总结器比 OpenAI 的网络搜索 API 更便宜。
- 生成式 AI 使用案例数据存在偏差?:成员们正在讨论 The 2025 Top-100 Gen AI Use Case Report,认为由于 Reddit 是唯一的数据源,数据可能存在偏差。
- 成员们还指出,Character.AI 拥有 2800 万用户,但在 ML 圈子中却很少受到关注。
HuggingFace Discord
- Hugging Face 测试 Llama 4 Maverick 和 Scout:Hugging Face 迎来了 Llama 4 Maverick 和 Llama 4 Scout,测试显示了它们在 DABStep 基准测试中的表现。
- 据报道,在此过程中对 Claude 3.7 Sonnet、Gemini 2.5 Pro、Llama 4 Maverick 和 Llama 4 Scout 都进行了测试和比较。
- HF 模型 404 错误困扰用户:用户报告在尝试访问 Hugging Face 模型时出现大范围 404 错误,导致其应用宕机,详见此链接。
- 一位成员标记了一名特定的 HF 员工,提到这个 404 错误已经持续了大半天。
- 用户痴迷于 Ollama:成员们讨论了使用 Ollama 在本地运行模型,分享了下载和运行特定模型(如
qwen2.5-coder:32b)的命令,以此作为 API 限制模型的替代方案。- 一位成员提供了一个代码片段,演示了在初始化
CodeAgent时如何指定 Ollama 提供商,并使用本地托管的模型,如bartowski/Qwen2.5-Coder-32B-Instruct-GGUF。
- 一位成员提供了一个代码片段,演示了在初始化
- 新的 Deep Search Agent 寻求早期测试者:一个使用 smolagents 构建的专注于 Deep Search 的新 Agent 已经发布,正在 agent.galadriel.com 招募早期测试者。
- 欢迎提供反馈,并请向产品团队提出问题和想法。
- Agent 执着于教皇的年龄:一位用户报告说,当在本地运行
llama3、deepseekr1:8b和qwen2.5-coder:latest等模型时,他们的 Agent 莫名其妙地执着于寻找教皇的年龄并将其平方得到 0.36。- 怀疑该问题源于 smolagent 默认 Agent 工具提示词中的硬编码示例,因为在使用 HfApiModel 时并未出现此问题。
Eleuther Discord
- 模型表现出惊人的相似性:一位成员注意到,使用这个脚本发现不同模型的序列在 post-MLP 隐藏状态余弦相似度上表现出惊人的相似性。
- 小型模型更多地按类型而非颜色分组,而大型模型在按颜色排序方面表现得更一致。
- 禁止 Batch 重复!:一位成员建议不要在 minibatch 中重复数据,理由是这可能会导致 重大问题。
- 他们分享了关于认知科学和 ML/AI 领域的调查性信息分析,促进了跨学科的见解,并将这些见解传达给不同群体。
- 多 Token 预测论文:一位成员寻求关于 LLM 在推理期间进行多 Token 预测的论文,另一位用户推荐了 DeepSeek v3。
- 另一位用户指出了这篇论文,并回忆起几年前看过 Meta 的一篇相关论文。
- AI “研究”受到审查:成员们对以研究形式出现的 AI 生成内容 的兴起表示担忧,其特点通常是 虚造的术语 以及 缺乏与合法研究思路的一致性。
- 建议包括 封禁隐藏 AI 使用的恶意用户,以及对表现出缺乏经验的 善意用户进行长期禁言。
- 长度外推差异:成员们讨论了 长度外推(length extrapolation) 的挑战,指出模型在超出其训练序列长度后,往往 无法持续降低 Token loss,如这张图表所示。
- NoPE + SWA 和 ssmax (Super Scaling Max Activation) 等技术被提及作为潜在的解决方案。
Latent Space Discord
- Karpathy 尝试让 ChatGPT 尴尬:一位用户分享了一个 Prompt,询问 “你所知道的关于我最尴尬的事是什么?”,让 ChatGPT 陷入了窘境。
- 该用户想看看 ChatGPT 是否能通过多轮询问给出诚实且直接的回答。
- Thinking Machines 种子轮达 20 亿美元:据 Fortune 文章报道,Thinking Machines 显然正在进行一轮 20 亿美元的种子轮融资,由 Alec Radford 担任顾问。
- 一位用户发布了来自 Epoch AI 的 一张不错的图表,展示了这次融资。
- DeepSeek 开源推理引擎:DeepSeek 已开源其推理引擎,GitHub 仓库已可供查阅。
- 成员们想知道谁想聊聊 DeepSeek 的开源举动。
- Quasar 发布会观看派对正在进行:Latent Space 正在 Discord 活动页面举办另一场 Quasar 发布会 观看派对。
- 在 OpenAI Quasar 发布会观看派对期间,成员们讨论了 GPT-4.1 的特性,包括其相对于 Claude 极具竞争力的价格,以及长输入上下文的固定定价,参考了价格文档。
- Agent 定义的 Vibe Check:成员们辩论了 Agent 的定义,一位成员建议现在的定义是:一个 LLM 调用一个工具,而另一位成员展示了关于自我改进 Agent 的 Figma 画板。
- 有人建议:Agent 就是你在开会无聊时凭感觉(vibe code)写出来的东西。
Notebook LM Discord
- NotebookLM 的 Latent Space 导致非确定性:一位成员表示,Latent Space 的变异性导致无法每次生成相同的输出,从而使得每次根据输入生成的內容具有随机性,因为 NotebookLM 并非设计为确定性系统。
- 他们提醒不要期望 NotebookLM 的表现能像更昂贵、更专业的系统那样。
- NotebookLM 改变教育体验:一位成员正在课堂上使用 NotebookLM,上传幻灯片和资料,创建笔记、带有测试题的学习指南、术语表、思维导图和音频概览,然后分享给学生以帮助他们准备考试。
- 他们还提到让学生分组创建自己的 NotebookLM。
- 用户渴望 Gemini Education Workspace:一位成员询问其他人是否通过 Education Workspace 使用 Gemini,并对在 Workspace 中成功使用 Gemini 的学区和部门表示关注。
- 他们指出在澳大利亚新南威尔士州(NSW),目前还无法使用 Gemini。
- 猫主人想要为宠物提供聊天机器人:一位经营大型糖尿病猫主人支持小组的成员希望为成员提供其文档的对话式界面,包括视频内容,并支持法语。
- 他们希望成员能够提出问题,并根据文档获得答案,同时附带相关文档的链接以供阅读。
- NotebookLM “Discover” 功能引发关注:一位用户对 NotebookLM 中新的 “Discover sources” 功能表示非常满意,称其为 “我想要的一切”。
- 该用户还期待更多音频概览风格(audio overview flavors),并赞扬了 Grace 的播客。
Nous Research AI Discord
- Llama 4 消耗大量 GPU 小时数?:成员们注意到 Meta 的 Llama 4 Maverick 使用了 2.38M GPU 小时,而 Llama 4 Scout 使用了 5.0M GPU 小时,这与训练 Deepseek V3 的耗时相当。
- 一些人质疑与针对人类偏好进行微调的模型进行比较是否公平,而另一些人则认为 LeCun 的参与可能解释了这一点。
- DeepCoder 提供顶尖编程性能:一位成员分享了一篇关于 DeepCoder 的 VentureBeat 文章,强调了其高效的 14B 参数开源模型和增强的 GRPO 算法。
- 该模型结合了离线难度过滤、无熵损失、无 KL Loss 以及来自 DAPO 的超长过滤,尽管训练时使用 32K,但可以泛化到 64K 上下文。
- Nvidia UltraLong 模型吞噬上下文:Hugging Face 集合中展示的 Nvidia UltraLong-8B 模型旨在处理高达 4M tokens 的序列,基于 Llama-3.1 构建。
- 这些模型结合了持续预训练(continued pretraining)和指令微调(instruction tuning),以 4M 序列长度和 2 的全局 Batch Size 训练了 150 个迭代。
- GPT-4.1 基准测试更好,定价令人困惑:成员们讨论了 GPT-4.1 的定价和基准测试,指出其 基准测试结果优于 之前的版本,但定价和模型版本命名令人困惑,尤其是该新模型在 GitHub Copilot 中的可用性。
- 有推测称 4.1-nano 可以与优秀的 14B 模型竞争,并存在开源的可能性。
- Llama 4 Scout 的 H100 训练显示 Loss 增加!:一位成员观察到在 H100 环境下训练 Llama 4 Scout 时,第 1 和第 2 个 Epoch 之间的 Loss 从 1.9011 上升到 2.3407。
- 该用户表示担忧,因为 Loss 没有像预期那样下降,即使使用了两块 H100 GPU;另一位成员建议 无论任务是什么,你至少应该处理 10M 参数的模型。
MCP (Glama) Discord
- Graphlit 为内容打造 MCP Server:Graphlit 正在为 Reddit 和 Quora 构建一个 MCP server,并表示如果需要可以添加 Quora 数据摄取功能。
- 目前已经存在一些针对 Reddit 的项目,例如这个仓库。
- Agency Dev Kit 与 MCP 竞争:成员们讨论了 Google 的 ADK 和 A2A 及其与 MCP 的相似性,以及它们在 Agent 互联网中潜在的核心地位。
- 一位成员分享道,关于非 MCP 技术讨论目前还没有官方共识,但如果至少与 AI/ML/MCP 有一定相关性,那么应该没有问题。
- 无 Function Calling 能力的模型获得 Block 调整:Block 正在尝试对缺乏 function calling 能力的模型进行实验,看看是否可以调整其输出以适配 Agent,这篇博文探讨了如何在不使用辅助模型的情况下通过 XML 输出实现这一点。
- 团队正在权衡延迟成本与使用辅助模型进行解析的收益,同时也担心会话时间变长以及模型遵循 XML 格式的能力,并可能使用 local model,但担心会带来更多 overhead。
- MCP 工具辅助 Copilot Client 调试:synf 和 mcptee 帮助成员在测试 Copilot client 时发现并修复 bug,因为该客户端在处理长上下文和更多工具时可能会遇到困难。
- 一位成员在构建时考虑到了高性能硬件,因为多次 API 调用总是比单次调用慢。
- Paprika 食谱应用获得美味的 MCP Server:为 Paprika 食谱应用的用户创建了一个 MCP server,这样 Claude 就可以通过这个 GitHub 仓库自动将食谱保存到 Paprika 中。
- 未提供更多信息。
GPU MODE Discord
- CUDA 同步指南逐渐明朗:一位成员询问了 Python/PyTorch 模型中的 CUDA 参考资料,另一位成员分享了他们最近关于该主题的 GTC 演讲,该演讲也可以在 nvidia.com 上找到。
- 演讲建议 custom ops 和 load inline 应该能解决大部分问题,同时还在进行缩短编译时间的工作;一位成员发现了演讲中提到的 Stephen Jones 的视频,并表示“假期结束了,演讲再次开始”。
- Hilbert 曲线提升 GEMM 性能:一位成员分享了一个 GitHub 仓库,展示了使用 Hilbert 曲线 实现的 GEMM,以及 针对 cuBLAS 的基准测试。
- 基准测试表明,随着矩阵尺寸的增加,Hilbert 曲线 变得更加有效。进一步的讨论揭示了 Hilbert 曲线 虽然是最优的,但在硬件效率上并不高,建议 Morton 排序 是一个更好的实际权衡方案,并指向了一篇比较两者的 博客文章。
memcpy_async对齐加速性能:在切换到cuda::memcpy_async后,一位用户报告了性能下降,有建议称这是一个协作式 API,意味着所有线程必须传递相同的指针和对应于整个内存块的大小,参考了 官方 CUDA 文档。- 还有建议指出
memcpy_async的潜在问题包括 Shared Memory 地址的对齐以及指令周围的条件判断,这可能会阻碍合并内存访问(coalesced memory access),参考了一篇 论坛帖子。
- 还有建议指出
- 分布式系统的内存分析难倒初学者:一位工程师寻求关于在拥有 8 个节点(每个节点 8 个 GPU)的 SLURM 集群上进行分布式训练模型内存分析的建议。
- 此外,一位工程师询问了 ATen 的
attention.cu中特定行所指向的实现(GitHub 链接),旨在了解 torch/CUDA 如何处理 batch 中的单个用户操作数[dHead x K-cache-length]。
- 此外,一位工程师询问了 ATen 的
- Metal 内存之谜已掌握:一位成员发现,Metal 中全局内存合并的矩阵乘法实现所使用的内存仅为朴素版本的一半,并使用 此 CUDA MMM 实现 作为参考进行测试。
- 一种解释认为操作系统以页(pages)为单位提取数据,而非合并访问会导致页使用效率低下,即提取的数据中只有一小部分被实际利用;其他人指出 M 系列芯片具有 Unified Memory,这应该会消除 CPU 和 GPU 之间的分页。
Nomic.ai (GPT4All) Discord
- Nomic Embeddings 编织网站:一位成员报告了使用 Nomic embeddings 自动链接网站页面的成功案例,大幅减少了手动工作,详见 semantical-website-links 博客文章。
- 他们正在探索自动识别关键词并将其链接到 embeddings 的方法,从而创建一个互连的、自我更新的文档网络,如这段 YouTube 视频中所讨论的。
- GPT4All 的 Token 之争:一位尝试使用 GPT4All 模型生成长篇剧本的用户遇到了响应长度限制,尽管尝试使用了 GPT4All 内部的模型。
- 建议包括调高 Max Tokens 设置并拆分故事,但该用户仍在寻找能够处理更长输出的模型。
- HuggingFace 故事模型:在 HuggingFace 上标记为 ‘story’ 的模型在生成较长响应方面表现出色,这让一位成员感到非常高兴。
- 然而,有人建议要谨慎,因为其中许多模型可能是专有的,可能会限制其作为自由软件的使用。
- 破解 Chat Template 位置:一位成员寻找 Llama3.2、Llama3.1、Aya-23 和 KafkaLM-8x7b-German-V0.1 等模型的 chat templates 所在地。
- 建议他们查看模型作者在网站、GitHub 或 Hugging Face 上发布的版本,特别关注
tokenizer_config.json文件中的chat_template条目。
- 建议他们查看模型作者在网站、GitHub 或 Hugging Face 上发布的版本,特别关注
- 上下文长度限制创意:模型通常在 2048 到 8192 tokens 之间的上下文长度上进行训练,虽然 RoPE 和 Yarn 可以扩展这一范围,但响应质量往往在超出原始范围后大幅下降。
- 虽然取决于训练数据集和微调,但响应长度可以通过 prompting 进行调整,例如明确要求模型写得“非常非常长”。
Modular (Mojo 🔥) Discord
- Origins 演变为 Lifetimes:Mojo 中的术语
Origin已更名为Lifetime,这可能会让熟悉 Rust 生命周期概念的人更容易理解,详见文档。- Mojo 扩展了值的生命周期,以匹配持有它们的任何引用;相反,必须跟踪每个引用的 origin 以确定值的扩展和释放,这与 Rust 基于作用域的生命周期跟踪不同。
- VSCode 丢失 Mojmelo:用户报告称,尽管手动安装了
mojmelo模块,但 Mojo VSCode 扩展仍无法检测到它,原因是该扩展使用了其自带的 Mojo 安装。- 解决方法包括手动配置扩展,使其使用本地模块库进行 intellisense。
- Mojo PEP 正在制定中:受 Python PEP 的启发,一位成员建议为 Mojo 建立类似的系统来跟踪变更,另一位成员指出了 Mojo 现有的提案系统。
- 讨论显示了社区对以结构化方式管理和沟通语言演进的兴趣。
- Negative Bounds 现已推出:Negative bounds 是一种反转命名集的方法,通常与 marker traits 一起使用,以定义类型集的逆集,例如
!Send表示线程局部变量。- 例如,该 marker trait 表示在线程间移动是不安全的。
LlamaIndex Discord
- GPT-4.1 API 获得首日支持:OpenAI 在 API 中发布了 GPT-4.1,通过
pip install -U llama-index-llms-openai即可立即获得支持,详情见此处。- 基准测试显示,GPT-4.1 相比 4o 提升了约 10%,在现有的 Agent 方案上提升了约 2%。
- LlamaParse 在文档解析方面表现出色:LlamaParse 为包含图像、表格和图表的文档提供更高的解析质量,超越了 SimpleDirectoryReader 等基础读取器。
- 一位成员强调,解析文档的质量是 LlamaParse 区别于 SimpleDirectoryReader 的关键。
- 开源 LLM 应对 Agent 任务:虽然较小的开源 LLM 在 Agent 工作流中表现挣扎,但较大的模型如 Llama3、Llama 3.1、Llama 3.2:3b 或 Mistral 被证明更有效,尤其是与 Ollama 配合使用时。
- 一位成员提到成功使用 llama3.2:3b 来满足其 Agent 需求。
- .query 对话不保留历史记录:澄清了
Char .query是无状态的 (stateless),不保留任何聊天历史,因此不存储聊天日志。- 寻求记忆持久化的成员建议考虑使用 Agent。
- AI 评估模型评估:一篇研究论文 Benchmarking AI evaluation models 在 6 个 RAG 应用中评估了 LLM-as-a-judge、HHEM 和 Prometheus 等模型。
- 研究发现,这些评估模型在真实场景中表现得出奇地好。
tinygrad (George Hotz) Discord
- NVIDIA 发布全新 Video Codec SDK:NVIDIA 发布了 Video Codec SDK 以及 GitHub 上的示例,一位用户警告不要提交 AI 生成的 PR。
- 该用户威胁要关闭提交并封禁屡教不改者,强调了理解内容的重要性。
- TinyGrad 第 66 次会议议题:第 66 次会议定于周一举行,涵盖公司更新、chip!、fast python、bert、mlperf、scheduler、driver、webgpu、retinanet、torch frontend multi gpu、云规模 uuuvn 事务以及 bounties。
- 一位成员表示在看到评论后理解了 Index Validation PR 的要求,并预计在第二天准备就绪。
- Clang 标志静默调试输出:一位成员建议使用
-fno-identclang 标志,以防止额外的段(.comment和.note.GNU-stack)被添加到镜像中并污染DEBUG=7输出。- 此更改有助于保持调试输出更整洁、更易于管理。
- 新 TinyGrad 项目寻求协助:一位新成员介绍自己,寻求第一个项目以获得 tinygrad 的实操经验,并被建议尝试一个小额 bounty。
- 共享了一些有用的资源,包括 tinygrad-notes 和 mesozoic-egg 的 tinygrad-notes,以辅助其学习。
- 调试 Softmax 中的 NaN 问题:一位成员报告在模型中调试 NaN,怀疑是
softmax()问题,并指出在__call__过程中打印会导致优化器问题。- George Hotz 回应称打印不应该破坏程序,并建议提交 issue 以进行进一步调查。
Torchtune Discord
- TorchTune 模型与 vLLM 集成:成员们讨论了将自定义 TorchTune 模型与 vLLM 集成的方案,建议像处理 HF 模型一样对 TorchTune 微调后的模型进行推理,并提供了相关教程。
- 对于未在 HF 上定义的自定义网络,需要在 vLLM 中定义模型,详见 vLLM 文档,或者使用 Torchtune 的 generate 脚本作为替代方案。
- Bitsandbytes 困扰 Mac 用户:由于
bitsandbytes>=0.43.0没有为 Linux 以外的平台提供二进制文件,在 macOS 上执行pip install -e '.[dev]会失败,但降级到bitsandbytes>=0.42.0可能会有帮助。- 根据 bitsandbytes issue 1378,虽然 0.42 之前的版本标签有误,但至少这使其可以安装。
- QLoRA 深入研究 sub-4-bit 量化:成员们一直在寻找关于使用 4-bit 以下量化进行 QLoRA 风格训练的文献。
- 该咨询专门针对 QLoRA 背景下与 sub-4-bit 量化技术相关的方法和发现。
- 奖励函数(Reward Functions)正在成型:团队计划支持不同的奖励函数,实现细节正在讨论中,并且有人提出了关于以一种“奇怪的方式”定位奖励计算的问题。
- 随后有人提到正在收集重要函数列表,请保持关注!
- 损失函数激增,实验蓬勃发展:团队正在尝试不同的损失函数,旨在通过可能采用类似于 DPO losses 的协议,来避免 recipe 过度激增。
- 目标是在支持必要损失和防止实验阶段过度泛化之间取得平衡,并承认在 A100 上测试期间使用了硬编码的测试参数。
Cohere Discord
- Coral Chat 扩展至 Firefox:Coral Chat 现在是 Firefox 侧边栏中的聊天机器人,可以通过将
browser.ml.chat.provider设置为 https://coral.cohere.com/ 进行配置。- 一位用户通过 Imgur 链接展示了该集成及其功能。
- Next-Token 生成问题浮出水面:一段 YouTube 视频强调了 LLM 在给定上下文中生成下一个 token 时可能面临的问题。
- 讨论表明该问题在各种 LLM 中普遍存在。
- Cohere Chat API 获得 Java 演示:一位成员分享了一个展示 Cohere Chat API 的 Java 示例,特别是与 command-a-03-2025 模型交互的
runInteractiveDemo()方法。- 该演示允许用户与 Cohere AI 交互,记录 prompt 和 API 交互以进行调试和优化。
- Diofanti.org 揭露希腊政府支出:Diofanti.org 是一个监控希腊政府支出的开放数据平台,为透明度和问责制提供工具。
- Aya 模型是该平台聊天机器人的首选模型,支持透明度和问责制倡议。
- LUWA App 定于 2025 年 4 月发布:LUWA.app 是一个 AI 驱动应用的搜索目录,将于 2025 年 4 月 25 日上线。
- 创建者正在探索 Cohere 及其 LLM 模型,以降低成本并增强应用性能。
LLM Agents (Berkeley MOOC) Discord
- Lambda 提供无服务器 API 额度:Lambda 正为每位参与者提供价值 $100 的无服务器 Inference(推理)API 额度,申请链接见此处。
- Google 提供 Gemini API 访问权限:Google 向所有参与者免费开放 Gemini API 和 Google AI Studio 的访问权限。
- 这为参与者在 Hackathon 期间探索和利用 Google 的 AI 能力提供了宝贵机会。
- Sean Welleck 教授 AI 驱动的数学:卡内基梅隆大学助理教授 Sean Welleck 发表了题为 Bridging Informal and Formal Mathematical Reasoning 的演讲,涵盖了支持证明开发的 AI 驱动工具,点击此处观看直播回放。
- Welleck 领导卡内基梅隆大学的 Machine Learning, Language, and Logic (L3) Lab,曾获得 NeurIPS 2021 优秀论文奖和两项 NVIDIA AI Pioneering Research Awards。
- 邮件通知短暂延迟:成员们注意到今天的讲座邮件通知比平时有所延迟。
- 一位成员确认讲座已举行,邮件发送确实稍晚了一些。
DSPy Discord
- AI Agent 开发者求职:一位经验丰富的 AI Agent 开发者宣布可承接新项目或全职工作机会。
- 他们擅长构建由 GPT-4, LangChain, AutoGen, CrewAI 及其他前沿工具驱动的自主 Agent。
- DSPy 模块指标?:一位成员询问了用于评估 DSPy 模块的新指标。
- 他们引用了这篇论文作为可能的灵感来源。
MLOps @Chipro Discord
- MCP 服务器部署在 AWS:一场关于在 AWS 上构建和部署生产级 Model Context Protocol (MCP) 服务器的研讨会将于 PT 时间 4 月 17 日上午 8 点举行。
- 研讨会报名链接:https://buff.ly/R7czfKK。
- MCP 标准改进 ML 上下文:MCP 被强调为一种新兴标准,旨在改进跨项目和团队定义、共享及管理机器学习上下文的方式。
- 该研讨会将提供关于 MCP 能力的实用见解,使数据工程师、数据科学家、机器学习工程师和 AI/ML 爱好者受益。
Codeium (Windsurf) Discord
- Windsurf 发布 GPT-4.1:GPT-4.1 现已在 Windsurf 上线,详情见 Twitter/X、Bluesky 和 Threads。
- Windsurf 提供免费无限量 GPT-4.1:Windsurf 在所有方案中提供为期仅一周(4 月 14 日至 21 日)的免费无限量 GPT-4.1 使用。
- 4 月 21 日后,GPT-4.1 将以每次使用仅需 0.25 额度的特别优惠价格提供。
- GPT-4.1 成为新默认模型:新用户将默认使用 GPT-4.1,现有用户可以通过模型选择器轻松切换。
- Windsurf 用户表示:“不要错过这个限时机会!”
Gorilla LLM (Berkeley Function Calling) Discord
- Gorilla LLM 减少了一列:多轮复合列(multi-turn composite column)已从数据集中移除,但原因尚未说明。
- 尽管已被移除,该列在 BlogPost 的“新引入类别”部分中仍被提及,并且在多轮任务(multi-turn tasks)的 1000 分总分中占据 200 分的权重。
- Gorilla LLM 数据集出现偏差:数据集构成存在差异,因为在说明数据集结构的图表中缺少了多轮复合列。
- 目前尚不清楚该列的移除是暂时的,还是 blog post 也应该更新以反映这一变化。
AI21 Labs (Jamba) Discord 没有新消息。如果该社区沉寂时间过长,请告知我们,我们将将其移除。
第二部分:频道详细摘要与链接
完整的逐频道详情已针对电子邮件进行截断。
如果您喜欢 AInews,请分享给朋友!预先感谢!