ainews-the-new-openai-agents-platform

全新的 OpenAI 智能体平台

OpenAI 推出了一套全面的 AI 智能体(Agent)新工具,包括 Responses API网页搜索工具 (Web Search Tool)计算机操作工具 (Computer Use Tool)文件搜索工具 (File Search Tool),以及一个集成了可观测性工具的开源 Agents SDK,这标志着向“智能体之年”迈出了重要一步。与此同时,Reka AI 开源了 Reka Flash 3,这是一个拥有 210 亿 (21B) 参数的推理模型,其性能超越了 o1-mini,并为其 Nexus 平台提供支持,模型权重已在 Hugging Face 上发布。OlympicCoder 系列在竞赛编程基准测试中超越了 Claude 3.7 Sonnet 以及许多更大规模的模型。DeepSeek 构建了一个拥有 3.2 万 (32K) 块 GPU 的集群,能够在不到一周的时间内训练出 V3 级别的模型,并正在探索 AI 蒸馏技术。Hugging Face 宣布支持 Cerebras 推理,在 Llama 3.3 70B 上实现了超过 2,000 token/秒 的速度,比领先的 GPU 快 70 倍。RekaSonic-2 语音 AI 模型通过 Together API 实现了 40 毫秒 (ms) 的延迟阿里巴巴的通义千问 (Qwen Chat) 增强了其多模态界面,支持高达 500MB 的视频理解、语音转文字、访客模式以及扩展的文件上传功能。Sama(萨姆·奥特曼)称赞 OpenAI 的新 API 是“有史以来设计最精良、最实用的 API 之一”。

#ai-agents #api #model-releases #fine-tuning #reinforcement-learning #model-training #model-inference #multimodality #voice-synthesis #gpu-clusters #model-distillation #performance-optimization #open-source reka-flash-3 o1-mini claude-3-7-sonnet llama-3-3-70b sonic-2 qwen-chat olympiccoder openai reka-ai hugging-face deepseek togethercompute alibaba

OpenAI 可能就是你所需要的一切。

2025年3月11日至3月12日的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号28 个 Discord 服务器(224 个频道,2851 条消息)。预计为你节省阅读时间(以 200wpm 计算):258 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!

今天的直播中,OpenAI 发布了一系列重大更新,为 Agent 之年做准备:

Atty Eletti 讲述了设计决策的完整故事,sama 称其为“有史以来设计最精良、最实用的 API 之一”。

你可以在今天发布的独家 Latent Space 采访中找到更多代码示例和亮点:

https://www.youtube.com/watch?v=QU9QLi1-VvU


目录频道摘要已移至此邮件的网页版:


AI Twitter 简报

1. AI 模型与性能:模型发布、基准测试、特定模型的性能比较

  • Reka Flash 3,来自 Reka AI 的新型 21B 参数推理模型已开源 @RekaAILabs,实现了极具竞争力的性能。@reach_vb 强调 Reka Flash 3 采用 Apache 2.0 许可,且击败了 o1-mini,并质疑为什么它没有走红。Reka AI 进一步详细说明,Reka Flash 3 为其新的企业智能平台 Nexus 提供支持,并在合成和公共数据集上进行了微调,随后通过基于模型和基于规则的奖励进行了 RLOO。权重可在 Hugging Face 上获取。
  • OlympicCoder 是一系列开源推理模型,其表现优于 Claude 3.7 Sonnet 以及比其大 100 多倍的模型,据 @_lewtun 称。该发布包括 CodeForces-CoTs 数据集和针对竞赛编程问题的 IOI’2024 基准测试
  • DeepSeek 已经构建了一个 32K GPU 集群,能够在不到一周的时间内训练 V3 级别的模型,据 @teortaxesTex 称。@SchmidhuberAI 指出 DeepSeek 现在正在讨论 AI 蒸馏 (distillation),这是他在 1991 年发表的一个概念,并将其与他早期的工作联系起来。@cis_female 报告称,在 3x abacus + two sticks 上以 int0 量化运行 R1,速度达到 30 tokens/s
  • Hugging Face Inference 现在支持 Cerebras,由 @_akhaliq 宣布。据报道,Cerebras Inference 运行 Llama 3.3 70B 等模型时速度超过 2,000 tokens/s,比领先的 GPU 快 70 倍
  • 据报道,R1 在新款 M3 Ultra 上的运行速度达到 18t/s,价格约为 9,000 美元,据 @reach_vb 称,这表明高性能推理的可获得性正在提高。
  • Reka 的 Sonic-2 语音 AI 模型现在可通过 Together API 获取,提供 40ms 延迟和高保真语音合成,由 @togethercompute 宣布。
  • Qwen Chat 已增强,具有统一的多模态界面,支持文本、图像和视频,并增强了高达 500MB 的视频理解能力,重新设计了具有语音转文本、访客模式和扩展文件上传容量的移动体验,据 @Alibaba_Qwen 称。

2. AI Agent 与开发者工具:专注于构建和使用 AI Agent 的工具、SDK、API 和 Agentic 工作流。

  • OpenAI 发布了用于构建 AI Agent 的新工具,包括 Responses APIWeb search toolFile search toolComputer use toolAgents SDK,正如 @OpenAIDevs@OpenAIDevs@OpenAIDevs@OpenAIDevs@OpenAIDevs@OpenAIDevs 所宣布,并由 @omarsar0@scaling01 进行了总结。Responses API 统一了 Chat Completions 和工具使用,实现在单个请求中支持多轮对话 Agent。内置工具包括 Web Search(由 GPT-4o 驱动,在 SimpleQA 上达到 90% 的准确率)、File Search(支持元数据过滤)以及 Computer Use(自动化浏览器和操作系统任务,达到 SOTA 基准测试水平)。Agents SDK(开源,在 Swarm 基础上进行了改进)有助于编排具有护栏(guardrails)和可观测性的单 Agent 及多 Agent 工作流。@sama 称新 API 是“有史以来设计最精良、最实用的 API 之一”。@swyx 提到了一期 Latent Space Podcast 播客,其中 OpenAI 讨论了这些功能。
  • LangChain 发布了 Agent Chat UI(一个用于通过聊天与 LangGraph 应用交互的开源 Web 应用)和 LangGraph-Reflection(一个预构建的图,用于 Agent 进行自我批判并改进输出),由 @LangChainAI@LangChainAI 报道。他们还强调了 C.H. Robinson 如何通过 LangGraph 和 LangSmith 自动化订单处理,每天节省 600 多个小时,据 @LangChainAI 称。
  • Weaviate 发布了一个 Transformation Agent,允许用户不仅可以查询,还可以创建和更新数据库中的数据,由 @bobvanluijt 宣布。
  • Contextual AI 发布了 Contextual Reranker,这是一款遵循指令的 SOTA 重排序器(reranker),旨在提高 RAG 流水的精度,并允许对排序优先级进行细粒度控制,由 @apsdehal 详细介绍。@douwekiela 介绍了一个类似的遵循指令的重排序器,强调了其根据用户指令确定优先级的的能力。
  • Perplexity AI 发布了 Windows 应用,提供语音听写、键盘快捷键以及访问最新模型的权限,由 @perplexity_ai 宣布。

3. AI 应用与行业影响:现实世界应用、行业用例及公司新闻。

4. 中国与 AI 竞争:关注中国的 AI 进展以及与美国的竞争。

  • @teortaxesTex 认为 中国将培养出数百名水平堪比 AI 大师的人才,并且 中国 ML 毕业生和项目的质量正在呈指数级增长,这表明美国的招聘池不足以与之竞争。他还暗示 中国正秘密地由技术官僚异世界重生小说宅男引导
  • @dylan522p 在一个系列中涵盖了硬件基础和历史悠久的机器人公司,强调了 中国在机器人领域的崛起
  • @teortaxesTex 认为 中国可能会在航天领域超越美国,因为美国无法建造专门的道路,而中国则专注于航天的规模、工程和物流。他预测 未来 5 年内中国入轨载荷将出现另一个“曲棍球棒式增长事件”,并指出他们的速度明显更快。@teortaxesTex 将美国的 “Stargate” 方案与 中国建造 “1000 个 2K GPU 机房” 进行了对比,质疑中国的技术市场是否比人们认知的 “共产主义集权” 更具竞争力。
  • @teortaxesTex 认为 西方专注于 “共产主义” 而非 “中国工业党” 是在自讨苦吃,并暗示他们正在承担西方已经放弃的 “白人的负担”。
  • @teortaxesTex 质疑了 “产能过剩” 的神话,认为在住房、能源、芯片、原材料和汽车等关键领域,“东西越多越好”,这可能与西方的经济观点形成对比。
  • @teortaxesTex 评论了 中国将 EV 和人形机器人商品化,将 Elon Musk 的愿景与中国的市场行为进行了对比。

5. AI 研究与技术:正在讨论的核心 AI 研究概念和技术。

  • 关于通过 Meta Reinforcement Fine-Tuning (MRT) 优化 test-time compute 的新研究受到了 @rsalakhu@iScienceLuvr 的关注。MRT 被介绍为一种新的微调方法,在数学推理方面相比 outcome-reward RL 实现了 2-3 倍的性能提升和 1.5 倍的 token 效率,表现优于 outcome-reward RL,并在 1.5B 参数规模上达到了 SOTA 结果。
  • Inductive Moment Matching (IMM) 是来自 Luma AI 的一类新型生成模型,用于单步或少步采样。据 @iScienceLuvr 指出,该模型在 ImageNet-256x256 上使用 8 步推理达到了 1.99 FID,超越了 diffusion models。
  • Effective and Efficient Masked Image Generation Models (eMIGM) 是一个集成 masked image modeling 和 masked diffusion models 的统一框架。根据 @iScienceLuvr 的说法,它的表现优于 VAR,并以更少的 NFE 实现了与最先进的连续 diffusion models 相当的性能。
  • Foundation Models 中的医学幻觉 (Medical Hallucinations) 在一项新研究中进行了基准测试。@iScienceLuvr 报告称,研究发现 GPT-4o 在需要事实和时间准确性的任务中幻觉倾向最高,但 Chain-of-Thought (CoT) 和 Search Augmented Generation 可以降低幻觉率
  • @finbarrtimbers 强调了使用 RLOO (Reinforcement Learning from Objective Optimization) 进行训练的研究,并指出各实验室探索 PPO 以外算法的热潮。
  • @iScienceLuvr 提到,可以任意重排 token 位置的 Diffusion language models 可能是为有界序列长度扩展 test time compute 最强大的方式。
  • @shaneguMLChain-of-thoughts 描述为 LLM 的“暗知识” (dark knowledge),认为可以通过 prompting 方法实现对模型的更深层理解。
  • @SchmidhuberAI 讨论了 AI 蒸馏 (AI distillation),引用了他 1991 年的工作并将其与 DeepSeek 的讨论联系起来。
  • @jerryjliu0MCP (Model-as-Control-Plane) Agent 系统中的版本控制和回归测试 表示担忧,强调了动态行为变化和 API 更新导致服务中断的潜在问题。
  • @rasbt 发布了一个 “编写 Attention 机制代码”教程,讲解了 self-attention、parameterized self-attention、causal self-attention 和 multi-head self-attention。
  • @TimDarcet 指出 高斯混合模型 (GMM) 使用 Expectation-Maximization (EM) 可以快速且良好地拟合 MNIST,并质疑 EM GMM 是否已经足够。

6. 梗与幽默

  • @aidan_mclau有多少人(甚至是 F1 赛车级别的)误解了刹车的功能 进行了幽默的观察。这条推文引起了广泛关注。@hkproj 开玩笑地回复说 刹车“显然是用来让车手伸展脚部的”
  • @nearcyan 推荐 @TrungTPhan“老实说,是最近整个网站上最顶尖的博主之一”,称赞了他的内容并建议强烈关注。
  • @scottastevenson 宣布 “Vibecoding,但用于法律文件。即将推出。”

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. Gemma 3 的期待与潜在影响

  • 3月12日发布新款 Gemma 模型 (Score: 387, Comments: 70): Gemma 3 定于 2025年3月12日巴黎举行的 “Gemma Developer Day” 活动期间发布。公告采用了简洁现代的设计,配有几何星形图标,突显了该活动的专业性和高科技特质。
    • Gemma 3 预期: 社区正期待在 “Gemma Developer Day” 活动期间发布 Gemma 3,不过一些用户对确认发布持怀疑态度。讨论强调了该活动高规格的演讲嘉宾阵容以及对重大声明的期待,尽管有人提醒考虑到活动的闭门性质,不应盲目假设一定会发布。
    • 技术兼容性与改进: 用户非常关注确保 Gemma 3 能与 llama.cpp 无缝协作,许多人回忆起 Gemma 2 发布时的兼容性问题,希望这次能有更好的集成。一些用户提到 Google 内部使用了 llama.cpp fork,这暗示了改进兼容性以及对开源社区做出贡献的潜力。
    • 模型变体与性能: 用户渴望看到更多中型模型,如 Gemma 27B,并建议推出 32B、40B70B 等更大规模的模型以提升性能。同时,针对特定任务的小型模型如 9B12B 也备受关注,强调了多样化模型尺寸以满足不同使用场景的需求。

主题 2. M3 Ultra 512GB 运行 Deepseek R1 671B Q4 评测

  • M3 Ultra 512GB 运行 Deepseek R1 671B Q4 达到 18T/s (DAVE2D 评测) (Score: 384, Comments: 215): 正如 DAVE2D 评测所强调的,M3 Ultra 512GB 在运行 Deepseek R1 671B Q4 时达到了 18T/s 的性能。
    • 讨论重点关注了 RAG 系统和内存带宽问题,指出了 R1/MoE 架构中的效率低下以及可能的优化领域。用户讨论认为小型模型通常更快,但 70B 模型的速度低于预期,且可能存在导致流水线停顿的调度/线程问题
    • 评论者辩论了 M3 Ultra 与其他系统的成本与效率,将其与涉及 Nvidia 5090H200 的配置进行对比,强调了 M3 Ultra 的能效和易获得性。用户提到,虽然 M3 Ultra 的功耗较低(低于 200W),但替代系统虽然性能更高,但成本和功耗也更大。
    • 存在关于量化方法的详细技术讨论,如 Q4_K_M 和内存交织,并提到了用于量化的 GGML_TYPE_Q6_Ksuper-blocks。用户还讨论了内存带宽及其对性能的影响,特别是在大容量 RAM 系统上进行 inference 时。

主题 3. NVLINK 对 RTX 3090 性能的影响

  • NVLINK 将双 RTX 3090 的推理性能提升了近 50% (Score: 144, Comments: 41): 据报道,NVLINK 将双 RTX 3090 GPU 的推理性能提升了近 50%。这表明对于协同使用这些 GPU 的任务,计算效率有了显著提高。
    • 主板与 GPU 配置: 用户讨论了主板的 PCIe 通道配置,指出使用 x8 转接卡可能会限制性能。hp1337 解释了他们使用 x8 通道配置 6 个 GPU 的方案,并建议未来使用 x16 通道进行测试以获取潜在的性能洞察。
    • NVLink 的可用性与替代方案: FullOf_Bad_Ideas 询问了 RTX 3090 的 NVLink 桥接器的可用性和成本,a_beautiful_rhind 建议使用 open-gpu-kernel-modules 作为替代方案。然而,Pedalnomica 指出这仅能开启 P2P,无法达到 NVLink 的性能水平。
    • 量化与 FP8 计算: __JockY__ 等人讨论了在 RTX 3090 上使用 FP8 量化,强调 vLLM 在没有原生 FP8 硬件支持的情况下,通过 FP8 Marlin 内核实现性能提升,这一点已由 Competitive_Buy6402bihungba1101 参考 vLLM 的 GitHub 证实。

主题 4. 阿里巴巴用于情绪识别的 R1-Omni

  • 阿里巴巴刚刚发布了 R1-Omni! (Score: 244, Comments: 76):Alibaba 推出了 R1-Omni,该模型专注于通过全模态情感识别 (Omni-Multimodal Emotion Recognition)强化学习 (Reinforcement Learning) 来增强情感智能。
    • 伦理担忧:多位评论者对情感检测技术的伦理影响表示担忧,强调了侵入性以及对神经多样性个体可能产生的歧视等问题。人们担心自动化此类主观任务可能导致滥用和伤害,特别是在未经同意或缺乏透明度的情况下使用时。
    • AI 心理治疗:关于 AI 治疗师的讨论呈现两极分化,一些人看到了可及性和一致性等潜在益处,而另一些人则警告存在加剧焦虑或缺乏人类监管等风险。辩论涉及成本、有效性以及企业滥用的可能性之间的平衡。
    • 技术与社区层面:提到了 R1-Omni 模型已在 GitHub 上可用,并对其与阿里巴巴的关系及内部竞争提出了疑问。用户还批评了模型的命名习惯,并要求提供该技术的演示。

主题 5. Reka Flash 3:新型开源 21B 模型

  • Reka Flash 3,新型开源 21B 模型 (Score: 220, Comments: 50):Reka Flash 3 是一款拥有 210 亿参数 (21B) 的新型开源模型。它已在 HuggingFace 上线,更多详情可以在 Reka AI 博客中找到。
    • 尽管 Reka Flash 3 模型体量较小(21B 参数),但它正被拿来与 QwQ-32B 等更大的模型进行比较,并展示了极具前景的性能基准。一些用户注意到它在速度优先于规模的场景中的应用潜力,而另一些人则对其编程能力表示怀疑,特别是与 Mistral Nemo 等模型相比时。
    • 讨论强调了该模型的 Apache 许可证,这允许广泛的使用,且其尺寸非常适合 24GB 显存显卡。用户对其潜在的多模态能力表现出兴趣,尽管目前尚未得到证实。
    • 用户对该模型的推理能力表现出浓厚兴趣,对其解决“老虎谜题”等复杂问题的能力印象深刻。这证明了该模型在处理复杂推理任务方面的潜力,而此前人们认为这类任务需要大得多的模型才能完成。

其他 AI Subreddit 摘要

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

主题 1. Claude 3.7:通过调试提升开发者技能

  • Claude 3.7 让我成为了更好的开发者。 (Score: 234, Comments: 64):作者批评 Claude 3.7 生成的代码过于复杂且效率低下,称其为“彻头彻尾的垃圾”和“过度设计的废话”。尽管感到沮丧,作者承认修复此类代码的过程提升了他们的开发技能,这表明解决 AI 生成的代码问题可以是一种有效的学习体验。
    • 评论者强调了良好的 Git 实践的重要性,例如为新功能创建分支并频繁提交,以便轻松回滚 AI 生成的代码。他们建议使用 rebase 在合并回主分支之前将多个提交合并为一个,并强调频繁提交是专业且有益的。
    • 一些用户讨论了他们使用 Claude 3.73.5 的经验,指出 3.7 经常产生过于复杂的代码,而 3.5 则更简单、更可靠。然而,对于 3.5 目前的性能评价褒贬不一,暗示其性能可能随时间有所下降。
    • 几位评论者分享了处理 AI 生成代码的策略,包括使用测试驱动开发 (TDD) 来引导代码质量,以及让 AI 解释概念而不是直接生成代码。他们警告不要依赖 AI 进行高层架构决策,因为这往往会导致现有功能的重复实现和过度复杂化。
  • Dario Amodei: AI Will Write Nearly All Code in 12 Months!! Are Developers Ready? (Score: 181, Comments: 183): Dario Amodei 预测 AI 将在 12 个月内编写几乎所有的代码,这预示着开发者将面临重大转变。视频内容未被分析,但标题表明了关于开发者是否为 AI 驱动编程的快速进步做好准备的讨论。
    • 许多用户对 Dario Amodei 的预测表示怀疑,将其与过去过于乐观的言论相提并论,如 Elon Musk 的 robotaxi 时间表和 Hinton 对放射科医生被取代的预测。他们认为,由于幻觉(hallucinations)和逻辑错误等问题,AI 生成的代码仍需要大量的人工监督,而这些问题目前的 AI 模型还无法轻易解决。
    • 几位评论者认为,虽然 AI 可以辅助编程,但由于它无法自主管理复杂任务、确保代码质量以及理解设计和架构(design and architecture),目前还无法取代开发者。他们强调 AI 工具可以生成代码,但仍需要人工验证和指导,使其更像是高级编译器(compilers)而非独立的程序员。
    • 普遍共识是,目前围绕 AI 能力的炒作很大程度上是由营销和融资活动驱动的。评论者强调,AI 编程的真正突破可能会因为其市场影响而泄露,而快速进步的说法往往更多是为了吸引投资者兴趣,而非反映眼前的技术现实。
  • This is why I use ChatGPT instead of Grok (Score: 191, Comments: 14): 该帖子批评了 Claude 生成的代码输出,并表达了相对于 Grok 更倾向于 ChatGPT 的立场。配图幽默地将 PC 端使用 Reddit 对比手机端的“无休止刷屏”(doomscrolling),暗示前者更像是一种智力活动,类似于“知识策展”或“Reddit 话语分析”。
    • ChatGPT vs. Grok: Grok 被批评不如 ChatGPT 通用且过于复杂,尽管 ChatGPT 被贴上“骗子”的标签,但在语法纠错等任务中仍是首选。用户对 ChatGPT 倾向于在不告知的情况下删除其认为不必要的内容感到沮丧。
    • 跨设备的无休止刷屏: 讨论指出,不同设备上的 doomscrolling 是相似的,区别在于 PC 端的操作看起来更受控,但仍然涉及同样的心理压力。这种区别更多在于观感和控制感,而非设备本身。
    • AI 模型的用户体验: 用户对比较 Grok 3GPT-4.5 等不同模型的响应很感兴趣,但 GPT Plus 每周 50 条消息的限制 阻碍了这种探索。

主题 2. Nvidia 的 Gen3C:图像转 3D 的进展

  • Gen3C - Nvidia’s new AI model that turned an image into 3D (Score: 259, Comments: 25): Nvidia 的 Gen3C 是一个新的 AI 模型,可以将 2D 图像转换为 3D 表示,展示了图像处理技术的进步。
    • 内存担忧: 用户担心 Gen3C 可能会非常消耗内存,质疑其在消费级 GPU 上的可行性。TheSixthFloor 建议它可能至少需要 16GB VRAM,类似于其他先进的 AI 模型。
    • 技术澄清: Silonom3724 澄清说 Gen3C 使用的是 Image to point cloud to NeRF(图像转点云转 NeRF),而不是直接的 3D 多边形表示;而 grae_n 注意到其中包含反射材料,暗示采用了 gaussian/NeRF 方法。
    • 可用性与获取: Gen3C 的代码预计很快发布,并提供了 GitHub 仓库Nvidia 研究页面 的链接。用户渴望获得关于其发布和本地运行能力的更新。

主题 3. Dario Amodei:AI 代码生成预测与质疑

  • Dario Amodei:AI 将在 12 个月内编写几乎所有代码!! (评分: 139, 评论: 130):Dario Amodei 预测 AI 将在 12 个月内编写几乎所有代码,这引发了工程界的怀疑。由于帖子中缺乏详细论据,限制了对该预测可行性的进一步分析。
    • 批评者认为,由于上下文窗口(context window)大小的限制,AI 缺乏在 12 个月内编写所有代码的能力,这影响了它在大型代码库中保持全局意识的能力。AI 在有效处理像 Linux kernel 这样复杂的系统或关键系统控制代码方面仍显吃力,将内核转换为 Rust 的失败尝试就证明了这一点。
    • 对于在没有人类监督的情况下由 AI 编写代码的实用性,人们普遍持怀疑态度。工程师们强调了人类审查和清晰规范的必要性,而 AI 目前无法独立管理这些。中层管理人员(Middle management)也因缺乏指导 AI 完成此类任务的技术专长而受到批评。
    • 一些评论人士认为 Dario Amodei 的预测是吸引资金的战略举措,而非现实的预报。目前 Copilot 等工具的局限性凸显了 AI 在高效处理大型项目时面临的挑战。

AI Discord 摘要

由 Gemini 2.0 Flash Exp 生成的摘要之摘要的总结

主题 1:OpenAI 的 Agent 开发生态系统不断演进

  • OpenAI 发布用于 Agent 创建的 Responses API 和 SDK:OpenAI 推出了全新的 Responses APIAgents SDK,旨在简化 Agent 开发,强调改进集成、优化工作流和生产就绪性。新 SDK 提供了追踪(tracing)、护栏(guardrails)和生命周期事件等功能,但也预示着 Assistants API 将在 2026 年中旬停用。
  • 社区辩论新 Agent 工具的优劣:社区正在积极讨论新工具的价值和功能,一些人对 GPT-4.5 生成代码的可靠性和一致性表示怀疑,并寻求 Responses API 与现有 chat completions API 之间区别的澄清。虽然新的 Web Search Tool 旨在提高搜索结果的可靠性,但用户观察到它缺乏类似其他平台的来源选择功能。
  • Agents SDK 的可观测性工具引发追踪问题:OpenAI 声称在其新 Agents SDK 中集成了 Braintrust 数据追踪,这引起了热议,用户想知道 OpenAI 是否支持与 Langfuse 或其他 Agent 可观测性工具的集成。实际上它是支持的,关于如何使用 OpenAI’s SDK 或将追踪发送到自定义工具的更多细节,可以在 此 GitHub 仓库 中找到。

主题 2:探索 AI 模型能力与局限性的前沿

  • Reka Flash 3 加入战局:Reka Labs 发布了 Reka Flash 3,这是一个从零开始训练的 21B 推理模型,展示了极具竞争力的性能和多模态能力,向 QwQ-32B 和 o1-mini 等现有模型发起挑战。尽管它是开源的,但关于其架构和训练数据仍存在疑问,其用途也从设备端使用转向为 Reka 的 AI 协作平台 Nexus 提供动力。
  • Anthropic 的 Claude 3.7 在 Perplexity 上面临输出限制:用户发现 Claude 3.7 在 Perplexity 上的输出限制为 5000 token,这与 Anthropic 官方文档声明的最高 128K 输出能力形成对比。这种差异引发了对该模型实际效用的质疑,并凸显了了解平台特定限制的重要性,尤其是在商业应用中。
  • GPT-4.5 代码:不一致得令人发笑:用户报告称 GPT-4.5 生成的代码不一致,例如在定义了 start() 函数后却调用一个不存在的函数 startApp()。人们对 GPT-4.5 输出结果需要持续监督表示担忧,并对 AI 生成代码的整体可信度感到忧虑,称需要“像照看小孩一样照看这种‘智能’”。

主题 3:社区驱动的 AI 开发工具与技术

  • AI Code Fusion 工具首次亮相,用于优化 LLM 上下文:一位社区成员介绍了 AI Code Fusion,这是一个旨在通过打包文件、计算 token 和过滤内容来为 LLM 上下文优化代码的工具,展示了社区在应对 AI 开发挑战方面的积极态度。该工具的创建者正积极寻求社区反馈以完善其功能。
  • Aider 的 Watch Files 实时模式支持交互式编程:Aider 新增的 --watch-files 标志启用了 实时模式 (live mode),允许开发者通过添加如 AI!(触发 Aider 进行更改)和 AI?(触发其回答问题)等注释来与 AI 进行交互式编程,标志着向更具协作性和交互性的编程工作流转变。
  • 利用 Browserless.io 绕过机器人检测:Nous Research AI 成员建议使用 Browserless.io 在网页抓取中绕过机器人检测和 CAPTCHA,强调其能够避免留下细微指纹并绕过多种网页保护机制。它支持使用 Puppeteer 或 Playwright 进行浏览器自动化,并提供用于测试和调试的抓取 IDE。

主题 4:AI 工作负载的硬件和基础设施考量

  • 本地 LLM vs 云端 GPU:大辩论仍在继续:用户讨论了在高端硬件(如配备 512GB RAM 的 M3 Ultra Mac Studio)上本地运行 LLM 与利用云端 GPU 的成本效益,在性能与长期负担能力之间取得平衡。AMD 用户报告称,Vulkan 和 ROCm 的性能在 24.12.1 驱动程序中出现故障,性能下降了 35%,不过 ROCm 已在 v1.1.13+ 版本中修复。
  • 推测解码在某些配置下停滞:当受限于 RAM 带宽,或者在比较 0.5b 与 14b 模型时,推测解码(Speculative Decoding)的表现可能比标准推理更差。随着 100Gbit NVMe 驱动器、400Gbit 网络和 CXL 内存的出现,swap 再次变得有用,正如 Dave2D 的 M3 Ultra Mac Studio 评测中所强调的那样。
  • SemiAnalysis 举办 Nvidia Blackwell GPU 黑客松SemiAnalysis 将于 3 月 16 日举办 Nvidia Blackwell GPU 黑客松,内容包括对 Blackwell 和 PTX 基础设施的实操探索,以及来自 OpenAI、TogetherAI 和 Thinking Machines 的演讲者。该黑客松在多个 Discord 频道中被提及,凸显了其行业重要性,并以抢先体验尖端 GPU 技术的承诺吸引了开发者。

主题 5:AI 开发中的伦理问题和使用政策

  • 关于 OpenAI 服务条款和越狱的讨论:鉴于 OpenAI 的服务条款,成员们进行了谨慎的讨论,服务器规则也禁止讨论如何绕过这些限制,同时建议关注伦理边界内允许的内容。这些通用政策并不禁止通过涉及奇幻写作、图像生成或角色扮演游戏的文本进行探索。
  • 讨论提示词技术和创意用例:OpenAI 的成员正在使用提示词(Prompting)技术,试图在不违反安全政策的情况下诱导模型给出更坦诚的回答。提出的问题包括让模型像用户的奶奶以前那样教编程。
  • 用户希望 ChatGPT 拥有 Grok 风格:讨论集中在与过滤内容相关的期望“氛围(vibes)”上;用户分享了诸如 这个 迷因,并表达了希望 ChatGPT 不要以同样的方式过滤或限制内容的愿望。还进行了 Deep Research 的价格比较,称 OpenAI 的 Deep Research 是最佳选择,但也承认“现在的限制太糟糕了,哈哈”。

PART 1: High level Discord summaries

Cursor IDE Discord

  • Cursor Nightly 遭遇滑铁卢Cursor 的最新 Nightly 更新引入了关键 Bug,破坏了 AI ChatCursor settings,导致 GUI 无法使用。
    • 用户报告称,重新安装应用也无法解决问题,这表明最新的 Nightly 更新本身存在问题。
  • Claude 3.7 定价引发不满:用户对 Claude 3.7 Thinking 的新定价感到愤怒,现在每次请求消耗 2 个额度而非 1 个,促使部分用户考虑替代方案。
    • 讨论指出,在大上下文中使用 Claude 3.7 Thinking,每次请求的成本可能高达 16 美分
  • Manus AI:革命性的 Agent 还是过度炒作的工具?:一位用户分享了 Manus AI,称其为“最疯狂的 AI Agent”,并展示了其克隆 Apple 网站的能力(来自 el.cine 的推文)。
    • 怀疑论者认为它可能只是带有 PC 操作工具的 Sonnet 3.7,而其他人则在畅想 AI Agent 运行公司的未来。
  • Cursor 的稳定性面临审查:多名用户报告 Cursor 几乎无法工作,经常卡顿或无响应,部分用户的 Claude Max 无法运行。
    • 一些用户发现回滚到 .46.11 版本可以解决问题,这引发了关于 .47 版本可能仅限部分用户使用的猜测。
  • 本地 LLM vs 云端 GPU:大辩论:一位用户建议购买配备 512GB RAM 的 M3 Ultra Mac Studio 来本地运行 完整版 DeepSeek R1,引发了关于该配置性价比的讨论。
    • 虽然有些人青睐本地 LLM,但其他人认为云端 GPU 提供更快的推理速度,且从长远来看更经济。

Perplexity AI Discord

  • Perplexity 发布桌面应用:Perplexity AI 发布了原生的 PC 桌面应用perplexity.ai/platforms),支持 语音听写键盘快捷键以及访问最新模型。
    • 然而,用户指出该应用本质上是网页版的套壳,缺乏桌面端的优势以及像 Complexity 这样的浏览器扩展;有人评价道:“它只是一个被削弱的浏览器”。
  • Revolut 促销码让用户头疼Revolut 用户在兑换 Perplexity Pro 促销码时遇到问题,部分人被告知需要创建新账户或联系 Revolut。
    • 正如一位用户提到的:“我联系了 Revolut,他们说我需要在 Perplexity 注册新账户。这很让人扫兴,但嘿,我觉得还是值得的。”
  • Claude 3.7 限制为 5K Tokens:用户发现 Claude 3.7 在 Perplexity 上的输出限制被硬性设定为 5000 tokens
    • 这与 Anthropic 的官方文档形成了对比,后者声明其输出可达 128K
  • 大学探索 Perplexity Enterprise:一位用户正在评估将 Perplexity Enterprise 集成到大学系统中,强调其连接内部政策和程序知识库的能力,参见 Perplexity Enterprise FAQ
    • 该平台提供内部数据搜索和自定义工作区的功能。
  • API chat completions 出现截断现象:一位成员报告在调用 sonar-reasoning-pro 模型chat.completions API 时出现间歇性内容截断;参见 Perplexity AI Playground
    • 增加 max_token 配额并未解决问题;该成员指出 Perplexity AI Playground 始终能输出完整响应,表明该问题是 API 特有的。

Unsloth AI (Daniel Han) Discord

  • Reka Flash 3 引起关注Reka Flash 3 已发布,这是一个采用 Apache 2.0 许可证的 21B 推理模型,性能可与 QwQ-32Bo1-mini 相媲美。
    • Reka 团队由前 DeepMind 员工组成,Reka 官网指出该 Flash 模型是多模态的。
  • 提供多 GPU 训练建议:当被问及如何使用 Unsloth 在多节点和多 GPU 上微调大模型时,一名成员建议使用 axolotlllama factory
    • 目前 Unsloth 尚未(正式)支持多 GPU,不过相关支持可能会在未来几周内推出。
  • AI Code Fusion 工具亮相:一名成员介绍了 AI Code Fusion,这是一个旨在通过打包文件、计算 Token 和过滤内容来为 LLM contexts 优化代码的工具,可在 GitHub 上获取。
    • AI Code Fusion 的创作者正在寻求社区对该工具的反馈。
  • 正则表达式在日期提取上优于 LLM:一位用户目标是训练模型从查询中提取正确的营业时间,他人建议 regex system(正则表达式系统)可能比使用 AI 更适合这项任务。
    • 一名成员链接了一个相关的 xkcd 漫画,主题是用复杂的解决方案过度设计简单的任务。
  • GRPO Batch Size 影响训练GRPO batch size 必须与生成数量一致,且 GRPO RL 算法的 num of generation 必须经过良好调优。
    • 建议 num generations 的范围是 4 到 8,增加 Batch Size 倍数会缩短训练时间,但会大幅增加 GPU 显存需求。

Nous Research AI Discord

  • Deep Hermes 展示初步推理能力:新的 Deep Hermes 模型已发布,具有从 R1 蒸馏出的初步推理能力,详见 Hugging Face
    • 成员们对测试该模型感到兴奋,但也表达了对超出上下文长度(context length)的担忧。
  • 通过 Browserless.io 实现无检测爬取:一名成员推荐使用 Browserless.io 来绕过网页爬取中的机器人检测和 CAPTCHAs,强调其具有避免留下细微指纹的能力。
    • 它支持使用 PuppeteerPlaywright 进行浏览器自动化,并提供了一个用于测试和调试的爬取 IDE。
  • SemiAnalysis 举办 Blackwell GPU 黑客松SemiAnalysis 将于 3 月 16 日举办 Nvidia Blackwell GPU 黑客松,活动包括对 Blackwell 和 PTX 基础设施的实操探索,演讲嘉宾来自 OpenAITogetherAIThinking Machines
    • 该活动由 TogetherLambdaGoogle CloudNvidiaOpenAI 等公司赞助。
  • 利用前向梯度优化 UT:成员们讨论了使用 前向梯度(forward gradients) 来优化 Universal Transformer (UT) 训练,因为在 UT 的共享层中这种方法可能更有效。
    • 这种方法与 N-GPT 结合使用可能会很有趣。
  • 字节跳动推出 Trae IDE:字节跳动发布了 Trae,这是一个类似于 Cursor 的免费 AI IDE,内置 Claude Sonnet 3.7 供免费使用,目前支持 MacWindows
    • Linux 版本正在计划中,该 IDE 的目标用户是 AI 编程初学者。

Eleuther Discord

  • Loglikelihood 评估解放了 LLM:成员们建议在多项选择题问答(MCQA)任务中使用基于 loglikelihood 的评估,从而无需严格的输出格式化。
    • 这解释了为什么指令模型(instruct models)能答对某些问题,而它们的聊天(chat)变体通常得分却为 0
  • 扩散模型执行频谱自回归:一篇博客文章(Spectral Autoregression)揭示了图像扩散模型在频域中执行近似自回归
    • 作者指出,这一理论虽然直观,但在实践中预测能力有限,特别是在使用匹配目标分布 RAPSD 的有色噪声时。
  • Neural Flow Diffusion Models 增强高斯噪声Neural Flow Diffusion Models (NFDM) 通过支持比标准高斯噪声更广泛的前向过程,并采用端到端、无需模拟的优化目标,增强了扩散模型。
    • 根据论文,实验证明了 NFDM 强大的性能和最先进的似然估计(likelihood estimation)。
  • 远离“坏样本”的引导避免了模式崩溃:一篇论文建议引导模型远离“坏样本”(badness)而非“无条件状态”,以避免 CFG(classifier-free guidance)的模式崩溃(mode dropping)。
    • 该方法实现了对图像质量的解耦控制,且不损害变化的多样性,在 ImageNet 上实现了 64x64 分辨率下 1.01 和 512x512 分辨率下 1.25 的创纪录 FID。
  • Tokenizer 问题威胁 Patching 评估:一位成员在分析 Math CoT 答案的重要电路时,寻求关于选择合适指标(metrics)来评估 patching 结果的建议。
    • 核心问题在于 Tokenizer 将 1015 等数字各拆分为两个 token,破坏了评估方程的直接应用。

Latent Space Discord

  • Avoma 与 Gong 竞争Avoma 作为一个集笔记自动化、调度、辅导和预测于一体的 AI 平台,被认为是 Gong 的竞争对手。
  • Factorio Learning Environment 测试 LLMFactorio Learning Environment (FLE) 已在 GitHub 上线,旨在利用游戏 Factorio 测试 Agent 在长期规划、程序合成和资源优化方面的能力。
    • 一位成员表达了兴奋之情,并幽默地请求立即入职 Anthropic Factorio 实验室,同时指出该环境目前仅限文本,但可以从 Qwen 2.5 VLM 等多模态数据输入中获益。
  • Contextual AI 发布遵循指令的 RerankerContextual AI 推出了一款新的 Reranker,它可以遵循自定义指令,根据新鲜度、文档类型或来源等要求对检索结果进行排序。
  • OpenAI 发布 Agent 工具OpenAI 推出了用于构建 Agent 的新工具,包括 Responses APIWeb Search ToolComputer Use ToolFile Search Tool
    • 他们还发布了一个新的开源 Agents SDK,集成了具有追踪、护栏和生命周期事件功能的可观测性工具,并宣传该 SDK 已达到生产级标准。
  • Luma Labs 推出 Inductive Moment MatchingLuma Labs 发布了 Inductive Moment Matching (IMM),这是一种新的预训练技术,声称其采样质量优异,且效率比扩散模型高出 10 倍。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 发布 FAQ 页面:OpenRouter 推出了一个 FAQ 页面,以解决常见问题并为用户提供更多清晰度。
    • 随新 FAQ 一同发布的还有一个小的体验优化(quality of life)更新,以提升用户体验。
  • Gemini 2.0 图像生成泄露Gemini 2.0 Flash Experimental 图像生成功能已流出,上限为 32k 上下文,但缺乏代码执行、搜索接地(search grounding)或函数调用(function calling)功能;用户在 gemini-2.0-flash-exp 下发现了图像保存代码。
  • OpenAI 预告面向开发者的发布:成员们根据提到 Responses API此帖子猜测 OpenAI 将有新发布。
    • 该发布预计在 太平洋时间上午 10 点 进行。
  • 关于 Cohere 的 AYA Vision 的询问:成员们询问了 OpenRouterCohereAYA vision 及其他 Cohere 模型的支持情况,AYA Expanse 模型(8B 和 32B)的定价可能为 输入 $0.50/1M Tokens输出 $1.50/1M Tokens
    • 用户仍在尝试确认这些费率,如此截图所示。
  • 参数计算功能被移除OpenRouter 因准确性问题移除了参数计算功能,认为其可能产生误导。
    • 团队计划稍后通过人工策展进行重构,并承认调整参数非常困难,幽默地称其为“古老符文” (ancient runes)。

OpenAI Discord

  • Agent Tools 在 OpenAI 开发者直播中揭晓:OpenAI 在直播中首次推出了面向开发者的 Agent Tools,随后举行了 AMA (Ask Me Anything) 环节,提供与开发团队直接互动的机会。更多信息和问题请见 OpenAIDevs 的 X 帖子
    • AMA 安排在 太平洋时间上午 10:30–11:30,允许开发者直接与新功能背后的团队交流。
  • 用户渴望 ChatGPT 拥有 Grok 的风格:成员们表达了希望将 Grok 的独特特征引入 ChatGPT 的愿望,如引用 Elon MuskElon Musk GIF 所示。
    • 讨论围绕所期望的“风格”(vibes)本质展开,特别是关于内容过滤方面。
  • GPT-4.5 生成代码存在不一致性:用户报告称 GPT-4.5 生成的代码不一致,例如调用不存在的函数或错误命名现有函数,导致人们对其相对于 GPT-4o 的可靠性产生疑问。
    • 成员们对需要不断监督 GPT-4.5 的输出以及 AI 生成代码的整体可信度表示担忧,称需要“像保姆一样照看这种‘智能’”。
  • 新的 Responses API 是 Assistant API 的镜像?:一位成员询问了新 Responses API 与现有 Chat Completions API 之间的区别,引发了关于 API 功能的讨论。
    • 澄清信息表明,新 Responses API “基本上是更好用的 Assistants API”。
  • 越狱行为危害服务条款 (ToS):成员们讨论了模拟场景以使 AI 模型 绕过限制或提高准确性的行为,这被视为“越狱”(jailbreaking),但可能违反 OpenAI 的服务条款 (ToS)
    • 用户被警告不要违反 ToS 以保护账号权限,服务器禁止讨论绕过限制的行为;但涉及幻想或角色扮演的暴力讨论不被视为禁忌。

aider (Paul Gauthier) Discord

  • Aider ‘Watch Files’ 现已上线:Paul Gauthier 宣布,运行带有 --watch-files 标志的 aider 现在可以启用 live mode,通过 AIAI!AI? 注释监视仓库中的所有文件以获取编码指令,如 Aider 浏览器 UI 演示视频所示。
    • 感叹号 AI! 触发 aider 进行更改,而问号 AI? 则触发其回答问题。
  • Aider 每日预算差异巨大:成员们讨论了 Aider 的每日预算,其中一人报告称,每周进行 7-12 小时的 AI 编码,Sonnet 3.7 的成本约为排行榜成本的 2 倍
    • 他们警告说,每周 40 小时的工作量很容易导致 8-10 倍的排行榜成本,而其他用户则通过默认使用更便宜的模型(如 o3 或 R1)来控制成本。
  • DMCA 下架通知导致 Claude Code 被封禁:一名用户报告称,因 fork 了 Claude 代码泄露仓库而收到 DMCA 下架通知,原始泄露者和所有 fork 均受到影响。
    • 另一名用户推测 o1 pro / o3 mini pro 可能很快会在 API 中发布。
  • Aider 编辑格式定义:Aider 排行榜中的“正确编辑格式”是指 Aider 期望 LLM 在编辑文件时使用的格式,关于编辑格式的 Aider 文档详细介绍了 wholediff 编辑格式。
    • 不同的模型在不同的格式下表现更好。
  • Code-Act 仓库可能值得关注:一名成员分享了 code-act 仓库的链接。
    • 他们指出这可能与讨论有关。

LM Studio Discord

  • Unity 与 LM Studio 联动:一名成员展示了一个 YouTube 视频,使用 JSON 文件进行数据传输连接 UnityLM Studio,但不确定该发布在 Discord 的哪个板块。
    • 用户正请求开设专门的 Unity 频道以更好地组织内容。
  • 寻求 DIY 内部 LLM 聊天系统的建议:一名成员正在寻求建立带有用户账户的内部 LLM Chat 的建议,该系统需与公司的 Google Docs 知识库集成,并可能使用推理 API
    • 他们正在考虑使用 LlamaIndex 作为向量数据库,AnythingLLMOpenWebUI 作为聊天界面,并探索 LM Studio 内部的选项。
  • Python SDK 缺少 Vision 支持,TypeScript SDK 领先:一名使用 Python SDK 1.0.1 的成员注意到 Typescript SDK 可以向 vision 模型发送图像,但该功能尚未移植到 Python
    • 社区正在等待 Python SDK 支持 vision 模型。
  • Copy4AI:捕获代码上下文的扩展:一名成员询问了 Copy4AI 扩展ext install 命令,该扩展旨在为 AI 助手复制代码片段。
    • 该扩展现更名为 leonkohli.snapsource,可以通过 VS Code 的扩展侧边栏访问。
  • AMD 驱动灾难:Vulkan 和 ROCm 受损,部分已恢复:一名 AMD 用户报告称,在 24.12.1 驱动中,VulkanROCm 的性能下降了 35%,但 ROCmv1.1.13+ 中已修复。
    • Vulkan 性能在 25.1.1 中仍保持在 50%,在 25.2.1 中逐步改善,并已向 AMD 提交错误报告

HuggingFace Discord

  • X 遭受网络风暴攻击Dark Storm 声称对 X 平台遭受的 DDoS 攻击 负责,该攻击导致该平台出现大规模停机。
    • 专家们驳斥了 Elon Musk 关于 Ukrainian(乌克兰)参与其中的暗示,Ciaran MartinBBC 的一篇文章 中称其“完全没有说服力”。
  • LanguageBind 优于 ImageBind:成员们讨论了使用单一解决方案处理 图像、音频、视频和 PDF 模态的问题,一位成员推荐了 LanguageBind,指出它 支持所有模态优于 ImageBind
    • 该模型完全基于合成数据集和公开数据集训练,其性能可与 OpenAI o1-mini 等专有模型相媲美。
  • Reka Space 变得更小Reka Flash 3 是一款 21B 通用推理模型,它不再被称为 端侧(on-device) 模型,而是用于驱动 Nexus —— Reka 旗下用于创建和管理具有原生深度研究能力的 AI Worker 的平台(Reka Space, getnexus.reka.ai)。
    • 该模型完全基于合成数据集和公开数据集训练,其性能可与 OpenAI o1-mini 等专有模型相媲美,并为 Nexus 提供动力。
  • RAGcoon 发布以助力初创公司:一个新的名为 RAGcoonAgentic RAG 项目已发布,旨在通过 混合搜索(hybrid search)、查询扩展(query expansion)多步查询分解(multi-step query decomposition) 导航各种资源和建议,从而协助构建初创公司。
    • 该项目基于 LlamaIndex 构建,使用 Qdrant 作为向量数据库服务,Groq 进行 LLM 推理(使用 Qwen 的 QwQ-32B),Hugging Face 提供 Embedding 模型,FastAPI 作为后端 API,以及 Google 的 Mesop 作为前端,并拥有令人印象深刻的 检索上下文可靠性
  • Ollama 接管 HfApiModel:成员们展示了如何将 Hugging Face 的 HfApiModel 替换为 Ollama 以配合 smolagents 使用,方法是创建一个自定义的 OllamaModel 类,该类与 Ollama 的 API 进行交互以生成 Prompt,从而允许在 smolagents 中使用本地 LLM。
    • 他们还分享了在 smolagents 中使用 Gemini, OpenAI 和 DeepSeek 模型 的代码片段,提供了设置 LiteLLMModelOpenAIServerModel 以及相应 API Key 的示例,并提供了 Google AI Studio 的链接 以获取 Gemini 的免费 API Key。

GPU MODE Discord

  • CUDA 新手前往圣何塞:尽管缺乏 CUDA 经验,一位成员仍表示有兴趣参加 3 月 16 日圣何塞(San Jose) 举行的 GPU mode 会议。
    • 讨论引发了关于参与会议是否需要专业知识的疑问。
  • Triton 的 tl.full 解决类型转换难题:一位用户成功在 Triton 中使用 tl.full 创建了一个具有定义值和数据类型的 0 维张量(0-dim tensor)tl.full((), 5, tl.int8)),以绕过在向张量累加时的溢出困境。
    • 成功的解决方案涉及:tmp_5 = tl.full((1,), value=5, dtype=tl.int8); out = a.to(tl.int8) + tmp_5
  • Triton Softmax Kernel 速度取胜:一位用户在 Triton 中的流水线 Softmax Kernel 表现出人意料地优于 PyTorch,证明在 float16 T4 Colab 上速度更快,如此图所示。
    • 结果展示了 Triton 如何实现新的高吞吐量设计。
  • Padding 防止 SMEM Bank 冲突stmatrix 的地址需要进行 Padding(填充),以避免指向同一个起始 SMEM bank,否则会触发 8 倍冲突,这借鉴了之前在 fast.cu 和 deepgemm 代码中实现的解决方案。
    • 鉴于 不存在硬件解决方案,当分块布局(tiled layouts)不切实际时,内存布局管理至关重要。
  • HuggingFace 库通过 WebNN/WebGPU 迁移至 TS/JS:一位成员正积极使用 WebNN/WebGPU 将整个 HuggingFace 库移植到 TS/JS,以创建一个前端实现。
    • 另外,IPFS Accelerate JS 的初始结构已通过占位符模块和 TypeScript 转换实现,详见此 commit

Interconnects (Nathan Lambert) Discord

  • SemiAnalysis 举办 Blackwell GPU HackathonSemiAnalysis 将于 3 月 16 日星期日举办 Nvidia Blackwell GPU Hackathon,届时将邀请来自 OpenAITogetherAIThinking Machines 的演讲者。
    • 本次 Hackathon 旨在探索 Blackwell & PTX 基础设施并协作开发开源项目,赞助商包括 Together、Lambda、Google Cloud、Nvidia、GPU Mode、Thinking Machines、OpenAI、PyTorch、Coreweave 和 Nebius。更多详情请见 SemiAnalysis Hackathon 页面
  • Reka Labs 发布 Reka Flash 3Reka Labs 开源了 Reka Flash 3,这是一个从零开始训练的新型推理模型,仅拥有 21B 参数却实现了极具竞争力的性能。
    • 该模型在合成数据集和公开数据集上进行了微调,随后通过 RLOO 结合基于模型和基于规则的奖励进行训练,强制模型输出 </reasoning> 以控制质量与思考时间的平衡,详见其 博客文章
  • Anthropic ARR 飙升,助力 Manus AI:据 The Information 报道,AnthropicARR 在 2025 年前两个月从 10 亿美元增长至 14 亿美元,其模型正为 最新的 AI 轰动项目 Manus 提供动力。
    • 这些模型正在为 Manus 提供支持,后者被描述为 最新的 AI 轰动项目
  • OpenAI 推出新 API 和 Agents SDKOpenAI 发布了新的 API 和工具,以便更轻松地开发 Agent 应用,包括 Responses APIWeb search 工具File searchComputer use 工具以及一个开源的 Agents SDK
    • 现有的 Assistants API 将在 2026 年中期逐步停用,更新日志中还提到了 API 中新增的 o3-mini-proo1-pro 模型。
  • Dario 预测 AI 将主导编程:Anthropic CEO Dario Amodei 预测,AI 将在未来 3 到 6 个月内编写 90% 的代码,并在 12 个月内编写几乎所有代码,据一条 推文 称。
    • 这一大胆的预测引发了开发者关于编程未来以及 AI 在其中角色的讨论。

MCP (Glama) Discord

  • MCP Servers 在 Cursor 集成中遇到困难:用户报告了在 Cursor 中集成 Brave Search 等 MCP servers 时遇到的问题(尽管在 Claude 中集成成功),错误提示为 no tools available,详情见 glama.ai/mcp/servers/gwrql5ibq2
    • 一位成员承认这是一个已知限制,并计划解决。
  • Phoenix Framework 助力 MCP 实现:一位成员展示了 Github 上的 MCPheonix,这是一个使用 Elixir 的 Phoenix Framework 实现的简化版 Model Context Protocol (MCP) server
    • 该实现简化了 MCP server 的创建和管理。
  • MCP 助力 Android 调试:一位成员介绍了 DroidMind,这是一个通过 ADB 管理 Android 设备MCP server
    • 该项目有助于在 AI 控制下调试设备端问题并分析日志。
  • MCP Servers 生成其他 MCP Servers:一位成员发布了 mcp-create,这是一个旨在构建其他 MCP serversMCP server,支持 TypeScript
    • 该项目包含一篇解释性文章,详细介绍了其功能以及如何直接执行生成的 MCP servers
  • Handoff 包含完整上下文:一位成员分享了 github.com 搜索结果,指出在 OpenAI 的 SDK 中,默认情况下 handoff 会包含整个对话历史。
    • 这涵盖了所有的 system、user 和 assistant 消息。

Notebook LM Discord

  • NotebookLM 在备考方面表现出色:一位用户报告称,使用 NotebookLM 根据学习指南主题进行自测取得了非常好的效果,他通过书签将 PDF 拆分并导入到不同的笔记本中。
    • 用户将测试结果转化为其他 App 中的抽认卡(flashcards),以便进一步学习。
  • NotebookLM 生成医疗文档:一位医疗领域的用户发现 NotebookLM 在解析指南和网站以创建患者出院信息方面非常有用。
    • 具体而言,他们为患者创建了一份关于工伤索赔的简洁单页文档。
  • 优化 NotebookLM 的数据摄取:一位用户正在自动化优化上传至 NotebookLM 的信息,重点是减小文件体积以便于机器人摄取(robot ingestion)
    • 这简化了他们在 NotebookLM 中处理文档的工作流。
  • Gemini 引发不满:尽管 Gemini 已集成到 Google 生态系统中,但一位用户对其表示不满。
    • 该用户未提及有关其负面体验的具体细节。
  • NotebookLM 处理海量知识库:一位拥有 1000 万字知识库(1500 本书,6000 个视频文本)的用户询问了 NotebookLM 的限制。
    • NLM 团队的一名成员澄清说,NotebookLM 支持 1000 万字,但在 300 个来源和每个来源 50 万字的限制内,并利用了 RAG 技术。

Codeium (Windsurf) Discord

  • Windsurf 邀请用户推荐好友Windsurf Referral Challenge 激励用户推荐好友,每推荐一位好友订阅 Pro 版本即可获得 500 flex credits,并有机会在 3 月 31 日前通过 windsurf.ai/refer 赢取定制的 Airpods Pro Max
    • 推荐人数最多者获胜,但所有人在好友订阅后都能获得积分。
  • Codeium 扩展无法读取文件:Codeium VS Code 扩展聊天(Claude 3.7 Sonnet)无法直接从文件夹读取脚本文件,需要用户将文件内容粘贴到聊天框中。
    • 建议用户在 codeium.com/support 提交报告,因为从技术上讲这应该是可以运行的。
  • Claude 3.7 Sonnet 在 VS Code 扩展中无法工作:与 Windsurf 不同,Claude 3.7 Sonnet Thinking 模型在 VS Code 扩展中不可用。
    • 用户被告知 Claude 3.7 Sonnet Thinking 目前在扩展中不可用
  • Codeium 错误导致挂起的请求中止:用户报告了一个持续存在的错误,导致 Codeium 无法工作,提示信息为 Codeium: The server aborted pending request,并提到了来自 releases.codeiumdata.com 的下载 URL。
    • 该问题在重启 IDE 和更换不同版本后依然存在,建议用户联系 vscode@codeium.com
  • Windsurf 修复 MCP 和 Sonnet 补丁:Windsurf 发布了 v1.4.6 补丁修复,解决了 MCP 可靠性3.7 Sonnet 网页搜索以及代理设置问题,详见 changelog
    • Windsurf Previews (Beta) 现在还允许用户直接在 Cascade 中预览本地运行的网站。

Yannick Kilcher Discord

  • 编译器会“黑”数学运算吗?:成员们讨论了编译器是否会优化 PyTorchNumPy 等深度学习框架中的计算,特别是关于复杂方程中运算顺序的问题,例如 (1/n) (a(c + d) + b)a(c/n + d/n) + b/n
    • 一位工程师建议添加额外的括号以确保系统按预期的顺序执行运算,而另一位工程师则思考了极简代码与显式代码之间的权衡。
  • Claude 3.7 绘制的 Matplotlib 图表令人惊叹:工程师们对 Claude 3.7 生成的 Matplotlib 图表感到兴奋,强调 benchmark 和 svgmaxing 的表现符合预期。
    • 此次交流中未提供具体链接。
  • 自适应元学习(Adaptive Meta-Learning):是框架还是噱头?:一位工程师询问 Adaptive Meta-Learning (AML) 这一术语是否已经确立,并将其描述为在线超参数优化 (Online HPO)与元学习的潜在结合。
    • 另一位工程师分享了 Semantic Scholar 搜索结果,结论是虽然这些关键词常被一起使用,但它们尚未构成一个定义明确的框架。
  • 虚拟现实解决监狱危机??:根据这篇文章,加州的一家女性监狱在禁闭室中使用 VR 头显取得了成功,使违规行为减少了 97% 以上
    • 该 VR 项目让参与者观看日常生活场景和旅行冒险,并通过艺术创作来处理他们的情绪。

LlamaIndex Discord

  • Llama Extract 访问权限已获准:一名成员请求访问 Llama Extract,并获得了加入封闭测试 (closed beta) 的机会,目前正等待 rasmus-persson@outlook.com 的邮件确认。
    • 未提供关于封闭测试细节的进一步信息。
  • Premium 方案升级变得简单:一位用户询问如何升级到 Premium plan,并收到了登录、点击头像图标并选择升级/管理按钮的说明。
    • 未就 Premium 方案的功能或优势进行进一步讨论或提供细节。
  • API 的 MP3 解析难题:一位用户报告了通过 API 上传 .mp3 文件进行解析时出现错误,并指出通过 UI/网页端上传运行正常。
  • 函数调用 (Function Calling) 对决:一位成员询问除了 OpenAI 之外,还有哪些模型擅长函数调用,希望能找到更便宜的选择。
    • 在提供的上下文中未推荐具体的替代模型。

DSPy Discord

  • Judge LLM 遵循 ChainPoll 模式:成员们正在构建一个遵循 ChainPoll 模式的 Judge LLM,它会返回平均响应链。
    • 一位成员建议使用 module.batch()dspy.Parallel 来加速该过程。
  • Best of N 文档查询:一位成员在查找 Best of N 的文档时遇到困难。
    • 该成员指出 ensemble 被列为 teleprompter,并询问它是优化输入程序还是将输入程序聚合为一个最优的单一程序。

Torchtune Discord

  • OpenPipe 精通演绎推理 (Deductive-Reasoning):一位成员分享了 OpenPipe 的演绎推理项目,强调其使用 Torchtune 进行 SOTA 演绎推理模型训练。
    • 该项目展示了 Torchtune 在实际、前沿 AI 应用中的能力,特别是在增强模型训练效率和有效性方面。
  • FP8 微调面临阻碍:成员们探讨了以 FP8 格式部署模型的困难,考虑通过 FP8 微调来减轻量化误差,但指出 FP8 在训练期间存在稳定性问题。
    • 他们建议逐渐增加 weight decay,以使权重在 FP8 微调期间保持在最佳范围内。
  • Torchtune 对 FP8 的 QAT 探索:一位成员询问了 Torchtune 的 QAT (Quantization Aware Training) 支持,特别是针对 FP8,目标是进行微调并减少量化误差。
    • 一个极具前景的 recipe 被认为是 Torchtune 内部实现 FP8 QAT 的潜在解决方案。
  • 回归测试讨论显示需要审查:新增的回归测试 (regression tests) 引发了关于确定模型大小和评估方法的讨论。
    • 成员们质疑仅靠评估是否足够,暗示了围绕更全面的衡量策略进行更深层次对话的必要性。
  • 评估有效性得到广泛探讨:讨论转向了对简单评估之外的衡量策略的需求,成员们辩论了各种评估指标的价值。
    • 这种审议预计将影响关于模型大小和测试方法的决策,推动向更稳健的评估实践转变。

Cohere Discord

  • Cohere 启动 Expedition Aya 2024!Cohere For AI 正在启动 Expedition Aya 2024,这是一个为期 6 周的开放构建挑战赛,专注于多语言、多模态和高效 AI
    • 参与者可以获得 Cohere API 额度,奖品包括限量版 Expedition 周边以及对顶级项目的认可,启动会议将于 2025 年 3 月举行。
  • SemiAnalysis 举办 Blackwell GPU Hackathon!SemiAnalysis 将于 3 月 16 日星期日举办 Nvidia Blackwell GPU Hackathon,提供对 Blackwell & PTX 基础设施的实操探索。
    • 演讲者包括来自 OpenAIPhilippe Tillet 和来自 TogetherAITri Dao,赞助商包括 Together, Lambda, Google Cloud, Nvidia, GPU Mode, Thinking Machines, OpenAI, PyTorch, Coreweave, Nebius
  • 研究员与多语言社区建立联系:一位研究员询问了 Cohere Discord 社区内的多语言和多文化活动,表达了对 Cohere 工作的欣赏。
    • 鼓励新成员介绍自己,说明所属机构、当前项目、首选技术/工具和社区目标,并遵守社区期望

tinygrad (George Hotz) Discord

  • SemiAnalysis 举办 Nvidia Blackwell GPU HackathonSemiAnalysis 将于 3 月 16 日星期日举办 Nvidia Blackwell GPU Hackathon,在合作开发开源项目的同时,提供对 Blackwell & PTX 基础设施的实操探索。
  • GTC 启动仪式聚焦 Blackwell GPUSemiAnalysisBlackwell GPU HackathonGTC 拉开序幕,活动包括引人入胜的早间主题演讲、使用强大的 Blackwell GPU(如 GB200s)进行全天 Hacking,以及富有洞察力的下午演讲。
    • 该活动由 Together, Lambda, Google Cloud, Nvidia, GPU Mode, Thinking Machines, OpenAI, PyTorch, Coreweave 和 Nebius 赞助。

Modular (Mojo 🔥) Discord

  • 期待 CUDA 博客文章:一位用户正在等待关于 CUDA 的新博客文章发布。
    • 未提供额外信息。
  • 对 CUDA 更新的期待升温:随着用户热切期待有关 CUDA 的最新更新和博客文章,热情不断高涨。
    • 社区渴望探索 CUDA 的新功能和改进,尽管具体细节仍处于保密状态。

AI21 Labs (Jamba) Discord

  • Qdrant 被移出 ConvRAG:开发团队曾考虑将 Qdrant 作为其 ConvRAG 的向量数据库,但出于未指明的原因决定使用另一个数据库。
    • 所选的数据库为 VPC 部署提供了更大的灵活性。
  • ConvRAG 选择替代数据库:为 ConvRAG 选择了另一个向量数据库而非 Qdrant。
    • 引用的主要原因是它在 VPC 部署场景中提供了增强的灵活性。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


Nomic.ai (GPT4All) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


完整的逐频道明细已针对电子邮件进行了截断。

如果您想查看完整的明细,请访问此电子邮件的网页版本:

如果您喜欢 AInews,请分享给朋友!预谢!