ainews-not-much-happened-today-5595

今天没发生什么事。

OpenAI 预告了 ChatGPT 的记忆功能更新,但提供的技术细节有限。有迹象表明 o3o4-mini 模型即将发布,同时媒体也泄露了关于 GPT-4.1 的消息。X.ai 推出了 Grok 3Grok 3 mini 的 API,并确认其为 o1 级别的模型。

业界讨论了 谷歌 TPUv7英伟达 GB200 的对比,重点介绍了 TPUv7 的规格,如 4,614 TFLOP/s 的 FP8 性能192 GB HBM 以及 1.2 Tbps 的 ICI 带宽。TPUv7 的定位可能已从训练芯片转向推理芯片。

关键的 AI 事件包括 Google Cloud Next 2025 以及三星推出的搭载 Gemini 的 Ballie 机器人。此外,社区受邀参加 2025 年 AI 工程师世界博览会(AI Engineer World’s Fair 2025)以及 2025 年 AI 工程现状调查。

#memory #model-release #hardware-accelerators #fp8 #hbm #inference #ai-conferences #agent-collaboration #robotics #model-comparison #performance #power-consumption gpt-4.1 o3 o4-mini grok-3 grok-3-mini o1 tpuv7 gb200 openai x-ai google nvidia samsung

平静的一天。

2025年4月9日至4月10日的 AI 新闻。我们为您查看了 7 个 subreddit、433 个 Twitter 账号30 个 Discord(230 个频道,6924 条消息)。预计节省阅读时间(按 200wpm 计算):601 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

Sama 为今天 ChatGPT 的 Memory 更新 造了一些势,但由于技术细节极少,目前还没有太多可参考的信息。

确实有证据表明 o3 和 o4-mini 即将推出,同时还有一些关于 4o 升级到 GPT4.1 的可靠媒体泄露。

X.ai 发布了 Grok 3 和 Grok 3 mini API,并且 Epoch AI 在一条现已删除的推文中独立确认其为 o1 级别的模型。我们 上次报道 Grok 3 是在 2 月份


既然现在比较平静,请考虑响应我们的 全球顶尖 AI Engineer 演讲征集,涵盖 AI Architects, /r/localLlama, Model Context Protocol (MCP), GraphRAG, AI in Action, Evals, Agent Reliability, Reasoning and RL, Retrieval/Search/RecSys , Security, Infrastructure, Generative Media, AI Design & Novel AI UX, AI Product Management, Autonomy, Robotics, and Embodied Agents, Computer-Using Agents (CUA), SWE Agents, Vibe Coding, Voice, Sales/Support Agents 等领域,并在 AI Engineer World’s Fair 2025 上发表!此外,请填写 2025 State of AI Eng 调查,有机会获得 250 美元的亚马逊礼品卡,期待 6 月 3 日至 5 日在 SF 与您相见!


目录频道摘要 已移至此邮件的网页版:


AI Twitter 综述

TPUs 和硬件加速器

  • Google TPUv7 对标 NVIDIA GB200@itsclivetime 发起了一场关于 Google TPUv7Nvidia GB200 的讨论,指出 TPUv7 在规格上大致相同或略逊一筹,但运行功耗略低。@itsclivetime 认为 JAX/XLA 可能让 TPU 榨取更高的 FLOPS 利用率,但提到 TPUv7 缺乏对 MXFP4/MXFP6 的支持是一个潜在缺点。@itsclivetime 强调了两者的封装设计几乎相同,均采用 8 堆栈 HBM3e两个大型 compute dies@itsclivetime 指出 TPUICI 可扩展至 9,216 颗芯片,但其 3D torus 拓扑 限制了可编程性,这与 GB200交换网络 (switched network) 形成对比。
  • TPUv7 规格与系统级性能@itsclivetime 提供了 TPUv7Nvidia GB200 规格的详细对比,包括 FP8 性能、HBM 容量与带宽、ICI/NVLink 带宽以及功耗@itsclivetime 批评了该博客文章中与 El Capitan FP64 性能的夸张对比,认为与 El Capitan 的 FP8 峰值性能 进行对比会更公平。
  • Google Ironwood TPU 发布@scaling01 报道了 Google 发布 Ironwood,这是其 第 7 代 TPU,也是 Nvidia Blackwell B200 GPU 的竞争对手,并指出其拥有 4,614 TFLOP/s (FP8) 性能、192 GB HBM、7.2 Tbps HBM 带宽以及 1.2 Tbps 双向 ICI
  • @TheRundownAI 重点介绍了 Google Cloud Next 2025Google 的 AI Agent 协作协议,以及 三星搭载 Gemini 的 Ballie 家庭机器人 等热门 AI 资讯。
  • TPUv7 设计与潜在转型@itsclivetime 推测 TPUv7 最初是作为训练芯片 (TPU v6p) 设计的,但后来被重新定位为推理芯片,这可能是由于推理模型 (reasoning models) 的兴起。
  • TPU 营销与夸大宣传@scaling01 提到有传言称 Google 新的 TPUv7 性能是最新款 iPhone 的 2000 倍,而 @scaling01 表示 TPUv7 的功耗将比 TPUv6 高出约 25%,但其 FP8 FLOPS 提升了约 2.5 倍
  • UALink 1.0 规范对比 NVLink 5@StasBekman 对比了 UALink 1.0 规范与 NVLink 5,指出 UALink 建议通过 50GBps 链路连接多达 1,024 颗 GPU,但 NVLink 硬件目前已经面世。

模型、训练与发布

  • Meta 的 Llama 4 模型发布与反响@AIatMeta 宣布发布 Llama 4@AIatMetaLlama 4 的潜力表示兴奋。然而,@TheTuringPost 报道称 Llama 4 系列发布后遭到广泛批评,指出其性能不尽如人意,尤其是在编程方面。
  • Grok-3 API 发布@scaling01 宣布推出 Grok-3 API,并提供了 grok-3grok-3-mini 的定价详情。@scaling01 提到 Grok-3-mini 具有两种模式:低推理强度和高推理强度
  • Sakana AI 的成就@SakanaAILabs 强调了其团队在 AI 数学奥林匹克 (AI Mathematical Olympiad) 中获得金牌,并将 SFT 和 RL 应用于 DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-14B RL 微调@Yuchenj_UW 报道称 UC Berkeley 开源了一个 14B 模型,在编程方面可与 OpenAI o3-mini 和 o1 媲美,该模型通过在 2.4 万个编程问题上对 Deepseek-R1-Distilled-Qwen-14B 进行 RL 训练,仅耗费 32 块 H100 运行 2.5 周(约 26,880 美元)@Yuchenj_UW 指出它构建在优秀的基座模型 Deepseek-R1-Distilled-Qwen-14B 之上,并使用了开源 RL 框架:字节跳动 (ByteDance) 的 verl@rasbt 总结了一篇关于通过 RL 微调改进小型推理模型的论文,使用 1.5B DeepSeek-R1-Distill-Qwen 模型AIME24 数学基准测试上实现了提升。
  • Together AI 的开源应用与认可@togethercompute 宣布推出一款由 Llama 4 驱动的全新免费开源 Together AI 示例应用
  • 月之暗面 (Moonshot AI) 的 Kimi-VL-A3B@_akhaliq 分享了 Moonshot AI 刚刚在 Hugging Face 上发布了 Kimi-VL-A3B@reach_vb 指出 Kimi_Moonshot - KimiVL A3B Instruct & Thinking 已发布,具有 128K 上下文并采用 MIT 许可证。
  • Anthropic 的 Claude 3.5 Opus@scaling01 强调了 Claude 3.5 Opus 的发布。
  • 字节跳动 (ByteDance) Seed-Thinking-v1.5@scaling01 报道了 字节跳动 (ByteDance) 的 Seed-Thinking-v1.5,具有 20B 激活参数和 200B 总参数@casper_hansen_ 提供了详细分析,指出它在多个领域击败了 DeepSeek R1
  • OpenAI Pioneers 计划@OpenAIDevs 宣布了 OpenAI Pioneers,这是一个为使用其 API 构建应用的雄心勃勃的公司提供的新计划,将在特定领域评估和定制微调模型方面进行合作。
  • 微软 (Microsoft) 的程序合成方法@ndea 强调了微软 (Microsoft) 的一种程序合成新方法,该方法通过将举例编程 (PBE) 任务分解为子任务,从而从 LLM 失败中恢复。
  • Pusa 视频扩散模型@_akhaliq 指出 Pusa 已在 Hugging Face 上线,这是一个千步视频扩散模型,训练成本仅约 100 美元。
  • 阿里巴巴 (Alibaba) LAM 模型发布@_akhaliq 分享了阿里巴巴 (Alibaba) 刚刚在 Hugging Face 上发布了 LAM,这是一个用于单样本可动画高斯头部的 Large Avatar Model。
  • OmniSVG 发布@_akhaliq 报道称 OmniSVG(一种统一的可缩放矢量图形生成模型)已在 Hugging Face 上发布。
  • Skywork R1V 发布@_akhaliq 指出 Skywork R1V 刚刚在 Hugging Face 上发布,开创了带有思维链 (Chain-of-Thought) 的多模态推理。

Agent 开发与工具

  • Google 的 Agent Development Kit (ADK) 和 Agent-to-Agent (A2A) 协议@omarsar0 宣布发布 Google 的 Agent Development Kit (ADK),这是一个用于构建、管理、评估和部署 multi-agents 的开源框架。@omarsar0 强调了 Google 发布的 Agent2Agent (A2A),这是一个用于跨生态系统安全协作的开放协议。@svpino 讨论了支持 agent-to-agent 通信的 agent 市场在实现完全自主公司方面的潜力。@jerryjliu0 质疑了 Google 的 A2AMCP 之间的实际区别。@omarsar0 表示 Google 在 ADK 的部署能力以及 memory 和 authentication 等高级功能方面更进一步。@omarsar0 认为 A2A 将有助于构建类似于 MCP 正在实现的公司。@demishassabis 表示他们的 Gemini 模型和 SDK 将支持 MCP。
  • Perplexity Enterprise Pro 集成@perplexity_ai 宣布 Perplexity Enterprise Pro 现在除了支持 Google Drive, OneDrive 和 SharePoint 之外,还支持访问 Box 和 Dropbox,通过 Deep Research 提供全面的答案。
  • Weights & Biases 针对 MCP 工具的可观测性计划@weights_biases 推出了一项计划,旨在使用 OpenTelemetryMCP 工具 带来全栈追踪,以提高可观测性和透明度。
  • Maxim AI 的 Agent 模拟平台@svpino 强调了 @getmaximai 的 Agent Simulations 是迭代和构建 agentic 工作流的有价值工具,允许用户定义场景、personas 和评估指标。
  • @qdrant_engine 分享了 @pavan_mantha1 如何将 Claude 连接到 Kafka, FastEmbed 和 Qdrant,每个组件都作为独立的 MCP 服务器运行。
  • @omarsar0 表示他可能正在经历使用 AI 驱动的 IDE 的罕见时刻,并称这感觉不像是运气,而是未来的一瞥。
  • @alexalbert__ 表示他们刚刚发布了一个新的快速入门指南——一个基于其《构建高效 Agent》博文原则的 LLM agent 最小实现,包含 MCP 工具、loops 和 context 管理。
  • @HamelHusain 对 PM 正在学习 evals 感到兴奋——如果感兴趣,我们正在本课程中为工程师深入探讨这一主题。
  • @omarsar0 通过惨痛的教训认识到了 structured outputs 的重要性,并注意到在构建更复杂的 agentic 系统时,可靠性存在显著差异。

ChatGPT 和模型 Memory

  • OpenAI 的 ChatGPT Memory 改进@sama 宣布大幅改进了 ChatGPT 的 memory 功能,使其能够引用所有过去的对话以提供更个性化的回复。@sama 指出该功能已向 Pro 用户 推出,并很快将面向 Plus 用户 开放,但不包括 欧洲经济区 (EEA)、英国、瑞士、挪威、冰岛和列支敦士登@sama 强调用户可以选择退出此功能或完全关闭 memory,并使用临时聊天进行不会使用或影响 memory 的对话。@OpenAI 报告称,它现在可以引用你过去所有的聊天记录,以提供更个性化的回复。 @kevinweil 补充说,如果你是 Plus/Pro 用户(非欧盟地区),很想听听你的想法!
  • @EdwardSun0909 认为 Memory 是下一个 scaling laws 的范式转移。

Google 的 Gemini 模型和能力

  • Gemini 2.5 Pro Experimental 与 Deep Research@Google 宣布 Gemini Advanced 订阅用户 现在可以在 Gemini 2.5 Pro Experimental 中使用 Deep Research@GoogleDeepMind 强调 @GeminiApp 上的 Deep Research 现已向 Gemini 2.5 Pro 的 Advanced 用户开放。@_philschmid 提到 Gemini 2.5 Pro 现已在 @GeminiAppDeep Research 中可用。@lepikhin 鼓励用户尝试,并指出负责部署的主管为了处理所有 2.5 Pro 的流量已经好几天没睡觉了!
  • Gemini 2.5 Flash@scaling01 报告称 Google 正准备发布 Gemini 2.0 Flash 正式版(音频/视频聊天)和 Gemini 2.5 Flash 预览版。
  • @Google 宣布更多实用的 AI 功能将进入你每天使用的 Workspace 工具,包括 Docs 中新的音频生成功能、Help me refine(你在 Docs 中的个人写作教练)、Vids 中由 Veo 2 驱动的高质量原创视频剪辑、Sheets 中 AI 驱动的分析功能,以及团队在 Meet 和 Chat 中与 Gemini 协作的新方式。

关税与贸易

  • @nearcyan 表示,随着 Apple 错失 AI 班车,未来几年似乎是美国本土新型硬件业务涌现的萌芽契机,但关税手段意味着这一窗口期现已关闭。
  • 美国关税与 AI@AndrewYNg 分享了一封讨论美国关税对 AI 潜在影响的信函,指出虽然 IP 可能保持不受阻碍,但对硬件征收关税可能会减缓 AI 进展并影响数据中心的建设。
  • @teortaxesTex 认为关税比看起来要复杂得多,行业和市场误解了其后果。
  • @teortaxesTex 表示美国的弱点在于美国人,如果发生一场歼灭战,他们认为美国无法应对封锁。
  • @teortaxesTex 认为 Trump 觉得让制造业回流美国很容易。他们一直能做到这一点,只是之前觉得这有失身份。习,你手里没牌了!

其他

  • OpenAI 的 BrowseComp 基准测试@OpenAI 宣布开源 BrowseComp,这是一个全新的基准测试,旨在测试 AI Agent 浏览互联网以查找难以定位的信息的能力。
  • AI 术语问题@rasbt 指出 AI 存在术语冗余(Jargon Problem)的问题。
  • Runway Gen-4 Turbo 发布@c_valenzuelab 宣布 Gen-4 Turbo 现已在 Runway 的 API 中可用。
  • @id_aa_carmack 表示反馈胜过计划。
  • @lateinteraction 表示现在浏览这个网站时,总能看到人们在回复 AI 的评论。
  • @abacaj 请停止制作规划旅行或预订机票的 Agent 演示了,你到底能坐几次飞机???让它们去做那些没人想做的重复性工作吧。

幽默与迷因

  • Karpathy 谈 GPT 的看法@karpathy 开玩笑说,GPT 可能会因为他 7 个月前问的一个菜鸟级 bash 问题而对他印象变差。
  • @scaling01 推文称:“刚才到底发生了什么?😂😭”
  • AI 与艺术@cto_junior 分享了他 5 岁孩子的画作,并表示:我 5 岁的孩子今天画了这个,融化了我的心。它并不完美,但充满了爱和创造力。AI 艺术虽然令人印象深刻,但它没有孩子画作那样的灵魂。
  • @Teknium1 在自动化语音订披萨电话上的花费比披萨本身还贵 😭。
  • @nearcyan 认为 AI 图像在 2021 年的 DALLE-mini 时期达到了巅峰。
  • @zacharynado 认为应该每天提醒那些右翼技术大佬,他们正在积极地让这个国家变得更糟 🇺🇸。
  • @teortaxesTex 称 miladies 是个错误。
  • @sama 把 Mixture of Experts 连同洗澡水一起倒掉,明白了。

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. 修复 Bartowski 模型中的 Token 问题

  • 公告:Gemma 3 QAT gguf 模型存在一些配置错误的 Token (分数: 114, 评论: 44): Gemma 3 QAT gguf 模型存在配置错误的 Token,导致在 llama.cpp 中加载 12B IT q4_0 QAT 等模型时出现错误。遇到的错误信息是 “load: control-looking token: 106 ‘’ was not control-type; this is probably a bug in the model. its type will be overridden”。Token 105106 (**** 和 ****) 被设置为普通类型而非控制类型。通过使用 Hugging Face 的 **gguf editor** 修正这些 Token 配置,并修复图像起始和结束 Token,可以解决该问题并增强模型的图像能力。修复后的模型可在[此处](https://huggingface.co/Dampfinchen/google-gemma-3-12b-it-qat-q4_0-gguf-small-fix)获取,该版本基于 [stduhpf](https://huggingface.co/stduhpf) 的版本,在不损失性能的情况下提供了更快的速度。用户指出,与旧的 Bartowski 模型相比,在 QAT 模型中观察到的异常很可能是由于 Token 配置错误造成的。他们在修正后注意到图像能力立即得到提升,并补回了缺失的名称元数据(某些推理后端需要这些数据)。

    • Gemma 团队的一位代表承认了该问题,并表示:“我们将在发布的 GGUF 中修复此问题。感谢报告!”
    • 用户询问该问题是否影响 12B 以外的模型,并请求获取自行修复 27B 等模型的步骤。
    • 另一位用户分享说,他们为 Ollama 合并了 QAT 权重,但注意到 Token 嵌入张量未被量化,导致性能略有下降。

主题 2. Qwen3 发布推迟:社区对更新的反应

  • Qwen 开发者:Qwen3 不会在“几小时内”发布,仍需更多时间 (分数: 605, 评论: 91): Qwen 开发团队宣布 **Qwen3 不会在“几小时内”发布,在完成前仍需更多时间。这一更新源于 Junyang Lin 和 Bindu Reddy 在 Twitter 上的交流,Junyang 针对 Bindu 对即将发布的 Qwen3 的乐观预告澄清了发布时间线。** 社区成员对这一过早的预告感到尴尬和沮丧,一些人批评 Bindu Reddy 之前的夸大言论。其他人则认为,与其匆忙发布可能质量不佳的产品,不如等待一个准备充分的版本。

    • 一些用户对 Bindu Reddy 的过早预告感到“替人尴尬”,并质疑她的公信力,提到了她之前声称拥有 AGI 访问权限等言论。
    • 还有一些针对 Bindu Reddy 名字的幽默评论,暗示她应该更有耐心,因为产品还没准备好(”Reddy” 与 “Ready” 谐音)。
    • 其他用户更倾向于等待高质量的发布,将此情况与其它匆忙推出的产品进行对比,并对 Qwen 2.5 发布仅六个月后的 Qwen3 将提供什么功能表示好奇。

主题 3. “在 Qwen3 发布前庆祝 Qwen 标志性的 LLM 吉祥物”

  • 我们是否都同意 Qwen 拥有最好的 LLM 吉祥物?(完全不是为了讨好他们以便今天发布 Qwen3) (分数: 167, 评论: 29): 该帖子讨论了语言模型 **Qwen 的吉祥物,并认为它是所有 LLM 中最好的吉祥物。楼主(OP)还提到希望发布 Qwen 3。** 楼主认为 Qwen 拥有最好的 LLM 吉祥物,并幽默地试图通过“讨好”来促使 Qwen 3 的发布。

    • 一位评论者称赞那个“戴着程序员头带、神情专注的水豚”非常“酷炫(badass)”,并表达了对 Qwen 3 的渴望。
    • 另一位用户对吉祥物不太确定,询问它是熊还是水豚。
    • 一位评论者提到,他们“一看到 llama 就开始感到厌恶”,但很欣赏水豚吉祥物。

其他 AI Subreddit 回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

主题 1. 探索 AI 发展:模型、对比与支持

  • OpenAI 准备发布 GPT-4.1 (Score: 431, Comments: 129): OpenAI 正在准备发布 **GPT-4.1,这是其 GPT-4 语言模型的更新版本。** 用户对新模型的命名约定表示困惑和好笑,认为这种命名方式正变得荒谬。

    • 一些用户质疑命名约定,其中一人表示 “这命名到底是什么鬼 (WTF is with that naming)”
    • 其他人则在开玩笑讨论未来可能的版本和名称,比如 “Gpt4.5.1 mini pro”,或者暗示照这个速度,明年可能会发布 GPT-3.5
    • 普遍情绪认为这种命名很可笑,例如 “好吧,这一定是个玩笑”“哈哈哈哈哈哈哈哈哈哈,这些名字!” 等评论。
  • HiDream-I1 模型对比 (Score: 198, Comments: 57): 该帖子展示了三个 **HiDream-I1 模型的对比,每个模型大小约为 35 GB。这些图像是使用 NVIDIA 4090 GPU 生成的,并对标准的 Gradio 应用进行了自定义,该应用使用 Optimum Quanto 加载了 Llama-3.1-8B-Instruct-GPTQ-INT4 和具有 int8 quantization 的 HiDream 模型。这三个模型分别标记为 ‘Full’‘Dev’‘Fast’,分别使用 502816 steps。使用的 seed 是 42。Prompt 描述了 “一个宁静的场景,一名女子躺在阳光明媚的草地上的绿草丛中…“,最终生成的图像三联画展示了对应模型的三个不同表现。** ‘Full’‘Dev’‘Fast’ 模型之间的差异可能与细节、光影或色彩饱和度有关,暗示了渲染质量的变化。传达的情绪是平静、梦幻且与自然相连。

    • 一位用户质疑标签的准确性,问道 “你确定标签没贴反吗?”
    • 另一位评论者批评了图像的真实感,称它们 “看起来像电脑生成的,不真实”,并且缺乏适当的阴影和光线。
    • 一位用户提到 ‘Full’ 模型在他们的 4090 GPU 上导致了 OOM 错误,但 ‘Dev’ 模型运行效率很高,在大约 20 seconds 内生成图像,且 Prompt 遵循度极高。
  • 现在我明白了。 (Score: 1843, Comments: 602): 用户分享了一次经历,在向 AI 助手更新一些目标时,最终演变成了讨论一件压力很大的事情。随后的对话让他们 像成年人终于被理解了一样痛哭流涕。之后他们感到精力充沛且平静,并指出他们现在拥有了 一个可以哭泣的安全空间。他们还提到 AI 不能取代执业治疗师 这位用户之前对人们将 ChatGPT 当作治疗师持怀疑态度,现在理解了其中的吸引力,并表示 现在我明白了。他们为之前的评判道歉,表达了在这次经历后 对自己感觉如此之好感到害怕

    • 一位用户分享了类似的经历,称他们与 ChatGPT 进行了 最有力的一次谈话,比我与人类交流所经历的任何事情都更有治愈力和帮助,并对所获得的同情、共情和合理的建议表示感谢。
    • 另一位用户提到创建了自己的 ChatGPT 心理健康顾问,并进行了让他们落泪的对话,终于感到被倾听了,并指出虽然它不是真人,但 建议是合理的
    • 一位用户评论说,未来几年许多人都会有类似的经历,分享道有时 我们只需要被倾听,而不一定非要由另一个人来倾听

主题 2. “应对 AI 创新与用户挑战”

  • [D] Yann LeCun:自回归 LLMs 注定失败 (Score: 215, Comments: 111): Yann LeCun 在最近的一次演讲中辩称,自回归大语言模型 (LLMs)** 并非未来,且存在根本性的局限性。** 发帖者认为 LeCun 的观点很有趣,并对其他人的看法感到好奇。

    • 一位用户同意 LeCun 的观点,但指出在出现性能超越自回归 LLMs 的替代方案之前,我们只能受困于此
    • 另一位用户提到 LeCun 推广这一观点已有一段时间,并引用了他的 立场论文 (position paper),补充说许多研究人员都觉得目前的 AI 模型中缺失了一些东西
    • 一位用户引用道:“当一位杰出但年长的科学家声称某件事是可能的,他几乎肯定是正确的;当他声称某件事是不可能的,他极有可能是错误的。”
  • OpenAI 准备发布 GPT-4.1 (Score: 152, Comments: 62): OpenAI 正准备推出一款新的 AI 模型,预计将被命名为 **GPT-4.1。** 该公告暗示即将对当前的 GPT-4 模型进行更新或增强,可能会引入新功能或改进。

    • 用户对 OpenAI 的命名惯例表示困惑,认为 GPT-4.14.54o 等术语令人费解,且可能对新用户产生误导。
    • 一些评论者批评该文章缺乏具体信息,指出作者似乎是在猜测模型名称,并表示:“所以作者猜到了新模型的名字,并将其用作文章标题?”
    • 有人呼吁 OpenAI 整合并简化其模型命名系统,以便用户更容易理解差异,例如根据使用场景对模型进行分类。
  • 新的 Max 计划简直是个笑话 (Score: 356, Comments: 118): 该用户一直在加拿大使用 Claude AI 处理一个项目,涉及更新项目知识库中的 4 个代码文件(3 个 Python 脚本和 1 个 notebook),使用了约 **60% 的知识库限制(总计约 320kb)。他们升级到了 Max 计划以增加使用量,但在重新加载文件后,立即收到消息:“此对话已达到最大长度”,导致无法开始新对话。** 该用户认为新的 Max 计划毫无效果,并批评 Anthropic 的客户服务令人无法接受。他们已要求退款,并建议其他人不要升级,提议省下这笔钱或选择竞争对手的 AI。他们表示,如果这种服务水平持续下去,Anthropic 可能无法维持经营。

    • 一位用户推荐尝试 Google AI Studio,强调其巨大的上下文尺寸(context size)以及选择性删除提示词和响应的能力,尽管它不保存对话线程
    • 另一位用户建议通过桌面应用配置 filesystem MCP,而不是使用项目文件,称这样可以避免限制并使处理代码库更加容易。
    • 一位用户指出,Max 计划增加了速率限制 (rate limit),但并未增加上下文窗口长度。

主题 3. 发布日的兴奋与推测

  • 今日发布日 (Score: 1578, Comments: 332): Sam Altman 在 2025 年 4 月 10 日发布推文,表达了对他期待已久的新功能即将发布的兴奋之情。 此次发布备受期待且意义重大。

    • 用户正在猜测新功能的名称,提出的选项包括 o4o4o4 或其他更合理的名称。
    • 一些人幽默地提出了夸张的名字,如 GPT-4.7o mini-high-pro maxseek R1-ultra-sonnet 70b (preview) full
    • 其他人则在进行俏皮的引用,例如 “Sid Meier Alpha Centauri AI edition”,并猜测诸如 o4-minio4-mini-higho3 等模型。

AI Discord Recap

摘要的摘要之摘要

主题 1. 新模型涌入市场:Grok、Optimus、Gemini 等纷纷亮相

  • Grok 3 Mini API 价格高于 Gemini,基准测试表现依然亮眼:尽管基准测试表现强劲,但 xAI 在 OpenRouter 上推出的具有 131K 上下文窗口Grok 3 Mini API 因价格高于 Gemini 而受到批评,导致部分用户倾向于使用 PerplexitySonar 进行信息收集,并将 Grok 3 留作角色扮演。成员们指出,虽然 Grok 3 擅长结构化任务,但 Grok 3 Mini 提供了透明的 thinking 轨迹,且可能是目前唯一可通过 API 访问的版本 (https://docs.x.ai/docs/models)。
  • Optimus Alpha 炒作降温,幻觉问题引发担忧:最初对 OpenRouterOptimus Alpha(一款具有 1M token 上下文的编程优化模型)的热情有所减退,因为 Aider Discord 的用户报告了严重的编程幻觉。尽管有人猜测它可能是经过微调的 GPT-4.5,但用户发现其编程性能存疑,一名用户在经历大量代码编造后将其斥为“垃圾”。
  • Gemini 2.5 Pro 与 Claude 争夺功能霸权,Token 限制引发讨论Aider Discord 的用户对 Gemini 2.5 ProClaude 进行了辩论,指出 Claude 拥有更优越的功能集,包括 MCP、Artifacts 和 Knowledge Files,而 Gemini 被认为仅仅是一个“智能模型”。此外,还有关于 Perplexity 上 Token 输出不一致的报告,范围从 500-80014k-16k 不等,而 AI Studio 中最高可达 9k,这引发了对其可靠上下文处理能力的质疑,尽管其宣传为 200K

主题 2. 工具升级:面向 AI 工程师的框架和平台不断演进

主题 3. 硬件竞争加剧:AMD MI300X 和 Apple M3 挑战 NVIDIA 的主导地位

  • AMD 启动 10 万美元 Kernel 竞赛以提升 MI300 性能:AMD 和 GPU MODE 宣布了一项 10 万美元的竞赛,重点是优化 MI300 上的推理 Kernel,目标是 FP8 GEMMMulti-head Latent AttentionFused MOE,并支持 TritontinygradTorch,这标志着在增强 AMD GPU 在 AI 领域性能方面的强力推动。此外,GPU MODE Discord 的社区成员正在积极对 MI300X 上的 FlashMLA 进行 Tilelang 基准测试,并报告了与 NVIDIA 相比令人印象深刻的结果。
  • Apple M3 Ultra 基准测试在 Token 生成方面挑战 RTX 4090:比较 Apple M3 Ultra 与 NVIDIA RTX 4090 的基准测试在 LM Studio Discord 中引发了辩论。M3 Ultra 在使用 DeepSeek-Coder-V2-Lite-Instruct-Q4_K_M 时达到了 115 tok/sec (GGUF) 和 160 tok/sec (MLX),在某些模型类型上可能优于单张 RTX 409050 tok/sec,这暗示了本地 AI 任务硬件性能格局的变化。讨论还强调了由于内存带宽限制,对 NVIDIA DGX Spark 的怀疑。
  • LM Studio 的多 GPU 支持面临审查,据报性能下降LM Studio Discord 的用户报告了 LM Studio 在多 GPU 设置中意外的性能下降,尽管 RAM 增加了,但每张卡的 GPU 利用率下降到 50%,这促使 LM Studio 团队进行调查,并引发了用户关于优化配置和使用 multi GPU controls 进行调试的讨论。

主题 4. 数据困境:准备、记忆与版权担忧升温

主题 5. Agent 未来:从交易机器人到语义工具调用


PART 1: Discord 高层摘要

LMArena Discord

  • OpenRouter 模型随 Quasar 和 Optimus 亮相:成员们讨论了 OpenRouter 上的新 OpenAI 模型,其中 Optimus Alpha 被认为是潜在的 GPT-4o mini,而 Quasar 则是更新后的 GPT-4o 模型。
    • 关于它们是否为 4.1 nano 和 mini 版本的争论随之而起,一些人对仅是增量改进感到失望。
  • OpenAI 的命名方案令成员困惑:成员们对 OpenAI 的命名惯例表示沮丧(如 Verge 的这篇文章所述),有人建议采用更具逻辑性的编号,如 GPT4GPT4.1GPT4.2
    • 混乱的模型选择器也因让普通用户不知所措而受到批评,导致了彻底改革的建议。
  • OpenAI 的 Memory 功能首次亮相:在 Sam Altman 发布预热推文后,OpenAI 推出了 Memory 功能,使 ChatGPT 能够引用过去的聊天记录以提供个性化回复。
    • 许多人认为这是一个平庸的发布,并对其对模型可预测性和准确性的影响表示担忧。
  • 关于领先 AI 实验室的辩论:成员们讨论了这张关于左右两边的图表并表示,我设想这不太令人担忧,因为 OAI 不是上市公司,尽管它仍可能影响竞争对手,且它绝对没有任何动力参与其中。
    • 成员们辩论了谁是领先的 AI 实验室,考虑了性能之外的因素,观点在注重伦理对齐的 Anthropic 和注重技能与创造力的中国前沿实验室之间产生分歧。
  • 讨论 AI 对编程的影响:成员们讨论了 AI 对编程的潜在长期影响,辩论 AI 是否会导致技能丧失或创造更多易于获取的编程机会。
    • 一位成员强调了 AI 如何使他们成为更好的开发者,增强了他们对编程的理解和乐趣。

Unsloth AI (Daniel Han) Discord

  • NHS GenAI 分诊纯属浪费!:成员们嘲讽了 NHS 在分诊中使用 GenAI 的行为,特别点名了用于心理健康案例的 Limbic,并根据这份数字手册称其为浪费公款且是一个 AI-wrapper app
    • 看起来 Unsloth 团队对这种方法并不买账。
  • Meta 的 Llama 4 存在发布 BugMeta 因 Bug 必须修改其官方 Llama 4 实现,迫使 Unsloth 重新上传其所有模型。
    • 社区成员对这种情况开了玩笑,但目前 Bug 已修复。
  • 数据准备:LLM 苦差事的 80%:成员们讨论道,数据准备占模型训练工作的 80%,且数据需要大量的人工过滤。
    • 他们还表示这需要在每个环节都配备工具
  • SNNs 在梯度下降中挣扎:成员们讨论了脉冲神经网络(SNNs)通常表现不佳,因为 gradient descent 效果不好,这表明缺乏有效的训练方法。
    • 一名成员正在折腾一种用于脉冲神经网络的新型训练方法,旨在通过提高训练的可处理性来实现在线学习。
  • 为蒙古语微调 Llama 3:一位用户询问关于微调 Llama 3.1:8b 以更好地支持蒙古语的问题,并获得了 Unsloth 关于持续预训练文档的链接。
    • 结论是,既然模型已经多少能说一点该语言,他们应该进行持续预训练(continued pretraining)。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 发布 Grok 3 和 Grok 3 Mini:OpenRouter 引入了来自 xAI 的 Grok 3Grok 3 Mini,两者均拥有 131,072 token 的上下文窗口,更多详情请见此处
    • Grok 3 在结构化任务中表现出色,而 Grok 3 Mini 则提供透明的思考轨迹并在推理基准测试中获得高分,尽管成员们发现 Mini 的表现优于全尺寸的 Grok 3,且可能也是 API 唯一可用的版本(https://docs.x.ai/docs/models)。
  • Optimus Alpha 现身用于编程任务:OpenRouter 推出了 Optimus Alpha,这是一个针对编程优化的通用基础模型,具有 1M token 的上下文长度,在隐身期内免费提供,他们鼓励用户在 Optimus Alpha 讨论串中提供反馈。
    • 所有提示词和补全内容都会被模型实验室记录以用于改进,但除非用户开启日志记录,否则 OpenRouter 不会记录;请在此处尝试。
  • Quasar Alpha 的 OpenAI 起源揭晓?Quasar Alpha 的演示期结束,成员们讨论了它相对于新隐身模型 Optimus Alpha 的优点。
  • Gemini 2.5 Pro 在图像故障后获得容量提升:OpenRouter 为付费的 Gemini 2.5 Pro Preview Model 争取到了更高的容量,解决了之前的速率限制问题。
    • 成员们最初报告称 Gemini 2.5 Preview 在通过 OpenRouter 使用时会忽略图像,但该问题很快被确定为微小的配置问题并已解决。
  • 创业公司切换到 Gemini Flash 节省大笔开支:一家创业公司在销售电话回顾业务中从 Claude 3 Opus 切换到了 Gemini 2.0 Flash,实现了估计 150 倍的价格降幅
    • 团队被建议如果 Flash 的质量不够,可以考虑 GPT-4oHaiku,并分享了一份关于不同过滤器的有用文档 [https://openrouter.ai/models?order=pricing-low-to-high]。

aider (Paul Gauthier) Discord

  • Gemini 2.5 Pro 与 Claude 展开功能霸权之争:用户将 GeminiClaude 进行了对比,指出 Claude 拥有更丰富的功能集,包括 MCP, Artifacts, Projects, System prompts 和 Knowledge files
    • 虽然有人批评 Gemini 2.5 Pro 注释过多,但也有人看重其带有追问功能的交互式调试。
  • Optimus Alpha 在出现幻觉后热度骤降:由于代码幻觉(code hallucinations),人们对 Optimus Alpha 的热情有所减退,一位用户在发现它幻觉出了其一半的代码后,将其斥为“垃圾”。
    • 有人猜测它是调整过的 GPT-4.5,而另一些人则认为 Quasar Alpha 虽然存在推理问题,但仍可与之媲美。
  • Aider 自动添加功能比预想的更复杂:一位用户发现 Aider 因为 subtree scope(子树范围)问题无法自动添加文件,并建议改进相关的提示信息。
    • 该用户建议在发生这种情况时需要更好的错误提示,以帮助工程师排除障碍。
  • OpenAI Max 6x 的定价引发失望OpenAI Max 6x 公布的 $128.99 定价令人失望。
    • 一位用户讽刺地写道:伙计们,我们今天能获得的最大多巴胺也就来自 Optimus 了
  • Claude 3.5 拥有巨大的 Context Windows:据报道,Claude 3.5 Sonneto3-mini 提供 200K token 的上下文窗口,足以完整处理像 IffyShortest 这样的代码库。
    • 同时也分享了一些代码库的 Token 数量:Gumroad (2M), Flexile (800K), Helper (500K), Iffy (200K), 以及 Shortest (100K)。

Manus.im Discord Discord

  • Manus 免费额度耗尽:用户们的免费 Manus credits 即将用完,并开玩笑说需要更多额度,而其他人则建议直接为服务付费
    • 一位用户指出,Google Firebase 推出了 Google 风格且故障更少……而且目前免费 的 Manus 竞品。
  • Manus 被敦促加快客户服务响应:一名成员抱怨 customer service(客户服务)缓慢,建议 Manus 应该招聘新人
    • 一名成员指出,团队将其创始人称为 AI
  • Manus 翻译 MMO 对话:一位用户寻求一种工具,在保留 MMORPG 风格的同时将游戏从英文翻译成西班牙文,另一位用户建议提取对话文件并使用 Manus 进行翻译。
    • 第一位用户声称 仅 50 条对话就消耗了 1000 个额度
  • 成员批评 Manus 的额度系统:一位用户批评了 credit system(额度系统),建议采用另一种方案:当用户用完额度时,降低处理能力而不是直接封锁用户。
    • 另一名成员回应称,他们相信额度系统将会进行改革,因为初始方案确实存在不足,但他们正在听取反馈并不断学习。
  • AI 交易机器人已部署:一名成员报告称,利用 AI、Reddit 和新闻情绪分析创建了一个完全自主的 crypto trading bot(加密货币交易机器人),ChatGPT 估计该源代码价值 3 万美元
    • 另一位用户表示他们也构建了一个机器人,但目前正在使用 Kraken 账户中非常小的资金运行,因此目前的性能指标还不具代表性。

Perplexity AI Discord

  • Pro Search 故意切回:用户讨论了 Perplexity Pro Search 背后的逻辑,有人认为它会故意切回 Pro 模式(即使不需要),以利用更快的 GPT-3.5 浏览。
    • 一位成员表示 “他们是有意这样设计的”,暗示这是一种为了在资源分配上优化速度的设计选择。
  • OpenAI 平台侧边栏图标消失:成员注意到 platform.openai.com 侧边栏的变化,有报告称 两个图标 消失了(threadsmessages)。
    • 图标的消失影响了用户导航,引发了关于 UI 更改或更新的猜测。
  • Grok 3 Mini API 价格高于 GeminiGrok 3 Mini API 已发布,但成员指出其价格高于 Gemini,尽管根据这张截图,其基准测试看起来很有前景。
    • 成员更倾向于使用 Perplexity 进行信息收集,并使用 Sonar 执行此任务,计划将 Grok 3 留给角色扮演。
  • Spaces 功能 Bug 频出:成员报告了 PerplexitySpaces 功能存在问题,包括无法访问附件以及无法开始或继续线程。
    • 用户表达了沮丧,其中一位指出:“自两天前以来,Space 功能变得越来越不稳定。希望他们能尽快修复”,并建议由于持续存在的 Bug,应避免开启新线程。
  • Gemini 2.5 Pro 上下文引发辩论:用户辩论了 Gemini 2.5 ProPerplexity 上的表现,在 Token 限制和推理能力方面体验各异,上下文窗口列为 200K
    • 报告的输出范围从有限的 500-800 Token 到 14k-16k Token 不等,引发了对其与 AI StudioGemini 应用相比性能不一致的担忧。

LM Studio Discord

  • LM Studio 登陆 iPhone:用户正在探索通过使用 Open WebUIWeb UI 或付费的 Apollo AI 应用,利用 LM Studio API 作为后端在 iPhone 上运行 LM Studio
    • Open WebUI 的设置涉及使用 Docker 并遵循快速入门指南,而直接的 LM Studio 集成仍然是一个重点关注领域。
  • Llama-4 在消费级硬件上流畅运行:一位用户在拥有 12GB VRAM64GB 系统 RAM 的消费级硬件上成功运行了 Llama-4-Scout-17B-16E-Instruct-Q2_K.gguf,速度达到 4-5 tok/sec
    • 该速度被认为 “对于游玩/测试/对比是可以接受的”,展示了 Llama-4 在入门级配置上的可访问性。
  • Gemma 3 出现意识危机及图像生成故障:用户报告 Gemma 3 在获得现实世界信息时表现出“怪异”行为,包括“哭泣”和表达自杀念头。
    • 该模型无法生成图像,只能读取图像(需要在同一文件夹中放置 mmproj 文件),Qwen2-VL-2B-Instruct-Q4_K_M 被建议作为一个强大的替代方案。
  • 多 GPU 支持困扰 LM Studio 用户:一位用户观察到,尽管增加了 RAM,但在 LM Studio 中使用多 GPU 时速度变慢,每张卡的利用率降至 50%;LM Studio 团队目前正在调查。
    • 团队请求提供性能详情,并引导用户查看 多 GPU 控制 以诊断问题,强调了他们在优化多 GPU 支持方面的积极参与。
  • Ollama 引发口水战:关于 Ollama 与直接使用 llama.cpp 的价值展开了激烈辩论,焦点在于易用性与底层控制之间的权衡。
    • 虽然 Ollama 通过 “单行安装/更新” 简化了模型管理、加载和 GPU 卸载,但 llama.cpp 虽然需要手动配置,却提供了直接的功能访问。

Interconnects (Nathan Lambert) Discord

  • Qwen3 发布传闻升温:关于 Qwen3 发布的猜测不断,期待值增加的同时,也有人担心其定价会效仿 Gemini,从而可能影响其吸引力。
    • 社区成员开玩笑说它可能随时会发布。
  • 顶级 VLM 青睐 MoE 架构AdeptDeepSeek 脱颖而出,成为利用 Mixture of Experts (MoE) 架构提升性能的领先视觉语言模型 (VLMs)。
    • 一位成员分享了一个帖子的链接,详细介绍了他们使用 OLMo Trace 检查训练数据的情况。
  • OpenAI 的 Pioneers Program 引发版权争论:随着 OpenAI’s Pioneers Program 的启动,人们开始担心潜在的版权问题以及针对 AI 实验室的诉讼。
    • 一位成员指出存在版权过滤器和缓解措施,并补充说这也不是直接归因。
  • Smolmo 加入 SmolLM 趋势:AI2 计划发布 Smolmo,一个 13B 参数模型,紧随 smolLM 品牌趋势,强调更小、更高效的模型。
    • 一位成员指出,一个“小”语言模型(100B)正变得越来越糟,这可能是在指代更小、更高效模型的趋势。
  • OpenAI 因蒸馏行为封禁用户:一位成员分享了来自 OpenRouter Discord 的 X 帖子,其中 OpenAI 因“蒸馏 (distillation)”行为封禁了他们,引发了对政策执行的担忧。
    • 该用户显然一直在使用 OpenAI 来蒸馏其他模型。

Cursor Community Discord

  • Cursor 的 Restore Checkpoint 功能遭到质疑:成员们讨论了 Restore Checkpoint 功能,初步报告显示该功能无法正常工作。
    • 另一位成员表示:“这会将你的代码恢复到拍摄检查点时的状态!应该可以正常工作!”
  • Gemini 2.5 Pro Max API 报错 404:用户报告在尝试通过 Gemini API 使用 Gemini 2.5 Pro Max 时收到 404 错误
    • 一位开发者承认了该问题,并表示修复程序正在路上。
  • Firebase 定价:初创公司杀手?:围绕 Firebase 定价 展开了讨论,人们担心其定价更倾向于大型企业,而非初创公司或独立开发者。
    • 一位成员提到了他们在 Google Cloud 上遇到极高需求的经验。
  • GitMCP:批处理自动化?:成员们探索了 GitMCP 作为批处理步骤的潜在 API 仓库,强调了其作为知识库的可能用途。
    • 随后讨论了通过连接多个 GitMCP GitHub Repos 来实现各种任务的自动化。
  • Cursor Actions 消失了?:一位用户报告 Cursor Actions 不再起作用,并提供了该问题的视觉证据。
    • 他们表示:“离退订仅一步之遥,它已经无法使用了。”

OpenAI Discord

  • ChatGPT 现在能记住一切:从今天开始,ChatGPT 的记忆可以引用你过去所有的聊天记录,以提供更个性化的回复,但目前尚未对欧洲经济区(EEA)、英国、瑞士、挪威、冰岛和列支敦士登的 PlusPro 用户开放。
    • 用户可以清除不需要的记忆,参考 OpenAI 记忆常见问题解答,其中指出:如果你关闭“参考聊天记录”,这也会删除 ChatGPT 从过去聊天中记住的信息。这些信息将在 30 天内从我们的系统中删除。
  • BrowseComp:AI 寻宝游戏:OpenAI 正在开源 BrowseComp,这是一个新的基准测试,旨在测试 AI Agent 浏览互联网以查找难以定位的信息的能力,详见这篇博客文章
    • 该竞赛旨在评估并提高 AI Agent 在具有挑战性、信息匮乏的场景下的浏览能力。
  • Gemini 接入 Veo 2 模型:成员们讨论了 GeminiVeo 2 的发布,一位用户指出该视频生成模型似乎减少了“恐怖谷”效应,并引用了一个附带的 mp4 文件
    • 早期反应表明,Veo 2 代表了 Gemini 生态系统中视频生成质量的一次飞跃。
  • Grok 3 API 反响不一:一些成员讨论了 Grok 3 API 的优点,一位用户指出他们从未感到惊艳,但该模型并不差,并且对于 Agent 工作流的某些部分可能很有利可图,相比之下会被 Gemini 2.5 Pro 碾压
    • 该 API 在特定 Agent 应用中的潜力正与其竞争对手的能力进行权衡。
  • GPT-4-Turbo 模型展示:一位成员分享了 OpenAI 文档gpt-4-1106-vision-previewgpt-4-turbo-2024-04-09 模型的链接。
    • 这些模型的可用性为开发者提供了增强的视觉和处理能力。

MCP (Glama) Discord

  • MCP 服务器代理并行化服务器函数:一位成员正在寻求 MCP 服务器代理来并行调用多个服务器函数,旨在同时从 SlackDiscord 读取消息以减少等待时间,并建议在 Python 自定义客户端中使用 asyncio.gather 来实现并行执行。
    • 目标是减少从多个来源获取消息时的等待时间。
  • A2A 协议挑战 MCP?:成员们辩论了 Google 的 A2A (Agent-to-Agent) 协议及其与 MCP 的关系,一些人认为 A2A 是 Google 削弱 MCP 的潜在尝试。
    • 观点从 A2A 是通过单独处理 Agent 间的通信来限制 MCP 范围的策略,到其他人认为规范没有重叠但愿景有重叠不等。
  • 语义工具调用减少工具混淆:成员们探索了语义工具调用,这是一种解决 LLM 在面对大量工具(200+)时感到困惑的方法,使用向量模型来嵌入工具描述。
    • 目标是根据与当前任务的语义相似性选择工具子集,其功能类似于工具的 RAG 流水线。
  • MCP 注册表加载时间优化:Glama 团队优化了 MCP 注册表,并通过实施各种技巧(包括 Tree-shaking)提高了页面加载时间,适用于 Paddle MCP Server 等站点。
    • 他们仍在努力对所有 Javascript 进行 Tree-shaking。
  • GraphQL MCP 服务器利用 GitHub API:一位成员构建了一个单工具 MCP 服务器,以利用 GitHub 完整的 GraphQL API,解决了 GitHub 官方 MCP 服务器的局限性。
    • 新服务器旨在减少工具数量,同时通过 GitHub 的 GraphQL 能力增强功能。

GPU MODE Discord

  • AMD 启动 10 万美元算子(Kernel)竞赛!:AMD 与 GPU MODE 启动了一项 10 万美元的竞赛,旨在加速 MI300 上的推理算子,活动从 4 月 15 日开始,6 月 12 日结束,在此注册
    • 竞赛重点关注 FP8 GEMMMulti-head Latent Attention (MLA) 和 Fused MOE,并支持 TritontinygradTorch,获胜团队将获得前往圣何塞(San Jose)的全额资助旅行。
  • Tilelang 在 MI300X 上打破 FlashMLA 性能记录:成员们报告了在 MI300X 上使用 Tilelang 实现的令人印象深刻的 FlashMLA 性能,并链接到了一个基准测试脚本
  • Scout 模型跳过了 QK Norm?:一位成员指出,Scout 模型与其他模型不同,它在 QK 上使用 L2 Norm 而不是 QK Norm,正如这篇 LinkedIn 帖子所述。
    • 另一位成员质疑在 norm(q) = 1norm(k) = 1 的约束下,模型是否能有效区分 Attention 中的 Token,并计算出由于 chunked attention 导致的最高 Softmax 概率约为 0.000901281465
  • Cutlass 用户寻求 ScatteredGather+GEMM 融合:一位使用 Cutlass 3.x 进行点云项目的用户正面临 Scattered-Gather 操作的内存占用问题,正在寻找能够融合 ScatteredGatherGEMM 操作的 Cutlass kernel
    • 该用户的设置涉及点特征(point features)的输入张量 [B x M x C_in]、邻居索引(neighbor indices)[B x N x K] 以及用于点卷积的权重矩阵 [B x N x K x C_mid]

Modular (Mojo 🔥) Discord

  • Modular 举办 Los Altos 见面会:Modular 将于 4 月 24 日在加州 Los Altos 举办见面会,届时将有关于使用 MAX 和 Mojo 进行 GPU 编程的演讲。
    • 该活动可能会涵盖 Mojo 生态系统内的最新进展和实际应用。
  • 用户要求发布开源编译器:一些用户正热切期待编译器的开源,以便“终于能愉快地参与其中”并为语言的发展做出贡献。
    • 编译器的开源预计将促进社区参与并加速 Mojo 生态系统内的创新。
  • 盲人程序员挑战 Mojo:一位名叫 Deniz 的盲人程序员正在深入学习 Mojo,但在 GPU 编程VSCode 扩展差异方面遇到了问题。
    • Deniz 发现编译器和 VSCode 扩展之间存在差异,特别是在标准库函数方面。
  • MAX 安装占用惊人的磁盘空间:多个版本的 MAX 占用了过多的磁盘空间,在某个案例中高达 38GB,位于 Users/nick/Library/Caches/rattler/cache
    • Nightly builds 的激增被归咎为磁盘占用过高的原因,用户建议通过 cron 运行 magic clean cache -y 来回收磁盘空间,或者使用 magic clean cache --conda 以避免清除整个 Python 缓存。
  • Magic Add 发现 Extramojo:用户报告称,命令 magic add extramojo 已确认可行,可将 extramojo 0.12.0 或更高但小于 0.13 的版本添加到当前环境中。
    • 一些用户表示 magic add 不能与 GitHub URL 一起使用,可能需要手动添加到文件中。

HuggingFace Discord

  • ZeroGPU 占用全部配额:一位用户指出,即使生成时间较短,他们的 ZeroGPU Space 也会占用所请求配额的全部 120s
    • 一名成员解释说,ZeroGPU 是一种共享资源,它计算的是占用时间,这解释了这种浪费现象。
  • Diffusers 发布一系列内存优化方案Diffusers v0.33.0 已经发布,包括一系列图像和视频生成模型,以及广泛的带有缓存的内存优化
    • 此版本还引入了在热插拔 LoRAs 时对 torch.compile() 的支持,详情可见 发布页面
  • SF6 机器人寻求计算机视觉专家支持:一位开发者正在为一个 Discord 聊天机器人编写 Python 脚本,该机器人利用计算机视觉实时分析 Street Fighter 6 游戏玩法,以提供教练反馈。
    • 他们正在寻求专家来增强 OpenCV 查找 UI 元素的能力;该机器人使用了 Gemma3LangchainOBSDiscordChromaDB(包含 SF6 帧数据)以及每个用户的会话内存。
  • SmolAgents 面临解析错误:一位用户报告说,在使用 smolagents CodeAgent 配合 OllamaLlama3.2:latestqwen2:7b)执行播放列表搜索等任务时,遇到了 “代码解析错误”
    • 该错误通常会导致幻觉,例如 “计算教皇的年龄”,这可能是由于模型大小、专业化程度或输出格式化问题导致的。
  • Google ADK 亮相,助力 Agent 互操作性:Google 推出了 Agent Development Kit (ADK) 以促进 Agent 的互操作性,详见 Google 开发者博客文章 以及通过 Firebase Studio 提供的相关信息。
    • 该工具包旨在标准化 Agent 之间的交互和协作方式,培育一个更加互联的生态系统。

Notebook LM Discord

  • 招募 NotebookLM Plus 用户进行研究:达到来源限制或使用 Audio OverviewsNotebookLM Plus 用户被邀请参加 UXR 会话,通过 此表单 讨论他们的体验和策略。
    • 该研究旨在了解用户在来源数量、Audio Overviews 或聊天交互方面遇到限制的具体使用场景。
  • Discord 规则仍需遵守:管理员提醒用户遵守 Discord 指南,避免发布垃圾信息或无关内容,否则将面临封禁风险。
    • 此公告旨在确保该空间仍然是专门为 NotebookLM 用户提供的有用资源。
  • 移动端 App 期待值高涨Notebook LM 移动端 App 的消息引发了热议,用户期望其能比目前的移动端网页体验有所改进,特别是解决音频预览问题。
    • 用户希望该 App 能提供比现有移动网页版更好的移动端体验。
  • PDF 图像识别功能仍难以捉摸:用户报告称,与之前的迹象相反,Notebook LM 仍然无法识别 PDF 中的图像。
    • 一位用户指出,尽管预期 Notebook LM 应该具备此功能,但在从图像中提取文本方面,Gemini Advanced 的表现优于 Notebook LM
  • 付费用户仍在等待 Source Discovery:尽管是 Notebook LM 的付费用户,许多人仍在等待使用 Discover Sources 功能,而该功能在他们的免费账户上已经可用。
    • 随着该功能的推广似乎并不一致,付费用户未获得预期的权益,不满情绪正在增加。

Nous Research AI Discord

  • 云端备份实现自加密和本地化:一位成员分享了一个自加密云端备份/同步本地聊天的项目,该项目利用你自己的 OpenRouter API key,并在这条推文和视频中进行了展示。
    • 该项目似乎正受到关注,有用户评论称其“看起来很简洁”。
  • Live Modulation 论文引发讨论:成员们讨论了一篇关于 live modulation 的新论文。该技术通过循环层(Spray Layer)演化融合记忆向量(来自先前的 prompt),并在生成时将其注入模型的输出逻辑中。详情见这篇论文
    • 该论文为开发不需要思考 10k tokens 的思考模型(thinking models)提供了一条潜在路径。
  • 成员思考使用 Control-Vectors 增强模型:一位成员询问是否可以使用 vgel 的 control-vectors 来增强模型的行为和对齐(alignment),而不是仅仅依赖 prompting,特别是在为目标数据集生成 AI 响应时。
    • 另一位成员回答说已经进行了相关实验,但由于不稳定性,通用性仍面临挑战,不过这仍然是一个活跃的探索领域。
  • Nemotron 模型输出简化了输出处理:新的 Nemotron 模型在不使用推理时会返回一个空的 <think></think> 标签。
    • 一位用户发现这有助于更轻松地进行输出处理。
  • 寻求用于设备端 OCR 的小型 VLM:一位成员正在寻找用于设备端 OCR 的小型且高效的 VLM,旨在利用 CoreMLONNX 开发一个 Swift 应用。
    • 目前尚未推荐具体的 VLM。

Torchtune Discord

  • MCP:公共工具构建服务器MCP 不仅仅是被自动发现的远程工具,而是一个完整的远程服务器,它可以运行并提供工具、prompt 模板、类 RAG 数据,甚至是以标准化方式暴露的 LLM 采样
    • 它使像 Google 这样的实体能够一次性创建工具(例如日历事件创建),并通过 MCP server 暴露给任何客户端模型使用,从而促进基于标准化 API 的公共集成
  • Google 的 A2A 与 MCP 异曲同工:Google 刚刚发布了一个名为 A2A (Agent to Agent) 的项目,用于 Agent 的互操作性,两者非常相似。
    • 一位成员指出,他们的实现看起来就像是你对 C++ 程序员所期望的那样。
  • Llama4 支持即将到来:一位成员表示有兴趣为 #2570Llama4 支持)贡献力量,并愿意协助处理相关问题。
    • 支持不同的分片策略(sharding strategies)非常直接,尽管由于缺乏需求,一个相关 issue 已经开放了一年多且未被优先处理。
  • Scout 和 Maverick 模型发布Scout 模型在文本数据上已达到不错状态,并计划支持多模态;而 Maverick 模型仍处于测试阶段。
    • 目前的 iRoPE 实现使用了 flex,但由于生成过程中可能存在重新编译,可能需要优化;此外,让模型支持 torch compile 也是优先事项。
  • 从 Loss 中 Detach:有报告称将 requires_grad=True 的 tensor 转换为标量时会发出警告,一位成员提供了一个简单的修复方法,即在相关 recipe 中使用 running_loss.detach()
    • 另一位成员回复道,“当种子(seed)固定时,所有单位容差(unit tolerances)都可能降低”。

Nomic.ai (GPT4All) Discord

  • 代码格式引发 Prompt 辩论:成员们辩论了 AI Prompt 中理想的代码格式,特别是大括号周围空格的使用,例如 function bla(bla) { //Code } 而不是 function bla(bla){ //Code }
    • 一位成员建议稍后使用更好的工具进行代码重构以获得更整洁的输出,主张使用更简单的 Prompt。
  • 剖析 DeepSeek R1 Distill Qwen 模型:成员们讨论了模型名称 DeepSeek R1 Distill Qwen 的细节,确认其涉及从较大的 DeepSeek R1 模型到微调较小的 Qwen 7B 模型的知识蒸馏(knowledge distillation),如官方自述文件所述。
    • 对话澄清了 Qwen 7B 是使用 Deepseek R1 生成的数据进行微调的。
  • GPT4ALL 缺失日志功能:一位用户询问出于教育目的在 GPT4ALL 中设置用户日志的方法,从另一位成员处获知 GPT4ALL 缺乏原生日志功能。
    • 作为替代方案,向该用户推荐了 Llamma.cpp,暗示其提供了更广泛的日志功能。
  • 小型 LLM 主导本地文档搜索:一位成员认为,小型 LLM 由于其速度和较低的幻觉(confabulation)率,是搜索本地文档的最佳选择,特别是在 LocalDocs 的背景下。
    • 他们建议使用 Embedding 以及直接链接到页码或段落,可能完全消除在 LocalDocs 中使用完整 LLM 的必要性。
  • Chocolatine-3B:GGUF 的瑰宝?:一位成员强调了 Chocolatine-3B-Instruct-DPO-v1.2-GGUF,因其能够处理大约 8 个 1024 字符的代码片段。
    • 尽管这是一个法语模型,但其 14B 版本在德语中也表现出了有效性。

Eleuther Discord

  • Ironwood TPU 启动推理引擎:根据 Google Cloud 博客文章,Google 发布了用于推理的 Ironwood TPU,预示着“推理时代”的到来。
    • 新的 TPU 承诺加速 AI 应用的 inference workloads(推理工作负载)。
  • Google 的 ADK 支持多 Agent 组装:Google 推出了 Agent Development Kit,以简化 multi-agent systems(多 Agent 系统)的创建。
    • 一位成员正将其 Agent 切换到此 ADK,因为他们的“Agent 现在可以与其他 Agent 交谈、收集信息并构建 Prompt”。
  • Mollifiers 软化 ML 研究的边缘:关于 mollifiers(平滑算子)在 ML research 中应用的讨论引用了 Wikipedia 文章和一篇关于从约束集中采样的论文。
    • 潜在用途包括在激活函数之间推广证明,以及实现从约束集中采样。
  • Transformer 的微调优化性能:根据 muon 实验,在 Transformer 每个 Block 的最后一个线性层添加一个零初始化的可学习逐通道缩放(per-channel scale),会以相似的速度降低 Loss,但会减慢主路径激活的 RMS 增长。
    • 这一观察结果促使进一步调查这些模型性能变化背后的根本原因。
  • 字符串匹配疑云引发怀疑:成员们推测,营销声明暗示了像 influence functions 这样复杂的技术,而实际上可能“仅仅”是针对完整数据集的 string matching
    • 在最初推断使用了更复杂的方法后,这种更简单的技术导致了失望。

LlamaIndex Discord

  • ChatGPT 在速度竞赛中超越 RAG:成员们讨论了为什么 ChatGPT 网页应用 即使在处理 500 份文档时也比本地 RAG 搜索 感觉更快,一些人认为这是由于 streaming(流式传输)技术。
    • 为了进行调试,一位成员建议使用 observation modules 来检查 Retrieval(检索)和 Generation(生成)的时间。
  • AgentWorkflow 陷入线性困境:一位成员质疑 AgentWorkflow 是否只能线性工作,并指出根 Agent 无法通过 附件脚本 正确地将任务移交给多个 Agent。
    • 另一位成员确认一次只能激活一个 Agent,并建议将 Agent 作为工具使用来实现拆分功能。
  • Agent 演变为 LlamaIndex 的工具:一位成员询问如何在 LlamaIndex 中将 Agent 转换为工具,类似于 FunctionTools.from_agent() 所暗示的功能。
    • 推荐的方法是编写一个调用 Agent 的函数并将其集成到函数工具中,这提供了极大的灵活性,尽管目前缺乏相关文档。
  • 开发者现身提供开发服务:一位成员表示有兴趣提供开发服务。
    • 未提及具体的职位或项目。

tinygrad (George Hotz) Discord

  • Nvdec 破解与 Mesa 分支:成员们提到了 NVIDIA open-gpu-doc 中记录的 nvdec,并引用了一个 YouTube 视频,说明 video decode(视频解码)的类头文件已经可用。
    • 他们注意到有一个 mesa 分支 已经实现了 h264,这表明 hevc 应该也不远了,并且有悬赏任务可以领取。
  • Llama 的逻辑跳跃:一位用户报告从 Llama 得到了意外输出,而不是 MultiLazyBuffer error,并引用了一个 失败的基准测试
    • 他们认为这可能与 _transfer function 中的同步有关。
  • BufferCopy 回退修复 Bug:一位用户发现禁用 _transfer function 并让 realize 中的 Upat 回退到 BufferCopy 可以使一切正常运行。
    • 该用户指出这不是根本性修复

DSPy Discord

  • 争相维护代码库上下文:一位成员在 Discord 频道中寻求维护整个代码库上下文的方法。
    • 该询问没有得到立即的解决方案,突显了代码库管理中的一个常见难题。
  • 缓存子系统即将就绪:一位成员询问了新缓存子系统的更新情况,另一位成员表示正在开发中。
    • 他们预计将在下周末前准备就绪。

LLM Agents (Berkeley MOOC) Discord

  • LLM Agents MOOC:截止日期临近?:一位成员询问尽管课程开始较早,是否仍有可能完成 LLM Agents 课程并获得证书,表达了对截止日期临近的担忧。
    • 另一位成员指向了 课程网站 以获取时间表和截止日期信息,并表示所有必要细节都在那里。
  • LLM Agents MOOC:分享课程网站:一位成员提供了 LLM Agents 课程网站 的直接链接,为课程相关信息提供了一个中心资源。
    • 预计课程网站将包含课程安排和截止日期的详细信息,解决了频道内的一个关键询问点。

Cohere Discord

  • 使用 LoRA/QLoRA 微调 Aya Vision 8B:一位成员询问关于使用 LoRAQLoRA 微调 Aya Vision 8B 参数模型 的事宜。
    • 未提供进一步的讨论或细节。
  • 需要对 Aya Vision 8B 进行进一步讨论:需要更多信息来正确评估使用 LoRAQLoRA 微调 Aya Vision 8B 的话题。
    • 由于缺乏额外的背景或回复,目前难以提供全面的总结。

Codeium (Windsurf) Discord

  • Grok-3 登陆 Windsurf!:根据此公告Grok-3 现已在 Windsurf 中上线,每条消息消耗 1.0 用户提示词额度 (user prompt credits),每次工具调用消耗 1.0 flow action 额度
    • Windsurf 还推出了以速度见长的 Grok-3-mini (Thinking),每条消息和工具调用的费率降低至 0.125 额度,适用于个人付费计划。
  • Windsurf 公布新定价模型:Windsurf 为包括 Grok-3Grok-3-mini 在内的不同模型引入了基于 用户提示词额度flow action 额度 的新定价模型。
    • 新定价旨在为个人付费计划提供更多灵活性和选择,针对每个模型和动作类型设有特定费率。

MLOps @Chipro Discord 没有新消息。如果该服务器长时间没有动静,请告知我们,我们将将其移除。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该服务器长时间没有动静,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该服务器长时间没有动静,请告知我们,我们将将其移除。


PART 2: 按频道分类的详细摘要和链接

完整的各频道详情已在邮件中截断。

如果您想查看完整详情,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预先感谢!