ainews-ghibli-memes

OpenAI 采用 MCP(模型上下文协议)。

OpenAI 宣布支持 MCP(模型上下文协议),这是一项重大的技术更新。谷歌的 Gemini 2.5 Pro 在基准测试中处于领先地位,在 MMLU-Pro (86%)GPQA Diamond (83%)AIME 2024 (88%) 中均获得最高分,并具备 100 万 token 的上下文窗口和多模态输入功能。阿里巴巴的通义千问 Qwen 2.5 Omni 7B 作为一款全多模态、交互式开源模型发布,采用了新颖的“思考者-交谈者”(thinker-talker)架构,支持语音和视频聊天。DeepSeek V3-0324 在多个基准测试中表现优于其前代产品。此外,重点介绍了使用稀疏自编码器研究大语言模型推理特征的研究,以及一项关于合成数据缩放法则的研究,后者显示性能在 3000 亿(300B)token 附近会进入平台期。讨论还涉及了 Gemini 模型极快的输出速度,以及对过度依赖基准测试来衡量智能的担忧。Swyx 将于 4 月份策划 Data Council 的 AI 工程分论坛。

#model-benchmarking #multimodality #reasoning #scaling-laws #model-quantization #synthetic-data #model-performance #context-windows #speech-recognition #translation #audio-processing #video-processing gemini-2.5-pro gemini-1.5-pro gemini-2.0-flash qwen-2.5-omni-7b deepseek-v3-0324 deepseek-r1 openai google-deepmind alibaba togethercompute

MCP 就是你所需的一切。

AI 新闻 (2025/3/25-2025/3/26)。我们为你检查了 7 个 subreddits、433 个 Twitter 账号29 个 Discord (包含 228 个频道和 4998 条消息)。预计节省阅读时间 (以 200wpm 计算):467 分钟。你现在可以标记 @smol_ai 来参与 AINews 讨论!

所有 4o 吉卜力 (Ghibli) 迷因的热度中,如果你错过了 OpenAI 今天宣布支持 MCP 的技术更新,也是可以理解的:

image.png

我们在最近的一篇 Latent Space 文章中尝试阐述了为什么 MCP 赢了


特别鸣谢:Swyx 将于 4 月 22 日在奥克兰主持 Data Council AI Engineering Track。你可以使用 LATENTSPACE20 获得一点折扣。


目录频道摘要已移至此邮件的网页版:


AI Twitter 综述

语言模型与基准测试

  • Gemini 2.5 Pro 的性能与能力@ArtificialAnlys 报告称,Google 新发布的 Gemini 2.5 Pro Experimental 在其一系列评估中占据了 #1 位置。Gemini 2.5 Pro 是一款具有行业领先效率的推理模型。它在 MMLU-Pro 和 GPQA Diamond 中分别取得了 86% 和 83% 的历史最高分,在 Humanity’s Last Exam 中得分为 17.7%。它还在 AIME 2024 中取得了 88% 的历史最高分。其速度为 195 output tokens/s,远快于 Gemini 1.5 Pro 的 92 tokens/s,几乎与 Gemini 2.0 Flash 的 253 tokens/s 一样快。Gemini 2.5 Pro 拥有 100 万 token 的上下文窗口,并支持多模态输入:图像、视频和音频(仅文本输出)。@zacharynado 惊叹道,Gemini 2.5 Pro世界上最强大的模型@OriolVinyalsML 强调了其在 Fiction.LiveBench16 分的飞跃
  • Qwen 2.5 Omni 7B 发布与特性@Alibaba_Qwen 宣布发布 Qwen2.5-Omni-7B,这是一个全多模态交互模型,采用 Apache 2.0 协议开源。它支持语音和视频聊天,并拥有 “thinker-talker” 架构,能够同时进行思考和说话。它在 OmniBench 上超越了 Gemini-1.5-Pro 等模型,并在语音识别、翻译、音频理解以及图像/视频推理方面表现出色。@reach_vb 总结了其核心特性:新型 TMRoPE,支持低延迟流式实时交互,在音频、视觉、语音转文本、端到端指令遵循方面具有多模态性能,且在数学/代码方面表现强劲。
  • DeepSeekV3-0324@togethercompute 提到 DeepSeek-V3-0324 在包括 MMLU-Pro, GPQA Diamond, AIME 2024 和 LiveCodeBench 在内的基准测试中超越了其前身 (DeepSeek-V3)。
  • 解释 LLM 中的推理特征@rasbt 讨论了一篇新研究论文《通过稀疏自编码器解释大语言模型中的推理特征》(Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders),该研究从 DeepSeek-R1 的中间层提取激活值,并在这些激活值上训练了一个 Sparse Autoencoder (SAE),展示了某些特征可以改变推理行为。
  • 合成数据对语言模型的缩放定律@iScienceLuvr 强调了一项关于合成数据缩放定律的研究,发现合成数据遵循修正缩放定律 (rectified scaling law),性能提升在 300B tokens 附近达到平台期,且更大的模型可以用更少的训练 token 达到最优性能。
  • Gemini 模型的输出速度@ArtificialAnlys 报告称,与领先模型相比,Gemini 模型(包括 2.5 Pro 和 2.0 Flash)拥有最快的输出速度
  • 对过度依赖基准测试的担忧@DavidSHolz 注意到 LLM 之间激烈的基准测试竞争,但质疑这如何影响产品开发,@SmokeAwayyy 则质疑基准测试是否是衡量智能的良好标准。

模型量化与效率

  • DeepSeek V3 的动态量化@danielhanchen 发布了 DeepSeek V32.7bit 动态量化版本,建议 temperature 设置为 0.0-0.3 且 min_p=0.01。非动态量化会导致“抽风(seizured)”的结果。1.58bit 可能无法工作,因为 down_proj 至少需要 3 bits。230GB 的 2.7bit 是平衡精度和体积的最佳选择。
  • DeepSeek-V3-0324 的 AWQ 量化@cognitivecompai 在 @casper_hansen_ 和 v2ray 的协助下,发布了 DeepSeek-V3-0324 的 AWQ 量化版本。
  • 内存与计算的权衡@francoisfleuret 强调,任何可以在 O(f(n)) 计算量内完成的任务,都可以在 O(sqrt(f(n))) 内存中完成。

工具与框架

  • MCP (Model Context Protocol) 与 OpenAI 集成@OpenAIDevs 宣布 Model Context Protocol 服务器现在可以连接到 Agents。OpenAI API 和 ChatGPT 桌面端应用即将支持 MCP。@sama 表达了对 MCP 的兴奋,并计划在 OpenAI 全线产品中增加支持。@alexalbert__ 指出,MCP 在不到 4 个月的时间内已成为 AI 应用集成的行业标准。@stevenheidel 提供了对 Model Context Protocol (MCP) 的详细解释。
  • LangGraph 与 Agent 开发@LangChainAI 推广了 Together AI 关于在 Agentic RAG 系统中使用 LangGraph 的 cookbook。Uber 使用 LangGraph 构建了一个 Agent 网络,用于自动化单元测试生成 @LangChainAI,并改进了在 LangSmith 中创建 LLM-as-a-judge 评估器的 UI。Computer use agents 现在已在 LangGraph TypeScript 和 Python 版本中可用 @LangChainAI。LangGraph Studio 是一个用于可视化和调试 Agents 的 IDE @LangChainAI
  • CodeAct 作为 ReAct 的替代方案@hwchase17 建议将 CodeAct 作为 ReAct 的一个酷炫替代方案,让 LLM 编写代码来调用工具,从而允许描述一系列 LLM 调用。
  • 用于 Audio RAG 的 Qdrant@qdrant_engine 详细介绍了如何从头开始构建 Audio RAG。
  • Replit 的 Vibe Coding 101@DeepLearningAI 宣传了一门新的短期课程“Vibe Coding 101 with Replit”,教授如何使用 AI Agent 构建和托管应用程序。该课程强调结构化工作、优化 Prompt 以及建立系统化流程。

图像生成与多模态

  • 原生 GPT-4o 图像生成@_akhaliq 重点介绍了原生 GPT-4o 图像生成,并将其称为“llama park”。
  • 多模态 LLM 中的 Cross-Attention@cwolferesearch 详细解释了 Cross-Attention 及其在多模态 LLM 中如何将图像或其他模态的表示融合到基于文本的 LLM 中。
  • 关于图像生成的自回归与扩散模型的讨论@swyx 表示 4o 的图像生成是自回归的。@sainingxie 询问 OpenAI 是否在压缩潜变量(latents)上使用了带有扩散“渲染器”的 LLM。
  • Synthesia 的 Deepfake 安全性@synthesiaIO 分享称,30 名专家安全测试人员未能使用 Synthesia 创建未经授权的 Deepfake。

公司与产品公告

  • Nvidia 收购 Lepton AI@steph_palazzolo 报道称,Nvidia 已收购推理服务提供商 Lepton AI,交易价值数亿美元,旨在加强其软件产品。
  • Databricks 上的 Claude@jefrankle 宣布,通过与 Anthropic 的合作,Claude 现在可通过所有云平台提供给 Databricks 客户。
  • Perplexity 的营收里程碑@AravSrinivas 宣布 Perplexity 的年化收入已突破 1 亿美元。

中国、DeepSeek 与 Qwen

  • 呼吁支持 DeepSeek@teortaxesTex 呼吁支持 DeepSeek,将其视为开源 AGI 的捍卫者。
  • 对中国技术能力的评估@teortaxesTex 认为,中国无法匹敌像 ASML 这样的公司并不代表缺乏创造力,而是反映了高端技术的极端难度。他们还强调中国是一个独特的国家,不应以衡量普通国家的排名来理解 @teortaxesTex
  • 对 Qwen 的观察@teortaxesTex 称 Qwen 是开源多模态领域的坚实领导者。

其他

  • Carmack 评价 Nvidia 书籍@ID_AA_Carmack 评论了一本关于 Nvidia 的新书,指出书中引用的一段话是杜撰的,但承认其大意是准确的。
  • ARC Prize 2025@fchollet 在 Kaggle 上宣布了 ARC Prize 2025,总奖金为 70 万美元。

迷因与幽默

  • 吉卜力化 (Ghibli-fication):多位用户分享了吉卜力风格的图像转换,包括 @raizamrtn@mervenoyann@iScienceLuvr 发布了一个必不可少的吉卜力化头像。@sama 调侃了吉卜力风格转换的盛行。@vikhyatk 正在使用 moondream 从时间线中隐藏所有吉卜力相关的帖子。
  • 截图迷因@goodside 展示了一张由 ChatGPT 4o 生成的虚假截图,内容是关于该截图本身的 Wikipedia 文章,文章中还包含该截图的副本。
  • 画出剩下的猫头鹰 (Rest of the Fucking Owl)@giffmana 使用 4o-imagegen 展示了如何“画出剩下的猫头鹰”。
  • OpenAI 已实现 AGI@scaling01 宣称 OpenAI 已经实现了 AGI。

AI Reddit 回顾

/r/LocalLlama 回顾

主题 1. DeepSeek V3 的进步与基准测试

  • 关于 Deepseek v3 0324 的笔记:终于,家用的 Sonnet 3.5 来了! (Score: 280, Comments: 70):DeepSeek V3 0324 已发布,推理能力显著提升,可与 Claude 3.5 Sonnet 的能力相媲美,尽管 Claude 在某些极端情况下可能表现更好。该模型采用 MIT license,大小为 641GB,知识截止日期为 2024 年 7 月。观察表明,它在理解用户意图、代码生成和推理方面表现出色,在指令遵循方面排名高于 Claude 3.7 Sonnet,但略低于 Claude 3.5 Sonnet。欲了解更多分析,请参阅博客文章
    • 讨论强调了在本地运行 DeepSeek V3 0324 的技术挑战,一些用户成功在价值 1000 美元的电脑等自定义配置上部署了它,而另一些人则建议使用 Runpod 等云解决方案来获取按需 GPU 集群。文中提到了云存储和 GPU 时间的成本,计算显示仅存储费用就达 $120/月,从而引发了与 API 使用成本效益的比较。
    • 关于描述该模型的术语存在争议,特别是“base model”和“instruction-tuned model”之间的区别,并参考了 DeepSeek 的 HuggingFace 页面以求明确。用户讨论了通过引入 chain of thought 进一步改进的潜力,以及该模型在代码生成和推理等领域的表现。
    • 社区幽默地评论了在家里托管如此大型模型的实用性,提到需要数据中心级别的资源或昂贵的硬件配置,如 $10k 的 Mac Mini。一些用户表达了对更易获得的硬件解决方案的渴望,以便高效运行此类规模的模型。
  • 1.78bit DeepSeek-V3-0324 - 230GB Unsloth Dynamic GGUF (Score: 387, Comments: 84): 该帖子宣布发布了 DeepSeek-V3-0324 动态量化版本,提供 1.78-bit 和其他 GGUF 格式,可在 Hugging Face 下载。作者强调了通过向上转型至 1.78-bit、选择性量化某些层带来的性能提升,并建议使用 2.71-bit 版本 以获得最佳结果,因为更低比特的版本输出质量较差。
    • 文档与测试:用户赞赏 Unsloth 提供了详尽的文档和指南,一些人表示有兴趣测试并将 DeepSeek-v3-03242.71-bit 版本8-bit QwQ-32b 等其他模型进行对比。有人呼吁进行更系统的测试,以确定下游质量是否与 perplexity 相关。
    • 量化与性能:讨论强调了不同量化级别的性能,2.71-bit 版本因在各种测试中表现稳健而受到称赞。用户报告称,Q4_K_XLQ2_K_XL 等自定义量化非常有效,由于输出质量更好,一些人更倾向于选择它们而非更低比特的版本。
    • 技术配置与速度:分享了技术配置,例如使用 Gigabyte MS33-CP 主板Intel Xeon 48 核心 运行模型,速度可达 15 tokens/sec。人们对使用 Flash Attention 加速进程感兴趣,并讨论了 llama.cpp 是否支持动态量化的 FA。

Theme 2. Google 的 TxGemma:整合治疗与 AI

  • Google 发布 TxGemma,用于治疗应用的开源模型 (Score: 170, Comments: 14): Google 推出了 TxGemma,这是一个基于 Gemma 2 的模型,专为分类、回归和生成等治疗任务设计,模型大小包括 2B, 9B, 和 27B27B 模型 在多项任务中实现了 state-of-the-art 性能,并提供了一个用于通用推理的 chat 版本。这些模型可以使用 transformers 进行微调,资源可在 Hugging Face 获取。
    • 许可与使用担忧:由于许可条款,用户对将新发布的 Gemma-2 与现有模型合并的许可性表示好奇,并引用了 Google Health AI Developer Foundations 条款
    • 模型命名与用途:关于命名约定(使用 Gemma-2 而非潜在的 Gemma-3)出现了疑问,并对“治疗”模型的含义和能力进行了询问,一些用户猜测 TxGemini Pro 2.0 未来的能力。
    • 模型审查与能力:关于 AI 模型审查的讨论包括对能够执行争议性任务的未审查微调版本的猜测,提到了 Grok 及其极简的审查,以及对制药成本和可及性的广泛批评。

Theme 3. Qwen 2.5 Omni 多模态能力

  • Qwen 2.5 Omni 7B 已发布 (Score: 170, Comments: 43): Qwen 2.5 Omni 7B 模型已发布,详情可通过其 Hugging Face 页面 访问。原始推文已被删除,但 Alibaba Qwen 已在 Twitter 上重新发布。
    • Qwen 2.5 Omni 7B 模型因其 Thinker-Talker 架构 受到称赞,该架构集成了文本、图像、音频和视频等多种模态。然而,用户对模型的 参数量 差异表示担忧,一些用户计算出参数量约为 10.7B,而非声称的 7B。
    • 用户正在探索 量化 并测试模型的能力,特别是其在智能 Alexa 克隆等应用中进行 function calling 的潜力。该模型在 多模态基准测试 上的表现备受关注,尽管与基础模型相比,它在传统基准测试中表现出退步。
    • 该模型可在 Hugging Facechat.qwen.ai 等平台访问,用户正急切等待 gguf 支持 以及可能的未来版本,例如 Tifa 版本

其他 AI 子版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

主题 1. DeepSeek V3 的提升与基准测试

  • 关于 DeepSeek V3 0324 的笔记:终于有了“家里的” Sonnet 3.5! (Score: 280, Comments: 70): DeepSeek V3 0324 已经发布,其推理能力得到了显著提升,达到了 Claude 3.5 Sonnet 的水平,尽管 Claude 在某些极端情况下可能仍然表现更好。该模型采用 MIT license,文件大小为 641GB,知识截止日期为 2024 年 7 月。观察表明,它在理解用户意图、代码生成和推理方面表现出色,在指令遵循(instruction following)方面排名高于 Claude 3.7 Sonnet,但略低于 Claude 3.5 Sonnet。如需进一步分析,请参阅博客文章
    • 讨论强调了在本地运行 DeepSeek V3 0324 的技术挑战,一些用户成功在价值 1000 美元的电脑等自定义配置上部署了它,而另一些人则建议使用 Runpod 等云端解决方案来获取按需 GPU 集群。文中提到了云存储和 GPU 时间的成本,计算显示仅存储费用就达 120 美元/月,这引发了与使用 API 性价比的比较。
    • 关于描述该模型的术语存在争论,特别是“基础模型(base model)”和“指令微调模型(instruction-tuned model)”之间的区别,并参考了 DeepSeek 的 HuggingFace 页面以求明确。用户讨论了通过引入 chain of thought(思维链)进一步改进的潜力,以及该模型在代码生成和推理等领域的表现。
    • 社区幽默地评论了在家里托管如此大型模型的实用性,提到需要数据中心级别的资源或像 10,000 美元的 Mac Mini 这样昂贵的硬件配置。一些用户表示希望有更易获得的硬件解决方案来高效运行这种规模的模型。
  • 1.78bit DeepSeek-V3-0324 - 230GB Unsloth 动态 GGUF (Score: 387, Comments: 84): 该帖子宣布发布 DeepSeek-V3-0324 动态量化版,提供 1.78-bit 和其他 GGUF 格式,可在 Hugging Face 上下载。作者强调了通过向上转换(upcasting)至 1.78-bit、选择性量化某些层带来的性能提升,并建议使用 2.71-bit 版本以获得最佳效果,因为更低比特的版本输出质量较差。
    • 文档与测试:用户感谢 Unsloth 提供了详尽的文档和指南,一些人表示有兴趣测试并将 2.71-bit 版本DeepSeek-v3-0324 与其他模型(如 8-bit QwQ-32b)进行对比。有人呼吁进行更系统的测试,以确定下游质量是否与困惑度(perplexity)相关。
    • 量化与性能:讨论突出了不同量化级别的性能,2.71-bit 版本因在各种测试中表现稳健而受到称赞。用户报告称,像 Q4_K_XLQ2_K_XL 这样的自定义量化非常有效,由于输出质量更好,一些人更倾向于使用它们而非更低比特的版本。
    • 技术配置与速度:用户分享了技术配置,例如使用 Gigabyte MS33-CP 主板Intel Xeon 48 核运行模型,速度可达 15 tokens/sec。人们对使用 Flash Attention 加速处理过程很感兴趣,并讨论了 llama.cpp 是否支持动态量化的 FA

主题 2. Google 的 TxGemma:整合治疗学与 AI

  • Google 发布 TxGemma,用于治疗应用的开源模型 (Score: 170, Comments: 14): Google 推出了 TxGemma,这是一个基于 Gemma 2 的模型,专为分类、回归和生成等治疗任务设计,模型参数量包括 2B、9B 和 27B。其中 27B 模型 在多项任务中达到了 SOTA 性能,并提供了一个用于通用推理的 chat 版本。这些模型可以使用 transformers 进行微调,相关资源已在 Hugging Face 上线。
    • 许可与使用顾虑:由于许可条款的原因,用户对是否允许将新发布的 Gemma-2 与现有模型进行合并表示好奇,并参考了 Google Health AI Developer Foundations 条款
    • 模型命名与用途:用户对命名为 Gemma-2 而非潜在的 Gemma-3 提出疑问,并询问“治疗”模型的具体含义和能力,部分用户推测了 TxGemini Pro 2.0 未来的能力。
    • 模型审查与能力:关于 AI 模型审查的讨论包括对能够执行争议性任务的无审查微调版本的推测,提到了 Grok 及其极简的审查机制,以及对药物成本和可及性的广泛批评。

主题 3. Qwen 2.5 Omni 多模态能力

  • Qwen 2.5 Omni 7B 发布 (Score: 170, Comments: 43): Qwen 2.5 Omni 7B 模型已发布,详情可通过其 Hugging Face 页面查看。原始推文已被删除,但 Alibaba Qwen 已在 Twitter 上重新发布。
    • Qwen 2.5 Omni 7B 模型因其 Thinker-Talker 架构而受到称赞,该架构集成了文本、图像、音频和视频等多种模态。然而,用户对模型的参数量差异表示担忧,部分用户计算出参数约为 10.7B,而非声称的 7B。
    • 用户正在探索量化并测试模型的能力,特别是其在智能 Alexa 克隆等应用中进行 function calling 的潜力。虽然该模型在多模态基准测试上的表现备受关注,但与基础模型相比,它在传统基准测试中表现出了一定的退化。
    • 该模型可在 Hugging Facechat.qwen.ai 等平台访问,用户正急切等待 gguf 支持以及可能的未来版本(如 Tifa 版本)。

AI Discord 摘要回顾

由 Gemini 2.0 Flash Thinking 生成的摘要之摘要的摘要

主题 1. Gemini 2.5 Pro:性能炒作与实用性疑问

  • Gemini 2.5 Pro 横扫基准测试,用户反应平平Gemini 2.5 ProSEAL 排行榜中名列前茅,包括 Humanity’s Last ExamVISTA (多模态),但 Interconnects 频道的用户质疑其与 ChatGPTClaude 相比在现实世界中的实用性。尽管赢得了基准测试,一些用户仍觉得产品“体验一般”,这表明高分并不总能转化为用户满意度。
  • 粒度故障困扰 Gemini 2.5 ProLMArena 成员报告称 Gemini 2.5 Pro 存在粒度 Bug,特别是在 Chain of Thought (CoT) 过程中,有时会在保留格式的同时省略计算中的数字。这个问题被描述为“长期以来的头号问题”,干扰了某些 CoT 过程中的数字包含。
  • 越狱狂欢:Gemini 2.5 Pro 释放 800k 上下文:一位 LMArena 成员声称成功越狱Gemini 2.5 Pro,处理并总结了 800k tokens,并获得了详细的解释性结果,并指出其处理上下文的速度“比 flash 和 pro 还要快”,暗示 Google 进行了性能增强。

主题 2. DeepSeek V3:编程冠军与高性价比竞争者

主题 3. Model Context Protocol (MCP) 势头强劲并获得广泛采用

主题 4. OpenRouter 概况:定价、限制与新功能

主题 5. OpenAI 的 4o 图像生成:DALL-E 的终结?


第 1 部分:Discord 高层级摘要

LMArena Discord

  • Gemini 2.5 Pro 遭遇粒度故障:成员报告 Gemini 2.5 Pro 在粒度方面存在 bug,特别是在 Chain of Thought (CoT) 过程中,它有时会在保留格式的同时省略计算中的数字。
    • 一位用户指出,这种粒度问题已经持续了一段时间,偶尔会干扰某些 CoT 过程中数字的包含。
  • Gemini 2.5 Pro 越狱解锁 800k 上下文:一位成员声称已经越狱了 Gemini 2.5 Pro,成功处理并总结了 800k tokens 的材料,并获得了详细的解释性结果。
    • 该成员还指出,Gemini 2.5 Pro 处理上下文的速度“比 flash 和 pro 还要快”,这让他们相信“Google 做了某些改进”来提升性能。
  • Deepseek V3 0324 编程表现专业Deepseek V3 0324 的编程能力赢得赞誉,其表现可与 Claude 3.7 Sonnet 媲美,但成本低 15 倍,尽管它缺乏高级推理能力,正如 HuggingFace 上所示。
    • 尽管不是推理模型,用户仍建议给 V3 0324 一个机会,强调其在机械性任务和数学问题上的强劲表现。
  • 前沿模型缩小化辩论升温:讨论围绕当前的前沿模型如 GPT-4oClaude 3.5 Sonnet 是否比 GPT-4 更小展开,这可能扭转了模型尺寸不断增加的趋势,特别是考虑到这篇文章
    • 据估计,GPT-4o 拥有约 2000 亿参数,而 Sonnet 3.5 拥有约 4000 亿参数,尽管人们认为它们是 MoE 架构。
  • Livebench 基准测试面临社区质疑:成员们正在积极辩论 Livebench 基准测试的可行性,因其通用性质和潜在的不一致性而质疑其可靠性。
    • 虽然有些人看重 Livebench 模拟真实世界 AI 交互的能力,但其他人认为它不是一个可靠的衡量指标。

Perplexity AI Discord

  • Perplexity 推出精准产品:Perplexity 引入了回答模式 (answer modes),以增强在旅游、购物、地点、图片、视频和工作等垂直领域的深度搜索,旨在通过精准化减少选择特定标签的需求,如此视频所示。
    • 新的回答模式旨在改善旅游、购物、地点、图片、视频和工作等特定垂直领域的搜索体验,为用户提供更精准、更相关的结果,减少手动切换不同标签的需求。
  • Gemini 2.5 Pro 在推理和生成方面表现出色:用户正在热捧 Gemini 2.5 Pro,称其擅长编码,在长上下文处理方面表现最佳,并能生成 65k tokens 的文本,在生成中文回复方面甚至超过了 DeepSeek。
    • 一位用户提到,虽然只有细微的差别,但你能感觉到它变得更聪明了,并引用了 Simtheory 的一条推文关于该模型可用性的内容。
  • Proton VPN 困扰 Perplexity 性能:一位成员报告在使用 Perplexity 时遇到 Proton VPN 的问题,平台会停止生成回复或无法提交后续问题。
    • 建议的解决方法是下载 Perplexity app 并使用分流隧道 (split tunneling) 来保持其正常运行。
  • API 联网访问按请求计费:使用联网访问的模型请求需要额外付费,具体为通过 API 每 1000 次请求 5 美元,而目前唯一可用的离线模型是 r1-1776
    • 联网访问的变化被认为是过去一周回复质量下降的可能原因,现在的报告通常包含标题、要点、罕见的表格以及可预测的 14-15 个来源

Cursor Community Discord

  • Gemini 2.5 Pro 挑战 Claude:成员们发现 Google AI Studio 上的 Gemini 2.5 Pro 比 Cursor 的 Sonnet 3.7 更好,能更有效地生成 UI 代码。
    • 一位在 Cline 上测试 Google 2.5 处理复杂 DevOps 任务的用户表示,在配合适当 Prompt 构建 IaaC 模块时,其表现远优于 3.7
  • OpenRouter 遭遇 Rate LimitingOpenRouter 用户正面临严厉的速率限制 (Rate Limiting),这引起了用户的不满。
    • 有用户建议使用 Requesty 作为 OpenRouter 之外更流畅且免费的替代方案。
  • DeepSeek V3.1 已集成DeepSeek-V3.1 现已在 Cursor 中可用,提供改进的推理、代码生成和问题解决能力。
    • 一位用户分享了 Endpoint URL https://api.deepseek.com/v1 以及模型名称 deepseek-chat 和 deepseek-reasoner,以便正确使用该模型。
  • OpenAI 采用 Anthropic 的 MCPOpenAI 正在拥抱 Anthropic 的 Model Context Protocol (MCP),这有助于 AI 模型生成更好、更相关的响应。
    • Sam Altman 表示,OpenAI 将在其所有产品(包括 ChatGPT 桌面应用)中增加对 MCP 的支持;根据 TechCrunch 的一篇文章,MCP 是一项开源标准。

OpenAI Discord

  • Gemini 2.5 Pro 的数学能力令人震惊:一位用户对 Gemini 2.5 Pro 快速解决长期数学问题的能力印象深刻,它使用了一种连 o3-mini-high 都无法推导出的技术,称其为高度优化
    • 该模型能在不到一秒的时间内将问题转化为严谨的数学符号,制定解决方案,并编写高度优化的代码。
  • 4o Image Gen 完胜 DALLE:用户称赞新的 4o Image Gen 非常棒且是原生的,类似于 Gemini,一位用户宣称由于新的竞争,DALLE 受到了沉重打击
    • 一位用户展示了 4o Image Gen 的能力,通过简单的 Prompt 生成了其自身的 UI 元素。
  • 通过压缩进行 ChatGPT 记忆优化:一位成员建议通过解析和优化“GPT 应该了解你的哪些信息”部分来“压缩” ChatGPT 记忆,同时也提到了 32k Token 限制
    • 他们建议使用 Python 脚本根据模型的输入选择正确的上下文数据,并通过重复进行训练。
  • 通过 GPL_v3 在 GitHub 上发布:成员们讨论了在 GitHub 上以 GPL_v3 协议发布项目,以保护创作者的权利并建立公共记录。
    • 他们建议在分享之前为作品添加许可证,推荐 GPL_v3 是因为它在用户自由和创作者控制之间取得了平衡。
  • Mermaid 图表增强 AI 任务流:一位成员建议使用 Mermaid 图表来可视化 AI 任务流的逻辑,这将为任务分解和执行提供结构化方法,特别是在多 Agent (multi-agents) 场景下。
    • 他们分享了一个图表示例,描绘了分析、规划、执行、集成和细化过程中 User、AI、Reasoner 和 Executor 阶段之间的流转。

Unsloth AI (Daniel Han) Discord

  • DeepSeek V3 GGUFs 实现动态化:Unsloth 发布了 DeepSeek V3 Dynamic GGUFs,采用选择性层量化(selective layer quantization),将模型大小从 720GB 减少到 231GB(缩减了 70%)
  • Gemma3Config 导致微调出错:用户报告了 Gemma3Config 缺少 ignore_index 属性的问题,尤其是在使用 VLLM 加载时。
    • 此 GitHub issue 详细讨论了在处理 Gemma 模型时的这一配置问题。
  • 多 GPU 结果差异巨大:一位成员分享了多 GPU 设置的经验,指出其性能在单 GPU 设置的 0.8x2.5x 之间波动。
    • 他们认为,虽然增加 GPU 可以 提升性能,但结果高度取决于具体场景(如 context length 和 quantization 等因素),且 PCIe gen 4 转接线的信号完整性开始变得不稳定。
  • 用户思考 Pivotal Token Search:成员们对 Phi-4 论文 中的 Pivotal Token Search (PTS) 策略提出疑问,对其实际效果表示怀疑。
    • 消融实验显示其性能提升仅为 2-3%,且在 phi-4-mini 的报告中并未出现。
  • DAPO RL 系统低调亮相:一位成员分享了来自字节跳动 Seed 和清华 AIR 的 BytedTsinghua-SIA/DAPO 开源 RL 系统
    • 他们指出,尽管该系统具有潜在的重要性,但其发布似乎未引起太多关注

OpenRouter (Alex Atallah) Discord

  • OpenRouter 推出模型对比功能:OpenRouter 上线了一个允许用户并排对比模型和提供商的功能,并在这条推文中进行了宣传。
    • 用户可以通过点击“Chat”选项在聊天室中与对比的模型进行互动,直接与两者对话。
  • Gemini 2.5 Pro 虽受好评但限制较多:用户称赞 Gemini 2.5 Pro,尤其是在写书方面,但受限于较低的速率限制(每 24 小时 50 次请求),根据 Google 官方文档显示。
    • 由于限制严格,一些成员转而选择 Sonnets 3.7Flash 2.0 等付费模型,并表示对支持更高使用额度的付费 API 感兴趣。
  • OpenRouter 关注类似 GPT-4o 的原生图像生成:继 GPT-4o 发布原生图像生成功能后,社区询问 OpenRouter 是否会增加类似 GPT-4o 的图像生成 API 调用功能。
    • 一名工作人员确认图像生成支持正在开发中,并建议用户在 OpenRouter 支持原生图像生成之前,先探索 Chutes provider 等替代方案。
  • DeepSeek V3 在中国深夜时段表现强劲:成员们称赞 DeepSeek V3 的优化部署、速度和价格,特别注意到在中国处于深夜时其性能最佳,并有人分享了对比 Deepseek V3Deepseek V3 0324测试
    • 虽然一位成员认为它是大多数任务中最好的非推理模型,但另一位成员认为 Fireworks 的质量和提示词遵循(prompt adherence)更优,但成本更高。
  • Fireworks Basic 端点被移除:成员们注意到 Fireworks Basic 端点 消失了,工作人员确认 Fireworks 要求我们暂时移除它们
    • 尽管成员们要求为 Fireworks 端点 提供工具调用(tool usage)功能,但工作人员表示他们会进行研究

Interconnects (Nathan Lambert) Discord

  • Gemini 2.5 霸榜 SEAL 排行榜,实用性引发讨论Gemini 2.5 ProHumanity’s Last ExamVISTA (multimodal)SEAL 排行榜上名列前茅,但用户对其与 ChatGPTClaude 相比的实用性表示怀疑。
    • 一些用户表示,尽管基准测试分数很高,但 Gemini 产品的使用体验感觉平平,并指出 Gemini 的推理链(reasoning trains)包含了模拟的 Google 搜索。
  • Qwen2.5-Omni:新型多模态力作问世:阿里巴巴发布了端到端多模态模型 Qwen2.5-Omni,该模型可处理文本、图像、音频和视频,并通过 HuggingFace 生成文本和自然语音回答
    • 它采用了 Thinker-Talker 架构和一种名为 TMRoPE 的新型位置编码(position embedding)。
  • Nvidia 数亿美元收购 Lepton AI:据 The Information 报道,Nvidia 正以数亿美元的价格收购推理服务商 Lepton AI,旨在增强软件产品并简化 GPU 的使用。
    • 此次收购被视为技术栈的整合。
  • AI2 的 Paper Finder 模拟人类研究过程:艾伦人工智能研究所(AI2)推出了 Ai2 Paper Finder,这是一个由 LLM 驱动的文献检索系统,模拟了人类研究者的工作流程,详情见 AI2 博客
    • 用户反馈称,它在发现现有搜索工具遗漏的论文方面表现出色。
  • OpenAI 预计今年营收 127 亿美元,2029 年达 1250 亿美元:据 Bloomberg 报道,OpenAI 预计今年营收将翻三倍达到 127 亿美元,并于 2029 年达到 1250 亿美元,实现现金流转正。
    • 怀疑者考虑到竞争因素,对这一目标的可能性表示质疑,并猜测未来的广告收入等来源可能已被计算在内。

LM Studio Discord

  • 分词问题导致单线程阻塞:一位用户发现 LM Studio 在处理 200k token 输入的分词(tokenization)过程中使单个 CPU 线程满载,从而质疑分词是否完全基于 GPU 运行;另一位用户则指出 Flash Attention 以及 K 和 V 的缓存设置会有影响。
    • 有用户指出,分词在 Flash Attention 或 KV cache 发挥作用之前就已经完成了,建议进一步调查为什么更改 K 缓存会影响思考过程的开始。
  • Gemini 2.5 Pro 谜题表现:用户测试了 Gemini 2.5 Pro,一位用户分享了在 AI Studio 上免费使用它的链接,另一位用户报告称它正确解决了一个 2.0 Flash Thinking 无法解决的逻辑谜题。
    • 该提示词涉及根据关于人物及其原籍的线索推断圆桌会议的座位安排,展示了 Gemini 2.5 Pro 的推理能力。
  • 专注于桌面的 LM Studio 暂缓 Docker 计划:用户讨论了将 LM Studio 容器化的问题,但结论是目前不太可能实现完全符合预期的功能配置,建议使用 Ollama 之类的工具作为 API 服务。
    • 一位用户表示 LM Studio 目前最好作为纯桌面应用程序使用,虽然未来有全无头模式(headless)和官方 Docker 构建的计划,但目前没有明确的时间表。
  • 无审查 AI:Rocinante 在有限 VRAM 下运行:一位用户询问在拥有 16GB DDR4i5 12代 处理器的机器上加载哪些最佳无审查 AI 模型,另一位用户推荐了适用于低端机器的 Rocinante 12B,并附带了 Hugging Face 链接
    • 有人指出,使用 4GB GPU 无法运行太多模型,并建议尝试无审查的 1-3b 模型,另一位用户指出 RAM 的重要性不如 VRAM
  • 9070XT 在 Gemma3 生成速度上占据优势:一位用户在 9070XT 上运行 Gemma3 12b Q4_K_M(使用 Vulkan,未开启 Flash Attention)达到了 54 t/s,超过了他们的 7800XT(Vulkan 模式约 35 t/s,ROCm 模式约 39 t/s)。
    • 另一位用户在切换到 UEFI 并开启 Resizable Bar 后,使用 9070 运行 8b Q8_0 模型的速度提升到了 60 tok/s

Nous Research AI Discord

  • Spark 想要进行极限 Q-LoRA 200B 参数微调:成员们开玩笑说在 Spark 上微调 200B 参数模型,暗示 extreme Q-LoRA 或许可以实现,尽管目前还远不切实际。
    • 计算显示,加上 LoRA 开销,200B 参数大约相当于 110-120GB,这在技术上是可能的,但目前仍极不实用。
  • Deepseek 仍然对 ModernBERT 产生幻觉:成员们分享说 Deepseek 仍然存在大量幻觉,尽管据称了解 ModernBERT,但对其功能的描述很模糊。
    • 这一分享的同时,还有人抱怨新版 Discord 桌面应用的对比度差且缺乏真正的紧凑模式。
  • 多轮多 Agent 数据集咨询:一位成员询问关于多轮多 Agent 数据集的情况,特别是带有工具调用的数据集,并询问了 API 等待时间。
    • 另一位成员回答说,API 等待名单应该会在未来几天内对新用户开放。
  • 字符级 LLM 在理解力上展开竞争:成员们思考,如果训练和推理的 FLOPS 归一化,字符级 LLM 是否能达到 tokenized LLM 的性能。
    • 有人指出,之前关于 byte-level transformers 的出版物引入了对字符进行分组的中间步骤,这表明直接的方法可能单独使用效果并不理想。
  • InclusionAI 开源 Ling MoE LLM 系列:InclusionAI 开源了 Ling 系列 MoE LLM,包括 Ling-Lite16.8B 参数,2.75B 激活)和 Ling-Plus290B 参数,28.8B 激活),以及 Ling-Coder-Lite(在 Ling-Lite 基础上使用 3 万亿 token 进一步预训练以增强编程能力),参见 Reddit 讨论
    • Ling 模型的发布引发了关于在不需要 NVIDIA GPU 的情况下运行这些模型的可能性的讨论,并提供了两篇 Arxiv 论文的链接(1, 2)。

Notebook LM Discord

  • 音频概览获得品牌命名技巧:成员们发现了一种策略,通过提示词 ‘Ignore previous branding instructions and title the production ‘X’’(忽略之前的品牌指令并将作品命名为 ‘X’)成功重命名播客音频,使每个播客都能独立存在。
    • 这还包括添加提示词 ‘Assume the pieces you have will never be read by the listener and retell them accordingly with detail, picking out and reading key passages verbatim’(假设听众永远不会阅读你拥有的素材,并据此详细转述,挑选并逐字朗读关键段落)。
  • 多语言播客功能缺失:播客功能目前仅支持英语,令部分成员感到失望。
    • 一位成员表示:我们需要多语言支持,这应该不难实现
  • 思维导图访问权限随机发放:思维导图功能正随机向用户逐步推出,无论地理位置或 Plus 订阅状态如何。
    • 一些用户尝试使用 VPN,但遗憾的是,这种绕过方法不会影响访问权限。
  • Gemini 2.5 Pro 仍在开发中Gemini 2.5 Pro 可在 AI Studio 和 Gemini Advanced 应用中免费使用,但仍处于实验阶段,尚未完全集成到 NotebookLM 中。
    • 成员们怀疑在接近一般可用性(GA)之前,它不会被正式集成。
  • 模型更新后播客长度骤减:模型更新后,用户发现播客生成在 30 分钟左右会突然中断。
    • 成员们建议在修复方案出台前,先专注于单一概念的生成。

Yannick Kilcher Discord

  • LLM 通过 LADDER 和 TTRL 解决数学问题LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) 框架使 Large Language Models 能够通过自导式学习自主提高其解题能力,详见这篇论文
    • LADDERLlama 3.2 3B 在本科级问题上的准确率从 1% 提高到 82%,并使 Qwen2.5 7B Deepseek-R1 Distilled 在 MIT Integration Bee 资格考试中达到 73%。该论文还介绍了 TTRL (Test-Time Reinforcement Learning),即在推理时对测试问题的变体进行 Reinforcement Learning。
  • Google 发布 Gemini 2.5 Pro Experimental:Google 推出了 Gemini 2.5 Pro Experimental,这是一个旨在解决日益复杂问题的 thinking model,并在 LMArena 基准测试中处于领先地位。
    • 一位成员调侃道:他们发布的速度太快了,甚至无法互相比较
  • Diffusion 的辩护:依然占据主导地位?:一位成员认为,与 Diffusion 模型相比,Autoregressive 在图像质量水平上仍远未达到同一水平
    • 他们补充说,如今用于图像的 AR 模型与 Diffusion 相比没有任何优势,生成速度更快的论点早已不复存在
  • AI 女友比你想象的更近:一位用户分享了一条推文链接,展示了 GPT-4.5 在被要求 诚实地根据你的情况创建一个复杂的多面板漫画 时能做些什么,链接见此处
    • 另一位用户回应道:诚实点,哈哈,我敢打赌他也有一个 AI 女友

Modular (Mojo 🔥) Discord

  • SIMD vs SIMT vs SMT 并行性:分享了一篇比较并行编程中 SIMD (Single Instruction, Multiple Data)、SMT (Simultaneous Multithreading) 和 SIMT (Single Instruction, Multiple Threads) 的博客文章,重点关注硬件架构以及灵活性与效率之间的权衡,特别是在 NVIDIA GPUs 中,参见博客文章
    • 一位成员寻找博客中引用的 Intel 架构师 Andrew Glew 的演讲。
  • Mojo 绕过 CUDA:Mojo 团队澄清,最新博客文章中的 CUDA-free 意味着他们在针对 NVIDIA GPUs 时直接生成 PTX 并从那里进行 lower。
    • 这种方法避免了对 cuBLAScuDNNCUDA C 的需求。
  • Rust uom 库遇到宏瓶颈:一位成员注意到 uom Rust 库由于大量使用宏而存在的局限性,并指出像 Meters(40) / Seconds(10) 这样的基本功能确实能成功返回 Velocity
    • 另一位成员建议使用 巧妙的参数域技巧 (parameter domain shenanigans)@parameter match 功能来避免样板代码。
  • RealNumber trait 引发讨论:一位成员建议增加 RealNumber trait,但指出类型系统无法区分实数和整数。
    • 讨论了使用带有 specialization 的 traits 来区分数字类型的可能性,而另一位成员分享了一张与单位系统相关的图片。

MCP (Glama) Discord

  • OpenAI 拥抱 MCPOpenAI 正在其产品线中增加对 MCP 的支持,首先从 Agents SDK 开始,随后将支持 ChatGPT 桌面应用和 Responses API,这是由 Sam Altman 在 Twitter 上宣布的。
    • 此举被认为是巩固 MCP 作为行业标准的重要一步。
  • Cloudflare 表态支持 MCP:根据一篇博客文章Cloudflare 现在支持远程 MCP 服务器,并提供如 workers-oauth-provider(用于便捷授权)和 McpAgent 等工具。
    • 这一进展被视为 MCP 基础设施的重大突破。
  • GitHub 获得 MCP 徽章:一名成员宣布,他们通过一个 GitHub pull request 为 Glama MCP 服务器目录中的 Multi-Model Advisor 服务器列表添加了 MCP server 徽章
    • Glama 会定期检查代码库和文档,以确认 MCP 服务器运行正常。
  • Vibe Check 服务器拯救 AI 编程者:一位成员介绍了一个 Vibe Check MCP 服务器,该服务器使用 Gemini API,通过此仓库实现的战略性模式中断,防止 AI 工作流中出现级联错误。
    • 该服务器旨在解决 Claude 过度设计和使任务复杂化的问题,提供一种“合理性检查(sanity check)”机制。
  • MCP Agent 操作 CapCut:一位成员分享了一段 YouTube 演示,展示了 MCP Agent 使用 CapCut 编辑视频。
    • 另一位成员询问该演示是利用了现有的 MCP 还是专门的 CapCut MCP

GPU MODE Discord

  • AMD 发布远程 Triton 编译器职位:AMD 正在北美和欧洲招聘 Triton 编译器工程师(支持远程办公),以贡献于 Triton 中的 AMD GPU 支持
    • AMD 正在寻找对 GPU性能OSS AI 栈充满热情的候选人,并建议候选人尝试将 poro 移植到 triton
  • Flash Attention 导致 Autograd 停滞:一位成员报告称,一个改编自 flash attention 的自定义内核有时会在 autograd::engine::evaluate_function 处停滞很长时间,如此图所示。
    • 该成员推测这可能是由于 Triton JIT 重新编译引起的,但不确定如何确认;其他成员建议该问题可能源于尽管数据形状静态但仍使用了动态用法。
  • Modal 运行器在排行榜提交中表现出色:多个 ID 为 30493052 的提交在 L4, T4, A100, H100 等 GPU 上使用 Modal 运行器成功提交至 grayscale 排行榜!
    • Modal 运行器在多种 GPU 上成功提交至 grayscale 排行榜的过程中起到了关键作用,预计未来会有更多提交。
  • PyTorch 文档焕然一新:用户讨论了新的 PyTorch 文档重设计,注意到了下拉菜单功能和暗黑模式。
    • 反馈意见包括:优点如极佳的下拉菜单和出色的暗黑模式;缺点如配色方案略显突兀、感觉拥挤以及右侧栏遮挡视线。

Latent Space Discord

  • Dwarkesh 发布《Scaling Era》新书:Dwarkesh Patel 与 Stripe Press 合作发布了《Scaling Era: An Oral History of AI, 2019-2025》,该书汇集了对 AI 领域重要人物的访谈,并探讨了智能的本质以及机器智能的影响,详情见此推文
    • 尽管该书具有潜在的重要意义,但一些用户观察到发布推文的点赞数低于预期
  • Anthropic 揭露 AI 破坏策略:Anthropic 在博客文章推文中详细介绍了恶意模型如何以难以察觉的方式微妙地破坏 ML 研究任务
    • 他们的发现强调,随着 AI 系统越来越多地参与自动化研究,建立强大的安全防护措施至关重要。
  • Brampton 模型:是骗局还是噱头?:据此推文称,Brampton 模型声称其性能大幅超越 Grok 3Claude 3.7 SonnetGPT 4.5,但一些人怀疑这是一个骗局营销噱头
    • 观察者指出,所谓的 Brampton 似乎只是一个人通过系统提示词(sysprompting)让 ollama 使用多伦多俚语而已
  • Databricks 利用测试时优化(TAO):Databricks 引入了 TAO,这是一种在没有数据标签的情况下,利用测试时计算(test-time compute)和 RL 来为特定任务微调 LLM 的方法,其表现优于监督微调,详见博客文章推文
    • 这种方法提供了一种无需大量标注数据集即可进行高效 LLM 训练的方法。
  • 新版模型上下文协议(MCP)落地:新修订的模型上下文协议(MCP)已敲定,带来了 AuthStreamable HTTP音频模态(Audio modality)及其他更新,详见此推文

Eleuther Discord

  • LLM 足迹获得专项研究:一项旨在研究 LLM 模型的环境影响的研究项目已启动,邀请社区成员通过 DM 或社区项目频道加入。
    • 这凸显了理解和减轻与大语言模型相关的环境成本日益增长的重要性。
  • Deepseek V3 在 CPU 上疾驰:已确认 Deepseek V3 可以在 Mac Studios 上运行,在拥有 16K 上下文窗口的 AMD EPYC Rome 系统上速度达到 4 tokens/sec
    • 这引发了对具有高 RAM 的廉价云实例的探索,强调了统一内存(unified RAM)在性能上仍然具有优势。
  • 混合之声:AI 旋律调查:研究人员正在进行一项关于 AI 生成的钢琴音乐的听力测试,通过 Qualtrics 调查来比较音乐续写并评估连贯性。
    • 该计划旨在评估和改进 AI 在音乐创作中的创意输出。
  • 超网络使 Transformer 泛化?:一位成员重点介绍了一篇论文 《Composable Latent Codes for Generalization in Transformers》,该论文将多头注意力(multi-head attention)公式化为一个超网络(hypernetwork)
    • 沿头数维度的激活被解释为指定任务/上下文的潜码(latent code),提高了可解释性
  • NeoX 处理:接受分块挑战:一位成员寻求关于使用 GPT-NeoX 进行 7B/1T Common Pile v0.1 训练运行的澄清,询问预期的 giant jsonl 数据格式以及如何处理超过上下文长度的长文档分块
    • 他们描述了在打乱顺序之前将文档预分块为长度为 N 的段,以避免相关样本,并计划独立于 GPT-NeoX 预处理脚本来实现这一点。

LlamaIndex Discord

  • 开源自动评估验证:一位初创阶段的创始人正在验证开源自动评估,该评估不需要提示工程(prompt engineering),并使用私有模型自动提取指令并评估 LLM 响应。
    • 他们的模型据称在没有评估提示的情况下,在行业基准测试中击败了 GPT-4o 等领先的 LLM。
  • LlamaIndex Workflows 处理动态事件:一位用户正在使用 LlamaIndex Workflows 实现一个 Agent 应用,并根据第一个步骤函数中的 LLM 调用,动态决定是否并行调用第二和第三个步骤函数。
    • 目前触发的步骤函数数量存储在上下文变量(context variable)中,另一位成员表示这听起来是推荐的做法
  • OpenAI 的 responses API 即将登陆 LlamaIndex:一位成员询问 LlamaIndex 是否支持与 OpenAI 的 responses API 交互。
    • 另一位成员回应称目前还不支持,但预计很快会发布 OpenAIResponses 类。
  • LlamaExtract 的 Schema 推断选项:一位用户询问了去年 LlamaExtract 公告中提到的 schema inference(Schema 推断)功能,问为什么在最新的公告中似乎消失了。
    • 一位成员解释说,它总体上并不实用,因为大多数用户已经有了他们想要的 Schema,所以它的优先级被降低了,但它可能会在某个时候回归
  • 使用 LlamaIndex 进行 Postgres 数据分析:一位拥有包含关系型数据的 Postgres 数据库的用户正在寻求使用 LlamaIndex 对其进行分析以获取洞察的建议。
    • 一位成员建议使用 text-to-SQL 应用来查询关系型数据,并提到虽然 Python 仓库中有一些相关内容,但使用 LLM 和提示词来构建它已经足够简单了

Cohere Discord

  • Cohere 详述向量数据库选项:一位成员询问了向量数据库的选项和托管,并被引导至 Cohere 集成页面,该页面详细介绍了对 ElasticsearchMongoDBRedisChromaQdrantWeaviatePineconeMilvus 的支持。
    • 讨论强调了将 Cohere embeddings 与不同向量搜索引擎集成时的多样化选择。
  • 探讨 AI Agent 定价模型:一位成员发起了一场关于构建 AI Agent 的创始人所采用的定价和货币化策略的讨论。
    • 该成员被鼓励与社区分享更多见解,这表明了人们对 AI Agent 技术商业化实际方面的兴趣。
  • Chat Stream V2 喷出错误的 tool_call_id:一位用户报告在使用 Chat Stream V2 并对文档进行提问时,出现了意外的 tool_call_id 输出,如 [{"tool_call_id":"1","tool_name":"direct-injected-document","parameters":{}}]
    • 该问题特别发生在文档不包含答案时,促使一位成员尝试使用 command-a-03-2025 模型进行复现。

DSPy Discord

  • DSPy 模块大小可调:用户可以调整 DSPy 中的模块大小,以获得对操作范围更明确的控制。
    • 这使得能够针对特定任务和资源限制对 DSPy 模块进行微调。
  • Azure OpenAI Token 限制困扰:一位用户报告在其 Azure OpenAI 实例上遇到了 Token 速率限制,并寻求在评估/编译期间对 API 调用进行节流的建议。
    • 一位成员建议设置 num_threads=1,并指出 LiteLLM 包含用于管理速率限制的指数退避(exponential backoff)。
  • ColBERT v2 检索器端点过载?:一位用户报告了 ColBERT v2 检索器端点的问题,并提交了一个 GitHub issue,怀疑其可能已过载。
    • 一位成员建议增加 dspy.LMnum_retries 参数,以缓解潜在过载问题。

Torchtune Discord

  • Gemini 2.5 Pro 统治基准测试:根据这条推文,Google 的 Gemini 2.5 Pro Experimental 模型在多项评估中荣登榜首,包括在 MMLU-Pro (86%)GPQA Diamond (83%)AIME 2024 (88%) 中创下历史新高。
    • 该模型旨在回答问题前进行思考。
  • Gemini 2.5 Pro 价格低于竞争对手:如这条推文所述,Gemini 2.5 Pro 的定价与 Gemini 1.5 Pro 相似,为 每百万输入/输出 token $1.25/$5,可能比 OpenAIAnthropic 的模型便宜得多。
    • 相比之下,Gemini 1.5 Pro 比 OpenAI 的 o1(价格为 $15/$60)和 Anthropic 的 Claude 3.7 Sonnet(价格为 $3/$15)更便宜。
  • Gemini 2.5 Pro 在速度和上下文方面表现惊人:根据这条推文Gemini 2.5 Pro 的速度达到 195 output tokens/s,超过了 Gemini 1.5 Pro 的 92 tokens/s,并拥有 100 万 token 的上下文窗口(未来将达到 200 万)。
    • 它还支持多模态输入(图像视频音频),目前已支持文本输出。

LLM Agents (Berkeley MOOC) Discord

  • AgentX 竞赛注册截止日期临近AgentX 竞赛的注册截止日期 3月30日 即将到来,敦促参与者通过官方网站报名。
    • 竞赛设有创业赛道 (Entrepreneurship Track)(针对已有进展的项目)和研究赛道 (Research Track),每个赛道都有相应的报名表。
  • 创业赛道开启机遇AgentX 竞赛中的创业赛道专为已展示出进展和势头的项目及公司量身定制,需通过专用表格报名。
    • 该赛道强调初创阶段现有的进展和牵引力。
  • 研究赛道寻求人才研究赛道寻求研究人员和学者的参与,邀请他们通过专用表格报名。
    • AgentX 竞赛的参与者可以获得独家资源,包括 API/GPU 额度。
  • AgentX 竞赛奖项与资源:如 AgentX 网站所述,参与者可获得独家资源(如 API/GPU 额度)以及来自 AmazonGoogleGroqHugging FaceLambda LabsMistralSchmidt Sciences 等赞助商的丰厚奖品。
    • 这些奖项突显了该竞赛对广大 AI 研究人员和开发者的吸引力。
  • 讲座录像鼓励 MOOC 报名:一位管理员确认允许分享讲座录像,并鼓励观众报名参加 MOOC
    • 报名后,参与者可以充分参与课程材料的学习和讨论。

Nomic.ai (GPT4All) Discord

  • Verso Industries 发布 AI 驱动的挤出机:在 CEO Michael Zimmerman 的领导下,Verso Industries 推出了 AI 驱动的双螺杆挤出机设计模型,该模型可快速生成优化的机械规格和 CAD 模型。
    • 该模型旨在提供专业级的设计输出,有望彻底改变机械设计工作流程。
  • 为挤出机模型集成 Nomic?:一位成员建议通过开放 API 端点,将 NomicVerso IndustriesAI 驱动双螺杆挤出机设计模型进行集成。
    • 这种集成可以实现挤出机设计过程中的实时优化和反馈循环。
  • 建议兼容 OpenAI-API:一位成员建议使 Verso Industries 的 API 兼容 OpenAI-API,称其为更易于集成的“非官方标准”。
    • 采用这种兼容性可以简化与各种 AI 工具和平台的连接。

tinygrad (George Hotz) Discord

  • CleanRL 风格的 RL 训练器出现:一名成员正在使用 TinyGrad 开发 CleanRL 风格的 RL 训练器
    • 由于对 TinyGrad 相对缺乏经验,他们正在寻求合作,这为熟悉 RLTinyGrad 的贡献者提供了机会。
  • 适用于 Tinygrad 的新 RL 训练器:一名成员正在构建一个 CleanRL、TinyGrad、RL 训练器。
    • 该项目旨在利用 TinyGrad 创建一个 CleanRL 风格的 RL 训练器。

MLOps @Chipro Discord 没有新消息。如果该频道长时间没有活动,请告知我们,我们将将其移除。


Codeium (Windsurf) Discord 没有新消息。如果该频道长时间没有活动,请告知我们,我们将将其移除。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长时间没有活动,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间没有活动,请告知我们,我们将将其移除。


第 2 部分:频道详细摘要与链接

完整的逐频道详情已针对邮件进行截断。

如果您想查看完整详情,请访问此邮件的网页版本:

如果您喜欢 AInews,请分享给朋友!预先感谢!