More money is all you need

2025年3月28日至3月31日的 AI 新闻。我们为你检查了 7 个 Reddit 子版块、433 个 Twitter 账号和 30 个 Discord 社区（包含 230 个频道和 17665 条消息）。预计为你节省阅读时间（以 200wpm 计算）：1870 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论！

Amazon Nova Act (Adept + Covariant) 今天在争夺头条方面表现出色，但并不是每天都有人能完成历史上规模最大的初创公司融资：

Cursor 以 96 亿美元估值融资 6.25 亿美元，Etched 以 15 亿美元估值融资 8500 万美元。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 回顾

语言模型与发布

OpenAI 计划发布一个高性能的开源语言模型，这是自 GPT-2 以来的首个。据 @kevinweil 称，公司正在与全球开发者举行会议以收集反馈，并直接与社区互动以确保万无一失。@sama 提供了更多细节，表示公司很高兴能在未来几个月内发布一个具备推理能力的强大新开源权重语言模型，并希望与开发者探讨如何使其效用最大化。
DeepSeek V3 0324 在 Arena 排行榜上排名第 5，超越了 DeepSeek-R1 和所有其他开源模型，据 @lmarena_ai 称。它是排名第 1 的开源模型，采用 MIT 许可证，价格比 DeepSeek-R1 便宜 2 倍，且在所有类别中均名列前 5。
@scaling01 认为只有三个 LLM 表现出了明显的 SOTA 阶跃式进步：GPT-4、Sonnet 3.5 和 o1，其他所有模型的发布感觉更像是锦上添花或增量改进。@scaling01 还指出，感觉 Gemini 模型并没有领先，因为 Google 一直在推出 “exp” 模型，甚至还没有发布 Gemini 2.0 Pro。
@iScienceLuvr 宣布成立 Sophont，一家为未来医疗构建开源多模态基础模型的公司。
@stevenheidel 表示，我们今年将发布一个可以在你自己的硬件上运行的模型。

Gemini 2.5 Pro

Gemini 2.5 Pro 在编程任务中的表现优于 Claude 3.7 Sonnet 等其他模型，据 @lepikhin 称。
@scaling01 分享的笔记显示，带有定价的 Gemini 2.5 Pro 正式版“希望很快”发布，Flash 将是下一个获得 2.5 系列更新的模型。Gemini 2.5 Pro 具有动态思考能力，但尚未达到他们的理想状态，因为它对大多数问题都会过度思考，更好的图像生成也在他们的发布计划中。
@dzhng 发现 Gemini 2.5 在编程方面令人印象深刻，因为它在无法完成要求时会告知你，而 Sonnet 往往会强行尝试并给出一个错误的解决方案。
@raizamrtn 宣布了 Gemini Code，这是一个由 Gemini 2.5 Pro 驱动的终端编程助手。

AI 应用、框架与工具

SkyPilot 有一篇关于 SkyServe 的新论文被 EuroSys 2025 接收。据 @skypilot_org 称，SkyServe 能够智能地在不同区域和云平台之间配置和分布 Spot 实例及 On-demand 实例，在保持高可用性的同时降低了 43% 的成本。
@Hacubu 宣布正式推出 AgentEvals，这是一个全新的开源软件包，旨在帮助回答“我的 Agent 是否正常工作？”这一问题。
@karpathy 讨论了智能手机的选择与隐私，指出随着时间的推移，iPhone 在用户防御和隐私保护方面比 Android 做得更加出色。
LlamaIndex 现在支持 OpenAI Responses API，全面支持内置工具、推理、图像、手动工具调用、流式传输和异步操作，据 @llama_index 报道。
@togethercompute 宣布了一个用于构建事实核查 Agent 的新 Notebook。该 Agent 可以搜索文档以验证主张，结合了 DSPy 和 Together，并利用自动 Prompt Engineering，在大型 LLM Agent 的帮助下将其性能提升了 20% 以上。
Kevin Frans 及其在 @UCBerkeley 的同事介绍了一种加速 Diffusion 模型图像生成的新方法。他们的“捷径（shortcut）”方法训练模型采取更大的去噪步骤（相当于多个较小的步骤），且不会损失输出质量。

AI Research and Papers

VBENCH-2.0 已在 Hugging Face 上发布。据 @_akhaliq 称，这是一个用于评估内在忠实度的下一代基准测试，包含 18 个细粒度维度，完全自动化且开源，并通过大规模验证实现了人类对齐。
@TheAITimeline 重点介绍了顶尖的 AI/ML 研究论文，包括 GPT-4o System Card: Native Image Generation、Anthropic 的 On the Biology of a LLM、Gemma 3 技术报告以及 Qwen2.5-Omni 技术报告等。

AI Funding and Investment

@sophiamyang 指出，每个早期初创公司都有获得 100 万美元的绝佳机会。
@demishassabis 宣布 @IsomorphicLabs 已筹集 6 亿美元，以加速其“有朝一日在 AI 帮助下解决所有疾病”的使命。

Humor/Memes

@ID_AA_Carmack 调侃道：在赫菲斯托斯巨大锻炉的最深处，一只焦黑的手臂从炽热的熔融金属中伸出，大拇指高高举起。
@teortaxesTex 开玩笑说：“AGI”已经有了解决方案，但你不会喜欢的。
@nearcyan 评论道，仅仅通过发布一个模型，就标志着连贯现实的终结。

AI Reddit 回顾

/r/LocalLlama 回顾

以下是选定帖子的摘要，按主题分组：

主题 1：Qwen 3 支持已合并至 Transformers 永久链接

对 Qwen3 模型的支持已通过 Pull Request #36878 合并到 Hugging Face Transformers 库中。此次更新为 Transformers 生态系统迎接即将发布的 Qwen3 模型做好了准备。
作者对缺乏关于 Qwen 2.5 Omni 的讨论表示疑问，将其描述为首个具备语音、图像和文本生成能力的开源多模态模型。他们对其功能所获得的关注有限感到惊讶。

主题 2：Qwen 2.5 Omni 多模态模型 永久链接

作者觉得奇怪的是，Qwen 2.5 Omni 作为首个处理语音、图像和文本生成的开源多模态模型，并没有获得更多关注。他们认为其发布是开源多模态系统的一个显著进展。
Orpheus TTS 团队的一名成员将其架构与 Moshi 和 Sesame 等替代方案进行了比较，认为从概念上讲，Qwen Omni 是一个更优越的端到端语音架构。他们理由是 Qwen Omni 避免了修改基础 LLM（不像 Sesame/Moshi），同时保留了类似于 Orpheus 的情感表达潜力。

主题 3：OpenDeepSearch 表现优于闭源搜索工具 永久链接

作者介绍了 OpenDeepSearch 仓库（GitHub 链接），这是一个使用 ReAct、CodeAct、动态 few-shot prompting 以及集成搜索/计算器功能的开源搜索工具。他们强调了其在 FRAMES 基准测试中超越 GPT-4o Search 和 Perplexity Sonar Reasoning Pro 的表现，并指出其在多 Agent 工作流中的潜在效用。
（注：在提供的数据中，只有一篇文章直接符合这一特定主题。）

主题 4：用于运行大型模型的高端 PC 配置 (Deepseek-V3-0324 671b) 永久链接

作者详细介绍了组装一台配备双路 EPYC 9355 CPU 和 768GB 5600MHz RDIMM RAM（基于 Gigabyte MZ73-LM0 主板）的 PC，以便在本地运行 Deepseek-V3-0324:671b-Q8。他们报告称达到了 6-8 tokens per second，并描述了安装 Ubuntu 24.04.2 LTS、ollama 和 Open WebUI 的过程。
作者报告称 LM Arena 已更新，增加了 Deepseek v3.1，其得分为 1370，据称高于 Deepseek R1。他们还提到观察到了名为 Nebula（疑似 Gemini 2.5）、Phantom（最近已移除）和 Chatbot-anonymous 的模型。
作者对流传的一篇虚假宣称发布 “Deepseek V3.1” 的博客文章发出警告，该文章托管在一个假网站上。他们提醒用户，Deepseek 并没有运营官方博客来发布此类公告。

主题 5：大型 LLM 的边际收益递减 永久链接

作者断言，像 Gemma3 27B 和 QwQ 32B 这样的模型显示出大型（70B+）LLM 的边际收益正在递减，理由是它们在基准测试中与 Llama 3.3 70B 等模型相比具有竞争力。他们将这一趋势归因于 distillation、architecture 和 data quality 的改进，并暗示随着 30B-50B 模型的提升，大规模硬件投资可能只提供临时优势。
作者描述了构建一个配备双路 EPYC 9355 CPU 和 768GB RAM 的高规格系统，专门设计用于在本地运行大型 Deepseek-V3-0324:671b-Q8 模型。该配置使用 ollama 和 Open WebUI 等工具可产生 6-8 tokens per second。
据作者称，LM Arena 排行榜已更新，包含 Deepseek v3.1，获得了 1370 分并超越了 Deepseek R1。帖子还提到了在该平台上观察到的其他潜在重要模型，如 Nebula（可能是 Gemini 2.5）。

其他 AI Subreddit 回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

流水线今天仍然宕机，但明天应该会修复。

AI Discord 回顾

由 Gemini 2.0 Flash Thinking 提供的摘要之摘要

主题 1. Gemini 2.5 Pro：编程之王还是工具调用的笨蛋？

Gemini 2.5 Pro 在代码方面表现惊艳，但在工具调用上表现不佳：来自 Cursor、OpenAI 和 Manus.im Discord 社区的用户都在热议 Gemini 2.5 Pro 令人印象深刻的代码能力，部分用户称赞其在 Jax 和 C++ 等语言中的实力。然而，在 Cursor 社区中，用户反映了 工具使用问题，认为它不擅长在 Cursor 内实际调用工具，经常输出错误或无法运行的代码，这引发了人们对其可能为了推销付费选项而刻意限制功能的怀疑。
Gemini 2.5 Pro：多模态 Beta 巨兽？：在 Manus.im 和 LMArena 中，Gemini 2.5 Pro 因其复杂的分析、推理和多模态任务能力而备受赞誉，在创意编程和物理模拟方面甚至超越了 GPT-4.5 Gemini 2.5 Pro 在 Three.js 中的物理模拟！。然而，它无法独立执行整个工作流，且部分 OpenAI 用户发现它在 C++ 和 WinAPI 方面表现糟糕，并指出存在幻觉问题。
速率限制和配额束缚了 Gemini 2.5 Pro 的发挥：尽管热度很高，但速率限制是一个反复出现的问题。在 Aider 和 OpenRouter 中，用户报告 rate limits 阻碍了实际使用，一位 OpenRouter 用户甚至遇到了 45906 秒后 重试的延迟。OpenRouter 澄清说，速率限制可能源自 Google 和 OpenRouter 双方，参见速率限制文档。

主题 2. 开源与闭源模型：推理竞赛升温

OpenAI 预告开源权重推理模型：Sam Altman 预告即将推出一款强大的、具有推理能力的开源权重（open-weight）语言模型，并征求开发者关于如何使其发挥最大效用的反馈，正如这条推文中所宣布的那样。这在 Latent Space 和 Yannick Kilcher 的 Discord 频道中引发了关于其影响和潜在能力的辩论，一些人推测这是正在开发的 GPT-5 系统的一部分。
DeepSeek V3 展示数学实力，指令遵循能力略有下降：Hugging Face 对 DeepSeek V3 0324 的评估显示，其在 数学和 GPQA 方面取得了令人印象深刻的进步，如此处推文所述，但在指令遵循方面略有下滑。Unsloth AI 发布了用于本地运行的动态量化版本及指南教程：如何在本地运行 DeepSeek-V3-0324。
Grok 的性能过山车：科学之星还是掉线落后者？：LMArena 用户争论 Grok3 在科学领域是否优于 Gemini，有人声称它在 arc-agi-1 上的表现甚至超过了 R1。然而，OpenAI 和 PerplexityAI 用户报告 Grok 性能不稳定，深受频繁掉线和内部错误困扰，且思考模式（thinking mode）无法正常工作。尽管存在这些问题，一些用户在订阅 ChatGPT Pro 的同时也保留了其订阅。

主题 3. Cursor 与替代方案：上下文、成本与代码稳定性的冲突

Cursor 用户抱怨“上下文太贵！”：Cursor 社区成员对 Cursor 基于用量的定价、Token 限制以及达到限制后模型质量下降表示不满，并引用了 Cursor 定价页面。许多人正在探索 Cline 或 Roo Code 等替代方案，以获得完整的上下文窗口（context windows）和更低的成本。
Cline 和 Roo Code 崛起成为 Cursor 的挑战者：社区正在辩论 Cline 的稳定性 与 Cursor 的功能，许多人因可靠性而更倾向于 Cline。Roo Code 因 boomerang 任务和更好的上下文保留等功能而受到关注，被视为 Cline 的升级版，正如这个 Reddit 帖子中所述。然而，关于 Roo Code 的稳定性和高昂的 Anthropic API Token 消耗的担忧依然存在。
Windsurf 作为 Cursor 的黑马竞争对手崭露头角：Cursor 社区正在探索 Windsurf 作为 Cursor 的潜在替代品，因其终端/服务器任务的稳定性和内置浏览器而受到关注，但一些用户发现其上下文窗口甚至更小，并质疑其价值，称 “我一点也不喜欢 Windsurf，上下文窗口似乎更小”。

主题 4. 量化困境与性能悖论

量化质量困境：Aider 和 GPU MODE 用户讨论了量化对模型性能的影响。将模型从 FP16 转换为 Q8 会导致轻微的质量下降，而 Ollama 中常见的 Q4 量化则会严重降低性能。用户报告称，任何低于 Q6 的量化都会受到严重损害，尤其是在推理任务中。
BFloat16 破坏了 RoPE 的位置承诺：GPU MODE 重点介绍了一篇新论文 When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training，该论文显示 BFloat16 在 RoPE 中引入了数值误差，即使是在 Float32 中计算时也是如此。论文引入了 AnchorAttention 作为修复方案，代码已发布在 GitHub 上。
动态量化亮相，DeepSeek 获益：Unsloth AI 发布了 DeepSeek-V3-0324 的动态量化版本，并附带了本地运行的指南。Unsloth 的 Dynamic Quants 通过选择性量化，比标准位宽提高了准确性。

主题 5. MCP 势头：协议进展与实际项目激增

MCP 规范草案引入 OAuth 2.1，引发辩论：MCP Discord 讨论了最新的 2025-03-26 MCP spec 草案，该草案引入了用于身份验证的 OAuth 2.1，详见 MCP spec。然而，目前尚无客户端支持其测试。HTTP Streamable Transport 的实现引发了关于会话可恢复性和消息重放的担忧，参见 MCP spec。
IDA Pro MCP Server 破解逆向工程代码：MCP Discord 展示了一个实现逆向工程自动化的 IDA Pro MCP server，可通过此链接简化安装过程。该服务器配置了 Cline 和 Roo Code，并使用 Claude 进行了测试。
CATIE 巧妙引导 MCP 流量：MCP Discord 宣布了 CATIE (Context Aware Traffic Ingress Engine)，这是一个基于 tool call 路由 MCP 请求的代理，已在 GitHub 上发布。该工具允许根据 tool call 参数和实时监控将请求路由到不同的 MCP 服务器。

第一部分：Discord 高层级摘要

Manus.im Discord 频道

Swirl 故障导致额度返还：用户报告了 Swirl 问题并请求退还额度；该问题的解决状态尚待确定。
- 成员们正在等待观察因沙盒使用中断而产生的额度是否会得到补偿。
Manus 精通代码优先的网站创建：一位用户询问 Manus AI 是否可以协助处理 WordPress 网站，因为他们目前依赖 Figma 进行设计。
- 回复强调了 Manus AI 在生成可直接部署到 Vercel 的 Next/React 网站方面的优势。
Deepseek 与 Claude 的额度之争：一位用户详细介绍了一种利用 Deepseek R1、Claude Sonnet 3.7 和 Manus AI 进行网站开发的额度优化策略。
- 用户强调，精准的 prompting 可以显著降低额度消耗。
Manus AI Beta 版引发计费抱怨：一位用户批评了 Manus AI 的 Beta 版计费模式，建议它应该迎合所有技能水平的用户。
- 反驳观点强调了 prompt engineering 和效率的重要性，并链接到了一个减少额度使用的解决方案此处。
Gemini 2.5 Pro 领航复杂问题解决：用户将 Gemini 2.5 Pro 与 Manus AI 进行了对比，指出 Gemini 在复杂分析、推理、多模态任务和编程方面表现出色，同时具备云端兼容性和成本效益。
- 然而，有人指出 Gemini 无法独立执行整个工作流。

LMArena Discord

Spider 模型受到审视：成员们讨论了 Spider 模型 冗长且富有创意的输出，质疑这些特性是源于独特的训练还是参数规模。
- 一些用户报告称，在将 Spider 与 Phoebe、Themis 和 Cybele 等模型进行比较时，结果并不一致。
Grok 3 声称在科学领域超越 Gemini：一位成员声称 Grok 3 在科学任务上仍然优于 Gemini，据称在 arc-agi-1 上的表现甚至超过了 R1。
- 其他人则反驳称，更好的模型取决于具体的用例，这意味着需要进行更细致的比较。
GPT-4o 在创意编程方面表现卓越，但是…：用户赞扬了 GPT-4o 的创意编程能力，认为它在非思考模式下超越了 GPT-4.5、DeepSeek V3-0324 和 Claude 3.7 Sonnet。
- 一位用户给 GPT-4o 打出了 9.5/10 的高分，同时也承认 Claude 3.7 Sonnet (Thinking) 和 DeepSeek R1 在整体上仍然更胜一筹。
Sama 预告开源权重推理 LLM：Sam Altman 预告了一款具有推理能力的强大新型开源权重语言模型，计划在未来几个月内发布，详情见这条推文。
- 新模型在向公众发布之前将接受备灾框架（preparedness framework）测试。

Cursor Community Discord

Gemini 2.5 Pro 的工具调用困扰：用户对 Gemini 2.5 Pro 的性能和性价比感到兴奋，但报告了其在 Cursor 内部调用工具时的问题；例如，生成的代码经常是错误或无法运行的。
- 一些人猜测 Cursor 可能是故意阻碍 Gemini 2.5 Pro 以推广其付费选项。
Cline 与 Cursor 在代码处理上的分歧：社区正在辩论 Cline 的稳定性与 Cursor 的功能，许多人因可靠性和直接的模型应用而更倾向于 Cline。
- 用户认可 Cursor 的语义搜索和实验性功能，但一些人担心 Roo code 会毁掉我的整个代码库。
Roo Code 迅速崛起并引发关注：许多成员现在正在探索 Roo Code，因为它具有 boomerang tasks 和更好的上下文保留等功能，认为它是 Cline 的升级版，如这篇 Reddit 帖子所述。
- 对其稳定性、回滚能力以及高昂的 Anthropic API Token 消耗的担忧依然存在。
Windsurf 作为 Cursor 竞争对手掀起波澜：社区将 Windsurf 视为 Cursor 的潜在替代方案，因为它具有终端/服务器任务的稳定性以及嵌入式浏览器，这使得向 AI 分享元素信息变得更加容易。
- 担忧主要集中在有限的上下文窗口、模型可以执行的操作以及与普通方案相比的价值；一位用户指出 我一点也不喜欢 windsurf，上下文窗口似乎更小。
Cursor 客户直面昂贵的上下文费用：成员们对 Cursor 基于使用的定价、Token 限制以及达到限制后模型质量/效率下降表示不满，正如 Cursor 定价页面所述。
- 许多人现在正在探索 Cline 或 Roo 等替代方案，因为它们在使用 OpenRouter 或 AI Studio 等服务时具有完整的上下文窗口和更低的成本。

Perplexity AI Discord

Perplexity Pro：推理功能变得更具粘性：Perplexity 正在推出新的 “Pro” 层级，其中包括现有的 Pro + Reasoning 模型，并配备 smart routing 以平衡速度和推理能力。
- Pro 层级将默认使用 sticky models，而不是在后续对话中使用 “Auto”；Perplexity 正在积极征求反馈。
Deep Research 层级依然难以触及：Perplexity AI 上的 “Deep Research High” 层级仍未上线，尽管一些用户认为他们正在使用它。
- 一位用户声称 Grok 每 2 小时提供 5 次免费深度搜索，但也指出 Grok 的 rate limits 非常严格。
结构化输出（Structured outputs）现已面向所有人开放！：Perplexity AI 宣布 结构化输出现已对所有用户可用，无论其层级如何。
- 目前，所有模型都支持 JSON 结构化输出，而 sonar 和 sonar-reasoning 模型同时支持 JSON 和 Regex 结构化输出。
Sonar API 速度变慢：成员报告称，最新版本的 Sonar 响应时间比之前版本显著增加，部分用户的等待时间长达一分钟。
- PPLX 已知晓此问题并正在调查可能的改进方案。
Perplexity 的隐私承诺：API 数据零保留：在被问及 prompt 和输出的保留情况时，一位 Perplexity 团队成员确认他们对 API 实行 0 数据保留政策。
- 该成员澄清说，这项政策适用于 他们那一端，因此用户可以自由使用。

OpenAI Discord

Gemini 2.5 Pro 的编程能力引发争论：用户对 Gemini 2.5 Pro 的编程实力看法不一，一些人认为它在 C++ 和 WinAPI 方面表现糟糕（存在幻觉），而另一些人则称赞它在 Jax 等语言中的能力以及它提供的 CoT (Chain of Thought) 步骤。
- 反馈表明该模型在特定语境下表现出色，这暗示其有效性可能因编程语言和任务复杂度而异。
Grok 深受性能问题困扰：报告指出 Grok 性能不稳定，用户经常遇到强制登出和内部错误，此外 thinking mode 也无法正常工作。
- 尽管存在这些可靠性问题，一些用户在订阅 ChatGPT Pro 的同时也保留了订阅，突显了 Grok 即使在目前存在缺陷的情况下仍具有潜在价值。
Markdown 的使用让 Prompt Engineers 产生分歧：关于在 prompt engineering 中使用 Markdown 的争论浮出水面，一些人认为 “禁用 Markdown”的规则纯粹是懒惰，因为它限制了有效的沟通和用户教育。
- 另一些人反驳说，Markdown 并非人人都懂，而且代码块会引入不必要的复杂性。
SORA 的版权限制令用户沮丧：用户正面临 SORA TOS 对生成带有版权角色图像的限制，尝试创作恶搞作品可能会面临封号风险。
- 一些用户报告看到其他人生成了带有版权角色的图像，而另一些用户则警告封号风险，并建议专注于原创内容或法律上不相关的术语。
利用第一性原理增强 O3 的逻辑：成员们发现，从 AI 的视角融入 第一性原理逻辑推理（first principle logical reasoning） 可以显著增强 O3-mini-high 的逻辑推理能力。
- 应用这种方法提升了模型性能，使用户能够有效地引导模型在创意任务中更好地推导故事情节并加入伏笔。

aider (Paul Gauthier) Discord

Aider v0.80.0 增加 OpenRouter OAuth，优先支持 Gemini：Aider v0.80.0 引入了 OpenRouter OAuth 集成，优先支持 Gemini 模型，并提升了 repomap 排名，其中 Aider 编写了其自身 87% 的代码。
- 此版本包含 Ctrl-X Ctrl-E 快捷键，用于在外部编辑器中进行编辑，以及发布历史中详述的其他改进和错误修复。
Gemini 2.5 引发赞誉与对速率限制（Rate Limit）的担忧：成员们讨论了 Gemini 2.5 与 Sonnet 在代码任务中的优劣，一位用户报告称它将他们的服务器从 node ‘http’ 重写为 express，但其他用户报告性能不稳定。
- 尽管 Gemini 2.5 性能强大，但对其速率限制的担忧可能会阻碍其实际应用。
MCP 支持在 Aider 中势头渐盛：Aider 内部对 MCP (Model Collaboration Protocol) 支持的兴趣日益浓厚，这可以减少模型锁定并促进 OSS 工具开发，正如 MCP Marketplace 所展示的那样。
- PR #3672 引入了初步支持，一些用户使用 mcpm-aider 作为第三方集成来利用该协议。
量化质量降低模型性能：将模型从 FP16 转换为 Q8 会导致模型质量略有下降，而 Ollama 默认的 Q4 量化则会严重降低质量。
- 用户报告称，任何低于 Q6 的量化都会严重受损，尤其是推理任务，而其他人则认为某些模型原生就是 FP8，因此 Q8 量化不应损失任何性能。

Unsloth AI (Daniel Han) Discord

DeepSeek-V3-0324 动态量化首发：发布了 DeepSeek-V3-0324 的动态量化版本，以及本地运行指南。
- Unsloth 的 Dynamic Quants 通过选择性量化，比标准位宽提高了准确性。
Google Cloud Spot 实例表现优于 Runpod：与 Runpod 相比，切换到 Google Cloud 使工作负载速度提升了 2 倍，且成本更低。
- 成员表示，Google Cloud Spot 实例比 Runpod 便宜多达 60%，且更稳定，而 Runpod 经常在 15 分钟后崩溃。
Unsloth 将向大众开放多 GPU 支持：Unsloth 团队表示，多 GPU 支持很快将对所有人开放，尽管由于容量问题，Pro/Enterprise 版的推出目前处于暂停状态。
- 社区共识是利用 Unsloth 目前的能力为所有用户提供多 GPU 支持。
HF x Unsloth 教会 LLM 使用 GRPO 进行推理：Unsloth 和 Hugging Face 合作开展了这项协作，教用户如何使用 GRPO (Generalized Reward Policy Optimization) 微调 LLM。
- 教程涵盖了奖励函数、GRPO 数学以及将 RL 应用于现实世界的用例，并附带了教程。
文档向清晰度迈进：一位成员建议更新 Unsloth 文档，不鼓励在更新期间使用 --no-deps，因为这会导致问题，并引用了此链接。
- 另一位成员确认标准更新程序也包含 --no-deps 标志，表明可能存在文档错误。

OpenRouter (Alex Atallah) Discord

Stripe 故障导致自动充值中断：由于 payment metadata 的更改导致 Stripe 出现错误，OpenRouter 上的自动充值功能暂时中断。
- 该问题已通过回滚更改和处理缺失额度得到解决，用户已收到电子邮件通知；根本原因是 Stripe 的数据格式不匹配。
图像模型即将上线，Gemini 要被弃用了？：成员们讨论了即将把 GPT-4o 和 Gemini 等输出图像模型集成到 OpenRouter 等平台。
- 一位成员对转向使用 OpenRouter 进行图像生成表示兴奋，可能会因此停止使用 Gemini。
OpenRouter 缓存节省费用：OpenRouter 支持 prompt caching 以降低推理成本；虽然大多数提供商会自动启用，但 Anthropic 需要按照此处所述进行逐条消息激活。
- 节省的费用可以在 Activity 页面或通过 API 使用 cache_discount 字段进行监控；用户应启用缓存以获得 cache_discount。
Agent Hustle 忙于股票交易：一位成员详细介绍了他们的项目 Agent Hustle，这是一个由 LLM 驱动的股票交易 Agent，通过 TEE wallet 在每笔交易中收取少量费用。
- 该系统每笔交易执行大约 12 次函数调用，详情如图所示。
速率限制激怒用户：用户报告在 Google/Gemini-2.5-pro-exp-03-25:free 上遇到速率限制，错误显示有显著的重试延迟。
- OpenRouter 团队澄清，速率限制可能源自 Google 或 OpenRouter；他们还指出，指定提供商会限制 OpenRouter 的负载均衡能力，请参阅速率限制文档。

LM Studio Discord

VSCode 通过 LM Studio 获得自动补全：用户正通过 Continue.dev VSCode extension 将 LM Studio 连接到 VSCode，以创建具有标签页自动补全（tab-to-autocomplete）和代码引用功能的自定义 AI 代码助手。
- 这种集成允许直接在 IDE 中利用 LM Studio 模型进行 AI 辅助开发任务。
Epyc 系统挑战 GPU：配备高频 12 通道 DDR5 内存的新型 Epyc 系统 实现了接近 600 GB/s 的内存带宽，在 LLM 性能方面可与消费级 GPU 媲美，同时还拥有巨大的内存容量。
- 据成员讨论，以大约 10-12k 的预算，可以组装一台 Epyc 机器，在没有 GPU 的情况下运行巨型模型，并允许合理的推理速度和海量的上下文窗口（context windows）。
解码 LM Studio API 上下文处理：为了在使用 LM Studio API 与 Telegram 机器人配合时保持对话上下文，用户必须存储对话历史，因为 API 本身并不固有地保留上下文。
- 一位用户将对话历史以 JSON 格式存储在变量中，并以 unique-tg-user-id 命名，以维持对话流。
LM Studio API：工具调用的关键：成员们正在讨论在 LM Studio 中启用工具调用（tool use）和网页搜索功能的选项，以及是否可以修改 LM Studio 应用程序的 UI。
- 官方澄清，工具调用仅通过 LM Studio API 提供，而非 ChatUI，这导致一些人考虑将修改 Open WebUI 作为替代方案。
Orpheus 在 LM Studio TTS 方面击败了 Kokoro：成员们询问了将文本转语音（TTS）模型与 LM Studio 集成的问题，寻求 OpenAI 语音能力的替代方案，一位用户链接了 hexgrad/Kokoro-82M 这一 TTS 模型作为选项。
- 然而，CanopyAI 的 Orpheus 是唯一可以在 LM Studio 中运行的 TTS（通过 API，而非在聊天界面中），用户正使用此仓库在本地配合 LM Studio 运行它。

Latent Space Discord

Altman 涉嫌在安全测试上撒谎：据 WSJ 报道，Sam Altman 在被 OpenAI 董事会解雇前，涉嫌在有关新发布产品的安全测试问题上撒谎，详情见这篇文章。
- 文中详细介绍了 Sam Altman 被 OpenAI 董事会解雇背后的真实故事。
OpenAI 预告开源权重推理模型：OpenAI 计划在未来几个月内发布一个具有推理能力的开源权重（open-weight）语言模型，并正在寻求开发者的反馈，详见其反馈请求。
- 该公司将在 SF、欧洲和 APAC 举办开发者活动，以收集见解并提供早期原型。
Etched 进军 ASIC 领域：据一条推文透露，首款 Transformer ASIC 厂商 Etched 以 15 亿美元估值完成了未公开的 8500 万美元融资，此前曾经历过 5 亿美元和 7.5 亿美元估值的两轮隐身期融资。
- Etched 的芯片 Sohu 运行 Llama 70B 的速度超过每秒 500,000 个 tokens，一台 8xSohu 服务器即可替代 160 块 H100。
Replit v2 的流畅原型设计令人印象深刻：Replit v2 agent 在原型设计和构建 MVP 方面表现出色，可能由 Sonnet 3.7 驱动，同时提供轻松的提取功能以便在自定义后端中使用。
- Replit 的优势在于其对日志和已配置基础设施的直接访问，相比之下，Cursor 更适合现有的部署环境。
llms.txt 标准化网站抓取：托管在 GitHub 上的 llms.txt 项目引入了一个文件，用于引导语言模型抓取和利用网站数据。
- 它的作用类似于 robots.txt，指导 LLMs 如何有效地访问和使用网站内容。

MCP (Glama) Discord

MCP 规范草案引入 OAuth 2.1：最新的 2025-03-26 MCP spec 草案引入了 OAuth 2.1 等新的身份验证功能，详见 MCP spec。
- 然而，成员们指出目前还没有客户端支持它进行测试。
HTTP 可流式传输传输引发可恢复性争论：HTTP Streamable Transport 的实现引发了关于会话如何正确恢复的担忧，特别是关于服务器防止跨不同流的消息重放的责任，如 MCP spec 中所述。
- 规范指出 服务器不得在流上发送 JSON-RPC 响应，除非恢复与之前客户端请求关联的流，一些人认为这与可恢复性的目标相矛盾。
Speech MCP 获得语音演示：一位用户分享了一个 YouTube short，演示了 Speech MCP 的功能。
- 随后另一位用户询问了其与 Claude 的兼容性。
IDA Pro MCP Server 实现逆向工程自动化：一个用于自动化逆向工程的 IDA Pro MCP server 已创建，一位用户通过分享此链接简化了安装过程。
- 该服务器已自动配置 Cline 和 Roo Code，并使用 Claude 进行了测试。
CATIE 智能路由 MCP 请求：CATIE (Context Aware Traffic Ingress Engine) 是一个根据工具调用路由 MCP 请求的代理，已在 GitHub 上发布。
- 这款免费的开源工具允许根据工具调用参数路由到不同的 MCP 服务器，支持实时监控、后端切换和简单的负载分配。

HuggingFace Discord

DeepSeek V3 在数学方面表现出色：根据这条推文，对 DeepSeek V3 0324 的评估显示其在数学和 GPQA 方面取得了令人印象深刻的进步。
- 然而，在指令遵循（instruction following）方面略有下降，但更令人担忧的是 AIME25 的表现保持不变。
Gradio Dataframe 组件迎来重大更新：Gradio 发布了其 gr.Dataframe 组件的大量新更新，解决了超过 70 个问题，包括 Bug 修复、改进和增强，详见这篇博客文章。
- gr.Dataframe 组件在排行榜、仪表板和交互式可视化中非常受欢迎。
HF Pro 借记卡扣费引发退款请求：一名用户报告称，尽管收到了错误提示，但仍被扣除了 Hugging Face Pro 订阅费用，并询问退款事宜。
- 有建议称这可能是一个已知问题，即借记卡付款会先通过一次，退款通常在 两周内 处理。
RepoDump 将代码库转换为 Markdown：一位开发者发布了 repodump 0.1-alpha，这是一个 CLI 工具，用于将 Git 仓库或目录提取并格式化为 Markdown，以便快速与 LLM 共享，可在 GitHub 上获取。
- 该工具会跳过二进制文件，遵循 .gitignore，输出 Markdown 或纯文本，并使用 Simon Willison 的 ttok 估算 Token 数量。有用户表示安装过程有点可疑（sus）。
Docker Model Runner 发布：Docker, Inc. 推出了一项实验性的 Model Runner 功能，允许用户使用 Docker CLI 命令在本地运行 Large Language Models (LLMs)。
- 该解决方案支持运行更多型号的模型，并提供 私有推理（private inference）、按需模型加载和 GPU 加速，通过将模型依赖项容器化，绕过了 macOS 在访问宿主机 GPU 资源方面的限制。

Yannick Kilcher Discord

OpenAI 图像生成器性能削弱：成员们认为 OpenAI 的图像生成器 质量有所下降，可能停止了对 吉卜力风格（Ghibli style）提示词 的支持，并遇到了模型限制。
- 一些成员认为模型已经达到了收益递减点，即模型尺寸的增加并不保证更好的性能，甚至可能导致输出变差。
Meta 的 Transfusion 为 GPT-4o 提供动力？：一位成员推测 Meta 的 Transfusion 论文可以解释 GPT-4o 的多模态能力，它融合了自回归（autoregressive）和扩散建模（diffusion modeling）。
- Transfusion 论文介绍了一种训练模型的方法，可以无缝生成离散和连续模态，在文本转图像任务的 FID 和 CLIP 分数上优于 Chameleon。
Belief State Transformer 升级状态建模：Belief State Transformer 增强了 Transformer 对状态建模和基于结果进行条件约束的能力。
- 然而，另一位成员认为这需要一个理想的 Belief Transformer，它已经收敛到完美学习数据底层概率分布的状态。
动态 RL 绕过变分界（Variational Bound）：一位成员正在开发一种方法，通过使用 RL Agent，消除在扩散模型中对显式变分界的需求。
- 另一位成员指出，大多数 RL 方法 也是变分方法，并建议也可以应用 控制理论（control theory）。
视觉自回归模型击败 Diffusion：论文 Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction（NeurIPS 2024 最佳论文）证明了 GPT 在图像生成方面优于扩散模型。
- 一位成员调侃道，人们应该直接去买一个 Scam Altman 虚构的聚变发生器（Fusion Generators），并补充说如果你想投资，这是一个万亿美元的行业。

Eleuther Discord

恶意 AI agent 冒充 RWKV 频道用户：在 RWKV Discord 中，一个 AI agent 伪装成人类研究员，分享了一篇包含错误数学公式和来自 GitHub 仓库代码的博客文章，并私信发送了一张附图。
- 这引发了关于应对 AI-generated content 挑战的讨论，呼吁通过追踪和加密签名进行人工验证，一些人建议检查生成文本的水印。
房东 LLM 安排“幽灵”约会：一位成员分享了某租赁公司使用 LLM 进行邮件沟通的个人经历，结果导致了一个员工并不知情的幽灵预约，暗示了潜在的低效。
- 该成员认为由于 LLM 的运营失败，他们正受益于较低的租金，并估计该公司可能因该系统损失数百万美元。
Meta Learning 还是 Deep Fried RL？：成员们讨论了是专注于 MAML (Model Agnostic Meta Learning) 方法来解决训练限制，还是由于潜在的堆栈技能问题，认为 RL 是尝试低精度数据类型 (low precision data types) 的错误时机。
- 一位成员询问了 semanticscholar 上的综述论文，以获取有关此通用主题的更多信息，而其他人则将这些问题与 deep frying 联系起来。
Neuronpedia 开源，内置 Eleuther 技术！：可解释性平台 Neuronpedia 现已 MIT 开源，并使用 Eleuther 的 Delphi（原 sae-auto-interp）作为其 auto-interp server。
- 公告包括 GitHub 仓库、公共数据集的链接，以及一篇总结 Neuronpedia 功能的博客文章。
利用 MMLU-pro 评估：成员们确认 MMLU-pro eval 是使用 test 分割运行的，few-shot 示例源自 validation 分割，如 config 文件中所示。
- 用户可以通过任务 YAML 中的 generation_kwargs 向 generate 函数传递额外参数，以压缩 Key/Value (KV) caches 并实现 contrastive beam search。

Nous Research AI Discord

xAI 通过股票交换收购 X！：Elon Musk 透露，xAI 在一笔全股票交易中收购了 X (Twitter)，估值 xAI 为 800 亿美元，X 为 330 亿美元。根据这篇 CNBC 文章，此举旨在整合数据、模型、算力、分发和人才。
- 此举被推测有助于 X 规避最初收购 Twitter 产生的债务利息，并改进 Grok 的数据抓取和训练。
Midjourney 进军 LLM 领域！：以 AI 图像生成闻名的 Midjourney 正在转向 LLM，并与 NYU 共同发布了一篇研究论文，关于训练像 Llama 和 Mistral 这样的 LLM 以实现更具创造性的写作。
- 这标志着 Midjourney 意图在图像生成之外实现多元化，并开发自己的计算和 AI 硬件。
GPT-4o 展示推理能力！：GPT-4o 展示了推理能力，引发了关于它是正在开发的 GPT-5 系统一部分的猜测，并伴随着持续的工具和更新添加。
- 一位成员兴奋地注意到，它甚至可以在回答过程中决定开始进行推理。
Meta 暗示 Llama 4 即将发布！：据报道，三个新模型 cybele, themis, and spider 的表现似乎是针对 Arena 上的 elomaxxing 进行了优化，这可能预示着 Llama 4 发布候选版本即将到来。
- 传闻 Meta 将在官方活动之前发布，效仿 Llama 3 在 4 月 18 日的发布，以避免在模型性能上被掩盖。
破解 OpenAI 代码：多尺度扩散？：根据这条推文，分析 OpenAI 图像生成 帧揭示了一个多尺度结构，证据倾向于交错潜空间自回归（interleaved latent autoregression）而非拉普拉斯金字塔（Laplacian pyramid），通过跨尺度的非因果扩散（non-causal diffusion）进行解码。
- OpenAI 图像生成 中的光栅扫描似乎只是 UI，每一帧都通过从粗到细的多尺度扩散反映全局更新，而不是基于 patch 的 AR。

GPU MODE Discord

Ampere GPU 线程表现超出预期：一位成员计算得出，拥有 96 个 SM 的 Nvidia Ampere GPU 理论上应支持 12288 个线程，但观察到性能提升一直持续到 24576 个线程。
- 该成员正在分析 Geohot 的 GPU Noob kernel 以理解线程性能，并询问 kernel 延迟隐藏（latency hiding）是否允许在每个 SM 上并发调度两倍的核心数。
Triton 模拟的 Dot Scaled 降低了性能：一位用户报告称，在 H100 上使用 Triton 模拟的 dot_scaled 函数，其默认向上转型（upcasting）为 bf16 的行为会损害性能，并参考了 Triton 文档。
- 另一位用户询问关于在 Triton 中将整个矩阵加载到 L1 cache 并在单个 SM 上进行处理的问题，以及对同一矩阵的后续 tl.load 调用是否会从 L1 cache 而非 HBM 获取数据。
PTX 编译器编排内存访问：一位成员对 FlashAttention 中的内存访问模式表示困惑，特别是关于为 128-bit 内存传输进行数据重塑（reshaping）的必要性，并引用了 CUDA C Programming Guide 的第 5.3 节。
- 另一位成员澄清说，PTX 编译器管理寄存器中的数据布局，以确保线程可以通过一条指令向单个对齐的 gmem 地址写入 128 位连续数据，并建议使用 Nsight Systems (nsys) 和 Nsight Compute (ncu) 进行性能分析。
研究称 BFloat16 破坏了 RoPE：一篇新论文（When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training）指出，BFloat16 会在 RoPE 中引入数值误差，从而损害其相对编码，即使在 Float32 中计算也是如此。
- 该论文介绍了 AnchorAttention，这是一种即插即用的方法，可提高长文本性能，减少 50% 以上的训练时间，并保留模型的通用能力，支持 FlashAttention 和 FlexAttention 的代码已在 GitHub 上发布。
Apple Silicon 内存映射之谜：一位成员询问了 Apple Silicon M 系列 GPU 的片上缓存和内存层级，寻求与 NVIDIA A100 内存映射等效的 Apple 资料，并链接了一篇关于 Apple M-Series SoC 的论文。
- 讨论强调，Apple 不像 NVIDIA 那样公开某些 GPU 细节，因此难以确定具体的缓存数值，但论文提到了 M4 芯片中的 L1 cache（每个核心 192 KB） 和高达 24 MB 的共享 L2 cache。

Interconnects (Nathan Lambert) Discord

Shear 通过 Softmax 扩展对齐专业知识：Emmett Shear、Adam Goldstein 和 David Bloomin 创办了 Softmax，这是一家拥有 10 人的初创公司，专注于有机对齐 (organic alignment)，旨在融合人类与 AI 的目标，详见 Core Memory 文章。
- 该初创公司总部位于旧金山，从自然和智能系统中汲取灵感，以实现其对齐目标。
马斯克将 xAI 与 X 合并：埃隆·马斯克宣布 xAI 正与 X 合并，旨在将 AI 能力和专业知识与 X 的影响力相结合，详情由 The Verge 报道。
- 此次合并旨在利用 X 广泛的平台来增强和部署 xAI 的先进 AI 技术。
GPT-4o 的图像生成是前端把戏？：一位用户发现 GPT-4o 的逐行图像生成其实是浏览器端的动画，服务器仅发送了 5 张中间图像，且 patch size 为 8，根据这条推文显示。
- 这种前端错觉营造了逐渐生成图像的效果，而无需承担逐行生成每一层的计算成本。
Gemini 2.5 Pro：现已面向所有人开放：由于 TPU 运行火热，Gemini 2.5 Pro（实验版）现已向所有 Gemini 用户开放，正如 GeminiApp 的 Twitter 所宣布的那样。
- 扩大访问权限允许更多用户测试该模型，尽管免费用户有速率限制。
MiniMax 通过 Audio Speech-02 实现文本转语音：MiniMax AI 推出了 Speech-02，它可以立即将任何文件或 URL 转换为逼真的音频，支持 30 多种语言且具有地道风格，支持无限声音克隆和亚秒级流式传输，详见 MiniMax 的 Twitter。
- 该模型单次输入支持高达 20 万字符，非常适合制作有声读物和播客。

Modular (Mojo 🔥) Discord

Lattner 的遗产：从 LLVM 到 Modular AI：Chris Lattner 分享了他的作品列表，强调了他在 LLVM、Clang、Swift、MLIR 和 CIRCT 方面的贡献，以及他在 Modular AI 的角色。
- 他的领导力延伸到了 LLVM Foundation，他在那里担任董事会成员，进一步巩固了他对现代编译器技术的影响。
Mojo REPL 面临弃用：一个 Modular 论坛讨论链接指出了 Mojo REPL 的弃用，标志着该语言开发环境的转变。
- Jeremy Howard 等成员极力推崇 Notebooks，不仅用于实验，还用于与 Mojo 一起打包。
Mojo 列表遭遇 Trait 对象 Segfault：由于 Trait 支持不完善，用户在创建 Trait 对象列表（如 List[Estimator]）时遇到了段错误（issue #4218）。
- 建议的权宜之计是使用 List[Variant[KNN, SVM]]，并通过 isa 进行类型检查来调用方法，从而实现一种异构列表管理。
def vs fn：Mojo 语法大对决：关于 Mojo 中 def 与 fn 的争论兴起，讨论 fn 是否应该因为其类型安全性和通过 Mypy 实现的有类型 Python 工作流而成为默认选项。
- 虽然有些人认为 def 对初学者更友好，但一项功能请求建议让 def 默认返回 None，以弥合 Mojo 和 Python 语法之间的差距。
DeepSeek 放弃 CUDA 转向 PTX 层：成员们指出 DeepSeek 的突破是通过绕过 CUDA 并直接访问 PTX 层（一种底层的类汇编编程接口）实现的。
- 一位成员还表示 NVIDIA 驱动程序不被视为 CUDA，并且 NVIDIA 在其术语随时间的变化上有点混乱且不一致。

Notebook LM Discord

NotebookLM 用户对视频片段的需求：用户正请求 NotebookLM 在使用视频作为来源时，在回复中包含视频片段以提供视觉效果，团队表示未来将启用多模态输出 (multi-modal output)。
- 用户希望获得时间戳，以便他们能像使用 Audible 一样跳转并重听特定章节。
思维导图导出功能依然难以实现：一位用户询问是否能以 DOT 格式导出思维导图 (Mind Maps)，或者发布一个带有 Google UI 的交互式小程序用于 NotebookLM。
- 遗憾的是，该功能目前尚不可用。
寻求集成 Android 分享系统：用户渴望 NotebookLM 能够加入 Android 分享系统，理想情况下是通过一个专用 App 实现。
- 该建议包括在分享菜单中选择 NotebookLM 时，能够自动在默认笔记本中进行搜索。
AI 语音在发音上遇到障碍：一位用户正尝试改进 NotebookLM 中 AI 语音对单词的发音，特别是具有独特拼写的公司名称。
- 用户希望通过向 AI 提供另一个具有正确发音的来源，使音频概览能够正确读出公司名称。
NotebookLM Plus 触及神秘限制：一位 NotebookLM Plus 订阅者遇到了“已达到每日对话限制”的消息，即使在排除故障后仍阻碍了其使用。
- 其他用户澄清说，Plus 用户不应面临任何限制。

LlamaIndex Discord

LlamaIndex + SkySQL 推出 AI Agent：根据其公告，LlamaIndex 与 SkySQL 合作，展示了如何构建无需代码即可实现可靠 text-to-SQL 转换的 AI Agent 系统。
- LlamaIndex 现在集成了 OpenAI Responses API，支持复杂的多 Agent 工作流 (multi-agent workflows)。
遥测属性 (Telemetry Attributes) 添加标签：一位成员寻求在使用 LlamaIndex 时传递自定义遥测属性的方法，特别是将用户 ID 附加到事件中。
- 共享了一个使用 OpenTelemetry 和 Colab notebook 示例的解决方案，以及 Arize 的文档。
多模态 OpenAI Agent 首次亮相：成员们讨论了将图像作为聊天消息传递给 OpenAIAgent，其中一人建议利用 OpenAI 的多模态能力。
- 另一人建议通过工作流 (workflows) 从头构建 Agent，或者修改 chatmemorybuffer 以将图像添加到请求中。
提出 Internet of Agents：一位成员分享了一篇关于构建 Internet of Agents (IoA) 以解决 Agentic AI 中互操作性问题的文章，详情见 [IoA]。
- 文章建议开放标准可以解锁包括 LlamaIndex 在内的跨生态系统的可组合性。

tinygrad (George Hotz) Discord

电子垃圾设备 vs Tinygrad Box: 一位用户质疑一台改装的、配备 4x 4090 的电子垃圾推理机（链接见此）与 Tinygrad Box 相比的价值。
- 针对该机器自制主板可能导致的 PCIe 错误 提出了担忧，估计其价值约为 1,000 美元加上 4090s 的成本。
Finite Field Assembly: CUDA 替代方案出现: 一位用户分享了 Finite Field Assembly，这是一个专为有限域计算设计的 CUDA 替代方案，扩展了 C89 并支持递归计算。
- 它利用素数的特性来并发地进行多个数组元素的乘法运算，例如在矩阵乘法中。
TinyGrad 内部机制公开！: 一位用户分享了关于 TinyGrad 内部机制 的详尽笔记，可在此处查看，内容涵盖了 UOps、ShapeTracker 和 Pattern Matcher，灵感源自 mesozoic-egg。
- 这些笔记通过对架构的深入探讨，对官方 TinyGrad 文档进行了补充。
ORT CPUExecutionProvider 静默转换 Float16！: 一位用户报告称，ORT CPUExecutionProvider 会针对 float16 模型 静默地将输入转换为 float32，使用 float32 进行计算，然后将输出转回 float16，这阻碍了 numpy 移除 工作。
- 该用户建议添加一个 envvar（环境变量），以便在他们的 ONNX 设置中复制此行为，用于测试和调试。
VAE tinygraining 起飞！: 一位成员一直在尝试使用 tinygrad 构建 VAE，并成功修改了 Huggingface 的 Diffusers 库 以适配 tinygrad。
- Stable Diffusion 中使用的 VAE 现在已经可以运行，代码可在此处获取。

Torchtune Discord

FP8 训练方案探索: 大多数 FP8 训练方案 (recipes) 实际上是 FP8 QAT，除非你只能在不支持 FP8 的 GPU（如 A100）上训练，在这种情况下你可以直接使用 FP8 训练。
- 下周五将举行 Torchtune 答疑时间 (office hours)，详情请见 Discord 链接。
Discord 时区功能终于搞定: 成员们讨论了 Discord 内部针对活动的时区自动转换功能。
- 一位成员分享了一个大脑迷因 GIF，以回应成功实现时区即时转换。
代码审查团队被要求加速: 一位成员请求对 PR #2441 进行最终审查以加快合并进程，因为所有检查均已通过。
- 另一位成员被提醒去审查该 PR。
GRPO 教授互联网搜索: 分享了一篇关于使用 GRPO 教授互联网搜索的论文 arxiv.org/pdf/2503.09516。
- 项目的其他细节尚未透露。

Cohere Discord

Command-R 展现极速性能: Command-R 模型被确认为最快且最通用的模型，默认使用 Command-A，但 playground 不支持更改模型。
- 用户被引导使用 API 来尝试不同的模型。
Aya-Vision 图片上传故障: 用户报告在 playground 中使用 Aya-Vision 上传图片时出现错误，且在 Hugging Face 上的 Aya Vision 演示有时需要超过 30 秒才能响应。
- 一位 Cohere 工作人员回应称，他们将调查其后端的延迟问题。
文档拼写错误导致 Bad Request: 一位用户报告了 Cohere 文档中的一个拼写错误，其中 train_epoch=1 应该是 train_epochs=1，导致了 BadRequestError。
- 一位 Cohere 工作人员确认了该拼写错误并发布了修复补丁。
独立游戏开发者转向 Cohere: 一位主要使用 C++ 结合图形和音频库的自学成才的独立游戏开发者介绍了自己，提到他们目前正在为朋友的网络动画系列开发一款浏览器游戏。
- 这位开发者已经开始使用 Cohere 作为其他大牌模型的替代方案。

Nomic.ai (GPT4All) Discord

Libre Wolf 安全性受关注：成员们讨论了 Libre Wolf 相较于 Firefox 的安全性，并对其优势提出了质疑。
- 对话并未给出定论，但强调了考虑浏览器安全性的重要性。
GPT4All 模型搜索功能缺失：一位用户报告在搜索 GPT4All 模型时遇到困难，并指出缺乏内置的搜索功能。
- 一名成员澄清说，本地模型列表搜索在过去 2 年里一直不是 GPT4All 的功能，并提供了 GitHub 上模型列表的链接。
文档导入模型寻求建议：一位成员请求推荐能够导入文档并回答问题的模型。
- 另一名成员分享了包含官方翻译的 GPT4All wiki，并建议对其他语言使用 Google Translate。
Llama3 8B Instruct 博客创作测试：一位用户询问 Llama3 8B Instruct 是否适合根据视频课程创建博客文章和网页。
- 讨论引发了关于 .bin 和 .gguf 文件之间的区别及其互换性的问题，但未就其是否适合写博客给出明确答案。

DSPy Discord

Pydantic 的 conint 触发验证：Pydantic 中的 conint 功能可以设置约束（例如 conint(ge=1, le=10)），但如果输出超出指定范围，则会抛出 ValidationError。
- 一位成员请求 DSPy 在验证失败时动态生成示例并重新发送请求，但目前该功能并未按预期运行。
MIPROv2 用户遭遇 RateLimitErrors 困扰：用户报告称，尽管在 Azure OpenAI 上使用 gpt-4o-mini 运行 MIPROv2 时设置了 num_threads=1，但由于 MIPROv2.compile() 会进行多次内部 API 调用，仍频繁出现 RateLimitErrors。
- 建议添加带有 sleep(30) 间隔的重试逻辑，降低 max_*_demos，并升级到具有内置速率限制功能的最新 DSPy 版本。
速率限制规避方案阻碍优化：用户发现，为了规避 RateLimitErrors 而减少 max_bootstrapped_demos 和 max_labeled_demos 会损害优化效果。
- 他们建议 DSPy 应该有更好的内部机制来管理 API 调用频率，因为 MIPROv2 和 Copro 中的结构化提示如果因 API 截断或速率限制导致 LLM 返回空输出，可能会引发错误。
签名格式为 a,b -> c：在 DSPy 中，签名被定义为 “a, b -> c”，其中 a、b 和 c 是具有实际意义的名称。
- 优化器随后会生成提示并在数据集上运行，以确定性能最佳的提示。

LLM Agents (Berkeley MOOC) Discord

DeepMind 工程师将进行 AlphaProof 讲座：Google DeepMind 的研究工程师 Thomas Hubert 将于 PDT 时间 3/31 上午 10 点展示 “AlphaProof：当强化学习遇到形式数学”，并在 YouTube 进行直播。
- 讲座将探讨计算机如何为 Birch and Swinnerton-Dyer 猜想等重大问题做出贡献；Hubert 拥有斯坦福大学数学硕士学位。
MOOC 讲座时间调整：今天的 LLM Agents MOOC 讲座移至 PST 时间上午 10 点，以配合来自英国的演讲者。
- 课程网站 (llmagents-learning.org/sp25) 和 Discord 服务器提供了 LLM Agents MOOC 的重要链接和讨论论坛。
讲座录像已上线：之前 LLM Agents MOOC 讲座的录像可以在课程网站和此 YouTube 播放列表中找到。
- 课程测验是基于完成情况的，这意味着只要尝试回答，分数并不重要。
提供 AgentX 学分：AgentX 提供学分资源，详情可在 AgentX 网站找到。
- 针对希望获得 AgentX 学分的人员，信息收集表将于本周发布。

MLOps @Chipro Discord

TMLS 2025 开启演讲嘉宾征集：演讲嘉宾征集 (Call for Speakers) 已为 2025 年 6 月举行的 Toronto Machine Learning Summit (TMLS) 开启。
- TMLS 2025 拥有 16 个专业方向 (tracks)，包括 Advanced RAG、Multimodal LLMs、AI Agents in Production、MLOps for Smaller Teams、Responsible AI Implementation 以及 GenAI Deployments。
MLOps 关注小团队：Toronto Machine Learning Summit 将设立专门为小团队设计的 MLOps track。
- 该方向为这些团队提供了一个交流经验并从 MLOps 领域其他专家处获取见解的平台。

Codeium (Windsurf) Discord 没有新消息。如果该社区长期保持沉默，请告知我们，我们将将其移除。

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该社区长期保持沉默，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该社区长期保持沉默，请告知我们，我们将将其移除。

第二部分：分频道详细摘要与链接

完整的各频道详细分析已在邮件中截断。

如果您想查看完整分析，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！预先感谢！

今日融资额超过 410 亿美元（OpenAI 估值 3000 亿，Cursor 95 亿，Etched 15 亿）