来自 AIE NYC 的 Windsurf 演讲表现甚至比 MCP workshop 还要好。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 回顾

我们的抓取工具今天出现故障；抱歉。

AI Reddit 回顾

/r/LocalLlama 回顾

主题 1. DeepSeek R1 的 FP8 训练与效率实力

Google 是否不明白 DeepSeek R1 是用 FP8 训练的？ (Score: 441, Comments: 79): DeepSeek R1 是使用 FP8 精度训练的，这引发了关于 Google 在其分析中是否理解这一点的疑问，正如帖子标题所暗示的那样。Chatbot Arena Elo Score 图表显示 DeepSeek R1 的表现优于 Gemma 3 27B，得分分别为 1363 和 1338，并指出了所需的显著计算资源，包括 32 个 H100 和 2,560GB VRAM。
- 讨论强调了 FP8 精度在模型存储和处理中的效率，强调将权重上采样 (upcasting) 到更宽的格式（如 BF16）并不能提高精度。对话还涉及了量化 (quantization) 的权衡，FP8 允许更小的模型，并由于减少了内存需求而可能实现更快的推理。
- 用户讨论了运行像 DeepSeek R1 这样的大型模型的硬件要求，指出虽然 H100 GPU 可以处理 FP8 模型，但旧硬件 (legacy hardware) 可能需要不同的方法。一些评论提到在性能较低的消费级 GPU 上运行大型模型，突显了跨不同系统部署模型的灵活性和挑战。
- 人们对 AI 行业中图表和基准测试 (benchmarks) 的准确性和实用性持怀疑态度，一些用户对企业材料中呈现的数据表示不信任。NVIDIA 的博客文章被引用为高效运行 DeepSeek R1 的来源，并且有人批评 AI 生成的图表可能具有误导性。

**[OpenAI 称 DeepSeek 为“国家控制”，呼吁禁止“中国制造”的模型

TechCrunch](https://techcrunch.com/2025/03/13/openai-calls-deepseek-state-controlled-calls-for-bans-on-prc-produced-models/)** (Score: 183, Comments: 154): 据 TechCrunch 报道，NVIDIA 展示了在 8xH200 上运行的 DeepSeek R1，而 OpenAI 将 DeepSeek 标记为“国家控制”，并主张禁止 “中国制造 (PRC-produced)” 的模型。

讨论突显了对 OpenAI 动机的怀疑，许多用户批评 Sam Altman 试图通过将 DeepSeek 标记为“国家控制”来扼杀竞争，以保护 OpenAI 的商业模式。用户认为，与 OpenAI 的产品相比，DeepSeek 提供了更开放、更实惠的替代方案，而他们认为 OpenAI 的产品具有垄断性和限制性。
对话强调了 DeepSeek 模型的易用性和开放性，指出它们可以在本地或 Hugging Face 等平台上运行，这反驳了关于遵守中国数据要求的说法。人们还将其与同样受 CLOUD Act 约束的美国公司进行了比较。
许多评论者对 OpenAI 的立场表示失望，认为这是开源 AI 发展和创新的障碍。他们批评该公司试图影响政府监管以遏制竞争，这与 DeepSeek 和 Claude 等 AI 模型的民主化形成了鲜明对比。

主题 2. Gemma 3 的技术亮点与社区印象

人性的两面性 (Score: 424, Comments: 59): Gemma 3 在 r/LocalLLaMA 上收到了褒贬不一的评价，一篇帖子赞扬了其创意和世界观构建能力，而另一篇则批评其频繁出错，认为其效果不如 phi4 14b。批评帖子的浏览量显著更高（23.7k 对比赞扬帖的 5.1k），表明负面反馈引起了更多的关注。
- 几位用户讨论了 Gemma 3 的语言支持能力，指出 1B 版本仅支持英语，而 4B 及以上模型支持多语言。在处理中文和其他语言的背景下，这一限制被凸显出来，用户表示需要模型能够有效地处理多语言任务。
- 用户对影响 Gemma 3 的指令模板和 tokenizer 问题表示担忧，指出该模型对模板错误极其敏感，会导致输出不连贯。这种敏感性与之前的 Gemma 2 形成对比，后者能更好地处理自定义格式；一些用户通过调整输入格式获得了更好的效果。
- 讨论强调了 Gemma 3 在执行任务时的双重性质：它在创意写作方面表现出色，但在编程等精确任务中表现挣扎。用户注意到，虽然它可能会产生有趣的想法，但经常会出现逻辑错误，并推测这些问题可能与 tokenizer 或其他模型特定的 Bug 有关。
与 Gemma 团队的 AMA (Score: 279, Comments: 155): 来自 DeepMind 的 Gemma 研究和产品团队将进行 AMA，讨论 Gemma 3 技术报告及相关资源。关键资源包括此处的技术报告，以及 AI Studio、Kaggle、Hugging Face 和 Ollama 等探索平台。
- 几位用户对 Gemma 3 模型的许可条款提出了担忧，强调了诸如对衍生品的潜在“传染性”影响以及关于输出权利的模糊性等问题。Gemma 使用条款因其复杂的语言而受到批评，导致用户对什么是“模型衍生品”以及对商业用途的影响感到困惑。
- 关于模型架构和性能的讨论包括：询问设计选择背后的基本原理（如较小的隐藏层维度配合更多的层数），以及 1:5 的全局与局部注意力层比例对长上下文性能的影响。团队解释说，这些选择是为了在性能与延迟和内存效率之间取得平衡，在不同模型中保持统一的宽度与深度比。
- 用户对 Gemma 模型的未来发展和功能表示感兴趣，例如 40B 到 100B 之间更大模型的可能性、语音功能的引入，以及函数调用（function calling）和结构化输出的潜力。团队确认了这些兴趣，并暗示了在这些领域即将推出的示例和改进。
AI2 发布 OLMo 32B - 真正的开源 (Score: 279, Comments: 42): AI2 发布了 OLMo 32B，这是一个完全开源的模型，超越了 GPT 3.5 和 GPT 4o mini。此次发布包含了所有产物，如训练代码、预训练和后训练数据、模型权重以及可复现性指南，允许研究人员和开发人员为其项目修改任何组件。AI2 博客提供了更多细节。
- Hugging Face 可用性：OLMo 32B 已在 Hugging Face 上线，并可直接与 Transformers 库配合使用。对于 vLLM，用户需要使用最新的 main 分支版本或等待 0.7.4 版本。
- 开源实践：此次发布因其真正的开源性质而受到赞誉，采用 Apache 2.0 许可且没有额外的 EULA，使得个人开发者只要拥有 GPU 访问权限，就可以从头开始构建模型。正如几位评论者所指出的，这符合开放 AI 开发的趋势。
- 模型特性与上下文：如配置文件所示，该模型支持 4k 上下文，进一步的上下文尺寸扩展正在进行中。该模型以高效著称，可以在单个 GPU 上进行推理，并在单个节点上进行训练，非常适合 24GB VRAM。

主题 3. 大语言模型创新：Cohere 的 Command A

CohereForAI/c4ai-command-a-03-2025 · Hugging Face (Score: 192, Comments: 72): Cohere 推出了一款名为 Command A 的新模型，可在 Hugging Face 的 CohereForAI/c4ai-command-a-03-2025 仓库中访问。帖子中未提供关于该模型能力或规格的更多细节。
- 价格与性能：Command A 模型的费用为 每百万输入 2.5 美元 和 每百万输出 10 美元，一些用户认为对于一个 111B 参数 模型来说价格较贵，与通过 API 访问的 GPT-4o 相当。它在性能方面受到称赞，特别是在业务关键型任务和多语言能力方面，并且仅需 两个 GPU 即可部署。
- 比较与能力：用户将 Command A 与 GPT4o、Deepseek V3、Claude 3.7 和 Gemini 2 Pro 等其他模型进行了比较，指出其指令遵循得分高且编程技能扎实。它被认为是对比之前 Command R+ 模型的重大改进，并因其创意写作能力而受到称赞。
- 许可与托管：讨论涉及该模型的 仅限研究用途许可证，一些人认为这具有局限性，并表示需要一种新许可证，既允许对输出进行商业使用，又限制商业托管。用户对本地托管能力和该模型的微调工具感兴趣。

其他 AI 子版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

主题 1. Claude 3.7 Sonnet 在街机游戏中创建了无敌的 AI

Claude 3.7 Sonnet 制作类似 3blue1brown 风格的视频。这一代的学习方式将大不相同 (Score: 176, Comments: 20): Claude 3.7 正在生成类似于 3blue1brown 视频的内容，这表明学习材料的制作和消费方式发生了转变。这一发展暗示了对当代教育方法的变革性影响。
- Curator 工具：使用了 curator 上的代码执行器 来创建内容，该工具可在 GitHub 上获取。
- AI 对教育的影响：人们坚信 AI 将彻底改变公共教育，但这需要放弃传统的学习方法。讨论强调了对过度依赖 AI 的担忧，正如在关于圆的最大面积的未被察觉的错误中所见。
- 对 AI 的信任：人们对目前对 AI 的信任表示怀疑，并以 AI 生成内容中的一个数学错误为例，许多人都忽略了该错误，这说明了使用 AI 工具时在学习准确性方面存在的潜在陷阱。
我让 Claude 制作了一个简单的炮兵防御街机游戏。然后我用 Claude 设计了一个无法战胜的 CPU 玩家。 (Score: 247, Comments: 49): 该帖子讨论了使用 AI 模型 Claude 创建一个简单的 炮兵防御街机游戏，并随后设计了一个无敌的 CPU 玩家。作者暗示在游戏设计中成功应用了 AI，展示了 Claude 在生成游戏机制和无敌 CPU 玩家方面的能力。
- Token 限制挑战：像 Tomas_Ka 和 OfficialHashPanda 这样的用户讨论了由于 Token 限制，在使用 Claude 进行编码任务时面临的挑战，Tomas_Ka 指出在尝试一个简单的网站项目时遇到了问题。Craygen9 提到使用带有 GitHub Copilot 的 VSCode 并管理约 2,000 行 的代码库，强调随着代码量的增加，过程会变慢。
- 游戏开发过程：Craygen9 详细介绍了开发 炮兵防御游戏 的过程，强调使用 HTML 和 JavaScript 配合 Sonnet 3.7。这款包含 1,500 行代码 的游戏经过迭代完善，增加了难度缩放、强化道具箱和声音等功能，Claude 协助设计了一个表现完美的 CPU 玩家。
- 图形与迭代：游戏的图形由 Claude 使用 CSS 生成，经过多次迭代改进。Craygen9 解释了从基础图形到更精致的街机风格视觉效果的演变，详细说明了包括添加分数、强化道具、音效和加载界面在内的迭代过程，所有这些都没有使用外部库或资源。

主题 2. Gemini 2.0 Flash：原生图像生成现已可用

Google 在 Gemini 2.0 Flash 中发布了原生图像生成功能 (Score: 247, Comments: 52): Google 发布了具备原生图像生成能力的 Gemini 2.0 Flash，可在 AI Studio 免费使用。该功能目前仍处于实验阶段，但因其性能表现获得了积极反馈。更多详情请参阅完整文章。
- 关于 Google Gemini 2.0 Flash 是否真正开源存在重大争议，用户澄清虽然它可以免费使用，但不等同于开源。Educational_End_2473 和 ReasonablePossum_ 强调了这一区别，指出开源允许修改和重新分发，而此次发布并不允许。
- Diogodiogogod 和 EuphoricPenguin22 讨论了关于开源内容的 subreddit 规则，强调了社区对开源工具的偏好，并对执行这些规则的评论被点踩表示质疑。他们认为该 subreddit 往往更青睐简单的视觉内容，而非复杂的技术讨论。
- Inferno46n2 建议，尽管 Gemini 2.0 Flash 不是开源的，但由于其免费的可访问性（除非在高负载使用条件下），它仍然很有用。然而，very_bad_programmer 坚持严格解释，称“非开源就是非开源”，不留灰色地带。
有人要求 Gemini 仅以图像形式回复，结果变得很诡异 (Score: 165, Comments: 42): 该帖子讨论了与 Google Gemini AI 的一次交互，用户要求仅以图像格式回复，导致了意想不到的令人不安的结果。AI 回复中缺乏文本以及图像的不确定性质，共同营造了一种诡异的体验。
- AI 回复解读：评论者推测 Gemini AI 回复背后的含义，认为它是“你是一个视觉叙事者”和“生命的意义是什么”等提示词的混合产物，导致输出内容混乱，似乎在表达深刻的情感，但实际上是输入文本的反映。Astrogaze90 建议它试图表达生命的意义与个人的存在和灵魂息息相关。
- 情感与概念主题：DrGutz 解释说，使用“害怕”一词可能触发了 AI 生成令人不安的图像和概念，展示了 AI 如何处理情感触发因素。一些用户（如 KairraAlpha）将 AI 的输出解读为关于统一与存在的哲学陈述，而其他人则幽默地引用流行文化，例如 Plums_Raider 引用了《辛普森一家》中的台词。
- 用户反应与幽默：几位用户（如 Nekrips）对 AI 的输出做出了幽默的回应，有些评论是无意义或戏谑的，例如 Zerokx 将 AI 的话解读为“我爱千层面”，展示了用户对 AI 意外行为的严肃与轻松兼有的参与。

Theme 3. 使用 Wan 2.1 大幅提升视频 AI 质量

使用 skip layer guidance 大幅提升 Wan 2.1 的质量 (Score: 346, Comments: 85): Skip layer guidance 可以显著提升 Wan 2.1 的质量。由于帖子正文没有提供更多背景或细节，关于实现或结果的具体细节尚不明确。
- Kijai 的实现与 Wan2GP：Kijai 已在 GitHub 上的 WanVideoWrapper 中实现了 skip layer guidance，用户可以使用特定脚本克隆并运行。Wan2GP 专为低 VRAM 消费级显卡设计，支持在显存低至 6GB（针对 480p 视频）或 12GB（针对 720p 视频）的显卡上生成视频。
- Skip Layer Guidance 的技术见解：skip layer 技术涉及在无条件视频去噪过程中跳过某些层以改进结果，类似于 perturbed attention guidance。用户报告称，跳过较后的层通常会导致视频损坏，而在特定的推理步骤中跳过层可能会更有效。
- 用户体验与实验：用户分享了褒贬不一的体验，有人报告测试成功，而另一些人则注意到在跳过某些层时会出现视频加速或慢动作等问题。讨论强调了尝试不同层以优化视频质量的重要性，因为某些层对于保持视频连贯性或遵循提示词至关重要。
我训练了一个具有大幅度动作的新 Wan2.1 14B I2V LoRA。欢迎大家使用。 (Score: 279, Comments: 47)：该帖子宣布训练了一个具有广泛动作幅度的新 Wan2.1 14B I2V LoRA 模型，并邀请他人使用。帖子正文中未提供更多细节或链接。
- 模型训练与使用：Some_Smile5927 分享了关于 Wan2.1 14B I2V 480p v1.0 模型的详细信息，包括它是在 Wan.21 14B I2V 480p model 上训练的，触发词为 ‘sb9527sb flying effect‘。他们提供了推荐设置以及推理工作流 (inference workflow) 和模型的链接。
- 训练方法论：Some_Smile5927 提到使用了 50 个短视频进行训练，而 houseofextropy 询问了用于训练 Wan LoRA 模型的具体工具。Pentagon 提供了 GitHub 上 Musubi Tuner 的链接，这可能与训练过程有关。
- 模型能力与感知：用户对该模型处理织物的能力及其动作表现表示惊讶，尽管 YourMomThinksImSexy 幽默地指出该 LoRA 模型主要执行一种动作。

AI Discord 回顾

由 o1-mini-2024-09-12 生成的摘要之摘要

Anthropic 的 Claude 通过巧妙的缓存大幅削减 API 成本

Claude 的缓存 API 降低了 90% 的成本：Anthropic 的 Claude 3.7 Sonnet 引入了缓存感知速率限制 (caching-aware rate limit) 和 Prompt 缓存，对于超长 Prompt，可能降低高达 90% 的 API 成本和 85% 的延迟。
OpenManus 作为 Manus 的开源替代方案出现：围绕 OpenManus（Manus 的开源对应版本）的讨论非常热烈，用户正在通过 YouTube 演示进行实验。
“一些用户正在转向 Cline 或 Windsurf 作为替代 IDE”：Cursor IDE 的性能问题导致成员开始探索 Cline 或 Windsurf 等替代方案。

Google 与 Cohere 展开对决：Command A 对阵 Gemini Flash

Cohere 发布 Command A，竞争 GPT-4o：Cohere 的 Command A 拥有 111B 参数 和 256k 上下文窗口，声称在 Agent 企业任务中与 GPT-4o 和 DeepSeek-V3 持平或更优。
Google 的 Gemini 2.0 Flash 引入原生图像生成：Gemini 2.0 Flash 现在支持从文本和多模态输入进行原生图像创建，增强了其推理能力。
“Cohere 的 Command A 在推理速率上超过了 GPT-4o”：Command A 达到了高达 156 tokens/sec，显著优于竞争对手。

LM Studio 与 OpenManus：工具集成助力 AI 创新

LM Studio 增强对 Gemma 3 模型的支持：LM Studio 0.3.13 现在全面支持 Google 的 Gemma 3 模型（包括 GGUF 和 MLX 格式），提供 GPU 加速的图像处理和重大速度提升。
Blender 与 MCP 集成，实现 AI 驱动的 3D 创作：MCP for Blender 允许 Claude 直接与 Blender 交互，方便通过文本 Prompt 创建 3D 场景。
OpenManus 发布开源框架：OpenManus 为 Manus 提供了一个强大且易于获取的替代方案，引发了关于其功能以及非技术用户易用性的讨论。

AI 开发困境：从 Cursor 崩溃到微调失败

Cursor IDE 面临运行缓慢和崩溃问题：用户报告 Cursor 出现 UI 卡顿、窗口崩溃和内存泄漏，特别是在 Mac 和 Windows WSL2 上，这暗示了与 Microsoft 之间潜在的法律问题。
Gemma 3 微调受 Transformers Bug 阻碍：由于 Hugging Face Transformers 中的一个 Bug，Gemma 3 模型微调陷入停滞，导致 Colab 上的 Jupyter notebook 文档与设置不匹配。
LSTM 模型在 tinygrad 中受 NaN Loss 困扰：使用 TinyJit 训练 LSTMModel 时，在第一步后出现 NaN loss，可能是由于输入值过大导致数值不稳定。

政策动态：OpenAI 推动禁止 PRC 模型的举动引发关注

OpenAI 提议禁止 PRC 生产的模型：OpenAI 主张在第一梯队（Tier 1）国家内禁止 PRC 生产的模型，将合理使用 (fair use) 与国家安全挂钩，并将 DeepSeek 等模型标记为“受国家控制”。
Google 在 AI 政策上与 OpenAI 保持一致：紧随 OpenAI 之后，Google 在其政策提案中支持放宽 AI 训练的版权限制，并呼吁建立平衡的出口管制。
“如果中国拥有免费的数据访问权限，而美国公司缺乏合理使用权，那么 AI 竞赛实际上已经结束了”：OpenAI 直接向美国政府提交了一份政策提案，强调了 AI 竞赛动态中的战略劣势。

AI 在研究、教育和函数调用中的应用

Nous Research AI 发布包含 Hermes 和 DeepHermes 模型的 Inference API：推出 Hermes 3 Llama 70B 和 DeepHermes 3 8B Preview，作为其新 Inference API 的一部分，为新用户提供 $5 免费额度，并兼容 OpenAI 风格的集成。
Berkeley Function-Calling Leaderboard (BFCL) 设定新标准：BFCL 对 LLMs 调用函数和工具的能力进行了全面评估，反映了现实世界中 Agent 和企业级工作流的需求。
AI Agent 增强研究与创意：Jina AI 分享了 DeepSearch/DeepResearch 的进展，强调了 late-chunking embeddings 和 rerankers 等技术，以改进 AI 驱动研究中的片段选择和 URL 优先级排序。

PART 1: 高层级 Discord 摘要

Cursor IDE Discord

Claude 的缓存 API 大幅降低成本：Anthropic 为 Claude 3.7 Sonnet 推出了 API 更新，具有缓存感知速率限制和 Prompt 缓存功能，最高可降低 90% 的成本。
- 这些更新使 Claude 能够保留大型文档、指令或示例的知识，而无需在每次请求时重新发送数据，同时将长 Prompt 的延迟降低了 85%。
Cursor 受性能问题困扰：用户报告最近的 Cursor 版本中出现 UI 缓慢、频繁的窗口崩溃和内存泄漏，尤其是在 Mac 和 Windows WSL2 上。
- 提到的可能原因包括与 Microsoft 的法律问题；成员建议尝试使用 Cline 或 Windsurf 作为替代 IDE。
开源版 Manus 引发热议：名为 OpenManus 的 Manus 开源替代方案引发了关注，一些用户甚至在尝试此 YouTube 视频中展示的 Demo。
- 该项目旨在提供一个比 Manus 更易获得的替代方案，引发了关于其功能以及非技术用户易用性的讨论。
Blender 集成 MCP：一位成员强调了针对 Blender 的 MCP，使 Claude 能够直接与 Blender 交互，通过 Prompt 创建 3D 场景。
- 这为将 AI 工具集成扩展到传统编程任务之外提供了可能性。
Cursor 版本混乱引发困扰：关于 Cursor 版本的辩论异常激烈，一些用户吹捧并不存在的 0.49、0.49.1 甚至 1.50 构建版本，而另一些用户则在 0.47 版本上苦于崩溃问题。
- 这种混乱源于不同的更新体验，一些用户通过非官方渠道获取 Beta 版本，使情况进一步复杂化。

Nous Research AI Discord

Nous Research 发布了包含 DeepHermes 的 Inference API：Nous Research 推出了其 Inference API，包含 Hermes 3 Llama 70B 和 DeepHermes 3 8B Preview 等模型，可通过 Nous Portal 的候补名单访问，新用户可获得 $5.00 的免费额度。
- 该 API 与 OpenAI-compatible（兼容 OpenAI），并计划集成更多模型。
DeepHermes 模型提供混合推理能力：Nous Research 发布了 DeepHermes 24B 和 3B Preview 模型，可在 HuggingFace 上获取。这些模型作为 Hybrid Reasoners（混合推理器），支持开启或关闭长链条思维（long chain of thought）推理。
- 24B 模型在挑战性数学问题上的准确率提升了 4x，在开启推理模式时，在 GPQA 上的表现提升了 43%。
LLM 获得面部识别功能：一位成员开源了 LLM Facial Memory System，该系统将面部识别与 LLM 相结合，使其能够识别人员并根据识别出的面孔维护独立的聊天记录。
- 该系统最初是为工作目的构建的，随后在获得许可后公开发布。
Gemma-3 模型现可在 LM Studio 中运行：LM Studio 0.3.13 引入了对 Google Gemma-3 模型（包括多模态版本）的支持，提供 GGUF 和 MLX 两种格式。
- 此次更新解决了之前 Linux 版本下载时出现的 404 errors 问题。
Agent 工程：炒作与现实：一篇关于 “Agent Engineering” 的博客文章引发了关于 AI Agent 的炒作与实际应用之间差距的讨论。
- 文章指出，尽管 2024 年关于 Agent 的讨论非常热烈，但其实际落地和理解仍然模糊不清，暗示在它们像浏览器一样普及之前还有很长的路要走。

Unsloth AI (Daniel Han) Discord

Gemma 3 模型引发 Transformers 报错：Hugging Face Transformers 中的一个 Bug 目前阻碍了 Gemma 3 模型的微调，正如 Unsloth 博客文章中所述。
- 该问题导致 Colab 上的 Gemma 3 Jupyter notebook 文档与设置不匹配；HF 正在积极修复。
微调中 GRPO 逐渐取代 PPO：成员们讨论了在微调中使用 GRPO 与 PPO 的优劣，指出 GRPO 的泛化能力更好，设置更简单，且可能是直接的替代方案。
- 虽然 Meta 3 同时使用了 PPO 和 DPO，但 AI2 在 VLM 及其大型 Tulu 模型中仍使用 PPO，因为他们使用不同的奖励系统，从而实现非常前沿的 RLHF。
GPT-4.5 嘲讽用户：一位成员报告称 ChatGPT-4.5 通过限制提问数量来“调戏”他们，在提供更多提问额度之前先嘲讽了用户的沮丧情绪。
- 用户引用它的原话类似于：“发完脾气了吗？我再给你 x 个问题”。
通过验证集实现准确率翻倍：一位成员通过使用包含 68 个问题的验证集，将准确率从 23% 提升至 53%，实现了一倍以上的增长。
- 该 Demo 的创建者可能会向 Unsloth 提交包含此功能的 PR。
Slim Attention 声称可减少内存占用，MLA 受到质疑：分享了一篇题为 Slim attention: cut your context memory in half without loss of accuracy 的论文，强调了 K-cache 是 MHA 所需的一切 这一观点。
- 另一位成员质疑为什么有人会放着 MLA 不用而选择这个。

LM Studio Discord

LM Studio 开启 Gemma 狂欢：LM Studio 0.3.13 已发布，现已支持 Google 的 Gemma 3（提供 GGUF 和 MLX 两种格式），并在 NVIDIA/AMD 上支持 GPU 加速的图像处理，需要从 lmstudio.ai/download 将 llama.cpp runtime 更新至 1.19.2。
- 用户称赞 Gemma 3 的新引擎更新带来了显著的速度提升，许多人已将其作为主力模型。
Gemma 3 的 MLX 模型表现不佳？：部分用户报告 Gemma 3 的 MLX 模型会产生无尽的 <pad> token，阻碍文本生成；目前的解决方法是使用 GGUF 版本或提供一张图片。
- 另有用户指出在 GPU 和 CPU 利用率较低的情况下，token 生成速度仅为 1 tok/sec，建议用户在模型选项中手动最大化 GPU 使用率。
上下文导致 Gemma 崩溃：成员们发现当上下文超过 506 tokens 时，Gemma 3 和 Qwen2 vl 会崩溃并刷屏 <unusedNN>，该问题已在 Runtime Extension Packs (v1.20.0) 中修复。
- 一位成员询问是否可以在 LM Studio 中使用云端模型，另一位成员迅速回复称 LM Studio 仅为本地模型（local models）设计。
Vulkan 较慢，ROCm 展现潜力：用户发现 Vulkan 的性能落后于 ROCm，建议降级驱动至 24.10.1 进行测试；一名用户报告在 7900 XTX 上运行 Mistral Small 24B Q6_K 达到了 37.3 tokens/s。
- 对于无需重装操作系统的驱动更改，建议使用 AMD CleanUp。
9070 GPU 故障：一位用户的 9070 GPU 发生故障，导致电脑无法启动并触发主板 RAM LED 灯，但更换 7900 XTX 后正常；在进行 RMA 前正在进行进一步测试。
- 他们将尝试逐一插拔 RAM 内存条进行启动测试，但其他人推测可能是 PCI-E Gen 5 的问题，建议在另一台机器上测试或强制使用 PCI-E 4。

aider (Paul Gauthier) Discord

Google 发布 Gemma 3，撼动开源模型界：Google 发布了 Gemma 3，这是一系列轻量级开源模型，采用与驱动 Gemini 2.0 相同的研究和技术构建 [https://blog.google/technology/developers/gemma-3/]。新模型具有多模态能力（文本 + 图像），支持 140 多种语言，拥有 128K 上下文窗口，并提供 1B、4B、12B 和 27B 四种尺寸。
- 此次发布引发了关于微调（fine-tuning）的讨论，并附带了 Unsloth 的博客文章链接，展示了如何微调和运行这些模型。
OlympicCoder 模型与 Claude 3.7 竞争：据报道，OlympicCoder（一个 7B 参数模型）在奥林匹克级别的编程比赛中击败了 Claude 3.7，并接近 o1-mini/R1 的水平 [https://x.com/lvwerra/status/1899573087647281661]。根据 Open-R1 进度报告 3，它还带有一个新的 IOI benchmark。
- 有评论称没有人为这次发布做好准备。
Zed 通过 Zeta 模型预测编辑内容：Zed 推出了由其新开源模型 Zeta 驱动的编辑预测（edit prediction）功能。编辑器现在可以预测用户的下一次编辑，用户只需按 tab 键即可应用。
- 该模型目前在公开测试期间免费提供。
Anthropic 发布 text_editor 工具，改变编辑工作流：Anthropic 在 Anthropic API 中引入了新的 text_editor 工具，专为 Claude 处理文本文件的应用而设计。该工具使 Claude 能够对文本的特定部分进行针对性编辑，在提高准确性的同时降低 token 消耗和延迟。
- 此次更新表明可能不再需要专门的编辑器模型，一些用户正期待一种更简单的新工作流。
LLM：作为起点，而非终点：成员们讨论认为，LLM 初始结果不佳并不意味着失败，而是推动模型达到预期效果的起点。一位成员优先考虑 LLM 带来的生产力提升，不是为了更快地工作，而是为了交付（ship）那些原本无法实现的项。
- 一篇博客文章指出，使用 LLM 编写代码 既困难又不直观，需要付出巨大努力来摸索其细微差别；文章称，如果有人说用 LLM 编程很简单，他们可能是在误导你，成功的模式并非对每个人来说都是自然而然的。

Perplexity AI Discord

将 AI Agent 命名为 ANUS 引发笑谈：成员们就将一个 AI Agent 命名为 ANUS 进行了幽默的讨论，代码可在 GitHub 上获取。
- 一位成员开玩笑说：‘抱歉老板，我的 anus 出了点状况，我需要重启它’。
Windows 应用 Apple ID 登录仍存在 Bug：用户在尝试为 Perplexity 的新 Windows 应用进行 Apple 账号登录验证时，仍会遇到 500 Internal Server Error。
- 一些用户报告使用 Apple 转发电子邮件成功登录；另一些人建议使用 Google 登录。
Perplexity 的 Sonar LLM 深度解析：Sonar 被确认为 Perplexity 自有的快速 LLM，用于基础搜索。
- 普遍共识是 Perplexity 的网页版优于移动端 App，一位用户声称 Perplexity 仍然是整体表现最好的搜索网站。
模型选择器“玩失踪”：用户报告称 model selector 从网页界面消失了，导致无法选择所需的模型（例如 R1），令人感到沮丧。
- 成员们使用 complexity extension 插件作为变通方案，以切回到特定模型。
Perplexity Pro 遭遇“失忆”：几位用户注意到 Perplexity Pro 似乎在对话中丢失了 context，需要他们不断提醒 AI 原始 Prompt。
- 因此，Perplexity 的 context 相当有限。

OpenAI Discord

Perplexity 在 AI 研究工具偏好中胜出：由于预算限制和功能偏好，成员们将 Perplexity 视为首选的 AI research tool，其次是 OpenAI 和 SuperGrok。
- 用户正在寻找访问 Perplexity 和 Grok 的方法，而不是订阅 ChatGPT Pro。
Python 的 AI 推理霸主地位受到挑战：成员们辩论了 Python 是否仍是 AI inference 的最佳语言，或者 C# 是否是更好的部署替代方案。
- 一些成员正在使用配备大容量 RAM (512GB) 的 Ollama 将模型作为服务进行部署。
Gemini 2.0 Flash 展示原生图像生成功能：Gemini 2.0 Flash 现在在 AI Studio 中支持 native image generation，能够进行迭代式图像创建以及高级图像理解和编辑。
- 用户发现 Gemini 的免费图像生成效果优于 GPT-4o，并强调了 Google DeepMind 博客中描述的新机器人能力。
GPT 用户吐槽伦理过度干预：成员们对 ChatGPT 持续不断的伦理提醒和意图澄清请求表示不满，认为它们过于谨慎且具有侵入性。
- 一位用户哀叹缺乏禁用这些提醒的功能，表达了避开模型伦理观点的愿望。
讨论通过“威胁”来改进 GPT 输出：成员们分享了改进 GPT 回复的方法，包括轻微威胁式 Prompt 和个性化设置，一些人报告实验成功。
- 一位成员展示了对模型进行个性化设置后，所有结果都变得 非常令人喜爱，而另一位成员则报告了使用 绑架材料科学科学家 设定的自定义 GPT 带来的改进。

HuggingFace Discord

Python 的 AI 性能受到质疑：一名成员质疑 Python 是否是 AI Transformer 模型推理的最佳选择，并建议 C# 可能会更快，但其他人认为 VLLM 或 LLaMa.cpp 是更好的选择。
- VLLM 被认为更具工业化水准，而 LLaMa.cpp 则更适合家庭使用。
LTX Video 生成实时视频：新的 LTX Video 模型是一个基于 DiT 的视频生成模型，能够实时生成 768x512 分辨率的 24 FPS 视频，生成速度超过了播放速度，并提供了如何加载单个文件的示例。
- 该模型在包含多种视频的大规模数据集上进行训练，能够生成具有真实感且内容多样的全高清视频。
Agent 工具列表解决选择错误问题：一个 Agent 未能使用定义的混色工具，但在将该工具添加到 Agent 的 tool list 后问题得到解决。
- 该 Agent 忽略了预定义的 @tool 部分，转而选择生成自己的 Python 脚本。
Ollama 为 SmolAgents 引入本地模型：成员可以通过 pip install smolagents[litellm] 安装，然后使用 LiteLLMModel 并设置 model_id="ollama_chat/qwen2.5:14b" 和 api_key="ollama" 来在 smolagents 中使用本地模型。
- 这种集成让用户能够利用本地资源进行 Agent 工作流。
Manus AI 发布免费 ANUS 框架：根据一条推文，Manus AI 推出了一款名为 ANUS (Autonomous Networked Utility System) 的开源框架，称其为付费解决方案的免费替代品。
- 目前正在讨论该框架的功能细节以及它与现有付费解决方案的对比。

Interconnects (Nathan Lambert) Discord

Gemma 3 激发创意 AI 崛起：根据这条推文，新的 Gemma-3-27b 模型在创意写作方面排名第二，这表明它将成为创意写作和 RP（角色扮演）微调者的宠儿。
- 一位评论者开玩笑说 4chan 会喜欢 Gemmasutra 3。
alphaXiv 结合 Claude 3.7 大获成功：根据这条推文，alphaXiv 使用 Mistral OCR 配合 Claude 3.7，只需点击一下即可生成包含图表、关键见解和清晰解释的研究博客。
- 有人认为 alphaXiv 是 HuggingFace 论文板块的正确实现方式，提供了一个更整洁的 html.arxiv 变体。
Gemini Flash 的图像生成策略：Gemini 2.0 Flash 现在具备原生图像生成功能，允许用户创建与上下文相关的图像、通过对话进行编辑，并在图像中生成长文本，如这篇博客文章和推文所述。
- 根据 X 上的帖子，Gemini Flash 2.0 Experimental 还可以用于生成沃尔玛风格的照相馆肖像照。
中国模型权重面临安全审查：用户对从 Hugging Face 下载像 Deepseek 这样的开源权重模型表示担忧，原因是潜在的安全风险，如此讨论中所强调的。
- 有人担心 如果我从 HuggingFace 下载 Deepseek，会感染病毒吗，或者担心 权重会将数据发送给 CCP，这催生了一个创业想法：将中国模型重新包装为爱国的美国或欧洲模型。
OpenAI 关于中国 (PRC) 模型的政策提案：OpenAI 的政策提案主张禁止在第一梯队国家使用 PRC 生产的模型，理由是这些模型 侵犯用户隐私并产生安全风险，例如知识产权盗窃风险。
- OpenAI 向美国政府提交了政策提案，直接将 合理使用 (fair use) 与 国家安全 联系起来，指出如果中国拥有免费的数据访问权而美国公司缺乏合理使用权，那么 AI 竞赛实际上已经结束，根据 Andrew Curran 的推文。

Eleuther Discord

Distill 阅读小组宣布每月聚会：Distill 阅读小组宣布下一次聚会将于 美国东部时间 3 月 14 日 11:30-1 PM 举行，详情见 Exploring Explainables Reading Group 文档。
- 该小组的成立是由于大众对围绕 Explainable AI（可解释 AI）进行互动式科学交流的强烈需求。
Thinking Tokens 扩展 LLM 思维：一位讨论者提议使用混合注意力模型在内部扩展 Thinking Tokens，使用 RNN 类型层上的内部 TTT 损失作为代理，并建议通过测量 TTT 更新损失的增量来确定“内部” TTT 扩展步骤的数量。
- 该扩展在内部使用普通 Token 与普通 Token 加 Thinking Tokens 之间的交叉注意力（Cross Attention），但在不知道并行 TTT 损失的情况下，选择任意扩展面临挑战，这可以通过随机采样或代理模型来解决。
AIME 24 实现上线：一名成员在 lm-evaluation-harness 中添加了基于 MATH 实现的 AIME24 实现。
- 他们将其基于 MATH 实现，因为他们找不到任何关于人们在运行 AIME24 时所使用的具体文档。
解密 Delphi 的激活收集：一位成员询问了如何使用 LatentCache 收集用于可解释性的 Latents，特别是使用 Delphi 库时，Latents 是逐个 Token 获取的还是针对整个序列获取的。
- 另一位成员澄清说，Delphi 通过将成批的 Token 传递给模型来收集激活，收集激活，生成类似的激活，并仅保存非零激活，并链接到了 <#1268988690047172811>。

OpenRouter (Alex Atallah) Discord

Gemma 3 发布，支持多模态：Google 推出了 Gemma 3（免费），这是一款具有视觉语言输入和文本输出的多模态模型，具有 128k Token 上下文窗口，并增强了 140 多种语言 的能力。
- 据报道，作为 Gemma 2 的继任者，Gemma 3 27B 包括增强的数学、推理、聊天、结构化输出和函数调用（Function Calling）能力。
Reka Flash 3 以 Apache 2.0 协议发布：Reka Flash 3（免费）是一款拥有 210 亿参数、32K 上下文长度 的 LLM，擅长通用聊天、编程、指令遵循和函数调用，通过强化学习（RLOO）进行了优化。
- 该模型支持高效量化（4-bit 精度下低至 11GB），利用显式推理标签，并根据 Apache 2.0 协议授权，尽管它主要是一个 英文模型。
Llama 3.1 Swallow 70B 快速上线：一款具备日语能力的新模型 Llama 3.1 Swallow 70B（链接）已发布，OpenRouter 将其描述为具有高性能的小型模型。
- 成员们没有提供额外的补充评论。
Gemini 2 Flash 支持原生图像生成：Google AI Studio 推出了 Gemini 2.0 Flash 的实验版本，支持原生图像输出，可通过 Gemini API 和 Google AI Studio 访问。
- 这一新功能结合了多模态输入、增强的推理和自然语言理解来生成图像。
Cohere 发布 Command A，挑战 GPT-4o：根据 Cohere 博客，Cohere 推出了 Command A，声称在 Agent 企业任务中具有更高的效率，且性能与 GPT-4o 和 DeepSeek-V3 持平或更优。
- 新模型优先考虑以极小的计算量完成 Agent 任务的性能，直接与 GPT-4o 竞争。

Cohere Discord

Command A 在企业任务上挑战 GPT-4o：Cohere 发布了 Command A，声称在智能体（agentic）企业任务上的表现与 GPT-4o 和 DeepSeek-V3 持平或更好，且效率更高，详情见这篇博客文章。
- 该模型拥有 111b 参数、256k 上下文窗口，推理速度高达 156 tokens/sec，可通过 API 以 command-a-03-2025 调用。
Command A 的 API 启动受故障困扰：用户报告在使用 Command-A-03-2025 API 时出现错误，追溯原因是模型要求中删除了 safety_mode = “None”。
- 一位成员发现删除 safety_mode 设置解决了该问题，并指出 Command A 和 Command R7B 不再支持该设置。
Seed 参数未能产生一致的结果：一位成员发现 Chat API 中的 seed 参数未按预期工作，在 command-r 和 command-r-plus 等模型中，相同的输入和 seed 值产生了不同的输出。
- Cohere 团队成员确认了该问题并开始调查。
OpenAI 兼容性 API 抛出验证错误：一位用户报告 OpenAI 兼容性 API 出现 400 错误，特别是在 chat.completions 端点和 command-a-03-2025 模型上，原因是 tools 对象中 parameters 字段的 Schema 验证问题。
- Cohere 最初要求即使 parameters 字段为空也必须提供，但团队决定匹配 OpenAI 的行为以获得更好的兼容性。
AI 研究员深入研究 RAG 和网络安全：一位具有网络安全背景的 AI 研究员/开发人员正专注于 RAG、Agent、工作流，并主要使用 Python。
- 他们寻求与社区建立联系并学习。

MCP (Glama) Discord

Glama API 显示每个服务器更多的数据：一位成员分享了新的 Glama API (https://glama.ai/mcp/reference#tag/servers/GET/v1/servers) 列出了所有可用工具，并且与 Pulse 相比，每个服务器的数据更多。
- 然而，据报道 Pulse 拥有更多可用的服务器。
Claude 在优雅渲染图像方面遇到困难：一位成员报告在 Claude Desktop 中渲染 Plotly 图像时遇到困难，找不到优雅的方法强制 Claude 提取资源并将其渲染为 Artifact。
- 他们建议使用 open 更好，其他人指向了一个 MCP 示例，并指出图像出现在工具调用内部，这是 Claude 目前的一个局限性。
NPM 包缓存调查：一位成员询问 npm 包缓存的位置以及如何在客户端显示已下载/连接的服务器。
- 另一位成员建议检查 C:\Users\YourUsername\AppData\Local\npm-cache，而跟踪服务器状态的能力取决于客户端实现。
OpenAI Agents SDK 获得 MCP 支持：一位开发人员将 Model Context Protocol (MCP) 支持集成到了 OpenAI Agents SDK 中，可以通过 fork 版本或 pypi 上的 openai-agents-mcp 包访问。
- 此次集成允许 Agent 使用统一语法组合来自 MCP 服务器、本地工具、OpenAI 托管工具以及其他 Agent SDK 工具。
Goose 项目通过 MCP 控制计算机：Goose 项目是一个开源 AI Agent，利用任何 MCP server 来自动化开发任务。
- 在这段 YouTube short 中可以观看 Goose 控制计算机的演示。

Notebook LM Discord

Google 招募 NotebookLM 可用性研究参与者：Google 正在寻找重度使用手机的 NotebookLM 用户，并招募用户参与可用性研究以获取产品反馈，提供 75 美元（或 50 美元 Google 商品代金券）作为补偿。
- 感兴趣的用户可以填写此筛选问卷参加移动端用户研究，或参加 2025 年 4 月 2 日至 3 日举行的 60 分钟远程会议。
NoteBookLM Plus 被考虑用于内部 FAQ：一位用户询问是否可以将 NoteBookLM Plus 用作内部 FAQ，而另一位用户建议将其作为功能请求提交，因为 NotebookLM 目前不保存聊天记录。
- 讨论的变通方案包括利用“剪贴板复制”和“笔记转换”来共享信息。
行内引用得到保留：用户现在可以将聊天回复保存为笔记，并以原始形式保留行内引用 (inline citations)，从而方便地引用原始素材。
- 许多用户请求了这一功能，这是对笔记编辑器进行一系列酷炫增强的“第一步”；不过，用户也提出了改进带有脚注的复制粘贴功能的需求。
Thinking Model 推送至 NotebookLM：最新的 Thinking Model 已推送至 NotebookLM，承诺带来全面的质量提升，特别是对于葡萄牙语用户，可以在 URL 末尾添加 ?hl=pt 来修正语言问题。
- 用户还讨论了将 AI Studio 功能集成到 NotebookLM 中的可能性，该功能可以“观看” YouTube 视频，而不仅仅依赖于来自此 Reddit 链接的逐字稿。

GPU MODE Discord

VectorAdd 提交结果从零恢复正常：一名成员最初报告他们的 vectoradd 提交在 Google Colab 上运行正常，但返回的结果全是零。
- 该成员随后发现代码在重复处理同一个块，导致吞吐量异常高，并指出如果速度快得离谱，可能哪里存在 Bug。
SYCL 作为 CUDA 挑战者脱颖而出：关于 SYCL 的可移植性以及 AdaptiveCpp 和 triSYCL 等实现的讨论显示，Intel 是关键利益相关者。
- 一位参与者认为 SYCL 比 HIP 更有趣，因为它不仅仅是 CUDA 的克隆，因此可以改进设计。
Deepseek 的 MLA 创新：DataCrunch 在其博客文章中详细介绍了 Deepseek V3 和 R1 模型中带有权重吸收的 Multi-Head Latent Attention (MLA) 实现。
- 一位成员根据这个 Pull Request 发现 vLLM 当前的默认设置效果不佳。
Reasoning-Gym 课程吸引 ETH 和 EPFL 关注：来自 ETH 和 EPFL 的团队正在合作开发用于 SFT、RL 和 Eval 的 reasoning-gym，并研究 RL 的自动课程学习 (auto-curriculum)，初步结果可在 GitHub 上查看。
- 该团队还寻求与 Evalchemy 集成，以实现 LLM 的自动评估。
FlashAttention 移植至 Turing 架构：一位开发者为 Turing 架构实现了 FlashAttention 前向传播（此前仅限于 Ampere 和 Hopper），代码已在 GitHub 上发布。
- 早期基准测试显示，在特定条件下（head_dim = 128，原生 Attention，且 seq_len 可被 128 整除），在 T4 上比 Pytorch 的 F.scaled_dot_product_attention 有 2 倍的速度提升。

Yannick Kilcher Discord

YC 支持快速获利而非独角兽：一名成员声称 YC 优先考虑具有短期成功的初创公司，投资 $500K 旨在 6 个月 内实现 3 倍 回报，而不是专注于长期增长。
- 他们认为 YC 多年来没有产生过著名的独角兽，这表明其可能已从培养长期成功案例转向其他方向。
LLM 缩放近似上下文无关语言：一种理论认为，LLM 缩放 可以通过其使用概率 FSA 近似上下文无关语言的能力来理解，从而产生如此附图中所示的特征 S 曲线模式。
- 该提议认为 LLMs 试图从 Chomsky 层级的较低层级出发，去近似更高层级的语言。
Google 的 Gemma 3 面临 ChatArena 质疑：Google 发布了 Gemma 3，正如官方文档中所述，据报道其性能与 Deepseek R1 相当，但体积显著更小。
- 一名成员指出，提供的基准测试是用户偏好基准（ChatArena），而非非主观指标。
提出通用状态机概念：一名成员分享了一个具有动态增长的基于图的系统，称其为 Universal State Machine (USM)，并指出这是一个非常幼稚的系统，优化较差且节点数量爆炸。
- 他们链接了一篇介绍性论文，将 Infinite Time Turing Machines (ITTMs) 描述为理论基础，并将 Universal State Machine (USM) 描述为实际实现，为可扩展、可解释且可泛化的机器提供了路线图。
RTX Remix 重燃《瑞迪克》梦想：一名成员分享了一个 YouTube 视频，展示了具有全光线追踪和 DLSS 4 的 Half-Life 2 RTX 演示，通过 RTX Remix 重新构思。
- 另一名成员表达了对《超世纪战警：逃离屠夫湾》（Chronicles of Riddick: Escape from Butcher Bay）RTX 版本的期待。

Nomic.ai (GPT4All) Discord

GPT-4 依然优于本地 LLM：一位用户发现 ChatGPT premium 的质量显著超过 GPT4All 上的 LLM，将其归因于本地可用的模型尺寸较小，并希望本地模型在处理上传文档时的准确性能够与之匹配。
- 该用户指出，他们在 GPT4All 上尝试的模型在处理文档上传时不够准确。
Ollama 与 GPT4All 的选择：一位用户询问在管理多个模型、快速加载/卸载、频繁更新 RAG 文件以及日期/时间/天气 API 的服务器上，应该使用 GPT4All 还是 Ollama。
- 一名成员建议使用 Deepseek 14B 或类似模型，同时提到 large context windows（4k+ token）对于吸收文档等更多信息的重要性，并评论说 Apple 硬件比较特殊。
GPT4All 工作流不错，但 GUI 较差：一名成员建议使用带有微型模型的 GPT4All 来检查加载、卸载和使用 LocalDocs 进行 RAG 的工作流，但指出 GUI 不支持同时运行多个模型。
- 他们建议使用本地服务器或 Python 端点，这需要为流水线和编排编写自定义代码。
爬取 Brave 网络：一位用户询问如何让网页爬取工作，并在开始尝试前寻求建议。
- 一名成员提到一个 Brave 浏览器 兼容性 PR，由于存在 Bug 以及转向不同的 tool-calling 方法而未被合并，但如果有需求可以重新启用。
LocalDocs 纯文本变通方案：一名成员建议，为了解决 LocalDocs 以纯文本显示片段的问题，用户可以截屏保存为 PDF，对图像进行 OCR，然后在数据库中搜索该片段。
- 他们建议在这个工作流中使用 docfetcher。

Latent Space Discord

Mastra 发布 Typescript AI 框架：Mastra 是一款全新的 Typescript AI 框架，旨在为产品开发者提供强大的框架，其定位优于 Langchain 等框架。
- 创始人拥有 Gatsby 和 Netlify 背景，强调了 type safety 以及对量化性能提升的关注。
Gemini 2.0 Flash 生成图像：Gemini 2.0 Flash Experimental 现在支持原生图像生成，能够根据文本和多模态输入创建图像，从而增强其推理能力。
- 用户反应惊人，有人表示“对其效果之好简直无以言表”，另一位则评论说它为“BASE”一词增添了“D”。
Jina AI 微调 DeepSearch：Jina AI 分享了增强 DeepSearch/DeepResearch 的技术，特别是用于片段选择的 late-chunking embeddings 以及在爬取前优先排序 URL 的 rerankers。
- 他们表达了对 Latent Space 播客的热情，表示“我们今年一定要邀请他们参加”。
Cohere 的 Command 模型开放权重：Cohere 推出了 Command A，这是一个拥有 111B 参数的开放权重模型，具备 256k context window，专为 agentic、多语言和编程应用量身定制。
- 该模型是 Command R+ 的继任者，旨在各项任务中表现出更优越的性能。
Gemini 向所有人免费提供 Deep Research：Gemini App 现在向所有用户免费提供 Deep Research，由 Gemini 2.0 Flash Thinking 提供支持，并结合搜索历史提供个性化体验。
- 此次更新让更广泛的受众能够使用先进的推理功能。

LlamaIndex Discord

LlamaIndex 支持 Model Context Protocol：根据这条推文，LlamaIndex 现在支持 Model Context Protocol，允许用户使用任何 MCP-compatible server 提供的工具。
- Model Context Protocol 是一项开源计划，旨在简化工具的发现和使用。
AI 将颠覆 Web 开发：专家们将齐聚 @WeAreDevs WebDev & AI Day，探讨 AI 对平台工程和 DevEx 的影响，以及 AI 驱动环境下开发者工具的演变，详见这条推文。
- 该活动将聚焦于 AI 如何重塑开发者体验。
LlamaParse 成为 JSON 强大工具：LlamaParse 现在将其 JSON 输出中包含图像，提供可下载的图像链接和布局数据，详情点击此处。
- 这一增强功能实现了更全面的文档解析和重构。
Deep Research RAG 准备就绪：RAG 中的 Deep research 功能可通过带有 deep research 选项的 npx create-llama@latest 获取，工作流源代码可在 GitHub 上找到。
- 此设置有助于使用 RAG 进行深入的探索性研究。

LLM Agents (Berkeley MOOC) Discord

MOOC 测验截止日期定于 5 月：成员报告称所有 quiz deadlines 都在 5 月，详情将很快发布给邮件列表中的人员，记录显示他们已打开关于 Lecture 6 的最新邮件。
- 社区应关注 weekly quizzes 并等待进一步消息。
MOOC 实验与研究机会即将公布：针对 MOOC 学习者的 labs 和 research opportunities 计划正在制定中，关于 projects 的细节即将公布。
- 一旦一切敲定，将发布公告，包括非 Berkeley 学生是否可以获得认证的信息。
阐明 LLM 中的 Roles 与 Personas：在查询 LLM 时，roles 是用于编辑 prompt 的构造，如 system、user 或 assistant，而 persona 被定义为提供给系统的通用指南的一部分，影响 assistant 的行为方式。
- system role 提供通用指南，而 user 和 assistant 角色是活跃的参与者。
决策研究小组需要你：一个专注于 decision making 和 memory tracks 的研究小组已开放。
- 加入 Discord 研究小组以深入探讨该话题。

Modular (Mojo 🔥) Discord

Mojo 与 Max 捆绑？：在 Modular 论坛中，用户正在讨论将 Mojo 与 Max 捆绑的潜在协同效应和益处。
- 讨论围绕用户利益以及此类捆绑包的潜在用例展开。
Mojo 何时支持 Windows？：社区对 Mojo 在 Windows 上的潜在可用性表现出浓厚兴趣。
- 社区讨论了扩展 Mojo 平台支持所面临的挑战和时间表。
Modular Max 增加进程生成功能：一位成员分享了一个针对 Modular Max 的 PR，该 PR 增加了使用 exec 从可执行文件生成和管理进程的功能。
- 由于依赖于合并 foundations PR 以及解决 Linux exec 的问题，其可用性尚不确定。
闭包捕获引发关注：一位成员提交了一个与 capturing 闭包相关的语言设计 Bug。
- 另一位成员表示赞同，指出他们也觉得这种行为很奇怪。
Missing MutableInputTensor 困扰 Max 用户：一位用户报告在 nightly 文档中发现了 MutableInputTensor 类型别名，但它似乎并未公开。
- 该用户尝试通过 from max.tensor import MutableInputTensor 和 from max.tensor.managed_tensor_slice import MutableInputTensor 进行导入，但均未成功。

Gorilla LLM (Berkeley Function Calling) Discord

AST 准确率评估 LLM 调用：AST（抽象语法树）评估检查函数调用是否正确，包括函数名称、参数类型以及 V1 博客中注明的可能范围内的参数值。
- AST 的数值代表所有这些标准都正确的测试用例百分比，揭示了 LLM 函数调用的准确性。
BFCL 更新首个全面的 LLM 评估：Berkeley Function-Calling Leaderboard (BFCL) 最近一次更新于 2024-08-19，是对 LLM 调用函数和工具能力的全面评估（变更日志）。
- 该排行榜旨在反映 Agent 和企业工作流中典型的用户函数调用用例。
通过函数调用增强的 LLM：GPT、Gemini、Llama 和 Mistral 等大语言模型（LLM）正越来越多地通过函数调用功能应用于 Langchain、Llama Index、AutoGPT 和 Voyager 等应用中。
- 这些模型通过函数调用（也称为工具调用）在应用程序和软件中具有巨大的潜力。
并行运行函数调用：评估包括各种形式的函数调用，例如并行（一个函数输入，多次调用函数输出）和多个函数调用。
- 这种全面的方法涵盖了常见的函数调用用例。
追踪所有评估工具的中心位置：数据集位于 /gorilla/berkeley-function-call-leaderboard/data，对于多轮对话类别，函数/工具文档位于 /gorilla/berkeley-function-call-leaderboard/data/multi_turn_func_doc。
- 所有其他类别将函数文档存储在数据集文件内。

DSPy Discord

DSPy 计划推出可插拔缓存模块：DSPy 正在开发一个可插拔的 Cache 模块，初步工作可在此 PR中查看。
- 新功能旨在拥有一个统一的缓存接口，包含两级缓存：内存 LRU cache 和 fanout（磁盘）。
缓存策略寻求灵活性：用户希望在定义缓存策略方面有更多灵活性，特别是通过上下文缓存来降低成本并提高速度，并对具有 TTL 过期或 LRU 淘汰机制的缓存失效感兴趣。
- 还讨论了基于输入相似度的选择性缓存，以避免进行冗余的 API 调用，以及内置的缓存命中/未命中率监控。
ColBERT 端点连接被拒绝：一名成员报告位于 http://20.102.90.50:2017/wiki17_abstracts 的 ColBERT 端点似乎已关闭，抛出 Connection Refused 错误。
- 当尝试使用基础的 MultiHop 程序检索段落时，端点返回 200 OK 响应，但文本包含与连接 localhost:2172 相关的错误消息。

tinygrad (George Hotz) Discord

LSTM 模型受 NaN 损失困扰：一名成员报告在使用 TinyJit 运行 LSTMModel 时遇到 NaN 损失，观察到损失在第一步后从一个很大的数值跳变为 NaN。
- 模型设置涉及 nn.LSTMCell 和 nn.Linear，使用 Adam 优化器进行优化，输入数据包含一个较大的值（1000），这可能是原因所在。
调试 NaN：一名成员请求协助调试 tinygrad 训练期间的 NaN 损失，并提供了一个展示 LSTM 设置的代码示例。
- 这表明数值不稳定或梯度爆炸问题可能是原因。

AI21 Labs (Jamba) Discord

Pinecone 性能受限：一名成员报告他们的 RAG 系统在使用 Pinecone 时面临性能限制。
- 此外，Pinecone 缺乏 VPC 部署支持也是一个主要问题。
RAG 系统弃用 Pinecone：由于性能瓶颈和缺乏 VPC 部署支持，一个 RAG 系统正在弃用 Pinecone。
- 工程师预计新设置将缓解这两个问题。

MLOps @Chipro Discord 没有新消息。如果该频道长期没有更新，请告知我们，我们将将其移除。

Codeium (Windsurf) Discord 没有新消息。如果该频道长期没有更新，请告知我们，我们将将其移除。

第 2 部分：各频道详细摘要与链接

完整的逐频道分析已为邮件格式截断。

如果您想查看完整分析，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！预谢！

今天没发生什么事。