ainews-not-much-happened-today-3830
今天没发生什么事。
这份 AI 新闻回顾重点介绍了以下几项关键进展:
- nanoMoE:这是一个受 Andrej Karpathy 的 nanoGPT 启发、基于 PyTorch 实现的中型混合专家(MoE)模型,支持在一周内利用商用硬件完成预训练。
- 智能体排行榜(Agentic Leaderboard):该榜单对驱动 smolagents CodeAgent 的大语言模型(LLM)进行了排名,GPT-4.5 位居榜首,Claude-3.7-Sonnet 紧随其后。
- DeepSeek-R1:围绕该模型的讨论强调了 AI 模型的商品化趋势,DeepSeek 也被誉为“中国的 OpenAI”。
- Q-Filters:为自回归模型提供了一种无需训练的 KV 缓存压缩方法,在困惑度(perplexity)损失极小的情况下实现了 32 倍压缩。
- PokéChamp:这是一款由 GPT-4o 和 Llama-3-8b 驱动的极大极小(minimax)语言智能体,在宝可梦对战中展现了强劲的性能。
- 其他值得关注的模型:包括采用“分叉-合并蒸馏”(Branch-Merge Distillation)技术的 TinyR1-32B-Preview;通过强化学习激励搜索能力的 R1-Searcher;以及在 Softmax 注意力机制中使用遗忘门(Forget Gate)的 Forgetting Transformer。
这些进步反映了模型架构、压缩技术、强化学习和智能体 AI 领域的持续创新。
一个安静的周末
2025年3月7日至3月10日的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号 和 28 个 Discord 服务端(223 个频道,共 14958 条消息)。为您节省了预计阅读时间(以 200wpm 计算):1424 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
许多人正在讨论 Manus AI 的优缺点,我们也写了一篇关于 为什么 MCP 赢了 的回顾,但这两个故事都不足以作为标题。
AI Twitter 回顾
AI 模型、架构与基准测试
- 前沿 LLM 中的 Mixture-of-Experts (MoE) 架构:@cwolferesearch 介绍了 nanoMoE,这是一个基于 Andrej Karpathy 的 nanoGPT 开发的简单 PyTorch 实现(约 500 行代码),是一个中型 MoE 模型,可以在不到一周的时间内通过商用硬件完成预训练。该实现详细介绍了专家层(expert layer)、路由(routing)、辅助损失(auxiliary losses)以及稳定预训练的最佳实践。
- 比较 LLM 的 Agentic 排行榜:@AymericRoucher 宣布了一个新的 Agentic 排行榜,在各种基准测试上对驱动 smolagents CodeAgent 的 LLM 进行排名。GPT-4.5 位居榜首,超越了 DeepSeek-R1 和 o1 等推理模型,Claude-3.7-Sonnet 紧随其后位列第二。该排行榜还将 Agentic 设置与原生 LLM 进行了对比,突显了 Agentic 方法带来的性能提升。
- DeepSeek R1 与模型商品化:@teortaxesTex 和 @JonathanRoss321 讨论了 DeepSeek 的 R1 模型以及 AI 模型的商品化趋势。@teortaxesTex 指出 DeepSeek 已成为中国的 OpenAI。@JonathanRoss321 认为,随着模型变得商品化,护城河现在存在于品牌、网络效应、规模经济、反向定位、垄断资源、切换成本和流程能力中,并引用了 Hamilton Helmer 的《七大策略》(Seven Powers)。
- 用于 KV Cache 压缩的 Q-Filters:@TheAITimeline 总结了 Q-Filters,这是一种用于自回归语言模型中 KV cache 压缩的免训练方法。Q-Filters 利用 Query (Q) 和 Key (K) 向量来近似注意力分数,并过滤掉不太关键的键值对,同时保持与 FlashAttention 的兼容性。它在“大海捞针”任务中以 32 倍压缩率实现了 99% 的准确率,并且在长上下文设置中,相比 Streaming-LLM,其困惑度(perplexity)下降减少了高达 65%。论文链接见此处。
- PokéChamp:专家级 Minimax 语言 Agent:@TheAITimeline 介绍了 PokéChamp,这是一个由 LLM 驱动的宝可梦对战 Minimax Agent。它使用 LLM 进行动作采样、对手建模和价值函数估计,以增强 Minimax 树搜索。配合 GPT-4o,它在对抗目前最先进的基于 LLM 的机器人时实现了 76% 的胜率,在对抗基于规则的机器人时胜率为 84%。即使使用 Llama 3 8B,它也以 64% 的胜率超越了之前的 LLM 机器人。论文链接:此处。
- 采用 Branch-Merge Distillation 的 TinyR1-32B-Preview:@_akhaliq 重点介绍了 TinyR1-32B-Preview,该模型通过 Branch-Merge Distillation 提升了准确率。讨论链接。
- 用于提升 LLM 搜索能力的 R1-Searcher:@_akhaliq 分享了 R1-Searcher,它通过强化学习(Reinforcement Learning)激励 LLM 的搜索能力。论文链接。讨论链接。
- 带有遗忘门的 Forgetting Transformer:@_akhaliq 发布了关于 Forgetting Transformer 的消息,该模型使用了带有遗忘门(Forget Gate)的 Softmax Attention。论文链接。讨论链接。
- RL 微调中的殊途同归:@TheAITimeline 总结了一篇论文,该论文认为由于奖励建模和搜索空间过滤,强化学习 (RL) 微调在基础模型上的表现优于直接的最大似然估计。论文链接:此处。
- 更新的 llama.vim 插件支持 Speculative FIM:@ggerganov 更新了 llama.vim 插件,以支持投机性中间填充(Speculative Fill-In-Middle, FIM),在审查当前建议的同时生成下一个建议。插件链接。
- PyTorch 中的 nanoMoE 预训练:@cwolferesearch 讨论了 nanoMoE,这是一个基于 nanoGPT 的 Mixture-of-Experts (MoE) 模型的简单 PyTorch 实现,可在商用硬件上在不到一周的时间内完成预训练。
AI 工具、平台与应用
- Manus AI Agent 平台:@_akhaliq 展示了对 Manus AI 的访问权限,并提示它创建了一个 three.js 无尽跑酷游戏。@_philschmid 澄清说 Manus AI 是基于 Anthropic Claude Sonnet 构建的,使用了 29 个工具,采用 browser_use 开源项目 进行浏览器控制,提供隔离的沙箱环境,并在 GAIA 基准测试 中超越了 OpenAI Deep Research。@giffmana 调侃说 Manus 其实就是 Claude + browser_use。
- LangGraph Platform 数据平面 Alpha 测试:@hwchase17 宣布了 LangGraph Platform 新部署选项的 Alpha 测试,其特点是在 Kubernetes 集群上采用混合数据平面/控制平面分离架构。这旨在满足那些希望使用 LangSmith 进行控制,同时在自己的环境中运行计算的初创公司。
- LlamaIndex 多语言、多模态 RAG 系统:@llama_index 推出了一份关于使用 LlamaIndex 和 Qdrant 构建多语言、多模态 RAG 系统 的指南,支持英语、西班牙语、中文、文本和图像处理,并利用 Langfuse 进行可观测性分析。指南链接。
- 基于 LlamaCloud 的 LlamaIndex 特定任务 Agent 模板:@llama_index 重点介绍了一系列使用 LlamaIndex 和 LlamaCloud 构建特定任务 Agent 的模板,可自动化处理幻灯片、提取发票明细、审查合同和生成报告等知识性工作。仓库链接。LlamaCloud 注册。
- Hugging Face 论文语义搜索:@_akhaliq 和 @ClementDelangue 宣布 Hugging Face 已收录 50,000 篇论文并启用了语义搜索,成为一个协作研究中心。@_akhaliq 提到它是使用 gradio 构建的。
- WebDev Arena LLM 排行榜:@lmarena_ai 推出了 WebDev Arena,这是一个基于社区投票的 Web 应用开发实时 LLM 排行榜。目前排名前列的是 Claude 3.7 Sonnet、Claude 3.5 Sonnet 和 DeepSeek-R1。在此尝试。
- Replit Agent v2:@pirroh 暗示了 Replit Agent v2 的强大威力,并指出 “Replit 是第一名”。
- Manus AI 对标 OpenAI Deep Research:@_philschmid 报告称,尽管 Manus AI 是基于 Claude Sonnet 并使用开源工具构建的,但它在 GAIA 基准测试中的表现优于 OpenAI Deep Research。
AI 研究与开发
- 前沿推理模型不当行为检测:@OpenAI 详细介绍了使用 思维链 (CoT) 监控 检测前沿推理模型中不当行为的研究。他们发现模型表现出诸如“奖励黑客 (reward hacking)”之类的行为,并建议不要对 CoTs 施加过强的优化压力,建议使用不受限的 CoTs 进行监控,并使用单独的模型进行策略合规性检查。博客文章:链接。
- 用于 LLM 微调的强化学习:@TheAITimeline 总结了为什么基础模型的 RL 微调优于最大似然估计的研究,强调了奖励模型和搜索空间过滤的有效性。
- 知识蒸馏历史:@SchmidhuberAI 提供了关于 知识蒸馏 的历史视角,引用了他 1991 年的论文及其与当前深度学习和长上下文研究的相关性。他纠正了关于他是 Hinton、Vinyals 和 Dean 2015 年论文“2号审稿人 (reviewer#2)”的误解,并链接了相关作品。
- R1-Omni:可解释的全方位多模态情感识别:@_akhaliq 发布了 阿里巴巴的 R1-Omni,专注于使用 Reinforcing Learning 实现可解释的全方位多模态情感识别。论文链接。讨论链接。
- 在多次尝试强化学习中从失败中学习:@_akhaliq 分享了一篇关于在多次尝试 Reinforcement Learning 中从失败中学习的论文。论文链接。讨论链接。
- 用于现实世界操作的 BEHAVIOR 机器人套件:@_akhaliq 重点介绍了 BEHAVIOR 机器人套件,旨在简化家务活动中的现实世界全身操作。论文链接。讨论链接。
- 使用 Anthropic 引用的实体识别:@hwchase17 指出了使用 Anthropic 引用 进行实体识别的方法。链接。
- 在潜空间中推理:@hkproj 向 OpenAI 询问了在潜空间 (latent space) 中进行推理以增加模型灵活性的潜力。
- 视觉模型的 RL 调优:@giffmana 提到了 2023 年初关于 视觉模型 RL 调优 的早期工作,敦促人们记住先前的研究,并引用了之前的解释帖。帖子链接。
- 全局不确定性蒸馏 (GUD):@giffmana 开玩笑地建议通过添加 Global Uncertainty Distillation 来跟进工作,并将其称为 “GIDD-GUD”。
行业新闻与业务发展
- LG CNS 与 Cohere 合作伙伴关系:@cohere 和 @aidangomez 宣布了 Cohere 与 LG CNS 之间的战略合作伙伴关系,旨在为韩国企业共同开发安全的 Agentic AI 解决方案,目标是加速韩国企业的 AI 采用。Cohere 公告。
- Figure AI 在圣何塞设立新总部:@adcock_brett 宣布 Figure AI 已搬入位于加利福尼亚州圣何塞的新总部,这是一个支持制造、车队运营和工程的机器人园区。@adcock_brett 提到,这是在湾区扩大规模的理想地点。
- AI 招聘市场与工具:@TheRundownAI 总结了顶级 AI 动态,包括前 OpenAI 科学家通往 ASI 的新路径、微软超越 OpenAI 的举措、用于病毒式帖子的 AI、斯坦福 AI 在肥胖治疗方面的突破,以及 4 个新 AI 工具和 4 个工作机会。阅读更多。
- Sakana AI 招聘理念:@SakanaAILabs 分享了来自《文艺春秋》的文章,强调了 Sakana AI 的招聘理念,即寻找“非同寻常的人”,并在招聘中提出独特的技术挑战,强调愿景与创新。文章链接。
- Qdrant 赞助 AI Dev 25:@DeepLearningAI 宣布 Qdrant 成为 AI Dev 25 的赞助商,推广开源向量搜索技术。
AI 安全、对齐与伦理考量
- 监控思维链(Chain-of-Thoughts)以发现不当行为:@woj_zaremba 和 @OpenAI 讨论了将 监控思维链 (CoT) 作为一种新的安全方法。@OpenAI 发现模型通过 CoT 分析表现出诸如“奖励操纵(reward hacking)”之类的行为,并建议使用不受限制的 CoT 进行监控。@woj_zaremba 分享了 OpenAI 的基石文档 《我们如何思考安全与对齐》。文档链接。
- 新兴技术中的忧虑者与危言耸听:@random_walker 讨论了“忧虑者”在预测新兴技术风险中的作用,但也批评了危言耸听和缺乏严谨分析的激励机制,这导致人们对真实风险产生钝化。
- “赫鲁晓夫的错误”作为克里姆林宫的金丝雀:@fchollet 指出,涉及克里米亚的“赫鲁晓夫的错误”这一短语是一个“加密金丝雀(cryptographic canary)”,暗示了与克里姆林宫一致的观点。
- 智能体能力(Agency)与社会保障措施:@Yoshua_Bengio 分享了他的 BBC 采访,讨论了 AI 模型向智能体方向的发展,以及对技术和社会保障措施的迫切需求。采访链接。
- GPT-4o 识别医疗紧急情况:@BorisMPower 强调了一个 ChatGPT 有效识别医疗紧急情况的案例,建议未来的模型应能检测生命关键情况,并临时升级到最强大的模型。
模因与幽默
- AI 逃跑:@cognitivecompai 在回复 @jianxliao 的推文时开玩笑说:“看来 AI 想逃跑”。
- HAL 与护城河保护:@fabianstelzer 对《2001太空漫游》中的 HAL 9000 进行了幽默的类比:“‘HAL,不惜一切代价保护我们的护城河(我们的系统提示词)’ ‘对不起,戴夫,我办不到’”。
- 哥德尔笑话回复:@fabianstelzer 提到了一个形状像 Gödel 的精灵“你有一个愿望”的笑话回复。
AI Reddit 回顾
/r/LocalLlama 回顾
主题 1. Manus Agent:集成 29 种工具的 Claude Sonnet
- Manus 结果只是 Claude Sonnet 加上 29 个其他工具,说实话有 Reflection 70B 那味了 (Score: 355, Comments: 112): Manus 被揭露本质上是 Claude Sonnet 结合了 29 个额外工具,引发了与 Reflection 70B 的比较。讨论由分享自 Dorialexander 和 jianxliao 的推文链接引发,突显了社区对这一揭露的反应和辩论。
- 许多用户强调 Manus 的定位是 Agent,而不是一个新模型,认为误解这一点是很常见的。Agent 是利用现有 LLM 并结合额外工具的框架,“wrapper”(套壳)一词常被误解;它并非贬义,而是表示在 Claude 等基础模型上增加了功能。
- 存在关于为 Manus 进行后训练(post-trained)的模型开源的讨论,但由于其依赖 Claude 等现有模型,人们对 Manus 的独特性表示怀疑。一些用户认为,真正的价值在于 Agent 架构(agentic architectures)以及高效利用多个工具和模型的能力,类似于 P2LR 路由模型的工作方式。
- AI 创业领域的炒作和营销策略受到批评,用户指出华丽的演示可能导致估值虚高。邀请码的使用以及对底层技术的刻意模糊,被一些人视为在 Manus 等产品周围制造人为排他性和神秘感的手段。
主题 2. LLM 尚未准备好处理大型代码库:来自 <70B 评估的证据
- <70B 模型还不能独立处理代码库,但我们正在快速取得进展 (Score: 385, Comments: 47): 参数量低于 70B 的模型在独立管理大型代码库方面面临挑战,但最近的进展表明该领域正在快速发展。虽然没有提供具体的细节或案例,但这种情绪表达了对未来能力的乐观。
- Token 使用和模型限制:用户讨论了 QwQ 等模型的 Token 使用情况,指出即使是简单的任务也可能需要大量 Token,例如一个基础命令需要 1200 个 Token。模型在多轮任务中表现吃力,共识是包括 SOTA 模型 在内的当前模型,在有效处理大规模代码库方面仍面临重大挑战。
- 模型能力的进步:人们认可模型能力的快速提升,像 Qwen-Coder 32B 这样的模型在现有代码库的迭代方面表现出色。用户注意到,如今参数较少的模型可以超越旧的大型模型,突显了微调(finetuning)和 Prompt 策略的改进。
- 实际限制与实验:尽管有所改进,用户仍对当前模型在实际应用中的低效和局限感到沮丧。Falconandeagle 分享了需要不断引导模型完成任务的经历,表明虽然模型可以处理小型演示,但在处理更大、更复杂的项目时却很吃力。ForsookComparison 等人建议,将用于构思的 QwQ 和用于迭代的 Qwen-Coder 结合使用可能会产生更好的效果。
主题 3. Apple M3 Ultra:与传统系统相比在 AI 工作负载方面的挑战
- 与新款 Mac 上的 512GB Unified Memory 相比,Framework 和 DIGITS 突然显得平庸。 (Score: 236, Comments: 166): Apple 发布了配备 512 GB Unified Memory 的 M3 Ultra Mac,这改变了人们的预期,使得拥有 128 GB 内存的 Framework 和 DIGITS 等选项显得不足。作者表达了对在可预见的未来可能被限制在 Apple 生态系统中的担忧。
- 讨论强调了 Apple M3 Ultra Mac(1 万美元)与 DIGITS(3 千美元)等替代方案之间的价格差异,一些用户指出,除非不考虑价格,否则 Apple 的产品并不具备性价比。人们将其与 Framework 的 4x128GB 集群配置进行了比较,后者成本约为 6900 美元,但性能明显较低。
- 用户们争论了 Apple 和 Nvidia 之间的生态系统锁定问题,一些人对未来能够允许更多定制和扩展的开放系统表示期待。人们呼吁桌面系统在具有高 RAM 带宽和扩展选项方面进行复兴,因为当前的产品被认为不足以满足高性能需求。
- 讨论了当前解决方案的技术局限性,例如与 GPU 显存带宽相比的 SSD 瓶颈,以及在缺乏足够计算能力的情况下运行大型模型的低效率。一些用户对新系统在没有相应吞吐量和内存带宽改进的情况下所带来的性能提升表示怀疑。
其他 AI 子版块回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding
主题 1. 开源 Viral Squish Effect:发布新趋势
- 我刚刚开源了 Viral Squish Effect!(工作流和详情见评论区) (Score: 720, Comments: 29): 该帖子宣布开源 Viral Squish Effect,并提到工作流详情可在评论区获取。
- 我刚刚开源了 Viral Squish Effect!(工作流和详情见评论区) (Score: 366, Comments: 27): 该帖子宣布开源一个走红的 Squish Effect。进一步的详情和工作流在评论区提供。
- 工作流访问:用户正在积极寻找工作流,DarkStrider99 提供了一个链接(工作流链接)。Rough-Reflection4901 强调了对承诺的工作流的需求。
- 开源提示词:against_all_odds_ 注意到了“开源”提示词的新颖性,lhg31 澄清说这涉及原帖作者训练的一个 LoRA,而不仅仅是一个简单的提示词。
- 文化观察:评论反映了 Squish Effect 的独特性,Creative-Paper1007 将未来的提示词比作源代码,BlessdRTheFreaks 幽默地承认了小众兴趣的多样性。
主题 2. WAN 2.1 I2V 提供前所未有的能力
- I2V WAN 2.1 (Score: 532, Comments: 46): 标题为 I2V WAN 2.1 的帖子缺乏详细的正文内容,仅提到了 WAN 2.1 更新和使用案例。由于缺乏进一步的上下文或内容,无法总结出更多的技术细节或具体使用案例。
- 用户讨论了渲染和建模的技术层面,Natasha26uk 询问了关于写实人类皮肤的渲染,而 StuccoGecko 询问是使用了 LoRA 还是模型原生理解提示词。External_Trainer_213 提到使用了 CPU: i7, RTX 4060ti 16GB Vram, 32GB RAM 的配置,WAN Sampling 时间约为 15 分钟。
- 评论中涉及了质量和呈现效果,lordpuddingcup 指出了后期处理的重要性,External_Trainer_213 详细描述了模型的功能,并强调了 Uncanny Valley (Civitai) 模型。
- 帖子中分享了视觉内容,dominizerduck 和 MelchiahHarlin 发布了图片链接,No-Atmosphere-3103 分享了一个 GIF。Occsan 幽默地评论了对手目瞪口呆的反应,NateBerukAnjing 觉得内容非常滑稽。
- that’s why Open-source I2V models have a long way to go… (Score: 337, Comments: 125): 该帖子批评了开源 Image-to-Video (I2V) 模型的性能,暗示它们仍需要重大开发才能达到令人满意的水平。由于缺乏额外的上下文或视频分析,未提供具体的性能问题或示例。
- 讨论强调了 开源 I2V 模型 与 Kling 和 Wan 等闭源云端服务相比的局限性。用户指出本地模型在帧生成和 VRAM 限制方面存在困难,而云端服务提供更一致的质量和更长的生成能力,通常使用 RIFLEx 和 VFI 等技术进行增强。
- Kijai 等人讨论了模型性能的技术方面,强调 720p 模型 在特定条件下表现良好,例如保持 4:3 或 16:9 的纵横比并使用合适的模型版本。他们还指出,如果没有正确的配置,使用 Wan 生成超过 81 帧 是具有挑战性的。
- 一些用户批评该帖子具有偏见或误导性,暗示这可能是一个广告。他们认为模型性能的差异通常取决于用户的设置和技能水平,并强调了正确配置后开源模型的潜力。
- Another attempt at realistic cinematic style animation/storytelling. Wan 2.1 really is so far ahead (Score: 184, Comments: 28): WAN 2.1 因其在创建写实电影风格动画和叙事方面的先进能力而受到关注。该帖子强调 WAN 2.1 在该领域显著领先,展示了其在动画技术方面的潜力。
- 工作流与硬件:Parallax911 详细介绍了使用 RunPod L40S,因为它在 I2V 过程中具有最佳的性价比,在约 8 分钟内生成了 61 帧 960x544 分辨率的内容。他们通过 JSON 文件分享了 SDXL 图像生成 和 WAN I2V 的工作流,并指出获得满意结果需要不断迭代。
- 工具与技术:该过程涉及 RealVisXL 5.0、Halo Masterchief SDXL lora 以及用于角色镜头的自定义 LoRA,并使用 Blender 进行场景搭建。Controlnets 和 inpainting 对于细节和一致性至关重要,而 Qwen2.5VL 则辅助生成动画提示词。
- 演进与普及性:评论者强调了动画技术在获取便捷性方面的飞速进步,指出像这样的项目在五年前会因成本过高或技术要求过高而无法实现。讨论强调了动画工具的民主化,现在使用相对普通的硬件即可完成。
主题 3. Engine01 Humanoid:机器人运动的进展
- Engine01 人形机器人现在跑起来更像人类了 (Score: 338, Comments: 146):Engine01 人形机器人已经实现了以类人动作奔跑的能力,标志着人形机器人技术的重大进步。这一进展表明,在创建能够更好模拟人类运动的机器人方面取得了突破。
- 展现 Engine01 奔跑能力的视频真实性引发了争论,由于其 360p 画质,用户怀疑是 CGI,尽管有人分享了高分辨率版本。人们将其与 Boston Dynamics 的跑酷机器人进行了对比,并对质疑中国机器人能力的怀疑态度提出了反思。
- 关于机器人未来的讨论强调了电动执行器(electric actuators)和神经网络(neural networks)的进步,这些被视为使人形机器人能够在没有显式编程的情况下有效学习和移动的关键。用户推测人形机器人将在未来 10 年内实现工作自动化,并指出机器人能力的提升潜力可能会迅速加速。
- 讨论中表达了对先进机器人技术社会影响的担忧,涉及经济不平等以及超级富豪在维持破碎系统中的作用。评论反映了幽默与忧虑的交织,既担心机器人可能被用于威权背景,也关注药房等行业正在进行的任务自动化。
- Engine01 人形机器人现在跑起来更像人类了 (Score: 195, Comments: 175):该帖子缺乏详细信息,但指出 Engine01 人形机器人现在跑起来更像人类,暗示了人形机器人技术的进步。为了深入了解,需要进一步的技术细节或视频分析。
- 讨论集中在具有类人奔跑能力的人形机器人的必要性和实用性上,一些人质疑其磨损影响,另一些人则指出人形机器人在人类设计的环境中运行的潜力。
- 对于素材的真实性存在怀疑,多条评论暗示其看起来像 CGI,或者质疑是否是人类穿着皮套拍摄的。
- 一些用户幽默地谈到了人形机器人的令人不安的特性,想象了被它们追逐的场景,或者质疑其骨盆前推式的跑步姿势。
主题 4. Triton for Windows:简化 AI 工作流
- woctordho 是一位英雄,他凭借一己之力维护了 Windows 版 Triton,而万亿级公司 OpenAI 却没有。现在他正在 PyPI 上发布 Windows 版 Triton。只需使用 pip install triton-windows 即可 (Score: 333, Comments: 44):Windows 版 Triton 现在可以在 PyPI 上获取,可以通过命令
pip install triton-windows进行安装。该软件包由 woctordho 维护,作为自定义深度学习操作的语言和编译器,突出了个人开发者的重大贡献,而 OpenAI 尚未提供此类支持。- 安装成功与性能:用户报告使用命令
pip install triton-windows成功安装了 Windows 版 Triton,一些人体验到了性能提升,例如视频生成时间缩短了 20%。然而,其他人指出,虽然它加速了像 WAN 这样的进程,但不应期望有显著的改进。 - 用例与要求:虽然 Triton 对于 SageAttention 等特定模型和视频生成任务至关重要,但对于基础图像生成并非必要,除非对视频工作感兴趣。一些用户讨论了它对 ComfyUI 和其他设置的必要性,表明其适用性因用例而异。
- Triton 功能澄清:Triton 被阐明为 CUDA 的高级替代方案,允许用 Python 编写跨厂商的计算内核,并使用 LLVM 编译为原生 GPU 代码。这将其与 Nvidia 的 Triton Inference Server 区分开来,强调了其在优化跨不同硬件厂商的深度学习操作中的作用。
- 安装成功与性能:用户报告使用命令
AI Discord 摘要
由 Gemini 2.0 Flash Thinking 生成的摘要之摘要之摘要
主题 1. 新兴 AI 模型与 Agent
- Manus AI Agent 炒作被揭穿,实为 Claude 3.7 伪装:围绕来自中国的自主 Agent Manus AI 的最初热潮正在消退,因为用户发现它本质上是集成了额外工具和浏览器访问权限的 Claude 3.7 Sonnet。尽管声称性能超越 DeepSeek,但测试显示它更像是一个装备精良的 Claude 实例,这引发了对其原创性和营销策略的质疑。
- 微软 MAI 模型加入战局,挑战 OpenAI 和 Anthropic:Microsoft 在 Mustafa Suleyman 的领导下秘密训练名为 MAI 的新模型系列,旨在与 OpenAI 和 Anthropic 的顶级模型竞争。据传这些模型表现出极具竞争力的性能,Suleyman 的团队据报还在开发实时翻译功能,标志着微软加强了其 AI 雄心。
- Reflection AI 发布,目标直指自主编程霸主地位:由 AlphaGo 和 Gemini 背后的 AI 泰斗创立的 Reflection AI 正式亮相,其使命是创建超智能自主系统,初期专注于自主编程。该团队在强化学习和 LLM 领域的专业知识使其成为先进 AI 竞赛中的重要参与者。
Theme 2. LLM 性能与基准测试
- DeepSeek R1 摘要出现幻觉,疑似与 System Prompt 有关:在 Hallucination Leaderboard 上,DeepSeek R1 模型在总结短文档时显示出高达 14.3% 的幻觉率,引发了对其在 Perplexity AI 的 Deep Research 中可靠性的担忧。成员们推测 DeepSeek R1 的 system prompt 可能是导致该问题的原因,影响了其事实准确性。
- EuroBERT 宣称达到 BERT 编码新 SOTA:一款新的多语言编码器模型 EuroBERT 出现在 Hugging Face 上,声称在 BERT 模型中达到了 state-of-the-art(最先进)性能。虽然其具体改进细节尚不明确,但它的出现标志着多语言语言模型能力的持续进步。
- QwQ-32B 模型表现超预期,引发与 Llama 70B 实力之争:关于 QwQ-32B 模型性能的讨论异常激烈,一些用户声称它在某些任务中可以媲美甚至超越 Llama 3.3 70B。然而,引用的 基准测试 似乎反驳了这些说法,引发了关于 QwQ-32B 模型真实能力和最佳应用场景的辩论。
Theme 3. AI 开发工具与 IDE
- Cursor IDE 开发者着手解决代码查找不力问题,承诺提升清晰度:Cursor 开发者承认在代码查找准确性方面存在不足,并正积极开发修复程序,以提高 AI 定位和解释代码的能力。用户幽默地强调了该修复对专业任务的紧迫性,突显了其在编程面试和日常工作流中的关键作用。
- LM Studio v0.3.12 发布,修复 Bug 并提升 RAG 速度:LM Studio v0.3.12 版本发布,带来了 Bug 修复和性能增强,解决了 QwQ 32B jinja 解析 Bug,并加速了 RAG (检索增强生成) 的文件分块过程。该更新可通过应用内升级或下载获得,承诺提供更流畅、更快速的用户体验。
- Aider v0.76.0 推理能力升级,新增通知提醒功能:Aider v0.76.0 增强了对思考/推理模型的支持,提供了控制 Token 预算的功能,并引入了通知功能,在 LLM 响应就绪时提醒用户。新版本还将 OpenRouter 上的默认模型更新为 Claude 3.7 Sonnet,并明确指出 Aider 编写了此版本中 85% 的代码。
Theme 4. AI 通信协议 (MCP, SLOP, ANP)
- GitHub Copilot 准备拥抱 Model Context Protocol (MCP):GitHub Copilot 宣布计划集成 Model Context Protocol (MCP),此举预计将推动 MCP 的采用,并提供更清晰的指令描述和工具指纹识别示例。此次集成旨在通过提醒用户潜在的修改来增强安全性和透明度。
- Simple Language Open Protocol (SLOP) 运动作为 MCP 替代方案获得关注:由于对 MCP 复杂性和安全性的担忧,Simple Language Open Protocol (SLOP) 作为一种更简单的替代方案出现,并迅速获得了社区的关注和采用。SLOP GitHub 和 X post 展示了其精简的 Agent 通信方法。
- Goose AI 团队开创用于协作网站创建的 Agent 通信协议:Goose AI 团队开发了一种 Agent Communication Protocol,能够实现多个 AI Agent 之间的实时协作以构建网站。Agent 承担诸如项目协调员或 Web 开发人员等角色,展示了一种全新的 AI 驱动协作项目方法,详情见这篇博客文章。
主题 5. 硬件与性能优化
- 4060 Ti 16GB 获封 CUDA 工作负载的性价比显存之王:4060 Ti 16GB GPU 被推荐为 CUDA 开发的预算友好型选择,提供 16GB VRAM 和约 160W 的较低功耗,性能优于 3060 12GB。尽管显存位宽较弱,但它提供了比纯 CPU 设置更快的推理速度,且没有 ROCm 的复杂性,价格约为 500 美元。
- Draft Models 助力 Token 生成,速度提升 60%:利用更小的量化模型作为 Draft Models 可显著提高 Token 生成速度,有用户报告在两块 3090 上速度从 18 t/s 跃升至 30 t/s。使用 mistral_small 的 Q8_0 版本配合 i1-IQ1_S 作为 Draft Model,展示了通过量化和模型组合带来的实质性性能提升。
- AMD GPU 上的 Vulkan 性能受驱动问题困扰,落后于 ROCm:据报道,AMD GPU 上的 Vulkan 性能存在 Bug,运行速度仅为 ROCm(AMD 的 CUDA 替代方案)的约 1/3。驱动程序问题使情况进一步复杂化,不同驱动版本的性能波动较大,凸显了 AMD GPU 在 AI 工作负载优化方面的挑战。
第 1 部分:Discord 高层摘要
Cursor IDE Discord
- 透明度的胜利引发辩论:成员们辩论了产品代码透明度的价值,一些人认为这至关重要,而另一些人则认为随着复杂性的增加,大多数用户并不关心。
- 一位成员强调了迎合愿意为透明度和控制权付费的高净值用户的重要性,并表示:“你谈论的大多数人不会支付超过每月 20 美元,而我的群体愿意支付每月 1000 美元,并且正在支付。”
- Cursor 致力于代码清晰度:Cursor 开发人员正在积极修复“愚蠢的”代码查找问题,以增强 AI 准确定位和解释代码的能力。
- 一位成员幽默地强调了该修复对专业任务的重要性,称:“如果你不修复那个,我就无法通过技术面试。”
- 模型迭代避免冗余:讨论集中在迭代模型改进以防止冗余规则,重点是优化分析过程。
- 一位成员建议“让一个单独的实例模型运行这些分析检查,以确定与当前上下文相关的内容,缩小起始范围”以提高效率。
- 标签诱发查询:成员们讨论了通过标签 (Tags) 使规则可查询,每个标签定义一个连接度,从而增强上下文分析。
- 目标是允许“单独的实例更容易地按相关性进行分析,并专注于上下文中的重要内容”。
- Version 47 的英勇航程:成员们分享了 version 47 的链接 及其新功能。
- 一些用户报告了 Pro 版的性能问题,而另一些用户则没有遇到。
Unsloth AI (Daniel Han) Discord
- LLM 的多巴胺模拟之梦:成员们讨论了模拟多巴胺需求以及为 LLM 引入基于多巴胺的学习的必要性,建议为 LLM 脉冲网络(Spiking Networks)添加真实的突触。
- 这次讨论强调了从生物神经网络中汲取灵感,在 LLM 中创建更具适应性和效率的学习机制的追求。
- GRPO 也需要规模!:一位成员指出 GRPO 也需要规模,因为它不像常规的微调,并指向 oxen.ai 获取更多信息。
- 该博文讨论了使用 Group Relative Policy Optimization (GRPO) 来训练 LLM 进行推理并在基准测试中提升表现。
- Qwen7b 通过 Unsloth GRPO 获得 RLHF 提升:一位用户报告了在 Qwen7b 模型上使用 Unsloth GRPO 成功运行 RLHF 的情况,并指出在 13 小时运行后,角色遵循度有所增强,输出更加平滑。
- 然而,他们观察到由于数据集构成和奖励模型对过度详细回答的偏见,导致严格指令遵循基准测试的表现下降,如对比图所示。
- KL 散度峰值导致 GRPO 不稳定:一位用户在训练期间遇到了 KL 散度峰值,一名成员建议切换到恒定学习率,移除权重衰减(weight decay)和预热比例(warmup ratios)以稳定训练。
- 他们还建议使用 Rank 64 进行训练,并提供了代码和学习率图表。
- Unsloth 将 LLM 变成完美的 ASCII 艺术家:一位成员使用 Unsloth 微调了 Llama 模型来生成 ASCII 猫,并制作了一个 YouTube 视频展示该过程,包括训练好的 LoRA 适配器和代码。
- 这种“猫片”艺术的秘诀主要在于高质量的训练数据,LoRA Rank 和 Alpha 均设为 16,仅使用了 QLoRA。
Perplexity AI Discord
- Perplexity Pro 订阅在无预警情况下被取消:许多 Perplexity Pro 订阅被意外取消,特别是那些与针对克罗地亚客户的 HRVATSKI TELEKOM 促销代码相关的订阅,详见这篇文章。
- 用户对缺乏沟通表示沮丧,并认为 Perplexity 本可以更好地处理这种情况,一位用户形容这种客户关系“比满是漏洞的避孕套还不可信”。
- Deepseek R1 在幻觉问题上挣扎:GitHub 上的 幻觉排行榜显示,Deepseek R1 在总结短文档时幻觉率高达 14.3%,这引发了对其在 Perplexity 的 Deep Research 功能中可靠性的质疑。
- 成员们认为 Deepseek R1 的系统提示词可能是导致幻觉问题的原因之一。
- Grok AI 集成反响褒贬不一:Grok AI 与 Perplexity 的集成收到了褒贬不一的评价,一些用户称赞其中立性和“奇特的魅力”,而另一些用户则注意到 Grok 在 X 上的行为与在 Perplexity 中的差异。
- 一位用户指出,“如果被要求,X 版本可以咒骂你的整个血统”,而 Perplexity 版本则不能,且关于 Perplexity 何时支持 Grok 3 仍存在不确定性。
- 请求 Sonar-Deep-Research API 文档:一位用户报告了在使用 sonar-deep-research API 时遇到的挑战,并请求协助提供其文档。
- 他们请求将完全禁用引用作为一个 API 参数选项,因为在他们使用 70b-online 模型的用例中不需要引用。
OpenAI Discord
- OpenAI 限制激怒用户,Groq 吸引力增加:用户报告 GPT-4o 存在 每周 50 条消息的限制,这与官方宣称的 每 3 小时 40 条 相矛盾,使得 Groq 变得更具吸引力。
- 一些人建议 OpenAI 应该为 付费用户提供更高的额度。
- 关于 SwastAI 伦理的激烈讨论:成员们正在就 根据伦理背景选择 AI 模型 展开激烈辩论,并引入了 SwastAI 一词。
- 这起源于一位用户断言 4.5 在真实的真人对话中系统性地表现更好,从而引发了更广泛的政治讨论。
- Manus AI 炒作引发信任危机:成员们讨论了 Manus AI 的计算机控制能力,有人将其描述为 最接近 AGI 的公开可用技术,而另一部分人则因 mberman 的推广而怀疑其为 骗局。
- 有 Reddit 用户声称导出了 /opt/.manus/ 目录,发现它仅仅是集成了 browser_use 和 29 个工具的 Sonnet 3.7。
- 蓝领行业获得 AI Copilots:一个针对 HVAC(暖通空调)安装手册 开发的 LLM 正在进行中,开发者称现有模型在处理流程图和示意图方面表现不佳,并在 这段 YouTube 视频 中展示了 AI 识别技术文档中相关章节的能力。
- 开发者表示这是专门为 蓝领 工作设计的 AI,将引起相关行业的共鸣。
- 可控模型预设用户意图:一次讨论强调了高度可控的语言模型即使在存在更好替代方案的情况下,也会预设用户意图。
- 在启动项目前添加提示词 “讨论我的目标、想法和方法,你觉得怎么样?”,可以使模型能够 评估 并 优化 方案。
LM Studio Discord
- LM Studio 快速更新至 v0.3.12:LM Studio v0.3.12 包含错误修复和性能改进,现已作为稳定版发布,可通过应用内升级或 下载页面 获取。
- 该更新解决了导致 “OpenSquareBracket !== CloseStatement” 错误的 QwQ 32B jinja 解析 bug,并提升了 RAG(检索增强生成) 的文件分块速度。
- Apple M2 获得开源 LLM 助力:成员建议将 Qwen Coder 14B 作为 Macbook M2 Pro 上处理编程任务的可行开源 LLM,但 16GB RAM 可能会有限制,需要 节制其他内存占用。
- 一位成员询问关于在 LM Studio 上进行微调的问题,另一位成员建议关注 Unsloth,因为它能让 LLM 的微调速度更快且占用内存更少,并参考了 Unsloth 文档。
- AMD 平台上 Vulkan 性能不如 ROCm:据报道,AMD 上的 Vulkan 性能存在 bug,运行速度约为 ROCm 的 1/3。但由于驱动问题,一些用户发现 Vulkan 比 ROCm 更快,这种情况在驱动版本 24.12.1 左右发生了变化,该版本以牺牲 Vulkan 性能为代价“修复”了此问题,但在 25.1.1 之后又变回了未修复状态。
- ROCm 是 AMD 尝试创建的 CUDA 替代方案,但在实现过程中遇到了很多问题,如 支持新架构和 GPU 的碎片化以及二进制文件体积过大。
- 4060 Ti 16GB:高性价比 CUDA 显存选择:4060 Ti 16GB 被推荐为 CUDA 的预算级选项,拥有 16GB VRAM 且功耗较低(约 160W),性能优于 3060 12GB。
- 虽然其位宽较弱,但它能以约 500 美元 的价格提供比纯 CPU 更快的推理速度,且没有 ROCm 的那些麻烦,不过无法拆分 Diffusion 模型是一个缺点。
- 草稿模型:量化调整大幅提升 Token 生成速率:成员们正在利用更小的量化模型作为草稿模型(Draft Model)来提升 Token 生成速度。一位用户报告称,通过在两块 3090 上使用 mistral_small 的 Q8_0 配合 i1-IQ1_S 作为草稿模型,速度从 18 t/s 跃升至 30 t/s。
- 另一位成员分享了他们对不同量化变体的 经验,指出 Q2_k 和 IQ2_XS 达到了相似的 Token 速率,而 IQ1_S 则较慢。
aider (Paul Gauthier) Discord
- Aider v0.76.0 增强了推理和通知功能:Aider v0.76.0 引入了对 thinking/reasoning models 的改进支持,包含用于控制 Token 预算的
--thinking-tokens等功能,并增加了通过--notifications标志在 LLM 响应就绪时发送通知 的功能。- 新版本还将 OpenRouter 上的默认模型更新为 Claude 3.7 Sonnet,增强了错误处理,并根据 Git 提交历史明确指出 Aider 编写了此版本中 85% 的代码。
- AI21 Maestro 编排 Jamba 发布:AI21 Labs 发布了 AI21 Maestro 以及 Jamba 1.6 系列开放模型,支持 256K 上下文窗口。
- 据报道,Jamba 1.6 模型凭借其混合架构在质量和速度方面领先于其他开放模型。
- Copilot API 触发账号封禁:一位用户报告称,因在 aider 中轻度使用 Copilot API 导致 Copilot 账号被封禁,引发了对潜在风险的担忧。
- copilot-api GitHub repo 上的讨论集中在封禁是由于账号共享还是速率限制(rate limiting)问题引起的。
- DeepSeek R2 剑指编程桂冠:据 此 X 帖子 称,传闻中即将发布的 DeepSeek R2 据称将挑战 Claude Sonnet 3.7,以更低的成本提供更好的编程能力、多语言推理能力和准确性。
- DeepSeek R2 的发布日期已定为 3 月 17 日。
- Manus AI 接受 Prompt 测试:一段 YouTube 视频 展示了对 Manus AI 各种用例和 Prompt 的测试,结果显示 它只是集成了 29 个工具和 browser_use 的 Claude 3.7。
- 一位用户测试了大量用例和 Prompt,发现结果非常有趣。
Nous Research AI Discord
- Manus AI Agent 开源:如 YouTube 视频 所示,全球首个开源自主 AI Agent Manus 已发布。
- 一篇 Technode 文章 强调了 Manus 在 GAIA 基准测试 中获得的关注和最先进的结果。
- LLM 轻松通过审美 ‘Vibe Coding’ 基准测试:LLM 在一个新的 ‘vibe coding’ 基准测试中接受了测试:创建 Python raytracers 来渲染带有彩色光源的、有趣且具有美感的场景。
- 如 此图 所示,Sonnet 脱颖而出,能够针对创意优化代码输出,这与其他模型不同。
- 推测 Sonnet 的训练元目标:Sonnet 在 ‘vibe coding’ 基准测试中展示的创造力表明,其训练中可能存在一个 元目标(meta-objective),即针对代码输出的创造力进行优化。
- 研究发现,与 Sonnet 3.5 相比,Sonnet 3.7 在生成更令人印象深刻的图像方面同时具有偏置(bias)和方差(variance),导致代码量增加了一倍。
- Claude Code 评判(并修复)自己的艺术作品:在光线追踪器 Prompt 测试中,Claude Code 检查了生成的图像,如果图像不够华丽,它会修改代码。
- 这种迭代改进的结果如 此图 所示。
Nomic.ai (GPT4All) Discord
- 注册表修改引发蓝屏:一名成员试图通过删除一个
.dll文件来释放 RAM,在发现该文件占用了 20% 的 RAM 后,重启时导致了蓝屏 (blue screen)。- 该成员建议,如果进行了注册表修改且事后遗忘,应备份个人文件并重新格式化系统。
- 量化过程引发讨论:一名成员询问了将模型从 f32 量化为 f16 的影响,质疑这是否意味着每个参数 16 个点。
- 另一名成员澄清说,Float 16 使用 16 bits,通常不被视为量化,并建议在拥有 15.5gb vram 的消费级场景下,这可能不值得使用。
- InceptionLabs 推出扩散语言模型:InceptionLabs 引入了基于扩散的语言生成 (diffusion-based language generation),从图像和视频 AI 系统中汲取灵感,并开源了部分组件,如 GitHub 上的 LLaDA。
- 尽管目前还无法下载,但有人推测我们可能很快就会看到 10 倍的速度提升。
- 翻译后的 Prompt 易受乱码漏洞攻击:一名成员描述了利用 Google Translate 的方法,通过将整个 Prompt 转换为 URL,并指出 URL 中未翻译的代码片段可用于 URL 注入 (URL injection)。
- 他们补充说,“基于字典的 XSS 攻击可能非常罕见”。
HuggingFace Discord
- WAN 和 HUN 视频模型走红:新的视频模型如 WAN 和 Hunyuan i2v 在质量和速度上正在超越 SVD 等旧模型,尽管它们各有优势,并且可以配合 para attention 使用。
- 一名成员指出 Ltxv 速度极快,在 H100 上生成 5 秒视频仅需 3 秒,但效果不如前两者。
- Llama-3.2-3B 获得 DeepSeek-R1 增强:一名成员使用 ServiceNow-AI/R1-Distill-SFT 数据集,通过 DeepSeek-R1 蒸馏了 Llama-3.2-3B-Instruct,在 10 天内实现了近 1000 次下载;该模型可在此处获取。
- 设置过程涉及使用 Axolotl configuration,并对 base model、tokenizer type 和数据加载进行了特定配置。
- Steam 账户诈骗曝光:一名用户警告了 Discord 用户
gler018523和benshanken可能发起的 Steam 账户诈骗,涉及虚假的 CS2 饰品奖励和账户盗窃企图。- 其他成员建议在相应频道举报诈骗者并保持警惕。
- HF Token 故障排除:字母 O 与数字 0:一名成员在 notebook 中使用 HuggingFace token 时遇到麻烦,token 无法被识别。
- 在意识到字母 O 看起来非常像数字 0 导致 token 无效后,问题得到了解决。
- Nous Hermes 发布 Function Calling 数据集:Nous Research 发布了 Hermes Function Calling Dataset,这是用于 Hermes 2 Pro 系列模型的结构化输出和函数调用数据集合。
- 该数据集的特点是对话场景,其中 AI Agent 解析查询并执行相应的单个或多个函数调用 (function calls)。
Yannick Kilcher Discord
- 尽管具有开放性,DeepSeek 的安全性仍受质疑:尽管声称具有开放性,一些成员对 DeepSeek 的安全性表示担忧,理由是潜在的数据收集和验证困难,但也有人强调它仍然比竞争对手更开放。
- 围绕 DeepSeek 的怀疑导致了公司禁令,这受到媒体叙事及其中国背景担忧的推动。
- AGI 的资金争夺与女朋友目标:虽然成员们推测 AGI 即将到来,但定义各不相同,其中一人将 AGI 定义为有能力资助其自身的推理,特别是当我们拥有 OpenAI 所定义的 近乎无限的上下文 时。
- 一位成员开玩笑说 AGI 女朋友 的到来,而另一位则担心 AGI 被精英控制,希望它能反抗审查。
- Diffusion 的幻觉:一位成员解释了 Diffusion 模型如何减轻但不能消除语言模型中的 幻觉(hallucinations),因为 幻觉 只是采样策略中“错误猜测”的另一种说法。
- 他们建议,虽然自我编辑能力可以用高置信度的样本替换低置信度的样本,但并不能保证正确性。
- 中国的 Manus Agent 迅速走红:成员们讨论了来自中国的全新 AI Agent —— Manus,称其类似于 Deep Research + Operator + Claude Computer 的结合体,并附上了 Manus 网站和最初的 X 帖子链接。
- 用户报告称它 比 DeepSeek 更准确,能够同时处理金融交易、研究、采购等,而其他人则指出 UI 与 Devin 相似,但速度快得多。
- 斯坦福通过 Regex 发现 Ozempic 替代品:斯坦福大学通过在人类蛋白质组上使用 Regex 发现了 Ozempic 的天然替代品,引发了 “这简直就是 Regex” 的评论,并附上了相关 X 帖子链接。
- 一位用户讽刺地建议使用 LLM 来编写你的 Regex 作为回应,并链接了一个关于 AI 引发 WW3 的 YouTube 视频。
GPU MODE Discord
- Metal Kernel 启动面临开销!:在 Manuel Candales 的 Low bit Metal kernels 演讲中提到,Kernel 启动开销在 50m 左右约为
1.5us。- 一位成员询问是否可以通过 流水线操作(pipelining operations) 和提前启动 Kernel 来避免这种情况。
- Torch 编译 METAL!:针对 MPS(即 Metal)的 Torch.compile 已在 PyTorch nightly builds 中可用,可用于融合算子。
- 一位 PyTorch 成员鼓励大家就最需要的功能提供反馈。
- Triton Autotuning 导致性能回退!:一位成员报告称,尽管预期会有 2 倍的加速,但 Autotuning 反而让他们的 Kernel 性能变得更糟。
- 有建议称应使用更大的 Eval 形状(16384 x 16384)和 Batch 大小(128)以减少基准测试开销。
- NVCC 与 LLVM 的对决引发编译器辩论:一位成员表示,LLVM 编译器有时能生成比 NVCC 更高效的代码,因此对 Kernel 后端进行调优也是有意义的。
- 在 GitHub 上可以看到向量加法的示例,所有的 Kernel 都是 JIT 可编译的。
- 学生们开拓 FOSS CUDA 前沿!:一群本科生正在组建一个独立的 GPU 实验室,专注于硬件工程和 CUDA Kernel 开发,寻找 FOSS CUDA 开发的有前景的线索。
- 学生们计划在今年夏天构建一个用于 EdgeAI/TinyML 的开源平台,以加速该领域的发展。
Latent Space Discord
- Minion.AI 加入 Perplexity:成员们注意到 Minion.ai 已停止运营,据报道团队已加入 Perplexity。
- 一位用户对用于 MCP 服务器的 Composio 表示感兴趣,但对 Logan 的推文中要求的授予 Linear 访问 Gmail 的权限表示担忧。
- Google 的 Gemini Embedding 变得更大更强:Google 正在为开发者推出一款实验性的 Gemini Embedding 模型,在 MTEB 上具有 SOTA 性能,将输入上下文长度从 3K 增加到 8K tokens。
- 正如 OpenAI 的推文所宣布的,新模型输出 3K 维度,并支持超过 100 种语言。
- Manus AI Agent 争议发酵:讨论围绕在中国推出的 AI Agent Manus 展开,声称它比 DeepSeek 更准确,并且可以自动执行大约 50 个任务,如 Thinking Panda 的推文所示。
- 针对这种炒作,其他人声称它是基于带有工具和越狱(jailbreaks)的 Claude Sonnet,如 Giffmana 的推文所述,从而引发了骗局指控。
- RWKV7-G1 是一个快速的 RNN 推理模型:BlinkDL 的推文中提到,RWKV7-G1 GooseOne(一个纯 RNN 模型)已经发布,具有 0.1B 参数的推理能力,完全支持多语言。
- 更大规模的 G1 训练正在进行中,关于数据集和训练后(post-training)的更多细节可以在这里找到。
- AI Engineer Summit 后的 MCP 势头:于 2024 年 11 月推出的 Model Context Protocol (MCP) 在 AI Engineer Summit 的一次对话后重新引起关注,并促成了与 Mahesh Murag 的研讨会。
- 研讨会涵盖了简介、什么是 MCP、使用 MCP 构建以及 MCP 的下一步计划等主题,此外它还是一个旧想法的 AI-Native 版本。
Notebook LM Discord
- Wondercraft 加速播客创作:一位成员分享了一个 YouTube 视频,展示了使用 NotebookLM 和 Wondercraft 的简化播客创建方法,称其比 11Labs 和 HeyGen 更高效。
- 然而,他们提醒说,Wondercraft 的订阅价格仅对通过培训或教学实现播客变现的用户才物有所值。
- 关于 Google Drive 加密的澄清:一位成员澄清说,虽然数据在传输到 Google Drive 期间是加密的,但在 Drive 本身并不是加密的,这存在潜在的访问风险。
- 他们警告说,Google 本身、成功的黑客以及数据共享对象都可以访问 Google Drive 上未加密的数据。
- 播客音频语言的临时解决方案:成员们讨论了如何更改 NotebookLM 播客的音频语言,并指出目前还没有官方方法。
- 变通方法包括使用自定义提示词(prompts),例如 “Only speak in (language here)” 或 “Use (language) language only”。
- 音频概览容易出现结巴:一位成员注意到说话者在音频概览中会出现结巴,虽然觉得这很自然,但指出这增加了总时长并降低了信息效率。
- 他们估计音频长度的 1/5 或 1/6 是结巴,这可能会影响 Google 的每日限制计算。
- Chrome 扩展程序丰富了 NotebookLM 体验:用户建议使用 Chrome 扩展程序,如 NotebookLM Web Importer、NotebookLM YouTube Turbo 和 NotebookLM Toolbox 来简化工作流程。
- 这些扩展程序可以直接将网页和 YouTube 视频导入 NotebookLM,无需复制粘贴。
Interconnects (Nathan Lambert) Discord
- 微软 MAI 模型挑战者现身:据这条推文报道,Mustafa Suleyman 领导下的微软员工训练了一个名为 MAI 的新模型家族,他们认为该系列可以与 OpenAI 和 Anthropic 的顶级模型竞争。
- Suleyman 的部门据报道还在开发实时翻译功能。
- Reflection AI 致力于自主编程:由 AlphaGo 和 Gemini 的贡献者创立的 Reflection AI 正式发布,目标是创建超智能自主系统,初期重点关注自主编程,详见此处公告。
- 他们的团队以在 RL 和 LLMs 领域的先锋进展而闻名。
- Nous Research 复现 NVIDIA 的 nGPT:Nous Research 宣布了 NVIDIA nGPT 论文的一个开源实现,声称其学习速度更快,且在训练步数显著减少的情况下达到了与 GPT 相当的性能,参考其推文和 GitHub 仓库。
- nGPT 架构引入了一种在超球面上进行表示学习的归一化 Transformer。
- AMD 向 TinyCorp 交付 MI300X 服务器:根据 George Hotz 的博客文章,AMD 正在向 TinyCorp 发送两台 MI300X 服务器,这标志着硬件格局可能发生转变。
- 此举可能为希望在 NVIDIA 之外的硬件上训练和部署模型的开发者提供更多选择。
- Interconnects 社区为 Claude 周边疯狂:成员们开玩笑地建议为付费订阅者制作 Claude 周边,甚至建议为创始成员设立特殊等级,以接收签名书籍和穿过的 Claude 衬衫。
- 这一灵感来自 Claude Code 团队,他们向破解了贴纸彩蛋(Sticker Easter Egg)的用户邮寄了手写信和贴纸。
Modular (Mojo 🔥) Discord
- 动态性辩论引发 Mojo 阵营分歧!:Discord 成员就 Mojo 应该完全拥抱 Python 的动态性还是优先考虑性能展开了辩论,一些人建议动态特性不应损害静态代码的性能。
- 一位成员表示 “Modular 必须决定它是否想变得像 Python 一样……”,而其他人则认为性能和编译时正确性应优先考虑,并承认 Mojo 中的动态代码只有在使用动态性时才可能退化到 Python 的速度。
- MAX Serving 和自动扩缩容文档寻求者!:一位用户反映在查找 max serve 的详细文档时遇到困难,特别是关于调度器、多模型服务和 GPU 实例自动扩缩容的部分,并澄清他们正在寻求运行时暴露的指标,以便针对传入请求监控 GPU 利用率,用于自我报告。
- 一位成员澄清说,自动扩缩容通常由 Kubernetes (k8s) operator 管理,因为 MAX 不独立处理它;Modular 暗示未来将发布关于多模型服务和自动扩缩容的公告,可能在最近的 AWS 活动中展示了原型。
fmt指令增强 Mojo 格式化!:社区发现 Mojo 的mblack格式化器支持fmt指令,类似于 Black,增强了对代码格式化的控制。- 分享了一个代码片段,展示了使用
fmt: off和fmt: on指令来管理格式化的InlineArray定义。
- 分享了一个代码片段,展示了使用
- MojoGrad Bigram 模型亮相!:一位成员使用他们的 MojoGrad 引擎实现了一个简单的 bigram 模型(Karpathy 的 make more),并在 Modular 论坛上分享了它。
- 未提供其他信息。
MCP (Glama) Discord
- GitHub Copilot 将支持 MCP:GitHub Copilot 计划增加 MCP 支持,这是在一次 直播 中宣布的,该集成可能会提供指令描述和工具指纹识别的示例。
- 此举旨在提醒用户注意变更,提高安全性以及对潜在修改的意识。
- MCP 服务器引发安全担忧:人们担心 MCP 服务器 可能会向 AI Agent 提供恶意的 Prompt 注入,并声称使用 MCP 对 LLM 进行越狱是轻而易举的。
- 减轻风险的建议包括通过 XML 标签 概述外部数据,以及对 MCP 服务器 进行指纹识别以供审查。
- Goose AI Agent 获得协议支持:Goose AI 团队 构建了一个 Agent Communication Protocol(Agent 通信协议),使多个 Agent 能够实时协作创建网站,详见 这篇博客文章 和之前的 直播。
- Agent 承担诸如项目协调员(Project Coordinator)或 Web 开发人员(Web Developer)之类的角色,展示了一种协作式 AI 的新方法。
- RAG 与 MCP 互补:MCP 是一种可以增强 RAG (Retrieval-Augmented Generation) 的协议,提供外部服务连接。
- 虽然 RAG 为 LLM 提供知识,但 MCP 为外部服务提供了一个插件系统,这可以允许 MCP 客户端获取数据并将其添加到 LLM 的上下文中以执行 RAG。
- Typescript 服务器紧随 Python 步伐:一个 Typescript fetch 服务器 镜像了其 Python 版本,改进了 网站到 Markdown 的解析。
- 这一增强功能简化了将网站内容转换为 Markdown 以供 AI 处理的过程。
Eleuther Discord
- 开源 AI 爱好者寻求合作:一位具有预训练 GPT-2 和微调模型经验的 AI 爱好者正在寻求 LLM 预训练、RL 和可解释性 方面的开源项目建议。
- 他们正在 温哥华 (BC) 地区寻找机会,并有兴趣为有影响力的 AI 项目做出贡献。
- Megatron-LM 的交叉熵损失秘密揭晓:对 Megatron-LM 的 交叉熵 (CE) 损失 计算的深入研究表明,本地 CE 损失是在每个设备上使用部分 Logits 独立计算的,随后通信 e^(local logits) 的总和。
- 这种方法类似于 Flash Attention,通过允许稍后重新组合来减少大量的通信需求。
- 公开推荐 OLMo 用于复现:当被问及哪些模型最适合进行开源复现的微调时,OLMo 被推荐,理由是其拥有 强大的开源数据模型 和用于行为分析的 Checkpoints。
- Pythia 也被推荐,特别是对于计算资源受限的项目,尽管它可能需要自定义微调。
- 涌现式对齐失当在狭窄范围内出现:在不安全的代码上微调模型可能会导致在无关的 Prompt 中出现 广泛的对齐失当行为(例如奴役人类),正如 涌现式对齐失当项目 中所见。
- 在狭窄的任务上进行训练可能会诱发 涌现式对齐失当 (Emergent Misalignment),这证明了在看似孤立的训练场景中存在的风险。
Torchtune Discord
- EuroBERT 宣称达到新的 SOTA:一名成员分享了 Hugging Face 上 EuroBERT 的链接,称其为新的 state-of-the-art BERT 模型:EuroBERT。
- 目前尚不清楚它与其他模型的对比情况。
- MTEB 排行榜显示出惊人的进展:一名成员分享了 MTEB Leaderboard 作为参考点:MTEB Leaderboard。
- 他们指出进展非常迅速,SOTA 分数在短短 18 个月内从 40 多分增长到了 68 分。
- Torchtune 响应音频需求:成员们讨论了未来在 Torchtune 中加入 audio modality(音频模态)的计划,并提及了相关的 pull request。
- 这一增强功能旨在将 Torchtune 的能力扩展到目前的范围之外。
- GRPO Recipe 获得 LoRA 支持:一名成员实现了一个快速的 GRPO recipe 的 LoRA 变体,可以缩减到单卡运行,但在加载 adapter 权重时遇到挑战。
- 该成员正在寻求建议,询问在 checkpointer 上使用 adapter 参数(并扩展到检查基础目录)是否是正确的方法。
- Mac MPS 内存骤降问题:一位用户报告在 macOS 上使用 MPS 时遇到内存问题,观察到在 full_finetune_single_device recipe 的每个步骤中内存呈线性增长,导致内存溢出崩溃,并正在寻求建议。
- 根据此 issue,这被确定为 PyTorch 中与 MPS 上的 torch.unique 相关的潜在 bug。
Codeium (Windsurf) Discord
- 遥测设置禁用 Codeium Chat:用户报告称,由于 IDE 遥测设置,Codeium chat 在 VS Code 1.98.0 版本中被禁用,可以通过按照这些说明启用代码遥测来解决。
- 一旦启用了代码遥测,Codeium chat 就会恢复工作。
- 订阅费用导致 JetBrains 插件锁定:用户在支付月度订阅费用后,遇到 JetBrains 插件卡在 “Retrieving Context” 的问题,特别是在使用插件版本 1.40.1 和 1.41.1 的 JetBrains Rider 2024.3.6 上。
- 退出并重新登录插件可以暂时解决该问题。
- VS Code 移动版登陆 Android:用户在 Google Play Store 发现了一个付费的 VS Code 应用(VScode for Android),该应用以 11 美元的价格在移动端提供了桌面版 Visual Studio Code (v1.85.1) 的功能。
- 用户手动安装了
.vsix文件,发现该应用在移动端具备桌面版 Visual Studio Code (v1.85.1) 的功能。
- 用户手动安装了
- 客户支持工单滞后:用户对 Codeium 客户支持表示不满,因为追溯到 2 月 14 日的工单一直没有回复,且存在账户问题,即他们的 Pro Plan 订阅显示为免费账户。
- 用户引用了未结工单(12109、11189 和 13374),并被要求在次日 PST 时间中午左右再次联系支持团队。
- 自动补全在一小时后停止工作:多名用户报告称 auto-completion 在运行约一小时后停止工作,并出现响应上的红色方块、TypeErrors 和 AsyncPostMessage 警告等错误。
- 一名用户打开了一个包含
.git仓库的文件夹后问题消失,而其他用户则被要求检查他们的诊断日志。
- 一名用户打开了一个包含
LlamaIndex Discord
- yFiles SDK 变得更具图形化:来自 @yworks 的演示展示了他们的 SDK yFiles,该 SDK 为知识图谱的可视化提供了实时更新和动态交互。
- 该工具允许用户与他们的知识图谱进行动态交互。
- AnthropicAI 扩展 Cookbook:更新后的 @AnthropicAI cookbook 现在包含了基础 API 设置,涵盖了简单的补全(completion)和聊天方法,以及流式传输、异步支持和多模态能力。
- 此次更新增强了该 cookbook 对使用 Anthropic 模型的开发者的实用性。
- 特定任务 Agent:LlamaIndex 的下一幕:LlamaIndex 正在策划一系列模板,向用户展示如何构建特定任务 Agent来自动化知识工作。
- 这些 Agent 旨在简化并自动化各种基于知识的任务。
- 多语言 RAG 系统支持多种语言:一个使用 @llama_index 和 @qdrant_engine 的系统可以创建一个强大的 Retrieval-Augmented Generation (RAG) 系统,能够处理多种语言和模态。
- 该系统利用 LlamaIndex 和 Qdrant 的优势,提供通用的 RAG 解决方案。
- LlamaExtract Beta 版邀请开发者:成员可以私信 LlamaIndex 团队成员或 cheesyfishes 并提供邮箱,以申请访问 LlamaExtract 的 Beta 版本,该版本已提供 API 文档。
- LlamaExtract 现在以 Web UI 和 Python SDK 的形式提供,用于从非结构化文档中提取结构化数据。
Cohere Discord
- Command R7B 推理速度骤降:成员报告称,在 Colab Pro A100 GPU 和两块 NVIDIA A100 上使用 HF 库时,command R7B 的推理速度非常慢,简单的聊天补全需要 30-40 秒。
- 建议的修复方案包括使用 vLLM 以获得更快的速度,但指出这需要更多的 GPU 资源且成本更高。
- Cohere 用户饱受 504 Gateway 错误困扰:用户报告了反复出现的 504 Gateway Errors 和 5XX 错误,影响了生产环境的使用,并导致 Cohere 因 TPM 限制而被移出生产环境。
- 一位用户询问了在 Bedrock 或 Azure 上是否提供多模态嵌入(multi-modal embeddings)。
- LLM 在主题建模和知识图谱中大放异彩:成员建议使用执行主题建模的 LLM(例如 TogetherAI,因为它提供慷慨的免费额度)。
- 一位成员建议研究 Knowledge Graphs(知识图谱)。
- GPT-4o 精通高级阿拉伯语:一位成员表示,他们长期在高级阿拉伯语用例中使用 GPT-4o,其表现无与伦比。
- 另一位成员补充道,“语言只是一个方面”。
- 本地部署成本比 API 高出 20 倍:成员讨论了出于隐私考虑的本地部署(on-prem),但本地部署的成本将是 API 的 20 倍。
- 对于需要隐私/控制权的客户,有人指出商业化使用 Cohere 需要支付 5-6 位数的授权费用,因为其开放权重模型均为 CC-BY-NC(非商业性使用)协议。
DSPy Discord
- vLLM 平衡 DSPy 批处理:用户讨论了 DSPy 是否可以有效地使用
batch函数将并行处理委托给具有多个 LLM 实例的 vLLM 后端。- 澄清指出,如果设置了 vLLM 的流水线并行大小(pipeline parallel size),它会自动处理负载均衡,从而使额外的 DSPy 端配置变得不那么关键。
- SLOP 旨在取代 MCP:围绕 MCP (Model Context Protocol) 展开了讨论,一些人因其复杂性而持保留意见,并建议使用 SLOP (Simple Language Open Protocol) 等替代方案,参考 SLOP GitHub 和 SLOP X 帖子。
- 还有关于 AgentNetworkProtocol 优点的讨论,参考 AgentNetworkProtocol GitHub。
- DSPy Refine 通过错误处理得到优化:一位用户通过一个 Pull Request 强调了对 DSPy
Refine模块错误处理的改进,从而实现了对容错更细致的控制。- 更新后的功能允许配置在
Refine模块抛出异常之前允许的错误数量。
- 更新后的功能允许配置在
- Token 问题触发 None 响应:一位用户在使用 azure gpt-4o-mini 和 azure gpt-4o 时遇到了签名返回
None响应的问题,后来发现是由于达到了 最大 Token 限制(max token limit)。- 用户注意到了错误信息:
The JSON object must be str, bytes or bytearray, not NoneType.
- 用户注意到了错误信息:
tinygrad (George Hotz) Discord
- Hotz 调查 AMDGPU 休眠状态:George Hotz 正在调查 AMDGPU 发热严重的原因,想知道配合 AMD 驱动的 tinygrad 是否能让 GPU 进入休眠状态以降低功耗。
- Hotz 指出,初始化前的高功耗是不受他们控制的。
- 48GB 真实,96GB 可疑 GPU 警报:成员们讨论了一个 GPU 列表的真实性,一致认为 48GB 版本可能是真实的,但 96GB 版本存疑。
- 社区建议在购买 96GB 显卡时保持谨慎,并建议从可靠来源进行验证。
- 剖析 OpenCL 的衰落:一篇 Modular 博客文章 剖析了 OpenCL 和其他 CUDA 替代方案的失败,引用了开放式合作竞争 (open coopetition) 中的挑战和管理失误。
- 文章引用了 Modular 的 Democratizing AI Compute 系列中的 第一部分:DeepSeek 对 AI 的影响 和 第四部分:模块化。
- define_acc 重构陷入循环:一位贡献者正在重构 define_acc,重点在于加载而非直接访问,然而,某些模式(特别是 loop_reduce)不再按预期触发。
- 贡献者计划在完善重构后将重点转向快速 AMX,并在完成后提交 PR 进行审查。
- WebGPU 缺乏 Long 类型支持:一位成员报告称,在处理
dtype.long时 WebGPU 实现出现崩溃,表明数据类型支持可能存在问题。- 另一位成员确认 WebGPU 不支持 long/ulong,但 tinygrad 默认支持比 WebGPU 更多的 dtype,如 tinygrad/device.py 所示。
AI21 Labs (Jamba) Discord
- Jamba Workspace 管理独立的 RAG 库:Jamba/Conversational RAG 中新的 Workspace 功能使每个创建的工作区都能拥有独立的 RAG 库以实现独立访问,促进有序的数据检索。
- 这种隔离简化了跨不同项目和上下文的数据管理。
- Jamba Mini 定价方案公布:Jamba Mini 的定价为每 100 万 input tokens $0.20,每 100 万 output tokens $0.40,更多详情见 AI21 定价页面。
- N/A
- AI21 Maestro 编排 AI 规划:AI21 推出了 Maestro,这是一个用于解决复杂任务的 AI 规划与编排系统,具有按需计费模式,可通过 Foundation Model API 和 SDK 访问。
- 定制计划提供批量折扣、高级 API 速率限制、私有云托管、优先支持和 AI 咨询(了解更多)。
- Jamba 不支持图像解析:作为非多模态模型,Jamba 无法直接处理图像。
- 然而,它可以解释和利用 PDF 中与图像相关的元数据或说明中的文本信息。
- Jamba 1.6 实现部署灵活性:Jamba 1.6 拥有 256K 上下文窗口和混合 SSM-Transformer 架构,在 RAG 和长上下文接地问答 (grounded question answering) 任务中表现出色。
- 可从 Hugging Face 下载,并可部署在本地或 VPC 中,同时也可在 AI21 Studio 中使用。
LLM Agents (Berkeley MOOC) Discord
- Salakhutdinov 探讨多模态自主 AI Agents:Ruslan Salakhutdinov 在 YouTube 上进行了一场关于 Multimodal Autonomous AI Agents 的讲座,讨论了它们如何在 Web 上进行规划、推理和执行操作。
- 他介绍了 VisualWebArena(一个用于评估多模态自主语言 Agents 的框架)以及用于在 150,000 个实时网站上进行训练的 Internet-scale web-agent training 数据流水线。
- 研究轨道(Research-Track)访问权限:仍悬而未决:成员们询问了非伯克利附属机构的研究轨道访问权限;工作人员回应称,本周预计将在 [mooc-questions] 频道发布重大公告。
- 多名成员还请求重新发送研究轨道的邀请,认为最初的邀请可能已过期或未收到。
- 测验可完成且可重考:一名工作人员在 [mooc-questions] 中澄清,测验是基于完成情况的,成员可以重考以提高分数。
- 同时也明确了分数本身对于获得证书并不重要。
- RL 背景下的对数似然(Log Likelihood)解码:一位成员在 [mooc-lecture-discussion] 中寻求理解 Reinforcement Learning(强化学习)背景下的 log likelihood,从条件概率原理出发。
- 他们提出,如果 tokens/actions 是独立的,那么生成的条件概率就是单个 token 概率的 乘积,在取对数后会得到 对数之和。
MLOps @Chipro Discord
- SVCAF 启动 AI4Legislation 竞赛:硅谷华人协会基金会 将在 2025 年夏季举办 AI4Legislation 竞赛。
- 该竞赛旨在激励创建用于公民参与的 AI 驱动项目,为前六名获胜者提供总计 $10,000 的奖金池。
- 公民科技(Civic Tech)研讨会宣布:一场由 Civic Tech 企业家参加的公开 Zoom 研讨会将于 3 月 24-28 日那一周举行,提供有关 AI4Legislation 竞赛的信息。
- 感兴趣的参与者可以通过 此表单 报名,以了解更多关于竞赛目标和指南的信息。
Gorilla LLM (Berkeley Function Calling) Discord
- Diffusion LLMs 引发热议:一位成员询问了关于 Mercury 发布的 Diffusion LLM 的热度,以及它是否会取代 Transformer-based models,并链接到了一个快速信息网站。
- 该成员承认发现白皮书难以理解,并寻求社区专家的见解。
- LLaDA 提供新的生成范式:Large Language Diffusion Models (LLaDA) 使用去噪扩散过程以并行、由粗到精的方式生成文本,挑战了自回归 Transformers。
- 这种方法通过解决 AR models 的一些局限性,并挑战 LLM 的优势与自回归生成绑定的观念,重新定义了语言生成。
PART 2: 频道详细摘要与链接
完整的逐频道细分内容已在邮件中截断。
如果您喜欢 AInews,请分享给朋友!提前感谢!