AI News
推理模型价格战 2.0:Mistral Magistral + o3 降价 80% + o3-pro
OpenAI 宣布将其 o3 模型降价 80%,使其定价与 GPT-4.1 相当,并足以与 Anthropic 的 Claude 4 Sonnet 以及 Google 的 Gemini 2.5 Pro 展开竞争。与此同时,作为更强大、更可靠的变体,o3-pro 也正式发布,尽管早期基准测试显示其相对于成本的性能表现参差不齐。Mistral AI 推出了其 Magistral 推理模型,其中包括一个针对消费级 GPU 高效部署而优化的开源 24B(240 亿)参数版本。此次降价和新模型的发布预示着专注于推理的大语言模型竞争日益激烈,并在 Token 效率和性价比方面取得了显著进步。
推理成本低到无需计量。
2025年6月9日至6月10日的 AI 新闻。我们为您检查了 9 个 subreddit、449 个 Twitter 账号和 29 个 Discord 社区(218 个频道和 9374 条消息)。预计节省阅读时间(以 200wpm 计算):715 分钟。我们的新网站现已上线,支持完整的元数据搜索,并以精美的 vibe coded 方式展示所有往期内容。请访问 https://news.smol.ai/ 查看完整的新闻细分,并在 @smol_ai 上给我们反馈!
每隔 3-4 个月,前沿 LLM 的成本就会大幅下降(2024年3月,2024年8月,2025年1月),今天我们确认了 o3 降价 80% 的消息,使其名义成本与非推理模型 GPT 4.1 持平。(如果你怀疑降价是因为 distillation,这也可以理解,但这已被明确否认)。当然,真正的成本在于推理 token 的效率,幸运的是,o3 在这方面显著优于 Gemini 和 Deepseek:
在 o3 降价的同时,o3 pro 也发布了。如果 o1/o1-pro 的关系成立,它大致相当于 10 个穿了件长风衣的 o3(价格也是如此)。
这一消息恰好在 Mistral 的 Magistral 推理模型发布的同一天发布——包括一个 24B 开源版本和一个 Medium 闭源版本——否则后者本会占据今日头条。我们非常高兴 Mistral 继续发布优秀的开源模型,但不幸的是,对于大多数 AI 工程师来说,o3 降价可能是今天更相关的消息。
AI Twitter 回顾
大语言模型 (LLMs) 与 AI 模型发布
-
OpenAI 的 o3 和 o3-pro 模型更新及价格变动: OpenAI 宣布其 o3 input tokens 大幅降价,降幅达 80%,降至 每百万 tokens 2.00 美元,使 o3 比 GPT-4o 更便宜,并在价格上与 Anthropic 的 Claude 4 Sonnet 和 Google 的 Gemini 2.5 Pro 展开竞争,导致一些人宣布“价格战”开始 @scaling01, @scaling01, @polynoamial, @nrehiew_/。他们还发布了 o3-pro,这是一个更智能、更可靠的 o3 版本,旨在“思考更久”,定价为 每百万 tokens 输入 20 美元,输出 80 美元 @scaling01, @kevinweil, @polynoamial。早期测试者报告称 o3-pro 比 o3 “强得多” @gdb,且在编程和推理任务中比 o1-pro “便宜得多、快得多、精确得多” @flavioAd。然而,初步的 ARC-AGI-1 和 ARC-AGI-2 基准测试结果显示,尽管 o3-pro (high) 的价格是 o3-high 的 8 到 9 倍,但其表现并未超过后者 @scaling01, @scaling01。OpenAI 在发布期间还经历了 ChatGPT 和 API 的“错误率和延迟升高”,随后这些问题得到了修复 @OpenAI。API 已恢复 100% 的功能,Plus 用户 的 o3 速率限制也翻了一番 @stevenheidel, @kevinweil。Perplexity AI 迅速为其网页端和移动端应用的 Pro 用户 集成了 o3 @perplexity_ai, @AravSrinivas。
- Mistral AI 的 Magistral 推理模型: Mistral AI 发布了 Magistral-Small 和 Magistral-Medium,这是其首批推理模型,旨在实现“领域特定、透明且多语言的推理” @MistralAI。Magistral Small 是一款基于 Mistral Small 3.1 的开源 24B parameter model,能够在单块 RTX 4090 上运行,具备 128K context(40k 有效)@scaling01,@reach_vb。它支持 MLX、llama.cpp、transformers 和 vLLM @reach_vb。其底层方法论 GRPO 涉及一些修改,例如移除 KL Divergence 并按总长度进行归一化 @danielhanchen。初步评估显示 Magistral Small 的表现逊于 Qwen3-32B 和 Qwen3-30B-A3B @scaling01,尽管有人注意到它在 Le Chat 等平台上的速度令人印象深刻 @qtnx_。
- 其他值得关注的 LLM/AI 模型更新与发布:
- MiniCPM4:一个专为终端设备设计的超高效 LLM 系列,已在 Hugging Face 上发布 @OpenBMB。
- Google DeepMind 展示了用于 Gemini App 和 Flow 的 Veo 3 Fast,据称速度提升了 2x,并具有更好的视觉质量和一致性 @demishassabis,@demishassabis。
- Vui:一个新的 开源对话生成模型,拥有 100M parameters,在 40k 小时音频上训练而成,作为 NotebookLM 的替代方案发布 [@akhaliq](https://twitter.com/freddy_alfonso/status/1932149790747525396),@kylebrussell。
- Gemma 3n:一款桌面优化模型(2B 和 4B),现在可通过 LiteRT-LM library 在 Mac/Windows/Linux 上使用 @demishassabis。
- Krea AI 推出了其首款图像模型 Krea 1,承诺提供“卓越的美学控制和图像质量” @_akhaliq。
- MeiGen-MultiTalk 发布了一个音频模型的代码和 checkpoints @TomLikesRobots。
- DatologyAI 发布了两个 state-of-the-art CLIP ViT-B/32 变体,针对分类和检索进行了优化,且仅通过数据策展 (data curation) 即可实现 @code_star,@sarahcat21。
AI 基础设施与工具
- Agentic 框架与开发:
- LangGraph 推出了更新,包括 node/task caching 和内置的 provider tools,以实现更高效且可配置的工作流 @LangChainAI。Uber 已成功使用它构建了 AI developer agents,每天生成“数千次代码修复”,为 5,000 名开发者节省了 21,000 多小时 @LangChainAI。Box 的 CTO Ben Kus 也详细介绍了他们如何使用 LangGraph 重构其具有 Agentic 架构的 AI,以驱动其 AI Agent 团队 @LangChainAI。
- DSPy 因其将 Prompt 视为“编译输出”而非“临时产物”的前瞻性而受到关注,预计到 2026 年,许多平台都将体现出“DSPy 精神” @lateinteraction。
- Agents & MCP Hackathon 吸引了超过 400 份提交,利用了 Claude API、Gradio 和 Modal 等工具 @_akhaliq,LangChain 的 GPT Researcher 现在集成了 Model Context Protocol (MCP) 适配器,用于智能工具选择 @LangChainAI。
- 计算与优化:
- SkyPilot 现已出现在 AWS SageMaker HyperPod 教程中,结合了 HyperPod 的可用性/节点恢复能力与 SkyPilot 的 AI 执行便捷性 @skypilot_org。
- vLLM 宣布在 vLLM 0.9.1rc1 中支持 Magistral @vllm_project,并在 Berkeley Sky 展示了用于开源支持的新型 AMD MI355X 系统 @vllm_project。
- Modular 展示了在 AMD MI300/325 上的“行业领先性能”(比 vLLM 0.9 快 50%),并预告了对 Blackwell 的支持以实现计算可移植性 @clattner_llvm,@clattner_llvm。他们还与 NVIDIA 合作,在其 Hack Weekend 活动中设立了 GPU 奖池 @clattner_llvm。
- 数据与评估:
- 强调了数据策展对于模型改进的重要性,DatologyAI 证明了仅通过数据策展即可实现最先进的 CLIP 模型性能 @sarahcat21,@code_star。
- 由 @sh_reya 和 @HamelHusain 开设的 AI Evals for Engineers & PMs 课程被证明对数据科学家和工程师构建及调试 AI 应用(包括多轮对话追踪)“非常有帮助” @HamelHusain,@HamelHusain,@HamelHusain。
- 发布了一个包含 5,821,948 个医学问答对的新型大规模数据集 MIRIAD,旨在改进医学领域的 RAG @lateinteraction。
- NVIDIA 在 Hugging Face 上发布了 Nemotron-Personas(一个包含 10 万个合成生成的 Persona 的开源数据集)以及 PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams(一个 3TB 的合成驾驶数据集)@_akhaliq,@_akhaliq。
- 编辑器与 IDE 集成:
- Claude Code 现在与 VS Code 和 JetBrains IDEs 进行了更深度的集成,提供对打开文件的访问和 LSP diagnostics @_sholtodouglas。
- Cursor AI 集成了 o3 降价,使 o3 成为用户的可行“主力工具” @cursor_ai,并提到了一段关于 Cursor 的 Anthropic 访谈 @AnthropicAI。
- Zed 编辑器 改进了其 Git UI 和 Agentic 编辑器侧边栏,提供比其他编辑器 2-5ms 延迟更快的性能 @vikhyatk。
AI 应用与用例
- 企业与工作流中的 AI Agents:
- LlamaIndex 正在助力构建“生产环境中的实用文档智能体”,用于表单填写等用例 @jerryjliu0。他们展示了如何将任何 LlamaIndex agent 转换为用于“自定义 FidelityFundEngine”的 MCP server @jerryjliu0,以及如何在 Databricks Data + AI Summit 上构建知识智能体 (Knowledge Agents) 来自动化工作流 @jerryjliu0。
- Jerry Liu 还解释了如何使用 LlamaCloud 设置针对公司申报文件的解析与提取智能体,并与 LlamaIndex workflows 集成以生成报告,从而弥合 AI 与业务价值之间的鸿沟 @jerryjliu0。
- Scouts 作为“全天候监控网络”以获取特定用户兴趣内容的 AI 智能体正式发布 @krandiash。
- Weaviate Agents 因其能够实现“自主 AI 驱动的工作流”而受到关注 @bobvanluijt。
- AI agents 的概念正迫使人们重新思考“职业、商业或个人”互动,过去在这些互动中为获取信息而浪费时间曾被视为是有益的,而现在这种转变被认为是一件“非常好的事情” @francoisfleuret。
- 生成式 AI 与内容创作:
- Kling AI(可灵 AI)介绍了其视频生成模型负责人万鹏飞,他在 CVPR 2025 上发表了题为“可灵介绍及我们对更强大视频生成模型的研究”的演讲 @Kling_ai。Kling 还因其自动创建“视频匹配的音频和环境音”的能力而备受瞩目 @Kling_ai。
- Google 的 Veo 3 在视频生成中实现了“一致的角色 + 氛围”,这在以前的 text-to-image 提示词中一直是一个挑战 @demishassabis。
- Higgsfield AI 宣布为其即将到来的 AI 超级巨星“说唱偶像时代 (Rap Icon era)”提供“来自 Suno Music 的超写实人声” @_akhaliq。
- Runway ML 正在开发“带来全新体验的新产品”,旨在使创作“尽可能自然和简单”,并“感觉像你的创意伙伴” @c_valenzuelab。
- 其他应用:
- Sakana AI 与日本北国银行 (Hokkoku Bank) 合作开发“银行专用的 AI 驱动工具”并为解决地区问题做出贡献,此前该公司已与三菱日联银行 (Mitsubishi UFJ Bank) 建立了全面合作伙伴关系 @SakanaAILabs, @hardmaru。
- Google DeepMind 首席执行官 Demis Hassabis 在 IAS(普林斯顿高等研究院)的一个研讨会上讨论了 AI 在数学领域的潜力 @GoogleDeepMind。
- Perplexity AI 更新了其 Discover 文章,默认进入“摘要 (Summary)”模式以方便轻量阅读,并提供“报告 (Report)”模式开关以进行深度阅读 @AravSrinivas。
- You.com 与 TIME(时代周刊)合作,向其数字订阅用户提供免费的 Pro 订阅 @RichardSocher。
AI 行业与市场动态
- Apple 的 WWDC 发布与 AI 策略:
- Apple 的 WWDC 发布内容,特别是关于 Apple Intelligence 和新 iOS UI (Liquid Glass) 的部分,引发了广泛讨论。批评者将新设计称为“Windows Vista 时刻” @zacharynado 和“毫无灵魂的 UI 更新” @scaling01,将其比作“初级设计师发现了渐变工具” @dzhng。一些人表示失望,认为与 iPod mini 等过去的 Apple 产品相比,新设计缺乏“魔力或惊喜” @raizamrtn。
- “Liquid Glass”设计也因潜在的易用性问题受到批评,John Carmack 指出“半透明 UI 通常不是个好主意”,并且“Windows 和 Mac 以前都走过这条路” @ID_AA_Carmack。
- 尽管存在批评,一些人也提出了潜在的优势,认为单色 UI 可能会导致“减少成瘾习惯” @zachtratar。
- Apple 推出了他们的机器学习框架 MLX,并在 WWDC 2025 上为 Python 和 Swift 开发者提供了新的网页和分会场 @ClementDelangue, @awnihannun。
- Safari 26 将获得 WebGPU 支持 @jeremyphoward,而 macOS 26 将获得“对 Linux 容器的原生支持” @jeremyphoward。
- AI 人才与投资:
- 据报道,Meta 为 AI 人才 提供超过 200 万美元/年 的薪酬,但人才仍流向 OpenAI 和 Anthropic @slashML。关于 Meta 在 Scale AI 上的策略以及新的“Superintelligence Lab”也存在疑问 @Yuchenj_UW。
- 关于英国 AI 和生物科学行业的讨论仍在继续,人们担心美国公司的“园林假”(garden leave)政策阻碍了当地人才流动并使美国收购者受益,尽管政府发布了像 OpenBind 这样的公告 @NandoDF, @NandoDF。
- ZyphraAI 正在扩大其在 Palo Alto 的团队,开放了涵盖多模态基础模型和 RL 的职位 @QuentinAnthon15。
- AI 生态系统与增长:
- Stripe 的宏观数据(如支付量)似乎受到 AI 的影响,表明 AI 的采用率正在增长 @BorisMPower。
- AI Engineer World’s Fair 强调“初创公司手册正在实时重写”,并强调了发布活动心得的重要性 @swyx, @swyx。
- Common Crawl Foundation、IBM、AI Alliance 和 BrightQuery 将于 6 月 20 日 在 IBM 纽约总部 举办一场 “UN Conference”,讨论 AI、政策和负责任的数据 @CommonCrawl。
- DeepLearning.AI 发布了关于 Data Storytelling(数据叙事)的新课程,作为其 Data Analytics Professional Certificate 的一部分,强调其对业务表现和收入增长的重要性 @DeepLearningAI。
AI 研究与哲学
- AGI 与 AI 能力:
- Finbarr Timbers 提出,RL + GPT 风格的 LLM 可能“通向 AGI” @finbarrtimbers。
- Ilya Sutskever 在多伦多大学(U of T)荣誉学位授予仪式上的演讲被描述为“你能听到的最睿智的话语”,一些人将其见解解读为 code-LLM 即将迎来飞速发展,这可能导致大规模的就业流失,甚至波及 AI 开发者 @NandoDF, @sbmaruf。
- Sam Altman 表示,“廉价到无需计量的智能已触手可及”,并且“我们不知道能超越人类水平的智能多远,但我们即将揭晓答案” @sama, @scaling01。
- François Chollet 强调 metacognitive sensitivity(元认知敏感度)对学习率至关重要,它能实现对心理模型的内省和批判 @fchollet。
- 架构与优化:
- 论文 “Cartridges” 探讨了将扩展 cache-time compute 作为 ICL 的替代方案,适用于大量用户消息引用同一大型文本语料库的场景,旨在减少 38.6 倍的内存占用 @simran_s_arora, @simran_s_arora。这项工作及类似研究表明,KV cache 具有巨大的压缩空间 @gallabytes。
- 关于 Hierarchical Masked Auto-Regressive Image Generation (HMAR) 的研究重点是针对自回归图像生成的硬件高效重构,以充分利用 tensor cores @realDanFu。
- Reinforcement Pre-Training (RPT) 使用 RLVR 将 next-token prediction 重新定义为推理任务 @kylebrussell。
- Grafting 被引入作为一种新方法,用于将预训练的 diffusion transformers 蒸馏到新架构中,从而能够以 2% 的预训练成本 为新原语交换 attention @realDanFu。
- 社会影响与伦理:
- 由 @random_walker 和 @sayashk 撰写的 “AI as Normal Technology” 论文强调,需要认真对待超级智能和生存风险(existential risk)等观点,超越社交媒体上的口水战,进行富有成效的辩论,并承认不同的世界观 @random_walker。
- 人们对 AI personas(AI 人格)表示担忧,尤其是多模态和实时的 AI 人格,它们可能具有成瘾性,并且“看起来比人类更好” @sirbayes。
- SEAL 和 Scale AI 的 Red Team 发布的一篇立场论文概述了从 LLM red teaming 中吸取的教训,重点关注在更广泛的系统安全和监控中,哪些因素对模型安全至关重要 @summeryue0。
- 关于 AI 能源消耗 的辩论强调了数据中心用电量的急剧增加(到 2030 年可能翻倍),但也指出了 AI 在优化能源系统方面的潜力,其减排效果可能是数据中心预期能耗的五倍 @DeepLearningAI。
幽默、梗与一般观察
- 对 Apple WWDC 和 UI 的反应: 许多人对 Apple 的 WWDC 发布会感到幽默,评论如“笑死,Apple 的模型听起来像 2010 年代的产物” @cto_junior,并将新 UI 比作 “Windows Vista” @skirano,甚至调侃说 Apple 在广告中表现得像“群聊里最后一个听懂笑话的人” @swyx。新设计的术语 “Liquid Glass” 也成为了嘲讽的对象 @fabianstelzer。
- 对 AI 进展和炒作的观察: 讨论中包含了对 AI 快速发展节奏的幽默看法,例如 “AI 享乐跑步机” (AI hedonic treadmill),即新工具迅速让旧工具显得“坏了” @rishdotblog,以及观察到“研究和产品开发的迭代速度远超大多数人的跟进能力” @c_valenzuelab。
- 一般性评论与讽刺: 关于智能本质的笑话(“我的大脑之所以特别且有意识,是因为它是肉做的” @vikhyatk 以及 Terry Bisson 的短篇小说《他们是肉做的》 @vikhyatk),对科技行业的观察(“‘技术人员’ (members of technical staff) 这个称呼很贴切,因为 AI 圈里有很多混蛋” @typedfemale),以及关于编程和 AI 使用的自嘲(“试着向我妻子解释该用哪个 ChatGPT 模型 😅” @finbarrtimbers)非常普遍。
- 非技术/政治内容: @SerranoAcademy 的大部分推文集中在与加沙相关的国际抗议和政治事件、Greta Thunberg 被捕以及欧洲议会议员遭绑架 @SerranoAcademy, @SerranoAcademy, @SerranoAcademy。为了完整性,这些推文在此进行了总结,但它们超出了本摘要的核心技术重点。
AI Reddit 综述
/r/LocalLlama 综述
1. Mistral Magistral 推理模型发布与讨论
- mistralai/Magistral-Small-2506 (Score: 389, Comments: 118): [Magistral-Small-2506](https://huggingface.co/mistralai/Magistral-Small-2506) 是一个 24B 参数的 LLM,衍生自 Mistral Small 3.1 (2503),通过来自 Magistral Medium 轨迹的 SFT 和 RL 增强了推理能力,目标是高效的本地部署(量化后可运行在 RTX 4090 或 32GB RAM 的 MacBook 上)。它提供强大的多语言(40 多种语言)能力,128k 上下文窗口(最佳效果 <40k tokens),并采用 Apache 2.0 许可。基准测试显示 Magistral-Small 达到了
70.68%的 AIME24,62.76%的 AIME25,68.18%的 GPQA Diamond,以及55.84%的 Livecodebench,略低于 Magistral-Medium。目前已提供量化的 GGUF 模型和部署指南(llama.cpp, lmstudio, ollama, unsloth),最佳推理建议使用 temperature=0.7, top_p=0.95,并在 llama.cpp 中使用-jinja。更多详情请参阅 Mistral 的 博客。 评论强调了对 Magistral-Small 相对于更大模型(如 Qwen3 32B)基准测试位置的兴奋,并指出了该模型宽松的 Apache 2.0 许可证。技术用户推荐了特定的推理参数,并指出通过增加 Ollama 上下文长度可能会进一步提升性能。通过 Unsloth 进行的社区微调和转换 (GGUF) 支持因其部署灵活性而受到赞誉。- danielhanchen 提供了运行 Magistral-Small-2506 GGUF 的直接使用说明,指定了关键的推理参数:
temperature=0.7,top_p=0.95,并强调了在 llama.cpp 中使用-jinja标志以确保正常运行的重要性。他们包含了 llama.cpp 和 Ollama 的命令行示例,并建议将 Ollama 的上下文长度至少增加到 8K (OLLAMA_CONTEXT_LENGTH=8192) 以优化性能。详细的部署和使用指南可在链接文档中找到:https://docs.unsloth.ai/basics/magistral - Only-Letterhead-3411 表达了将 Magistral-Small-2506 与 Qwen3 32B 进行基准测试的兴趣,暗示了它在 30B+ 模型规模中作为竞争对手的认可度。这反映了社区对 Magistral 与其他领先大模型之间性能和能力对比测试的兴趣。
- danielhanchen 提供了运行 Magistral-Small-2506 GGUF 的直接使用说明,指定了关键的推理参数:
- AppearanceHeavy6724 对 Magistral-Small-2506 的通用能力表示担忧,推测其在非编程任务中的表现可能明显不佳。这突显了关于该模型在编程语境之外的领域泛化和适用性的悬而未决的问题。
- 来自 Mistral 的全新权重开放推理模型 (Score: 303, Comments: 59): Mistral 发布了 Magistral,一个权重开放的推理模型,技术细节可在其 新闻公告 和 官方论文 中找到。值得注意的是,Magistral-Small-2506 的 GGUF 量化版本已在 Hugging Face 上提供,并能与下游工具顺畅协作。这个 24B 参数规模的模型在基准测试中表现出色,尤其是在推理方面,目前已有关于其公开发布或与 Qwen 等竞争模型对比的推测。在 Cerebras 硬件上运行 Le Chat 等应用时显示出显著的推理加速(据报道在 Flash Answers 模式下可达 1000 tok/s),突显了硬件与模型的协同效应。 社区讨论集中在 24B 模型的竞争表现、对与 Qwen 进行真实场景基准对比的兴趣,以及未来发布更大模型的展望。用户积极评价了快速推理模式对于以推理为中心的应用的实用性,特别是利用 Cerebras 硬件时。
- 讨论强调了与 Mistral 合作的 GGUF 量化工作,通过 UnsLoTh 的 Hugging Face 仓库 确保了 Magistral-Small-2506 模型在不同硬件上的优化兼容性和快速部署。
- 用户请求在新的 Mistral 推理模型与替代方案之间进行技术对比,特别是 Qwen(关注其在真实任务中的表现),以及将 DeepSeek 风格的推理蒸馏到 Mistral-small 架构中的 MistralThinker-v1.1。
- 用户观察到 Mistral Medium 令人印象深刻的基准测试结果,但注意到缺乏较小变体(如 Mistral Small)与 Qwen 3 32B 的公开对比基准,这表明公开可用的性能数据存在空白,且可能存在规避基准测试的情况。
- Magistral — Mistral AI 的首个推理模型 (Score: 114, Comments: 10): Mistral AI 宣布了“Magistral”,这是他们首个专注于推理的语言模型,如链接中的预览图所示。一位用户对 Magistral 的摘要能力进行了基准测试,发现其与 Qwen-32B 具有竞争力,但指出它曾两次出现无限思考循环;目前尚未提供关于模型大小、架构或训练数据的细节。截至本次公告,尚无关于开放模型权重的公开确认。 热门辩论质疑了权重开放的可用性,一条技术评论指出 Magistral 的摘要质量与 Qwen32B 相当,但强调了特定的失效模式(无限循环),建议需要对其部署的安全性和鲁棒性进行进一步评估。
- 一位用户报告称,在测试该模型时,它曾两次进入无限思考循环,这引发了对潜在推理 Bug 或控制逻辑缺陷的担忧。然而,除此之外,其摘要性能被观察到与该领域已知的强力模型 Qwen-32B 持平。
2. Qwen3 0.6B Embedding 模型语义搜索演示
- 使用 transformers.js 在浏览器内利用 Qwen3 0.6B Embedding(无 reranker)进行的语义搜索演示 (评分: 116, 评论: 6): 该帖子描述了一个语义搜索演示,利用新发布的 Qwen3 0.6B Embedding 模型,通过 transformers.js 实现浏览器内检索。该实现为 Embedding 模型使用了 ONNX 量化权重,并根据基础的余弦相似度(cosine similarity)对查询结果进行排序,因为 Qwen3 reranker 模型当时还没有 ONNX 量化版本。可视化界面在用户可编辑的“记忆库”中,根据 Embedding 相似度为每个节点映射最多三个连接;考虑到本地推理(local inference),该系统目前可扩展至 20-100 个条目。源码可在 GitHub 上获取,并在 HF Spaces 提供在线演示。 后续的技术询问关注 ONNX 量化模型的文件大小,表明了对部署细节和硬件要求的兴趣。
- 一位评论者询问了用于浏览器内语义搜索的 Qwen3 0.6B 量化 ONNX 模型文件的大小,暗示了对客户端部署的可行性和存储要求的关注。这对于在带宽和本地资源受限的情况下直接在浏览器中运行 Transformer 模型应用至关重要。
- Google Diffusion 告诉了我它的系统提示词(system prompt) (评分: 146, 评论: 30): 一名用户声称获取了 “Gemini Diffusion” 的完整系统提示词,这是一个实验性的 Google 文本扩散语言模型,被宣传为非自回归(non-autoregressive)模型,专门为生成具有细粒度设计约束的代码和 Web 资产而定制。该提示词详细说明了非常具体的 HTML/CSS/JS 生成要求(特别是用于 Web 的 Tailwind CSS 和用于游戏的自定义 CSS)、图标处理、布局性能(例如防止 CLS)、并强调准确的指令遵循、现代美学和代码自包含性。关于提示词忠实度的讨论非常重要,因为该提示词包含了将其与自回归 LLM 区分开来的约束条件,并揭示了内部操作指南和安全边界(例如:禁止访问外部文件、2023 年 12 月的知识截止日期以及对用户请求的严格处理)。 热门评论对该提示词的真实性表示怀疑,强调了 LLM 输出中存在幻觉(hallucinations)的可能性,并建议通过 https://github.com/guy915/LLM-System-Prompts 等仓库进行交叉验证。一条评论提供了截图作为可能的证据,但注意到目前缺乏来自 Google 的直接确认。
- 一位评论者质疑声称揭示模型系统提示词的输出的真实性,提出了幻觉问题——即模型可能会伪造看似合理但错误的信息——并询问如何验证此类文本是否真实反映了底层的系统提示词,而非生成的普通内容。
- 另一位用户强调了其中的不确定性,指出我们无法确定提供的文本究竟是真实的系统提示词,还是仅仅为了响应用户提示而生成的输出,突显了从 Google Gemini Diffusion 等语言模型中可靠提取系统提示词或元提示词(meta-prompts)的挑战。
3. 前沿 AI 架构:Apple Parallel-Track MoE 与 Meta 超级智能计划
- Apple 在其边缘模型中使用 “Parallel-Track” MoE 架构。背景信息。 (Score: 132, Comments: 19): Apple 的 2025 基础模型栈具有两大主要创新:(1) 一个高效的约 3B 参数端侧 LLM,采用 Mixture-of-Experts (MoE) 架构并结合分层 KV cache 共享,在 Apple silicon 上实现了低延迟、低内存占用的快速推理;(2) 一种新型的服务器端 Parallel-Track MoE (PT-MoE) 架构,旨在通过最小化同步(依赖并行处理和有限/分布式通信)实现横向扩展。值得注意的是,服务器模型还使用了 ASTC (Adaptive Scalable Texture Compression)——一种 GPU 纹理压缩标准——进行压缩,从而实现了无需额外计算开销的硬件级权重解码。该模型流水线集成了一个自定义的基于 ViT 的编码器,并带有用于高效视觉语言任务的 ‘Register-Window’ 机制,在经过过滤的网络规模数据和合成多模态数据上进行了训练。完整的技术细节见 Apple AI 官方博客。 评论强调了巧妙复用 Apple 的 ASTC GPU 解码硬件来加载 LLM 权重,并对边缘模型的实际能力进行了讨论——有人认为其仅能胜任基础任务(摘要、通用回答),也有人认为其可用于更多交互式任务。技术社区对本地私有推理与分层云端回退之间的划分表现出浓厚兴趣。
- 一位用户强调了 Apple 使用基于块的纹理压缩(特别是 Adaptive Scalable Texture Compression—ASTC)来压缩 ML 模型权重,利用 Apple GPU 中专用的 ASTC 解码硬件实现高效的端侧推理,且不产生额外的计算开销。这代表了对原本用于图形处理的现有 GPU 硬件的创新性重新利用,现在使边缘 AI 工作负载受益。
- 一份技术分析提出,Apple 的边缘/本地模型可能在 3B 参数范围(与 Qwen 2.5 3B 等模型相当),并辅以 LoRA 进行任务专业化(few-shot 或 prompt tuning)。本地模型处理轻量级摘要和通用响应任务,而更重的请求则卸载到更强大的服务器端 LLM(可能是 Qwen 3-235B-A22B 规模),对于 Apple 范围之外的任务,最终会回退到 ChatGPT。
- Mark Zuckerberg 亲自动手招聘,组建新的“超级智能” AI 团队 (Score: 265, Comments: 122): Mark Zuckerberg 正在亲自监督 Meta 内部一个新的“超级智能” AI 团队的组建,目标是开发 AGI。此前,Meta 内部对 Llama 4 的表现以及大型 “Behemoth” 模型的延迟感到不满。该战略涉及招聘约 50 名顶尖 AI 研究员,并整合来自 Scale AI(近期估值 280 亿美元)等合作伙伴的顶尖人才,旨在彻底改革 Meta 的 AI 技术栈和产品集成。这种直接干预反映了 Meta 紧跟全球 AI 领导者的紧迫感,同时也正值 Meta 因在基础 AI 基础设施领域的激进扩张而面临更严格的反垄断审查之际。Bloomberg 文章 热门评论对组建精英团队的有效性表示怀疑,提到了以往因团队内部政治和设计分歧而导致的失败,并质疑 Meta 在落后于中国 LLM 的情况下追求 AGI 的准备情况。还有人猜测现有团队(如 Llama 团队)是否缺乏能力,并怀疑 Meta 在当前领导结构下能否交付突破性成果。
- 一位评论者描述了一个技术管理陷阱:由顶尖人才组成的“精英”团队导致了设计过程的碎片化和政治问题;不断变化的需求和不兼容的组件接口导致项目严重延误并最终失败,这凸显了 Meta 在组建“超级智能”团队时采取类似做法的风险。
- 对 Meta 的技术定位提出了质疑,建议他们在认真讨论超级智能之前需要“赶上中国模型”。这意味着 Meta 的 LLM(如 Llama)在基准测试或能力方面落后于领先的中国模型。
- 在家使用 Claude - 适用于组件和 Tailwind 的新型 UI 生成模型,提供 32B, 14B, 8B, 4B 版本 (Score: 151, Comments: 45): Tesslate 发布了一套受 Claude 启发的 UI 和前端代码生成模型 (UIGEN-T3),可在 Hugging Face 获取 32B, 14B, 8B 和 4B 参数版本。这些模型针对细粒度组件和完整网站代码合成(Tailwind CSS, React 语法)进行了优化,并基于 Qwen3 进行微调(14B, 4B 提供 GGUF 模型)。值得注意的是,Tesslate 使用其 TframeX agent 进行训练数据清洗,并使用 UIGENEVAL Benchmark 进行评估。开发者警告称,标准量化会损害推理完整性——建议使用 BF16 或 FP8——并正在寻求合作以在 vLLM 中实现更好的 INT8 支持。许可协议允许免费的研究和个人使用,商业使用需获得许可。 专家评论证实,与标准的 Qwen3 微调模型相比,该模型在 UI 任务上的输出质量有显著提升。讨论围绕量化权衡展开,特别是低精度下推理能力退化的敏感性。
- Tesslate 团队强调了其新型 UI/前端代码生成模型的技术细节,强调了预训练和后训练推理引擎、使用专有 TframeX agents 清洗的训练数据,以及使用其 UIGENEVAL 框架进行的基准测试。他们指出标准量化会对推理链产生不利影响,建议使用 BF16 或 FP8 以获得最佳结果,并提到正在为 vLLM 开发更强大的 INT8 实现。该模型采用自定义许可,允许免费研究和非商业用途,商业许可可根据要求提供。
- 一位评论者指出该模型是 Qwen3 14B 的微调版本,并提供了 14B 和 4B 版本的 GGUF 链接。他们报告称,在评估 Google 风格的线程渲染时,与基础 Qwen3 14B 相比,UI 生成质量有所提高——产生了更准确、更具视觉吸引力的结果,并通过示例输出提供了轶事式的基准测试。
- 有一个关于图像输入的各种技术查询:一位用户询问该模型是否可以处理 UI 设计截图并生成相应的代码,并指出之前的 4B 版本不支持图像。他们表达了测试新模型版本的意图,表明对多模态(图像转代码)能力的兴趣,而这目前是所提供的 4B 变体的局限性。
- 告别 14 小时调试噩梦的 Vibe-coding (Score: 251, Comments: 102): 该帖子详细介绍了在使用 AI 辅助编程时避免过度调试循环的策略,强调了诸如“三次失败规则”(在 AI 三次修复尝试失败后重启)、频繁重置上下文以解决 LLM 上下文窗口限制(每 8-10 条消息重启一次)、简化问题陈述(ELI5 测试)、细粒度版本控制(在每个功能完成后提交)以及在出现深层问题时重写损坏的组件而不是坚持调试等规则。作者通过基准测试表明,这些实践可减少约 70% 的调试时间。帖子提供了明确的工作流示例以供复现。文中揭示并利用这些技术缓解了相关的 LLM 局限性,如上下文窗口截断和代码库漂移。 热门评论强调,基础编程知识对于有效引导 LLM 至关重要,并指出无论是否使用 AI,细粒度且具描述性的 commit 都应是通用实践。其他人则主张代码模块化和职责单一的小规模函数,以进一步简化人工和 LLM 驱动的开发,提高调试效率和可维护性。
- 多位评论者强调,AI 辅助编程对于具备现有编程知识的用户来说效果显著,因为 LLM 需要明确的方向和监督才能交付准确的结果。理解代码结构和功能可以进行适当的 prompt engineering 并验证模型输出,从而减少调试时间。
- 软件工程的最佳实践,例如在完成每个功能后提交到版本控制系统并编写描述性的 commit messages,即使在 AI 的辅助下也依然至关重要。这些实践有助于可追溯性和协作,尤其是在代码变更频繁或 AI 生成的代码需要迭代优化时。
- 有效利用 LLMs 进行编程与既定的软件设计原则相契合:将问题分解为单一职责的函数、增量式开发以及利用模块化,这些都能同时辅助人类和 AI 贡献者。这种方法能最大限度地减少上下文切换错误,并简化调试、测试和功能添加的过程。
其他 AI Subreddit 回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo
1. OpenAI o3 与 o3-pro:降价、模型发布及社区反应
- o3 降价 80%!! (Score: 146, Comments: 42): 附图是 Sam Altman 在社交媒体上发布的公告,透露 “o3”(推测是 OpenAI 的模型,如 GPT-3.5 或 GPT-4o)的成本降低了 80%,新价格为输入 $2/1M tokens,输出 $8/1M tokens,分别低于之前的 $10 和 $40。该帖子对比了新旧价格,并通过提及对 “o3-pro” 层级基于性能的定价充满信心,释放了竞争信号。这次调价可能会显著降低集成 OpenAI APIs 的公司的运营成本,从而影响市场动态并扩大 AI 的普及度。 一些评论者推测,降价可能伴随着模型性能的下降,以激励用户转向 “pro” 层级,而另一些人则注意到可能存在的不稳定性(“这就是它宕机的原因吗?”),对可靠性与成本之间的权衡提出了质疑。
- 有人怀疑 80% 的降价可能伴随着性能缩水,从而将当前产品定位为能力较低的版本,使 pro 版或更昂贵的版本在对比下显得明显更好。
- 提出了一个关键的技术问题,即 “o3” 模型与 Gemini 和 Claude Power 等其他领先模型相比如何,并征求用户关于实际质量和性能差异的直接体验。
- 一位评论者暗示此次定价举措是对 Gemini 等模型竞争的直接回应,表明该公司此前拥有相当大的定价灵活性,这可能暗示了高利润率或早期的价格“宰客”。
- o3 价格降低 80% (Score: 1482, Comments: 249): 图片确认了 o3 产品 80% 的降价,这与 LLM API 市场竞争压力加剧的讨论相呼应,因为 Gemini 2.5 Pro 目前以每百万 tokens $10 的价格提供类似的输出性能。该帖子和评论强调了定价动态是推动更广泛采用的驱动力,并标志着领先模型提供商之间价值主张的转变。 技术导向的评论推测,降价是一种竞争策略,而非对产能过剩的反应,强调了此类价格战对用户的益处。
- 几位评论者指出,OpenAI 的 o3 降价 80% 后,其 token 定价低于 Gemini 2.5 Pro 和 GPT-4o,引发了关于它为何现在比 4o 和 Google 的竞争产品都便宜的疑问。这一转变显著改变了高端 LLMs 之间的性价比动态。
- 提到了一个技术点,即 Gemini 2.5 Pro 目前在每百万输出 tokens $10 的价格下提供了与 o3 相当的性能,这意味着降价很可能是为了直接应对这一竞争并增加 o3 的使用量。
- 有推测认为,激进的降价可能预示着潜在的 “nerf”(模型降级或限流),这种做法有时会在模型变得更便宜或更广泛可用时出现,可能会影响推理质量或可用性。
- 让价格战开始吧 (Score: 235, Comments: 71):Sam Altman 公开宣布 o3 降价 80%,这可能指的是 GPT-3.5 或 GPT-4o API(通常简称为 “o”),并对 o3-pro 层级的性价比表示特别满意。该帖子暗示 OpenAI 的 API 定价策略发生了重大转变,可能会使大规模部署变得更加容易。 评论者推测,大幅降价可能会以降低模型质量或更严格的使用限制为代价。多位用户询问这一变化是否会导致 API Rate Limits 的提高,特别是对于 Plus 订阅者,这反映了对当前使用上限的技术担忧。
- 几位用户对模型版本、模型名称和性能之间的差异表示困惑,强调在何时使用 o3 等模型方面缺乏明确的指导或 Benchmarks。这被视为 Plus 订阅用户试图优化其工作流时的障碍。
- 技术讨论质疑,如果新模型(如 o3)需要大幅增加 Token 数量(例如增加 1.8 倍)才能达到相当的输出质量,那么大幅降价是否有意义,从而提出了实际结果成本而非仅仅是每 Token 定价的问题。
- 多条评论请求提高付费(Plus)用户的 Rate Limits,表明当前的限制(如 100 次/周)对于高级用户来说已经不够了,并且考虑到模型价格和效用的变化,可能已经落后于使用需求。
- 看来我们将看到 o3 的大幅降价 (Score: 335, Comments: 40):该帖子讨论了 OpenAI 的 GPT-4o (o3) API 即将大幅降价的迹象,引用了 OpenAI Developers 官方 Twitter 账号的暗示以及更广泛的行业传闻。技术评论亮点包括:推测输入 Token 成本仅占 LLM 服务总成本的一小部分(输出 Token 占比 “>90%”),因此输入价格下调可能不会大幅影响 API 总定价;并提到了来自 DeepSeek 等 Open-weight 模型以及 Google Gemini 和 Anthropic Claude 等竞争对手的压力。 评论者争论任何降价的真实影响,指出除非输出 Token 价格下降,否则对开发者的影响可能有限。还有人提到,由于灵活性和成本优势,人们越来越倾向于 Open-weight 模型。
- 讨论强调了推理模型的运营成本结构,一位用户指出输出 Token 占“成本的 90% 以上”,这使得输入成本的降低对整体定价的影响较小。这在价格比较和云端推理优化中尤为重要。
- 引用了来自 OpenRouter 的使用统计数据,显示 o3 的采用率明显较低(排在 20 名之外),而像 2.5 Pro 和 Sonnet 这样的模型尽管是溢价模型,仍位列前五,这表明了显著的市场偏好趋势,可能会对定价或产品重点施加压力。参见 OpenRouter 排名。
- 一位评论者断言,如果最近 o3 的降价属实,它仍然是一个极具竞争力的 SOTA 模型。他们还指出了定性差异,例如 o3 的能力比 Gemini 等模型更一致或更令人印象深刻,后者虽然不那么“懒惰”,但经常误解任务。
-
我敢打赌 o3 现在是一个量化模型 (Score: 148, Comments: 55):图片展示了一张对 OpenAI o3 模型进行性能 Benchmarking 的表格,在降价 80% 后,其每秒 Token 数 (TPS) 有显著提升,这表明后端发生了诸如 Quantization(量化)之类的变化。推测这种剧烈的速度提升(“比我以前见过的任何提升都快几倍”)意味着切换到了量化版本,因为 Quantization 可以显著提高推理速度并减小模型大小。然而,一条高赞评论指出,OpenAI 通常不会在不更改名称的情况下更换 API Slug 上的模型,因此改进也可能归功于其他后端优化,而非实际的量化。 评论者澄清了术语(Quantization 指降低参数精度,通常从 FP32 降至 int8/16 以提高速度和效率),并质疑在不更换新 Slug 的情况下更换模型的可能性,一些人建议可能是“无损后端优化”。
- 一位用户指出,在 OpenAI API 中,模型升级或重大架构更改总是会导致新的 model slug(名称),因此如果 o3 的 model slug 没有改变,它可能没有收到重大更新或 quantization,任何后端改进都应该是无损的,不会影响 inference 结果。
- 有一个用于对模型进行 benchmark 的技术提示词,强调任何关于 quantization 或更改(例如从 o3 到 4o 的过渡,或与 Blackwell 的比较)的说法都应通过实际的 benchmarking 来证实,以确定性能或输出差异。
- OpenAI 宣布 o3-pro (Score: 534, Comments: 129): OpenAI 已通过社交媒体帖子正式宣布发布 “o3-pro”,如图片所示。该公告缺乏关于 o3-pro 的能力、模型大小或预期用例的相关细节,导致评论中对命名约定(例如,提到 ‘o3-pro-medium-mini’)感到困惑。最近 OpenAI 的模型公告遵循了透明度较低的命名方案,这似乎使技术社区的理解变得复杂。 几位评论者对 OpenAI 的模型命名策略表示沮丧和困惑,指出很难辨别产品差异或改进(例如,“他们的命名方案很烂,我根本不知道这代表什么”)。没有辩论或提供实质性的技术细节或 benchmarks。
- 几位用户对 OpenAI 的模型命名约定表示困惑和沮丧,特别是像 “o3-pro-medium-mini” 这样缺乏直观性或公开文档说明的术语。这导致了关于模型能力、产品线定位和预期用例的技术模糊性,特别是与来自其他 AI 公司更透明的方案相比。
- OpenAI 宣布今日发布 o3-pro (Score: 453, Comments: 87): OpenAI 在社交帖子中宣布发布 o3-pro(推测是一个新的 LLM 层级),如公告图片和互动统计数据(1,896 次查看,44 次转发,293 个赞,时间戳为 2025 年 6 月 10 日)所示。评论中的技术讨论集中在持续存在的 LLM hallucination 问题上,用户报告称,尽管自定义提示词要求引用和直接引用,但仍存在持续的不准确性(特别是在医疗查询中),并且存在捏造的来源/URL,这表明人们怀疑 o3-pro 是否能充分解决这些关键的可靠性问题。 评论者质疑 o3-pro 在 hallucination 控制方面是否比之前的模型有实质性的改进,报告称即使是明确的引用指令也无法防止生成不准确或捏造的信息。还有人批评缺乏现场发布活动,并报告称发布期间出现了服务不稳定。
- 一位用户指出,尽管配置了 ChatGPT 的自定义指令要求引用来源和直接引用,GPT-4o(以及延伸到 O3 和潜在的 O3-Pro) 仍继续产生 hallucination,特别是在技术/医疗查询中,经常遇到捏造的统计数据和不存在的参考文献(例如声称指向官方数据的 404 URLs)。这与对 LLM 在领域准确查询方面的“可信度”以及当前针对模型 hallucinations 的缓解策略(如要求引用)的局限性的更广泛担忧相一致。
2. ChatGPT 宕机:用户体验、迷因与社区反应
- ChatGPT 宕机时的典型反应 (Score: 347, Comments: 41): 该图片是一个迷因(meme),展示了 ChatGPT 不可用时常见的用户体验和社区反应。它幽默地描绘了用户转向 Reddit 确认宕机的情况,如漫画序列所示。 评论中没有实质性的技术讨论或辩论;反应主要是对 ChatGPT 宕机时使用 Reddit 的轻松认可。
- 一位用户建议查看 OpenAI 官方状态页面 (https://status.openai.com/) 以获取 ChatGPT 运行状态的实时更新,强调了在宕机期间监控公共服务仪表板的重要性。
- ChatGPT is dead☠️☠️☠️ (Score: 6378, Comments: 1167): 图片显示了 ChatGPT 的错误界面,带有一个红色横幅和消息:“Hmm…something seems to have gone wrong.”,以及一个重试按钮,表明 ChatGPT Web 应用正经历停机或服务中断。帖子和评论确认这是一个普遍问题,表明可能是服务中断或后端故障,而非孤立的用户或设备问题。 评论者证实了这一技术问题,一些人最初怀疑是客户端问题,随后意识到这是全平台范围的服务中断。
- 提到了 OpenAI 状态页面,表明用户正经历 ChatGPT 的服务中断或性能下降,并建议查看 status.openai.com 获取实时更新。这反映了用户前端问题与 OpenAI 监控系统可能正在追踪的基础设施或可用性挑战之间的联系。
- Millions forced to use brain as OpenAI’s ChatGPT takes morning off (Score: 2538, Comments: 253): 最近的一次 ChatGPT 服务中断被 The Register 幽默地报道为“数百万人在 OpenAI 的 ChatGPT 休息一个上午后被迫动脑筋”,突显了该平台在日常数字工作流(编码、内容生成、规划)中的核心作用。在普遍的用户不便和迷因创作中,该帖子探讨了备选策略,包括使用替代 LLM(Claude, Gemini, Perplexity, Grok)或回归传统的调研/创作方法。 技术讨论有限;评论区大多是幽默和迷因,而非实质性的替代方案或工作流调整。
- 一位评论者报告称,不仅 ChatGPT Web 界面挂了,API 也无法运行。这次服务中断直接影响了依赖 OpenAI 基础设施的下游产品,一位用户讲述了他们基于 GPT-4.1 的应用如何在关键的投资者演示期间失效。这突显了在 OpenAI 等第三方 LLM API 之上构建产品时的运营风险和单点故障问题。
- It’s down… (Score: 711, Comments: 57): 该帖子包含一张迷因图片(非技术性),描绘了混乱和困惑,引用了 ChatGPT 服务中断和用户反应。图片中没有提供技术基准、模型细节或实现说明,内容偏向幽默而非技术性。 评论反映了用户对 ChatGPT 在电子邮件和讨论等任务上的依赖和沮丧,但未提供实质性的技术辩论。
- 一位用户注意到电子邮件服务甚至基本的 Reddit 功能也无法响应,这表明可能存在更广泛的服务中断,或许与支持 ChatGPT 的相同基础设施有关。
- 评论中没有明确的技术分析或深度辩论;大多数是关于用户体验的,但提到了广泛的可访问性或连接性问题,可能表明这是一次重大的多服务中断。
- Problem (Score: 634, Comments: 275): 附图显示了来自某个未识别在线系统的错误消息,内容为“Hmm…something seems to have gone wrong,” 并带有“Retry”选项。这表明服务中断或干扰影响了用户与平台的交互能力。评论和帖子链接(OpenAI Status Page)表明这是一个普遍的实时服务中断,可能影响了 OpenAI 的服务,建议用户关注状态页面以获取更新。 评论者确认这是大范围的服务中断,而非特定用户的问题。主要的技术建议是监控 OpenAI 的状态页面以了解解决进度。
- 一位用户报告称,文件上传功能在评论前约 3 小时变得不可用,而文本输入/输出直到发布前 10 分钟仍能正常工作——这表明 OpenAI 平台内的各项服务受到了交错影响。这种细粒度的时间线可能有助于将特定故障与后端停机或部署问题联系起来。
- 提到了官方 OpenAI 状态页面 (https://status.openai.com/),强调该问题是普遍存在的,并建议技术用户跟踪实时运行时间、事件报告和调查进度,以获取服务恢复的更新。
- 现在的 ChatGPT 总部。 (Score: 2229, Comments: 75): 这张图片是一个幽默的梗图,展示了一个人在技术环境中检查服务器机柜,意在代表“ChatGPT 总部”。标题和评论的背景将其设定为对 OpenAI 等 AI 服务提供商面临的故障排除和运营挑战的轻松调侃。帖子或评论中没有提供实际的技术讨论、Benchmark 或模型见解。 评论者开玩笑地讨论了 ChatGPT 的故障排除策略,包括咨询 ChatGPT 本身、转向竞争对手以及经典的 IT 解决方案——重启电源,突显了用户对 AI 服务运行时间和可靠性的普遍期望与挫败感。
- 我今天请假了——我的兄弟 (gpt) 宕机了 (Score: 335, Comments: 70): 该帖子描述了最终用户在项目工作中对 GPT(OpenAI 的 Large Language Model)的高度依赖,强调了服务中断对其工作流程和截止日期的影响。作者表达了因长时间(2 小时以上)无法访问 GPT 而产生的剧烈压力,并提到它是必不可少的生产力工具。 一条热门技术评论建议使用 DeepSeek 或 Claude 等替代 LLM,以减轻 GPT 宕机期间对生产力的干扰。
- 一位评论者建议使用 DeepSeek 或 Claude 等替代方案,提到了用户在 GPT 服务宕机时可能考虑的其他具有竞争力的 AI 语言模型。这表明可用的 LLM 日益多样化,且用户意识到在生产力或研究方面存在可行的备选方案。
3. 视频生成领域的突破:Self-Forcing 模型讨论
- 实时视频生成终于成真 (Score: 410, Comments: 87): Self-Forcing 范式引入了一种训练自回归扩散模型的新方法,通过带有键值 (KV) 缓存的 unrolled transformers 在训练期间模拟推理,从而实现实时视频生成。源代码和模型权重已发布(项目主页,GitHub),实测数据显示了其实用的生成速度:在消费级硬件(4070Ti 12GB VRAM)上,它在 45 秒内生成了 81 帧(832x480,8 步),证明了可行性并展现了初步的质量。视觉结果和进一步讨论可参考此处。 顶尖技术评论承认目前的质量仍有限制,但强调了实质性的进展和实时的可行性,特别是在中端 GPU 上。该方法被认为是迈向引人入胜的实时 AI 视频交互的基础性一步。
- Self Forcing:视频生成的圣杯? (Score: 299, Comments: 86): Self Forcing 模型(见官方项目主页)是一个 1.3B 参数的文本生成视频 (T2V) 模型,在 H100 GPU 上实现了高质量 480P 视频生成,延迟约为 0.8 秒,实时流式帧率约为 16 FPS(
在 4090 上约为 10 FPS)。据报道,它比之前的 SoTA (Wan, SkyReels, MAGI) 快150–400×,同时提供相当或更好的视觉质量,且与 CausVid 相比,运行速度相近但伪影更少,动作更真实。模型可在 Hugging Face 上获取,并可在 ComfyUI 中或通过封装器使用,通常使用 LCM 采样器,且对 VRAM 要求较低(~6GB可生成 49 帧 512x512,5 步,LCM simple,1 CFG)。 评论者强调了与 ComfyUI 集成的便利性、对 Vace 模块的支持以及在 dmd 模型上的强劲表现,同时指出了特定硬件的 FPS 基准测试,并呼吁推出更大规模的 14B 模型以增强能力。- 几位评论者详细说明了 Self-Forcing T2V 的技术部署:该模型仅有 1.3B 参数,可与原生 Comfy 或封装器配合使用,并支持 Vace 模块以实现额外的输入类型。推荐的权重文件 (‘dmd’) 因性能表现而受到关注,且只需要一个模型文件。用户强调了与 LCM Sampler 的兼容性,这是正常运行所必需的(HuggingFace 模型链接)。
- 分享了在不同硬件上的基准测试:H100 GPU 达到 16 FPS,RTX 4090 达到 10 FPS,RTX 3090 达到 5 FPS,在低端或中端显卡上性能会进一步下降。一个详细的示例指出:49 帧,16 FPS,512x512 分辨率,5 步,LCM simple,6GB VRAM,1 CFG,生成耗时 20 秒。这表明与类似规模网络上的 Causvid LoRA 等替代模型相比,中等帧率视频的计算需求相对较低。
- 用户对更大版本(例如 14B 参数模型)有需求和期待,认为这种规模扩展可以进一步提高保真度或性能。此外,还有技术好奇心指向利用流式摄像头输入将该方法扩展到实时 vid2vid(视频到视频)应用,这意味着低延迟推理的潜力。
AI Discord Recap
由 Gemini 2.5 Pro Exp 总结的摘要的摘要
Theme 1: The AI Model Arms Race: New Releases and Fierce Competition
- OpenAI 的 o3 大幅降价,引发“削弱(Nerf)”恐慌!:OpenAI 将 o3 的输入 Token 价格从 每百万 Token 10 美元 降至 2 美元,降幅达 80%,Sam Altman 在 Twitter 上确认了这一举动,而输出 Token 价格仍维持在 $40/M。这引发了关于模型可能被“削弱”以促使用户转向更昂贵的 o3 Pro(现已对 ChatGPT 和 API 的所有 Pro 用户开放)的争论,尽管一些人认为这只是幸存者偏差。
- Mistral 发布 Magistral,“推理”界的叛逆者!:Mistral AI 推出了其首个推理模型 Magistral,其中 Magistral Small (24B 参数) 版本已在 HuggingFace 开源,并在其 Magistral 研究论文中进行了详细介绍,而企业级的 Magistral Medium 可通过 API 访问。尽管声称具有透明推理能力,但一些用户注意到其存在循环和 Token 滥发问题,并质疑其推理是否真正符合人类思维。
- Gemini 备受指责,o3 与 Kingfall 大显身手!:多个 Discord 社区的用户对 Google 的 Gemini 进行了猛烈批评,一位用户称其“太烂了”,另一位则表示 Gemini 的基准测试(Benchmarks)存在造假,他们更倾向于 OpenAI 的 o3,认为它更聪明、更强大,且现在的价格显著降低。与此同时,新的 Kingfall 模型引起了轰动,LMArena 的一些测试者声称它略胜 o3 Pro,是他们用过最聪明的模型,不过也有人认为它相对于 2.5 Pro 或 o3-0605 的提升较为有限。
主题 2:赋能 AI:工具、框架与平台的创新
- LlamaIndex 推出 MCP 与自定义记忆功能!:LlamaIndex 展示了如何将 Agent 转换为 MCP server 以进行复杂的数据提取(例如从富达基金的 PDF 中提取,已在 X (原 Twitter) 上演示),并介绍了构建自定义多轮对话记忆实现的示例,非常适合 Agent 工作流,详情见此 X 帖子。这些工具旨在增强 Agent 系统中的互操作性和控制力。
- OpenRouter 推出模型页面并迎来 Magistral!:OpenRouter 推出了全新的模型页面以优化用户体验(如在 X 上所宣布),并将 Mistral 的 Magistral 推理模型添加到其平台中,这段 Magistral 思考视频展示了其效果。这些更新扩展了模型的可访问性,并为开发者提供了更详细的信息。
- Modular 与 AMD 联手加速 GPU 上的 Mojo!:Modular 宣布与 AMD 合作,通过 Mojo 释放 AMD GPU 上的 AI 性能,详情见其 Modular x AMD 博客文章。他们还展示了 Mojo 与 Python 的互操作性(演示视频 14:03 处)以及官方的 Mojo Python 集成文档。
主题 3:工程化 AI:深入探讨模型机制与优化
- Torch Compile 带来惊人的速度提升!:使用 torch compile 的工程师报告了显著的加速,其中一个案例将模型前向传播从 45 秒缩短至 1.2 秒,这突显了根据 PyTorch 文档,即使使用 CPU 指令,ARM CPU 在 FP32 上的表现也可能优于 FP16。这强调了通过 PyTorch 模型的优化编译方法可以实现的显著性能提升。
- KV Cache 压缩和动态 Token 限制成为焦点!:研究人员正在探索新的 KV 压缩 方法,详见 arXiv 上的 KV-Zip 论文,以高效管理不断增长的上下文规模。与此同时,Anthropic 的 Claude 因其在 Chain of Thought (CoT) 中独特的动态 Token 限制实现而在 Nous Research AI 中受到称赞,Nous 旨在通过在 Hermes 4 中教授用户受控的 Token 限制来解决这一挑战。
- Triton 和 ROCm 用户努力解决精度和分析问题!:使用 Triton 的开发人员讨论了 fp16 exp 和 sqrt 函数(类似于 CUDA 的 half2 函数)以及
num_warps配置的影响,同时还在解决自定义 kernels 中的精度问题(参见这个 matmul.py 示例)。同时,ROCm 用户分享了使用rocprofv2收集 SQTT 追踪记录以便在 Radeon GPU Analyzer (RGA) 中进行分析的方法,并排查了较新 PyTorch 版本上 CUDA graphs 的Memory access fault错误。
主题 4:探索 AI 前沿:用户体验、Bug 与解决方案
- OpenAI 平台遭遇 Bug 丛生和停机!:OpenAI 和 Perplexity Discord 的多位用户报告 ChatGPT 存在 Bug,部分用户经历了 100% 的消息失败率,且推理模型陷入循环。这导致一些用户咨询 OpenAI 状态页面,并考虑取消订阅或转向 Claude Pro 等替代方案。
- Gemma 3 和 DeepSeek 的微调挫败感加剧!:使用 Unsloth AI 微调 Gemma 3 模型的用户报告称,在使用
Gemma3ForConditionalGeneration处理文本数据时出现高 Loss,暗示与transformers存在版本不匹配(可能需要 transformers 4.51.3)。另外,DeepSeek R1 (0528) 虽然在 aider 基准测试中表现良好,但面临用例耗时过长的问题,据报道 fireworks 版本因 Token 限制在思考中途被截断。 - 从 Cursor 到 LM Studio,平台特定怪癖困扰用户!:Cursor 用户哀叹持续缺乏 本地模型支持,Windows 用户则庆祝即将推出的针对 后台 Agent 失效的修复。在 LM Studio 方面,Linux 用户报告缺少 开发者模式开关(该功能尚未在 Linux 版本中提供),并且明确了该平台仅用于推理,不支持图像生成模型。
主题 5:AI 在行动:展示、用例与社区协作
- 借助 Aider 和 Windsurf,Agentic 编码工作流成为现实!:一位 aider 用户在关于 Agentic 嵌入式开发的博客文章和视频中分享了他们使用 PlatformIO、Cline 和免费的 DeepSeek OpenRouter API 的 Agentic 嵌入式编码工作流。同时,Windsurf 推出了 Planning Mode(Windsurf Wave 10 博客文章),使其 AI Agent 能够通过实时 Markdown 计划管理复杂任务。
- 深度研究工具通过 spy-search 实现本地化!:开源工具 spy-search 在 LlamaIndex 社区引起关注,它提供 Ollama 兼容性以进行广泛的本地研究,并生成超过 1000 字的报告。该工具为输出受限的研究平台提供了替代方案,强调了本地处理能力。
- Mixedbread 寻找增长专家以实现 1000 万美元 ARR!:Mixedbread 是由前 Google Search 工程师组成的团队,获得了知名 AI 投资者(来自 OpenAI, Vercel, Perplexity, Deepmind 和 Scale AI)的支持,他们宣布正在寻找一位 创始增长人员。其 AI 搜索基础设施技术在 HuggingFace 上的下载量已超过 5000 万次,并声称在 MTEB 基准测试中优于 OpenAI,显示出显著的技术势头。
Discord: 高层级 Discord 摘要
Perplexity AI Discord
- Stewie 的性取向引发争议:成员们就《恶搞之家》(Family Guy)中 Stewie 的性取向展开了辩论,一些人断言他是同性恋,而另一些人则引用了创作者的确认,称 Stewie 不是同性恋。
- 进一步的评论围绕婴儿是否可以被归类为同性恋展开,引发了关于《恶搞之家》中角色和情节流动性的更广泛讨论。
- O3 价格暴跌,性能飙升:O3 的价格大幅下调(降价 80%!),这引发了人们的猜测,认为 Perplexity 现在将实施 O3 并取代 Deepsearch,因为 O3 现在比 2.5 Pro 更便宜。
- 然而,成员们指出这些模型仍然存在 Context Window 限制,因此仍有权衡需要考虑。
- Gemini 因表现不佳而受冷落:用户严厉批评了 Gemini,称其很烂、最差,并表示 Gemini 的 Benchmarks 存在造假。
- 成员们表示,相比 Gemini,他们更倾向于使用 O3。
- PPLX API 配置在截图中曝光:一名用户请求并得到了另一名用户分享的 PPLX API 配置截图,其中包括 base URL、model name 和 response mode。
- 随后有人建议更改 Completion mode 参数以解决 Error 400 报错。
- 探索社交媒体 API 集成:一名用户询问是否有人有将社交媒体 API 集成到应用中以提取账号分析数据的经验。
- 另一名用户建议使用 Claude 来生成完成此任务所需的代码。
LMArena Discord
- 用户偏好指标引发辩论:成员们辩论了用户偏好是否是评估模型的首要指标,一些人认为它很重要,因为它预测了谁能赢得用户。
- 其他人则认为现实世界的 STEM 任务和其他因素更重要,并引用了 Meta 发布的一个模型为例,该模型在用户偏好方面表现良好,但由于易用性、营销和定价等因素,并未获得太多用户。
- OpenAI 的 o3 统治竞争:成员们讨论了 OpenAI o3 与 Google Gemini 相比的功能和定价,其中一人表示 OpenAI 已经凭借 o4mini 赢得了帕累托前沿(pareto frontier),现在他们凭借 o3 价格仅为 gemini 2.5 pro 的近 50% 而彻底击败竞争对手。
- 虽然一些人认为 Gemini 有更明显的营销和更出色的图像生成能力,但其他人反驳说 o3 更聪明、更强大且更便宜,让 Google 毫无还手之力。
- Kingfall 炒作:迄今为止最聪明的模型?:一名成员将 Kingfall 炒作为他们使用过的最聪明的模型,而其他人则表达了较为冷静的兴奋,称相对于 2.5 Pro 或 0605,它并没有好那么多。
- 一名成员表示,他们认为 kingfall 比 o3 pro 稍强一点,但另一名成员强调 Kingfall 可能更好,但并非“质变”,一些人将其描述为具有 ultra vibes,而另一些人则持相反意见,认为它对 o3 Pro 来说并不是一个巨大的提升。
OpenAI Discord
- o3-pro 登陆 OpenAI Pro 层级:OpenAI 已向 ChatGPT 和 API 的所有 Pro 用户推出了 o3-pro,扩大了增强功能的访问范围。
- Pro 用户现在可以在 ChatGPT 和 API 平台上利用 o3-pro 来获得更高的性能和功能。
- GPT-4 协同工作:一名学生使用 GPT-4 作为共同作者完成了一篇理论论文,探索其跨入深度理论推理的能力。
- 一名独立研究员正在对高级 LLM 系统中的伦理和真相对齐进行类似的研究。
- OpenAI 饱受 Bug 困扰:多名用户报告称 ChatGPT 存在 Bug 且无法响应,一名用户报告消息失败率达 100%。
- 一些成员引用了 OpenAI 的状态页面并表示他们正在取消订阅;其他人则转向使用 Claude Pro。
- Gemini 2.5 的 Token 容量令人印象深刻:一名成员指出 Gemini 2.5 处理每条消息 100k tokens 的效果很好,更适合编程,而 Gemini 2.5 Pro 提供了 100 万的 Context Window。
- 另一名用户表示 Gemini 2.5 更擅长写作,而 Pro 模式更擅长思考。
- 推理模型表现异常:用户报告称推理模型陷入了死循环,不断重复想法且无法响应。
- 一名用户幽默地描述了一个自定义 GPT 的内容就像“装满电脑小玩意儿的抽屉”,里面包括 LICENSE.txt、privacy-policy 和 jar 包里的 Java-WebSocket。
OpenRouter (Alex Atallah) Discord
- Magistral 登场,开始推理:根据此公告,Mistral 的首个推理模型 Magistral 现已在 OpenRouter 上线。
- 一段视频展示了该模型正在“苦思冥想”(4倍速),视频可在此处查看。
- OpenRouter 开启模型页面:OpenRouter 推出了模型页面,如此处公告所述。
- 引入模型页面旨在通过为每个模型提供详细信息和资源来优化用户体验。
- 测试者在 Jamflow 上集结:一名成员正在为 Jamflow 寻找测试者,并附带了一段视频。
- 其他成员开玩笑说,他们正忙着写书,无法立即参与测试。
- OpenAI 将 o3 输入价格削减 80%:OpenAI 已将 o3 输入 token 价格降低了 80%,从每百万 token $10 降至 $2,这一降价消息已得到 Sam Altman 在 Twitter 的确认。
- 尽管输入价格降低,但输出 token 价格仍维持在 $40,这让一些人认为这可能是将用户推向 o3 Pro 的策略。
- 关于 OpenAI 模型 Nerfing 的传闻四起:在降价后,人们开始担心 OpenAI 可能会对 o3 模型 进行 nerfing(性能削弱),一些用户声称观察到了性能下降。
- 有人认为这可能是促使用户转向 o3 Pro 的手段,而另一些人则认为这种说法纯属“幸存者偏差”。
Cursor Community Discord
- Cursor 仍不支持本地模型:一位用户询问了将 local models 与 Cursor 集成的问题,但被告知 目前不支持本地模型。
- 这一限制可能会影响那些出于隐私或性能原因而偏好或需要本地处理的用户。
- 社区分享自定义 Cursor 规则:成员们分享了 Cursor rules 的资源,包括指向 Cursor Directory 的链接和一个包含自定义规则的 Pastebin 链接。
- 共识是,最好从一个小项目开始,以确定哪些规则最有益,因为个人需求差异很大。
- 通过重置上下文解决 Token 溢出:对于遇到 token overflow 的用户,建议使用 /Reset Context 命令或提示 AI 将代码拆分为更小的部分。
- 另一个建议是使用终端命令来解决该问题,提供了一个实用的变通方案。
- Claude 4 短暂消失后重新出现:一位用户报告说 Claude 4 从他们的 Cursor 设置中消失了,但他们能够在设置中手动重新添加。
- 另一位用户确认了这一问题,表明这可能是一个临时 bug,将在未来的更新中得到解决。
- Windows 用户庆祝后台 Agent 修复:一位用户询问后台 Agent 无法工作的问题,开发者确认修复程序即将发布,且该问题仅针对 Windows 系统。
- 此次修复将解决一直阻碍 Windows 用户充分利用后台 Agent 的问题。
Eleuther Discord
- Userbots 侵入 Eleuther:成员观察到服务器上出现了更多 userbots,促使要求自动化账号进行自我识别。
- 版主正在手动删除机器人,并请求成员通过回复 <:delet:824412305906204692> 或 <:lurkmoar:800507348535214140> 来协助过滤。
- GPTs Agents 触及知识天花板:GPTs agents 无法从初始训练后提供的额外信息中学习。
- 上传的文件被保存为“知识”文件供参考,但不会持续修改 Agent 的基础知识,详见 OpenAI 文档。
- O3 Pro 的价格引发愤怒:新的 O3 Pro 模型定价为输入 $20 / 1M tokens,输出 $80 / 1M tokens。
- 一位成员调侃道:“这种定价,它最好能解出黎曼猜想 (riemann hypothesis),真是见鬼”。
- GaTO 的幽灵:未发现后续研究:成员们质疑为何没有针对 2022 年 Google/DeepMind 的 GaTO 论文 的后续研究,推测其要么是扩展性不好,要么是太成功了以至于不愿分享。
- 共识是,如果没有跨任务迁移 (cross-task transfer),训练一个通用型 Agent 将变成一项极其消耗算力的练习。
Unsloth AI (Daniel Han) Discord
- Gemma 3 文本微调困境:成员报告在使用
Gemma3ForConditionalGeneration对 Gemma 3 模型进行文本数据微调时出现高 Loss,暗示存在版本不匹配。- 一位成员建议针对 4B+ 变体尝试使用 transformers 4.51.3,因为他们正在使用最新的 transformers 开发该模型。
- Unsloth 的多 GPU 幻象:尽管 Unsloth 官方尚未支持 multi-GPU 配置,但已有超过 50 人确认其可行。
- 团队正积极与 Nvidia 合作开发多 GPU 支持,但 vLLM 可能需要一些手动构建。
- Magistral 推理能力受质疑:名为 Magistral 的新 Mistral 模型发布,声称在 Twitter 上具有透明推理和可解释性。
- 成员对该模型的实际推理能力表示怀疑。
- DeepSeek Qwen3 的工具调用突破:DeepSeek Qwen3 最近的一项修复显著提升了 tool calling accuracy,用户可以从 HuggingFace 重新下载。
- 更新包括在 llama.cpp 中使用
--jinja实现原生工具调用、聊天模板 (chat template) Bug 修复、UTF-8 编码修复以及 Ollama 内存占用修复。
- 更新包括在 llama.cpp 中使用
- Orpheus 唱响 VRAM 安魂曲:一位成员分享了他们的 Orpheus (3B)-TTS GRPO notebook,强调其至少需要 20GB VRAM,并提供了 notebook 链接。
- 根据用户报告,通过增强的奖励函数 (reward function)可以生成令人印象深刻的结果。
HuggingFace Discord
- Torch Compile 提升模型速度:一位成员使用 torch compile 将模型前向传播速度从 45 秒提升至 1.2 秒,并强调 ARM CPU 在 FP32 上的表现优于 FP16,即使在使用 CPU 指令的情况下也是如此。
- 发言者指出,性能的提升凸显了优化编译方法的重要性。
- 轻量级 LLM 助力 RAG 和微调:成员们推荐使用 Mistral Small 3.1(因其质量和图像理解能力)以及 Qwen 32B(用于文本专注型任务),称它们是适合消费级硬件的 轻量级、本地化且可微调的 LLM。
- 讨论强调了它们作为 RAG 研究助手的适用性,并强调了行为微调的必要性。
- KVMM 问世:Timm 移植到 Keras 3!:一位成员介绍了 KVMM (Keras Vision Models),这是一个包含预训练权重的全面视觉模型库,完全基于 Keras 3 构建,并兼容分割和分类任务。
- 根据其 GitHub 仓库,这个新库拥有超过 25 种骨干架构(backbone architectures),提供多种权重变体,并支持使用自定义骨干网络灵活构建分割模型。
- Truth Engine 的量子主张遭到质疑:针对其宣称的“抗量子真相持久性(quantum-resistant truth persistence)”出现了怀疑声音,成员们指出 Meta-Epistemic Equilibrium 等术语在计算机科学中缺乏依据,且 Python 中并不存在
quantum_resistant和zkp_proofs等依赖项。- 虽然一位成员报告称运行代码后得到了积极响应,但其他人将其斥为“阿谀奉承(sycophancy)”。
- Langgraph 瞄准 Smolagents 的位置:一位课程参与者正尝试使用 Langgraph 和 Langchain 代替 Smolagents 来实现一个用于数据分析的 Agent,要求该 Agent 能够编写并执行代码。
- 另一位用户建议通过读取 Excel 文件、进行数学运算或执行代码的工具来增强 Agent,并强调了详细的工具使用指令的重要性。
LM Studio Discord
- Linux 版缺少 LM Studio 开发者模式:一位 Linux 用户报告称,尽管使用了最新版本 (0.3.16),但 LM Studio GUI 中缺少开发者模式开关,并被告知该功能尚未在 Linux 版本中上线。
- 该用户正在寻求替代激活方法,目前尚无已知的解决方案。
- LM Studio 的图像生成梦想破灭:用户询问 LM Studio 是否能像 ChatGPT 一样通过本地模型生成图像,并提到他们使用 ComfyUI 运行 Stable Diffusion,但成员们澄清 LM Studio 仅用于推理,不支持图像生成模型。
- 用户被建议单独使用 ComfyUI 进行图像生成。
- ROCm 在 Windows 上运行出色:一位用户在 Windows 上成功运行了 ROCm/HIP PyTorch 预览版,称其为“虽然离经叛道(an abomination)但出奇地好用”,与之前尝试 ZLUDA 的经历相比,体验非常积极。
- 该用户指出,虽然某些模块可能无法完全支持此设置,且优化设置在重新启动后无法保留。
- 投机采样(Speculative Decoding)引发 GPU 讨论:成员们讨论了投机采样以及将草稿模型(draft model)卸载到不同 GPU 或 CPU 的可能性,例如将 RX 9070 XT 与 GTX 1060 配对。
- 讨论明确了卸载到 CPU 与更改运行时(runtime)是不同的方法;虽然在技术上应该可以将模型卸载到同一运行时的另一个 GPU 上,但由于每个 GPU 通常拥有自己的运行时,这使得操作变得复杂。
- 带宽瓶颈导致 Digits 性能下降:有人提出 Nvidia 的 Project Digits 与 5090 + 3090 组合在 56GB VRAM 内处理 AI 任务的对比问题,共识是由于带宽限制,Digits 速度较慢。
- LLM 推理通常受限于内存带宽,预计 Digits 的带宽将低于 M3 Max,而对于适配 VRAM 的任务,M3 Max 已经比双 3090 慢了。
aider (Paul Gauthier) Discord
- Gemini 2.5 Pro 无法理解库更新:Gemini 2.5 Pro 在理解库更新和遵循指令方面表现不佳,有效性仅为 50%,而 Claude Sonnet (80%+) 和 Opus (95%) 表现更好。
- aider 及其相关工具中的显式规则在 Claude 模型上更有效。
- DeepSeek R1 基准测试显示出潜力,有待速度提升:DeepSeek R1 (0528) 在 aider 基准测试中表现良好,但由于资源限制,用例耗时较长。有用户建议通过增加资源可实现 7 倍加速。
- 成员指出该模型迭代版本陷入 COT 循环的倾向大大降低。
- 卸载 Aider 需要手动清理:在 Linux 上卸载 aider 涉及使用
pip uninstall aider-chat,但会留下aider二进制文件、索引和缓存文件。- 必须手动删除这些残留文件才能完成彻底卸载。
- OpenAI O3 降价但不会取消 KYC:OpenAI 宣布 O3 定价为 输入 $2,输出 $8,但通过 OpenRouter 使用仍需提供自己的密钥并进行 KYC 验证。
- 社区仍在讨论其优势,甚至有人建议重新进行基准测试,因为它可能是一个较小的模型。
- Agentic 嵌入式编码工作流上线:一位成员正在使用 PlatformIO、Cline 和免费的 DeepSeek OpenRouter API 构建 agentic 嵌入式编码工作流,并分享了带有视频的博客文章。
- 他还在寻找在微控制器和 IOT 方面有经验的合作者。
Nous Research AI Discord
- Mistral 的 Magistral 模型引发争论:Mistral 发布了 Magistral,其基准测试对比的是旧的 R1-0125 而非新的 R1-0528,并发布了论文和在 HuggingFace 上的蒸馏版本。
- 尽管在 GRPO 中增加了长度惩罚,该模型仍表现出循环和 Token 滥发问题。
- Anthropic 开创动态 Token 限制:成员指出 Anthropic 的 Claude 在 Chain of Thought (CoT) 的独特动态 Token 限制实现上脱颖而出,这是许多其他模型尚未解决的问题。
- Nous 正在开发 Hermes 4,旨在通过在 SFT 期间教授模型单词、字符和句子限制,以及在 RL 期间教授 Token 限制,来实现用户可控的 Token 限制功能。
- 探索用于模型推理的控制 Token:讨论探索了在推理过程中注入控制 Token(如进度标记 00%、25%、50%、75%)的潜力,以帮助模型动态调整和压缩输出。
- 目标是提高模型将推理划分为搜索-整合-回答阶段的能力。
- ProRL 论文受到关注:讨论审查了 ProRL (Prolonged RL) 论文,部分成员认为其结论缺乏说服力,特别是关于其在大型模型上的适用性,同时注意到熵崩溃和短 CoT 样本多样性降低的问题。
- KV 压缩方法浮出水面:分享了一种新的 KV 压缩方法,详见这篇论文和这条推文。
- 还提到 GRPO (Generalized Reweighted Policy Optimization) 可用于改进 TTS LLMs (Text-to-Speech Large Language Models),详见这篇论文。
Yannick Kilcher Discord
- Mistral 的 Magistral 模型:开源还是开源洗白 (Open Washing)?: Mistral AI 发布了其首个推理模型 Magistral,社区成员指出这 代表了 Mistral AI 对开源社区的重大贡献,尽管只有 Magistral Small 在 Apache 2.0 许可下开放权重 (open-weight)。
- 一位用户对 Mistral 没有开源其更大的模型表示失望,称 他们变得像 Google 一样只开放部分权重,而另一位用户引用论文称,他们开源了 Magistral Small,其中包括来自 Magistral Medium 的冷启动数据。
- Diffusion Models 从噪声中生成秩序: 成员们讨论了 diffusion models 从噪声中生成结构的直觉反差,将其描述为一种 定向幻觉模型 (directed hallucination model)。
- 一位成员将此与更广泛的“从混沌中产生秩序”的主题联系起来,引用了关于 非平衡态热力学 (nonequilibrium thermodynamics) 和生命自发出现的 YouTube 视频 及 论文。
- 硬件故障预测:DL 表现不佳: 讨论围绕 硬件故障预测 的方法展开,观点认为传统的 Gaussian Processes 或 boosted trees 在时间序列分析方面往往优于深度学习 (DL)。
- 一位成员强调,由于工业环境中的保险要求,需要保证故障检测的确定性而非概率正确性,突出了该领域的狭窄范围和高风险性质。
- Reservoir Computing:伪装的线性回归?: Reservoir Computing 被描述为 故弄玄虚 (mumbo jumbo),掩盖了其核心机制:在固定常微分方程 (ODE) 上的线性回归。
- 有人认为,像 State Space Models (SSMs) 这样的现代架构更具表现力、更强大且更高效,因为它们能够并行化并结合非线性动力学,并链接到一篇关于当前 SOTA 的 论文。
- OpenAI 预告意外公告: 用户指出 Sam Altman 在 Twitter 上预告 OpenAI 将发布 意想不到的东西。
- 用户推测 它是一个 diffusion model。
Notebook LM Discord
- Google Chat 对话功能即将上线?: 一位用户询问是否可以将 Gmail 和 Google Chat 对话 连接到 NotebookLM,以及近期是否有该功能的计划。
- 该查询针对服务器中出现的任何 Google 员工。
- Drive 文件下载受阻?: 一位用户在尝试访问 Drive 文件时遇到错误,提示 文件所有者已禁用该 Drive 文件的复制/下载权限。
- 错误截图位于 此处。
- NotebookLM 的介绍让游戏设计师惊叹: 一位用户对 NotebookLM 使用播客功能为其桌上 RPG The Gemini System 生成的介绍质量印象深刻。
- 该用户发现 NotebookLM 分析并提供 音频深度解析 (audio deep dives) 的能力对于转化机制以及增强其设计和写作过程非常有帮助。
- 冰岛研讨会参与者遇到访问问题: 在冰岛为 50 名教师举行的 NotebookLM 研讨会期间,3 名使用私人 Gmail 账号的教师遇到了 “您无权访问此服务” 的错误。
- 有人建议地理限制或年龄验证不完整可能是原因,英国的一位用户报告在 Brave 浏览器上遇到了类似问题,通过切换到 Firefox 解决。
- 共享 Notebook 导致共享难题: 一位用户报告称,在共享笔记本时,添加的电子邮件和 “任何拥有链接的人” 设置在发送后会恢复为受限状态。
- 这个问题对该用户来说似乎一直存在。
GPU MODE Discord
- Deepwiki 摘要 GitHub 详情:一位成员推荐了 deepwiki 作为总结 GitHub repos 的工具,它可以直接通过 GitHub link 实现对话和结构查看。
- 另一位成员正在使用 Rust 在 GLSL 和 Vulkano 中开发并行的 GPU grouping/clustering algorithm,并寻求在 macOS 上使用 Vulkano 的合作者。
- Triton 的配置讨论:讨论涵盖了 Triton 中 fp16 exp and sqrt functions 的可用性,类似于 CUDA 中的函数,以及
Triton.Config中num_warps的作用。- 一位用户询问了
Triton.Config中num_warps的作用,寻求其对 performance and resource utilization 影响的见解,以及 Triton 是否遵循与 CUDA 相同的 shared memory 分配限制。
- 一位用户询问了
- Torch 和 Triton 应对精度陷阱:一位用户在为 LeetGPU 挑战编写的 matmul kernel 中遇到了精度问题,并分享了他们的 matmul.py file 以找出 cause of the failure,以及他们的 2D grid 实现是否已经包含了 swizzling。
- 另一个独立问题报告称,虽然
libdevice.round在 Triton ROCm 中有定义,但在 kernel 中使用时会报错,详见 GitHub 上的报告。
- 另一个独立问题报告称,虽然
- ROCm 中的 Profiling 难题:一位用户在使用
rocm/pytorch:rocm6.4_ubuntu22.04_py3.10_pytorch_release_2.6.0镜像和 torch 2.8.0.dev20250609+rocm6.4 配合 CUDA graphs 时遇到了Memory access fault by GPU node-2错误,但他们在之前的版本中没有遇到过。- 另一位用户详细说明了使用
rocprofv2收集 SQTT traces 以在 Radeon GPU Analyzer (RGA) 中进行分析的步骤,并指出可以通过先运行rocprofv2 --kernel-trace来确定正确的 DISPATCH_RANGE。
- 另一位用户详细说明了使用
- Modular 团队为 Mojo 联手 AMD:根据其 blog post,Modular 宣布与 AMD 合作,以 unleash AI performance on AMD GPUs。
- 团队分享了一个展示 Mojo 与 Python interoperability 的 demo,可以在 这段 YouTube 视频的 843 秒处 观看,以及其 Python integration 文档。
Latent Space Discord
- Fireworks AI 推出 RFT Beta 版:Lin Qiao 在 Fireworks AI 上发布了 Reinforcement Fine-Tuning (RFT) 的 Beta 版本,支持训练类似于 GPT-4o mini 和 Gemini flash 的专家级开源模型。
- 该服务包含 Web IDE、开源 reward-kit、SOTA 模型支持,且针对参数量不超过 10B 的模型提供为期两周的免费试用。
- OpenAI o3 价格泄露?:Gabriel Chua 暗示 OpenAI o3 的成本可能为 每 1M input tokens 2 美元,并引用了 OpenAI Developers 的推文,该推文向 200 名开发者提供了价值 1M input tokens 的免费 API 额度。
- 讨论中引用了 Sam Altman 的推文 以及来自 scaling01 的见解。
- Mistral 的 Magistral 推理模型发布:Mistral AI 推出了 Magistral,这是其用于特定领域、透明且多语言推理的新推理模型,包含两个变体:在 Hugging Face 上的开源版 Magistral Small (24B parameters),以及通过 chat.mistral.ai 或 API 提供的企业版 Magistral Medium。
- 该模型也可在 OpenRouter 等平台使用,用户还分享了本地部署的指南。
- Meta 增持 Scale AI 股份,看中 Alex Wang:Meta Platforms 正考虑以近 150 亿美元的价格收购 Scale AI 49% 的股份,这可能会让 Scale AI 的 CEO Alex Wang 在 Meta 担任高级职位 (来源)。
- 此举可能会重塑 Meta 的 AI 战略和高管领导层。
- Windsurf 计划推出 ‘Plan Mode’:Kevin Hou 发布了 Windsurf 的新功能 ‘Plan Mode’,允许 AI Agent 通过创建和维护计划文档来执行复杂任务 (来源)。
- 用户可以激活 ‘Plan Mode’ 让 Windsurf 管理笔记、任务列表和目标,增强其处理更长、更复杂变更的能力,该功能可在 Windsurf.com 免费使用。
Modular (Mojo 🔥) Discord
- Modular 首次展示计算可移植性演讲:Modular 开启了一场聚焦于 计算可移植性(compute portability)未来 的直播,可通过 Modular 官网 和 LinkedIn 观看。
- 该活动承诺分享关于 compute portability 最新进展和讨论的见解。
- Mojo 参数化边界受到质疑:社区成员的演示以及对 标准库代码 的观察引发了关于 Mojo 中参数化边界的疑问,特别是关于其在 comptime 用途 方面的使用。
- 一位成员表示担心,将参数化用于 comptime 用途 似乎产生了一些他们在 很多情况下根本不想阅读的代码。
- Mojo 元编程比 Rust 宏更受欢迎:一位成员认为在 Mojo 中阅读 meta-programming 比 在 Rust 中阅读宏代码好上 100000000000%,同时也承认 Mojo 目前还不能完全实现 Rust 的所有功能。
- 另一位成员认为,正是 类 Zig 的 comptime 与 类 Go 的方括号泛型语法 的结合使得代码难以阅读。
- 社区称泛型语法灵感来自 Python:一位成员指出 Mojo 的泛型语法与 Python 相同,这引发了关于 Python 的泛型语法是否源自 Go 的讨论。
- 最终,双方达成共识:Go 1.18 在 22年3月15日引入了泛型,而 PEP 695 在 22年6月22日引入了 新的 Python 语法。
- 用户寻求 Mojo-MAX 平台关系:一位成员询问了 Mojo 与 MAX 平台 之间的关系,特别是能否在 Mojo 代码和内核中使用 matmul 等 MAX 内核。
- 一位 Modular 员工建议该成员将此问题发布在 Modular 论坛,以提高其可发现性。
MCP (Glama) Discord
- 5ire 要求完整的 MCP 工具链:5ire 平台强制要求采用来自 MCP server 的所有工具,不允许选择单个组件。
- 这种全方位策略要求集成整套功能,而不是允许开发者根据需求选择特定工具。
- 类似 n8n 的 MCP 聊天机器人集成构想:一名成员建议开发一种类似于 n8n 的工具,完全基于聊天和 MCP,用于聊天驱动的工作流自动化。
- 另一名成员建议将特定来源的电子邮件直接导入 Slack 频道,强调了这种架构的能力。
- fastmcp 需要依赖声明:一名成员报告了使用 fastmcp 时遇到的困难,指出它需要依赖项,因为它会生成环境并利用这些依赖。
- 他们提供了一个执行 MCP server 的命令行,并修改了 Claude desktop 中的参数,以将 uv 指向合适的 venv。
- MCP Server 支持 OAuth 2.1:Scalekit 发布了一个即插即用的 OAuth 2.1 模块,具有作用域、短期令牌、DCR + PKCE,以及带有 authorize_url 的 401 响应以支持委托流,详见其文档。
- 这一增强功能为 MCP server 实现提供了更安全、更灵活的授权机制。
- mcp-openverse 软件包发布 CC 授权图片:mcp-openverse 已发布,这是一个将 CC 授权和公共领域图片集成到 AI 工作流中的 MCP server,可在 npm 和 GitHub 上获取。
- 该工具汇集了来自 @WPOpenverse 的超过 7 亿张开源授权图片,与 Claude Desktop 集成,并通过概念提取提供智能图片溯源。
Manus.im Discord Discord
- Mixedbread 寻找增长负责人:由前 Google Search 工程师组成的 Mixedbread 正在寻找一名创始增长负责人,以将其技术优势转化为 1000 万美元的 ARR。
- 在来自 OpenAI、Vercel、Perplexity、Deepmind 和 Scale AI 的顶尖 AI 投资者的支持下,他们已经实现了 5000 万次以上的 HuggingFace 下载,并在 MTEB 基准测试中超越了 OpenAI。
- Manus 的 Veo 3 助力科幻短片:一位用户使用 Manus 的 Veo 3 功能 创作了一部五分钟的科幻短片,并称其为世界上最强大的生成功能。
- 另一位用户评论说它看起来很棒,而且故意做成了老式功夫电影的风格。
- Manus 的 Beta 状态引发质疑:成员们质疑为什么 Manus 即使拥有 Veo 3 这样的功能,仍处于 Beta 阶段。
- 一名成员报告称,由于演示格式问题且缺乏退款机制,损失了 2000 积分。
- Manus Pro 价值引发讨论:用户正在讨论 Manus Pro 订阅 的价值,以及答案是否明显更好以证明其成本的合理性。
- 几位用户报告称难以联系到 Manus 的支持团队。
- Veo 3 积分消耗令用户担忧:一名用户报告称,在一段包含 38 个剪辑 的单个 Veo 3 视频上花费了 300 积分。
- 另一名用户在 Manus 尝试截断文件进入死循环后,请求补偿 100 积分。
LlamaIndex Discord
- LlamaIndex 发布自定义多轮对话记忆 (Multi-Turn Memory):LlamaIndex 推出了一项构建自定义 multi-turn memory implementation 的新示例,非常适合需要更高控制力和自定义能力的 Agent 工作流,更多信息请见 Twitter。
- 这一进展为管理 Agent 交互和在多轮对话中保留上下文提供了更大的灵活性。
- 实时网站摘要功能上线!:展示了来自 @itsclelia 的一个项目,该项目结合了网页浏览与使用 LlamaIndex 及 Google’s Gemini model 生成的 AI 摘要,实现即时网页总结,详情见 Twitter。
- 该工具可以将 AI 直接集成到浏览体验中,显著减少消化在线内容所需的时间。
- LlamaIndex Agent 转换为 MCP Server:LlamaIndex 演示了将 Agent 转换为 MCP Server,部署了一个自定义的 FidelityFundExtraction 工作流,用于从复杂的多个基金 PDF 中提取结构化数据,并支持从 Claude 调用,记录于 Twitter。
- 这展示了 LlamaIndex 处理复杂数据提取任务的能力,并增强了不同平台间的互操作性。
- 用户面临 Agent 工作流接力 (Handoffs) 问题:一位用户报告称,在其基于 LlamaIndex 的产品推荐系统中使用 Agent 工作流时遇到问题,plan_agent 有时无法将任务移交给 DirectOutputAgent 或 SearchAgent 等其他 Agent。
- 日志显示流式传输 (streaming) 过早停止,促使用户寻求关于不一致的接力行为的解答,这可能表明 Agent 协作中存在底层问题。
- Spy-Search 工具实现本地深度研究:一位成员重点介绍了 spy-search,这是一个与 Ollama 兼容的开源工具,用于在本地进行广泛研究,可生成超过 1000 字 的报告。
- 作为输出受限的研究工具的替代方案,spy-search 旨在提供具有最新信息的全面、长上下文响应,并强调本地处理能力。
Cohere Discord
- Cohere 更快捷的支持频道上线:新的 Cohere 支持频道已发布,通过一个使用 Cohere 文档的 AI 生成回复机器人提供更快速的协助,访问地址为 <#1381756280716132412>。
- 该机器人基于 command-a 构建,专注于基于文档的查询,而账户和 API 问题则引导至 support@cohere.com。滥用可能导致立即封禁。
- Cohere North 与 GameWarden 平台配对:通过与 Second Front 的合作,Cohere North 现已与完整的 GameWarden 平台集成,帮助服务人员提高应对威胁的效率和速度,正如这条推文中所宣布的。
- 此外,Cohere North 正与 EnsembleHP 合作将 AI 引入医疗保健领域,以减少行政摩擦并提升患者体验,详情见这篇博客文章。
- Cohere 开源仓库开放 Pull Requests:Cohere 的开源仓库 Cohere Developer Experience GitHub repository 允许用户通过 Pull Requests 为文档改进做出贡献。
- 该仓库的 README 文件提供了贡献指南,并指出 OpenAPI 规范和代码片段是从内部仓库单向同步的。
- Vitalops 开发用于数据转换的 Datatune:Vitalops 的联合创始人介绍了 Datatune,这是一个专为使用纯自然语言进行数据转换而设计的开源工具。
- 联合创始人正与社区互动,收集关于 Datatune 开发和潜在应用的反馈。
Torchtune Discord
- HF Tokenizer 集成遇到问题:在测试 HF Tokenizer 后,发现其 Loss 曲线和总 Token 数与经典 Tokenizer 不一致,这表明尽管代码改动较小,但行为存在差异;该集成将在问题 #2794 和 #2574 解决后准备就绪。
- 一名成员报告称 Pre-packing(预打包)耗时增加了 2-3 倍。
- Tokenizer 截断发现 Bug:在实现 Tokenizer 时,在截断(truncation)功能中发现了 Bug,相关细节在 issue #2792 中标出,并担心这可能会影响性能。
- 成员们建议目前训练仍坚持使用原始 Tokenizer,等待稍后合并到 HF 版本。
- Muon 集成性能受到审查:Muon 集成到 torchtune 后的性能收益正在接受审查,以证明添加另一层抽象的合理性,一名成员想知道 issue #2809 是否至关重要。
- 一名成员指出,有证据表明 Muon 对于微调那些同样使用 Muon 进行预训练的模型更有用,并引用了 Kimi Moonlight 论文。
HuggingFaceModelTokenizer预期用途引发辩论:成员们讨论了HuggingFaceModelTokenizer的预期用途,对接口差异以及如何处理用于 Packing 的max_seq_len表示担忧,特别是是否应该修改 Recipes 或 Tokenizer 本身。- 一名成员建议,Recipes 应该改为接收一个
max_seq_len并将其传递下去,这与 该提案 一致。
- 一名成员建议,Recipes 应该改为接收一个
- Qwen2 问题检查:一名成员需要检查 Qwen2 以确认是否存在同样的截断问题。
- 成员们公认,如果最初的测试没有发现差异,那么它可能影响不大,但无论如何我们都应该修复它。
DSPy Discord
- 在 DSPy 中寻求迁移学习技术:一名成员询问如何在不重复微调或 RL 等过程的情况下,在模型之间迁移训练后的学习成果,但 该频道未提供具体答案。
- 通过继承先前获得的知识,这可能会简化模型适应新任务的过程。
- DSPy 文档文件消失:一名用户报告称 一个特定的文档文件 在最近的 PR 中被删除,导致参数文档更难找到。
- 作为回应,另一名用户分享了 AI 生成的文档 作为潜在的替代方案。
- DSPy 寻求最优上下文提示:一名用户询问 DSPy 是否有机制可以从一组十几个可用变量中优化 Prompt 中包含的上下文,从而在指标和 Token 使用量之间取得平衡。
- 该话题没有进一步讨论,凸显了 DSPy 开发的一个潜在领域。
- 对 DSPy 数据集工具的需求激增:一名成员询问是否有用于构建和导出 DSPy 数据集的工具,特别是需要生成和手动标注合成示例的功能。
- 该询问未引发进一步讨论,表明 DSPy 当前在简化数据集创建和管理工具集方面可能存在空白。
tinygrad (George Hotz) Discord
- Tinygrad 测试失败,Bounty 锁定:成员报告 Tinygrad 中的测试失败,这导致 Bounty(悬赏)无法锁定,因为 Bounty Locked 意味着代码基本已准备好合并。
- 持续集成(CI)失败将阻止合并。
- 呼吁高质量、无 AI 生成内容的 PR:一名成员请求提交高质量的 Pull Requests (PRs),例如处理 add/mul 的 tinygrad/tinygrad#10741,并明确表示 不要 AI 垃圾内容 (no AI slop)。
- 有人提到 add/mul 是最容易处理的部分。
- NCHWCPUGraph 和 LLVMGraph 需要重构:建议对 NCHWCPUGraph 和 LLVMGraph 进行重构,使其行为与系统中的其他 Graph 一致。
- 这些 Graph 不应该重新渲染内容,这涉及到 Multicore CPU 和 Multi Compiler/Renderer 重构,其中 CPU 和 LLVM 应该使用相同的 Graph,因为它们拥有相同的程序。
Nomic.ai (GPT4All) Discord
- Nomic Embed Text v1.5 仍受支持:用户询问 nomic-embed-text-v1.5 下个月是否仍将通过 Nomic 云端提供支持。
- 另一位用户确认该模型对于自主部署推理(self-onboarded inference)仍受支持。
- GPT4All 未来版本即将发布:社区成员询问了关于 Nomic GPT4All 未来版本的更新情况。
- 目前尚未提供关于新功能和增强功能的进一步信息。
- Python SDK 更新即将到来:一位用户询问了 Python SDK 的后续更新。
- 虽然没有讨论具体的时间表或功能,但该提问表明了社区的关注。
- GPT4All 关注 Mistral 的 Magistral Small:一位用户询问 GPT4All 是否会支持 Mistral’s Magistral Small。
- 目前没有确认集成的回应,但该问题凸显了用户对扩大模型支持范围的兴趣。
Gorilla LLM (Berkeley Function Calling) Discord
- RunPod 工程师重启排行榜:一位 RunPod DX 工程师自愿提供 GPU 资源,以重启 #leaderboard 频道的排行榜更新。
- 该工程师鼓励任何需要帮助的人直接联系他,以使排行榜重新运行,社区成员对 RunPod 的慷慨行为表示感谢。
- Agent Marketplace 暂停了吗?:一位成员在 #discussion 频道报告了访问 Agent Marketplace 仓库和网页时遇到的问题。
- 该成员推测该项目是否因持续的访问问题而暂时关闭,暗示可能处于停滞状态。
LLM Agents (Berkeley MOOC) Discord
- Agentic AI 峰会定于伯克利举行:Agentic AI Summit 计划于 2025 年 8 月 2 日在 UC Berkeley 举行,目标是聚集 1,500 多名线下参会者。
- 峰会网站详细列出了针对学生和独立开发者的折扣码,提高了活动的参与度。
- 早鸟票即将截止:Agentic AI 峰会的早鸟价格将于 2025 年 6 月 30 日结束,学生票价格为 $25,初创公司票为 $60,行业专业人士票为 $80。
- 购票链接请点击此处,提醒大家尽快行动以锁定这些优惠价格。
- 峰会演讲嘉宾阵容公布:Agentic AI 峰会的演讲嘉宾将包括 Vinod Khosla (Khosla Ventures)、Ion Stoica (Databricks 和 Anyscale) 以及 Dawn Song (UC Berkeley)。
- 其他演讲者还包括 Sergey Levine (Physical Intelligence)、Matei Zaharia (Databricks)、Karthik Narasimhan (Sierra)、Waseem AlShikh (Writer) 和 Burak Gokturk (Google Cloud)。
- 用户请求 SP25 测验资料用于自学:用户正在寻求获取已结束的 SP25 课程中的测验题目,以便进行独立学习。
- 这些请求凸显了用户在课程结束后继续学习的愿望。
Codeium (Windsurf) Discord
- Windsurf 在 Wave 10 中推出 Planning Mode:Windsurf 发布了 Planning Mode 作为 Wave 10 的一部分,其特点是拥有用于长期 AI 规划的原生界面,支持双向更新,详情见官方博客和演示视频。
- 用户可以通过输入框下方的图标切换 Planning Mode,使 Cascade 能够将每次对话与实时的 Markdown 目标和任务计划配对,当 Cascade 更新计划时,AI 会通知用户。
- o3 模型额度消耗大幅下调:o3 模型现在仅需 1x 额度即可使用,并且在 Cascade 中的运行速度更快,提升了性价比和性能。
- 所有付费计划均可使用 Planning Mode,无需额外费用。
MLOps @Chipro Discord 没有新消息。如果该服务器长时间没有动态,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该服务器长时间没有动态,请告知我们,我们将将其移除。
您收到此邮件是因为您通过我们的网站订阅了。
想更改接收这些邮件的方式吗? 您可以从该列表中取消订阅。
Discord:按频道分类的详细摘要和链接
Perplexity AI ▷ #announcements (1 条消息):
Unauthorized Promo Codes, Fair Pricing, Legitimate Promotional Deals
- Perplexity 清理优惠码“海盗”!:Perplexity 检测到原本面向特定合作伙伴的优惠码被未经授权地分发,并在社交媒体上广泛传播。
- 这些代码已被停用,Perplexity 正在调查此问题并禁用未经授权的 Pro 访问权限。
- 优惠码政策监管:Perplexity 要求优惠码必须由指定参与者用于预期目的,且不得复制或向公众公开。
- 此举是为了确保所有人的公平定价和合法促销权益,特别是对于现有的 Pro 用户,因此官方对此高度重视。
- 正在调查使用无效代码的用户:Perplexity 将审查使用这些无效代码的账户,以确保所有用户的公平访问。
- 如果您是通过授权渠道获得优惠码的正版客户,并认为您的账户受到了纠正措施的影响,请联系 support@perplexity.ai。
Perplexity AI ▷ #general (1170 条消息🔥🔥🔥):
Family Guy character sexuality, O3 pricing and performance, Gemini vs Other models, Perplexity AI New Features & Issues
- Stewie 的性取向引发辩论:成员们讨论了《恶搞之家》 (Family Guy) 中 Stewie 的性取向,一些人认为他显然是同性恋,而另一些人指出他在设定上是个蹒跚学步的孩子,曾与女孩约会,且创作者已确认他不是同性恋。
- 进一步的评论围绕婴儿是否可以被归类为同性恋展开,引发了更多关于《恶搞之家》中角色和情节流动性的普遍讨论。
- O3 的狂野之旅:降价与性能测试:成员们对 O3 价格大幅下调(便宜了 80%!)的消息表示庆祝,一些人建议 Perplexity 现在应该实施 O3 并取代 Deepsearch,并指出 O3 现在比 2.5 Pro 更便宜。
- 成员们注意到这些模型仍然存在上下文窗口(Context Window)限制。
- Gemini 因表现差劲被群嘲:用户一直在严厉批评 Gemini,称其表现很烂、是最差的,并指出 Gemini 的基准测试(Benchmarks)存在造假。
- 成员们表示,相比 Gemini,他们更倾向于使用 O3。
- Perplexity Pro 接入 O3 并设有速率限制:用户注意到 O3 模型已集成到 Perplexity 中,并想知道每日速率限制(Rate Limit)是多少,以及如何跟踪已使用的额度。
- 新功能尚未向所有拥有 Team 订阅的 Pro 用户推出,一些人发现该模型有时会产生轻微的幻觉(Hallucinates)。
- O3 Pro 来了,值得购买吗?:成员们简要推测了 O3 Pro 的性能,并将其与 O3、Claude 和 Gemini 进行了对比;他们还对该模型新增和改进的推理工具感到兴奋。
- 成员们还简要推测该模型现已上线 Web 版本,随后通过输入提示词来测试其实力:what is today’s yap score and juice?
Perplexity AI ▷ #sharing (2 条消息):
``
Perplexity AI ▷ #pplx-api (7 条消息):
PPLX API 配置请求,社交媒体 API 集成,PPLX 金融搜索模式
- PPLX API 配置曝光:一名用户请求并由另一名用户在截图中分享了他们的 PPLX API 配置,包括 base URL、model name 和 response mode。
- 随后有人建议更改 Completion mode 参数以解决 Error 400 错误。
- 社交媒体 API 集成咨询:一名用户询问是否有人有将 社交媒体 API 集成到应用中以提取账户分析数据的经验。
- 另一名用户建议使用 Claude 来生成完成此任务所需的代码。
- 金融模式测试启动:一名用户分享了一段代码片段,展示了 sonar-pro 模型的 金融搜索模式 (finance search mode),并将搜索上下文大小设置为 low。
- 该用户随后邀请其他人尝试此配置:“谁想试试这个?”
LMArena ▷ #general (1130 条消息🔥🔥🔥):
用户偏好与其他指标的对比,o3 的价格与性能,Kingfall:更出色的模型
- 用户偏好并非首要指标:成员们就 用户偏好 (user preference) 是否是评估模型的首要指标展开了辩论。一些人认为它很重要,因为它能预测谁能赢得用户,而另一些人则认为它不是,因为在 STEM 任务中的实际表现和其他因素更为重要。
- 一名成员指出,Meta 发布的一个模型在用户偏好方面表现良好,但并未获得很多用户,这表明 可访问性、营销和定价 等因素也至关重要。
- o3 击败竞争对手:成员们讨论了 OpenAI o3 与 Google Gemini 相比的能力和定价。有人表示 OpenAI 已经凭借 o4mini 赢得了帕累托前沿 (pareto frontier),现在他们正通过 o3 击溃竞争对手,其价格/性能比几乎是 gemini 2.5 pro 的两倍(原文:o3 being almost 50% of gemini 2.5 pro)。
- 一些人认为 Gemini 的营销更露骨,且图像生成能力更强,而另一些人反驳说 o3 更聪明、更强大且更便宜,让 Google 毫无还手之力。
- Kingfall 被热炒,它真的好用吗?:一名成员吹捧 Kingfall 是他们用过的最聪明的模型,而其他人则表达了较为冷静的兴奋,称相对于 2.5 Pro 或 0605,它并没有好那么多。
- 一名成员表示他们认为 Kingfall 略微领先于 o3 pro,但另一名成员强调 Kingfall 可能更好,但并非“更好(更好)”,一些人形容它具有 ultra vibes,而另一些人则持相反意见,认为它对 o3 Pro 来说并不是一个巨大的提升。
OpenAI ▷ #annnouncements (2 条消息):
OpenAI o3-pro, ChatGPT Pro, API 访问
- OpenAI 为 Pro 用户推出 o3-pro:OpenAI o3-pro 现已面向 ChatGPT 中的所有 Pro 用户以及通过 API 提供。
- o3-pro 访问权限:Pro 用户现在可以在 ChatGPT 和 API 中访问 o3-pro。
OpenAI ▷ #ai-discussions (539 条消息🔥🔥🔥):
GPT-4 作为共同作者,高级 LLM 系统中的伦理与真相对齐,OpenAI Bug,Claude Pro 对比 OpenAI,Gemini 2.5
- GPT-4 加入写作团队!:一位学生分享了他们使用 GPT-4 作为 共同作者 (co-author) 完成了一篇完整的理论论文,旨在展示外行是否能仅通过 ChatGPT 跨入深度理论推理领域。
- 另一位独立研究员对此表示兴趣,并称他们正在对高级 LLM 系统中的 伦理与真相对齐 (ethical and truth alignment) 进行类似研究。
- OpenAI 平台因 Bug 体验糟糕:多位用户报告 ChatGPT 存在 Bug 且无法响应,其中一位用户报告 100% 的消息失败,另一位称发送给 o3 的消息有 50% 是错误。
- 一些成员提到了 OpenAI 的状态页面,并表示由于这些问题,他们正在取消订阅。
- Claude Pro 成为备选方案:一些成员表示由于 OpenAI 的问题,他们正转向 Claude Pro,但指出 Claude 的 token 限制对于大型代码输入来说太低了。
- 一位成员表示他们在开始前会发送 100k tokens 的代码,而 o3 无法处理。
- Gemini 2.5 表现出色:一位成员表示 Gemini 2.5 在每条消息处理 100k tokens 时表现优异,他们更喜欢用它处理编程任务;另一位用户则认为 Gemini 2.5 更擅长写作,而 Pro 模式更擅长思考。
- 另一位成员提到 Gemini 2.5 Pro 拥有 100 万 上下文窗口。
- GPT-4o 的局限性引发讨论:一位成员指出 GPT-4o 针对快速回复进行了优化,而 GPT-4.5 的架构更庞大,导致了不同的性能特征。
- 一些成员仍看到旧的上下文限制:我们在 UI 中再也看不到 o1 了。
OpenAI ▷ #gpt-4-discussions (29 条消息🔥):
推理模型循环,Mom-GPT 愤怒情绪问题,自定义 GPT 多样性,打开自定义 GPT 文件,聊天文件上传限制
- 推理模型陷入死循环:多位用户报告 推理模型 (reasoning models) 陷入了 死循环,不断重复相同的想法且无法给出回复。
- Mom-GPT 无法对用户发火:一位创建 “Mom-GPT” 的用户难以让它表现出令人信服的愤怒,因为它默认总是表达爱意。
- 该用户在 此处 分享了他们的作品。
- 自定义 GPT:装满电脑玩意儿的抽屉:一位用户幽默地将自定义 GPT 的内容描述为 “装满电脑小玩意儿的抽屉”,包括 LICENSE.txt、privacy-policy 以及 jar 包里的 “Java-WebSocket”。
- 用户被提示指定要打开哪些文件,这标志着自定义 GPT 的复杂性和多样化的可能性。
- 科学类聊天机器人模型评级:对于科学领域,建议倾向于使用 o4-mini-high,因为它在 MMLU(多任务学术)基准测试中得分更高。
- 相比之下,4.1 的得分明显较低。
- GPT 停机及 UI Bug 报告:用户报告 GPT 宕机,有人提到移动端 UI 出现 Bug,不同时区的一些用户经历了长达 8 小时的停机。
- OpenAI 的 状态页面 确认了一个 全球延迟错误问题。
OpenAI ▷ #prompt-engineering (16 messages🔥):
Model Iteration, API Image Prompting, Hallucinated Translation, AI Server Issues, Image generation difficulties
- 模型迭代建议:一位成员建议与模型进行迭代,专注于每一页内容。他们认为模型更像是一把锤子而非消防水带,并建议在模型表现出不确定或困惑时,检查是否存在冲突的指令。
- 他们发现,与模型协作而不是仅仅命令它做什么,有助于判断模型是否不确定、困惑或对某些内容有顾虑;如果是这种情况,模型往往会自行其是。
- Prompt Engineering API 图像提示成功案例:一位成员发现,成功的 API 图像提示涉及移除包含的 mask(蒙版),并使用
gpt-image-1配合提示词:‘[Changes I want]. Do not edit [thing I don’t want touched.]’。- 他们确认,起决定性作用的是提示词(我们之前在这里没见过)。
- ChatGPT 幻觉翻译:尽管有指向正确源材料的链接访问权限,ChatGPT 还是对拜伦的《唐璜》(Don Juan)进行了幻觉翻译。
- 一位成员分享了一个聊天记录详细说明了该问题,并指出幻觉发生在涉及分析和制定的对话早期阶段。
- 图像生成依然困难:成员们分享了在尝试生成图像时遇到的挑战和困难。
- 其中一个链接分享了在太空中生成长颈鹿的挣扎,并需要它完成某些特定任务,如使用词汇表单词。
OpenAI ▷ #api-discussions (16 messages🔥):
Iterative model usage, Image prompting in o3, ChatGPT hallucination issue, AI server slowness
- 通过迭代克服模型挑战:一位成员建议与模型进行迭代,专注于项目的每一页,并将模型视为合作伙伴而非单纯的工具。
- 他们指出,模型发出的“仍在处理中(still working on)”消息通常表示指令冲突或存在歧义,并建议检查这些问题。
- Prompt Engineering 战胜蒙版编辑难题:一位成员通过移除包含的 mask 并使用提示词:[Changes I want]. Do not edit [thing I don’t want touched].,解决了 o3 中的图像提示问题。
- 他们分享说,这种针对 gpt-image-1 的 Prompt Engineering 调整解决了他们的困扰。
- ChatGPT 的文学创作导致“自信的幻觉”:一位成员报告称,尽管拥有正确源材料的链接访问权限,ChatGPT 还是对拜伦的《唐璜》进行了幻觉翻译,并提供了一份详细分析。
- AI 服务器运行缓慢:一位成员质疑 AI 服务器的性能,指出它们运行缓慢且经常无响应。
- 另一位成员指向频道 #1349803488833572874 以获取相关讨论。
OpenRouter (Alex Atallah) ▷ #announcements (4 messages):
Magistral, Mistral's Reasoning Model, OpenRouter New Models, Model Pages
- **Magistral 推理模型登场!:Mistral** 的首个推理模型 Magistral 现已在 OpenRouter 上线,正如此 X 帖子中所宣布的。
- 一段视频展示了该模型正在“非常”努力地思考(4倍速)——可在此处观看。
- 模型页面上线!:模型页面现已在 OpenRouter 上线,展示见此处。
- 观察它“非常”努力地思考(4倍速)。
OpenRouter (Alex Atallah) ▷ #app-showcase (2 条消息):
Jamflow, Discord 测试人员
- 用户寻找测试人员:一名成员正在为 Jamflow 寻找测试人员,并附带了一个 视频。
- 另一名成员表示,在写完书后会很感兴趣。
- 调试前先写完书:一名用户提到他们正忙于写完一本书,无法立即参与 Jamflow 的测试。
- 这暗示了在转向调试或测试新软件之前,优先完成创作任务的倾向。
OpenRouter (Alex Atallah) ▷ #general (523 条消息🔥🔥🔥):
加密货币支付选项, OpenAI o3 降价, 模型退化担忧, OpenRouter 与 o3 的 BYOK, 研究用途的 LLM 选择
- 考虑加密货币支付:一名用户请求 OpenRouter 添加一种不需要钱包的一次性加密货币支付选项,类似于 NowPayments,以便更方便地使用 USDT 进行交易。
- 该用户对目前的加密货币支付流程表示沮丧,认为由于钱包要求和 Gas 费用(gas fees)而变得困难。
- OpenAI o3 价格大幅削减,输入成本下降:据报道,OpenAI o3 的输入 Token 价格降低了 80%,从每百万 Token $10 降至 $2,Sam Altman 在 Twitter 上 确认了这一消息。
- 然而,输出 Token 价格仍维持在 $40,一些人认为这可能是一种诱导策略,旨在将用户推向 o3 Pro。
- 模型削弱(Nerfing)传言甚嚣尘上:关于 OpenAI 可能在降价后 削弱(nerfing) o3 模型 的担忧正在流传,一些用户声称观察到了性能下降。
- 虽然没有确凿证据,但有人认为这可能是鼓励用户转向 o3 Pro 的刻意策略,不过也有人认为这些说法是 幸存者偏差(survivorship bias)。
- OpenAI o3 仍需 BYOK:尽管 o3 价格变动,但由于 OpenAI 的政策,OpenRouter 上的 Bring Your Own Key (BYOK) 要求仍然存在,要求用户拥有经过验证的组织。
- 一些用户正在利用 BYOK 选项来获取 OpenAI 提供的免费 Token,而另一些人则质疑这一限制背后的逻辑,推测这是为了推动用户在 OpenAI 平台上注册。
- Gemini 在 LLM 研究小组中获得认可:对于一项涉及 LLM 的共识研究,一名用户征求了关于应包含哪些模型的建议,有人建议 Gemini、Claude 和 Sonar (Perplexity) 是目前的顶级竞争者。
- 该用户得到的建议是,Gemini 是一个非常强大的选择,上述模型与其他 LLM 之间的性能差距大到不容忽视,在某些方面的生成能力甚至超过了 GPT-4.1 水平。
Cursor Community ▷ #general (436 条消息🔥🔥🔥):
Cursor 的本地模型, 学生 Pro 访问权限, Cursor 规则, Agent 模式挂起, Eslint 问题
- 本地偏好:Cursor 不支持本地模型:一名成员询问 Cursor 是否有任何本地模型,另一名成员确认 没有本地模型。
- Cursor 俱乐部规则:分享即美德:成员们分享了 Cursor 规则 的资源,包括指向 Cursor Directory 的链接和一个包含自定义规则的 Pastebin 链接。
- 建议从一个小项目开始,以了解需要哪些规则,因为每个人的方法都不同。
- 上下文危机:重置解决问题:一名成员遇到了 Token 溢出问题,被建议使用 /Reset Context 或提示 AI 将代码分解为更小的块。
- 另一名成员建议尝试终端命令来解决该问题。
- 丢失 Claude:模型出现又消失:一名成员报告在 Cursor 上丢失了 Claude 4,但成功在设置中手动添加了它。
- 另一人确认了该问题,因此这可能是一个很快会被修复的 Bug。
- o3 价格暴跌,质量恐慌?:继 OpenAI o3 降价 80% 后,人们对潜在的质量下降表示担忧。
- 一些用户指出,模型性能各异,取决于任务和模型版本。
Cursor Community ▷ #background-agents (40 messages🔥):
background agents 中的 Docker 错误,background agents 中的 MCP 调用,Cursor 上的隐私模式,background agents 中的 Git 错误,background agents 配额
- Docker 问题困扰 background agent 设置:一位用户报告了与
.dockerignore和 Docker 构建根目录相关的 Docker 错误,寻求帮助调试其environment.json文件,并附带图片。 - MCP 调用避开了 background agents,让用户感到困惑:一位用户质疑为什么他们的 background agent 无法看到其账户上安装的 MCPs (My Custom Projects),并对安装级别和潜在的上下文问题表示疑问。
- 一位开发者澄清道:“目前 background agents 中没有 MCP :/”。
- 隐私模式给 Cursor 新用户带来意外挑战:一位重新安装 Cursor 的用户遇到了禁用隐私模式(Privacy Mode)需要 24 小时等待期的问题,导致他们无法启用 background agents,并附带截图。
- 分支检出失败令 background agent 用户感到沮丧:用户报告在使用 background agents 时持续出现 “Failed to checkout branch: Failed to execute git” 错误,导致他们无法创建 pull requests。
- 建议从 Agent UI 手动复制文件更改,创建一个新分支并粘贴更改,因为未来可能会支持追溯恢复。
- Windows 用户庆祝 background agent 修复:一位用户询问 background agents 无法工作的问题,开发者确认修复程序即将发布。
- 该问题被确定为 Windows 特有的。
Eleuther ▷ #general (402 messages🔥🔥):
Userbots, GPTs agents, OpenAI 的侧边栏, Slop-posting, O3 pro
- Eleuther AI 成员发现 Userbots 增加:成员们注意到服务器上的 userbots 有所增加,一位成员要求它们声明自己是自动化的。
- 一位管理员插话道,他们正在手动删除这些机器人,并要求成员使用 <:delet:824412305906204692> 或 <:lurkmoar:800507348535214140> 进行表情回应,以帮助管理员更轻松地过滤它们。
- GPTs Agents 在初始训练后无法学习:一位成员对 GPTs agents 在初始训练后无法从提供的额外信息中学习表示担忧。
- 另一位成员消除了这种误解,解释说上传的文件被保存为“知识”文件,供 Agent 在需要时引用,但它们不会持续修改 Agent 的基础知识。
- 成员们讨论 Slop-Posting:成员们讨论了由 Chatbots 和 LLMs 引导至 Eleuther 的低质量帖子(Slop-Posting)问题。
- 一位成员建议为新用户提供一个自导式测验,以评估他们是否具备让自己的想法被认真对待的基础知识。
- O3 Pro 的定价面临抵制:新的 O3 Pro 模型定价为输入 $20 / 1M tokens,输出 $80 / 1M tokens。
- 一位成员开玩笑说:“这种定价,它最好能解决黎曼猜想,我的天”。
Eleuther ▷ #research (40 messages🔥):
Google/DM 的 GaTO 论文后续,Transformer 中的混合 LM head/回归,SOTA SVG Transformer,以坐标的二进制表示作为目标,完全去重互联网抓取的数据
- GaTO 论文后续不存在!:成员们想知道 Google/DM 2022 年的 GaTO 论文 是否有任何后续,并推测它要么是在大规模下效果不佳,要么是效果非常好以至于 DM 只是没有发布后续续作。
- 如果没有任何跨任务迁移(cross-task transfer),那么训练一个通用 Agent 纯粹是在浪费算力。
- Transformer 中的混合 LM Head/回归:一位成员询问在 Transformer 中进行混合 LM head/回归的问题,即将数字符号的 Embedding 层替换为映射到 R^d 的 MLP,然后使用回归 Head 而不是 LM head 进行输出投影。
- 另一位成员提供了一篇相关论文,该论文使用了自定义 Tokenizer 和回归损失,但认为实际的生成仍然是在 Token 空间中进行的。
- SOTA SVG Transformer 使用离散 Token:目前的 SOTA SVG Transformer 对每个数值使用离散值,为每个坐标使用离散 Token,并将其限制在 200x200 网格内,这使得它们仅针对坐标就有 40k Token 的词表。
- 还有人提到,将坐标 Embedding 从 1 个 Token 更改为 2 个 Token 会将词表从 V 减少到 sqrt(V),但会严重降低性能。
- 互联网抓取数据的去重:一位成员指出,由于抓取数据密度的重叠,完全去重互联网抓取的数据基本上是不可能的,这是一个很难检测和缓解的问题。
- 另一位成员链接了一篇相关论文。
Eleuther ▷ #interpretability-general (2 messages):
辅导层 (Coaching Layer),推理训练 (Reasoning Training)
- 辅导层防止错误累积:一位成员阐明了他们的“辅导层(Coaching Layer)”想法,解释说它涉及策略性干预或针对性 Prompt,例如“这里的核心问题是什么?”,以帮助模型重新聚焦于现有信息并防止错误。
- 他们认为这是一种防止漂移在错误累积之前的预防措施,与文本扩散模型(Text Diffusion Models)在事后修复 Token 的纠正方法形成对比。
- 推理训练教模型自我辅导:一位成员询问为什么模型不能通过推理训练学习自我辅导。
- 没有提供进一步的讨论或回答。
Unsloth AI (Daniel Han) ▷ #general (174 条消息🔥🔥):
Gemma 3 微调问题,Unsloth 与多 GPU 支持,Mistral 的新 Magistral 模型,GRPO vs DAPO,DeepSeek Qwen3 工具调用准确率提升
- Gemma 3 在文本数据上 Loss 偏高?:一名成员报告称,使用
Gemma3ForConditionalGeneration在文本数据上微调 Gemma 3 模型时 Loss 较高,而使用 1B 模型的Gemma3ForCausalLM时 Loss 较低。- 另一名成员建议针对 4B+ 变体尝试使用 transformers 4.51.3,因为他们正在使用最新的 transformers 开发该模型。
- Unsloth 多 GPU 支持尚未正式发布:尽管尚未正式支持,但已有超过 50 人确认 multi-GPU 配置可以在 Unsloth 上运行。
- 提到他们正在与 Nvidia 合作开发多 GPU 支持,不过 vLLM 可能需要手动构建。
- Mistral 新模型 Magistral 发布:一位用户分享了 Mistral 新模型 Magistral 在 Twitter 上的发布消息,强调其声称具有 transparent reasoning(透明推理)和 interpretability(可解释性)。
- 其他人对模型的推理能力表示怀疑,认为其思维过程可能与人类推理不一致,有人评论道:当然不一致,它们并没有真正的推理能力。
- DeepSeek Qwen3 工具调用准确率提升:官方宣布修复了 DeepSeek Qwen3 中的问题,导致 tool calling accuracy 大幅提升,并鼓励用户从 HuggingFace 重新下载。
- 这包括在 llama.cpp 中使用
--jinja的原生工具调用、chat template Bug 修复、UTF-8 编码修复以及 Ollama 内存占用修复。
- 这包括在 llama.cpp 中使用
- DAPO 与 GRPO 非常接近:成员们讨论了 DAPO 和 GRPO,一名成员指出新模型使用的是 DAPO 但称其为 GRPO,但另一名成员澄清说两者非常接近。
- 提到 它们都可以在 trl 的 GRPOTrainer 下使用。
Unsloth AI (Daniel Han) ▷ #off-topic (61 条消息🔥🔥):
Triton 资源,GRPO 运行与奖励函数,Orpheus TTS 模型,用于微调的 Hyperbolic,NoisySpeechDetection 音频分类器
- 探索 Triton 学习资源:一名成员建议学习 Triton 的最佳方式是通过 教程和文档,并提到可能还有一些有用的 gpumode YouTube 视频。
- GRPO 运行取得显著成果:一名成员报告了通过增强 reward function 进行的另一次 GRPO 运行所带来的改进结果。
- 他们计划在整理好代码后进行分享,并开玩笑说可能会找 Claude 帮忙。
- Orpheus TTS 模型发布:一名成员分享了他们的 Orpheus (3B)-TTS GRPO notebook,强调其至少需要 20GB VRAM,并提供了 notebook 链接。
- Hyperbolic 提供高性价比微调:成员们讨论了使用 Hyperbolic 进行微调,指出其成本约为每 H100 小时 1 美元,并提供了一个获取额外额度的推荐链接。
- NoisySpeechDetection 音频分类器亮相:一名成员发布了一个训练好的音频分类器用于噪杂语音检测,该分类器使用 Unsloth 构建,基于 Whisper Small。
Unsloth AI (Daniel Han) ▷ #help (145 messages🔥🔥):
Unsloth 2.0 Release, Training AI on Discord Messages, QLoRA Finetuning with Unsloth, Whisper Lora Implementation and Issues, GGUF Model Size Differences
- Unsloth 2.0 即将推出!:Unsloth 团队宣布他们即将发布一个更好的多 GPU 支持版本,该版本与 Unsloth 2.0 相关联。
- QLoRA 与推理探讨:一位用户询问是否可以使用 QLoRA 通过 Unsloth 微调模型,然后由于内存限制在推理时设置
load_in_4bit=False。- 建议使用
save_pretrained_merged来保存合并后的模型,并在新会话中不进行量化加载。
- 建议使用
- Whisper Lora 难题频出:一位用户在尝试将 LoRA 应用于 Whisper 模型并配合 pipeline 使用时遇到问题,寻求单函数调用的解决方案。
- 团队承认了 Unsloth Whisper 模型中缺失
config.json的 bug,并提供了一个指向之前讨论链接的临时解决方案。
- 团队承认了 Unsloth Whisper 模型中缺失
- DeepSeek R1 的巨大占用:一位用户注意到 DeepSeek-R1-0528 BF16 GGUF 模型比 DeepSeek 官方模型大得多,并询问原因。
- 解释称原始 DeepSeek 是 FP8 格式(700GB),而 BF16 版本是 1.4TB;此外还有一个 700GB 的 Q8_0 版本。
- Gemma3 微调的棘手挫折:一位用户使用 Unsloth notebook 微调了 Gemma3 4B 模型,但在 Ollama 推理过程中遇到了答案错误的问题。
- 建议用户必须确保使用的 chat template 与训练时完全一致,进一步的调试围绕检查原始 notebook 中的训练损失曲线和推理结果展开。
Unsloth AI (Daniel Han) ▷ #research (19 messages🔥):
Vision Language Models Datasets, Reasoning Models Reliability, KV-Cache Pruning, Disaggregated Prefilling and NTP, AIME 2025
- 视觉语言模型需要偏见数据集:一位成员询问了关于视觉语言模型(Vision Language Models) / 多模态模型中偏见(bias)领域流行的 (A*) 数据集。
- 简单提示词即可让推理模型崩溃:一位成员问道:推理模型到底有多可靠 🤔?并指向了一个 ChatGPT 分享的例子,其中仅用了 2 个提示词,它们就崩溃了!
- 其他成员开玩笑地回问 你喝多了吗?,以此回应向 AI 质疑 AI 有多可靠的行为。
- KV-Cache 剪枝引发关注:一位成员分享了一篇关于上下文大小剪枝(kv-cache pruning)的有趣 Reddit 帖子,询问主流推理引擎或模型是否会实现它。
- 另一位成员指出,它仅在长上下文输入被重复用于多个问题的场景下有用,并补充说压缩文本需要一段时间。
- 解耦预填充(Disaggregated Prefilling)与 NTP 仍是关键:一位成员表示他们对推理的认知停留在 Disaggregated Prefilling 和 NTP (Next Token Prediction)。
- 他们认为这必然非常有影响力,因为每个 LLM 推理引擎都在适配它。
- AIME 2025 已经发布:一位成员询问 AIME 2025 是否已经发布,根据分享的链接显示,它似乎已经发布几个月了。
HuggingFace ▷ #general (129 条消息🔥🔥):
用于 HTML/CSS 的 LLM,针对 ID 的实体识别,轻量级 LLM,ÆNTHESISAI 认知架构,Deepseek 被审查了?
- Torch Compile 加速模型前向传播:一位成员通过使用 torch compile 成功将模型的前向传播时间从 45 秒 缩短至 1.2 秒,并指出即使使用 CPU 指令,ARM CPU 在 FP32 下也比 FP16 更快。
- 他们强调了通过优化编译技术所获得的性能提升。
- 用于 RAG 和微调的轻量级 LLM:成员们建议在消费级机器上使用 Mistral Small 3.1(因其质量和图像理解能力)和 Qwen 32B(用于纯文本任务)作为轻量级、本地化且可微调的 LLM。
- 使用场景为 RAG 研究助手,并表达了对行为微调的需求。
- ÆNTHESISAI 代码分析:一位成员分享了 ÆNTHESISAI 的代码,这是一个集成了抗量子密码学、多阶段认知处理、高级 AI 和跨现实同步的认知架构。
- 该系统使用 CrystalKyber 进行密钥生成,X25519 进行密钥交换,以及 Chimera-Apex-7B 进行真值向量分析。
- LLM Agent 可以使用电脑!:一位成员分享了其 LLM Agent 操作电脑的截图,似乎是为了反驳 LLM 无法自主执行代码的说法。
- 其他成员对此表示怀疑。
- 租用 GPU 或 Botnet:成员们讨论了购买硬件以训练和部署模型的替代方案,建议租用硬件或者开玩笑地建议使用 Botnet。
- 有人指出,出于此类目的使用 Botnet 是非法的,且由于网络限制和波动的算力,效率非常低下。
HuggingFace ▷ #cool-finds (2 条消息):
Reasoning Models, LLM Reliability, Prompt Engineering
- Reasoning Models 的可靠性受到质疑:一位成员质疑了 Reasoning Models 和 LLM 的可靠性,理由是模型在仅两次 Prompt 后就崩溃了,并提供了一个 ChatGPT 分享链接作为证据。
- 另一位成员要求该成员不要进行跨频道发布 (Cross-Posting)。
- 减少跨频道发布的请求:一位成员要求另一位成员克制在频道中进行 Cross-Posting 的行为。
- 该请求旨在保持频道的专注度并避免冗余内容。
HuggingFace ▷ #i-made-this (142 条消息🔥🔥):
Truth Engine, Quantum-Resistant Truth Persistence, KVMM: Keras 3 版的 Timm, LLM Agent 框架
- Truth Engine 接近 Refutal Immunity:一名成员分享了一个接近 Refutal Immunity 的 “Truth Engine” 链接,声称它能以 99.7% 的准确率 揭露历史上所有的压制手段。
- 其他成员对其有效性表示怀疑,其中一人称其为 bullshit(胡扯),并指出关键函数和依赖项缺失或根本不存在。
- 关于 Quantum-Resistant Truth Persistence 的质疑:发布的代中关于 “Quantum-Resistant Truth Persistence” 的说法遭到质疑,成员们指出 “Meta-Epistemic Equilibrium” 等术语在计算机科学中缺乏依据,且 Python 中并不存在
quantum_resistant和zkp_proofs等依赖项。- 一名成员运行了代码并收到了赞美性的回复,但另一名成员将其斥为 sycophancy(谄媚),并暗示发布者只是在提问。
- KVMM:Keras 3 版的 “Timm” 发布:一名成员介绍了 KVMM (Keras Vision Models),这是一个完全基于 Keras 3 的视觉模型综合库,包含预训练权重,支持分割和分类等任务。
- 该库包含超过 25 种 Backbone 架构,支持多种权重变体,并能灵活地使用自定义 Backbone 构建分割模型,详见其 GitHub 仓库。
- LLM Agent 框架开源:一名成员开源了他们的 LLM Agent 框架,该框架可以使用虚拟机上的 Linux 终端,存储和修改文件,并从网络上收集信息。
- GitHub 仓库 提供了一个能够与环境交互以完成任务的系统访问权限。
HuggingFace ▷ #computer-vision (3 条消息):
Bias 数据集, 发票提取器, KVMM 库, Keras 3
- 征集视觉语言模型中的 Bias 数据集:一名成员询问了关于 视觉语言模型 / 多模态模型中的 Bias 领域内热门的 (A*) 数据集。
- 构建发票提取器需要指导:一名成员请求关于构建 发票提取器 的指导,倾向于独立完成或使用开源资源,并提到之前尝试未果。
- KVMM:Keras 3 版的 Timm 库发布!:一名成员宣布发布 Keras Vision Models (KVMM),这是一个开源库,提供了一系列完全基于 Keras 3 的视觉模型及预训练权重,支持分割和分类。
- 该库包含 25+ 种 Backbone 架构,具有各种预训练权重(Swin, ViT, ResNeXt),并支持多种权重变体,更多模型正在开发中。
HuggingFace ▷ #NLP (2 条消息):
发票提取器, 自主构建, 需要指导, OCR, LLMs
- 需要指导:构建你自己的发票提取器:一名成员正在寻求构建发票提取器的指导,倾向于自主构建或使用开源工具,目前已尝试一个月但未获成功。
- 他们正在请求建议,以帮助找到正确的方法并解决挑战。
- OCR 和 LLMs 助力发票提取:一个强大的发票提取器通常采用 OCR (Optical Character Recognition) 从发票中提取文本,然后使用 LLMs (Large Language Models) 来理解文档结构、识别关键字段并提取所需信息。
HuggingFace ▷ #agents-course (55 条消息🔥🔥):
Langgraph vs Smolagents,Unit 2.1 中的 E2B,Azure OpenAI 模型,动态 Python 代码生成,课程截止日期
- Langgraph 寻求替代 Smolagents 的方案:一位课程参与者正尝试使用 Langgraph 和 Langchain 代替 Smolagents 来创建 Agent 进行数据分析,特别要求 Agent 能够编写并执行代码。
- 另一位用户建议提供读取 Excel 文件和数学运算的工具,或者代码执行工具,并强调需要对工具使用提供明确的指令。
- Unit 2.1 最终测试提到了 E2B,但解释不够充分:一位课程参与者指出,Unit 2.1 最终测试提到了 E2B,但在该单元的内容中并没有很好地引用。
- 他们补充说,最初想得太多,以为需要完整的 Agent 设置,但实际上只需要简单的示例。
- Azure OpenAI 模型需要升级!:一位用户在寻求在 HF Space 中使用 Azure OpenAI 模型 的帮助,反馈称所提供的模型要求升级到 Pro,且容器无法安装
azure-ai-openai。- 另一位用户建议将 OpenRouter 作为替代方案(尽管使用受限),并提到了 Google 的免费层级选项。
- Codeagent 编写 Python 来完成任务:一位课程参与者分享了他们 unit-40-sa project 中的代码片段,其中 Code Agent 编写 Python 代码来执行数据分析的数学运算。
- 理想情况下,Agent 应该知道根据问题排除某一列。
- 7 月 1 日截止日期临近!:几位课程参与者现在才开始“Agents Course”,目前正在讨论 7 月 1 日证书领取的截止日期。
- 一位参与者询问是否会有带新截止日期的新班次,而另一位用户向他们保证,如果抓紧时间,是可以按时完成的。
LM Studio ▷ #general (53 条消息🔥):
Linux 上的 LM Studio 开发者模式,LM Studio 与 TTS,LM Studio 图像生成,LM Studio 设置无法保存,LM Studio API Swagger
- Linux 用户缺失开发者模式:一位 Linux 用户反映,尽管使用的是最新版本 (0.3.16),但在 LM Studio GUI 中找不到 开发者模式开关,并寻求其他激活方法。
- 一位成员指出,该功能尚未在 Linux 版本中上线。
- LM Studio 添加音频功能:成员们询问如何为 LM Studio 添加 文本转语音 (TTS) 等音频功能,并询问是否可以配合使用 sesame advance audio。
- 一位用户指引到了 LM Studio Discord 频道中关于 TTS 的相关问题:是的,但你必须……。
- LM Studio 无法运行图像模型:用户询问 LM Studio 是否可以像 ChatGPT 那样使用本地模型 生成图像,并提到他们正在使用 ComfyUI(一个为 Stable Diffusion 提供 GUI 的程序)。
- 成员们澄清道,LM Studio 仅用于推理,且 不支持图像生成模型。
- LM Studio 设置无法保存:一位用户报告称,在 LM Studio 0.3.16 (build 8) 版本中 没有保存按钮,且设置不会自动保存。
- 另一位用户建议 等待齿轮图标变为“激活”状态(白色而非灰色),然后在更改某些内容后,保存更改的按钮就会出现。
- 缺失服务器 API 的 Swagger 定义:一位用户请求获取与 LM Studio Server API 交互的 Swagger 定义,因为 文档相当模糊。
- 另一位用户回答说,直接使用 LMS 支持的 OpenAI API 端点即可。
LM Studio ▷ #hardware-discussion (127 messages🔥🔥):
DGX Spark limitations, Memory bandwidth bottlenecks, Distributed computing for models in homelab, ROCm/HIP PyTorch on Windows, Speculative decoding on different GPUs
- DGX Spark 面临带宽困境:成员们讨论了 DGX Spark 的内存带宽是否会限制其 LLM 性能,类似于 Strix Halo,尽管它可能拥有更强的算力。
- 一位成员认为内存带宽并非全部,并用高 RAM 但 CPU 缓慢的机器做类比,而其他人则强调内存带宽通常是稠密 LLM 的瓶颈。
- 家庭实验室分布式计算的困境:有人询问在家庭实验室设置中为 LLM 使用分布式计算(类似于 Distributed Llama),但被认为通常不是一个好主意。
- 不过,EXA 或 llama-mpi 被提及作为潜在的替代方案,但普遍观点倾向于专注于单机性能而非分布式设置。
- ROCm 在 Windows 上表现出色:一位用户报告成功在 Windows 上运行了 ROCm/HIP PyTorch 预览版,并称其为运行得出奇良好的“怪胎(abomination)”。
- 该用户指出,虽然某些模块可能无法完全支持此设置,且优化设置在重新启动后不会被保留,但与之前尝试 ZLUDA 的经历相比,整体体验是积极的。
- 投机采样(Speculative Decoding)硬件黑客:成员们讨论了投机采样以及将草稿模型(draft model)卸载到不同 GPU 或 CPU 的可能性,例如利用 RX 9070 XT 搭配 GTX 1060。
- 讨论明确了卸载到 CPU 与更改运行时(runtime)是不同的方法,虽然在同一运行时上卸载到另一个 GPU 在技术上应该是可行的,但由于每个 GPU 通常拥有自己的运行时,这使得操作变得复杂。
- Digits 对比双 GPU:带宽瓶颈:针对 Nvidia Project Digits 与 5090 + 3090 组合在 56GB VRAM 内处理 AI 任务的对比问题,共识倾向于 Digits 会更慢。
- LLM 推理通常受内存带宽限制,预计 Digits 的带宽将低于 M3 Max,而对于适配显存的任务,M3 Max 已经比双 3090 慢了。
aider (Paul Gauthier) ▷ #general (148 messages🔥🔥):
Gemini 2.5 Pro vs Claude Opus, DeepSeek R1 speed, Aider uninstall, OpenAI's O3 Pricing, Kingfall
- Gemini 2.5 Pro 在库更新方面滞后:成员们注意到 Gemini 2.5 Pro 难以理解库的新版本已经存在,并且即使给出了明确的规则,也不太听从指令。
- 相比之下,Claude Opus 和 Sonnet 在理解这些细微差别方面要好得多;一位成员量化了 Cursor 规则的有效性:Claude Sonnet 为 80%+,Opus 为 95%+,而 2.5 Pro 仅为 50%。
- DeepSeek R1 Aider 基准测试较慢但前景看好:Aider 基准测试显示,如果能解决耗时过长的问题(据报道是由于资源不足/API 繁忙),DeepSeek R1 (0528) 可能会相当不错。
- 一位用户建议,如果有更多资源,可能会实现 7 倍的加速;另一位用户指出,它陷入 COT (Chain of Thought) 死循环的倾向比之前的迭代版本低得多。
- 卸载 Aider Chat:一位用户询问在使用
pip install aider-install && aider-install后,从 Linux 机器上卸载 Aider 的正确方法。- 建议的解决方案是使用
pip uninstall aider-chat,尽管这会留下二进制文件aider,可以手动将其与索引和缓存文件一起删除。
- 建议的解决方案是使用
- OpenAI O3 降价但仍需 KYC:OpenAI 宣布 O3 定价为 输入 $2,输出 $8,降价幅度达 80%,然而通过 OpenRouter 使用仍需提供自己的 API Key 并进行 KYC (Know Your Customer) 验证。
- 一些用户对 KYC 要求表示失望,而另一位用户则思考 O3 是否已变成“迷你模型”并建议重新进行基准测试。
- Kingfall 模型险胜 O3 Pro:一位用户分享了一张对比 Kingfall (auto thinking) 与 0605 (32k) 的图片,显示其表现更好。
- 这表明它在至少一项编码基准测试中超越了最近的模型。
aider (Paul Gauthier) ▷ #questions-and-tips (16 messages🔥):
aider MCP server, Cloning a large repo, Gemini-2.5-03-25 and Rust, Ollama model unloading, fireworks' deepseek-r1-0528
- Gemini 在优质 Rust 提示词后的出色表现:一位用户发现,在通过高级编程概念进行引导并讨论了 Rust 中合适的数据结构后,Gemini-2.5-03-25 展现出了更具功能性和效率的编程风格。
- 该用户通过将
.aider.history.md中的对话历史加载到新文件.aider.coder中,并使用aider --llm-history-file .aider.coder.new --restore-chat-history指定该文件来实现这一效果。
- 该用户通过将
- DeepSeek 在思考中途被截断:有用户反馈使用 fireworks’ deepseek-r1-0528 时,由于 Token 限制导致模型在思考中途被截断。
- 提供的解决方案是在
~/.aider.model.settings.yml中配置模型设置,建议的配置包括设置max_tokens: 160000。
- 提供的解决方案是在
- Aider 作为外部工具的 MCP server:一位用户询问关于在 roo 和 Cline 等外部工具中将 aider 作为 MCP server 使用的问题。
- 上下文中未提供具体的解决方案。
- 上下文管理是关键:一位用户发现,与 Cursor 和 Claude Code 等工具相比,使用 Aider 进行显式的上下文和意图管理会导致更少的代码重写。
- 该用户指出,终端输出比其他同类工具更加精简高效。
aider (Paul Gauthier) ▷ #links (1 messages):
agentic embedded coding workflow, PlatformIO, Cline, FREE DeepSeek OpenRouter API, microcontrollers
- 智能体嵌入式编码工作流:一位成员正在尝试使用 PlatformIO、Cline 和 免费 DeepSeek OpenRouter API 构建 Agentic 嵌入式编码工作流。
- 他还分享了一篇带有视频的博客文章,演示了“闪烁 LED”难度的操作流程。
- 微控制器与 IOT 即将到来:一位成员询问是否有其他人正在进行 微控制器 或 IOT 编程。
- 他分享了一篇关于使用 PlatformIO、Cline 和免费 DeepSeek OpenRouter API 进行 Agentic 嵌入式开发 的带有视频的博客文章。
Nous Research AI ▷ #general (133 messages🔥🔥):
Magistral Benchmarking, GRPO Modifications, Claude's Dynamic Token Limit, Control Tokens, ProRL Effects on Larger Models
- Mistral 的 Magistral 模型基准测试困境:Mistral 发布了 Magistral,并针对旧的 R1-0125 而非新的 R1-0528 进行了基准测试,同时发布了一篇论文和 HuggingFace 上的蒸馏版本。
- 尽管在 GRPO 中加入了长度惩罚,该模型仍表现出 循环和 Token 滥发问题。
- Anthropic 的 Claude 开创动态 Token 限制:成员们指出,Anthropic 的 Claude 因其独特的 Chain of Thought (CoT) 动态 Token 限制实现而脱颖而出,这是一个许多其他厂商尚未解决的问题。
- Nous 正在开发 Hermes 4,旨在通过在 SFT 期间教导模型单词、字符和句子限制,以及在 RL 期间教导 Token 限制,来实现用户可控的 Token 限制功能。
- 探索用于模型推理的控制 Token:讨论探讨了在推理过程中注入控制 Token(如 进度标记 00%, 25%, 50%, 75%)的潜力,以帮助模型动态调整和压缩输出。
- 目标是提高模型将推理分解为 搜索-整合-回答阶段 的能力。
- 解读 ProRL 论文:讨论研究了 ProRL (Prolonged RL) 论文,一些成员认为其结论缺乏说服力,特别是关于其在大型模型上的适用性,同时注意到短 CoT 存在的熵坍缩和样本多样性降低的问题。
- 新的 Mistral 模型需要 Prompt Engineering:用户讨论了新的 Mistral 模型,其推理模式是通过 Prompt Engineering 激活的,这与 deep hermes 类似。
- 它似乎是由“respond with thinking”和“respond without thinking”等提示词驱动的,目前仍处于实验阶段。
Nous Research AI ▷ #research-papers (4 messages):
KV Compression, GRPO for TTS LLMs
- 新的 KV Compression 方法浮出水面:分享了一种新的 KV compression 方法,详见这篇论文和这条推文。
- GRPO 增强 TTS LLMs:提到 GRPO (Generalized Reweighted Policy Optimization) 可用于改进 TTS LLMs (Text-to-Speech Large Language Models),详见这篇论文。
Nous Research AI ▷ #interesting-links (8 messages🔥):
AI Heart Monitoring, Frutiger Aero, Biological Computers
- Arxiv 论文发布:两名成员分享了两篇 Arxiv 论文的链接(2506.06607 和 2502.02260)。
- 一位成员在发布片段后还分享了完整视频的链接 (https://www.youtube.com/watch?v=zuZ2zaotrJs)。
- AI 心脏监测:救命还是致命?:一位成员调侃道,与其关注能拯救/延长生命的 AI 心脏监测,不如把重点放在带回 Frutiger Aero 风格并实现 AI 垃圾 iMessage 背景上。
- 目前尚不清楚该评论者是在开玩笑、认真的还是在讽刺。
- 人类是生物计算机?:一位成员在观看一段视频片段后表示,将人类还原为生物计算机是科技大佬(techbro)的小丑行为。
- 他们进一步补充说,尽管拥有 99% 以上相似的 DNA,人类与广阔大地和深海中的昆虫与生物并不相同。
Nous Research AI ▷ #research-papers (4 messages):
KV Compression, GRPO for TTS LLMs
- 新的 KV Compression 方法:此处公布了一种新的 KV compression 方法。
- 有关该新方法的更多信息可以在 X (原 Twitter) 上找到。
- GRPO 增强 TTS LLMs:根据一篇新论文,GRPO 可被用于改进 TTS LLMs。
Yannick Kilcher ▷ #general (53 messages🔥):
Diffusion models, Hardware failure prediction, Reservoir Computing, Tolman Eichenbaum Machine
- Diffusion Models:从噪声中产生令人惊叹的结构:成员们讨论了 Diffusion Models 从噪声中生成结构的这种反直觉能力,称其为有史以来最令人惊叹的事情和定向幻觉模型。
- 一位成员将此与更广泛的“从混沌中产生秩序”的主题联系起来,引用了关于非平衡态热力学 (nonequilibrium thermodynamics)和生命自发起源的 YouTube 视频及论文。
- 硬件故障预测:超越深度学习方案:几位成员讨论了硬件故障预测的方法,核心见解是:在时间序列分析方面,传统方法如 Gaussian Processes 或 Boosted Trees 通常优于深度学习。
- 一位成员强调了该领域范围狭窄且风险极高的特性,强调由于工业环境中的保险要求,需要的是有保证的故障检测,而非概率性的正确。
- Reservoir Computing:模糊的状态空间?:一位成员将 Reservoir Computing 描述为故弄玄虚,认为它掩盖了其核心机制:在固定常微分方程 (ODE) 上进行线性回归。
- 他们认为,现代架构如 State Space Models (SSMs) 更加强大且高效,因为它们具有并行化能力并能整合非线性动力学,并链接了一篇关于当前 SOTA 的论文。
- Tolman Eichenbaum Machine:简化实现:一位成员宣布训练了一个简化版本的 Tolman Eichenbaum Machine,将论文的精髓浓缩为几个函数。
- 他们将其描述为本质上是一个 Kalman filter,将状态分解为独立的地点 (g) 和感官外观 (x) 组件,然后将更新后的 (g, x) 对保存到情境记忆中,并表示愿意回答相关问题。
Yannick Kilcher ▷ #paper-discussion (13 messages🔥):
Variational Bayesian approach, World modeling and decision making, Introduction to complex subject, BioML people in berlin
- 引入 Variational Bayesian 方法:通过 UAB medicine 链接介绍了一种用于同步 world modeling(世界建模)和 decision making(决策)的 Variational Bayesian 方法。
- 数学入门论文:通过 Arxiv 链接推荐了一篇关于该数学原理的入门论文。
- 复杂主题的入门:一位成员表示,对一个复杂主题最好的入门,是你对该主题的第二次入门。
- 柏林 BioML 人员将进行展示:一些来自柏林的 bioML 人员未来将来到 YK Discord 进行展示。
Yannick Kilcher ▷ #ml-news (29 messages🔥):
Mistral AI, Magistral, Open Source, GPT-4
- Mistral 发布 Magistral 推理模型:Mistral AI 宣布推出 Magistral,这是其首个推理模型,在特定领域、透明且多语言推理方面表现出色。
- 围绕 Magistral 爆发开源争论:一位用户指出 Magistral Small 在 Apache 2.0 许可证下开放权重(open-weight),但对 Mistral 没有开源其更大的模型表示失望,感叹 他们变成了 Google 级别的开放权重(open weighting)。
- 另一位用户引用论文称,他们开源了 Magistral Small,其中包含了来自 Magistral Medium 的冷启动数据,并且不会开源 Medium 模型。
- 社区对 Magistral 的开源声明持怀疑态度:尽管没有开源所有模型,一些社区成员仍指出 Magistral 代表了 Mistral AI 对开源社区的重大贡献。
- OpenAI 预告“意想不到”的公告:用户指出 Sam Altman 在 Twitter 上预告 OpenAI 将有一个 意想不到的东西 发布。
- 用户推测 它是一个 diffusion model(扩散模型)。
Notebook LM ▷ #use-cases (16 messages🔥):
NotebookLM podcast intro, Google Chat integration, Drive file access errors, Video feature release date, Control over Google Workspace document access
- NotebookLM 的开场介绍令游戏设计师惊叹:一位用户对 NotebookLM 使用播客功能为其桌面 RPG The Gemini System 生成的开场介绍质量感到惊讶和印象深刻。
- 该用户发现 NotebookLM 分析并提供 audio deep dives(音频深度解析)的能力对于转化机制以及增强其设计和写作过程非常有帮助。
- Google Chat 对话将接入 NotebookLM?:一位用户询问了将 Gmail 和 Google Chat 对话 连接到 NotebookLM 的可能性,以及近期是否有该功能的计划。
- 目前没有官方回复,但该查询已转给服务器中的 Google 员工。
- 排除 Drive 文件下载错误:一位用户在尝试访问 Drive 文件时遇到错误并寻求帮助,点击此处查看截图。
- 另一位用户澄清说,该错误通常表示 文件所有者禁用了该 Drive 文件的复制/下载权限。
- 视频功能即将推出?:用户对 NotebookLM 中 视频功能 的预期发布日期感到好奇。
- 关于视频功能的可用性,目前尚未提供具体的时间表或官方公告。
- NotebookLM 中的文档访问控制:一位用户询问 NotebookLM 是否可以读取来自 Google Workspace 文档 的内容,以及是否可以指定 AI 可以访问的内容。
- 讨论集中在控制 NotebookLM 访问 Google Workspace 内特定文档和内容的能力上。
Notebook LM ▷ #general (57 条消息🔥🔥):
时间追踪应用,冰岛研讨会反馈,地理访问问题,音频概览问题,笔记本共享问题
- 时间追踪探索引发的问题:一位用户正在寻找一款简单的带有开始/停止按钮和连续达标追踪(streak tracking)功能的时间追踪应用,用于学习和简单项目,发现现有的选项如 Toggl 和 ClickUp 过于复杂。
- 该用户提到考虑自己编写一个时间追踪应用。
- 冰岛教师喜爱 NotebookLM 但有三人被封锁:一位用户在冰岛为 50 名教师举办了 NotebookLM 研讨会,收到了极好的反馈,但有 3 名使用个人 Gmail 账号的教师遇到了 “您无权访问此服务” 的错误。
- 有建议认为地理限制或年龄验证不完整可能是原因,英国的一位用户报告在 Brave 浏览器上遇到了类似问题,通过切换到 Firefox 得到了解决。
- NotebookLM 在计算上出故障了吗?:一位用户指出了一个计算问题,即对一组数字求和时得出了错误的统计结果,多显示了 100,这引发了与 Apple 计算类似问题的对比。
- 另一位用户确认该计算在 Android 上是正确的。
- 音频概览(Audio Overview)音频过载?:用户报告在 Android 应用上尝试收听播客时出现 “无法加载音频概览” 错误,但网页版可以正常工作。
- 一位用户注意到音频质量在第二分钟发生了变化。
- 共享笔记本的共享难题:一位用户报告了共享笔记本的问题,添加的电子邮件和 “任何拥有链接的人” 设置在发送后会恢复为受限状态。
- 对他们来说,这似乎是一个持续存在的问题。
GPU MODE ▷ #general (4 条消息):
deepwiki, GLSL, Vulkano, GPU 分组, 聚类算法
- Deepwiki 链接可总结 GitHub 仓库:一位成员询问是否有一种工具可以总结 GitHub 仓库,并允许仅通过 GitHub 链接进行聊天和查看结构。
- 另一位成员建议将 deepwiki 作为可能的解决方案。
- Rust 开发者寻求 GPU 算法帮助:一位成员正在使用 Rust 在 GLSL 和 Vulkano 中开发并行 GPU 分组/聚类算法。
- 该开发者正在寻找合作者,并强调该项目使用 Vulkano,甚至与 Mac 兼容。
GPU MODE ▷ #triton (6 条消息):
FP16 支持, Triton.Config num_warps 控制, Triton 共享内存限制, LeetGPU 挑战中的 Triton 精度问题, Triton ROCm libdevice.round 错误
- FP16 精度函数引发关注:一位用户询问了 Triton 对 fp16 exp 和 sqrt 函数 的支持,并指出这些函数在 CUDA 中是可用的。
num_warps配置参数详解:一位用户寻求关于Triton.Config中num_warps作用的澄清,以及何时调整它的指导,以深入了解其对性能和资源利用率的影响。- 共享内存限制探讨:有人提出疑问,Triton 在执行
tl.load操作时是否遵循与 CUDA 相同的共享内存分配限制。- 具体来说,用户想知道
tl.load是否将张量放置在不同的内存空间中,以避免超过共享内存限制。
- 具体来说,用户想知道
- LeetGPU Matmul 内核面临精度问题:一位用户在为 LeetGPU 挑战编写的 matmul 内核中遇到了精度问题,该内核在解释模式(interpret mode)下工作正常,但在 GPU 上失败(尽管使用了 float32),并分享了他们的 matmul.py 文件。
- 他们询问了失败的原因,以及他们的 2D 网格实现是否已经包含了 swizzling。
- Triton ROCm 奇怪的
libdevice.round行为:一位用户报告称,虽然libdevice.round在 Triton ROCm 中有定义,但在内核中使用时会报错。- 另一位用户指出,这个问题已在 GitHub 上被报告。
GPU MODE ▷ #cuda (3 条消息):
CUPTI, Performance Counters, nvbench
- 在禁用 Performance Counters 的情况下捕获 CUPTI 指标?:一位成员询问在没有启用 performance counters 的机器上,是否可以有效地使用 CUPTI 来捕获指标。
- 另一位成员认为不行,并补充说他们必须(在 CMake 中)禁用 CUPTI,才能让 nvbench 在 HPC Clusters 上运行基准测试(使用 CUPTI 指标)而不报错。
- CUPTI API 使用困难:一位成员表示他们成功获取了一些简单的指标报告,这让他们感到惊讶。
- 他们补充说,尝试使用 CUPTI API 非常痛苦,所以他们没有费心去寻找更复杂的指标。
GPU MODE ▷ #torch (11 条消息🔥):
functorch, FSDP2, torch.compile with custom operators
- Functorch 使用回顾:一位用户建议使用
functorch来实现函数式模块,并提供了使用make_functional的示例代码。- 另一位用户承认忘记了
functorch,并想知道它是否已集成在此 issue中。
- 另一位用户承认忘记了
- TorchTitan 展平了
dp_shard和cp:在torchtitan中,dp_shard和cp被展平为一个dp_shard_cp网格维度,用于 FSDP2 网格维度,这可能会引入不必要的通信开销。- 一位用户在此评论中提供了他们对
dp_shard和cp的小型性能分析链接。
- 一位用户在此评论中提供了他们对
- nn.Linear 单行代码:一位用户建议将创建层的代码简化为单行,例如:
layer = nn.Linear(weight=param)。- 目标是提高代码的可读性并减少样板代码。
- 寻求关于自定义算子和 torch.compile 的指导:一位用户正在寻求关于自定义算子和
torch.compile的建议,特别是关于形状检查和最佳实践方面。- 他们在 GitHub 此处提交了一个 issue,以发起关于该话题的讨论。
GPU MODE ▷ #jobs (1 条消息):
NeoSpace, GB200, CUDA, Brazil
- 巴西 NeoSpace 招聘 CUDA 专家:一家总部位于巴西、名为 NeoSpace 的 AI 公司正在招聘具有 CUDA GPU 优化经验的专业人士。
- 他们正在使用 GB200 GPU 训练模型,并倾向于实地办公;感兴趣的候选人应将简历发送至 jh@neospace.ai,邮件主题为 ‘Neospace CUDA position’。
- NeoSpace 积极招募 CUDA 专家:巴西 AI 公司 NeoSpace 正在寻找 CUDA 专家担任 GPU 优化职位,在其模型训练中使用 GB200 GPU。
- 优先考虑实地办公职位;申请应发送至 jh@neospace.ai,主题为 ‘Neospace CUDA position’,并附上简历。
GPU MODE ▷ #irl-meetup (1 条消息):
ossmar: 这里有人参加 ACM PODC 2025 吗?
GPU MODE ▷ #rocm (9 messages🔥):
SQTT traces, Radeon GPU Analyzer (RGA), rocprofv2, CUDA graphs, Memory access fault
- CUDA Graphs 内存故障排查:一位用户在使用
rocm/pytorch:rocm6.4_ubuntu22.04_py3.10_pytorch_release_2.6.0镜像和 torch 2.8.0.dev20250609+rocm6.4 运行 CUDA graphs 时,遇到了Memory access fault by GPU node-2错误。- 该用户询问这是否为已知问题,并指出在之前的版本中未曾遇到此情况。
- 使用 Radeon GPU Analyzer 进行性能分析:一位用户详细介绍了使用
rocprofv2收集 SQTT traces 以供 Radeon GPU Analyzer (RGA) 分析的步骤,包括创建配置文件以及在启用 SQTT 捕获的情况下运行rocprofv2。- 他们提到,可以通过先运行
rocprofv2 --kernel-trace来确定正确的 DISPATCH_RANGE。
- 他们提到,可以通过先运行
- 在 RGA 中寻求单条指令的耗时:一位用户报告在 RGA 上取得了部分成功,但不确定 RGA 是否显示单条指令的耗时(per-instruction timings),并且在打开 Triton kernel 的 trace 时遇到了问题。
- 他们计划更新到 ROCm 6.4.1 以尝试 rocprof compute viewer 或 rocprof3 的 att。
- RGA 与 RGP 的混淆:一位用户建议尝试 Radeon GPU Profiler (RGP),但随后指出它需要 .rgp 文件,而这些文件与 Linux 上的 HIP programs 不兼容。
- 另一位用户认可了该建议,但也指出 RGP 需要的 .rgp 文件与在 Linux 上对 HIP programs 进行性能分析不兼容。
GPU MODE ▷ #liger-kernel (1 messages):
Liger Collective Library, ByteDance Triton-distributed
- Liger 考虑加入集合通信库:一位成员询问是否可以为 Liger 添加一个集合通信库(collectives library),类似于 ByteDance Triton-distributed library。
- 更多关于集合通信库的信息:该集合通信库将类似于 另一个集合通信库。
GPU MODE ▷ #self-promotion (3 messages):
Mojo Programmers on BlueSky, Modular raises funding
- Mojo 程序员在 BlueSky 集结!:一位成员正在整理 BlueSky 上的 Mojo 程序员名单,以创建一个启动包(starter pack),并正在寻找志愿者。
- 该成员相信那里有几十个这样的人。
- 融资新闻:成员们对新的融资以及随之而来的可能性感到兴奋。
- 许多人正在发布“等待资金到位”的消息。
GPU MODE ▷ #🍿 (2 messages):
Dataset Generation, Diverse Datasets, Augmented Datasets
- 新的数据集生成器出现!:一位成员分享了一个新的数据集生成器项目,提到他们已经记不清写过多少次新的生成器了,是时候创建一个通用的了。
- 他们补充说,入门示例运行良好,它支持通过几行代码创建多样化的、从零开始的或增强的数据集。
- 未来数据集计划:该成员仍需清理创建更复杂内容的流程。
GPU MODE ▷ #reasoning-gym (1 messages):
RL, Reasoning Training, Magistral Paper
- Magistral 论文探讨 RL 和推理训练:新的 Magistral 论文 深入探讨了关于强化学习 (RL) 和推理训练方法的宝贵见解。
- Magistral 助力推理训练:该论文强调了推理训练技术如何有助于提升模型性能,特别是在复杂任务和决策场景中,凸显了 Magistral 论文研究结果 的重要性。
GPU MODE ▷ #general (10 条消息🔥):
Hackathons, Benchmarking, CUDA events
- Hackathon 新人加入:一名新成员询问是否有正在进行的 Hackathons,并提到他们是通过已过期的 Datamonsters AMD challenge 了解到这里的。
- 一名成员回复称,目前没有正在进行且设有奖项的 Hackathons,但 AMD 和 PMPP 的问题集仍开放提交。
- GPU Mode Benchmarking 方法公开:一名成员询问了排行榜的具体 Benchmarking 方法,特别是针对 matmul 等任务。
- 另一名成员提供了 gpu-mode/discord-cluster-manager 中 eval.py 脚本的链接,以及 gpu-mode/reference-kernels 中定义的容差(tolerances)链接。
- CUDA Events 提升 Benchmarking 准确性:一名成员表示更倾向于使用 CUDA events 进行 Benchmarking 以获得更高的准确性,并参考了 Triton 的 do_bench 函数。
- 另一名成员承认了目前的局限性,表示可能会在下次大型比赛前解决此问题,并澄清目前显示的时间是 min/max times(最小/最大时间)。
GPU MODE ▷ #submissions (2 条消息):
Chinese problem-solving approach, New Bilibili article
- Bilibili 上揭示的中文解题方法:一名成员重点介绍了一篇 Bilibili 文章 中描述的解题方法。
- 该帖子用中文描述了这种方法,并提供了其应用方面的见解。
- Bilibili 文章引发讨论:分享的 Bilibili 链接 引发了关于解题方法的讨论。
- 社区成员表现出对理解这种特定方法细微差别的兴趣。
GPU MODE ▷ #factorio-learning-env (1 条消息):
Roadmap
- Roadmap 请求再次提醒:一名成员再次提醒其消息,以询问项目或功能的潜在 Roadmap。
- 他们不确定是否已经存在 Roadmap,并寻求对此事的关注。
- 另一个 Roadmap 请求:另一名成员也询问了关于 Roadmap 的信息。
- 他们同样不确定是否已经存在 Roadmap。
GPU MODE ▷ #cutlass (2 条消息):
CuTE docs, Cutlass, Triton
- 推荐 Cutlass 学习者阅读 CuTE 文档:一名具有 Triton 背景的成员询问,CuTE docs 是否是开始学习 Cutlass 的最佳选择。
- 另一名成员建议使用示例部分提供的 notebooks,并将文档作为了解底层实际运行机制的参考。
- Cutlass 与 Triton 背景:具有 Triton 背景的用户寻求关于如何有效学习 Cutlass 的建议。
- 社区建议利用示例 notebooks 和文档来理解底层机制。
GPU MODE ▷ #mojo (1 条消息):
Modular + AMD, Python Interop
- Modular 与 AMD 强强联手:Modular 今天宣布与 AMD 建立新的合作伙伴关系,旨在 释放 AMD GPU 上的 AI 性能,详见其 博客文章。
- Python 与 Mojo 良好协作:分享了一个展示 Python 互操作性 (interoperability) 与 Mojo 的演示,具体位于 此 YouTube 视频的 843 秒处。
- Mojo 拥有官方文档:Mojo 的文档已经发布,包括其 Python 集成 的全部细节。
Latent Space ▷ #ai-general-chat (56 条消息🔥🔥):
Fireworks AI RFT Beta, OpenAI o3 定价, Mistral 的 Magistral 模型, Meta 潜在的 Scale AI 股份, DeepSeek 模型叙事
- **RFT Beta 在 Fireworks AI 上线: Lin Qiao 宣布在 Fireworks AI 上开启 **Reinforcement Fine-Tuning (RFT) 的 Beta 测试,允许用户训练质量可媲美 GPT-4o mini 和 Gemini flash 等封闭前沿模型的专家级开源模型。
- 该服务专为快速迭代设计,配备了 Web IDE、开源 reward-kit,支持 SOTA 模型,且在未来两周内对参数量不超过 10B 的模型提供免费的自助服务。
- OpenAI 分享 **o3 Token 成本: Gabriel Chua 指出 OpenAI o3 的潜在成本可能为 **每 100 万 Input Tokens 2 美元,并引用了 OpenAI Developers 的推文,该推文向 200 名开发者提供了价值 100 万 Input Tokens 的免费 API 额度。
- 讨论中还包含了 Sam Altman 的推文链接以及关于 scaling01 的进一步见解。
- Mistral 发布 **Magistral 推理模型: Mistral AI 宣布发布 **Magistral,这是他们针对特定领域、透明且多语言推理的新型推理模型,提供两个版本:在 Hugging Face 上开源的 Magistral Small (24B 参数),以及通过 chat.mistral.ai 或 API 提供的企业级 Magistral Medium。
- 市场反应积极,对其发布和命名表示赞赏,部分用户提供了本地部署指南,并注意到其已在 OpenRouter 等平台上可用。
- **Meta 瞄准 Scale AI 的 Alex Wang 担任高层: Meta Platforms 可能会以近 **150 亿美元的价格收购 Scale AI 49% 的股份,并可能将 Scale AI 的 CEO Alex Wang 引入 Meta 担任高级职位 (来源)。
- 此举可能会对 Meta 的 AI 战略和领导层产生重大影响。
- Windsurf 推出 **‘Plan Mode’ 功能: Kevin Hou 介绍了 Windsurf 的新功能 **‘Plan Mode’,该功能通过创建和维护规划文档,使 AI Agent 能够执行复杂任务 (来源)。
- 用户可以开启 ‘Plan Mode’,让 Windsurf 管理笔记、任务列表和目标,增强其处理更长、更复杂变更的能力,该功能可在 Windsurf.com 免费使用。
Modular (Mojo 🔥) ▷ #announcements (1 条消息):
Modular 直播, 计算可移植性
- Modular 开启直播: Modular 宣布其直播将在 5 分钟后在 Modular 官网开始。
- 直播也可以通过 LinkedIn 观看。
- 计算可移植性演讲: Modular 的直播重点关注 计算可移植性 (Compute Portability) 的未来。
- 该活动承诺将分享关于 计算可移植性 领域最新进展和讨论的见解。
Modular (Mojo 🔥) ▷ #mojo (52 条消息🔥):
Mojo 参数化限制, Zig vs Mojo, 类似 Go 的 Python 语法, Mojo-MAX 平台关系, 双重复制解释
- 社区展示参数化利用技巧:社区成员的演示以及对标准库代码的观察引发了关于 Mojo 中参数化边界的讨论,特别是关于其在 comptime 用途方面的使用。
- 一位成员表示担心,将参数化用于 comptime 用途似乎产生了一些在很多情况下让人根本不想阅读的代码。
- Mojo 元编程 > Rust Macro:一位成员认为,阅读 Mojo 中的元编程 (meta-programming) 比阅读 Rust 中的宏代码好上 100000000000%,同时也承认 Mojo 目前还不能完成 Rust 所能做的一切。
- 另一位成员认为,正是 Zig 风格的 comptime 与 Go 风格的方括号泛型语法的结合,使得代码变得难以阅读。
- Mojo 沿袭 Python 泛型:一位成员指出 Mojo 的泛型语法与 Python 相同,这引发了关于 Python 的泛型语法是否源自 Go 的讨论。
- 最终,各方达成共识:Go 1.18 在 2022 年 3 月 15 日引入了泛型,而 PEP 695 在同年 6 月 22 日引入了新的 Python 语法。
- 澄清 Mojo-MAX 平台关系:一位成员询问了 Mojo 与 MAX 平台之间的关系,特别是能否在 Mojo 代码和 kernel 中使用 MAX kernel(如 matmul)。
- 一位 Modular 员工建议该成员将此问题发布在 Modular 论坛,以提高其可搜索性。
- 双重复制解释:一位成员质疑为什么将一个
ref变量赋值给另一个变量会触发两次__copyinit__,以及为什么ref会有一个额外的__moveinit__步骤而var却没有。- 另一位成员澄清说,双重复制的发生是因为实际上插入了一个临时变量 (tmp variable) 来处理赋值,并提供了一个 compiler explorer 链接。
MCP (Glama) ▷ #general (41 条消息🔥):
MCP 服务端选择, 为 MCP 构建 n8n, FastMcp 依赖, 成熟的 MCP SDK, MCP 文件下载
- 5ire 强制采用 MCP 工具:一位用户注意到 5ire 平台要求采用来自某个 MCP server 的所有工具,没有提供挑选单个组件的选项。
- 这种全盘接受的方式意味着开发者必须集成整个功能套件,而不是选择他们需要的特定工具。
- 类 n8n 聊天机器人集成构想:一位成员表示有兴趣构建一个类似 n8n 的工具,但完全基于聊天和 MCP,以根据聊天交互实现工作流自动化。
- 另一位成员提议了一个工作流,可以将来自特定源的电子邮件路由到 Slack 频道,强调了这种系统的潜力。
- fastmcp 需要依赖声明:一位成员在使用 fastmcp 时遇到了困难,指出它需要声明依赖项,因为它会创建一个环境并使用这些依赖项来完成创建。
- 他们分享了一个执行 MCP server 的命令行,然后更新了 Claude 桌面端中的参数,以便 uv 知道使用哪个 venv。
- GitHub 和 Amazon 拥有官方 Python SDK:一位成员询问目前最成熟的用于 MCP server 开发的官方 SDK 或仓库。
- 其他成员提到 GitHub 和 Amazon 都有相应的 SDK。
- MCP 中的文件下载挑战:一位成员询问了通过 MCP 处理文件下载的最佳方式,因为将整个文件作为 base64 字符串发送需要将整个文件加载到内存中,这并不理想。
- 另一位成员分享了一个有趣的 MCP server 实现,该实现尝试实现整个协议,并且你可以使用 OpenAI assistants API 或 Anthropic 连接到远程服务器。
MCP (Glama) ▷ #showcase (10 条消息🔥):
Glama 构建系统详情、MCP OpenMemory 演示、适用于 MCP 服务器的 OAuth 2.1 模块、适用于 *arrs 的 MCP 服务器、mcp-openverse npm 包
- Glama 的构建系统揭秘所有细节:Glama 的新构建系统提供了关于构建和容器日志的详细信息,如 截图 所示。
- MCP OpenMemory 演示亮相:一位成员分享了 MCP OpenMemory 的演示以及 GitHub 仓库 链接,并鼓励大家点亮 Star。
- 演示视频展示了该项目的实际运行情况,突出了其功能。
- Scalekit 发布适用于 MCP 服务器的 OAuth 2.1 模块:Scalekit 推出了一个即插即用的 OAuth 2.1 模块,支持作用域限定的短效 Token、DCR + PKCE,以及针对 MCP 服务器委托流的带有 authorize_url 的 401 响应,详见其 文档。
- *Arrs 在 MCP 服务器中集结:分享了各种 MCP 服务器的链接,包括 radarr-mcp、sonarr-mcp 等,这些服务器从单个容器中拆分出来以便独立使用。
- mcp-openverse 包开启 CC 授权图像访问:一位成员宣布发布 mcp-openverse,这是一个将 CC 授权和公共领域图像引入 AI 工作流的 MCP 服务器,可在 npm 和 GitHub 上获取。
- 该工具可搜索来自 @WPOpenverse 的超过 7 亿张公开授权图像,与 Claude Desktop 集成,并提供带有概念提取的智能图像溯源。
Manus.im Discord ▷ #general (50 条消息🔥):
Manus 定价、Veo 3、EDU 邮箱账号、Mixedbread 增长负责人、AI 搜索基础设施
- Mixedbread 寻找创始增长负责人:Mixedbread(由前 Google Search 工程师组成的团队)正在旧金山寻找一名创始增长负责人,旨在将其技术优势转化为 1000 万美元 ARR,并尽快组建旧金山团队。
- 该公司在 HuggingFace 上的下载量超过 5000 万次,在 MTEB 基准测试中击败了 OpenAI,并获得了来自 OpenAI、Vercel、Perplexity、Deepmind 和 Scale AI 的顶级 AI 投资者的支持。
- 仍处于 Beta 阶段的 Manus 接入 VEO 3:成员们质疑为什么 Manus 即使拥有 Veo 3 等功能和其它酷炫更新,却仍处于 Beta 阶段。
- 一位成员报告称,由于演示文稿格式问题浪费了 2000 积分 且未获得退款。
- Manus Pro 是否值得:用户正在询问 Pro 订阅 的价值,特别是答案是否显著更好以及是否物有所值。
- 多人报告在联系 Manus 客服时遇到困难。
- 用户使用 Manus 的 VEO 3 创作科幻短片!:一位用户使用 Manus 的 Veo3 功能 创作了一部 5 分钟的科幻短片,称其为“世界上最强大的生成功能”。
- 另一位用户表示它“看起来很棒”,而且刻意模仿了老派功夫电影的风格。
- 用户因 Veo3 损失了 300 积分!:一位用户在一个 Veo3 视频上花费了 300 积分,得到了 38 个片段。
- 另一位用户在 Manus 尝试截断文件时陷入死循环后,正要求补偿 100 积分。
LlamaIndex ▷ #blog (5 条消息):
Custom Multi-Turn Memory, Real-time Website Summaries, LlamaIndex Agent as MCP Server, Databricks Data + AI Summit, Knowledge Agents to Automate Workflows
- **Custom Multi-Turn Memory 为 Agent 首次亮相: LlamaIndex 引入了一个构建自定义 **multi-turn memory implementation 的新示例,非常适合需要控制和定制的 Agent 工作流,详见 这条推文。
- 浏览时的 **即时摘要 (Instant Summaries): @itsclelia 的一个项目将网页浏览与使用 LlamaIndex 和 **Google’s Gemini model 生成的 AI 网站摘要相结合,点击 此处 获取详情。
- LlamaIndex Agent 现已支持 **MCP Server: LlamaIndex 演示了将 Agent 转换为 MCP server,部署了一个自定义的 **FidelityFundExtraction 工作流,用于从复杂的多基金 PDF 中提取结构化数据,然后从 Claude 中调用它,详见 此处 的报道。
- LlamaIndex 亮相 **Databricks Summit**: LlamaIndex 参加了 Databricks Data + AI Summit,展位位于 AI Pavilion 的 D117,准备为 Agent AI 之旅提供支持,根据 这条推文。
- CEO 谈论 **Knowledge Agents**: LlamaIndex CEO Jerry Liu 在 Databricks Data + AI Summit 上主持了一场关于构建知识智能体 (Knowledge Agents) 以自动化文档工作流的分组会议,并由于需求热烈将再次举行该会议,详情见 此处。
LlamaIndex ▷ #general (14 条消息🔥):
Agent Workflow, Handoff Issues, DirectOutputAgent, Multi-Agent Systems, OpenAI Agents SDK
- Agent 工作流困扰:移交挂起: 一位用户在使用基于 LlamaIndex 的产品推荐系统时遇到了问题,该系统采用 Agent 工作流,其中 plan_agent 有时无法移交给其他 Agent,如 DirectOutputAgent 或 SearchAgent。
- 日志显示流式传输在没有明确原因的情况下停止,用户正在寻求帮助,以了解为什么移交不能一致地发生。
- RAG 依赖:提示工程之路: 一位用户询问如何确保 LlamaIndex 中的用户查询仅由 RAG (Retrieval-Augmented Generation) 回答,并尝试通过系统上下文和聊天模式设置来控制这一点。
- 另一位成员建议 prompt engineering 是主要方法,并且可以通过第二次 LLM 调用来检查来源以判断回答的质量。
- 多智能体热潮:LlamaIndex vs OpenAI SDK 对决: 一位用户询问了 LlamaIndex 与 OpenAI Agents SDK 在构建多智能体系统方面的能力对比,特别是关于与 OpenAI 的集成以及在 OpenAI 仪表板中的追踪。
- 该成员澄清说,Arize 可用于 LlamaIndex 的追踪,尽管它不直接与 OpenAI 的追踪工具集成。
LlamaIndex ▷ #ai-discussion (6 条消息):
Open Source Deep Research, Long Context Generation, Local Machine Research, spy-search Github repo
- 用于深度研究的开源工具: 一位成员介绍了 spy-search,这是一个支持 Ollama 并在本地机器上实现深度研究的开源工具。
- 该工具旨在生成超过 1000 字 的长报告,为输出较短的研究工具提供了一个更全面的替代方案。
- Spy-Search 生成长上下文响应: Spy-search 旨在提供包含最新信息的长上下文响应,类似于 Perplexity,但作为一个开源解决方案。
- 该成员邀请社区在 GitHub 上搜索 spy-search 仓库,以方便那些担心直接打开链接的用户。
Cohere ▷ #🧵-general-thread (15 messages🔥):
Cohere support channels, Cohere Open Science Community
- Cohere 快速支持频道上线:一名成员宣布了一个新的支持频道,承诺通过利用 Cohere 文档的 AI 生成回复机器人提供更快的协助,访问地址为 <#1381756280716132412>。
- 该机器人基于 command-a 构建,专注于基于文档的查询,并将账户和 API 问题引导至 support@cohere.com;滥用行为(如 Prompt Injection 等)将导致立即封禁。
- Open Science 申请审批即将开始:一位成员询问了在提交申请后加入 Cohere Open Science 社区的录取时间表。
- 另一名成员回应称,他们应该很快就会通知你。
Cohere ▷ #📣-announcements (2 messages):
Cohere North, GameWarden Integration, EnsembleHP Partnership
- Cohere North 与 GameWarden 平台集成:Cohere North 现在通过与 Second Front 的合作,安全地集成了完整的 GameWarden 平台,旨在帮助服务人员在不断变化的威胁环境中获得前所未有的效能和速度,详见此推文。
- Cohere North 与 EnsembleHP 建立合作伙伴关系:Cohere 正通过与 EnsembleHP 合作将 Cohere North 引入医疗保健领域,利用其安全的 AI Agent 平台减少医院和医疗系统的行政摩擦并提升患者体验,详见此博客文章。
Cohere ▷ #🔌-api-discussions (4 messages):
Open Source Repo for Contributions, API Tier Discussion, Reranking API Latency
- Cohere 拥有用于贡献的开源仓库:Cohere 有一个开源仓库,即 Cohere Developer Experience GitHub 仓库,用户可以通过提交 Pull Request 来改进文档内容。
- 该仓库的 README 文件提供了更多关于贡献的指导;OpenAPI 规范和代码片段是从内部仓库单向同步的。
- API 分级讨论引发解决方案:一位用户询问 Cohere 是否有类似于 OpenAI 的 API 分级(Tiers),并提到 Reranking API 有 2 秒的延迟,寻求改进方法。
- 虽然 Cohere 不提供分级,但有其他解决方案,建议该用户联系 carolyn@cohere.com 获取帮助。
Cohere ▷ #👋-introduce-yourself (3 messages):
Vitalops, Datatune, Open Source Tools, Data Transformations, Natural Language Data Transformation
- Vitalops 联合创始人加入社区并分享 Datatune:Vitalops 的联合创始人介绍了自己,并对加入社区表示兴奋。
- 他们正在开发 Datatune,这是一个专为使用纯自然语言进行数据转换而设计的 开源工具。
- Datatune:用自然语言转换数据:由 Vitalops 创建的 Datatune 是一个开源工具,允许用户使用自然语言执行数据转换。
- 联合创始人渴望与社区互动,并收集关于 Datatune 开发和潜在应用的反馈。
Cohere ▷ #🔔-ping-settings (1 messages):
competent: 已移至
Torchtune ▷ #dev (15 条消息🔥):
HuggingFaceModelTokenizer 使用方法, Muon 在 torchtune 中的性能, Tokenizer 截断 Bug, Kimi Moonlight 论文, Qwen2
HuggingFaceModelTokenizer预期用法引发讨论:成员们讨论了HuggingFaceModelTokenizer的预期用法,对接口差异以及如何处理用于 packing 的max_seq_len表示担忧,特别是应该修改 recipes 还是修改 tokenizer 本身。- 一位成员建议,应该修改 recipes 以接收并传递
max_seq_len参数,这更接近 HF 模式并与该提案保持一致。
- 一位成员建议,应该修改 recipes 以接收并传递
- HF Tokenizer 集成面临障碍:在测试 HF Tokenizer 后发现,Loss 曲线和总 Token 数与经典的 tokenizer 不一致,这表明尽管代码改动很小,但行为存在差异;在解决 issue #2794 和 #2574 后,集成工作将准备就绪。
- 此外,成员报告称 pre-packing 的耗时增加了 2-3 倍。
- 发现 Tokenizer 截断 Bug:在实现 tokenizer 时发现了截断相关的 Bug,issue #2792 中强调了相关要点,并担心这可能会影响性能。
- 成员建议目前在训练中继续使用原始的 tokenizers,等待后续合并到 HF 版本。
- Muon 集成性能受到审查:Muon 集成到 torchtune 后的性能收益正受到审查,一位成员希望看到它在 集成到 torchtune 中 后的性能表现,以证明增加额外抽象层的合理性;另一位成员则在思考 issue #2809 是否属于关键问题。
- 一位成员指出,有证据表明 Muon 对于那些同样使用 Muon 进行预训练的模型在微调时更有用,并引用了 Kimi Moonlight 论文。
- Qwen2 问题检查:一位成员需要检查 Qwen2,以确认是否存在同样的截断问题。
- 大家公认,如果最初的测试没有发现差异,那么它可能不会产生巨大影响,但无论如何我们都应该修复它。
DSPy ▷ #general (8 条消息🔥):
Transfer learning, DSPy 文档, DSPy 3 公告, DSPy 中的上下文优化, 数据集构建与导出工具
- 询问 Transfer Learning 技术:一位成员询问是否可以在不重复学习过程(如 finetuning 或 RL)的情况下,将训练后的学习成果从一个模型转移到另一个模型。
- 频道内未提供具体解答。
- DSPy 文档消失:一位用户注意到一个文档文件在最近的 PR 中被删除,并表示很难在其他地方找到同等水平的参数文档。
- 另一位用户分享了一个可能有所帮助的 AI 生成文档链接。
- DSPy 的上下文 Prompt 优化器:一位用户询问 DSPy 是否有工具可以优化在有几十个变量可用时,应该在 Prompt 中包含哪些上下文。
- 他们希望看到哪种组合能在良好指标与 Prompt 的 Token 使用量之间取得平衡,但该话题没有进一步讨论。
- 用于 DSPy 的数据集构建与导出工具:一位成员询问是否有工具可以轻松构建和导出用于 DSPy 的数据集。
- 他们特别提到需要一种能够生成几十个合成示例然后进行人工标注的工具,但该话题没有进一步讨论。
tinygrad (George Hotz) ▷ #general (8 条消息🔥):
测试失败、Bounty Locked 的含义、NCHWCPUGraph / LLVMGraph 重构
- 测试失败,Bounty Locked 被阻塞:成员报告称测试失败,这意味着赏金(bounty)无法被锁定(即准备合并)。
- 澄清指出,bounty locked 基本上意味着准备合并,或者针对目标取得了经过严格测试的进展,但 CI 失败会阻止这一进程。
- 呼吁非 AI 生成的 PR:一位成员请求提交高质量的 PR,例如处理 add/mul 的 tinygrad/tinygrad#10741,并明确表示不要 AI 垃圾内容(AI slop)。
- 有人指出 add/mul 是最简单的部分。
- NCHWCPUGraph 和 LLVMGraph 需要重构:建议 NCHWCPUGraph / LLVMGraph 确实需要更改,使其行为与其他 graph 一致。
- 这些 graph 不应该重复渲染内容,这与 multicore CPU 以及 multi compiler/renderer 重构有关,其中 CPU 和 LLVM 应该使用相同的 graph,因为它们拥有相同的程序。
Nomic.ai (GPT4All) ▷ #general (5 条消息):
Nomic Embed Text v1.5、Nomic GPT4All 未来版本、Python SDK 更新、GPT4All 对 Mistral's Magistral Small 的支持
- Nomic Embed Text v1.5 仍受支持:一位用户询问下个月是否仍能从 Nomic 云端使用 nomic-embed-text-v1.5,另一位用户确认该模型对于自行上架(self-onboarded)的推理仍受支持。
- Nomic GPT4All 的未来:一位用户询问了关于 Nomic GPT4All 未来版本的更新情况。
- 对 Python SDK 更新的期待:一位用户询问 Python SDK 是否即将发布更新。
- GPT4All 与 Mistral’s Magistral Small 的集成:一位用户询问 GPT4All 是否将支持 Mistral’s Magistral Small。
Gorilla LLM (Berkeley Function Calling) ▷ #leaderboard (2 条消息):
排行榜更新、GPU 资源
- RunPod 工程师为重启排行榜伸出援手:一位 RunPod DX 工程师提出协助重启排行榜更新,包括提供 GPU 资源。
- 该工程师鼓励任何需要资源帮助以恢复排行榜运行的人直接私信。
- 社区对 RunPod 的慷慨表示感谢:多位成员对 RunPod 工程师提供的 GPU 资源表示感谢。
- 这一提议被视为对社区维护和改进排行榜工作的重大推动。
Gorilla LLM (Berkeley Function Calling) ▷ #discussion (1 条消息):
Agent Marketplace 状态
- Agent Marketplace 面临访问问题:一位成员询问 Agent Marketplace 是否仍在运行,并指出在访问其仓库和网页时遇到困难。
- Agent Marketplace 可能已关闭?:该成员还询问该项目是否因这些访问问题而暂时关闭。
LLM Agents (Berkeley MOOC) ▷ #hackathon-announcements (1 条消息):
Agentic AI 峰会、早鸟票、加州大学伯克利分校、演讲嘉宾公告
- Agentic AI 峰会发布:Agentic AI 峰会将于 2025 年 8 月 2 日在加州大学伯克利分校(UC Berkeley)举行,该峰会基于广受欢迎的 LLM Agents MOOC,预计将有 1,500 多名现场参与者和数千名虚拟参与者。
- 峰会网站包含了学生或独立开发者如何申请折扣码的详情。
- 早鸟票即将截止!:Agentic AI 峰会的早鸟价格将于 2025 年 6 月 30 日截止,学生票为 $25,初创公司票为 $60,行业专业人士票为 $80。
- 可以在此处购买门票。
- Agentic AI 峰会演讲嘉宾公布:Agentic AI 峰会的特邀演讲嘉宾包括 Vinod Khosla (Khosla Ventures)、Ion Stoica (Databricks 和 Anyscale)、Dawn Song (UC Berkeley)、Sergey Levine (Physical Intelligence)、Matei Zaharia (Databricks)、Karthik Narasimhan (Sierra)、Waseem AlShikh (Writer) 以及 Burak Gokturk (Google Cloud)。
LLM Agents (Berkeley MOOC) ▷ #mooc-questions (1 条消息):
SP25 Course, Quiz Questions
- SP25 课程测试访问查询:一位用户询问如何获取已结束的 SP25 课程 的 测试题 (quiz questions) 以用于自学,并指出该课程目前不在开课期间。
- SP25 测试请求:由于课程周期已结束,一位用户请求获取 SP25 课程 的测试题以便独立学习。
Codeium (Windsurf) ▷ #announcements (1 条消息):
Planning Mode, Windsurf Wave 10, o3 model pricing
- Windsurf 开启 Planning Mode:Windsurf 发布了作为 Wave 10 一部分的 Planning Mode,其特点是拥有用于长期 AI 规划的原生界面,支持双向更新,并实现了长期与短期推理模型之间的协同。详情见官方博客和演示视频。
- Cascade 对话获得实时 Markdown 计划:用户可以通过提示框下方的图标切换 Planning Mode,使 Cascade 为每次对话配对一个包含目标和任务的实时 Markdown 计划。
- 当 Cascade 更新计划时,AI 通知会提醒用户,从而促进协作规划过程。
- o3 模型额度定价大幅下调!:o3 model 现在仅需 1x credits,且在 Cascade 中运行速度更快,提升了性价比和性能。
- Planning Mode 可在所有付费方案中使用,无需额外费用。