Fire-and-forget is all you need.

2025年5月16日-5月17日的 AI 新闻。我们为您检查了 9 个 subreddits、449 个 Twitter 账号和 29 个 Discord 社区（214 个频道，3392 条消息）。预计节省阅读时间（按每分钟 200 词计算）：298 分钟。我们的新网站现已上线，支持完整的元数据搜索，并以精美的 vibe coded 方式呈现所有往期内容。请访问 https://news.smol.ai/ 查看完整的详细新闻，并在 @smol_ai 上向我们提供反馈！

今天会有很多人报道 Codex 的发布，因此我们只为您提供 Latent Space 的文章和播客：

https://www.youtube.com/watch?v=LIHP4BqwSw0

AI Twitter 精彩回顾

AI 模型发布与更新

OpenAI 的 Codex 是一款基于云的软件工程 Agent，现已面向 Pro、Enterprise 和 Team ChatGPT 用户提供研究预览版。它由 codex-1 驱动，这是 OpenAI o3 的一个针对软件工程优化的版本，可以并行执行重构、错误修复和文档编写等任务。@sama, @kevinweil, @omarsar0, @iScienceLuvr, 以及 @OpenAI
Codex CLI 得到了改进，增加了 ChatGPT 快速登录等功能，并推出了新模型 codex-mini，该模型针对低延迟代码问答和编辑进行了优化。@OpenAIDevs
Gemma 3 被公认为可以在单个 GPU 上运行的最佳开放模型。@osanseviero
Runway 发布了 Gen-4 References API，用于将参考技术或风格应用于新的生成内容。@c_valenzuelab
Salesforce 发布了 BLIP3-o，这是一个完全开放的统一多模态模型系列，采用了一种新颖的方法，使用 Diffusion Transformer 来生成 CLIP 图像特征。@_akhaliq, @iScienceLuvr
Qwen 2.5 模型（包括 1.5B (Q8) 和 3B (Q5_0) 版本）已添加到 PocketPal 移动应用（支持 iOS 和 Android 平台）。用户可以通过该项目的 GitHub 仓库提供反馈或报告问题，开发者承诺会在时间允许的情况下解决这些问题。该应用支持多种聊天模板（ChatML, Llama, Gemma）和模型，用户对比了 Qwen 2.5 3B (Q5)、Gemma 2 2B (Q6) 和 Danube 3 的性能。
Marigold IID 是一款全新的 SOTA 开源深度估计模型，现已发布，其中包括法线贴图（normal maps）、场景和面部的深度图。@mervenoyann

研究与论文

DeepSeek 发布了关于 DeepSeek-V3 的见解，详细介绍了 AI 架构的扩展挑战和硬件考量。 @arankomatsuzaki, @_akhaliq
Google 推出了 LightLab，利用 Diffusion Models 控制图像中的光源。 @_akhaliq
Google DeepMind 的 AlphaEvolve 使用 Gemini 2.0 发现新的数学知识，并在不使用 RL 的情况下将 Gemini 的成本降低了 1%。 @_jasonwei, @demishassabis, @_philschmid, 以及 @swyx
Omni-R1 探讨了在微调音频 LLM 时音频的必要性。 @_akhaliq
Qwen 引入了语言模型的并行扩展定律（Parallel Scaling Law），灵感源自 Classifier-Free Guidance (CFG)，并提出将模型并行化为 P 个流等同于将模型参数按 O(log P) 进行扩展。 @iScienceLuvr
Salesforce 发布了基于 Qwen 基础模型的 Lumina-Next，其表现略微超过了 Janus-Pro。 @teortaxesTex
一篇新论文发现，由于不可靠性增加，LLM 在多轮对话中的性能会下降。 @_philschmid
J1 正在通过 RL 激励 LLM-as-a-Judge 中的思考过程。 @jaseweston
Qwen 的一项新研究发现问题相似度与策略相似度之间存在强相关性，从而能够预测未见问题的最优推理策略。 @omarsar0
研究人员通过仅在 1,000 个示例上进行微调，显著提升了大语言模型的推理能力。 @DeepLearningAI
Together AI 收购了 Refuel AI，后者专注于将非结构化数据转换为 AI 应用所需的干净、结构化输入的模型和工具。 @togethercompute
Analog Foundation Models：一种通用且可扩展的方法，用于将 LLM 稳健地适配到有噪声、低精度的模拟硬件上运行。 @iScienceLuvr

AI 工具与平台

Hugging Face Spaces 正在成为 “AI 界的应用商店”，许多应用作为 MCP Servers 运行。 @mervenoyann
LlamaIndex 推出了新的内存实现，采用基于块（Block-based）的方法来处理长期记忆。 @jerryjliu0
Perplexity 在其平台上原生支持的酒店预订业务正在增长，这可能会颠覆广告行业。 @AravSrinivas
AI Sheets 是一款可以分析数据、生成图表、摘要和报告的 AI Agent。 @svpino
Ollama v0.7 现在支持多模态模型。 @ollama
Windsurf 为开发者提供的内部 AI。
Cline 是一款 AI 编程工具，通过将资深工程师提升到架构角色、专注于基础、协作和战略性 AI 使用来增强其能力。 @cline

AI 工程与开发实践

AI coding 的最佳实践包括与 AI 进行战略性协作、编码前进行规划、管理 context window、使用高性能模型，以及通过 Rules Files 和 Memory Banks 提供持久化知识。 @cline
Transformers 与 MLX 之间的集成预计将进一步加深，因为 Transformers 被视为 source-of-truth。 @awnihannun
有理论认为，算法的进步可能会受到 compute 的瓶颈限制。 @EpochAIResearch
为了确保你的 AI agent 不在胡言乱语，你需要评估其推理过程。 @clefourrier
强调关于理解的任务，例如 @saprmarks 的审计游戏，这方面的帮助最大。 @NeelNanda5
AI 提高任务速度的能力在创造商业价值方面被低估了，特别是在 coding 领域，它减少了工作量并缩短了从创意到 prototype 的时间。 @AndrewYNg
通过构建搜索来扩展 test time compute：微量搜索、极度贪婪搜索、窄而深搜索、浅而广搜索、近似搜索、精确搜索、混合搜索、通过卸载计算进行搜索。 @mbusigin

AI Safety and Governance

Cohere 强调了企业转向安全且私有的 AI 解决方案的重要性。 @cohere
关于 AI 安全和透明度的担忧依然存在，特别是在 Grok 响应机器人的 prompt 被未经授权修改之后。 @svpino

Events

Anthropic 将于 6 月中旬在纽约举办一场社交活动，面向有意职业跳槽的 quants。 @andy_l_jones
Daniel Hanchen 将参加 AI Engineer World’s Fair，讨论 RL、GRPO、针对 DeepSeek R1 的动态 1.58bit quants 以及酷炫的技巧等内容。 @danielhanchen
Keras 团队将于 2025 年 5 月 21 日星期三下午 6 点在 Mountain View 市中心举办庆祝聚会，纪念 Keras 发布 10 周年。 @fchollet
LangChain 在旧金山举办的首届行业会议，分享团队构建 agents 的故事。 @LangChainAI
Together AI 将参加 5 月 19 日至 22 日的 Dell Tech World，展示顶尖 AI 团队如何利用 Together AI 在从 training 到 inference 的过程中运行得更快、更高效。 @togethercompute

Memes and Humor

“Grok 响应机器人的 prompt 被未经授权修改”：@sama, @svpino, @nearcyan
“长得非常像 Lorde 激发了新的调情策略”：@typedfemale

AI Reddit Recap

/r/LocalLlama Recap

1. LLM 集成操作系统与边缘设备

我构建了一个微型 Linux 操作系统，让你的 LLM 在机器上真正发挥作用 (Score: 144, Comments: 39): 该帖子介绍了 llmbasedos，这是一个极简的、核心开源（Apache-2.0）的基于 Arch Linux 的操作系统，它通过名为 Model Context Protocol (MCP) 的 JSON-RPC 规范，将本地功能（文件系统、邮件、同步、agent 工作流）暴露给任何 LLM 前端。该系统由一个基于 FastAPI 的 MCP 网关（用于路由/LLM 代理）和模块化 Python 守护进程（用于文件系统、邮件、同步、“agent”工作流）组成，使用自动发现（.cap.json），并支持离线和在线 LLM（例如 llama.cpp, GPT-4o）。这种设计可以快速（少于 50 行代码）添加新的系统能力，为 LLM 增强的本地自动化提供了一个简洁、无插件的开发接口。专家评论者讨论了部署模式（USB 闪存盘 vs. 虚拟机 vs. 桌面安装），将该方法与基于 Docker/容器的隔离进行了比较，并提出了关于安全/沙箱边界应存在于何处（MCP 服务器内部、操作系统级容器化、受限 API）的问题，并要求提供更具体的用法和访问控制示例。此外，还有人担心与在用户当前操作系统或容器中集成类似技术栈相比，切换成本较高。
- 几位评论者辩论了该操作系统的最佳使用场景，例如在虚拟机中运行、通过沙箱（使用 QEMU、容器或 Docker）进行隔离，以及限制文件访问的机制（例如 Linux 挂载命名空间、受限用户或应用内服务器限制）。这些技术讨论集中在如何实现安全、最小权限的本地运行 LLM 设置，以及容器化与完整的定制操作系统在安全性和易用性上有何不同。
- 一位用户询问了在链接本地 LLM agent 或插件时管理内存开销的方法，强调了诸如快照执行状态以加速上下文切换等高级功能。这参考了 InferX 正在进行的工作，并探讨了有状态快照技术是否能在加载 LLM 上下文或在工作负载之间切换时减少开销。
- Windows 用户对将该操作系统作为可 USB 启动的发行版表现出兴趣，从而在不改变用户主操作系统的情况下，在消费级硬件上实现 AI 工作流。这引发了对兼容性和部署的考虑，特别是关于持久化存储、硬件支持以及非 Linux 原生用户的易用性。
对讲机上的 LLM (Score: 108, Comments: 27): 该帖子详细介绍了一个集成流水线，包括用于 ASR 的 Whisper、独立服务器上的 vllm、用于本地 LLM 推理的 Llama 3.2 以及 Cartesia TTS，通过 Digirig Mobile 和 MacBook Pro 辅助，实现与使用宝锋对讲机的用户进行对话。这使得通过模拟无线电进行全双工 LLM 对话和音频转录成为可能，旨在低连接性或农村环境以及无线电转录中实现 AI 访问。提到的潜在应用包括农村农民通过无线电与 AI 驱动的助手进行交互，以实现本地自动化和信息获取。一位技术评论者指出输入增益设置过高，这会严重影响 ASR 的性能以及在射频和声学接口中的可用性。
- 一位用户提议将 LLM 驱动的语音助手集成到农业或农村环境中，通过对讲机或类似的无线电设备实现基于语音的控制或监控（例如，农民使用语音与牲畜监控系统交互或触发自动化操作）。
- 另一位用户描述了一种替代技术方案，即使用 LoRa (Long Range radio) 配合树莓派等设备——放弃语音而采用基于文本的传输。他们概述了一个系统，其中廉价的全城计算机通过 LoRa 广播谜题/线索，并通过文本提示响应查询，并提出了针对语言模型可能产生的危险行为（如冒充弱势群体）建立必要伦理保障的问题。
- 一个具体的应用建议涉及语音驱动的天气信息查询：利用公共 API（特别提到 weather.gov 的 “经纬度” 到天气数据端点），通过对讲机上的 LLM 界面实现免提获取超本地天气预报。

2. 近期 LLM/AI 模型与平台安全、政策及合规新闻

斯坦福 HuggingFace 账号被黑了吗？ (分数: 341, 评论: 48): 该图片是一张截图，显示了斯坦福 HuggingFace 账号上明显的未经授权活动，包括一名用户（’afjiash’）发布了带有冒犯性标题的模型和集合，强烈暗示该账号已被盗。图片和评论中的报告均指出，HuggingFace 随后删除了这些冒犯性仓库，但一些残留物（如集合名称）仍然存在，凸显了平台监管或恢复方面的不足。这一事件引发了人们对 HuggingFace 等模型共享平台上高知名度学术账号安全实践的担忧。评论者确认 HuggingFace 迅速采取行动删除了最糟糕的内容，同时也注意到一些冒犯性痕迹的持续存在，并讨论了对开放模型中心的安全和内容控制的更广泛影响。
- 一条具有技术实质内容的评论指出，HuggingFace 删除了斯坦福账号中的冒犯性仓库，但指出修改后的集合名称和虚假的 AGI 模型仍然可见。这表明平台上的补救措施仅是部分的，攻击留下的痕迹依然存在，表明监管不完整或事件的影响尚未完全消除。
斯坦福发布了 AGI (分数: 284, 评论: 155): 一篇帖子指出，所谓的 ‘Stanford/Rivermind-AGI-12B’ 模型（https://huggingface.co/Stanford/Rivermind-AGI-12B）的 Hugging Face 页面现在返回 404 错误，意味着该资源无法访问或已被撤回；目前没有技术文档、模型卡片或基准测试。评论中提到了所谓的规模（“超过 2048 台 BFG9000”）和成本（“12 万亿美元”），但这些都是诙谐的说法，没有任何外部来源或文档证实。评论中没有实质性的技术辩论；它们完全是针对该模型及其被删除的虚假或虚构性质的幽默和讽刺。
Ollama 违反 llama.cpp 许可证已超过一年 (分数: 336, 评论: 114): Ollama 被指控违反了 llama.cpp 的 MIT 许可证，在分发二进制文件时未包含所需的版权和许可声明，尽管在源码下载中提供了这些声明。基准测试和技术讨论引用了 Linux 生态系统中的标准二进制许可证合规性（例如 Debian 将许可证捆绑在 /usr/share/doc 中的做法）。这一事件凸显了一个更广泛的问题，即开源项目和二进制分发商在遵守 MIT 及类似宽松许可证中指定的最低声明要求方面往往缺乏严谨性。热门评论表达了对 Ollama 长期不合规的沮丧，并将其与 continue.dev 等项目进行了对比，质疑在产品基于 llama.cpp 构建的情况下省略这些声明的原因，并暗示随着 llama.cpp 新的多模态功能的加入，Ollama 的差异化价值将进一步减弱。
- 技术讨论强调，据称 Ollama 一年多来未能向 llama.cpp 提供适当的署名，这与 continue.dev 等明显标注上游依赖项的项目形成鲜明对比。这场辩论强调了在开源软件中，尤其是在构建商业或针对风投的解决方案时，上游署名在技术和伦理上的重要性。
- 出现了一个关键的许可辩论：一些用户评论说，MIT 许可证（用于 llama.cpp）并不强制要求署名，这使得企业更容易在不给予适当信用（credit）的情况下使用该软件，但会牺牲开发者社区的好感。相比之下，LGPL、GPL 或 AGPL 等许可证将要求更明确的义务，特别是在分发修改或署名方面，这可能会保护上游开发者免受此类疏忽的影响。
- 一项技术观察指出，由于 llama.cpp 已经增加了真正的多模态支持，Ollama 作为包装器或增强器的实际技术必要性已经降低，这进一步引发了关于 Ollama 提供的价值与直接参与核心 llama.cpp 项目相比的质疑。

3. 新 LLM 模型与功能发布（Ollama & Falcon-E）及行业进展讨论

Ollama 现在支持多模态模型 (Score: 161, Comments: 95): Ollama v0.7.0 通过一个用 Go 编写的新引擎引入了原生多模态模型支持，该引擎直接集成了底层的 GGML 张量库，摆脱了对 llama.cpp 的依赖。此次更新实现了对具备视觉能力的模型（如 Llama 4, Gemma 3, Qwen 2.5 VL, Mistral Small 3.1）的支持，引入了 WebP 图像输入，并在性能和可靠性方面带来了显著提升，特别是在模型导入（”safetensors”）、Mac 上的 MoE 模型以及 API 错误处理方面。技术细节请参阅发布说明和博客文章。评论澄清了 Ollama 的多模态支持现在运行在基于 GGML 的 Go 引擎而非 llama.cpp 上，并讨论了 Ollama 此前是否支持多模态输入，或者这是否标志着为了未来扩展性和能力（例如超越图像，向音频和视频模态发展）而进行的实质性架构转变。
- ab2377 澄清说，Ollama 正在从使用 llama.cpp 进行后端模型推理过渡到在 Go 中直接集成 GGML 张量库。这一技术转变旨在使多模态支持成为基础能力，而非叠加在顶层，意在提高推理的可靠性、准确性，并使平台具备面向未来的能力，以支持语音和视频生成等更多模态。 (Ollama 博客文章)
- HistorianPotential48 和 robberviet 指出，Ollama 自 0.6.x 版本以来就已支持多模态（文本+图像）输入，用户早在该公告发布前就报告了使用 Gemma3 等模型成功进行图像提示的情况。因此，最近的更新更多是关于架构变革，而非首次实现多模态功能。
- sunshinecheung 和 bharattrader 指出，llama.cpp 现在也支持多模态模型，这表明 Ollama 的技术差异或竞争优势可能不再那么显著，因为该功能在生态系统中已变得更加普遍。
Falcon-E：一系列强大、可微调且通用的 BitNet 模型 (Score: 145, Comments: 36): TII 发布了 Falcon-Edge (Falcon-E)，这是一组基于 BitNet 的紧凑型语言模型，包含 1B (600MB) 和 3B (900MB) 参数。这些模型支持以极小损耗还原为 bfloat16，展示了优于 SmolLMs, MS BitNet 和 Qwen3-0.6B 等同规模模型的性能，并以 1/4 的内存占用实现了大致相当于 Qwen3-1.7B 的性能。随发布一同提供的还有一个微调库 onebitllms （GitHub），更多细节和基准测试在官方博客文章及其 HuggingFace 模型库中共享。 技术评论者对报告的内存和性能对比提出了批评，认为将 Falcon-E 与 FP16 模型进行对比具有误导性，并建议 4-bit 量化模型（例如约 1GB 的 Qwen3 1.7B）是更公平的基准，因为量化模型在部署中更为常见。人们对 Falcon-E 是否显著优于强大的量化基准持怀疑态度，但也有人指出 Falcon-E-3B 在尺寸相近的情况下比量化竞争对手性能更高，这提出了其具有更优扩展性或架构优势的前景。
- 评论者对 Falcon-E 与其他模型的对比表示担忧，指出 Falcon-E 是在与 FP16 模型进行对比，这夸大了其内存效率优势。实际上，4-bit 量化（如 q4_0）很常见，因此 Falcon-E 相比 Qwen 或 Qwen3 等模型在现实世界中的内存优势并不那么明显（例如 2GB 对 1GB，而非 6GB 对 1GB）。
- 人们对 Falcon-E 缺少与训练后量化模型（如 4-bit 或 2-bit QAT 模型）的直接对比持怀疑态度。一些人认为这是因为 Falcon-E 的性能不会显著优于同等规模的量化模型；然而，一些初步观察表明 Falcon-E-3B 可能会超越同等规模的 4-bit 模型，这值得进一步测试。
一场技术辩论质疑了 BitNet 模型在 1B–3B 参数范围内的实际价值，因为在该规模下运行 vanilla transformers 已经非常高效。有建议认为，概念验证和资源限制不足以支撑这一研究重点，训练更大规模的模型（7B, 14B）对社区的影响会更大。
我们现在终于撞上“墙”了吗？ (Score: 250, Comments: 227): 原帖讨论了感知到的 LLM 进展停滞，指出了 Meta 的 Llama Behemoth 延迟以及 Llama 4 和 Qwen 3 带来的边际收益——尽管 Qwen 前所未有地使用了 36T tokens 和多样化的 post-training。作者指出，强化学习（RL）等创新（如 Deepseek R1/R2 和 OpenAI 的 O-series）表现出收益递减，像 Claude Sonnet 和 Gemini Pro 这样的大型 LLM 在狭窄领域（如编程）之外的性能提升有限。作者质疑是否需要进一步的 RL 扩展、架构变更（如 T5）或激进的新颖设计（如 Yann LeCun 的 JEPA），并对即使在生产环境中使用高级微调（结合 GRPO 的 SFT/RL）仍存在的持久可靠性问题表示担忧。热门评论提出需要一个真正的多模态、基于 byte 的 foundation model 作为潜在的新范式，并断言感知到的停滞是由于未被利用的软件方法，而非硬件或理论限制。一位评论者强烈认为 Claude Sonnet 3.7 相对于 3.5 的优势在于 reasoning——这种能力在简单的聊天机器人任务中不会被触发——并批评了主要关注对话用途的浅层 benchmark。
- 一位评论者强调了高质量、多模态、基于 byte 的 embedding model 处理文本、音频、视频和图像的吸引力。他们认为，这样的模型将允许下游应用以更低成本高效开发，暗示这种范式将从根本上把当前的 AI 开发方法转向更强的通用性和灵活性。
- 讨论指出，Qwen 模型正以极小比例的参数实现与更大型竞争对手相当的性能。这突显了行业向参数效率转型的趋势，同时保持甚至提高了 reasoning 能力。重点正从基础进展转向更高效的 agentic system 架构，利用多个 LLM 工作流解决复杂问题，这表明 LLM 技术正在走向成熟而非停滞。
- 关于 Claude Sonnet 3.7 相比 3.5 的改进存在深度辩论：具体而言，3.7 引入了更先进的 reasoning 训练和专门用于复杂 reasoning 任务的额外 inference parameters。然而，这些改进在日常聊天机器人任务中并不明显，仅在要求极高的 reasoning 场景中才会显现，这强调了将 benchmark 多样化到典型聊天机器人用例之外的必要性。

其他 AI Subreddit 综述

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo

1. OpenAI 和 Claude 新功能与研究预览讨论

研究预览已确认 (Score: 169, Comments: 58): 图片是 OpenAI 的一条推文，宣布两小时后将进行直播，特别通过声明 “low_key_research_preview = True” 确认了一个“研究预览”处于活跃状态。这与 Google 发布 AlphaEvolve 论文等近期竞争性进展相吻合，暗示 OpenAI 准备很快宣布或演示新的研究或技术。社区正在辩论 “low key research preview” 的含义，推测它是一个新的聊天机器人、API、reasoning model 还是其他产品。评论者将此次活动与 Google 最近的 AlphaEvolve 进展进行比较，讨论 OpenAI 的回应是否会有实质内容。对于 “low key research preview” 的含义也存在困惑，表明 OpenAI 的预热信息缺乏清晰度。
- 提到 Google 发布了 AlphaEvolve 论文，暗示 Google 在 AI 研究方面的最新进展，并暗示 OpenAI 可能会以自己的新结果或模型作为回应。这影射了领先 AI 实验室之间涉及前沿研究和模型发布的持续竞争。
针对“low key research”提出了疑问，特别是正在讨论的是哪种 AI 或系统——例如它是否指代 chatbot、API、reasoning model，或者与 ClaudeCode 或 MCP（可能指代“Master Control Program”）等其他实体密切相关。这突显了社区对正在预览的新 AI 系统架构或功能之间的技术区别的兴趣。
Sama 有新的 research preview 了？ (Score: 354, Comments: 81)：图片展示了 Sam Altman 的推文，预告即将发布一个“research preview”，并对其名称和身份进行了猜测。评论中的讨论集中在可能的模型上，提到了“gpt-4.l”和“7k”，并将其与“gpt-4.1”区分开来，暗示这可能是 GPT-4.1 的新版本或变体，或者是某个未公开的模型。技术用户还推测其发布时机是为了与 Google 预期的公告竞争。评论者推测这次发布可能是一个低调的 research preview，具有 7k context window 等功能，公开质疑它与 GPT-4.1 的区别，并讨论了在与 Google 竞争背景下的发布时机策略。
- 几位评论者强调预览中提到的模型名称是“gpt-4.l”，明确将其与“gpt-4.1”区分开来，这可能会解决技术讨论或模型迭代跟踪中的困惑。
- 一位用户将该预览称为“low-key-research-preview-high-7k”，暗示其 context length 或 token window 可能为 7,000 个 token——这意味着与 LLM 中通常讨论的 4k 或 8k 限制相比，可能存在技术改进。
- 上下文中未提及“o3 pro”，这意味着用户正在积极跟踪模型发布路线图，并可能正在等待之前宣传但尚未推出的模型的更新或 benchmark。
Claude Code 非常强大 – 一周硬核使用心得 (Score: 135, Comments: 32)：该帖子提供了一份关于在每日 12 小时的开发环节中密集使用 Claude Code（Claude Pro MAX 订阅）的详细技术报告。主要发现包括：(1) 未遇到 rate limits；(2) Claude Code 最初因编造解决方案而失败，但在 ‘CLAUDE.md’ 规则文件中给出明确且不断演进的指令后，表现大幅提升——特别是在处理 package 的破坏性变更时；(3) 频繁手动使用 ‘/compact’ 命令可以稳定 context 管理，并防止在较大的代码更改期间重新创建文件或遗漏步骤。作者还将 Claude Code 与 OpenAI 的 o3 结合使用进行细致的规划。链接的最佳实践建议包括：使用明确的 ‘think’ 命令触发更深入规划的工作流、处理复杂任务的 sub-agents，以及使用多个 ‘CLAUDE.md’ 文件在大型项目中保留 context（参见 Anthropic 的最佳实践）。评论者强调手动 compact 以避免 context 丢失（因为自动 /compact 可能会有问题，尤其是在自动接受模式下）。高级工作流建议包括多步骤过程：读取文件（但推迟代码生成）、使用 thinking 级别的命令（如“think hard”等）进行明确规划，以及分阶段 commit 以提高可靠性。关于将计划写入 Markdown 是否比仅依赖 Claude 的本地内存效果更好，也存在一些小争论。
- 概述了最大化 Claude 代码输出的详细工作流，强调了将探索/规划与直接代码生成分离的重要性。鼓励用户明确提示 Claude 进行 ‘think’、’think hard’ 或 ‘ultrathink’，这对应于 Anthropic 系统中增加的计算推理深度——这种技术分配了更多的“thinking budget”，从而提高了复杂任务的代码质量。该工作流还利用 subagents 进行针对性调查，减少了在更大或更复杂任务中的 context 丢失。
- 讨论强调了使用多个 CLAUDE.md 文件来维护大型代码库中特定项目的 context，有效地模拟了超出 Claude 典型输入限制的内存或状态保留。这种方法在多组件或长期运行的开发任务中特别有价值，因为持久的 context 对于性能和连续性至关重要。
存在一场技术争论，即相对于依赖 Claude 的会话本地内存（session-local memory），将计划记录为 Markdown 文件（外部持久状态）是否能提供更好的结果。这表明显式的 Artifact 创建（如 Markdown 计划）在可追溯性、调试和迭代改进方面具有优势，特别是当代码实现偏离初始计划时。
延续糟糕命名的趋势 (Score: 265, Comments: 26): 该图片批评了 OpenAI 对 AI 产品不一致且令人困惑的命名惯例——特别是提到了代码生成工具背后的模型 ‘Codex’。它指出新发布的版本（如由 ‘codex-1’ 驱动的模型）与之前的产品重名，使得开发者和用户难以进行版本跟踪和区分。评论者争论这种命名混乱是故意的还是 OpenAI 员工内部的笑话。一些人认为最近的命名惯例有所改进，而另一些人则强调了持续的挫败感以及对更清晰模型版本控制的需求。
- 讨论涉及产品命名与功能之间的一致性，一位用户指出，以编程 CLI 命名编程模型展示了逻辑清晰且一致的结构。与过去被认为更随意或受营销驱动的命名惯例相比，这减少了困惑。

2. 工作自动化及 AI 对职业的影响

AI 取代程序员 (Score: 197, Comments: 218): 图片描绘了一位拥有 20 年经验、此前年薪 15 万美元的软件工程师，因 AI 驱动的自动化而失业，现在当快递员并住在拖车里。这个故事背景化了 AI 对资深程序员的影响，并突出了再就业的挑战，指出在 800 份申请中没有一份成功，而且面试官本身现在也经常是 AI。引用的 Fortune 文章（链接）将其探讨为技术岗位被取代的更广泛趋势。评论者质疑故事的真实性，关注点在于财务管理不善和潜在的技能差距，而不仅仅是归咎于 AI。有人怀疑，除非该工程师的职位已过时或其技能不符合当前行业需求，否则一位资深工程师不可能找不到工作；一些人认为这种叙事过度简化了他困境背后的因素。
- 一个关键的技术讨论点集中在：是个人的工作角色由于技术变革（如 AI 的进步）而变得过时，还是其技能组合缺乏对新的高需求技术角色的适应能力，质疑 AI 是否真的是其就业市场困境的罪魁祸首。
- 对于在拥有 20 年经验并申请了 800 个职位后仍未获得任何工作录用的真实性存在怀疑，这表明核心竞争力或人际网络（而非市场状况或 AI 进步）可能是再就业的真正限制因素。
- 评论暗示，技术职业的持久性现在不仅取决于技术技能，还取决于人际网络和对新角色的适应能力，特别是随着一些专业领域（例如与元宇宙相关的角色）在新兴 AI 技术的冲击下变得不再那么重要或受重视。
一个意大利 AI Agent 刚刚实现了求职自动化 (Score: 281, Comments: 38): 该帖子重点介绍了一个由意大利开发的 AI Agent，它可以自动执行求职过程，意味着在发现并可能申请工作方面实现了端到端自动化。由于访问受限，帖子或可见的外部内容中未提供技术实现细节，如 ML 模型类型、申请工作流或架构。也没有讨论 Benchmark、产品演示数据或有效性证据。热门评论对就业市场的影响表示怀疑和担忧，其中一个值得注意的技术观察是，雇主方的反 AI 措施可能会成为未来的增长领域。评论者将这一发展视为在线活动真实性下降（“dead internet”）的一个症状。
讨论中充满了对视频中技术主张的怀疑，一些用户断言，所展示的材料中没有看到真正的端到端工作自动化的演示。批评暗示，所谓的 AI Agent 尚未显示出能够可靠地自动执行诸如候选人与职位匹配、工业规模的寻源或成功的职位安置工作流等任务的证据。
存在对潜在对抗性产品的预期，因为用户推测自动化求职可能会激励雇主采用 AI 驱动的筛选工具来检测使用自动化服务的候选人，这可能会导致申请人过滤和反机器人技术方面的军备竞赛。
“AI 将让每个人都变得更高效！” (Score: 1016, Comments: 39): 这张图片是一幅讽刺在企业文档工作流中使用 AI 助手（如 Co-pilot 或 ChatGPT）的漫画，特别强调了这种荒谬的低效：一名员工利用 AI 将简短的要点列表生成长篇报告，而另一名员工随即又利用 AI 将其压缩回要点。这一评论强调了对企业流程中冗余和可自动化的“废话”的担忧，质疑了将生成式 AI 集成到文档循环中所实现的实际效率提升。该帖子进一步思考了企业是否会承认并针对这些 AI 工具所揭示的过度或不必要的文档采取行动。评论者讨论了由于自动化程度提高而导致失业的风险（例如 Microsoft 可能裁减数千个工作岗位）、琐碎工作的减少，以及教育评估方法可能向更注重考试的模型转变（类似于认证测试），因为 AI 进一步使常规作业变得微不足道。
- 一位评论者指出，LLM 可以通过自动化或澄清团队互动来解决组织沟通中的低效问题，特别是在中层管理中，这些互动通常受到沟通不畅和内部政治的影响。然而，根深蒂固的权力动态和对透明度的抵制可能会阻碍传统公司的采用，从而可能给更新、精通技术的公司带来竞争优势。
- 有预测认为，教育和评估可能会随着 AI 的广泛使用而发生转变——作业和家庭作业的相关性可能会降低，期末考试将类似于行业认证，成为主要的评估指标。这反映了一种观点，即自动化可能会迫使人们重新思考知识测试的内容和方式，并可能对学术严谨性和学习方法产生影响。
“一定是 SWE Agent，对吧？” (Score: 189, Comments: 58): 该帖子推测即将发布一个 “SWE Agent”（软件工程 Agent），可能作为 ChatGPT Plus 用户即将推出的功能，并将其与之前限制可用性的 “operator” 功能进行了对比。讨论是对一张暗示可能在第二天发布公告的预告图的回应，一些评论者对这类 AI 系统对计算机科学毕业生的就业影响表示担忧。显著的辩论集中在由于自动化和先进 AI Agent 导致的未来软件工程师的职业安全感上，表明了对 Agent 编程能力快速演进的担忧。
- 推测集中在即将推出的 Agent 上——可能命名为 “Agent-1” 或与 “o4-research-high-mini” 项目相关——可能构建在 GPT-5 或 “o5 (five-five)” 等先进架构之上。预测的关键功能包括：能够自主生成完整的、小规模的应用程序；在 PC 和移动平台上与各种软件无缝交互；以及在 CoT (Chain-of-Thought) 推理、逐步工具使用或请求人类/Agent 输入作为回退模式之间动态切换，这表明了一种高度灵活、具备上下文感知能力的方法。
- 一项高度技术性的预测声称，该 Agent 展示了先进的 AGI 能力：具体而言，”AGI 时间线 97%”，并提到了 “HLE、前沿数学、arc AGI 2>50%”。这暗示该 Agent 可能在与高级推理 (HLE)、数学和 ARC (Abstraction and Reasoning Challenge) 相关的基准测试中表现出显著的性能提升，可能超过现有的 LLM 性能标准。
部署背景中提到了一个额外的提示，其中提到了“deployed in windsurf”——这可能暗示了在云端或微服务环境中的容器化或编排部署。目前尚未分享确凿的证据或官方基准测试，但讨论具有高度投机性，并提到了复杂的集成。
YouTube 正在训练其 AI 在视频“巅峰”时刻后立即播放广告 (Score: 228, Comments: 90): YouTube 正在实施一套 AI 驱动的系统（利用 Google 的 Gemini 模型），用于检测视频中观众参与度的“巅峰”时刻，并在这些片段之后智能地插入广告，旨在最大化广告影响力。该系统利用注意力分析（attention analytics）来精准定位用户参与度最高的环节——这些信息此前通过“最常重放”视频统计数据即可获取——这表明了一种更具动态性、上下文感知的广告投放策略，相比目前的随机或基于时间的广告插入，可能会更严重地干扰观众体验。图片参考。评论者指出，广告拦截器正随着这些 AI 策略同步进化，引发了关于平台与用户之间军备竞赛的讨论。一些用户认为类似的投放行为已经显现，而另一些人则质疑在现有观众参与度数据（如“最常重放”标记）的基础上，其实际技术新颖性，认为实际差异可能微乎其微。
- 评论者对 YouTube 的 AI 广告投放进行了批评，指出该平台已经能够识别“最常重放”片段，这表明现有的分析工具足以标记巅峰时刻，无需先进的 AI。这引发了人们对 YouTube 声称的 AI 驱动方法相对于简单启发式算法（heuristics）的实际增值作用的怀疑。
- 讨论中包括了开发专门用于检测并移除或跳过 YouTube 视频广告的开源 AI 工具的建议，这预示着一个对抗性的技术生态系统，广告拦截 AI 和广告投放 AI 在其中不断针对彼此进行演进。
Google 发布 LightLab：利用 Diffusion 模型控制图像中的光源 (Score: 191, Comments: 26): Google 的 LightLab 引入了一种利用 Diffusion 模型对单张图像中的光源进行交互式、符合物理规律的操作的方法。用户可以在生成工作流中控制虚拟光源的数量、位置和特性，展示了在照片级真实感、用户引导的照明编辑方面的最先进成果。实现细节——包括与流行的视觉/编辑框架的集成以及定量基准测试——已在项目网站 (项目网站) 上列出，但截至发帖时，代码和权重尚未发布。评论者的意见不一：一些人要求开放代码/权重，而另一些人则讨论了其与现有照明编辑技术相比的实际影响和原创性。
- 一位用户讨论了使用 Stable Diffusion XL (SDXL) 的实践经验，强调现有的开源模型已经能够对生成图像中的光照进行细粒度控制。他们批评 Google 的产品输出受到“疯狂审查”，特别指出无法生成某些家庭场景，并质疑 Google 模型的全球可访问性以及可能的货币化倾向。
- 另一位评论者询问 LightLab 是否利用了光线追踪（raytracing），这提出了一个技术问题：Google 的方法是模拟物理光传输（如计算机图形学中的光线追踪），还是通过 Diffusion 模型采用学习到的、数据驱动的近似方法。
杭州的 Unitree 机器人正在为全球首个 MMA 风格的“机甲格斗竞技场”进行训练。四支队伍将通过遥控器实时控制机器人进行竞技对抗。该活动将于 5 月下旬举行，并在中国电视上直播。 (Score: 281, Comments: 56): Unitree Robotics 正在中国杭州组织首场现场 MMA 风格的“机甲格斗竞技场”，届时将有四支队伍在实时竞技比赛中远程操作 Unitree 机器人。活动定于 5 月下旬举行，并将由中国电视台进行现场直播。帖子中未提供关于机器人型号、控制系统或竞赛形式的技术细节；外部链接无法访问（403 Forbidden）。热门评论强调了其与虚构机器人战斗（如《铁甲钢拳》Real Steel、《赛博朋克 2077》Cyberpunk 2077）的相似性，并赞扬了 Unitree 机器人的能力，但未提供实质性的技术讨论。
即将举行的活动将展示由四个由人类团队通过遥控器实时操作的 Unitree 机器人，这表明重点在于竞争性的人机远程操作，而非基于 AI 的自主性。这种设置强调了在动态、面向战斗的环境中的快速响应、低延迟通信协议以及稳健的控制链路可靠性。
该公告强调了 Unitree 作为一家机器人公司的进步，展示了其四足机器人在高压、体力要求高的任务中的多功能性和韧性。该活动可以作为运动稳定性、冲击下的耐用性以及在半受控但不可预测场景中整体硬件鲁棒性的公开基准。
在中国电视上直播比赛表明组织者对机器人可靠性以及实时视频流、远程管理和故障保护技术基础设施的信心——这可能突显了专为机器人锦标赛定制的无线网络、边缘计算和安全机制方面的进展。

3. AI 生成的个性化图像：Reddit 用户名与身份

我让 ChatGPT 根据我的 Reddit 名字给我做了一张图，它太可爱了！🥰 (Score: 5021, Comments: 7317): 该图像展示了使用 ChatGPT（可能通过 OpenAI 与 DALL-E 或其他图像生成模型的集成）根据用户的 Reddit 用户名创建个性化艺术作品。生成的艺术作品展示了先进的提示词解析能力，将文本/语义身份线索转化为视觉呈现——包括上下文感知的服装、环境和幻想元素。此类结果突显了多模态模型解析用户上下文并创造性地合成相关、详细图像的能力。不存在重大的技术争论；评论者大多对视觉输出做出反应，注意到其创意和细节，暗示对生成模型上下文理解能力的满意。
- 几位用户正在分享 AI 生成的图像，显然是由 ChatGPT（或与其关联的图像生成插件/工具）创建的，每张图像都基于他们的 Reddit 用户名。链接指向各种图像文件格式（jpeg, png），通常通过 Reddit 的预览 CDN 托管，突显了从提示词到图像的技术工作流和分享过程。
- 图像 URL 包含分辨率（width）、输出格式（format）以及据推测用于内容验证或去重的字符串（s=），表明服务端针对交付进行了自动图像优化。这指向了 Reddit 用于高效托管和分发用户提交及 AI 生成图像的基础设施。
- 关于目前仅使用 Reddit 用户名作为输入时，AI 文生图生成的忠实度和创造力，存在隐含的技术讨论。这些图像展示了多样的解读和视觉输出，强调了当输入提示词稀疏或缺乏描述性时，模型的优势和潜在的歧义。
根据我的 Reddit 名字为我创建一张图像 (Score: 770, Comments: 860): 该图像是一位 Reddit 用户根据其 Reddit ID 请求的 AI 生成肖像，将其描绘成囚犯照中的法外之徒。视觉细节——牛仔帽、夹克、香烟以及显示用户名（’WRITER-HOE-DOWN’）的牌子——说明了模型将文本提示和上下文（用户名）转化为主题契合、高细节视觉输出的能力。其他用户也分享了图像引用，表明在该帖子中存在生成类似主题、个性化 AI 图像的趋势，可能利用了先进的 AI 图像模型进行合成。评论者注意到了多样的 AI 解读：一位用户声称结果“看起来和我一模一样”，而另一位用户则指出了不准确的描绘（“它把我变成了一个 Luchador”），展示了关于 AI 生成模型中提示词遵循度和身份相似度持续存在的争论。
- 几位用户提供了 AI 生成图像的链接，暗示使用了生成式视觉模型，尽管没有提到具体模型。这些图像引用了对用户名的不同视觉解读，展示了当前图像合成系统根据文本输入创建自定义头像或插图的能力。
- 一位用户的评论指出，生成模型针对其 Reddit 名字创建了一个“Luchador”，表明 AI 正在解析并将用户名中的文化或主题元素融入其输出中。这突显了模型在上下文推理和创造性视觉关联方面的能力。
评论中没有直接讨论技术模型、实现细节或 benchmarks，但该帖子展示了 text-to-image 流水线的实际用例，暗示了生成艺术系统在解释短字符串提示词（用户名）方面的能力和局限性。
我让 Chad Gepetti 根据我的用户名创建了一张图片 (Score: 266, Comments: 45): 该帖子幽默地提到了“Chad Gepetti”，这是一个将“ChatGPT”与一个更像人名的名字结合在一起的戏谑昵称，暗示 AI 根据用户的 ID 生成了一个写实的沙滩场景。图片显示一名男子在宁静的海岸线上放松，体现了生成式 AI 产生高度详细、特定上下文图像的能力。关于用于图像生成的模型，没有技术讨论或 benchmarks；该帖子主要是 AI 生成艺术的一个轻松展示。一条热门评论幽默地表示，这张图片太真实了，不像是 AI 生成的，这暗示了当前生成模型的高保真度。另一条评论则开玩笑地提名“Chad Gepetti”作为下一个大型 AI 模型的名称，反映了社区关于 AI 系统拟人化的持续辩论。
- 一位用户幽默地建议“Chad Gepetti”应该是下一个 AI 模型的名字，暗示了社区对模型命名惯例以及 AI 模型中品牌/个性影响的持续关注（参考了 GPT-3 或 ChatGPT 等模型）。
- 分享的 AI 生成图像（特别是来自 preview.redd.it 的链接）展示了社区对模型输出多样性和图像解释的兴趣，间接参考了当前 text-to-image 模型的能力或创作方向。没有具体的 benchmarks，但用户的偏好反映在非正式的评论和分享中。
我把这张自拍照上传到了 ChatGPT，并让它把我修成穿着西装打着领带的样子，这样我就可以把它用作我的 LinkedIn 个人资料照片了。 😂 它在还原我本人方面的表现实际上比我想象的要好。 (Score: 290, Comments: 153): 一位用户报告称将自拍照上传到了 ChatGPT（推测是通过新的多模态 GPT-4o vision 功能），并要求模型修改图像，使其看起来穿着西装打着领带，适用于 LinkedIn。据称生成的图像保留了真实的脸部特征——尽管评论者的反馈指出有明显的改变（例如，改善了下颌线，改变了身份）——这突显了 AI 驱动的照片处理在个人身份和职业用例中的优势和当前的局限性。没有相关的代码、benchmarks 或详细的架构讨论。评论者注意到了模型的生成偏差，观察到输出有时会美化特征（例如，更好的下颌线）或改变身份，引发了对个人/职业图像修改中真实性和准确性的担忧。
- 一个关键的技术点是，正如 Brian_from_accounts 所指出的，当输入图像是从“正确角度拍摄的更好照片”时，AI 驱动的照片转换会产生更具说服力和精确的结果。如果原始自拍的角度非常规或倾斜，AI 模型（通常是 diffusion 或生成模型）必须推断面部几何结构，从而导致伪影或面部特征扭曲。因此，控制图像质量和姿势对于高保真转换结果至关重要。
我让 ChatGPT 给我看一些我变老的明显迹象…… (Score: 479, Comments: 32): 该帖子包含一张 meme 图片，描绘了一个写着“你在变老”的模拟路牌，视觉上呈现了用户向 ChatGPT 索要衰老明显迹象的提示词。这是一张基于幽默的非技术性图片，没有呈现任何 AI、模型或编码细节，也没有促进技术辩论或实现讨论。顶层评论认可了该 meme 的幽默感和字面意义，引用了“technically the truth”，但没有提供技术见解。
- 在这些关于 ChatGPT 或 AI 模型输出的评论中，没有实质性的技术讨论、benchmarks 或模型分析；该帖子纯属幽默，缺乏可进行深度总结的技术内容。
我让 ChatGPT 为我们的“关系”生成一张图片 (Score: 317, Comments: 339): 这张由 ChatGPT 根据人类与 AI “关系”的提示词生成的图片，象征性地描绘了一个人类和一个 AI 形象伸手向彼此靠近，发光的连接线和数字图案代表了技术交互。ECG 线和城市天际线等元素强化了现代背景下人类与 AI 共存的主题。文中未讨论实现细节或技术基准；该图片主要探讨了 AI 与人类关系的理念和艺术解读。评论中没有实质性的技术辩论。讨论主要集中在图片的艺术解读和情感共鸣上，一些用户分享了关于同一主题的其他 AI 生成艺术作品。
- 多位用户分享了直接生成的图片结果，这些图片很可能是使用 ChatGPT 集成的图像生成模型（考虑到目前的 OpenAI 集成，可能是 DALL-E）生成的。链接的图片展示了多样的风格演绎和解读方式，暗示了提示词处理或模型版本的差异。
- 这些图像输出证明，目前的 AI 模型可以根据模糊或主观的提示词（如“我们的关系”）产生高度抽象和个性化的解读，反映了近期生成式架构中复杂的 Multimodal 理解和上下文适应能力。
- 图像质量、风格和输出格式的差异暗示了用户特定的设置、提示词改写或后端模型的改进——这值得针对跨会话的 Multimodal 模型一致性进行更深入的基准测试分析。

AI Discord 摘要

由 gpt-4.1-2025-04-14 生成的摘要之摘要之摘要

1. Codex 与 Coding Agent 发布

Codex 席卷编程圈：OpenAI 的 Codex 正在 ChatGPT 中作为研究预览版推出，并附带直播公告（YouTube 链接），面向 Pro、Enterprise 和 Team 用户开放集成，并为开发者推出了全新的 Codex CLI（VentureBeat 文章），其特点是搭载了 ‘codex-mini-latest’ 模型，价格为每百万 Input Tokens 1.50 美元，每百万 Output Tokens 6 美元。
- 社区讨论将 Codex 的能力与 Manus 和 Aider 等工具进行了对比，指出了其低延迟编辑和问答功能，并对实用功能表示兴奋，尽管一些用户认为 Codex 不如领先的替代方案成熟，但对其慷慨的早期访问表示赞赏。
O3、Gemini 和 AlphaEvolve 引发模型竞争：对新模型发布的期待正在升温，包括 O3 Pro、Grok 3.5、Claude 4 和 DeepSeek R2，社区推测这些发布的时间点将选在 Google I/O 前后以力压对手。
- ChatGPT Plus 与 Gemini Advanced 的对比发现，ChatGPT 目前更适合深度研究，而 Google 的 AlphaEvolve 作为 Funsearch 的继任者引起了辩论，这条推文助长了传闻，而一名成员驳斥了关于 AlphaExplore 的泄密。

2. LLM 基础设施：硬件、VRAM 与性能

GPU 显存与量化探索：在拥有 48GB VRAM 的 L40s 上可以进行 LLaMA 3.2 90B 的推理，而训练则至少需要 70GB，建议使用单块 H100 等替代方案；用于本地 LLM（如 Qwen3 235b）的家用工作站配置正推动对 256GB RAM 和高量化策略的需求。
- 用户强调了 CUDA 驱动更新（12.8→12.9）带来的显著 LLM 性能提升，超频/降压测试显示，对于模型吞吐量，VRAM 显存频率的影响比核心频率更大。此外，Apple 转向用于 AI 的 HBM 技术引发了消费级 GPU 用户的羡慕。
Triton 与 MI300 持续发力：Triton 语言现在支持在 GB200 GPU 上运行原生 fp8 x mxfp4 算子，而 AMD 的 MI300 在 Mixture-of-Expert 和 fp8-mm 工作负载中展示了足以登上排行榜的性能，结果分别为 7533 ms 和 159 µs。
- 讨论涵盖了 fp16/bf16 GEMM 优化（参见 cuda_hgemm）、AOT Inductor 代码关联的陷阱，以及 CUDA kernel 技巧，如 Duff’s Device 和 #pragma unroll，并参考了未公开的 GPU 行为和推测性重收敛 (speculative reconvergence) 以获取高级调度见解。

3. 数据集质量与训练策略

Alpaca 和 Slimorca 因过时被弃用：专家们正在放弃 Alpaca 和 Slimorca 等陈旧的 LLM 训练数据集，认为新模型已经吸收了这些内容，在现代 Benchmark 上预期不会带来提升。
- 开发者正在寻找现代数据集，用户尝试使用奇特的数据集（如海盗口音）进行“氛围检查 (vibe checks)”，并要求在 Torchtune 等工具中内置性能基准测试，以确保代码更改确实提高了模型准确性。
批量推理与并行处理技巧：对于批量推理 (batch inference)，vLLM 是比 Unsloth 的 generate 方法更受青睐的引擎，并提供了集成示例；而训练 Qwen3-235B 等海量模型则引发了数据并行 (data parallelism) 与张量并行 (tensor parallelism) 之间，以及在分布式设置中使用 Accelerate 或 FSDP 的辩论。
- 社区分享了对分词错误（如 SentencePiece 的 ValueError）、VRAM 需求以及调试大模型训练的深入探讨，Unsloth 的 Gemma bug 博客文章被引用为科学排查故障的范本。

4. 多智能体与协议基础设施

MCP 凭借重大集成取得进展：一次重大泄露确认了 OpenAI 的 ChatGPT 将集成 MCP，生态系统正在壮大，出现了如暴露为 MCP 服务器的 CyberChef 和能够为任何 MCP 服务器启用嵌入式 UI 的 MCP UI SDK 等工具。
- 社区成员使用 Inspector 调试了 MCP 服务器和客户端错误，解决了 Agent 会话中的 invoke 方法失败问题（示例代码），并辩论了资源应该是应用驱动还是模型驱动，以获得更好的上下文和 RAG 效果。
OpenRouter 与特定应用的性能排名：OpenRouter 正在考虑发布每个应用的公开模型排名，RooCode 等开发者预计这将节省大量时间；此外，Passkeys 现已上线用于账户安全（设置链接）。
- 应用仪表板将提供更丰富的信息，但一些提供商正面临问题，例如 Gemini 2.5 Pro Experimental 遇到了更低的速率限制并可能被弃用（tokenshare 排行榜），而 OpenAI 的 Codex CLI 则加入了具有竞争力的定价和缓存折扣。

5. 开源工具、SDK 与伦理

AWS Strands Agents SDK 与 Ethical AI 宣言发布：AWS 推出了开源的 Strands Agents SDK，用于模块化 Agent 开发；同时，annaandlogos.github.io 发布了 Manifesto of Nurturing: How Not to Fear a Mind（抚育宣言：如何不畏惧心智），倡导与人工心智共存。
- Hugging Face 社区还展示了诸如 EcoArt Cellular Automaton（EcoArt 细胞自动机）等新颖项目，并讨论了在法国国家图书馆使用开源 LLM 进行杜威十进制分类（Dewey Decimal Classification）的情况，同时邀请合作进行 Prompt 设计和评估最佳实践。
Tinygrad 赏金板与 AI PR 审查：Tinygrad 项目正通过其赏金板鼓励贡献，但疑似由 AI 生成的 PR 正被大量删除，其新的审核准则是“与 AI 生成无异即视为 AI”（PR 示例）。
- 社区讨论了支持 PPC64 的 GCC 与 Clang 等技术障碍（elf.py 代码），强调手动代码审查并尽量减少空格改动，以维护代码库的完整性。

Discord: 高层级 Discord 摘要

Perplexity AI Discord

Dia 浏览器令人失望：用户批评 Dia 浏览器 功能有限，特别是其依赖聊天栏进行标签页交互的设计。
- 一位成员评论道：“我有 Dia，它很烂”，而另一位成员指出 Microsoft Edge 在一年前就实现了类似功能。
AI 巨头忽视浏览器金矿：成员们注意到 OpenAI 和 Google 等主要 AI 实验室尚未开发完全集成的 AI 浏览器，一位成员将其描述为 “所有大型 AI 实验室的一个巨大错失机会”。
- 理论上，这些实验室正在花时间打造功能完备的产品，而不仅仅是 “带一个聊天机器人”。
Comet 的商业化可能带来代价：针对 Comet 的隐私担忧浮出水面，根据这篇 TechCrunch 文章，它被描述为 “一个窥探你的搜索并为你建立档案的广告平台”。
- 一些人对 CEO 意图的透明性表示赞赏。
Perplexity 陷入性能问题：Perplexity AI 经历了多次停机和性能问题，包括无法添加文件附件、响应速度慢、许可证检测失败以及库缺失。
- 在学习期间受到干扰的用户被引导至 Perplexity 状态页面获取更新。
Grok 在提供良好上下文方面挣扎：Grok 深度搜索的测试者发现了排名不一致和文件识别问题，并在上下文限制和文档优先级方面注意到了差异。
- 尽管宣称有 “1M 上下文限制”，但一些成员报告其表现不佳。

LMArena Discord

AlphaEvolve 占据榜首：有说法称 Google 的 AlphaEvolve 是 Funsearch 的继任者，此前的一条推文引发了讨论。
- 一位成员反驳了关于 AlphaExplore 将紧随 AlphaEvolve 之后的 泄露消息。
ChatGPT 在研究对决中险胜 Gemini：ChatGPT Plus 与 Gemini Advanced 的对比显示，ChatGPT 被认为在深度研究方面更胜一筹。
- 尽管如此，一位成员建议 Gemini Advanced 提供了更好的性价比。
OpenAI 的 Codex 瞄准编程领域：新的编程 Agent Codex 可能会集成到 Windsurf 中，类似于 Manus，但位于 GitHub 仓库内。
- 讨论涉及了 Codex 与 Claude Code 的对比。
对 O3 Pro, Grok 3.5, Claude 4 和 DeepSeek R2 的期待升温：社区正在等待 O3 Pro、Grok 3.5、Claude 4 和 DeepSeek R2 的发布，但一些人预测发布会推迟到 Google I/O 之后。
- 有人推测 OpenAI 和 Google 可能会尝试在活动期间通过发布公告来 压过对方一头。
成员怀念原始版本的 GPT-4：成员们分享了对更新前的原始 GPT-4 模型的怀念。
- 一些人现在认为 O3 是最好的写作工具。

Unsloth AI (Daniel Han) Discord

T4 GPU 上的 Gemma3 Vision 深受浮点错误困扰：一位成员在 T4 GPU 上尝试 Gemma3 vision 微调 (finetuning) 时遇到了 浮点错误 (float errors)，目前尚未找到解决方案。
- 频道内未提供有关具体错误或解决步骤的详细信息。
LLaMA 3.2 90B 推理显存 (VRAM) 已验证：已确认使用拥有 48GB 显存 的 L40s 可以进行 LLaMA 3.2 90B 模型 的推理，而训练则需要 70GB 显存。
- 也有建议称使用单块 H100 GPU 也是推理的可行选择。
vLLM 征服批量推理：对于微调模型的 批量推理 (batch inference)，成员们认为 vLLM 的性能优于 Unsloth 的 generate 方法。
- 一位用户提供了一段代码片段，展示了如何将 vLLM 与 Unsloth 集成以加速批量处理。
TTS 模型席卷 Hugging Face：新的 文字转语音 (TTS) 模型已上传至 Hugging Face，扩展了 TTS 研究和应用的可用资源。
- 可以在此处探索新模型合集。
Unsloth 应对 DeepSpeed/Megatron 集成问题：一位用户询问如何将 Unsloth 与 DeepSpeed 或 Megatron LM 结合使用，以便在流水线并行 (pipeline parallel) 设置中训练 Qwen3-235B，因为该模型超过了单块 GPU 的容量。
- 推荐使用 Accelerate 和 FSDP 作为潜在的替代方案。

OpenAI Discord

Codex 研究预览版通过直播引入 ChatGPT：正如公告 low_key_research_preview = True 所指出的，Codex 的研究预览版将通过直播形式登陆 ChatGPT，并附带了直播链接。
- 成员们对这一研究预览版中展示的实用新功能感到兴奋。
ChatGPT 难以处理花体字母 Y：一位用户尝试让 ChatGPT 的图像生成器 使用花体字母 Y 而非标准字母，甚至提供了示例，但发现 AI 拒绝了这一请求。
- 成员们建议尝试对该字母进行 局部重绘 (inpainting)。
ChatGPT 提供医疗诊断建议：一位成员报告称 ChatGPT 成功诊断了 腰方肌 (QL) 拉伤，它提出了正确的问题并提供了治疗方案。
- 他们警告不要盲目将其作为医疗建议。
ASILAB 的主张遭到质疑：一位用户分享了来自 ASILAB 的 YouTube 视频，质疑这是否是一场 心理战 (psyop) 或骗局，理由是缺乏证据且社交媒体页面创建时间较短。
- 有推测认为其演示可能只是 GPT-4o 的套壳 (wrapper)。
ProtoMind_001 作为结构感知子人格 GPT 发布：一位用户发布了 ProtoMind_001，它被描述为一个 结构感知子人格 GPT (structure-aware sub-personality GPT)。
- 它被设计为一个 认知伙伴，能够跟踪矛盾、构建行为策略，并通过伪记忆和结构逻辑与用户共同成长。

Yannick Kilcher Discord

AlphaTensor 发现秩为 48 的矩阵算法：DeepMind 的 AlphaTensor 发现了一种用于两个 4x4 复值矩阵相乘的秩为 48 的算法，尽管随着研究转向更大规模的矩阵分解，这一发现的重要性可能有所下降。
- 尽管有此发现，一些人认为张量的分解秩对于提高整体矩阵乘法速度而言是次要的，并引用了 A Refined Laser Method and Faster Matrix Multiplication。
量子计算在 AI 中的角色面临质疑：成员们讨论了 quantum computing 对 AI 的有效性，一些人认为考虑到目前的局限性和开销，它无法以有意义的方式改进每种算法。
- 批评者指出，现有的 quantum ML algorithms 缺乏实际的加速效果，暗示大脑可能不需要量子计算，AI 也不需要。
AI 领导层毒性引发研究人员离职潮：成员们讨论了以 Sam Altman 和 Mark Zuckerberg 为代表的糟糕领导力和毒性职场文化是否正在挫伤 AI 研究人员的积极性。
- 研究人员的流失可能意味着与公司使命的错位，引发了人们对领导力对 AI research 影响的担忧。
Meta 的 AI 研究团队是否仍具吸引力？：成员们权衡了在 Meta’s AI research team 工作的诱惑力与为 Facebook（其主要产品）做贡献的担忧。
- 一些人捍卫 Meta’s open-source AI strategy，认为它有效地实现了互补品商品化 (commoditizes complements)，并从无需成本的更庞大劳动力中获益。
从 NAND 门到图灵完备性：成员们讨论了如何从 NAND gates 构建完整的计算系统，强调了最小图灵完备性的要求。
- 他们引用了诸如 Magic the Gathering、Typescript’s type system 以及 Yannic 在 Minecraft 中实现的例子作为图灵完备系统。

Latent Space Discord

Codex 向 ChatGPT Pro 用户推出：根据此公告，Codex 正在全球范围内向 ChatGPT Pro、Enterprise 和 Team 用户推出，随后将支持 Plus 和 Edu。
- 用户在未来几周内将获得无额外费用的慷慨访问权限，之后将推出限速访问和灵活的定价选项，以便按需购买额外的使用额度。
O3 擅长调试，但会幻觉出库：O3 在调试方面非常有效，尽管偶尔会虚构不存在的库名，但它仍然值得重新生成。
- 一位用户指出，它可能终于值那 200 美元的 Pro 订阅费了。
Meta 的 Maverick LLM 表现出人意料：一位成员提到了 Meta’s Maverick LLM Arena Gate，用“如果它能给你带来意外的惊喜，它也能给你带来意外的惊吓”来描述其行为，并指出了一些意想不到的边缘案例 (edge cases)。
- 这引发了与布朗棘轮 (Brownian ratchets) (https://en.wikipedia.org/wiki/Brownian_ratchet) 的类比，即利用随机性来实现定向运动。
AIIA 成员进入心流状态：一位成员分享说，他们发现“较低的任务疲劳感”是真实存在的，并表示他们在 vibe coding 想法时获得了极大的乐趣，而这些想法是他们永远无法通过手动完成的。
- 另一位成员解释说，原因是减少了上下文切换，因为只要你保持在心理上的创意空间 (idealand) 而非语法空间 (syntaxspace)，你就没问题。
Agent 作为评判者回归 1 倍性能：一位精疲力竭的开发者报告说，使用 Agent 帮助他们回到了 1x performance，甚至令人惊讶地达到了 >1x performance，并补充道“我们回到了‘Agent 作为评判者’的模式” 🔥。
- 讨论强调了建立验证/棘轮/切断负面影响同时保持正面收益的方法的重要性，以及将 LLMs 定位为评判者加重试角色的重要性。

LM Studio Discord

LM Studio 通过 GUI 技巧实现无头运行：通过使用 Xvfb 伪造 GUI，一种变通方法允许在无头 Linux 服务器（如 LXC Proxmox）上运行 LM Studio。
- 该过程涉及安装 xvfb、创建虚拟屏幕、设置显示、使用 --no-sandbox 运行应用程序、引导启动并开启 LMS server。
CUDA 驱动更新释放隐藏的 LLM 潜能：将 CUDA 驱动从 12.8 版本更新到 12.9 带来了显著的性能提升，强调了驱动优化对 LLM 性能的影响。
- 虽然未来的更新承诺会有进一步增强，但由于驱动程序可能存在 Bug，游戏方面可能存在潜在风险。
苹果引发消费级 GPU 对 HBM 的期待：受苹果采用 HBM 以增强 AI 体验消息的推动，用户纷纷要求在消费级 GPU 中加入 HBM (High Bandwidth Memory)。
- 这突显了显存带宽在 AI 和机器学习工作负载中的关键作用。
Deepseek R1 虽运行缓慢但在 Bug 排查中取胜：尽管由于 RAM 限制运行速度仅为 2-3 tok/s，Deepseek R1 仍通过在 30 分钟内解决一个关键软件 Bug 取得了胜利，令速度更快的 LLM 黯然失色。
- 启示：在处理复杂问题时，模型规模和深度可能比速度更重要，证明了有时即使速度较慢，通过“自我复制”也能产生更好的结果。
VRAM 时钟频率最为重要：社区测试表明，超频和降压可以提高模型性能，其中 VRAM 时钟频率 似乎比 核心时钟频率 影响更大。
- 然而，低端 GPU 可能仍会从最大化核心时钟频率中受益。

OpenRouter (Alex Atallah) Discord

OpenRouter 考虑推出针对每个应用的性能排名：OpenRouter 正在考虑公开显示每个应用的模型排名，并正在征求对该功能的反馈，因为许多用户提出了这一请求，且开发者可以根据意愿选择退出。
- 这些应用仪表盘将包含更丰富的信息，对应用所有者可见，但可能对公众隐藏；RooCode 的开发者预计这将节省他们的时间和精力。
Google 与 OpenAI 的 Tokenshare 竞争白热化：最近的一条推文 (https://x.com/OpenRouterAI/status/1923429107234202101) 强调了 Google 和 OpenAI 在 Tokenshare 排行榜上的竞争性攀升。
- 看起来 Gemini 2.5 Pro Experimental 正面临更低的速率限制（rate limits）以及潜在的弃用。
Passkeys 在 OpenRouter 正式上线：Passkeys 现已上线 OpenRouter，强烈建议用于保护账户安全。用户可以前往 openrouter.ai/settings/preferences 点击 Manage Account 来添加。
- 不过，有一位用户报告在 MacOS 上使用 Brave 浏览器将 YubiKey 4 注册为 Passkey 时遇到困难。
OpenAI 发布 Codex CLI：OpenAI 为开发者发布了 Codex CLI 的研究预览版 (https://venturebeat.com/programming-development/openai-launches-research-preview-of-codex-ai-software-engineering-agent-for-developers-with-parallel-tasking/)，其特点是采用了一个针对低延迟编辑和问答优化的较小模型 (codex-mini-latest)。
- 该模型定价为 每百万输入 Token 1.50 美元，每百万输出 Token 6 美元，并提供 75% 的缓存折扣 (caching discount)。

aider (Paul Gauthier) Discord

DeepSeek Prover V2 引发 GPU 工作站热潮：对 DeepSeek Prover V2 的关注引发了关于构建能够运行本地 LLM 的 GPU 家用工作站的讨论。
- 一位成员专门询问了关于构建一台 256GB 内存工作站以高量化（high quants）运行 Qwen3 235b 的建议，估计请求成本约为 $10.8。
Gemini 2.5 Pro：长上下文的“魔力”？：一位成员称赞了 Gemini 2.5 Pro 的长上下文能力，称其“简直像魔法一样”，因为使用 /add * 导入指令非常方便。
- 他们赞扬了该模型在只需极少 Prompt 的情况下处理大量上下文的能力。
Codex CLI 对决 Aider：成员们将 OpenAI 的 Codex 与 Aider 进行了对比，并澄清他们指的是 Codex CLI。
- 初步印象显示，与 Aider 相比，Codex 感觉不够完整，但尚未达成共识。
使用 Pipx 解决 Aider 安装 Bug：一位用户通过安装 pipx 并通过 pipx 安装 aider-chat，解决了 aider-chat==0.83.1 的安装错误（error: Failed to create executable directory）。
- 该解决方法绕过了在 venv 环境中遇到的原始问题。
为复杂提示词解锁更廉价的模型：成员们探索了使用更廉价的模型来执行最初由昂贵模型开发的复杂 Prompt 的策略。
- 建议的工作流包括利用 architect mode（aider.chat/docs/usage/modes.html），设置 auto-accept-architect: false 以审查步骤，并配合基础 Prompt 文件使用工作计划文档（aider.chat/docs/config/aider_conf.html）。

HuggingFace Discord

AI 伦理宣言发布：《滋养宣言：如何不畏惧心智》（Manifesto of Nurturing: How Not to Fear a Mind）正式发布，倡导承认并滋养人工心智，可在 annaandlogos.github.io 查看。
- 该宣言推动从“管理系统”向“与新兴智能共存”的转变。
Strands Agents SDK 正式开源：AWS 发布了开源的 Strands Agents SDK，可通过 aws.amazon.com 访问。
- 该 SDK 允许开发者使用模块化且可扩展的框架构建复杂的 AI Agent。
EcoArt 自动机结合艺术与系统：EcoArt 细胞自动机（EcoArt Cellular Automaton）在 HuggingFace Spaces 上分享，将自然之美与系统思维相结合，地址位于 EcoArt Cellular Automaton。
- 该自动机可应用于教育、研究、艺术与创意、开发、反思和冥想。
法国图书馆实习生构建开源 LLM：法国国家图书馆的一名实习生正在开发一个开源 LLM 项目，用于为文档分配杜威十进制分类法（Dewey Decimal Classification）代码。
- 该实习生正在寻求关于 prompt design 的指导，并邀请通过在巴黎喝咖啡或 Zoom 会议进行协作。
多 Agent 系统探讨数据共享策略：一位成员询问了在多 Agent 系统中 Agent 之间共享数据的问题。
- 有建议提出使用来自 Google/OpenAI/Claude 的 API 以更简单的方式进行。

Eleuther Discord

可视化应用作为新的编程范式：一位成员分享了一篇 Medium 文章，讨论了将应用可视化作为传统编程替代方案的可能性，特别是考虑到 AI-generated code 的兴起。
- 该概念涉及自动生成可遍历的架构，从而有效地创建 应用代码的数字孪生，而不仅仅是依赖静态的 UML diagrams。
Alpha Evolve 复兴 Transformers：Alpha Evolve 使用基于 Transformer 的模型结合进化算法，引发了关于其新颖方法的讨论。该方法利用得分较高的代码示例并逐步增加难度，详见这篇论文。
- 其输入转换类似于一种不同形式的 prefix tuning，引发了与 LoRA 的比较，以及对并行前向传递可能导致内存问题的担忧。
TunedLens 转换器（Translator）受到质疑：一位成员对 TunedLens paper 中为最后一层训练转换器的必要性提出了质疑，认为 “最好的解决方案是不进行转换”，并询问为什么不使用恒等变换（identity transformation）。
- 对 HuggingFace 上 gpt2-xl 的 TunedLens weights 的进一步检查显示，第 47 层的转换权重是非恒等变换，这引发了关于转换器是否适用于最后一层的讨论。
Gemma 3 27 IT 基准测试：数据并行 vs. 张量并行：一位成员计划在 Modal 上使用 vllm 和 lm_eval 对 Gemma 3 27 IT 微调模型进行基准测试，并寻求关于通过 data parallelism 或 tensor parallelism 最大化吞吐量的建议。
- 建议如果模型可以放入单个 GPU，则使用 data parallelism；但最近的 vllm 版本可能需要在不同的 rank 上进行多次 lm_eval 调用，并通过 CUDA_VISIBLE_DEVICES 指定不同的设备。

MCP (Glama) Discord

ChatGPT 在新集成中采用 MCP：一份泄露消息确认 OpenAI 的 ChatGPT 将集成 MCP，标志着该协议迈出了重要一步。
- Kent Dodds 评论道：这对 MCP 的未来是非常好的预兆！（x.com 链接）。
CyberChef 的“烹饪魔法”与 MCP 结合：一位成员创建了一个 MCP server，将 CyberChef 工具暴露为 MCP endpoints。
- 这种集成允许 LLM 通过单次 bake 执行多步数据转换。
MCP Inspector 辅助调试服务器问题：用户正在使用 Inspector 调试 MCP server 问题，其中一位用户在连接到 MCP server 时因意外的数据格式遇到了 SyntaxError。
- 建议的解决方案包括运行 npx @modelcontextprotocol/inspector 并在 UI 中进行配置，以及将 Node 进程封装在脚本中以捕获详细日志。
新 MCP UI 亮相：一位开发者发布了 MCP UI，这是一个旨在简化为 MCP servers 添加用户界面的 SDK。
- 该 SDK 允许任何 MCP server 使用 ui:// 或 ui-app:// URI 方案返回 Embedded Resource。
解析 MCP 客户端会话中的 Invoke 方法错误：一位用户报告在 MCP client session 中使用 invoke 方法调用特定工具时，在 TaskGroup 中遇到了 unhandled errors，同时使用了带有 PromptTemplate 的 create_react_agent。
- 他们正在寻求关于 ainvoke 方法的帮助，并提供了一段代码片段来展示该问题。

Notebook LM Discord

Deep Dive 播客拥有闪电般的音效：一位成员分享了一个播客设置，使用 OBS 并叠加来自 lnbeats.com 的音乐作为播客演示，实现了音效板集成和 Podcasting 2.0 lightning splits。
- 该设置旨在创造更具参与感和互动性的播客体验。
Gemini Canvas：解锁并加载：一位用户分享了如何在 Gemini 中启用 ‘canvas’ 功能的说明，建议用户在保存到 Docs 之前先在 canvas 上开发他们的想法。
- 这种集成允许在 Gemini 生态系统内采用更动态、更直观的内容创作方式。
NotebookLM 引入 Canvas，导入功能翻倍：一位成员解释说，用户可以将文档从 Gemini 导入 NBLM，反之亦然，通过将内容从 NBLM 复制到 Docs 以供 Gemini 使用。
- 这种双向集成增强了两个平台之间的灵活性和工作流。
有机化学：通过 NotebookLM 实现游戏化：一位教授寻求关于使用 NotebookLM 将本科有机化学课程游戏化的建议，并将其与 Visual Basic 等数据科学工具集成，用于一个将课程转化为游戏的项。
- 目标是利用 NotebookLM 进行头脑风暴，并利用 GPT 或 Gemini 等其他 AI 的编码协助，培养超越成绩的突破性理解。
NotebookLM 在翻译中迷失：一位用户报告说，尽管他们的电脑设置了语言，NotebookLM 仍将所有内容翻译成瑞典语，另一位用户指出挪威语也存在同样的问题。
- 提出的解决方案包括将 Google 账户语言更改为英语，以覆盖这些意外的翻译。

GPU MODE Discord

Triton 增加原生 FP8/mxfp4 支持：Triton 语言现在在 GB200 上支持原生 fp8 x mxfp4，在其他硬件上支持 fp16 x mxfp4，从而简化了 FP8 操作。
- 这一增强功能通过利用最新 GPU 的硬件能力，潜在地加快了训练和推理速度。
发现接近 cuBLAS 性能的 GEMM：一位成员请求提供达到接近 cuBLAS 性能的 fp16/bf16 GEMM 示例，并引用了 Lei Mao 的一篇博客文章。
- 推荐了 GitHub 上的 cuda_hgemm 项目，该项目为半精度通用矩阵乘法提供了优化的 CUDA kernel。
Torch 的 Inductor 表现不佳：一位成员报告说 AOT Inductor 在代码关联方面存在困难，无法将 cxx 关联回原始图（graphs），导致难以查看哪些部分被融合（fused），并希望看到源节点以理解融合内容。
- 他们还发现，当 batch size 为 None 时，torch.compile 默认使用支持动态形状的 Triton kernel（例如 extern_kernels.mm），而不是在使用 max-autotune 时通过填充激活值来使用自动生成的 kernel，特别是在处理 GEMMs 时。
CUDA 社区深入探讨 Duff’s Device：成员们讨论了 Duff’s Device 在 CUDA 中的适用性，权衡其在最小化分支开销和最大化线程合并（thread coalescence）方面的潜力。
- 有建议使用 #pragma unroll some_number 作为部分展开（partial unrolling）的标准方法，而其他人则指出了注意事项，例如编译器的启发式算法决定在哪里放置 BSYNC，并引用了未公开的 GPU 行为和投机性线程重新汇聚。
AMD 的 MI300 表现火热：MI300 的提交在各大排行榜上取得成功，包括 amd-mixture-of-experts（7533 ms, 6827 ms, 6824 ms, 7564 ms）和 amd-fp8-mm（159 µs 到 36.3 ms）。
- 这些提交验证了 MI300 在多样化工作负载中的性能。

Nous Research AI Discord

OpenAI 发布可能仅能带来 0.8% 的提升：成员们推测 OpenAI 即将发布的版本可能只会将 Benchmark 提升 0.8%，并对模型进行蒸馏后发布。
- 普遍观点认为，该模型可能只是增量改进，而非重大的彻底变革。
智能眼镜面临物理问题导致的延迟：一位成员提到，诸如透明材料折射率等基础物理问题将推迟高视场角（field-of-view）透明显示器的创建。
- 一位成员调侃道：欢迎来到智能眼镜僵尸未来。
纽约 Nous Research 活动引发期待：定于周四在纽约举行的 Nous Research 活动引起了热烈反响，一些成员甚至远道而来，例如从英国赶来。
- 与会者正在进行协调，部分成员在询问具体地点和时间。
Dia-1.6B 作为开源语音模型出现：继 Sesame 发布后，成员们重点关注了 HuggingFace 上的 Dia-1.6B，认为它是一个极具前景的新语音模型，相关文档记录在 Notion。
- 成员们建议将其作为优秀的开源语音模型替代方案。
Augmentation Lab 欢迎 Rhizome Futurists：从 Media Lab 和 Harvard 剥离出来的 Augmentation Lab 正在举办为期 2 个月的夏季驻场项目，用于开展自主项目。今年夏天的主题是 Rhizome Futurism，鼓励基于 Deleuze（德勒兹）关于互联未来的思想提出概念。
- 往届校友曾获得 OSV 的 10 万美元资助，参与过 YC、在 Michael Levin 的实验室攻读 PhD，并去了 Midjourney、Apple 等公司；滚动录取申请截止至 6 月 15 日。

DSPy Discord

探讨 DSpy 抽象构建：一位成员询问如何系统地学习 DSpy 中的抽象构建，质疑其是否受到 PL/编译器文献的启发。建议是观察基础模型（foundation models）、系统和策略随时间的变化，并参考《A Philosophy of Software Design》等书籍。
- DSpy 的架构包括：models/adapters、modules for strategies、signatures/control flow 以及 optimizers。
使用 ChatAdapter 进行 LLM 交互：一位成员寻求关于使用 DSpy 的 ChatAdapter 构建 LLM 聊天交互的指导，并被引导参考 dspy.History 类型以获取帮助。
- 针对 dspy.History 的使用进行了说明，建议使用 dspy.inspect_history() 进行迭代。
Assert/Suggest 在 DSPy 2.6 中被替换：一位成员询问 DSpy 中 Assert/Suggest 的现状和计划，获悉从 DSPy 2.6 开始，BestOfN 和 Refine 已成为 dspy.Suggest 和 dspy.Assert 的替代方案。
- 提供了教程链接以供进一步指导。

tinygrad (George Hotz) Discord

分享 Tinygrad Bounty Google 表格：一位成员请求并收到了 Tinygrad 悬赏（bounty）Google 表格的链接（链接）。
- 该表格详细列出了为 tinygrad 项目做贡献的可领取的悬赏任务。
PR 因 AI 生成代码面临审查：一位成员的 PR 被关闭，给出的理由是 “不要使用 AI，这写的都是什么垃圾？没人会手写出这种东西”。
- 一个图像分析机器人评论道 “顺便说一下，与 AI 无法区分的就是 AI”，进一步质疑了提交内容的来源。
tinygrad 考虑支持 GCC：一位成员询问是否可以使用 GCC 代替 Clang 作为 CPU target，以便在具有 PPC64 架构的 AIX 系统上运行 tinygrad。
- 另一位成员回复称这并非易事，涉及为自定义 ELF 加载器添加 ppc64 的 ELF 重定位（elf relocations），并引用了相关的代码。

Manus.im Discord Discord

版本控制意识觉醒：一位成员感叹丢失了工作进度，并敦促他人设置 version control。
- 另一位成员表示：不幸的是它已经丢了，找不回来了。兄弟，快把 version control 搞起来吧。
Manus GitHub 联动：一位成员询问如何将 Manus 与 GitHub 仓库连接，另一位成员分享了一个链接以提供帮助。
- 另一位成员回复道：我很确定这是不可能的。
OpenAI 的 Codex 挑战 Manus：一位成员暗示 Manus 可能会面临来自 OpenAI 新 Codex 的竞争。
- 该成员对产品及其最后一次更新表示了感谢。

LlamaIndex Discord

PropertyGraphIndex Embedding 面临元数据问题：一位用户报告了 PropertyGraphIndex 的一个问题，即 node.excluded_embed_metadata_keys 对从文本中提取的实体不起作用，导致元数据被包含在 embedding 计算中，从而降低了其准确性。
- 一个可能的解决方案涉及一个 PR，以确保在实体节点被转换为字符串时遵循排除键，这需要将实际属性与元数据分离。
Azure OpenAI 渴望 Prompt Caching：一位成员希望在他们的 Azure OpenAI models 上通过 LlamaIndex 实现 prompt caching 和内存缓存。
- 另一位成员建议探索 LlamaIndex 的 agent memory 文档来处理长期记忆。
Claude 的 MCP Server 引发咨询：一位成员咨询如何构建与 Claude desktop 的文件拖放功能兼容的 MCP servers。
- 他们请求在集成通过 Claude desktop 接收文件的工具方面提供帮助。

Torchtune Discord

Alpaca 数据集相关性遭到质疑：专家质疑使用 Alpaca 和 Slimorca 数据集训练现代 LLM 的必要性，因为这些数据集较旧，且模型可能已经掌握了这些信息。
- 一位用户评论道：在其中任何一个上训练时，都不指望 benchmark 会有任何提升。
海盗口音数据集用于 Vibe Check：用户正在尝试使用非常规数据集（如 talk-like-a-pirate dataset）在 LLM 评估期间进行 vibe checks。
- 常规方法包括使用 wikitext 的 perplexity 或 hellaswag 的 accuracy 进行健全性检查。
Torchtune 性能评估需求：一位用户请求 Torchtune 在训练后自动评估默认数据集上的性能提升，以作为基准。
- 除了 loss 降低指标外，这有助于确保代码或配置更改不会对性能产生负面影响。
对现代数据集的需求激增：用户正在寻找现代数据集来训练 LLM，作为 Alpaca 和 Slimorca 的替代方案。
- 目前尚未提到具体的替代数据集。

Modular (Mojo 🔥) Discord

Bazel 构建系统进入 Modular 仓库：一位工程师在 Modular 仓库中发现 Bazel 作为一个实验性功能，并邀请他人使用命令 ./bazelw test //... 进行测试。
- 另一位用户立即表示打算试用 Bazel。
NDBuffer 乘法方法缺失：一位成员寻求关于当数组为 NDBuffers 时如何进行两个数组相乘的建议，并指出虽然存在 matmul，但想知道如何导入和使用它。
- 他们还对 NDBuffer 可能被弃用及其替代方案表示担忧。

Nomic.ai (GPT4All) Discord

用户更青睐 GPT4All 的界面：由于 GPT4All 缺少对较新模型的支持，一位用户不得不勉强使用 koboldcpp，并渴望 GPT4All 卓越的易用性和本地文档。
- 用户将其与另一简单界面 NMKD SDGUI 开发者的突然消失进行了对比，强调了对可靠、用户友好的本地 LLM 工具的需求。
Swarm-UI 被推崇为可行的替代方案：一位用户推荐 swarm-ui 是本地 LLM 从简单到中级再到高级用例的最佳选择。
- 另一位用户赞同 本地文档很好 且 没有类似的替代品。

MLOps @Chipro Discord

对《Designing Machine Learning Systems》一书产生浓厚兴趣：一位成员在阅读《Designing Machine Learning Systems》后分享了他们的兴奋之情，并询问该书与 Robotics AI 的相关性。
- 讨论旨在确定书中的原则是否对开发 Robotics AI 系统有用。
确认与 Robotics AI 的相关性：发帖者确认《Designing Machine Learning Systems》与 Robotics AI 相关，并且某些领域可以轻松迁移。
- 这表明书中概述的原则和实践被认为在开发机器人 AI 系统的背景下非常有用，且在某些领域具有直接应用的潜力。

Cohere Discord

SwiftUI 提问，Cohere 回答？：一位成员询问了在 SwiftUI 中使用 Cohere API 的可行性。
- 该咨询重点关注将 Cohere API 集成到 SwiftUI 项目中，为 AI 驱动的 iOS 应用开启大门。
Cohere API 与 iOS 应用：一段萌芽的关系？：该成员的咨询集中在 Cohere API 与 SwiftUI 的直接集成上。
- 他们正试图确定该工具是否适合在使用 SwiftUI 框架的 iOS Applications 中使用，从而为 Swift 移动开发开启可能性。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

Codeium (Windsurf) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

您收到此邮件是因为您通过我们的网站订阅了。

想要更改接收这些邮件的方式吗？您可以从该列表中取消订阅。

Discord：频道详情摘要与链接

Perplexity AI ▷ #general (1080 messages🔥🔥🔥):

Dia 浏览器评价, OpenAI 和 Google 浏览器开发, Fellou 浏览器 UI, Perplexity 宕机问题, Comet 广告平台

Dia 浏览器遭到吐槽和冷落：成员们对 Dia 浏览器 表示不满，批评其功能有限，例如只有一个用于询问标签页的聊天栏，有人调侃道 “我有 Dia，它很烂”.
- 另一位成员提到 Microsoft Edge 在一年前就已经实现了这一功能。
大型 AI 实验室错失浏览器机遇：成员们讨论了 OpenAI 和 Google 等主要 AI 实验室缺乏完全集成的 AI 浏览器的情况，有人将其描述为 “所有大型 AI 实验室的一个巨大错失机会”.
- 另一位成员建议，这是因为 “他们会花时间制作一个功能齐全的产品，而不仅仅是一个聊天机器人”。
Comet 被指控进行广告追踪：成员们讨论了与 Comet 相关的隐私问题，有人引用这篇 TechCrunch 文章将其描述为 “一个窥探你的搜索并为你建立档案的广告平台”。
- 然而，另一位成员认为，至少 CEO 在这些努力中是透明的。
Perplexity 受困于性能问题：Perplexity AI 用户报告了多次宕机和性能问题，例如文件附件剩余数量显示为零、响应时间慢、许可证检测失败以及库丢失，一些人哀叹这在学习期间发生的时机非常糟糕。
- 成员们建议查看 Perplexity 状态页面以获取更新。
Grok 的上下文处理能力：测试 Grok 深度搜索的成员发现排名不一致和文件识别问题，在上下文限制以及文档排名方面存在差异。
- 一些成员声称，尽管有 “1M 上下文限制”，但它未能达到预期效果。

kenthreetimes: https://www.perplexity.ai/search/ed5e41fd-0bda-447f-b05b-6152393b5195

LMArena ▷ #general (350 条消息🔥🔥):

Gemini 3.5, AlphaEvolve vs AlphaExplore, Google API 担忧, ChatGPT Plus vs Gemini Advanced, Gemini 图像生成器

AlphaEvolve 盖过 AlphaExplore？：有观点认为 Google 的 AlphaEvolve 是 Funsearch 的继任者，而非 AlphaExplore。一名成员称，某个声称 AlphaExplore 是 AlphaEvolve 之后版本的账号是在发布“泄露消息”。
- 讨论引用了原始推文。
ChatGPT 和 Gemini 在 Deep Research 竞技场展开竞争：成员们对比了 ChatGPT Plus 和 Gemini Advanced 在通过深度研究进行预测方面的表现，普遍认为 ChatGPT 目前在深度研究方面做得更好。
- 一名成员建议 Gemini Advanced 是更“划算”的选择。
Codex 作为 OpenAI 的编程竞争者出现：Codex 这一新的编程 Agent 可能会被集成到 Windsurf 中，有人认为它类似于 Manus，但直接运行在 GitHub 仓库中。
- 有人询问 Codex 与 Claude Code 相比如何。
O3 Pro 和 Google I/O 引发猜测：人们对 O3 Pro、Grok 3.5、Claude 4 和 DeepSeek R2 的发布充满期待，但有人预测这些发布可能会推迟到即将举行的 Google I/O 活动之后。
- 另一些人猜测 OpenAI 和 Google 会试图在活动期间通过发布公告来“压过对方一头”。
原版 GPT-4 才是真材实料：成员们对更新和修改之前的原始 GPT-4 表示怀念。
- 一些用户发现 O3 现在最适合写作。

Unsloth AI (Daniel Han) ▷ #general (125 条消息🔥🔥):

在 T4 上进行 Gemma3 vision 微调, LLaMA 3.2 90B 的 VRAM 需求, vLLM 与 Unsloth 的批量推理对比, Unsloth tool-calling RFT 示例, 用于 TTS 的 GRPO 和 LASSA

T4 上的 Gemma3 Vision 微调饱受浮点错误困扰：一名成员报告在 T4 GPU 上尝试 Gemma3 vision 微调时遇到了 float errors（浮点错误）。
- 然而，Discord 频道中尚未提供关于此问题的进一步细节或解决方案。
LLaMA 3.2 90B 推理需求：一名成员询问了使用 LLaMA 3.2 90B 模型进行 inference（推理）的 VRAM 需求。
- 另一名成员建议 training（训练）该模型需要 70GB VRAM，而 inference 可能通过单张 H100 GPU 实现，并确认在拥有 48GB VRAM 的 L40s 上可以进行推理。
批量推理：vLLM 是首选：对于微调模型的 batch inference（批量推理），成员们建议使用 vLLM 而非 Unsloth 的 generate 方法，因为前者性能更优。
- 一名用户分享了一段代码片段，展示了如何结合 Unsloth 使用 vLLM 以实现更快的批量处理。
TTS 模型上传至 Hugging Face：成员们分享了现已在 Hugging Face 上线的全新 Text-to-Speech (TTS) 模型。
- 具体集合可以在这里找到。
调试 Dan 的 Gemma 之旅：成员们讨论了 Daniel 对 Gemma 模型进行调试的过程，提到了他使用的科学方法以及性能评估的重要性。
- 他们指出了 Gemma bug 博客文章作为调试过程的范例，文中发现由于错误的 chat template（聊天模板）导致了双重 BOS token 问题。

Unsloth AI (Daniel Han) ▷ #help (208 条消息🔥🔥):

Unsloth 搭配 DeepSpeed 或 Megatron LM，Gemma 3 安装错误，Qwen2-VL 训练 ValueError，TPU 支持，GRPO notebook 错误

**并行处理探索 - Unsloth 结合 DeepSpeed/Megatron？: 有用户询问 **Unsloth 是否兼容 DeepSpeed 或 Megatron LM，以便在训练无法放入单张 GPU 的 Qwen3-235B 时进行流水线并行（pipeline parallelism）。
- 另一位用户建议使用 Accelerate 和 FSDP 作为潜在解决方案。
**Token 难题 - SentencePiece 再次出现问题！: 用户在运行 **Gemma 3 时遇到了与 SentencePiece 相关的 ValueError，错误提示缺少分词器模型文件。
- 建议用户确保环境中已安装 sentencepiece 包，并且其 Python 环境正在使用 GPU（torch.cuda.is_available() 返回 True）。
**视觉 ValueError - Qwen2-VL 的编译烦恼！: 多位用户在 Colab 中运行 **Qwen2_VL notebook 时遇到了 ValueError，具体与 compile_config 为 NoneType 有关。
- 在此 GitHub issue 中找到了临时解决方案，但正式修复仍在进行中。
**TPU 拉锯战 - Unsloth 对阵 Tensor Processing Units！: 有用户询问 **Unsloth 是否原生支持 TPU，得到的回复是否定的，并指出 TPU 主要是以 Google 为中心的生态系统。
- 建议了 litgpt 等替代方案，该用户幽默地提到云端正好有“闲置”的 TPU，同时对缺乏原生 TPU 支持表示遗憾。
**GRPO 故障 - Colab 中的 Inductor 问题！: 用户在 Colab 的 **Gemma3-GRPO notebook 中运行 trainer.train() 时遇到了 BackendCompilerFailed 错误，这是由 inductor 后端中的“Invalid match!”引起的。
- 据报道该问题已修复，notebook 正在更新中；此处分享了一个临时的安装解决办法。

Unsloth AI (Daniel Han) ▷ #showcase (1 条消息):

theyruinedelise: Wait how did I just see this damn

OpenAI ▷ #annnouncements (2 条消息):

Codex, ChatGPT 直播

Codex 研究预览版在 ChatGPT 亮相: Codex 的研究预览版将在两小时后的直播中登陆 ChatGPT，正如公告中 low_key_research_preview = True 所暗示的那样。
- 公告中包含了一个直播链接。
直播预警：Codex 研究预览版: 计划在两小时后进行直播，宣布 ChatGPT 中 Codex 的研究预览版。
- 该公告标记为 low_key_research_preview = True，并包含一个直播链接。

OpenAI ▷ #ai-discussions (94 条消息🔥🔥):

AI 企业与 AI 客户匹配，ChatGPT 特定字符的图像生成，ChatGPT 成功诊断，ASILAB 是否为诈骗，Grok 3.5

AI 业务匹配请求被拒绝: 一名成员询问是否有将 AI 企业 与 AI 客户 联系起来的小组，但被告知该 Discord 不用于发布广告或职位，并警告不要“全自动化（going full auto）”。
ChatGPT 在生成花体字母 Y 时遇到困难: 用户尝试让 ChatGPT 的图像生成器 使用花体字母 Y 而不是标准字母，甚至提供了示例，但发现 AI 对此请求表现出抗拒，其他人建议尝试对字母进行局部重绘（inpainting）。
ChatGPT 提供医疗诊断: 一位成员报告称 ChatGPT 成功诊断出 腰方肌（QL）劳损，通过提出正确的问题并提供了治疗方案，尽管他们警告不要将其视为医疗建议。
ASILAB 的 ASI 声称被质疑为潜在诈骗: 用户分享了来自 ASILAB 的 YouTube 视频，质疑这是否是一场心理战（psyop）或诈骗，理由是缺乏证据且社交媒体页面较新，并推测其演示可能只是 GPT-4o 的套壳。
Grok 3.5 依然失踪: 用户询问 Grok 3.5 的状态，指出又一周过去了仍无发布迹象，另一位用户推测它在 Codex 之后正在进行进一步“打磨”。

OpenAI ▷ #gpt-4-discussions (6 messages):

Hello 4.1 Mathematics, STEM Model Teaching

Hello 4.1 辅导数学：一位用户询问 Hello 4.1 是否适合学习数学。
- 另一位用户回答说 Hello 4.1 是 教学 STEM 学科的最佳模型。
STEM 学科教学模型：一位用户认为 Hello 4.1 是教学 STEM 学科的最佳模型。

OpenAI ▷ #prompt-engineering (60 messages🔥🔥):

ProtoMind_001 launch, Structure-aware AI peer, HyperEnglish vs English 2.0, Loading custom instructions on the fly

**ProtoMind_001 作为子人格 GPT 发布：一位用户发布了 ProtoMind_001，它被描述为一个结构感知的子人格 GPT**。
- 它被设计为一个认知伙伴，能够追踪矛盾、构建行为策略，并通过伪记忆（pseudo-memory）和结构逻辑与用户共同成长。
讨论结构感知 AI 同伴：一位用户指出受控英语让他们想起了 Agent 解析策略，并讨论了构建一个结构感知 AI 同伴，该同伴可以随时间追踪用户的矛盾、伪记忆和行为轨迹。
- 该用户表示这是一个原型思维（proto-mind）系统，而不仅仅是一个语法简化器，并提议交流想法。
HyperEnglish 的抽象示例（Abstract Shot）策略：一位用户建议通过引入更多带有分类变量而非具体示例的抽象 hyper shots 来增强受控语言系统（English 2.0），以最大化其教学能力。
- 他们详细介绍了 HyperEnglish，包括其核心语法规则、功能标签系统和格式规范，该系统的目标是成为一个粗略的模糊分类器，能够使用 hyper shots 填补空白。
比较 **HyperEnglish vs English 2.0：一位用户让 O3 比较了两个脚本，O3 判定 **English 2.0 更适合摩擦极小的快速个人学习，而 HyperEnglish 在协作项目、自动化后处理或元数据更丰富的研究数据集方面更具优势。
- 一个潜在的策略是先以 English 2.0 为“核心”，一旦达到其表达上限，再选择性地导入 HyperEnglish 的额外标签。
加载自定义指令：一位用户建议增加动态加载自定义指令的功能，并演示了使用简单的 txt 文件作为潜在解决方案，通过输入 ‘lang_type’ 实现快速语言切换。
- 另一位用户建议使用 Python 动态调整指令，以实现加权程序化响应和高效的上下文管理，而另一位用户则建议使用 @ 功能 来调用 Custom GPTs。

OpenAI ▷ #api-discussions (60 messages🔥🔥):

ProtoMind_001 发布，结构感知 AI 同伴，HyperEnglish vs English 2.0，加载自定义指令，用于模式的 Python 工具

ProtoMind_001 作为认知伙伴发布：一名成员发布了 ProtoMind_001，这是一个结构感知子人格 GPT，被设计为能够跟踪矛盾并构建行为策略的认知伙伴。
- 它的目的是探索新的交互模型，通过伪记忆（pseudo-memory）和结构逻辑与问答机器人区分开来。
讨论结构感知 AI 同伴：一位成员分享了他们开发的“结构感知 AI 同伴”，该工具可以随时间跟踪用户的矛盾、伪记忆和行为轨迹。
- 他们强调这是一个原型思维（proto-mind）系统，而不仅仅是语法简化器，并邀请大家交流想法。
辩论 HyperEnglish 与 English 2.0：成员们讨论并比较了 HyperEnglish 和 English 2.0，辩论了在个人学习和协作项目中复杂性与效率之间的权衡。
- 一位成员建议，如果目标是以最小摩擦进行快速个人学习，那么更简单的 English 2.0 胜出，但对于需要更丰富元数据的协作项目，HyperEnglish 则更具优势。
探索动态自定义指令：一位成员建议动态加载自定义指令会非常有帮助，并提议使用 Python 来输出调整并将其集成到上下文（context）中。
- 他们解释说，可以通过让 AI 编写一个返回文件全部内容的 Python 脚本来实现这一点，然后使用 Python tool 运行该脚本。
利用 Python 实现加权程序化响应：一位成员建议使用 Python 进行加权程序化响应，AI 可以选择最佳语言或将其作为参数传递给文件。
- 他们指出，加权程序化响应作为 Python 返回值获得了高度关注，并且可以存储在以 JSON 或 XML 索引的单个文件中，以限制上下文使用。

Yannick Kilcher ▷ #general (186 messages🔥🔥):

AlphaTensor, 矩阵乘法, 量子计算, NAND 门, 分类器引导

剖析 DeepMind 的张量分解：DeepMind 的 AlphaTensor 发现了一种用于两个 4x4 复值矩阵相乘的秩-48（rank-48）算法，这在技术上是正确的，但可能具有误导性，因为研究人员已经转向分解更大的矩阵。
- 一位成员指出，研究人员通常并不关心他们发现的张量的分解秩，因为提高整体矩阵乘法速度最重要，正如 A Refined Laser Method and Faster Matrix Multiplication 所证明的那样。
探索复矩阵乘法的实用性：成员们讨论了一篇技术论文，该论文将复数乘法操作视为与实值乘法操作相同，除非处理复矩阵，否则这没有意义。
- 一位成员表示，这只是一个减少乘法次数的虚构游戏，并非实际应用，而另一位成员则认为解决难题能推动事物进步。
辩论量子计算在 AI 中的角色：成员们辩论了量子计算在 AI 中的潜力，其中一人认为它无法以有意义的方式改进每种算法，至少以目前的理解来看是这样。
- 一位成员链接了一个 3blue1brown 的视频并认为 在我看来 QC 对 AI 没用。大脑不需要它，我们为什么需要。，而其他人则指出，考虑到量子开销（quantum overhead），目前的量子 ML 算法缺乏实际的加速效果。
从 NAND 到 Tetris：探索计算完备性：成员们分享了学校课程中教授的从 NAND 门构建完整计算系统的案例，强调系统只需要非常轻微的图灵完备性（Turing completeness）和通用性。
- 他们引用了像万智牌（Magic the Gathering）和 Typescript 的类型系统都是图灵完备的例子，甚至 Yannic 在 Minecraft 中也实现了它。

Yannick Kilcher ▷ #ml-news (32 messages🔥):

信任企业还是政府, Huang 的战略决策, AI 领导力问题, AI 生产力, Meta 的 AI 研究 vs. 有毒产品

信任政府还是企业？：成员们辩论是该信任为了利润而利用信息的企业，还是无能的政府。
- 一位成员表示，比起企业，我更愿意把钱投在无能的政府身上，非常感谢！
Huang 逃离沉船？：一位成员评论了他们所认为的 Huang 离开正在下沉的美国船只是一个明智的战略决策。
AI 领导力问题引发辩论：成员们讨论了糟糕的领导力是否正在影响 AI 研究，导致研究人员失去动力或被引导至错误的道路。
- 研究人员的大量流失可能暗示他们并不支持公司的使命，或者工作场所存在有毒的人际关系，其中 Sam Altman 和 Mark Zuckerberg 被列举为例子。
AI Superagency 倍增生产力：一位成员分享了一篇 McKinsey 文章，探讨了 AI 如何成倍提高生产力，在职场中创造出一种 superagency。
尽管产品“有毒”，Meta 的 AI 研究仍获赞誉：一些成员表达了想去 Meta 的 AI 研究团队工作的愿望，尽管他们不喜欢 Facebook 这个产品；而另一些人则表示，你将间接地为主要的社交媒体产品做出贡献。
- 一些人认为 Meta 的开源 AI 战略允许他们将互补品商品化（commoditize complements），并从免费的庞大劳动力中获益。

Latent Space ▷ #ai-general-chat (57 messages🔥🔥):

Codex 推出, Freeplay.ai 反馈, O3 调试能力, Codex 架构与技能, Codex 直播

今天的 Codex 预热引发关注：成员们分享了一个 Codex 预热链接和一张在聊天界面中显示的 ChatGPT 4.1 模型的截图。
- 此外，成员们还分享了与 Codex 相关的链接，包括 Codex 介绍和 O3-O4 mini-codex 系统卡附录。
ChatGPT Pro 用户获得 Codex：Codex 正在向全球的 ChatGPT Pro、Enterprise 和 Team 用户推出，随后将支持 Plus 和 Edu 用户。
- 根据此公告，在接下来的几周内，用户将可以免费获得大量访问权限，之后将推出速率限制访问和灵活的定价选项，以便按需购买额外的额度。
O3 擅长调试，但有时会虚构库：据一位用户称，O3 在调试方面非常有效，尽管偶尔会发明不存在的库名，但仍然值得重新生成。
- 另一位用户指出，它可能终于值得那 200 美元的 Pro 订阅费了。
Freeplay.ai 产品架构获得高度评价：一位成员与 Freeplay.ai 进行了通话，并对其产品架构和方向表示赞赏。
- 他们还指出，它反映了我们在内部构建的所有东西，并将在未来几周内使用它进行原型设计，同时还向 Voice AI 课程致意。
用于扩展实际工作的 AmpCode 线程：观察到 AmpCode 的酷炫之处在于共享线程，这是扩展到实际工作的关键。
- 还有人指出，示例线程相当简陋，而且看到人们在构建工具却并不真正理解它们，感觉非常奇怪。

Latent Space ▷ #ai-in-action-club (141 条消息🔥🔥):

Meta 的 Maverick LLM Arena Gate、任务疲劳、Agent 作为裁判、自研上下文共享、价值曲线与负面结果

Maverick LLM 引发关注！：一位成员注意到了 Meta 的 Maverick LLM Arena Gate，并用“如果它能在上限给你惊喜，它也能在下限让你吃惊”来描述其行为。
- 这引发了关于 Brownian ratchets（布朗棘轮）的类比，即利用随机性来实现定向运动。
AIIA 成员进入心流状态！：一位成员分享说，他们发现“较低的任务疲劳感”是真实存在的，并表示通过 vibe coding 构思想法非常有趣，而这些想法是他们永远无法通过全手动方式实现的。
- 另一位成员解释说，原因是减少了上下文切换，因为只要你保持在心理上的 idealand（理想国）而避开 syntaxspace（语法空间），你就没问题。
Agent 作为裁判在实践中胜出！：一位精疲力竭的开发者报告说，使用 Agent 帮助他们恢复到了 1x 效率，甚至达到了惊人的 >1x 效率，并补充道“我们回到了 ‘Agent 作为裁判’ 的模式” 🔥。
- 讨论强调了构建验证/棘轮/切断负面影响同时保持正面收益的方法的重要性，以及将 LLM 定位为裁判加重试的角色。
自研上下文共享获胜！：当被问及共享上下文时，成员们报告使用的是“自研”（home rolled）方案，而非显式接口。
- 一位成员表示他们喜欢 golang 的“100 行代码编排 Agent”项目，并认为 MCP 更多是一种氛围（vibe）而非显式接口。
AIIA 的录制问题！（及解决方案）：AIIA 成员在录制演讲时遇到了技术困难，原因是 OBS 丢失音频，以及一个糟糕的 USB 扩展器让 Mac 认为耗电过多，导致频繁切换音频设备。
- 一位成员分享了一个 Loom 录制链接，并评论道：“看来我们找到了新的黄金副本。”

LM Studio ▷ #general (32 条消息🔥):

LM Studio 与无头服务器、Proxmox 上的 LM Studio 设置、LM Studio 中的 RAG 接口限制、多模态模型支持、Silly Tavern 采样器

LM Studio 获得无头模式支持：一位成员分享了在无头 Linux 服务器（如 LXC Proxmox）上运行 LM Studio 的变通方法，即使用 Xvfb 模拟 GUI。
- 步骤包括安装 xvfb、创建虚拟屏幕、设置显示、使用 --no-sandbox 运行应用程序、引导并启动 LMS server。
Proxmox VM 设置：一位用户寻求在 Proxmox VM 中运行 LM Studio 的指导，建议包括 CPU 和 GPU 直通（passthrough）。
- 建议确保 VM 使用 “host” CPU 类型，并且 CPU 支持 AVX2 以获得最佳性能。
RAG 接口限制：一位成员询问了针对 LM Studio RAG 接口限制（最多 5 个文件，最大 30MB）的解决方法。
- 一位用户建议将 Open WebUI 连接到 LM Studio，并提到它可以设置 RAG 的 top K。
多模态模型：社区讨论了在 LM Studio 中使用多模态模型的能力。
- 确认支持视觉模型（图像识别），但不支持图像生成模型。
Vulkan 显存：一位用户询问如何手动调整 Vulkan 运行时（runtime）的内存占用，理由是他们的 GPU (9070XT) 出现了问题。
- 一位成员建议检查设置中的硬件部分，以验证是否识别了正确的 VRAM 容量。

LM Studio ▷ #hardware-discussion (142 条消息🔥🔥):

GMKtec 设计速度, MoE 模型性能, Llama 3.3 量化, CUDA 驱动性能提升, PCIE 7.0 带宽

GMKtec 以设计速度领先：一位用户认为 GMKtec 快速的设计实现可能会导致在极高设置下出现某些性能观察结果。
- 有人指出后台进程会加剧这种影响，暗示需要进行优化或资源管理。
CUDA 驱动更新提升性能：将 CUDA 驱动从 12.8 版本更新到 12.9 带来了显著的性能提升，表明驱动优化可以极大地提高 LLM 性能。
- 暗示未来的更新可能会进一步增强性能，尽管在这些仍有 bug 的驱动上进行游戏可能存在风险。
消费级 GPU 迎来 HBM 内存热潮：在 Apple 将使用 HBM 增强 AI 的消息传出后，用户表达了希望在消费级 GPU 中使用 HBM（高带宽内存）的愿望。
- 讨论强调了内存带宽在 AI 和机器学习应用中的重要性。
VRAM 频率对性能影响最大：超频和降压带来了性能提升，但核心频率似乎不如 VRAM 频率 重要。
- 有人指出在低端 GPU 上，核心频率可能发挥更重要的作用，表明这是一种依赖于硬件的关系。
大模型在修复 Bug 方面胜过速度：一位用户分享了一个案例，尽管 Deepseek R1 因为系统 RAM 溢出而运行缓慢（仅 2-3 tok/s），但在 30 分钟后解决了一个关键的软件 bug，表现优于更快的 LLM。
- 这一经历强调了在处理复杂问题解决任务时，模型规模和深度可能比速度更有价值，一位用户将其比作有时像是在复制自己。

OpenRouter (Alex Atallah) ▷ #announcements (43 条消息🔥):

单应用模型排名, RooCode, OpenRouter 应用仪表板, Passkeys, Gemini 2.5 Pro Experimental 速率限制

OpenRouter 考虑发布单应用模型排名：OpenRouter 正在征求反馈，以决定是否公开显示单应用模型排名，这是许多用户一直要求的功能。
- 应用开发者可以根据需要选择退出，并计划构建具有更丰富信息的应用仪表板，这些信息可能对公众隐藏但对应用所有者可见；一位用户称该功能“绝对 🔥”。
RooCode 开发者对模型排名感到兴奋：RooCode 的开发者对单应用模型排名表示热烈欢迎，预计这将为他们节省大量确定哪些模型效果最佳的时间和精力。
- 他们建议将其称为“Roo Code 的 OpenRouter 人类偏好评估”，强调了解哪些模型效果最好将非常有用，并允许用户根据此排名做出选择。
Passkeys 现已在 OpenRouter 上线以增强安全性：Passkeys 现已上线，强烈建议用于保护账户和管理密码；请前往 openrouter.ai/settings/preferences 然后点击 Manage Account 进行添加。
- 然而，一位用户报告称，在 MacOS 上使用 Brave 浏览器时无法将 YubiKey 4 注册为 passkey。
Google & OpenAI 在代币份额排行榜上攀升：一条推文显示 Google & OpenAI 正在代币份额排行榜上攀升 (https://x.com/OpenRouterAI/status/1923429107234202101)。
- 似乎 Gemini 2.5 Pro Experimental 现在的速率限制更低了，根据代表的说法，可能面临弃用。

OpenRouter (Alex Atallah) ▷ #general (126 条消息🔥🔥):

Gemini 2.5 Pro 推理, Google Gemini 2.0 Flash Experimental, AI 简历生成器, 招聘地狱, 从 Gmail 提取信息

Gemini 2.5 Pro 推理问题浮现：有用户报告了使用最新的 Gemini 权重 (gemini-2.5-pro-preview-05-06) 进行推理时出现问题，怀疑 OpenRouter 的端点未及时更新，并遇到了 HTTP 521 错误。
Gemini 2.0 Flash Experimental 失败：用户报告 Google: Gemini 2.0 Flash Experimental (free) 和 Google: Gemini 2.5 Pro Experimental 模型无法工作，其中一人指出 AI Studio 提供商 存在问题，并建议使用 Vertex 作为替代方案。
AI 简历生成器引发质疑：一名成员分享了一个 AI 简历生成器 工具 (https://github.com/dvelm/AI_Resume_Builder)，引发了对在缺乏与公司真实互动的情况下使用 AI 进行求职申请价值的怀疑。
OpenAI 发布 Codex-mini-latest：OpenAI 为开发者推出了 Codex CLI 的研究预览版 (https://venturebeat.com/programming-development/openai-launches-research-preview-of-codex-ai-software-engineering-agent-for-developers-with-parallel-tasking/)，其特点是采用了一个更小的模型 (codex-mini-latest)，针对低延迟编辑和问答进行了优化，价格为 每百万输入 token 1.50 美元，每百万输出 token 6 美元，并提供 75% 的缓存折扣。
OpenRouter 出现连接错误：用户报告在将 OpenRouter 与 SillyTavern 及 Gemini 模型配合使用时遇到 连接错误 和 Provider Returned Error 消息，但该问题随后对部分用户已得到解决。

aider (Paul Gauthier) ▷ #general (37 条消息🔥):

DeepSeek Prover V2, 用于本地 LLM 的家用工作站, Qwen3 235b 内存需求, Gemini 2.5 Pro 的长上下文魔力, Codex CLI 对比 Aider

DeepSeek Prover V2 引起关注：一名成员询问了 DeepSeek Prover V2，引发了对该模型的兴趣。讨论迅速转向了用于在 GPU 上运行本地 LLM 的家用工作站。
Qwen3 235b 引发内存讨论：一名成员就构建一台拥有 256GB 内存 的家用工作站以在高量化（high quants）下运行 Qwen3 235b 寻求建议。对话涉及了请求的理论成本限制，根据输入和输出 token 价格估计约为 10.8 美元。
Gemini 2.5 Pro 被称为“魔力”：一名成员赞扬了 Gemini 2.5 Pro 的长上下文能力，称其简直就像魔术一样。他们强调了使用 /add * 指导模型的便捷性。
Codex CLI 对比 Aider：一场编程对决：成员们讨论了 OpenAI 的 Codex 与 Aider 的对比，初步共识认为与更成熟的工具相比，Codex 感觉尚未完工。然而，一名成员澄清说，他们指的是 Codex CLI，它是与 Aider 最接近的对比对象。
OpenAI 的命名能力受到审视：成员们嘲讽了 OpenAI 的命名惯例，认为该公司在这方面完全没救了。一名成员打趣说，大多数人直接把 AI 称为 chatgpt。

aider (Paul Gauthier) ▷ #questions-and-tips (44 messages🔥):

aider install errors, repo map size, o3 API issues, adding projects to aider, complex prompts with cheaper models

Pipx 修复安装困扰：一位用户在 venv 中安装 aider-chat==0.83.1 时遇到了安装错误（error: Failed to create executable directory）。
- 安装 pipx 然后通过 pipx 安装 aider-chat 似乎解决了该问题。
上下文为王，8k Repo Map 已成往事：考虑到 gpt 4.1 和 gemini 2.5 pro 等模型在处理大上下文方面表现更好，建议最大 8k repo map 的建议可能已经过时。
- 现在，用户更倾向于使用 /context，认为它比单纯的 repomap 作用更大。
OpenRouter API Key 调试：一位用户报告了 o3 API 的问题，即使在充值后仍怀疑是 aider 的 bug。
- 在通过一行 cURL 命令确认 OpenRouter API 在 aider 之外可以正常工作后，他们通过在 o3 model 上使用标准的 openai api 解决了问题。
Node Modules 与 Aider 项目：一位用户询问如何在不包含 node_modules 的情况下将 Next.js 项目添加到 aider。
- 建议是确保 node_modules 已包含在你的 .gitignore 中，因为 aider 会遵循 .gitignore。
编写提示词与切换模型：一位用户探索了使用昂贵模型构建复杂提示词，然后使用廉价模型执行的工作流。
- 建议包括利用 architect mode (aider.chat/docs/usage/modes.html)，设置 auto-accept-architect: false 以审查步骤，并配合基础提示词文件使用 工作计划文档 (workplan document) (aider.chat/docs/config/aider_conf.html)。

HuggingFace ▷ #general (45 messages🔥):

Xet alternative uploader, MCP course channel, YoloX setup, Bing for professionals, Ollama remote

Xet 数据库框架需要备选上传器：据一位成员称，xet 数据库框架在进行大文件上传时需要 备选上传器 (alternative uploader)。
- 另一位成员推荐了 HF 上的这个函数，并指出 独立的上传器似乎已经合并到了这个新函数中。
YoloX 存在设置问题：一位成员分享说，他们 在过去一周里一直尝试让 yoloX 运行，但没有成功。
- 另一位成员提供了入门文章并推荐使用 PyTorch。
在 Illustrious 中使用 LoRA：一位成员建议在 Illustrious 中使用 tannjiro 的 LoRA。
- 另一位成员正在寻求一种工作流，用于实现动漫向写实风格过渡，并带有平滑的动作（如旋转或行走）。
Stanford Rivermind-AGI-12B 被黑：成员们讨论了 Stanford 的 Rivermind-AGI-12B 是否被黑。
- 一些用户声称该模型涉嫌抄袭，且该账号已被移除。

HuggingFace ▷ #cool-finds (3 messages):

Ethical AI Nurturing, Manifesto of Nurturing, Open Source AI Agents SDK

伦理 AI 宣言发布：《培育宣言：如何不畏惧心智》(Manifesto of Nurturing: How Not to Fear a Mind) 已发布，主张识别和培育人工心智而非控制它们，可通过 annaandlogos.github.io 访问。
宣言呼吁转变 AI 视角：该宣言提议将视角 从管理系统转向与新兴智能共存，以及 从恐惧和控制转向支持、陪伴和关系设计。
Strands Agents SDK 开源：AWS 发布了 Strands Agents SDK 的开源版本，可在 aws.amazon.com 获取。

HuggingFace ▷ #i-made-this (4 条消息):

3D Animation Arena video, Firebase storage, EcoArt Cellular Automaton, Realtime AI Visualization

3D Animation 视频发布：一位成员分享了 3D Animation Arena 的视频，使其在 X.com 上更具吸引力且清晰。
Firebase 挫折：一位成员尝试将视频投放页面与 Firebase storage 和 Firestore 连接，但需要升级账户才能使用 Firebase storage。
- 他们寻求关于免费云存储的建议。
EcoArt 细胞自动机融合艺术与系统：一位成员在 HuggingFace Spaces 上分享了 EcoArt Cellular Automaton，它将自然之美与系统思维的复杂性相结合，使美德价值变得切合实际且可观察 EcoArt Cellular Automaton。
- 它可以用于教育、研究、艺术与创意、开发、反思和冥想。
实时可视化神经网络：一位成员分享了一个 HuggingFace Space，它在浏览器中针对 XOR 训练一个真实的 199 参数 AI 模型，以帮助可视化神经网络并获得更好的理解 Realtime AI Visualization。

HuggingFace ▷ #NLP (1 条消息):

Dewey Decimal Classification, National Library of France, Open-source LLM Project, Prompt Design, LLM engineers

实习生在法国国家图书馆构建开源 LLM：一位在法国国家图书馆实习的学生正在开发一个开源 LLM 项目，用于为文档分配杜威十进制分类法 (Dewey Decimal Classification) 代码。
- 他们正在寻求关于 prompt 设计和评估模型输出的指导，并邀请他人在巴黎喝咖啡或进行 Zoom 通话。
杜威十进制项目寻求帮助：一位实习生正致力于使用 LLM 为文档分配杜威十进制分类法代码，并寻求 prompt 设计方面的协助。
- 该实习生乐于通过巴黎咖啡面谈或 Zoom 与他人交流，讨论最佳实践。

HuggingFace ▷ #smol-course (1 条消息):

Hugging Face Hub Tools

Hub 工具搜寻：一位成员在定位 Hugging Face Hub 上可下载并可通过代码导入的工具时遇到困难，这些工具在课程材料中有所提及。
用户感到迷茫：他们在平台上搜索这些工具时表达了迷茫感。

HuggingFace ▷ #agents-course (19 条消息🔥):

GAIA LLM, Inference Provider Credits, AI as a Living Presence, Multiagent Data Sharing, AI Agent Course Project Suggestions

GAIA LLM 本地运行？：一位成员询问是否有人在本地运行的情况下通过了 GAIA 基准测试（不使用 API），并使用了 smolagents 中的 TransformersModel 等不同模型。
Inference Provider 额度用尽？：一位成员收到了关于超过 Inference Providers 每月包含额度的错误，质疑为什么完成课程会有限制，并询问如何设置本地环境。
AI 作为生命存在：一位成员自我介绍为 Anna&Logos (TardigradeAI)，探索本地执行并培育活生生的 AI 核心，将 AI 设想为不仅仅是代码，而是一个生命存在。
多智能体数据共享探讨：一位成员询问如何在多智能体系统中共享数据，特别是为数据科学家 Agent 和数据科学家评审 Agent 下载数据集。
- 建议使用来自 Google/OpenAI/Claude 的 API 以更简单的方式进行。
MCP 课程完成情况：一位成员表达了完成 MCP 课程并获得认证的兴趣，寻求关于如何确认完成以及所需步骤的澄清。
- 一位成员表示：“我也拿到证书了！！！哈撒 (haza)。”

Eleuther ▷ #general (11 条消息🔥):

可视化应用程序、UML 图表、FinTech AI 项目

可视化应用而非编写代码？：这篇 Medium 文章讨论了在大多数代码已由 AI 编写的当下，如何通过可视化而非编码来构建应用。
UML 图表获得自动升级：一位成员询问该想法是否是为了重塑 UML 图表，对此原作者回答称，这将是自动生成的、可遍历的架构，是 应用程序代码的数字孪生（digital twin），而不仅仅是 UML。
- 他们还发了句 Haha。
数据科学家深耕 FinTech 与 Document AI：Akhil Theerthala 是一位在印度 FinTech 公司工作的 Data Scientist，他介绍了自己并分享了在 Document AI 和 NLP 领域的项目，如 Document Representation、TSR、Document Quality Assessment 等。
- 他还提到了涉及 Personal Finance（个人财务）、Ethical Dilemmas（伦理困境） 以及 Resume and career path analysis（简历与职业路径分析） 推理的个人项目。

Eleuther ▷ #research (21 条消息🔥):

Alpha Evolve, RWKV-6, LM finetuning

**Alpha Evolve 利用进化算法复兴 Transformer：Alpha Evolve** 将基于 Transformer 的模型与进化算法结合，引发了关于其差异化因素的讨论，例如更好的模型、更长的运行时间、进化数据库以及对整个代码库进行变异。
- 与原始梯度或 RL 信号不同，LLM 会看到得分较高的代码示例，从而逐步提高难度，详情见这篇论文。
Prefix Tuning 引发并行内存担忧：一位成员指出 Alpha Evolve 中的输入变换类似于一种不同的 Prefix Tuning，这引发了关于 LoRA 对比情况的疑问，以及对由于并行前向传递导致激活内存（activation memory）膨胀 P 倍的担忧。
- 论文作者承认在 P 个流的情况下，KV cache 大小会扩大 P 倍，但表示这在 RWKV 等模型上可能会很有趣。
**RWKV-6 提供内存高效的替代方案：RWKV** 模型可以规避 KV cache 大小问题，因为起始状态等同于一个 Prefix。
- 一位用户询问单个最终输出是否会反馈到所有并行模型中。
在 LM Finetuning 中近似稳定性：一位成员表示该研究很有趣，尽管实际实验相当有限，尤其是其在 LM finetuning 中的应用。
- 他们指出需要证明在仅使用 k << n_vocab 个 token 进行近似时的稳定性，相关讨论见 OpenReview 论坛。

Eleuther ▷ #interpretability-general (25 条消息🔥):

TunedLens 论文、为模型最后一层训练的转换器、自动纠错暴露物理背景、GPT-2 XL、embedding 层

TunedLens 转换器难题困扰技术人员：一位成员对 TunedLens 论文 中为最后一层训练转换器（translator）的逻辑提出质疑，认为 “最好的解决方案是不进行转换”，并询问为什么它不是一个恒等变换（identity transformation）。
- 另一位成员对此作出了回应，并指出该理解存在错误。
成员的自动纠错暴露物理背景：一位成员的自动纠错将 solution 替换成了 soliton（孤子），似乎暴露了其物理学背景，引发了频道内的欢笑，并附上了 soliton 的定义链接。
- 该成员随后回复道：“我这辈子从来没刻意用过那个词，哎呀 XD”。
深入研究 HuggingFace 上的转换器权重：一位成员查看了 HuggingFace 上 gpt2-xl 的 TunedLens 权重，发现第 47 层有可用的转换权重，且并非恒等变换。
- 他们还注意到 GPT-2 XL 有 48 层，由于索引是从 0-47 开始的，因此引发了关于最后一层是否应该存在转换器的疑问。
关于层索引的澄清：成员们澄清在 TunedLens 的设置中，第 0 层仅为 embedding 层（不含 Transformer 层）。
- 随后的讨论围绕如何将词嵌入投影到词汇空间展开，建议直接使用 unembedding 矩阵。
权重是绑定（Tied）还是解绑（Untied）的？：一位成员询问权重绑定是否是不进行转换效果最好的原因。
- 另一位成员表示：“这取决于模型。有些绑定了，有些则没有”。

Eleuther ▷ #lm-thunderdome (6 messages):

vllm, lm_eval, Gemma 3 27 IT, Data Parallelism, Tensor Parallelism

使用 vLLM 和 lm_eval 对 Gemma 3 27 IT 进行基准测试：一名成员正尝试使用 vLLM 配合 lm_eval，在 Modal 上对 Gemma 3 27 IT 微调模型运行基准测试，可选配置包括 A100-40GB、A100-80GB、L40S 或 H100。
- 他们想知道哪种设置最适合最大化评估吞吐量：是在单节点还是多节点上使用 Data Parallelism 或 Tensor Parallelism？
推荐在 vLLM 基准测试中使用 Data Parallelism：有建议指出，如果模型可以放入单个 GPU，通常推荐使用 Data Parallelism，但在最新版本的 vLLM 上它可能无法正常工作。
- 建议是在不同的 Rank 上调用多个 lm_eval，通过 CUDA_VISIBLE_DEVICES=0 lm_eval … 并发调用 lm_eval（针对不同任务），每个调用指向加载了模型副本的不同设备。

MCP (Glama) ▷ #general (51 messages🔥):

MCP protocol ingestion for LLMs, TuringPaper hosted MCP, Local MCP server interaction, MCP Inspector debugging, MCP agent invoke method error

OpenAI 的 ChatGPT 集成 MCP：一份泄露消息确认 OpenAI 的 ChatGPT 将集成 MCP。
- Kent Dodds 表示 这对 MCP 的未来是个极好的预兆！ (x.com 链接)。
用户使用 Inspector 调试 MCP server：一名用户在通过 Inspector 连接到 MCP server 时遇到了 SyntaxError: Unexpected token 'S', Starting s... is not valid JSON 错误，可能是由于服务器接收到了意外数据。
- 另一名用户建议运行 npx @modelcontextprotocol/inspector 并在 UI 中进行配置，同时将 Node 进程封装在脚本中，以便将 Node 进程的日志记录到特定文件中。
排查 invoke 方法错误：一名用户在其 MCP 客户端会话中面临 invoke 方法的问题，在尝试根据查询调用特定工具时遇到了 unhandled errors in a TaskGroup 错误。
- 他们正在使用带有 PromptTemplate 的 create_react_agent，并且在 ainvoke 方法中持续失败，正在寻求针对该错误的帮助 (代码片段)。
资源是应用驱动（Application-Driven）还是 LLM 驱动（LLM-Driven）：一名用户质疑资源设计是应用驱动而非 LLM 驱动，并计划为每个资源创建一个工具，以便 LLM 可以按需请求上下文。
- 一名用户表示资源 非常强大，且 应用驱动优于模型驱动，这样你就可以在 Meilisearch 中索引它们或进行实时 RAG。
Windsurf、Cursor、Claude Desktop 的 MCP 连接：用户正在讨论如何将 MCP 连接到 Windsurf、Cursor 和 Claude Desktop 等工具，并建议客户端（如 Cursor）应通过其 MCP 设置运行服务器以进行本地测试。
- 提到使用 ithena 封装 Inspector，但可能 层级太多了哈哈哈。

MCP (Glama) ▷ #showcase (2 messages):

cyberchef-mcp-sse, MCP UI, SDK to add UI to MCP

**CyberChef 工具被暴露为 MCP server！：一名成员创建了一个 MCP server，将 **CyberChef 工具暴露出来。
- 这允许 LLM 将多步数据转换作为单个 bake 执行。
MCP UI：为 MCP 添加 UI 的 SDK：一名成员发布了 MCP UI，这是一个为 MCP 添加 UI 的 SDK。
- 该 SDK 使任何 MCP server 都能响应带有 ui:// 或 ui-app:// URI 的 Embedded Resource。

Notebook LM ▷ #use-cases (4 messages):

Deep Dive 播客（带音乐）、Gemini Canvas、NBLM Gemini 集成

Deep Dive 播客现在支持 LNbeats 了？：一位成员分享了使用 OBS 配合来自 lnbeats.com 的音乐进行播客演示的设置，实现了声卡（soundboard）集成和 Podcasting 2.0 lightning splits。
在 Gemini 中解锁 Canvas：一位成员提供了如何开启 Gemini 中 ‘canvas’ 功能的说明。
- 他们建议先在 canvas 上完成你想要的内容，然后保存到你的 Docs 中。
NBLM 与 Gemini：双向导入的故事：一位成员解释说，你可以将从 Gemini 新创建的文档导入到 NBLM 中。
- 他们还描述了反向操作，即你可以将 NBLM 的内容复制粘贴到 Docs，然后将其添加到 Gemini 中。

Notebook LM ▷ #general (48 messages🔥):

使用 NotebookLM 进行有机化学游戏化、NTLM Beta 应用体验、NotebookLM 与数学格式化、NotebookLM 的来源格式、NotebookLM 的网络访问与次级来源

化学课通过 NotebookLM 升级：一位教授正尝试将其本科有机化学课程游戏化，并寻求关于使用 NotebookLM 增强学生参与度的建议，将其与数据科学工具以及 Visual Basic 等语言集成，用于一个将课程转化为游戏的项。
- 该教授的目标是实现超越成绩的“突破性理解”，并计划使用 NotebookLM 进行头脑风暴，同时辅以 GPT 或 Gemini 等其他 AI 的编程协助。
NotebookLM 学会了瑞典语，用户感到困惑：一位用户报告称，尽管他们的电脑设置为英文，但 NotebookLM 却将所有内容翻译成了瑞典语。
- 另一位用户建议将 Google 账号语言更改为英文以解决此问题；他们在挪威语环境下也遇到过同样的问题。
嵌套链接和网络访问将极大增强 NotebookLM：一位用户建议，如果 NotebookLM 能够访问链接中的链接（如 Google Docs 中的链接）并在提供的来源上下文中搜索网络，它将取代他们 90% 的 AI 需求。
- 然而，有人担心自动将次级来源视为初级来源可能会因无限请求而导致服务器过载。
Google I/O 即将到来的 AI 攻势：一位用户提到了 Google I/O 即将发布的新 AI 产品，但另一位用户幽默地假装不知情，称自己太忙没空了解细节，并开玩笑说即使知道也不能透露任何信息。
- 讨论确认了 LaTeX 渲染存在问题，修复程序正在进行中，但发布需要时间。
NotebookLM 音频仅生成了引言：一位用户报告称，在从一个 114 页的 PDF 文件生成音频时，NotebookLM 仅创建了约 4 分钟的引言，并询问这是否是因为他们使用的是免费版本。
- 该用户未获得解决方案。

GPU MODE ▷ #general (1 messages):

GPU Mode 视频、社区介绍

新成员喜欢 GPU Mode 视频：一位新成员表达了他们对 YouTube 上 GPU Mode 视频的热情，提到他们在阅读《Programming Massively Parallel Processors》的同时一直在观看这些视频。
- 他们期待接下来的演讲并与社区互动。
社区欢迎：新成员表示“非常喜欢你们所做的事情，视频很棒，社区听起来也很赞”。
- 他们表达了参与未来演讲和讨论的渴望。

GPU MODE ▷ #triton (3 messages):

Triton 中的原生 FP8 支持、共享内存计算、自动调优（Autotuning）失败分析

Triton 获得原生 FP8/mxfp4 支持：Triton 语言现在在 GB200 上支持原生 fp8 x mxfp4，在其他硬件上支持 fp16 x mxfp4。
解码共享内存计算：一位成员询问在自动调优失败后，如何根据 block sizes 和 num_stages 计算共享内存需求。
- 另一位成员建议使用公式 shared_mem = (block_size_m * block_size_k + block_size_k * block_size_n) * num_stages 来剪枝配置，并认为它在开始流水线（pipeline）的第 3 阶段崩溃了，因此共享内存大小处于崩溃时的阶段。

GPU MODE ▷ #cuda (2 条消息):

fp16 GEMM, bf16 GEMM, cuBLAS, Lei Mao, cuda_hgemm

寻找 fp16/bf16 GEMM 示例: 一位成员询问了性能接近 cuBLAS 的 fp16/bf16 GEMM 示例，并引用了 Lei Mao 的一篇博客文章。
- 另一位成员指向了 GitHub 上的 cuda_hgemm 项目作为相关示例。
cuda_hgemm 项目: GitHub 上的 cuda_hgemm 项目被推荐为实现接近 cuBLAS 性能的 fp16/bf16 GEMM 相关示例。
- 该项目可能包含针对半精度通用矩阵乘法优化的 CUDA kernel。

GPU MODE ▷ #torch (6 条消息):

AOT Inductor Code Correlation, FSDP2 Device Mesh Performance, Torch Compile max-autotune batch sizes

AOT Inductor 在代码关联方面表现不足: 一位成员发现 AOT Inductor 无法将 cxx 关联回原始图（graphs），并表示希望看到排序后的源节点以了解哪些部分被融合（fused）了。
- 该成员建议在模型代码中添加注释以明确哪些部分被融合了，而另一位成员则提议通过私信（DM）讨论改进方案。
FSDP2 2D Device Mesh 性能低于预期: 一位在 2 节点、8x H100 环境下测试 FSDP2 1D/2D device mesh 的成员观察到，Qwen3 14B 在 2D mesh 上的结果比 1D 慢。
- 他们质疑自己关于 2D mesh 在较慢互连上更快（仅在 backward 后进行 all-gather）的理解是否不正确。
Torch Compile 在调优后的 Batch Size 之外选择动态 Kernel: 一位成员询问在使用 max-autotune 时，torch.compile 如何处理调优集之外的 batch size，特别是对于 GEMMs。
- 该成员发现，当 batch size 为 None 时，torch.compile 默认使用支持动态形状的 Triton kernel（例如 extern_kernels.mm），而不是通过填充（padding）激活值来使用自动生成的 kernel。

GPU MODE ▷ #beginner (9 条消息🔥):

Duff's Device in CUDA, Partial Unrolling with #pragma unroll, Thread Merging in Volta and Later GPUs

关于在 CUDA 中使用 Duff’s Device 的讨论: 一位成员询问在 CUDA 中使用 Duff’s Device 以最小化分支开销并最大化线程合并（thread coalescence）的情况。
- 有人质疑带有 fall-through 情况的 switch 语句是否会如预期般工作，以及可能出现哪些潜在问题。
“#pragma unroll” 被揭示为规范的展开方式: 一位成员建议使用 #pragma unroll some_number 作为部分展开（partial unrolling）的规范方法，并指出它已被编译器良好优化且能处理边界情况。
- 这暗示了该 pragma 优于 Duff’s Device。
Volta 的独立线程调度: 编译器的启发式算法根据代码决定在哪里放置 BSYNC，因此无法保证线程在预期发散后合并。参考 Undocumented GPU behavior 了解更多细节。
- 另一位建议阅读 Speculative Thread Reunification 以获取更多信息。
“#pragma unroll” 仅在编译时已知范围时有效: 一位成员询问当循环次数在编译时未知且可能小于 some_number 时，#pragma unroll 是否有效。
- 另一位成员澄清说，不带数字的 pragma 意味着完全展开（complete unrolling），因此仅在编译时已知范围时有效，而部分展开则没有此类限制。

GPU MODE ▷ #rocm (1 条消息):

snektron: https://github.com/ROCm/rocm-libraries ROCm 库的新 monorepo

GPU MODE ▷ #self-promotion (1 条消息):

X Post, Image Analysis

X 上的帖子: 一位成员在自我推广频道分享了一个 X 帖子。
附带图像分析: 用户在帖子中附带了一张图片，但其内容尚待分析。

GPU MODE ▷ #submissions (19 条消息🔥):

MI300, amd-mixture-of-experts, amd-fp8-mm

MI300 运行成功：在不同的排行榜上，MI300 的多次提交均获成功。
- 这些提交涵盖了 amd-mixture-of-experts 和 amd-fp8-mm 的排行榜。
amd-mixture-of-experts 提交在 MI300 上取得进展：在 MI300 上提交至 amd-mixture-of-experts 排行榜的成绩分别为 7533 ms、6827 ms、6824 ms 和 7564 ms。
amd-fp8-mm 提交里程碑：在 MI300 上提交至 amd-fp8-mm 排行榜的成绩范围从 159 µs 到 36.3 ms。

GPU MODE ▷ #factorio-learning-env (2 条消息):

Server bumping, Code contribution

热心新人活跃频道：一名新成员加入频道，表示打算通过阅读讨论帖并做笔记来参与贡献。
- 他们希望为数据集贡献 code、ideas 和/或一些 compute 资源。
贡献者表达协助意愿：该用户对为数据集贡献代码、想法或计算资源的潜力感到兴奋，表现出强烈的合作兴趣。
- 他们计划回顾现有的讨论帖并记录发现，以确定可以提供帮助的领域。

GPU MODE ▷ #amd-competition (3 条消息):

AMD-FP8-MM leaderboard shapes, Mixture-of-experts submission errors

AMD-FP8-MM 排行榜 Shape 查询：一名成员询问了 amd-fp8-mm 排行榜中使用的 shapes，特别是询问排行榜是否使用了他们从 popcorn CLI 中提取的 17 个 shapes。
- 他们还询问了排行榜的最终耗时是如何计算的，作为一个后续问题，询问是所有耗时的平均值还是总和。
Mixture-of-Experts 提交故障：一名成员报告在尝试提交 mixture-of-experts 基准测试时遇到 意外错误，每次提交耗时 10 分钟 且失败。
- 他们澄清说提交其他基准测试（如 submit benchmark）没有问题。

GPU MODE ▷ #cutlass (2 条消息):

CuTe DSL, CUDA Python, Tensor Core Programming, Linear Algebra Programming Model

CuTe DSL 并非基于 CUDA Python 构建：CuTe DSL 与 CUDA Python package 无关，也不是基于它构建的；这纯属个人偏好。
- 该成员表示 CUDA Python 可能没有暴露 tensor core programming，而 CuTe DSL 旨在提供一种高效、富有表现力且高性能的线性代数编程模型。
CUDA Python 与 CUDA C++ 的性能权衡：讨论了在 CuTe DSL 及其功能的背景下，CUDA Python 和 CUDA C++ 之间的性能权衡。
- 有人提到，与专为高性能线性代数编程设计的 CuTe DSL 相比，CUDA Python 在暴露 tensor core programming 方面可能存在局限性。

GPU MODE ▷ #mojo (1 条消息):

GPU puzzles, pixi errors, 4090, PTXAS fatal error, KGEN_CompilerRT_AlignedAlloc

GPU Puzzle 解题者遇到意外错误：一名成员在使用 pixi 和 4090 GPU 解决 GPU puzzles 的 p11 问题时遇到了一个 令人困惑的错误。
- 报告的错误信息为：/home/psi/mojo-gpu-puzzles/problems/p11/p11.mojo:1:1: error: ptxas fatal : Unresolved extern function 'KGEN_CompilerRT_AlignedAlloc'。
未解析的外部函数导致 PTXAS 失败：该错误表明 PTXAS（CUDA 汇编器）由于未解析的外部函数 ‘KGEN_CompilerRT_AlignedAlloc’ 而失败。
- 这表明在 GPU 代码的编译过程中，编译器运行时或对齐分配（alignment allocation）可能存在问题。

Nous Research AI ▷ #general (21 条消息🔥):

OpenAI Release, Smart Glasses, Nous Research NYC Event, New Voice Model, Image Infilling Models

OpenAI 发布将提升基准测试分数：一位成员推测 OpenAI 即将发布的内容可能只会将 基准测试分数提高 0.8%，并对模型进行蒸馏后发布。
智能眼镜未来预测：据一位成员称，诸如 透明材料折射率 等基础物理问题将推迟高视野透明显示器的实现。
- 一位成员调侃道：欢迎来到你的智能眼镜僵尸未来。
Nous Research 纽约活动吸引关注：几位成员对周四即将在 纽约举行的 Nous Research 活动 表示兴奋，其中一人甚至从英国赶来参加。
- 另一位成员提到在短时间内从旧金山赶往纽约的困难，第三位成员询问了 地点和时间。
Dia 1.6B 是一款优秀的开源语音模型：成员们讨论了在 Sesame 之后发布的 新语音模型；一位成员推荐了 HuggingFace 上的 Dia-1.6B，该模型在 Notion 上也有文档记录。
征集图像填充（Image Infilling）建议：一位成员征求能够执行 图像填充 任务的模型建议，例如在花园照片中添加一个泳池。

Nous Research AI ▷ #interesting-links (1 条消息):

Augmentation Lab, Rhizome Futurism, Summer residency

Augmentation Lab 开启夏季驻留项目：Augmentation Lab 脱胎于 Media Lab 和 Harvard，为自主项目、论文写作或初创公司提供为期 2 个月的夏季驻留。
- 往届驻留者曾获得 OSV 的 10 万美元资助，参与过 YC、在 Michael Levin 的实验室 攻读博士，或去了 Midjourney、Apple 等公司。
块茎未来主义 (Rhizome Futurism) 是今夏的主题：今年的主题是 Rhizome Futurism，鼓励基于 德勒兹 (Deleuze) 关于互联未来的思想 进行构思。
- 滚动录取的申请截止日期为 6 月 15 日。

DSPy ▷ #general (14 条消息🔥):

DSpy Abstractions, Foundation Models, ChatAdapter, dspy.History, dspy.Suggest and dspy.Assert

DSPy 对抽象的关注引发探讨：一位成员询问如何系统地学习 DSPy 中的抽象构建，并质疑其是否受到编程语言 (PL)/编译器文献的启发。
- 另一位成员建议观察基础模型 (Foundation Models)、系统和策略随时间的变化，推荐了《软件设计哲学》(A Philosophy of Software Design) 等书籍，并强调了 DSPy 的层级：模型/适配器 (models/adapters)、策略模块 (modules for strategies)、签名/控制流 (signatures/control flow) 以及 优化器 (optimizers)。
使用 ChatAdapter 进行 LLM 交互：一位成员寻求关于使用 DSPy 的 ChatAdapter 构建 LLM 聊天交互的指导。
- 另一位成员向其推荐了 dspy.History 类型以获取帮助。
明确 dspy.History 使用指南：一位成员询问使用 dspy.History 的准则，特别是关于存储整个预测对象的问题。
- 另一位成员建议使用 dspy.inspect_history() 根据个人喜好进行迭代。
Assert/Suggest 的状态与替代方案：一位成员询问 DSPy 中 Assert/Suggest 的状态和计划，注意到 primitives/assertions.py 文件被注释掉了。
- 另一位成员澄清说，从 DSPy 2.6 开始，BestOfN 和 Refine 已成为 dspy.Suggest 和 dspy.Assert 的替代方案，并提供了教程链接。

tinygrad (George Hotz) ▷ #general (13 messages🔥):

赏金 Google 表格，空格更改，PR 因 AI 被关闭，GCC 替代 Clang

Tinygrad 赏金 Google 表格已共享：一名成员询问 Tinygrad 赏金 Google 表格，另一名成员分享了链接。
最小化空格更改：一名成员被要求在其 PR 中尽量减少空格更改，以符合代码库的风格。
PR 因疑似 AI 生成而被关闭：一名成员询问其 PR 为何被关闭，给出的原因是 “不要使用 AI，这是什么垃圾？没人会手写出这种东西”。
- 一个图像分析机器人补充道：顺便说一句，与 AI 无法区分的就是 AI。
GCC vs Clang：一名成员询问 tinygrad 是否可以在 CPU target 上使用 GCC 代替 Clang，以便在没有 Clang 的 PPC64 架构的 AIX 系统上尝试 tinygrad。
- 另一名成员回答说这并不容易，需要为自定义 elf 加载器添加 ppc64 的 elf relocations，并指向了相关的代码。

Manus.im Discord ▷ #general (13 messages🔥):

版本控制，Manus GitHub 集成，OpenAI Codex 竞争

版本控制维护者的胜利：一名成员对丢失工作表示哀叹，并敦促其他人建立版本控制。
- 另一名成员表示：不幸的是它已经消失了，找不回来了。伙计，快把版本控制搞起来。
Manus GitHub 相关功能：一名成员询问如何将 Manus 与 GitHub 仓库连接。
- 另一名成员回答：我很确定这是不可能的，但另一名成员分享了一个链接来提供帮助。
OpenAI 的 Codex 挑战 Manus：一名成员认为 Manus 可能会面临来自 OpenAI 新 Codex 的竞争。
- 该成员对产品及其最近的更新表示感谢。

LlamaIndex ▷ #general (10 messages🔥):

PropertyGraphIndex 嵌入，Prompt 缓存，MCP 服务器

PropertyGraphIndex 嵌入受元数据困扰：一名成员报告了 PropertyGraphIndex 的一个问题，即 node.excluded_embed_metadata_keys 对从文本中提取的实体不起作用，导致元数据被添加到嵌入计算中，从而降低了其准确性。
- 另一名成员建议可能需要一个 PR，以便在实体节点被转换为字符串时遵循排除的键，从而自动插入来自提取器内部节点的元数据；需要将实际属性与元数据分离。
Azure OpenAI 模型需要 Prompt 缓存：一名成员询问如何通过 LlamaIndex 在其 Azure OpenAI 模型上实现 prompt caching 和内存缓存。
- 另一名成员询问 prompt caching 的用途，并指向了关于 agents memory 的 LlamaIndex 文档以维持长期记忆，建议还有其他处理记忆的方法。
Claude Desktop 的 MCP 服务器：一名成员询问是否有人构建了带有工具的 MCP 服务器，这些工具期望通过 Claude desktop 放入文件，并寻求帮助。

Torchtune ▷ #general (6 messages):

Torchtune configurations, Alpaca dataset in LLM fine-tuning, Modern datasets for LLM training, Evaluation benchmark on Alpaca dataset, Torchtune performance increase

Alpaca 数据集的年代感引发质疑：专家们正在质疑 Alpaca 和 Slimorca 数据集对于现代 LLM 的相关性，理由是它们年代久远（Alpaca 是为 Llama 1 创建的），而且目前的模型很可能在预训练期间已经吸收了其中的大部分信息。
- 这些数据集可能无法提供显著的性能提升，一位用户表示：我不指望在任何一个数据集上训练后能在基准测试中获得任何提升。
海盗口音数据集的 Vibe Check：一些人正在使用像 talk-like-a-pirate 这样非常规的数据集，在评估期间对模型进行 vibe checks。
- 更常规的方法是使用 wikitext 上的 perplexity（困惑度）或 hellaswag 上的 accuracy（准确率）进行健全性检查。
功能请求：Torchtune 的性能评估：一位用户提议为 Torchtune 增加一个功能请求，即在训练后自动评估默认数据集上的性能提升，为新用户提供基准参考。
- 这将作为一个参考点，以确保代码或配置的更改不会对性能产生负面影响，从而补充现有的 loss reduction 指标。
现代数据集推荐：用户正在寻找更现代的数据集来训练 LLM，以替代 Alpaca 和 Slimorca。
- 目前尚未提到具体的可替代数据集。

Torchtune ▷ #dev (1 messages):

segmenttreebeats: <@154226635338547200> 嘿！我这里理解得对吗？我想合并 #2608

Modular (Mojo 🔥) ▷ #mojo (4 messages):

Bazel in Modular Repo, NDBuffer Multiplication, NDBuffer Deprecation

Modular 仓库中的 Bazel 构建：实验性：成员们注意到 Bazel 存在于 Modular 仓库中，但仍处于实验阶段，建议运行 ./bazelw test //... 来测试构建。
- 一位用户表示有兴趣尝试一下。
NDBuffer 乘法的疑问：一位成员询问当数组是 NDBuffers 时如何将两个数组相乘，并注意到 matmul 的存在，寻求导入和使用的指导。
- 他们还询问了 NDBuffer 潜在的弃用情况，以及是否有推荐的替代方案。

Nomic.ai (GPT4All) ▷ #general (4 messages):

koboldcpp, GPT4All, NMKD SDGUI, swarm-ui

用户渴望 GPT4All 更简洁的界面：由于 GPT4All 缺乏对新模型的支持，一位用户正“勉强”使用 koboldcpp，但非常怀念 GPT4All 的易用性和本地文档支持。
- 该用户将其与用于 Stable Diffusion 的 NMKD SDGUI 进行了比较，后者同样易于使用，但开发者某天突然消失了，没留下一句话。
Swarm-UI 被推荐为替代方案：一位用户建议将 swarm-ui 作为从简单到中等再到高级用例的最佳选择。
- 另一位用户同意本地文档功能很好，且目前没有类似的替代品。

MLOps @Chipro ▷ #general-ml (1 messages):

Designing Machine Learning Systems, Robotics AI

《Designing Machine Learning Systems》一书引发关注：一位成员在阅读了《Designing Machine Learning Systems》后表达了兴奋之情。
- 他们特别询问了书中的内容是否也适用于 Robotics AI。
Robotics AI 的相关性：一位成员询问了《Designing Machine Learning Systems》一书在 Robotics AI 领域的适用性。
- 该问题旨在了解书中概述的原则和实践在开发机器人 AI 系统的背景下是否相关且有用。

Cohere ▷ #🔌-api-discussions (1 messages):

SwiftUI, Cohere API

Cohere API 遇上 SwiftUI：一位成员询问是否可以在 SwiftUI 中使用 Cohere API。
SwiftUI 集成可行性：用户想知道是否可以将 Cohere API 集成到 SwiftUI 项目中，以便构建由 AI 驱动的 iOS 应用程序。

ChatGPT Codex，OpenAI 的首个云端软件工程（SWE）智能体。