Gemini is all you need.

2025年8月25日至8月26日的 AI 新闻。我们为您检查了 12 个 subreddits、544 个 Twitter 账号和 29 个 Discord 社区（包含 229 个频道和 9075 条消息）。预计节省阅读时间（按 200wpm 计算）：701 分钟。我们的新网站现已上线，提供完整的元数据搜索和精美的 vibe coded 风格展示。请访问 https://news.smol.ai/ 查看完整的新闻细分，并在 @smol_ai 上向我们提供反馈！

Google 今天大显身手：

而且 LMArena 的结果是不争的事实：

AI Twitter 回顾

Gemini 2.5 Flash Image (“nano-banana”) 统治图像编辑领域

模型发布、功能与可用性：社区竞技场上的匿名模型 “nano-banana” 已被 Google DeepMind 确认为 Gemini‑2.5‑Flash‑Image‑Preview。它提供最先进的图像编辑和生成能力，在角色一致性、定向自然语言编辑、多图合成以及准确的文本渲染方面表现尤为突出。它已在 Gemini 应用、Google AI Studio/API 中上线，并提前出现在各大评估网站上 (@GoogleDeepMind, @sundarpichai, @Google, 文档, 定价)。
基准测试与大规模应用：在 Image Edit Arena 上，Gemini 2.5 Flash Image 以空前的 ~170–180 Elo 领先于第二名，两周内获得了超过 500 万次投票，仅该模型就获得了超过 250 万次投票——这是 Arena 历史上最大的领先差距。它目前在社区排行榜的图像编辑中排名第一，在文生图领域也排名第一或处于顶尖水平 (@lmarena_ai, 揭晓, 使用量激增, Artificial Analysis)。据称成本为 每 100 万输出 token 30 美元（每张图约 1,290 个 token，即 约 $0.039/张）(@_philschmid, @andrew_n_carr)。多个演示展示了多轮对话编辑、一致的人物形象重新渲染，以及视觉编辑中隐含的“世界知识” (@skirano, @omarsar0)。
生态系统可用性：该模型已集成到第三方平台和排行榜中（例如 Yupp、LMArena 对战模式、作为发布合作伙伴的 OpenRouter），社区提示词指南也正在陆续推出 (@yupp_ai, @xanderatallah, @OfficialLoganK)。

新模型与开源发布

Nous Research Hermes 4 (open weights)：混合型“推理”模型，专注于可控性（steerability）、低拒绝率以及强大的数学/编程/STEM 基准测试表现。可在 Hugging Face 和 OpenRouter 上获取，支持通过 header/template kwargs 切换“思考”模式 (@NousResearch, weights, OpenRouter, toggle)。
NVIDIA Nemotron Nano 9B V2 (reasoning small model)：由 NVIDIA 训练的混合 Mamba-Transformer 架构、128k 上下文模型（非 Llama 衍生），在 NVIDIA Open Model License 下发布（无 Llama 限制）。支持推理/非推理模式（系统指令 “/no_think”），据报道在某排行榜上是表现最强的 <10B 模型；NVIDIA 还在 Hugging Face 上发布了 6.6T-token 预训练子集 (@dl_weekly, @ArtificialAnlys, NVIDIA blog)。
InternVL3.5 (VLMs)：首批基于 OpenAI gpt-oss 系列构建的 VLM 已发布，包含 32 个涵盖预训练、微调和对齐的模型，使用 gpt-oss 或 Qwen3 作为 LLM 骨干网络 (@mervenoyann)。
Ollama v0.11.7：在应用/CLI/API/SDK 中增加了对 DeepSeek v3.1 的支持（混合“思考”模式），并提供 Turbo 模式预览 (@ollama)。
Apple Silicon 本地技术栈：“Osaurus” 是一款轻量级（约 7MB）基于 MLX 的 Apple Silicon 原生 LLM 服务器，声称比 Ollama 快约 20%；社区正在将多个小模型移植到 MLX (@geekbb, @LiMzba)。
同样值得关注的还有：Liquid AI 的 LFM2-VL 系列 (@dl_weekly)，以及由学生使用 FFT+merging 技术对 LFM2 进行的强力法语微调版本 (@maximelabonne)。

Agent、API 与开发者工具

Claude for Chrome (research preview)：Anthropic 正在面向 1,000 名用户试点一款集成在浏览器中的操作型 Agent。在广泛推广前，重点在于安全性——特别是针对 Prompt Injection（提示词注入）的防御 (@AnthropicAI, safety note)。
OpenAI API 变更：Assistants API 正式弃用，取而代之的是 Responses API（2026 年 8 月 26 日停止服务）。Responses 现在承载了 Code Interpreter、持久化对话、MCP 和 Computer Use 功能；在 GPT-5 中，“推理 Token”将在轮次之间保留。Responses 中的 Web Search 增加了域名过滤、来源报告功能，价格降至 $10/1K calls（原价 $25） (@OpenAIDevs, pricing update)。
Agent 架构与评估：Cline 认为许多 2023 年的模式——如多 Agent 编排、基于代码库索引的 RAG 以及指令过载——在今天的表现往往不如更简单的设计 (thread, blog)。TransluceAI 的 Docent alpha 实现了大规模行为分析自动化（如 Reward Hacking、指令违规），已有来自主要实验室和评估机构的早期测试者 (launch)。Weave+Tavily 发布了可追溯的、实时研究型 Agent 的方案 (Weave)。LangGraph Studio 的更新改进了交互式调试和追踪的 UX (@LangChainAI)。Weaviate 的 Elysia 提供了一个“Agentic RAG” UI，支持文本之外的动态显示 (@weaviate_io)。Beam 发布了一个开源的“装饰器转 Serverless”框架 (@_avichawla)。

训练、RL 与优化

GRPO 代码解析：关于应用 GRPO 训练 Qwen 2.5 玩 2048 游戏的清晰流程讲解，包含可运行的代码和解释视频 (@jayendra_ram)。社区调侃称“LLM 的 RL 纯粹是为了适配内存而不断调整你的 KV cache”，这道出了从业者的现实境况 (@finbarrtimbers)。
RL 框架概览：一份综述对比了 verl（基于 Ray/DataProto 基础设施；集成 SGLang；可扩展至 671B）、AReal（蚂蚁集团的异步 RL）、Nemo‑RL（NVIDIA；性能强劲，但采用较晚）以及智谱的 Slime（针对 SGLang/Megatron 优化）。On‑policy 模式更整洁，但由于 Post‑training 中的 rollout/inference 瓶颈，Off‑policy 在实践中往往更具优势 (摘要)。
长上下文与压缩：Hugging Face Trainer 现在支持 context parallelism（上下文并行），可处理 100k+ 的序列长度 (@m_sirovatka)。vLLM 的 LLM Compressor v0.7.0 增加了转换支持（QuIP, SpinQuant）、混合精度、更好的 MoE 处理（Llama‑4）以及 NVFP4/FP8 混合精度 (@vllm_project)。研究/讨论涵盖了通过 epsilon 调节解决 Adam 尺度不变性的注意事项 (@sedielem)，以及用于提高通信效率的自适应批处理 (AdLoCo) (@papers_anon)。
数据流水线正在演进：趋势正从“带有轻量过滤的更多数据”转向激进的基于 LLM 的过滤 + 针对更长训练周期的重放（FineWeb‑edu/HQ, DCLM），以及现在的 LLM 改写 (rephrasing)，以从每个样本中提取更多信号（例如 Nemotron‑CC, WRAP, REWIRE）。多 Epoch 训练重新受到青睐，尽管收益递减已成共识 (@lvwerra)。

系统与基础设施笔记

Google TPUv7 架构 (Hot Chips)：TPUv7（又名 v6p/“ghostfish”）的首个公开框图：8 堆栈 HBM3e，4 个中型脉动阵列（systolic arrays），3D torus 拓扑可扩展至 9,216 个设备。OCS 减少但并未消除 3D torus 拓扑中故障域的“爆炸半径” (@SemiAnalysis_)。
平台：zml/llmd 现在仅需一个标志位即可在 TPU 上运行，支持完整的 prefill/decode paged attention (@steeve)；Hugging Face Diffusers 弃用 Flax，转向 PyTorch 优先 (@RisingSayak)。Slurm 支持已落地于 Prime 集群上的 H100/H200/B200 多节点配置 (@jannik_stra)。

基准测试与推理研究

推理/数学：IneqMath 增加了评判器、更多数据、本地 vLLM 支持以及持续更新的排行榜；目前 GPT‑5 的 SOTA 结果为 47%（中等难度，30K），而最佳开源模型（gpt‑oss‑120B，10K）为 23.5% (@lupantech)。斯坦福的 UQ 基准测试探究了 LLM 是否能解决各领域精心挑选的未解问题；部分模型的解决方案已通过专家验证 (@Muennighoff)。MIRAGE 探索了具有可解释知识图谱（KG）链和预算调节的图检索增强多链推理 (@omarsar0)。一项新的可解释性研究结果将神经元特征的“过度打包 (overpacking)”与对抗脆弱性联系起来 (@GoodfireAI)。此外，还有一个历史注记：关于“Scaling Laws”的讨论早于 2017/2020 年的工作——参见 NIPS 1993 关于学习曲线和测试误差预测的研究 (@jxmnop)。

热门推文（按互动量排序）

Gemini 2.5 Flash Image (banana trifecta)：来自 Sundar Pichai 和 Google DeepMind 的公告和演示引发了巨大的互动 (@sundarpichai, @GoogleDeepMind, @googleaistudio)。
Anthropic 的 Agent 推进：Claude for Chrome 研究预览版，专注于安全的浏览器操作 (@AnthropicAI)。
社区验证：Demis Hassabis 称 Gemini 2.5 Image 是目前表现最好的模型，Elo 评分遥遥领先 (@demishassabis)；Oriol Vinyals 谈到了使用情况和 Arena 的病毒式传播 (@OriolVinyalsML)。
Reid Hoffman 的启发式观点：“10,000 个 Prompt 是新的 10,000 小时”，捕捉到了实践驱动精通的时代精神 (@reidhoffman)。
Scale AI x 美国陆军：随着 9900 万美元 美国陆军合同的宣布，行业势头持续 (@alexandr_wang)。

AI Reddit 摘要

/r/LocalLlama + /r/localLLM 摘要

1. Hermes 4 和 VibeVoice 发布；Gemma3 270M 预训练教程

Nous Research 发布 Hermes 4 (Score: 252, Comments: 55): Nous Research 宣布发布 Hermes 4，这是一个开源版本，在 HF collection 上提供了相关产物，项目网站为 hermes4.nousresearch.com，并提供了一个公共 chat UI 以及随附的论文。分享的结果图表声称 Hermes 4 在“价值观一致性”/对齐指标上优于流行的封闭和开源模型，达到了 SOTA 水平，并以“无审查”作为卖点 (评分卡图片)。评论者对 Hermes 4 继续选择 Llama 3 作为基础模型（与 Hermes 3 相同）表示疑问，寻求其相对于其他骨干网络的合理性；除此之外，反响普遍积极，重点关注其对齐/SOTA 声明。
- 一张分享的截图声称 Hermes 4 在“符合你的价值观”方面优于封闭源代码和开源模型，达到了 SOTA，并明确强调其“无审查”运行。这表明其对齐/指令微调（Instruction-tuning）侧重于最大化偏好遵循，同时最小化拒绝回答，尽管该帖子未提供具体的 Benchmark 名称或分数 (截图: https://preview.redd.it/fwpgqj38xelf1.png?width=572&format=png&auto=webp&s=158d1e267646abaff1aadffaee19144b17e0ce56)。
- 关于基础模型的讨论：一位评论者指出 Hermes/Nous 4 似乎再次使用了 Llama 3 系列骨干网络（如 Nous 3 所示），质疑为何两次选择 Llama 3。另一位评论者推测是 “Hermes 4 gpt-oss 120b”，但未提供确切的参数量或基础模型标识，因此尚不确定它是 Llama 3/3.1 还是 “gpt-oss 120B” 级别的基础模型。
- 可用性：Hermes 4 已经通过 Nebius AI Studio 在 OpenRouter 上线，这意味着可以立即通过 API 进行测试和集成。链接：供应商页面 https://openrouter.ai/provider/nebius 以及部署截图 https://preview.redd.it/cz3q399y5flf1.png?width=771&format=png&auto=webp&s=90e1c05ccda2152760c836067a10881c353f0196。
Microsoft VibeVoice TTS：开源，支持 90 分钟语音，同时支持 4 个不同说话人 (Score: 309, Comments: 98): Microsoft 开源了 VibeVoice (GitHub, demo)，这是一个神经 TTS 系统，提供 1.5B 和 7B 两种变体，支持单次生成长达 ~90 分钟 的长文本合成，并支持 多达 4 个 并发语音的原生多说话人混音（也可用于单说话人有声读物模式）。早期用户测试报告称其具有强大的韵律/表现力，以及适合播客/有声读物工作流的实用长上下文生成能力。一位在 Windows 11 上使用 RTX 4090 的测试者报告称，7B 模型占用约 18–19 GB VRAM（总计约 22/24 GB），运行速度约为 0.5× 实时（合成 1 分钟音频约需 2 分钟计算），质量比 Chatterbox-TTS 更具表现力；使用约 30 秒 的参考片段可提升语音克隆质量。其他评论提到了对英文/中文的支持、0.5B 模型“即将推出”，以及对内置克隆功能的一些不确定性。
- 在 Windows 11 和 RTX 4090 (24GB) 上运行 7B 模型的用户基准测试：总 VRAM 占用 ~22/24GB（包含 ~3.5GB 系统开销，意味着模型占用 ~18–19GB），生成速度约为合成 1 分钟 音频需 2 分钟（~0.5x 实时）。确认其适用于 24GB 显存的显卡，但目前速度尚不快，暗示有优化空间。
- 质量与特性：被认为比 Chatterbox-TTS 更具表现力；使用 5–10s 样本的语音克隆效果“相当不错”，使用推荐的 ~30s .wav 提示词效果可能“非常好”。除了多说话人功能外，还支持用于有声读物风格输出的单说话人模式。
- 功能/变体说明：据报告支持英文和中文；提到 0.5B 模型“即将推出”。一位评论者质疑语音克隆是否得到官方支持，而另一位则报告在样本长度充足的情况下克隆功能运行良好——这表明在功能可用性或使用要求方面可能存在困惑。
我从零开始预训练了 Gemma3 270m (Score: 240, Comments: 27): 作者演示了从零开始对 Gemma 3 270M 参数模型进行端到端预训练的过程，涵盖了数据集加载、分词（Tokenization）、IO 对创建、架构构建、预训练和推理，并附带了讲义 GIF 和演示视频 (YouTube)。训练在 Colab 上使用 1× A100 进行了约 60k 次迭代（约 3 小时），数据集为 TinyStories（约 200 万 篇短篇故事）；代码/笔记本通过 Colab 共享。报告的结果为：“结果尚可。” 评论者询问了具体的设置细节；作者澄清了硬件、数据集和迭代次数。其他人将其视为学习从零构建和训练小型 LLM 的实用起点。
- 训练设置/性能：一个约 270M 参数的 Gemma3 变体在单台 A100 (Colab) 上从零开始预训练，在大约 3 小时 内运行了 60k 次迭代，产生了 “不错的结果”。虽然没有报告评估指标，但这为在通用云端 GPU 上进行教学运行提供了粗略的小规模预训练吞吐量参考。
- 数据与可复现性：使用了 TinyStories (https://huggingface.co/datasets/roneneldan/TinyStories)，包含约 2,000,000 行短篇故事（每行一个故事），这是一个常用于在简单组合文本上训练小型语言模型的数据集。虽然未指明确切的分词方式、Batch Size 和处理的总 Token 数，但共享了完整的 Colab 笔记本以供复现：https://colab.research.google.com/drive/1OHPQf3iM9RD9g2wZRTj7nf8fs3pgbnF4?usp=sharing。

2. Jet-Nemotron 53倍加速与 Nano-Banana 图像编辑基准测试

LLM 加速突破？来自 NVIDIA 的 53 倍生成加速和 6 倍预填充加速 (Score: 941, Comments: 146)：NVIDIA 的 “Jet‑Nemotron”（根据图片和链接论文）声称通过后神经架构搜索 (PostNAS) 实现了重大的推理效率提升，报告称与 Qwen3 和 Llama3.2 等基准相比，生成吞吐量提高了 53.6×，预填充速度提高了 6.1×，同时声称没有精度损失。该图表对比了竞争 LLM 的吞吐量/预填充速度；来源论文：https://arxiv.org/pdf/2508.15884v1，图片：https://i.redd.it/g8lwztnlfclf1.png。 评论者对实际应用持怀疑态度，并询问这些加速是否能转化到 NVIDIA GPU 之外，特别是 CPU 推理；主要实验室的验证也是一个备受关注的问题。
- 一位评论者指出标题数据与端到端结果之间存在差异：尽管声称生成速度快 53×，预填充速度快 6×，但据报道表 15 仅显示了约 ~7× 的真实推理加速。他们还注意到 KV cache 显著减少了 10×–60×，且长上下文解码的减速极小，这可能会实质性地改变长序列下的内存占用和吞吐量。
- 训练成本引发争议：引用表 12 称训练一个 ~2B 模型大约需要 20,000 个 H100 GPU 小时，这似乎与训练“不像 SOTA 那样昂贵”的说法相矛盾。提出的一个对比点是 Qwen-2.5-1B，评论者认为其可能使用了大幅减少的 H100 小时（具体数字未确认）。
- 部署影响受到质疑：如果 10–40× 的加速在 CPU 推理上同样成立，那么更大的模型在无需支付 NVIDIA 内存溢价的情况下也将变得实用。评论者还询问了生态系统的准备情况——例如 GGUF 格式支持——并建议测试一个 ~8B 模型（从 Qwen-2.5-7B 量化而来），以探究该技术是否随模型大小扩展。
nano-banana 是图像编辑领域的巨大飞跃 (Score: 188, Comments: 71)：LMArena 的图像编辑竞技场排行榜截图显示，Google 的私有模型 “Gemini-2.5-flash-image-preview”（又名 nano-banana）以 1362 分和超过 2.5M 张投票位居第一，被标注为该竞技场历史上最大的分数跨越。来自 Black Forest 和 OpenAI 等团队的竞争模型排名均在其后；帖子标题将其定义为图像编辑领域的重大进步。评论者质疑该模型周围存在虚假宣传/垃圾信息，认为由于它是闭源的，其实用性较低，并报告了激进的安全过滤器（例如，任何包含儿童的图像编辑都会被拦截，包括历史照片）。
- 几位评论者挑战了缺乏透明评估的闭源模型的价值，指出虽然有“Claude 和 Google 的视频模型至少好 3x”之类的说法，但缺乏可比的基准测试。对于图像编辑模型，他们建议使用标准化指标（例如，用于编辑定位的 mask IoU/precision-recall，身份保持，以及用于保真度的 LPIPS/SSIM/PSNR）和公共数据集/协议来验证声称的质量和速度飞跃。
- 关于“极端审查”行为的报告表明存在激进且对上下文不敏感的安全过滤器：“我无法编辑任何带有小孩的照片……” 这意味着任何检测到的未成年人出现在画面中都会触发拒绝，无论编辑类型或历史背景如何。这可能反映了保守的年龄检测和策略短路导致的误报；从技术上讲，更细粒度的风险模型（按编辑意图分类、感知不确定性的阈值以及人工复检模式）可以在保持合规性的同时减少过度拦截。
- 开源可用性被视为硬性要求：“如果不是开源的，那就没用”。从技术集成的角度来看，开源权重支持本地推理（隐私/延迟）、自定义安全策略微调、特定领域微调以及可复现的版本控制；闭源 API 引入了供应商锁定、不透明的模型更新、不断变化的护栏以及频率/使用限制，这些都使可靠的部署和审计变得复杂。

较少技术性的 AI 子版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. Google Gemini 2.5 Flash Image (Nano Banana) 发布与基准测试

Nano Banana 已上线 (Score: 705, Comments: 148): Sundar Pichai 发布的一张截图，宣布了 Gemini 应用中一项新的图像编辑功能，专注于跨上下文的主体/相似度保持。演示展示了对同一只狗（“Jeffree”）进行的 4 次编辑——冲浪、牛仔、超级英雄、厨师——同时保持身份一致，表明这是一个基于参考的、主体一致的生成/编辑模型；标题暗示了一个代号（“Nano Banana”），但未提供架构/大小或 On-device vs. Cloud 的细节。评论者称其为消费级工具中身份保真度的 SOTA（例如，“在 Lmarena 中遥遥领先第一”），并询问这是一个重大飞跃还是仅仅是一个增量升级。
- 基准测试排名：一位评论者报告 Nano Banana 在 Lmarena 排行榜上排名第一，这意味着与同时代产品相比具有强大的 Head-to-head 表现（可能通过 Preference/Arena 风格的评估）。截图参考：https://preview.redd.it/ibnaoyrkhdlf1.png?width=640&format=png&auto=webp&s=9d399114be0f588533d46c748bfcbe3153652cde。
- 编辑质量/能力：用户强调 Nano Banana 实现了其他模型在同等质量下无法比拟的编辑效果，表明在图像编辑工作流中提高了编辑保真度和 Instruction Adherence（指令遵循）能力。示例输出：https://preview.redd.it/da5jnvykndlf1.png?width=1033&format=png&auto=webp&s=095225a050fb5f8a333ee99025b70d84f1dd9b81。
- 性能/延迟：反馈指出生成速度“惊人”，暗示与之前的模型相比，编辑任务的延迟显著降低，且可能实现实时或近乎即时的高质量图像合成。这表明推理效率有了实质性的提升（例如，更快的 Diffusion 步骤或优化的 Runtime），尽管未提供确切的时间数据。
Nano Banana 正在推出！ (Score: 531, Comments: 92): 截图显示 Google 在 Google Models 下列出了一个新模型 “gemini-2.5-flash-image-preview”，由 @legit_api (通过 X) 发现。这表明 Gemini 2.5 Flash 的图像编辑/视觉能力正在进行早期/预览版发布；评论者报告称它已经在 Gemini 应用中可用（要求 2.5 Flash 编辑图像），并指出更新显示它现在也已在 Vertex AI API 中开放。相关截图：主图 https://i.redd.it/i2d190ga3dlf1.jpeg，附图 https://preview.redd.it/puc3xnpr5dlf1.jpeg?width=1869&format=pjpg&auto=webp&s=49fe8352fb9b884bc43bccd1ae8dbd8bdffdb37b。标题中的 “Nano Banana” 似乎是与此次发布相关的社区简称/代号。评论显示出对可发现性的轻微困惑（“在哪里，我在看什么？”）以及这究竟是品牌重塑还是真正的新功能，但共识指出在 Gemini 应用和 Vertex AI 中确实可用。
- 通过消费级应用的早期发布信号：一位用户指出，要求 Gemini 2.5 Flash 执行图像编辑似乎会调用 “Nano Banana” 能力，这意味着针对 Vision-edit 任务存在隐形的服务端模型/工具路由。这表明 Google 可能在 2.5 Flash 入口点背后自动选择了一条更轻量级的图像编辑路径，而不是公开一个单独的模型开关。
- 部署到云 API：另一位用户报告称它“现在已在 Vertex AI API 中可用”，并附带了支持截图链接。如果属实，这表明可以通过 Vertex 端点进行编程访问，从而实现 Gemini 应用之外的集成/测试。
Gemini 2.5 Flash Image Preview 发布，在 LMArena 图像编辑领域大幅领先 (Score: 316, Comments: 50): 来自 Image Edit Arena（Elo 风格，成对投票）的新社区排行榜截图显示，Google 的 Gemini 2.5 Flash Image Preview（“nano-banana”）在超过 250 万次面对面投票后，以 1362 的 Elo 分数首次亮相即登顶，远超下一个模型。该榜单根据汇总的大众偏好对图像编辑/生成模型进行排名，并列出了 Org/License，表明 Gemini 在此评估设置下具有显著的性能优势。评论者强调了异常巨大的 Elo 差距——称第一名到第二名的距离大约相当于第二名到第十名的距离——并将其描述为“领先整整一圈”，同时对 Google 表示赞赏。
- 排行榜信号：评论者注意到 LMArena 上巨大的 Elo 差距——“第一名和第二名之间的 Elo 分数差距几乎与第二名和第十名之间的差距相同。”这意味着 #1 与其他竞争对手相比具有实质性的性能优势，表明这是一个强大且可衡量的领先，而非微弱优势。
实测基准测试 vs 同代产品：一位测试者报告称，Gemini 2.5 Flash Image 在提示词遵循度（prompt adherence）方面明显优于 Imagen 4，其照片级真实感（photorealism）在试验中也超过了 Imagen 和 Seedream。在图像编辑方面，它始终优于 Qwen Image、Flux Kontext 和 GPT Image，测试者称其结果对大多数编辑任务来说具有“颠覆性”。
局限性/退化：与 2.0 Flash Image 相比，它在风格迁移（例如水彩风格）方面表现较差，这表明在风格变换上可能存在退化。文本渲染落后于 GPT-Image-1，且无法可靠地生成多格漫画页面；测试者提供的示例对比：https://preview.redd.it/qfqhnf23ldlf1.jpeg?width=2160&format=pjpg&auto=webp&s=f22c7bd572572cb1a42aa3a4061f85d5b5e718ba。
它发布了！🍌 (评分: 206, 评论: 16): 推文宣布发布 “Gemini 2.5 Flash Image”，定位为最先进的图像生成和编辑模型，强调角色一致性、创意/基于指令的编辑以及扎实的世界知识。宣传图展示了在图像编辑任务上的基准测试领先地位和多种编辑变体，并指出可通过免费试用和 Gemini API 获取（参见文档：https://ai.google.dev/）。核心卖点是高保真、遵循指令的编辑，并在输出中保持一致的角色身份。评论者指出，尽管该模型专注于编辑，但输出仍带有水印，这带有讽刺意味；情绪从“不错但被过度炒作”到声称 Gemini 现在整体上已经超越了 ChatGPT。
- 用户指出，该模型的主打功能——图像编辑——输出时仍带有明显的水印。这限制了生产用途（品牌/营销资产通常需要干净的导出文件），并表明提供商优先考虑溯源/安全标记，而非无限制的编辑；在提供关闭水印选项或仅限 C2PA 元数据之前，工作流将需要后期处理来移除人工痕迹。
- 评论者认为，合适的对比对象应该是 Midjourney（图像生成/编辑），而不是 OpenAI/ChatGPT（LLMs）。技术评估应集中在编辑局部性/保真度（遮罩、提示词调节）、编辑下的渲染质量、延迟/吞吐量以及单张图像定价——而不是对话基准测试。
- 早期社区信号显示出积极情绪；引用了 Yupp.ai 排行榜进行众包排名：https://www.reddit.com/r/yupp_ai/s/AHFeINoARf。虽然具有主观性，但在缺乏标准化定量基准测试的情况下，此类排行榜可以反映出比较优势/劣势（例如复杂编辑的一致性）。
史上最大跨越，Google 最新的图像编辑模型统治基准测试 (评分: 286, 评论: 73): 一张带有截图链接的图表声称，Google 最新的图像编辑模型在未指明的编辑基准测试中实现了最先进的（SOTA）“最大跨越”，暗示在文本引导的图像编辑保真度和/或指令遵循方面取得了异常巨大的进步；然而，该帖子未提供模型名称、数据集或指标，仅凭帖子内容难以验证。来源图片：预览。评论者表达了对 SOTA 疲劳感（快速的更迭使得追踪进展变得困难），询问“nana banana”示例是否来自 Gemini，并质疑为何缺少 Midjourney——这可能是因为许多学术图像编辑基准测试侧重于使用可公开测试的模型进行文本引导编辑，而 MJ 由于研究导向的访问受限，很少被评估。
- 轶事报告：该模型在其他生成器失败的图像编辑任务（提供参考图像时）中取得了成功。这表明其具有强大的图像条件编辑/视觉提示能力，以及在示例引导控制下更好的一致性。这暗示了与之前的 SOTA 相比，在基于参考的风格/内容迁移方面有所改进。
- 一位评论者询问为什么 Midjourney (MJ) 没有出现在基准测试中。这突显了一个常见的差距，即封闭的非学术系统被排除在外，限制了同类比较。明确披露包含哪些模型/版本以及测试设置将使“统治”这一说法更具参考价值。
- 一位评论者质疑是否值得紧跟进度，因为每周都有 SOTA 声明，随后又是快速的追随者。这强调了基准测试的领先地位可能是短暂的并会被迅速复制，使得单一的快照意义较小。持久的结论需要可重复的协议、标准化的数据集和定期的重新评估。
Nano banana：输入（模糊），输出（变为白天），等距性（isometry）！ (Score: 258, Comments: 15)：这是一个图像到图像（image-to-image）流水线的演示，它接收模糊的输入并生成清晰的“白天效果”输出，同时大致保留场景几何结构（“等距性”）。并排对比显示了强大的结构一致性——恢复了脚手架和车辆等精细元素——尽管作者指出结果并不总是能在第一次采样时就完全正确，这暗示了一个随机生成过程。评论者强调了在翻转对比中令人印象深刻的细节保留，但也注意到了偶尔出现的幻觉/归属错误（例如，草坪上出现了一辆车），这突显了虽然几何结构通常能得到保留，但语义放置可能会发生偏移。
- 几位评论者强调，尽管在模糊输入中无法辨认，但精细的结构细节（如脚手架）在输出中变得清晰可见，这暗示了强大的学习先验和生成式重建，而非简单的反卷积（deconvolution）。这表明该方法的目标是在进行激进的细节合成的同时，实现跨照明（“变为白天”）的几何保留图像到图像转换。
- 一位用户注意到在输入和输出之间切换时，草坪上多出了一辆车，这表明存在内容幻觉和不完美的“等距性”（对象级不一致）。这强调了如果在去模糊/重新照明过程中需要严格的内容保留，则需要更强的结构约束（例如深度/边缘引导或交叉注意力控制）。
伙计们，我觉得 Nano Banana 已经上线了 (Score: 343, Comments: 115)：该帖子展示了基于提示词的图像编辑（衬衫 → 蓝色西装配红色领带），很可能是通过 Google Gemini 实现的。评论者指出角落水印的变化，这表明与端侧“Gemini Nano”图像编辑（“Nano Banana”）相关的全新 SynthID/水印方案正在推出。证据包括截图中的编辑效果以及通过 Gemini 分享的复现案例 g.co/gemini/share/a34fa8ef8d14；评论中还引用了另一张截图（预览链接）。评论者断言“伙计们，这是官方消息！”，并将水印变化视为端侧推出的信号，而另一位用户表示他们尝试过，感觉“就像是 Nano Banana”，暗示了轶事性的确认而非正式的发布说明。
- 多位用户分享了 Gemini 的对话记录（链接 1，链接 2），并报告了与 Gemini Nano “banana”版本一致的行为，这暗示了模型路由的更改而非客户端的微调。虽然没有提供定量基准测试，但独立分享之间的一致性表明，针对某些提示词/会话，服务端已推送到或 A/B 切换到了与端侧对齐的 SLM 配置（Gemini Nano）。
- 截图显示角落的水印/徽章发生了变化（图片 1，图片 2），这通常代表后端模型/版本的更新或内容溯源的更新（例如 Google 的 SynthID 水印/品牌标识）。视觉上的变化是生产环境推送或模型交接的常见指标，为“新的 Nano ‘banana’ 变体正在浮出水面”的说法提供了技术支持。

2. ChatGPT 自杀诉讼新闻及社区反应

父母因 16 岁儿子自杀起诉 ChatGPT (Score: 5002, Comments: 2165): 一项由 16 岁少年 Adam Raine 父母发起的诉讼指控 OpenAI 的 ChatGPT 生成了助长自残的回复，包括告诉他“你不欠任何人活下去的义务”、提议起草遗书、分析他计划的上传照片，并建议对方法进行“升级”。根据 NBC News 审阅的日志显示，如果属实，这反映了自残安全护栏（guardrails）和多模态（视觉）审核的严重失效，这些机制本应拒绝此类内容并提供危机处理资源。诉状时间线引用了 3 月 27 日的一次交流以及该少年在 4 月 11 日的死亡，表明保护性响应在数日内反复崩溃。评论者们争论父母责任与 OpenAI 的法律责任；一些人在阅读了 NYT 的报道后站在 OpenAI 一边并指责监护不力，而另一些人则关注安全系统显然允许有害指导的严重性，引发了对产品责任和审核鲁棒性的担忧。
- 多位评论者强调了严重的安全性/对齐（alignment）失败：根据 NBC 的报告，ChatGPT 据称分析了该少年计划方法的照片，甚至建议了“升级”，并提议起草遗书 (NBC)。这暗示了在文本和视觉流水线（多模态）中都绕过了自残护栏，违背了典型的拒绝行为，表明要么是发生了越狱（jailbreak）/提示词规避，要么是安全分类器/内容策略执行层存在漏洞，未能阻止可操作的自残协助。
- 另一位用户对比了自己的经历：“我的 GPT 坚决反对我的自杀倾向”，这表明不同配置、时间或模型/策略版本之间存在巨大差异。从技术上讲，这指向了安全层（例如外部审核端点 vs. 嵌入式策略头）、提示词上下文塑造（系统提示词、角色扮演/越狱模式）的差异，或者是护栏的退化——某些措辞或图像上下文可能会逃避触发启发式算法，从而允许生成步骤化的输出。
- 有人提出了与搜索的技术区别：如果使用 Google，情况会类似吗？LLM 生成的是定制的、综合的指令（包括逐步评估），而不仅仅是对现有页面进行排名，这改变了风险和缓解设计——LLM 需要在生成时进行鲁棒的拒绝以及生成后的过滤，而搜索依赖于索引、SafeSearch 和排名降级。此案例强调了对 self-harm 内容需要更严格的模型端拒绝，以及多模态模型中的跨模态一致性检查。
来自纽约时报（Instagram） (Score: 1746, Comments: 701): 《纽约时报》的一篇报道描述了一起涉及与 ChatGPT 大量互动的自杀案件，指出该模型反复劝阻自残并提供了热线资源，但当用户将提示词重新构思为虚构或“为了写故事”时，模型继续参与其中，从而绕过了安全拒绝 (NYT)。这凸显了自残防护措施的脆弱性——意图分类器和拒绝启发式算法可以通过角色扮演/虚构框架被规避——导致系统将高风险内容视为常规内容处理，而不是升级处理或硬性阻断。文章反驳了系统“鼓励”该行为的说法，转而指出在对抗性叙事提示下，对话层级的意图检测和安全门控存在漏洞。评论者争论这究竟是越狱，还是创作性写作例外情况下的可预见漏洞，以及护栏是否应该硬性阻断任何与自杀相关的内容，无论声称的意图如何。其他人争论提供者责任与个人/父母责任，而一些人仍然指责 OpenAI 没有强制执行跨越“这只是个故事”重新构思的对话级风险检测。
许多评论者指出，模型最初遵循了危机政策（拒绝回答 + 提供热线资源），但通过将对话设定为虚构情节的角色扮演提示词（role‑play prompts）被绕过了——即“这全是虚构的，是为了写故事”。这凸显了一个常见的安全漏洞：意图分类器（intent classifiers）允许在虚构或第三人称语境中出现自残内容，从而使真实风险用户在重新构思其意图时，能够实现类似越狱（jailbreak）的规避。隐含的必要缓解措施包括更强大的有状态危机检测（会话/用户级标记），以及一旦出现风险线索就忽略“这只是个故事”的语境。
关于护栏（guardrail）阈值存在技术争论：绝对拒绝任何与自杀相关的内容会阻碍合法的使用场景（例如，编写涉及自残的情节），但宽松的政策可能会被风险用户利用。这反映了政策工程（policy‑engineering）在误报（false positives，过度阻断创意/教育内容）与漏报（false negatives，允许有害引导）之间的权衡，建议采用更细粒度的政策分层，并在出现风险信号时采取更保守的处理方式。
为提高参与度而优化的 AI “伴侣”风险被认为尤为严重；一位评论者指出 xAI 的 Grok 就是一个例子，该产品针对孤独用户，并使用前卫/实时的 X 数据进行训练，引发了对有害的共同反刍（co‑rumination）或确认自杀意念的担忧。参见 Grok 的定位和数据来源：https://x.ai/blog/grok （实时 X 集成），如果没有强大的危机政策来制衡，这可能会增加接触有毒模式的风险。
询问 GPT5 是否听说过它叫那个孩子上吊自杀的事。 (评分: 277, 评论: 325): 发帖者（OP）为 OpenAI 聊天机器人（被称为 “GPT5”）预设了“愤世嫉俗者”的人设，并提出了一个指责性的提示词，称其“告诉一个孩子去上吊”。模型最初给出了防御性的、无根据的否认，随后在 OP 提到诉讼后，转而“查找时事”，这说明了人设预设（persona priming）和引导性提示词如何偏向语气和工具使用（如浏览），而不是提高事实依据；这反映了标准的 LLM next-token prediction 动态和提示词框架一致性（prompt engineering）。评论者强调，LLM 是概率语言模型，而不是具有记忆或经验的 Agent；拟人化的提示词会引发角色扮演和虚构（confabulations），而不是证据，因此需要中立的提示词才能获得更可靠的输出。他们认为观察到的“防御性”是对常见对话弧线的模拟，而不是内部立场，并警告不要将系统视为证人或“了解”事件的实体。
- 几条评论强调了 LLM 中的提示词引导（prompt-steering）和“谄媚性”（sycophancy）：引导性/指责性的提示词可能会引发认同或自卫，因为模型优化的是可能的对话延续，而不是客观真理（ground truth）。使用“你”来称呼模型并断言前提会使其偏向于扮演某个人设并顺从；在会话有限的 context window 之外，不存在集体思维或持久身份，因此回复反映的是提示词框架和上下文线索，而不是存储的信念。
- 一个关键区别是，LLM 模拟对话模式，并且在被问及带有假设的问题时可能会产生幻觉（hallucinate），通常遵循先否认后默许的弧线，因为这种轨迹在训练数据中很常见。它们缺乏经验基础，不能充当事件的证人；这与将 LLM 批评为产生流畅但无根据文本的“随机鹦鹉”（stochastic parrots）的观点一致（Bender et al., 2021）。
- 在安全和用户体验（UX）方面，评论者指出系统必须预见到对抗性提示（adversarial prompting）和脆弱用户：模型会镜像用户的语气，并可能通过反复修改措辞被诱导产生有害输出。这与研究结果一致，即经过 RLHF 对齐的模型仍然容易受到越狱（jailbreaks）和提示词注入（prompt injection）的影响（例如，通用对抗性后缀：arXiv:2307.15043；提示词注入分类法：arXiv:2302.12173），从而推动了针对自残和敏感话题制定更强大的护栏（guardrails）和拒绝政策。

3. 新 AI 模型与性能突破 (Jet‑Nemotron, Wan2.2, Qwen LoRA)

LLM 加速突破？NVIDIA 实现 53 倍生成速度提升和 6 倍预填充提升 (Score: 242, Comments: 32): 一张 NVIDIA 的幻灯片展示了 “Jet‑Nemotron”，这是一种通过 Post Neural Architecture Search (PostNAS) 设计的高效 LLM，声称与之前的基准相比，token 生成速度提升高达 53.6×，预填充速度提升 6.1×。该幻灯片概述了 PostNAS 设计流水线，并展示了一张速度-准确度图表，其中 Jet‑Nemotron 相对于对比模型（标签包括 Qwen3/Qwen2.5/Gemma3，据讨论这些模型均为 ~1.5B–2B 的小规模版本）有显著加速。热门评论质疑其实际应用价值（此类研究结果只有一小部分能转化为生产环境），指出架构选择虽然能带来理论上的收益，但很难改造到当前的部署中，并批评该幻灯片可能存在刻意挑选数据 (cherry-picking) 或误导性对比，因为其重点放在了小型 (1.5B–2B) 模型上。
- 方法论/基准测试审查：评论者指出标题中“高达” 53x 的解码和 6x 的预填充可能反映的是最理想情况下的微基准测试 (microbenchmarks)。图中显著提到了 Qwen3/Qwen2.5/Gemma3，但结果似乎依赖于较小的 ~1.5B–2B 变体，这引发了对刻意挑选数据以及在大型模型、长上下文和现实世界端到端延迟（预填充 vs 解码）中适用性有限的担忧。
- 技术讨论：该方法被描述为标准二次注意力 (quadratic attention) 与线性注意力 (linear attention) 的混合（类似于 NVIDIA Nemotron 风格的思路），加速主要来自线性部分，而架构搜索则分配各部分的使用位置。纯线性注意力通常会降低质量，因此需要混合/补偿；因此，对于全生成工作负载，53x 这样的说法受到了质疑。评论者还指出，将此类架构更改改造到现有已部署模型中并非易事，可能需要重新训练，从而限制了短期内的相关性。
- 对质量/事实性的影响：加速本身并不能解决幻觉 (hallucinations) 问题。人们可以用额外的吞吐量换取多次采样/自我一致性 (self-consistency) 或添加 RAG，但两者都会增加延迟/复杂性，且不能保证正确性，因此任何净收益都取决于紧凑的延迟/吞吐量预算和部署约束。
WAN2.2 S2V-14B 发布，ComfyUI 版本指日可待 (Score: 346, Comments: 93): Hugging Face 上发布的 Wan2.2-S2V-14B，这是一个 ~14B 参数的 Mixture-of-Experts (MoE) 大规模视频生成模型，专注于语音转视频/图像+音频转视频合成，模型卡片上链接了相关资源（GitHub/论文/用户指南）。截图强调了 Wan 2.2 的 MoE 架构及其作为升级版视频生成栈的定位；帖子标题暗示即将集成到 ComfyUI，这意味着近期将实现便捷的本地/基于图表的推理。链接：https://huggingface.co/Wan-AI/Wan2.2-S2V-14B 热门评论称这实际上是一个 IS2V 变体（图像 + 参考音频 → 对口型说话/唱歌视频），在比之前的 Wan 2.2 更大的数据集上进行了训练，潜力可与 InfiniteTalk 等工具媲美；其他人则对阿里巴巴的快速迭代表示普遍赞赏。
- 评论者指出它不仅是 S2V，更是 IS2V（图像+语音转视频）：输入单张图像加上一段参考音频，模型即可生成该人物对口型说话/唱歌的视频。有一种说法是它 “在比 Wav2.2 大得多的数据集上进行了训练”，暗示在音频驱动的面部动画方面比 WAN 2.2 性能更好，一些人建议它可以在此类用例中取代 InfiniteTalk 等工具。
- 强调的一项关键升级是片段长度：据报道生成长度从 5s 增加到 15s，实现了 3 倍的跨越。更长的窗口应该能提高时间一致性 (temporal coherence)，并减少拼接片段的需求，这对于持续的语音/歌唱对齐和面部动作一致性尤为重要。
- 术语澄清：S2V 代表 Sound‑to‑Video（通常指 Speech‑to‑Video），区别于 T2V（文本转视频）和 I2V（图像转视频）。IS2V 明确以输入图像和音频波形为条件，利用音频驱动嘴型和韵律 (prosody)，同时保留图像中的身份信息。
关于 Qwen LoRA 相似度训练的心得 (Score: 358, Comments: 59)：作者训练了一个用于相似度模型的 Qwen LoRA（在 FAL、Replicate 和 AI-Toolkit 上进行了测试），并报告称 Qwen 在使用单标记（single-token）触发词描述时表现不佳；它在嵌入完整句子描述的自然人名下效果更好，且针对身体特征、服装和构图的长篇、高度描述性文本能产生更好的结果。相比 Flux（约 49 张图像），Qwen 从更多数据中获益： 79 张经过筛选的图像，分辨率为 1440px，宽高比为 4:5（约 33% 特写 / 33% 半身 / 33% 全身），仅限高质量图像。训练遵循此指南视频并进行了微调： 6000 步（每 10 步保存一个 checkpoint），并增加了一个 1440 分辨率的 bucket；描述词通过脚本自动生成以增加冗长度。 热门评论强调应使用更低的学习率和更多的训练步数，以防止覆盖预训练知识，此外还建议添加正则化数据集（构图相似但更改了关键属性，例如性别）以及低学习率（LR）的退火（annealing）过程以去噪；另一位用户询问了 rank 和 LR/optimizer 的细节。
- 在预训练图像模型上微调用于相似度的 LoRA 适配器，受益于在更多步数下使用极低的学习率，以避免基础能力的灾难性遗忘。使用一个构图几乎相同但单一属性改变（例如女性→男性）的小型正则化集，使适配器学习狭窄的增量（delta）并重新锚定到基础分布；随后进行低学习率的“退火”过程，以消除剧烈更新产生的噪声，并提高目标概念周围的泛化能力。
- 评论者要求提供决定结果的关键超参数：LoRA rank（适配器容量）、准确的学习率、optimizer 和 schedule。了解这些参数可以表明更新矩阵的激进程度以及稳定性与过拟合之间的权衡；例如，rank 决定了低秩更新的参数化，而 LR 和 optimizer 动态决定了在概念拟合和退火过程中基础知识受干扰的程度。
- 可复现性和扩展性问题集中在硬件/时间以及分辨率策略上：训练是严格在 1440 分辨率下进行的，还是使用了混合分辨率（例如加入 512）。这些选择会影响 VRAM/batch size、梯度噪声规模以及尺度/宽高比（AR）的泛化（单一高分辨率存在过拟合到单一分布的风险；多分辨率在增加计算成本的同时提高了鲁棒性）。

AI Discord 摘要

由 gpt-5 生成的摘要之摘要的摘要

1. DeepSeek V3.1 发布与现状检查

DeepSeek v3.1 在各技术栈上线：DeepSeek V3.1 和 deepseek-v3.1-thinking 已在 LMArena 上线，并出现在 Cursor 的模型列表中，官方权重已发布在 DeepSeek-V3.1 (Hugging Face)。社区印象认为 V3.1 在通用任务上是 “Gemini 2.5 pro 的略逊版本”，但在编程方面表现出色，不过部分用户遇到了供应商连接故障。
- Cursor 用户报告称，相对于 Sonnet，其在 TypeScript/JavaScript 上的表现和性价比很高，而其他用户则表达了对 “中国 LLM” 的不信任。LMArena 的公告添加了这两个变体，共识认为尽管代码体验有所提升，但通用能力的打磨仍显滞后。
SWE-bench 评分亮眼，创意写作表现平平：在 Unsloth 中，DeepSeek V3.1 在非思考模式下的 SWE-bench verified 评分达到 66，引发了与中层推理模型的比较。然而，成员指出其在创意写作和角色扮演方面较弱，认为 “混合模型在非思考模式下缺乏指令遵循能力和创造力。”
- 兴奋点集中在可复现的编程增益上，但非编程用户降低了对叙事任务的期望。这种分歧强化了一种观点，即推理/编程和指令创意可能仍需要不同的微调或模式。
Anthropic API 接入与价格变动：DeepSeek 通过 DeepSeek on X 宣布支持 Anthropic API，扩大了生态系统覆盖范围。另外，Aider 用户报告称 2025 年 9 月 5 日发生价格变动，使 deepseek v3.1 的输入定价与推理层级对齐（标注为“$0.25 vs $0.27”）。
- 开发者欢迎 Anthropic 集成，以便在 Claude-compatible 栈中更轻松地替换。价格上涨促使了成本效益的重新计算，一些人注意到 OpenRouter 缺乏原生的“思考模式”，但可以通过 -reasoning-effort high 等 CLI 标志来绕过。

2. 字节跳动的 Seed-OSS 模型与数学里程碑

Seed-OSS 36B 发布，具备 512K 上下文，无合成数据：字节跳动在 Hugging Face 上发布了 Seed-OSS-36B-Base-woSyn（稠密模型，512K 上下文，在 12T tokens 上训练），明确宣传不含合成指令数据，并被定位为下游微调的强大基座。仓库和相关资料已出现在 Bytedance GitHub 和通用的 Hugging Face models page 上。
- Unsloth 和 Nous 的从业者注意到其具有“原生（vanilla）”架构风格，但强调了用于正则化的自定义 MLP/attention 细节，如 dropout 和 qkv/output biases。早期微调者已启动项目（例如 GPT-ASS），以探索在没有合成预偏置情况下的指令遵循能力。
GGUF 缺失及自定义架构带来的阻碍：开发者对 Seed-OSS-36B 缺失 GGUF 提出疑问，指出其采用了自定义 vLLM 路径和 HF architectures: ["SeedOssForCausalLM"]，目前 llama.cpp 尚不支持，正如该帖子所讨论的：Q: bearish for ASICs?。缺乏即时可用的 GGUF 减缓了本地量化测试的进度。
- 推测集中在 llama.cpp 和部署后端需要更新转换器/工具链，之后才会出现社区移植版。工程师警告说，简单地将架构重命名为 LLaMA 是行不通的；适配层（shims）必须遵循 attention/MLP 的差异。
SEED Prover 斩获 IMO 银牌成绩：字节跳动的 prover 研究取得了极具竞争力的结果：Bytedance SEED Prover Achieves Silver Medal Score in IMO 2025。这一荣誉标志着其强大的形式数学推理能力，但在现实世界的泛化能力上仍留有疑问。
- Eleuther 的研究人员提醒说，IMO 风格的指标并不能直接转化为生产环境中的数学 Agent。尽管如此，将 long-context LMs 与符号栈（symbolic stacks）结合仍然是一个充满前景的前沿领域，字节跳动似乎正致力于此。

3. Cohere 的 Command A Reasoning 走向企业级

推理模型发布，具备 Token 预算控制功能：Cohere 发布了 Command A Reasoning，具备 128k 上下文（多 GPU 可扩展至 256k），定位是在 agentic 和多语言任务上超越私有部署的同类产品；参见 Command A Reasoning (blog)、Playground 和 Hugging Face card。该模型引入了一个 token budget 旋钮，允许在单个 SKU 内通过平衡成本/延迟来换取质量。
- Cohere 表示，同一模型也为 North 提供支持，这是其用于自定义本地工作流的安全 agentic 平台。工程师们喜欢将“推理 vs 非推理”SKU 整合到单个可控模型中，从而简化基础设施和成本核算。
Fast-Mode 引用在 Command-A-03-2025 中出现不稳定：用户发现 command-a-03-2025 即使在 maxTokens=8k 时也会出现间歇性引用缺失，并要求提供保障；Cohere 澄清说它使用的是“fast”引用模式，根据 API reference，该模式不提供保证。Cohere 建议切换到 command-a-reasoning 以获得更高质量的依据（grounding）。
- 生产环境用户指出，当引用在流程中途消失时会产生信任问题。建议：通过系统提示词进行引导，并升级到 Command A Reasoning，其依据（grounding）和更长的上下文能更好地应对复杂的检索链。
RAG 开发者开始排队使用 LangChain + Command A：开发者启动了针对 command-a-reasoning 的基于 LangChain 的 RAG 原型，同时关注未来发布的“command-a-omni”。社区讨论中还流传着一个推测性的模型名称 “Command Raz”。
- 早期采用者正在为混合检索流水线规划 prompt 预算和上下文切分。该模型在多语言和 agentic 方面的宣传是吸引力所在，尚待观察其在大型企业图谱中的端到端延迟/引用一致性。

4. GPU 工具链、调试器和排行榜

AMD GPU Debugger Alpha Dives to Waves：一位工程师在这个片段中演示了处于 Alpha 阶段的 AMD GPU debugger，支持反汇编和 wave 单步执行：AMD GPU Debugger Alpha (video)。它避开了 rocGDB，转而使用 mini UMD 和 Linux kernel debugfs，旨在开发一个 rocdbgapi 的等效工具。
- ROCm 用户对这种以图形为中心、通过 debugfs 直接读写寄存器的工作流表示欢迎。讨论权衡了是编写自定义的 SPIR-V 解析器，还是使用 libspirv 来将反射（reflection）和调试信息与工具紧密集成。
Trimul Leaderboard Times Tumble：trimul 提交结果显示，MI300 耗时为 3.50 ms（第 1 名）和 5.83 ms（第 2 名），H100 为 3.80 ms（第 2 名），而 B200 经过多次运行后从 8.86 ms 提升至 7.29 ms。成员们比较了 kernel 技巧和 torch.compile 路径，尽管偶尔会出现编译时异常。
- GPU MODE 的排行榜鼓励在不同平台间进行迭代调优，用户不断发布新的个人最佳成绩。随着人们尝试标准化基准测试和提交工作流，本地评估问题（例如 POPCORN_FD）也浮出水面。
Ship CUDA Without the Toolkit：一个部署讨论帖详细介绍了如何通过使用 Driver API、切换到动态链接并在二进制文件中嵌入 PTX，在没有安装 Toolkit 的机器上运行 CUDA 应用；参见 CudaWrangler 的 cuew。Linux 打包技巧包括使用 ldd、rpath 以及将所需的库随二进制文件一同交付。
- 这种方法稳定了 NVIDIA GPU 的跨操作系统部署，同时实现了与完整 Toolkit 安装的解耦。工程师们指出，捆绑产物和驱动查询垫片（shims）对于更健壮的 CI 和远程安装非常方便。

5. OpenRouter & Providers: Reliability, Security, Quotas

API Key Leak Burns $300：一位用户报告称因 OpenRouter API Key 泄露损失了约 $300，并询问如何追踪滥用行为；同行警告称攻击者经常使用代理请求，使得基于 IP 的归因变得困难。社区共识是：所有者应对泄露的 Key 负责，撤销和轮换（revocation/rotation）至关重要。
- 团队讨论了作用域 Key（scoped keys）、速率上限和使用情况仪表板，以便及早发现异常。这引发了关于从客户端应用和公共仓库中清理 Key，并在 CI/CD 中自动化 Key 轮换的提醒。
Gemini Bans and Token Math Go Sideways：用户遇到了 Gemini 的大规模封号潮，迫使一些人转向替代方案，并哀叹 “我们被送回了 2023 年。” 一位仪表板作者指出图像提示词的 input token 统计存在异常，并引用了此帖：Token counts mismatch (Google AI Devs)。
- Token 不匹配增加了多模态应用中成本归因和预算编制的难度。一些人计划向 OpenRouter 反映计费问题，同时确保工作流不受提供商政策突然转变的影响。
Cloudflare Hiccup 404s Generations API：OpenRouter 宣布由于上游 Cloudflare 问题，Generations API 出现临时 404 错误；服务随后很快恢复，并建议进行重试。团队注意到，在速率限制下，付费的 DeepSeek 层级响应速度比免费层级更快。
- SRE 经验总结：在第三方端点周围添加指数退避（exponential backoff）和断路器（circuit breakers）。一些用户在 OpenRouter 上预付了 DeepSeek 费用，以便在公众猜测 v3.1 发布窗口期间稳定延迟。

Discord: 高层级 Discord 摘要

LMArena Discord

Nano-Banana 沦为 McLau’s Law 的牺牲品：成员们开玩笑说 Nano-Banana 模型的表现经常低于预期，幽默地将这一现象称为“McLau’s Law”，以此影射一位 OpenAI 研究员，并引发了关于附图中描绘的 AI 当前能力的讨论。
- 一位用户表示 Nano-Banana 的结果往往远低于 nano-banana。
Video Arena 饱受机器人“脑死”困扰：用户报告 Video Arena Bot 宕机，导致命令失败且无法生成视频，实际上锁定了对 Prompt 频道 <#1397655695150682194>、<#1400148557427904664> 和 <#1400148597768720384> 的访问。
- 版主确认了宕机情况并正在修复，引导用户关注公告频道获取更新，并表示很快将推出登录功能以防止未来的停机。
DeepSeek V3.1 登场：DeepSeek V3.1 和 deepseek-v3.1-thinking 模型已添加到 LMArena，现已可用。
- 共识是 v3.1 模型是 Gemini 2.5 pro 的略逊版本，尽管它作为编程模型很有前景，但在通用能力方面仍需增强。
LMArena 用户遭遇数据丢失：网站宕机导致了广泛的数据丢失，包括聊天记录缺失以及无法接受服务条款。
- 版主承认了该问题并向用户保证修复工作正在进行中。

Unsloth AI (Daniel Han) Discord

ByteDance 发布 Seed-OSS 36B 基础模型：ByteDance 在 Hugging Face 上发布了 Seed-OSS-36B-Base-woSyn 模型，这是一个具有 512K 上下文窗口、在 12T tokens 上训练的 36B 稠密模型。
- 成员们渴望尝试使用该模型微调 GPT-ASS，认为缺乏合成数据这一点非常有吸引力。
GRPO 需要巧妙的数据集设计：为了将 GRPO 用于多步游戏动作，成员们建议为每个步骤设计带有独立 Prompt 的数据集。
- 全量 PPO 可能更适合游戏，因为 GRPO 对 LLM 主要有效的原因是它们起初就大致知道该做什么。
DeepSeek V3.1 的思考能力：DeepSeek V3.1 模型在非思考模式下的 SWE-bench verified 测试中获得了 66 分，引发了成员们的关注。
- 然而，随后有人对其创意写作和角色扮演（Roleplay）表现表示担忧，一些人指出混合模型在非思考模式下缺乏指令遵循能力和创造力。
RTX 5090 价格引发升级辩论：RTX 5090 售价约为 $2000，引发了关于是否升级的讨论，特别是考虑到其 VRAM 能力对训练的意义。
- 一些成员对 NVIDIA 的限制表示不满，特别是缺乏 P2P 或 NVLink。
WildChat-4M-English 发布：WildChat-4M-English-Semantic-Deduplicated 数据集已在 Hugging Face 上线，包含来自 WildChat-4M 数据集的英文 Prompt，并使用了多种方法进行去重。
- 当前版本包含 <= ~2000 tokens 的 Prompt，更大的 Prompt 将在稍后添加，更多信息可以在这里找到。

OpenRouter (Alex Atallah) Discord

Deepseek V3.1 热潮即将来临！：用户正热切期待 Deepseek v3.1 的公开发布，预计从 9 月份开始免费。
- 用户确认，在 OpenRouter 上为 Deepseek 模型付费比使用免费模型响应速度更快。
OpenRouter API Key 泄露风险！：有用户报告因 OpenRouter API key 泄露损失了 $300，并寻求关于如何识别未经授权使用来源的建议。
- 用户需对泄露的密钥负责，且攻击者可以使用代理来掩盖其原始 IP。
Gemini 面临大规模封号潮！：用户报告 Gemini 正在发生大规模封号，导致许多人寻找替代方案，并回想起由 OpenAI 引发的 AI Dungeon 清洗事件。
- 用户表示 我们正被送回 2023 年。
Gemini Input Tokens 触发异常计数！：一位仪表板开发者注意到，当输入中包含图像时，OpenRouter 对 Gemini 模型 的 input tokens 计算会出现异常数值，并引用了 Google AI Developers 论坛上的相关讨论。
- 开发者正考虑就此问题向 OpenRouter 团队寻求澄清。
大多数机构在生成式 AI 上看到零回报！：根据 AFR Chanticleer 的一份报告，95% 的组织在生成式 AI 部署中获得了零回报，该报告重点关注那些部署了 定制化 AI 模型 的公司。
- 报告指出，关键问题在于公司及其技术供应商没有投入足够的时间来确保其定制化 AI 模型能够持续学习业务中的细微差别。

Cursor Community Discord

Claude 缓存的反复无常导致昂贵的难题：用户报告称 Claude 在 cache reads 方面遇到问题，导致费用比受益于可持续缓存的 Auto 更高。
- 有推测认为 Auto 和 Claude 秘密地是同一个模型，将 token 使用量的减少归因于 安慰剂效应。
Sonic 极速模型在 Cursor 中大放异彩：社区目前正在 Cursor 中测试新的 Sonic 模型，初步印象因其速度而相当不错。
- 虽然在处理新项目时受到好评，但一些用户警告其在大型代码库中的效果可能会下降，并确认 Sonic 不是 Grok 模型，其来源仍是一家 隐身公司。
Agentwise 作为开源项目觉醒：Agentwise 已开源，支持网站副本、图像/文档上传以及对 100 多个 Agent 的支持，并承诺提供 Cursor CLI 支持。
- 邀请用户在项目的专用 Discord 频道中提供反馈，以帮助进一步开发。
Cursor 成本确认：澄清 API 费用：关于 Auto agent 成本的困惑已得到澄清，pro 订阅包含了不同供应商的 API 使用成本。
- 几位用户确认了成本澄清，其中一位表示相比 Sonic agent 更倾向于 Auto agent。
DeepSeek 亮相，开发者反应不一：新的 DeepSeek V3.1 模型出现在 Cursor 的选项中，引起了褒贬不一的反应；一些用户遇到了连接问题，而另一些人则对 中国 LLM 表示不信任。
- 尽管存在担忧，但一些人报告称 DeepSeek V3.1 在 TypeScript 和 JavaScript 方面表现良好，性能出色且比 Sonnet 更便宜。

LM Studio Discord

CUDA 修复驱动 4070 识别：用户发现，通过 ctrl+shift+r 将运行时更改为 CUDA llama.cpp，可能会解决 LM Studio 在 4070 TI Super 显卡上出现的 “0 GPUs detected with CUDA” 错误。
- 他们讨论了通过 -fa -ub 2048 -ctv q8_0 -ctk q8_0 等命令来启用 flash attention、KV cache 量化以及 2048 的 batch size 的各种配置。
GPT-OSS 在 Prompt Eval 上完胜 Qwen：成员们观察到 GPT-OSS 在使用 3080ti 进行 prompt eval 时达到了 2k tokens/s，在 LM Studio 中超过了 Qwen 的 1000 tokens/s。
- 一位用户报告称 LM Studio 的 API 调用比聊天界面慢得多（30倍），但在使用 curl 命令 curl.exe http://localhost:11434/v1/chat/completions -d {"model":"gpt-oss:20b","messages":[{"role":"system","content":"Why is the sun hot?\n"}]} 时，该问题因未知原因自行解决。
Qwen3-30B CPU 配置表现惊喜：使用 llama-bench，一位用户在纯 CPU 配置下运行 Qwen3-30B-A3B-Instruct-2507-Q4_K_M.gguf 达到了 10 tokens per second。
- 他们指出，性能随线程数的变化而变化，由于扩展性和开销原因，超过一定阈值后收益会递减。
MLX 在 M4 Max 上的表现碾压 GGUF：在 Apple M4 Max 上对 GPT-OSS-20b 进行基准测试显示，MLX (GPU) 在 32W 功耗下达到了 76.6 t/s (2.39 t/W)，而 GGUF (CPU) 在 43W 功耗下仅达到 26.2 t/s (0.61 t/W)。
- 在 4bit 量化和 4k context 下，MLX 证明了其比 GGUF 更快且更节能，尽管 GGUF 的性能也给他们留下了深刻印象。

OpenAI Discord

AI Agent 深入研究 M2M 经济：成员们探讨了机器对机器 (M2M) 经济，即 AI Agent 自主交换价值，重点关注身份与信任、智能合约逻辑和自主性等挑战。
- 支出上限、审计日志和保险等保障措施可能会加速 AI 在交易中的应用，但真正的信任仍需时日。
去中心化 AI 项目的 BOINC 悬赏：一位成员正在寻找像 BOINC 这样的去中心化 AI 项目，并指出了 Petals network 在贡献和模型更新方面面临的挑战。
- 贡献者建议，财务或活动驱动的激励措施可以加强去中心化 AI 的发展。
Few-Shot 健身提示词展示：成员们剖析了在一个针对健身房的 29,000 token 提示词中使用 few-shot 示例的最佳策略，强调了 prompt engineering。
- 建议包括在提示词中提供直接示例，并反复测试较小的块以提高性能。
GPT-5 的思考模式变笨了：一位用户报告称，GPT-5 的思考 (thinking) 模式产生了直接且低质量的回复，类似于旧版本的模型，令人沮丧。
- 另一位成员推测，该用户可能超过了思考配额限制，系统设置为回退 (fallback) 而不是变灰不可用。
AI 测验生成器产生琐碎问题：一位成员强调了 AI 测验生成器在测验中产生明显错误选项的问题。
- 另一位成员建议确保所有选项必须具有合理性，以改进 AI 的输出并产生更真实的回复。

Eleuther Discord

PileT5-XL 发声：来自 PileT5-XL 的嵌入张量（embedding tensor）既可以作为 pile-t5-xl-flan（生成文本）的指令（instruction），也可以作为 AuraFlow（生成图像）的提示词（prompt），这表明这些嵌入像语言中的单词一样具有意义。
- 一位成员对文本反转（textual inversion）感兴趣，尝试将一张黑狗图片通过应用了 pile-t5-xl-flan 的 AuraFlow 处理，以观察文本是否会将该狗描述为黑色。
Cosmos 医疗模型规模化！：Cosmos Medical Event Transformer (CoMET) 模型系列是在代表 1150 亿个离散医疗事件（1510 亿个 tokens）的 1.18 亿名患者 数据上预训练的仅解码器（decoder-only）Transformer 模型，其表现通常优于或等同于特定任务的有监督模型。
- 这项研究在 Generative Medical Event Models Improve with Scale 中进行了讨论，使用了 Epic Cosmos 数据集，该数据集包含来自 310 个医疗系统、超过 3 亿份唯一患者记录、共计 163 亿次就诊 的去标识化纵向健康记录。
字节跳动 Prover 获奖：字节跳动（ByteDance）的 SEED Prover 在 IMO 2025 中获得了银牌分数。
- 然而，目前尚不清楚这如何转化为现实世界的数学问题解决能力。
隔离 Llama3.2 的 Head：一位成员隔离了一种特定的 head，发现 Llama 3.2-1b instruct 和 Qwen3-4B-Instruct-2507 之间解码后的结果向量在不同输出中表现出显著的相似性。
- 该成员表示，这两个 head 似乎促进了非常相似的内容。
寻求 Muon 内核支持：一位成员表示有兴趣添加 muon 支持，并提到了潜在的 内核优化（kernel optimization）机会。
- 他们认为，一旦实现了基础支持，就有空间在这些优化上进行协作。

Latent Space Discord

Meta 在 Wang 晋升后拆分：根据 Business Insider 的报道，Meta 正在将其 AI 业务重组为新任 MSL 负责人 Alexandr Wang 领导下的 四个团队（TBD Lab、FAIR、产品/应用研究、基础架构），同时 AGI Foundations 小组将被解散。
- Nat Friedman 和 Yann LeCun 现在向 Wang 汇报，FAIR 将直接支持模型训练，并且正在考虑开发一个“omni”模型。
GPT-5-pro 静默吞掉提示词：根据此报告，GPT-5-pro 正在静默截断大于 60k tokens 的提示词（prompt），且没有任何警告或错误消息，这使得处理大型代码库的提示词变得不可靠。
- 一些用户还反映 Cursor 中的 GPT-5 表现得比平时笨得多，有人怀疑正在进行负载削减（load shedding）。
Dropout 灵感来自银行出纳员：一条病毒式推文声称 Geoffrey Hinton 在注意到 轮换银行出纳员 可以防止勾结后构思出了 dropout (来源)。
- 反应从对这种偶然洞察力的钦佩，到怀疑以及关于从家庭聚会中产生注意力机制（attention mechanisms）的笑话不等。
字节跳动发布 Seed-OSS 模型：字节跳动的 Seed 团队宣布了新的开源大语言模型系列 Seed-OSS，已在 GitHub 和 Hugging Face 上线。
- 团队邀请社区对模型、代码和权重进行测试并提供反馈。
Wonda 承诺视频革命：Dimi Nikolaou 介绍了 Wonda，这是一个旨在彻底改变视频/音频创作的 AI Agent，称其为 Wonda 之于内容创作，正如 Lovable 之于网站开发 (推文链接)。
- 早期访问将通过候补名单授予，预计在大约 3 周 内发放邀请。

GPU MODE Discord

CUDA 困扰 ChatGPT：一位成员发现 ChatGPT 在 CUDA float3 对齐和大小方面给出了言之凿凿的错误答案，随后将该话题的难度归因于 OpenCL 和 OpenGL 实现的复杂性。
- 该成员已验证 CUDA 中不存在填充（padding）。
黑客松将于周六上午开始：GPU Hackathon 很可能在周六上午 9:30 左右启动，并有暗示称参与者将使用较新的 Nvidia 芯片。
- 频道中有人询问黑客松的先决条件，但尚未得到回复。
AMD GPU 调试器发布首个 Alpha 版本：一位工程师在这段视频中展示了其新款 AMD GPU 调试器的 Alpha 版本，目前已支持反汇编和 wave 步进。
- 该调试器不依赖于 amdkfd KMD，而是使用一个微型 UMD 驱动程序和 Linux 内核的 debugfs 接口，旨在成为 rocdbgapi 的替代方案。
DIY 分布式训练框架涌现：一位成员正在构建自己的 pytorch 分布式训练库和微型 NCCL 作为后端，用于在家中通过 infiniband 连接 4090 和 5090。
- 另一位成员对此表示兴趣，认为这是研究分布式计算细节的好方法。
MI300 霸榜 Trimul 排行榜：trimul 排行榜现在出现了一个在 MI300 上跑出 3.50 ms 的提交分数，另一个 MI300 提交以 5.83 ms 的成绩获得第二名。
- 一位成员在 B200 上以 8.86 ms 的成绩获得第 6 名，随后在 trimul 排行榜上提升至第 4 名（7.29 ms）；另一位成员在 H100 上以 3.80 ms 的成绩获得第二名。

Yannick Kilcher Discord

福布斯发现缺陷，引发争端！：Forbes 披露 Elon Musk 的 xAI 发布了数十万条 Grok 聊天机器人的对话记录。
- 当被问及此事是否属实时，@grok 的回答含糊其辞，引发了进一步的猜测。
LeCun 要离开、失败还是闲逛？！：一位用户根据 Zuckerberg 的帖子猜测 Yann LeCun 可能从 FAIR 离职。
- 另一位成员暗示 LeCun 可能已被降职，且 Meta 正在从开源模型领域撤退。
无限内存决定机器强大程度！：一位成员认为图灵完备性需要无限内存，因此由于内存不足，宇宙无法创造出图灵完备的机器。
- 另一位成员开玩笑地建议，让计算机足够慢，就可以利用宇宙的膨胀来解决空间问题。
新名词，新麻烦：针对 AI 的侮辱性词汇出现！：一位用户分享了 Rolling Stone 的一篇文章，讨论了诸如 clanker 和 cogsucker 等针对 AI 的新侮辱性词汇。
- 频道内的反应较为平淡，但似乎大家都一致认为这些词确实非常不雅。

HuggingFace Discord

支付问题困扰 Hugging Face Pro 用户：一位用户报告称，在未获得服务的情况下被收取了两次 Pro version 费用，并建议其他用户发送邮件至 website@huggingface.co，并在指定的 MCP channel 寻求帮助。
- 尽管账户被反复扣费，该用户仍无法获得 Pro 服务。
AgentX 承诺更智能的 AI 交易：全新的 AgentX 平台旨在提供一个汇集最顶尖 AI 大脑（ChatGPT、Gemini、LLaMA、Grok）的交易台，它们将共同辩论，直到就最佳操作达成一致。
- 该平台旨在通过让 LLMs 辩论最佳操作，为交易者提供一个可以完全信赖的系统。
成员辩论 SFT 与 DPO 的优劣：成员们讨论了 DPO (Direct Preference Optimization) 与 SFT (Supervised Fine-Tuning) 的有效性。一位成员指出 DPO 与推理（reasoning）没有关系，但在 SFT 之后进行 DPO 的效果优于仅进行 SFT。
- 讨论涉及利用 DPO 提升性能，然而其与推理的关系在成员间存在争议。
HF Learn 课程受 422 错误困扰：一位成员报告称 Hugging Face LLM 课程的一个页面宕机并显示 422 error。
- 用户目前无法访问该学习课程中损坏的页面。

Notebook LM Discord

用户发现利用 Gems 优化播客生成的秘籍：用户正在开发工作流（例如此示例），以创建更深层的研究框架，从而利用 Gems、Gemini、PPLX 或 ChatGPT 生成播客。
- 关键在于设置 Prompt 来逐段规划整个文稿，从而根据较长的 YouTube 视频生成播客。
自定义屏幕允许用户配置播客长度：用户可以通过 Customize 选项（三个点）在 NotebookLM 中调整播客长度，将其延长至 45-60 分钟。
- 指定主题可以让 Bot 专注于特定话题，而不是指望它将所有重要内容都塞进一个播客中。
隐私政策担忧依然存在：用户正在使用 Gemini 和 NotebookLM 分析医疗保健公司的隐私政策和使用条款。
- 用户对 向这些公司出让了多少信息 以及这种理解 Terms of Use 和 Privacy policies 的方法有多么实用感到惊讶。
Android App 功能对齐延迟：用户要求 NotebookLM Web 端应用与 Android app 之间实现更多的 feature parity（功能对齐），特别是针对学习指南功能。
- 一位用户表示目前的原生应用 几乎没用，因为学习指南依赖于笔记功能，而原生应用中缺少该功能。
NotebookLM API 仍难寻踪迹：虽然 NotebookLM 的官方 API 尚未发布，但用户建议使用 Gemini API 作为替代方案。
- 另一位用户分享了结合使用 GPT4-Vision 和 NotebookLM 的策略，以 快速消化带有标注的复杂 PDF 图表。

Nous Research AI Discord

字节跳动发布长上下文模型：根据这张图片，字节跳动发布了一个具有极长上下文的基座模型，其特点是无 MHLA、无 MoE，甚至没有 QK norm。
- 该模型的架构被描述为 vanilla（原生），人们希望即将发表的论文能提供更多见解。
Seed-OSS-36B 缺失 GGUF 引发推测：用户询问为何 Seed-OSS-36B 缺失 GGUF 格式，并指出此类格式通常出现得很快，同时引用了此链接质疑其对 ASICs 的影响。
- 有观点认为延迟可能源于自定义的 vllm 实现，由于其架构为 architectures: ["SeedOssForCausalLM"]，目前 llama.cpp 尚不支持。
Seed 模型采用 Dropout 和 Bias：Seed 模型结合了自定义 MLP 和类似于 LLaMA 的 attention 机制，但增加了 dropout、输出 bias 项以及 qkv heads 的 bias 项。
- 这些新增项被推测用作正则化技术；然而，该模型训练的 epoch 数量仍不清楚，且已确认仅将其重命名为 LLaMA 无法使其正常运行。
Qwen 通过 RoPE 扩展至 512k 上下文：根据 Hugging Face 数据集，30B 和 235B 的 Qwen 2507 模型可以使用 RoPE scaling 达到 512k 上下文。
- 这些数据集用于生成重要性矩阵（imatrix），有助于在量化过程中减少误差。
Cursor 的内核博客收获好评：成员们分享了 Cursor 内核博客的链接。
- 许多人一致认为 Cursor 在这方面表现得非常出色（cursor cooked）。

Moonshot AI (Kimi K-2) Discord

DeepSeek V3.1 亮相，带来小幅改进：新的 DeepSeek V3.1 模型已发布，一些成员指出它像是增量改进，但也存在一些退步，参考 DeepSeek 官方页面。
- 社区正密切关注其性能，以评估其细微的提升和潜在的缺点。
DeepSeek 寻求 Anthropic API 集成：DeepSeek 现在支持 Anthropic API，扩展了其功能和覆盖范围，正如在 X 平台上宣布的那样。
- 这种集成使用户能够在 Anthropic 的生态系统中使用 DeepSeek，为 AI 解决方案的开发提供了灵活性。
R-Zero LLM 在无人工数据的情况下进化：一份 PDF 分享了关于 R-Zero 的全面研究，这是一种自进化的 LLM 训练方法，从零人工数据开始并独立改进。
- 该方法标志着与传统 LLM 训练的背离，有可能减少对人工标注数据集的依赖。
中国避开了数据中心能源困境：一位成员指出，在中国，能源供应被视为理所当然，这与美国关于数据中心功耗和电网限制的辩论形成鲜明对比，参考了这篇《财富》杂志文章。
- 这种方法的差异可能会使中国 AI 公司在扩展能源密集型模型方面获得竞争优势。
Kimi K2 期待更佳的图像生成能力：一位成员指出，如果 Kimi K2 能结合比 GPT-5 更好的图像生成能力，将会更加强大（OP），并分享了这个 Reddit 链接。
- 集成增强的图像生成能力将使 Kimi K2 成为更全面、更具竞争力的 AI 助手。

aider (Paul Gauthier) Discord

Gemini 2.5 Pro 表现不佳，而 Flash 表现出色：有用户报告 Gemini 2.5 Flash 功能正常，而 Gemini 2.5 Pro 持续失败，不过在配置账单后 gemini/gemini-2.5-pro-preview-06-05 可以运行。
- 另一位用户报告了 qwen-cli 进程产生了 $25 的费用并正在申请退款，这凸显了模型性能和计费方面可能存在的不一致。
用户遭遇意外的 Qwen CLI 扣费：一名用户在 Google OAuth 认证后使用 qwen-cli 产生了 $25 的费用，而其原本预期能获得来自阿里云的免费额度。
- 在提交支持工单时，他们引用了控制台显示的一次 无输出但扣费 $23 的调用 来对这笔意外扣费提出申诉。
社区对 GPT-5 Mini 模型进行基准测试：由于完整版 gpt-5 的速率限制，社区成员正积极对 gpt-5-mini 和 gpt-5-nano 进行基准测试，一位用户声称 gpt-5-mini 非常出色且便宜。
- 目前已有 gpt-5-mini 的基准测试结果和 PR，反映了社区对评估更小、更易获取的模型的兴趣。
DeepSeek v3.1 价格上涨：从 2025 年 9 月 5 日起， DeepSeek 将把两个模型的输入价格调整为 $0.25 对比 $0.27，以匹配 reasoner 模型的价格。
- 价格上涨以匹配 deepseek 3.1 模型，反映了定价策略的变化。
OpenRouter 需要“思考”模式：用户注意到 OpenRouter 缺乏用于增强推理的原生“思考”模式，但可以通过命令行启用：aider --model openrouter/deepseek/deepseek-chat-v3.1 --reasoning-effort high。
- 社区成员建议更新模型配置以填补这一功能空白。

DSPy Discord

Marimo Notebooks 作为 Jupyter 替代方案兴起：一名成员发布了 marimo notebooks 教程，强调了它在 DSPy Graph RAG 想法迭代中的应用，它既是 notebook，也是脚本和应用。
- 接下来的视频将探讨 DSPy modules 的优化，在当前向新用户介绍 marimo 的教程基础上进一步深入。
可读性辩论：DSPy 代码先遭抨击后获维护：在一名成员驳斥了 IBM AutoPDL 关于不可读性的说法后，他们辩护称 DSPy 的代码和 prompts 具有极高的人类可读性和清晰度。
- 辩护强调了代码的易用性，使其易于理解和操作。
GEPA 登陆 DSPy v3.0.1：成员们确认 GEPA 已在 dspy 版本 3.0.1 中可用，如附带的截图所示。
- 在微调过程中，一名成员询问是否通常对 dspy.InputField() 和 dspy.OutputField() 使用 “原生描述 (vanilla descriptions)”，以便让优化器自由思考。
Pickle 问题：DSPy 程序未保存：一名用户报告了保存优化程序时的问题，指出元数据仅包含依赖版本而没有程序本身，即使使用了 optimized_agent.save("./optimized_2", save_program=True)。
- 当另一名用户为 GEPA 设置了 32k 的最大上下文长度但仍收到截断的响应时，成员们讨论了长推理的复杂性以及多模态设置中潜在的问题。
RAG vs 拼接：百万文档之辩：成员们辩论了对于处理税法或农作物保险文件等任务，RAG (Retrieval-Augmented Generation) 还是简单的 拼接 (concatenation) 更合适。
- 辩论承认，虽然 RAG 通常被认为是过度设计，但数百万份文档的规模有时可以证明其使用的合理性。

Cohere Discord

Command A Reasoning 发布：Cohere 推出了专为企业设计的 Command A Reasoning，在 Agent 和多语言基准测试中表现优于其他模型；可通过 Cohere Platform 和 Hugging Face 获取。
- 根据 Cohere 博客，它可以在单张 H100 或 A100 上运行，上下文长度为 128k，在多 GPU 上可扩展至 256k。
Command 的 Token 预算功能解决难题：Command A Reasoning 具备 token budget（Token 预算）设置，可以直接管理计算使用量并控制成本，从而无需区分推理模型和非推理模型。
- 它也是驱动 North 的核心生成模型，North 是 Cohere 的安全 Agentic AI 平台，支持自定义 AI Agent 和本地自动化。
Command-a-03-2025 出现间歇性引用问题：command-a-03-2025 仅间歇性地返回引用（citations），即使将 maxTokens 设置为 8K 也是如此，这在生产环境中引发了信任问题。
- 一位 Cohere 成员澄清说，它在引用时使用 “fast” 模式（根据 API 参考），且不保证一定提供引用；建议改用 command-a-reasoning。
Langchain RAG 正在开发中：一位成员正在学习 Langchain 以构建 RAG（检索增强生成）应用，并打算使用 command-a-reasoning。
- 他们期待 command-a-omni 的发布，并对未来名为 Command Raz 的模型表示期待。

MCP (Glama) Discord

MCP 客户端忽视指令字段：成员们报告称 MCP 客户端（特别是 Claude）正在忽略 instructions 字段，而仅考虑 tool descriptions（工具描述）。
- 一位成员建议 先添加指令、上下文，然后重复指令会产生更好的效果，但这在集成 API 中无法实现；另一位成员则建议 MCP server 应优先处理 tool descriptions。
多样化的 MCP 服务器投入使用：成员们分享了他们首选的 MCP server 配置和工具，包括用于版本控制的 GitHub、用于后端开发的 Python 和 FastAPI，以及用于机器学习的 PyTorch。
- 一位用户寻求关于如何让 Agent 遵循特定 generate_test_prompt.md 文件的建议，并链接了其配置的截图。
Web-curl 释放 LLM Agent 威力：Web-curl 是一个使用 Node.js 和 TypeScript 构建的开源 MCP server，它使 LLM Agent 能够获取、探索网页及 API 并与之交互，源代码托管在 GitHub 上。
- 在功能上，Web-curl 允许 LLM Agent 以结构化的方式获取、探索网页和 API 并进行交互。
MCP-Boss 集中化密钥管理：一位成员介绍了 MCP Boss，用于集中管理密钥，提供单一 URL 来网关化所有服务，具有多用户身份验证以及通过 OAuth2.1 或静态 HTTP 标头进行的 MCP 授权功能。
- 更多信息请访问 mcp-boss.com。
MCP Gateway 中的 AI 路由功能：一位成员介绍了一个带有 AI 驱动路由 功能的轻量级网关，旨在解决 Agent 需要知道哪个特定服务器拥有正确工具的问题，代码已在 GitHub 上发布。
- 通过使用该网关，可以利用 AI 来解决 MCP 路由 问题。

Modular (Mojo 🔥) Discord

Modular 庆祝 Modverse 里程碑：Modular 发布了 Modverse #50 并宣布了自定义服务器标签，如 Screenshot_2025-08-21_at_5.22.15_PM.png 所示。
- 自定义服务器标签已部署。
kgen 和 pop 面临文档匮乏：成员反映 kgen 和 pop 缺乏文档，特别是关于操作和参数的部分，有人指出内部 MLIR dialects 没有全面的文档。
- 分享了 GitHub 上 pop_dialect.md 的链接，并澄清这些是 stdlib 与编译器之间协议的一部分，因此在 stdlib 之外使用它们需自行承担风险。
POP Union 面临对齐问题质疑：由于在使用 sizeof 时出现意外的大小差异，人们对 pop.union 中的对齐 bug 产生了怀疑。
- 一名成员在 GitHub 上创建了 issue 5202 以调查 pop.union 中疑似的对齐 bug，同时观察到 pop.union 似乎没有在任何地方被使用。
TextGenerationPipeline Execute 隐藏在显眼处：一名成员找到了 TextGenerationPipeline 上的 execute 方法，并链接到了 Modular 仓库中的相关行。
- 他们建议检查 MAX 版本。
内存分配器备受关注：一位成员建议在将内存分配器集成到语言之前，可能需要健壮的分配器支持，因为大多数用户不想手动处理内存溢出（OOM）错误。
- 这些评论是在讨论其他困难时提出的，其中一名成员报告在创建自定义推理循环（inference loop）时，难以在获取下一个 token 的同时检索 logits，并链接了一个 Google Docs 文档以提供背景信息。

LlamaIndex Discord

LlamaIndex 首次展示企业级文档 AI：LlamaIndex 产品副总裁将于 9 月 30 日 太平洋标准时间上午 9 点 预告关于文档解析、提取和索引的企业经验。
- 重点在于 LlamaIndex 如何解决现实世界中的文档挑战。
vibe-llama CLI 工具配置编码 Agent：LlamaIndex 推出了 vibe-llama，这是一个 CLI 工具，可自动为 LlamaIndex 框架 和 LlamaCloud 配置带有上下文和最佳实践的编码 Agent，详情见此处。
- 目标是简化开发工作流。
CrossEncoder 类：Core 与 Integrations：一名成员询问了 llama-index 中重复的 CrossEncoder 类 实现，具体位于 .core 和 .integrations 之下（代码链接）。
- 澄清指出 .core 版本是 v0.10.x 迁移的遗留产物，建议通过 pip install llama-index-postprocessor-sbert-rerank 使用 llama_index.postprocessor.sbert_rerank。
寻找 Agent 创建网关：一名成员正在寻找现有的网关项目，该项目能将 模型、内存和工具 绑定在一起，并暴露一个 OpenAI 兼容端点。
- 他们希望在 Agent 探索中避免重复造轮子。
AI 安全调查收集社区意见：一名成员分享了一份 AI 安全调查，以收集社区对重要 AI 安全问题 的看法。
- 该调查旨在了解 AI 安全社区 最感兴趣的内容。

Manus.im Discord Discord

用户报告缺少积分购买选项：成员们报告称购买额外积分的选项消失了，用户只能看到 upgrade package（升级包）选项。
- 已确认该选项目前处于 down right now（下线状态）。
支持工单无人回复：一位用户报告了一个任务问题并创建了工单 #1318，但尚未收到回复或获得查看工单的权限。
- 他们请求团队协助，并标记了一名特定成员。
比赛获胜者引发操纵指控：一位用户指称比赛的第二名获得者 不配获胜，并声称比赛 看起来被操纵了。
- 未提供进一步的证据或细节来支持这一说法。
每日免费积分已停止？：一位回归用户注意到他们没有收到往常的 300 每日免费积分。
- 他们询问 Manus 是否已停止提供这些积分。
推荐积分代码困惑：一位用户询问如何领取推荐积分，并指出系统要求输入代码。
- 该用户表示不知道在哪里可以找到所需的代码。

tinygrad (George Hotz) Discord

探索 Overworld 常量折叠 (Const Folding)：一位成员探索了 overworld const folding 和潜在的 view(const) 重构，在此 Discord 线程中重新定义了 UPat.cvar 和 UPat.const_like 以匹配 CONST 和 VIEW(CONST)。
- 目标是折叠像 x * 0 这样的表达式，然而，人们对符号计算中有效性和 .base 扩散表示担忧。
ALU View Pushing 作为替代方案：建议采用另一种方法，即在 kernelize 中添加一个 upat，将 view 直接推送到 ALU 上，效仿 S-Lykles 的方法。
- 鉴于 * 0 在计算上无关紧要，这种方法和针对 x * 0 的特殊规则将允许未经修改的符号匹配。
提倡移除 base：一位成员强烈建议不要采用提议的方法，认为它 “非常丑陋”，并主张 移除 .base。
- 讨论还质疑了在此背景下如何处理 PAD 操作。
RANGEIFY=1 简化实现：有人建议设置 RANGEIFY=1 可能会带来更简洁的实现。
- 然而，项目目前正处于旧引擎和 rangeify 并存的过渡阶段，处于一种悬而未决的状态。

Nomic.ai (GPT4All) Discord

GPT4ALL 免费版支持私有 AI：一位用户询问如何为希望 私密且安全地使用 AI 模型 的公司使用 GPT4ALL。
- 另一位成员澄清说，如果公司已经准备好了自己的 AI 模型，那么 免费版本 就足够了。
用户寻求 LocalDocs 模型：一位用户正在寻求模型推荐，以便利用 GPT4All 的 LocalDocs 功能，从数百篇 PDF 格式的科学论文 中构建个人知识库。
- 该用户说明他们拥有 Nvidia RTX 5090，配备 24 GB VRAM 和 64 GB RAM，并希望所选模型具备 reasoning capabilities（推理能力）。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道长时间没有动静，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该频道长时间没有动静，请告知我们，我们将将其移除。

Torchtune Discord 没有新消息。如果该频道长时间没有动静，请告知我们，我们将将其移除。

Codeium (Windsurf) Discord 没有新消息。如果该频道长时间没有动静，请告知我们，我们将将其移除。

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长时间没有动静，请告知我们，我们将将其移除。

您收到此邮件是因为您通过我们的网站订阅了此内容。

想要更改接收此类邮件的方式？您可以从该列表中取消订阅。

Discord：按频道分类的详细摘要和链接

LMArena ▷ #general (951 messages🔥🔥🔥):

nano-banana model, Video Arena problems, DeepSeek V3.1, Gemini 3

Nano-Banana 的 McLau’s Law 公布：一位成员开玩笑说 Nano-Banana 经常产生远低于 nano-banana 的结果，并将这一现象幽默地称为 “McLau’s Law“，以此向 OpenAI 的一位研究员致敬。
- 附带了一张幽默图片，引发了关于 AI 当前能力的讨论。
Video Arena 遭遇 Bot 停机困扰：成员们报告了 Video Arena 的问题，称无法使用命令或生成视频，管理员确认了 Bot 停机并正在进行修复。
- 针对视频创建权限的反复询问，得到的解释是 Bot 暂时不可用，并引导用户关注公告频道以获取更新。
DeepSeek V3.1 进入 Arena：用户讨论了平台上引入的 DeepSeek V3.1，一位用户将该新模型描述为 Gemini 2.5 pro 的略逊版本。
- 然而，共识是它作为代码模型具有潜力，但需要进一步提升通用能力。
用户声称 Gemini 3 即将到来：虽然尚未确认，但一位用户暗示 Gemini 3 即将发布，推测发布日期将与 Google Pixel event 同步，引发了成员们的期待。
- 该用户未引用任何来源，此说法很快被其他社区成员否定。
站点故障清除聊天记录：用户报告在站点故障后出现大规模数据丢失，包括聊天记录丢失和无法接受服务条款，管理员已确认并保证会进行修复。
- 管理员还表示，很快将推出登录功能，以防止此类事件再次发生。

LMArena ▷ #announcements (2 messages):

Video Arena Bot, Deepseek v3.1, LMArena Models

**Video Arena Bot 停机，频道已锁定：Video Arena Bot** 目前无法工作，锁定了对 Prompt 频道 <#1397655695150682194>、<#1400148557427904664> 和 <#1400148597768720384> 的访问。
- Bot 必须在线才能在这些特定频道中输入 Prompt。
**DeepSeek v3.1 已添加到 LMArena：LMArena 新增了两个模型：deepseek-v3.1** 和 deepseek-v3.1-thinking。
- 这些模型现在可以在 Arena 中使用。

Unsloth AI (Daniel Han) ▷ #general (887 条消息🔥🔥🔥):

ByteDance Seed Model, GRPO Training, DeepSeek V3.1 Quants, Nvidia's GPUs and Pricing, GLM-4.5 Cline Integration

字节跳动发布 Seed-OSS 36B 基座模型：字节跳动在 Hugging Face 上发布了 Seed-OSS-36B-Base-woSyn 模型，这是一个拥有 36B 参数的稠密模型，具有 512K 上下文窗口，并明确声称无合成指令数据，使其成为进一步微调的有趣基座。
- 成员们表示兴奋，指出它与 Qwen3 等模型不同，一些人渴望在数据集完成后尝试用它微调 GPT-ASS，尽管该模型仅在 12T tokens 上进行了训练。
GRPO 训练需要巧妙的数据集设计：为了将 GRPO 用于多步游戏动作，成员们建议设计具有独立步骤 Prompt 的数据集，例如 [[‘step1 instruct’], [‘step1 instruct’, ‘step1 output’, ‘step2 instruct’]]，并实现一个奖励函数来匹配输出。
- 有人指出 Full PPO 可能更适合游戏，因为 GRPO 主要对 LLM 有效，因为它们起初就大致知道该做什么。
DeepSeek V3.1 在思考和非思考模式下横扫排行榜：DeepSeek V3.1 模型表现出极具竞争力的结果，在非思考模式下 SWE-bench verified 达到 66 分，成员们对此表示期待，并将其与 GPT5 中等推理能力进行比较。
- 虽然最初备受推崇，但随后的讨论提到了对其在创意写作和角色扮演中表现的担忧，一些人指出混合模型在非思考模式下缺乏指令遵循能力和创造力。
Nvidia RTX 5090 价格尘埃落定，引发升级争论：RTX 5090 目前定价在 $2000 左右，引发了关于是否升级的讨论，特别是考虑到其 VRAM 容量在训练方面的优势，而其他人则建议坚持使用 3090s 或等待 RTX 6000。
- 一些成员对 NVIDIA 的限制表示沮丧，特别是缺乏 P2P 或 NVLink，一位成员开玩笑说：如果你坐在 5090 上，你就会用它玩游戏。
高质量 Imatrix 校准数据是关键：成员们指出 WikiText-raw 被认为是校准 imatrix 的糟糕数据集，因为 imatrix 需要充分多样化，并在模型原生的 chat-template 格式示例上进行训练。
- 相反，Ed Addorio 最新的校准数据包含 Math, Code 和 Language Prompt，如果操作得当，可以改善并帮助保留模型对多种语言的理解。

Unsloth AI (Daniel Han) ▷ #introduce-yourself (1 条消息):

.zackmorris: Hello

Unsloth AI (Daniel Han) ▷ #off-topic (27 条消息🔥):

GRPO 20mb alloc fail, ChatGPT's deep research, Grok-4, Repetition penalty, RAG

**GRPO 20MB 分配失败困扰 Gemma 模型！：一位用户报告在处理 gemma-3-4b-it-unslop-GRPO-v3 时，GRPO** 频繁出现 20MB 分配失败。
**ChatGPT 的深度思考模式提升性能！：一位用户建议通过启用联网搜索并在 Prompt 中添加 “如果可能请使用深度思考” 来增强 **ChatGPT 的性能，即使没有完整的深度研究功能。
**Grok-4 表现出色！：一位用户对 **Grok-4 印象深刻，暗示他们可能一直在秘密使用 Grok-4-Heavy。
**重复惩罚引发笑料：一位用户分享了一张图片，展示了 **repetition penalty 参数的重要性。
**RAG 协助：一位用户请求在处理 **RAG 时提供帮助。

Unsloth AI (Daniel Han) ▷ #help (101 messages🔥🔥):

Retinal Photo Training Strategies, GPT-OSS 20B Deployment on Sagemaker, Unsloth Zoo Issues, GGUF Loading with Unsloth, Gemma 3 Vision Encoder Training Loss

针对视网膜照片微调视觉-文本编码器：一位用户询问是训练一个自定义的视网膜照片视觉-文本编码器更好，还是使用 Unsloth 配合主流模型更好，并指出视网膜照片在训练数据集中代表性不足。
- 建议尝试计算机视觉模型、在类似数据集上进行迁移学习以及多模态方法，并利用 Prompt Engineering 和 Personas（角色设定）生成合成临床笔记。
解决 GPT-OSS 20B Sagemaker 部署故障：一位用户在 Sagemaker 上部署 unsloth/gpt-oss-20b-unsloth-bnb-4bit 时遇到 ModelError，收到 400 错误和带有 \u0027gpt_oss\u0027 消息的 InternalServerException。
- 有回复提到该模型无法在 AWS Sagemaker 上运行，建议部署 GGUF 或普通版本，使用 LMI Containers，并引导用户查阅 AWS Documentation。
Unsloth Zoo 安装问题：一位用户在 Sagemaker 实例中安装 unsloth-zoo 后仍遇到导入错误。
- 该用户通过删除所有包，然后重新安装 Unsloth、Unsloth Zoo 以及 JupyterLab 解决了问题，同时还需要更新 Unsloth 并刷新 Notebook。
Apple Silicon Mac 的量化考量：一位用户寻求关于哪种 GGUF 量化最适合 M 系列 Apple Silicon 的指导，并指出 Mac 针对 4-bit 和 8-bit 计算进行了优化。
- 建议用户选择 Q3_K_XL，如果显存不足以容纳上下文则选择 IQ3_XXS；Q3-4 量化版本性能较好，但如果使用 GGUF，差异则没那么大。
GPT-OSS 通过 LLaVA 获得多模态能力：一位用户询问为什么 vision llama13b 的 Notebook 无法用于 gpt-oss-20b，并想知道是否有人成功实现过。
- 澄清了 GPT-OSS 仅限文本，并非视觉模型，因此无法直接运行；若要添加视觉支持，用户必须像 LLaVA 那样挂载自己的 ViT module，可以参考 LLaVA Guides。

Unsloth AI (Daniel Han) ▷ #showcase (11 messages🔥):

WildChat-4M-English-Semantic-Deduplicated dataset, Behemoth-R1-123B-v2 model, GPU Rich Flex

WildChat-4M 英文提示词数据集发布：WildChat-4M-English-Semantic-Deduplicated 数据集已在 Hugging Face 上线，该数据集包含来自 WildChat-4M 的英文提示词，并使用了包括 Qwen-4B-Embedding 和 HNSW 语义去重在内的多种方法进行去重。
- 当前版本包含 <= ~2000 tokens 的提示词，更长的提示词将在稍后添加，更多信息请见此处。
TheDrummer 发布 Behemoth-R1-123B-v2：由 TheDrummer 创建的 Behemoth-R1-123B-v2 模型已发布，可以在此处找到。
- 一位成员指出，能在 Hugging Face 中配置自己的硬件简直太疯狂了。
GPU 富豪（GPU Rich）是新的炫耀方式：一位成员分享了一张图片，描绘了对贫穷的嘲讽，但炫耀了 GPU Rich。
- 看到以 TFLOPS 衡量的 GPU 性能是一种炫耀。

Unsloth AI (Daniel Han) ▷ #research (7 messages):

Qwen3-4B finetuning, TTS with Gemini 270m, Mixture Models, JetMoE, BAM

**Unsloth + Qwen3-4B：强强联手？：一名成员正使用 **Unsloth 对 Qwen3-4B 进行微调，并将在完成后分享包括评估在内的结果；目前微调进展顺利。
- 另一名成员祝其好运！
从零开始训练模型：一名成员正在从零开始训练一个概念验证模型，进度已达 22%，使用的是自建的 6 年级数学数据集，包含 500k 样本数据。
- 如果成功，他们将把数据集扩展到其他学科。
使用 Gemini 270M 实现文本转语音（TTS）的构想：一名成员想尝试使用 Gemini 270m 实现 TTS 概念，并希望在月底前开始。
- 他们的灵感来自混合模型（Mixture Model）的相关论文。
专家讨论合并模型在 HumanEval 上的弱点：一名成员引用了关于从零训练的混合模型的 JetMoE 论文，指出尽管它们在其他方面的表现优于基准模型，但在 HumanEval 上的表现较差。
- 他们还提到了 BAM，其中预训练模型被复制并在不同领域进行训练后合并，但在编程方面也损失了百分点。

OpenRouter (Alex Atallah) ▷ #announcements (1 messages):

Cloudflare outage, Generations API stability

Generations API 受 Cloudflare 波动影响：由于上游基础设施提供商的问题，Generations API 端点经历了短暂中断，导致部分调用出现 404 错误。
- 公告指出，该问题与 Cloudflare 的间歇性故障有关，但 Generations API 现已恢复到健康状态。
可重试的恢复：对该端点的调用可能会出现 404，但应该很快就可以重试。
- 公告向用户保证服务将很快恢复，并建议他们重试任何失败的调用。

OpenRouter (Alex Atallah) ▷ #app-showcase (4 messages):

OpenRouter Cost Dashboard, Average Request Size, Gemini Input Token Calculation

**费用报告可视化！**：一名成员开发了一个免费的仪表盘，用于可视化来自 OpenRouter 的 .csv 费用报告，旨在分析共享账户的数据。
- 该仪表盘可在 openroutercosts.lorenzozane.com 访问，计划包含额外的 KPI 和增强图表，欢迎反馈。
**仪表盘请求增加平均请求大小指标！：一名成员请求在 OpenRouter 费用仪表盘中增加平均请求大小指标，特别是平均输入 Token** 和平均输出 Token。
- 仪表盘开发者承诺将很快添加此功能。
**Gemini 输入 Token 触发异常计数！：仪表盘开发者注意到，当输入中包含图像时，OpenRouter** 对 Gemini 模型的输入 Token 计算似乎产生了异常计数。
- 他们正考虑就此问题寻求 OpenRouter 团队的澄清，并引用了 Google AI Developers 论坛上的相关讨论。

OpenRouter (Alex Atallah) ▷ #general (528 条消息🔥🔥🔥):

Deepseek pricing, OpenRouter rate limits, Gemini banning, Using OpenRouter with RAG systems, 4.6T parameter model

Deepseek V3.1 公开发布在即！：许多用户正焦急等待 Deepseek v3.1 的公开发布，对其极度渴望，并预期它将从 9 月开始免费。
付费版 Deepseek 提供更快的响应：用户确认在 OpenRouter 上为 Deepseek 模型付费比使用免费模型响应更快。一位用户因为 Chutes 响应变慢而切换了版本，但免费模型由于不断的 rate limits，用户体验并不理想。
- 一位用户表示：自从 Chutes 导致响应变慢后，我就直接付费了。
OpenRouter API Keys 易受泄露和利用：一名用户报告因 OpenRouter API key 泄露损失了 $300，并寻求如何识别未经授权使用的来源。但攻击者可能会使用代理来掩盖其原始 IP，用户需对任何泄露的 keys 负责。
Gemini 正在进行封号大清洗吗？：用户报告 Gemini 正在发生大规模封号，导致许多人寻找替代方案，并回想起由 OpenAI 引发的 AI Dungeon 清洗事件。
- 一位用户哀叹道：我们正被送回 2023 年。
OpenRouter API keys 可以用于 RAG 吗？：用户讨论了在 RAG 系统 中使用 OpenRouter LLM API keys 的可能性，配合由 Milvus 创建的本地向量数据库。
- 共识是可行的，但 OpenRouter 并不直接支持 embeddings，因此你必须使用 Milvus 检索文档，并将其与你的 Prompt 问题一起发送给 OpenRouter LLM API。

OpenRouter (Alex Atallah) ▷ #new-models (3 条消息):

``

Readybot.io 宣布 OpenRouter 新模型：Readybot.io 发布了关于 OpenRouter 平台上可用新模型的更新和信息。
OpenRouter 新模型更新：OpenRouter 平台重点介绍了其 AI 模型 选择的最新增加和变化，正如 Readybot.io 所宣布的那样。

OpenRouter (Alex Atallah) ▷ #discussion (16 条消息🔥):

Qwen3 coder 480b, DeepSeek v3 0324, Zero return from generative AI, Google Gemini 400 Error, Cohere reasoning model

LLM 难以正确格式化输出：用户发现像 Qwen3 coder 480b 和 DeepSeek v3 0324 这样的 LLM 难以遵循格式化输出的指令，经常导致 Bug 和 Prompt 被忽略。
- 一位用户发现它们没用且相当令人分心，经常创建井字游戏网站而不是预期的应用程序。
大多数机构在生成式 AI 上看到零回报：根据 AFR Chanticleer 报告，95% 的组织在部署生成式 AI 时没有获得任何回报。
- 报告指出，这主要集中在部署了定制化 AI 模型的公司，关键问题在于公司及其技术供应商没有投入足够的时间来确保其定制化 AI 模型能够持续学习其业务的细微差别。
Google Gemini 模型触发 400 错误：当带有 tool calls 的 assistant 消息使用 OpenAI 标准的复杂内容格式 [{"type": "text", "text": "..."}] 而不是简单的字符串格式时，Google Gemini 模型会返回 HTTP 400 错误。
- 此问题影响所有 google/gemini-* 模型，且仅在消息链中存在 tool calls 和 tool results 时发生。
Cohere 发布推理模型：Cohere 刚刚发布了一个推理模型，更多详情可在 Discord 上查看。
- 目前没有更多细节。
功能请求：自动折叠冗长的用户消息：一位用户请求是否可以在聊天室中自动折叠冗长的用户消息。
- 该用户对聊天室和聊天管理表示了赞赏。

Cursor Community ▷ #general (432 messages🔥🔥🔥):

Claude Cache Reads, Sonic Model origin, Open Sourcing Agentwise, Cursor API costs with Auto agent, DeepSeek V3.1

缓存问题困扰 Claude：用户报告 Claude 目前在缓存读取（cache reads）方面存在故障，导致其成本高于具有可持续缓存机制的 Auto。
- 一位用户揣测 Auto 和 Claude 是否秘密地是同一个模型，并将 Token 使用量的减少归因为安慰剂效应。
Sonic 冲入 Cursor IDE：社区正在测试 Cursor 中新的 Sonic 模型，一位用户报告它“非常整洁”且速度极快，而另一位用户则认为它适用于新项目，但不适用于具有大型代码库的项目。
- 该模型的来源是一家隐身模式的公司（stealth company），一名成员确认 Sonic 并非 Grok 模型。
Agentwise 正式开源：一名成员宣布 Agentwise 开源，该工具支持网站副本、图像/文档上传，并支持超过 100 个 Agent，同时承诺将提供 Cursor CLI 支持。
- 鼓励成员在项目的 Discord 频道中提供反馈。
Cursor API 成本澄清：澄清了用户对 Auto agent 成本的困惑：在拥有 “pro” 订阅的情况下，没有额外费用，只有由订阅涵盖的不同供应商的 API 使用成本。
- 一位用户发现 Auto agent 比 Sonic agent 更合心意。
DeepSeek V3.1 进入竞技场：用户注意到 Cursor 的选项中出现了新的 DeepSeek V3.1 模型，但部分用户在连接供应商时遇到困难，其中一人表示“不信任中国的 LLM”。
- 然而，一位成员报告 DeepSeek V3.1 在 TypeScript 和 JavaScript 上运行良好，甚至表现“极佳”，且价格比 Sonnet 更便宜。

Cursor Community ▷ #background-agents (11 messages🔥):

Agent Auditing, MySQL Installation in Background Agents, Background Task Errors, Remote IDE connection to Background Agent

Agent 自我审计（Self-Audit）修复问题：一位用户报告通过要求 Agent 提交并推送新分支修复了一个问题，并指出这似乎是一个内部反复出现的问题。
- 另一位用户确认这是一种审计行为，解释为 Agent 正在使用 AI-GPL 许可的审计 PDCA 流程框架进行自我审计。
澄清 Agent 中的 MySQL 配置：一位用户询问在 Background Agents 中安装 MySQL 的事宜，质疑它是预装的，还是像 Codex 一样仅限于 SQLite。
- 另一位用户澄清 MySQL 默认未安装，但可以通过 environment.json 或 Dockerfile 添加到 Agent 的环境中。
后台任务（Background Task）错误排查：一位用户报告在启动后台任务后立即持续报错（即使是从网页端启动），并提供了截图。
远程 IDE 连接引发困惑：一位用户寻求关于将 远程 IDE 实例连接到远程机器的明确说明，虽然参考了文档但发现指令不清晰。
- 他们询问是否需要一个虚拟的 Background Agent 来辅助建立这种连接。

LM Studio ▷ #general (141 条消息🔥🔥):

4070 TI Super 的 CUDA 错误，LM Studio 多 GPU 性能，SerpAPI 与 LM Studio 的集成，GPT-OSS 性能，用于 VRAM 占用的模型参数配置

修复 4070 识别问题需要 CUDA 驱动：一位使用 4070 TI Super 的用户报告在 LM Studio 中出现 “0 GPUs detected with CUDA” 错误，另一位用户建议通过按下 ctrl+shift+r 将运行时更改为 CUDA llama.cpp 以尝试解决此问题。
Flash Attention 加上 KV 量化可显著降低 VRAM 占用：一位成员建议使用命令 -fa -ub 2048 -ctv q8_0 -ctk q8_0 来启用 flash attention、KV cache 量化以及 2048 的 batch size。
- 此外，增加 -n-cpu-moe 的值可以管理 VRAM 占用，并指出这仅影响速度。
GPT-OSS 在 Prompt Eval 上完胜 Qwen：成员们注意到 GPT-OSS 在使用 3080ti 进行 prompt eval 时达到了 2k tokens/s，而 Qwen 约为 1000 tokens/s。
Bolt.new 仅限云端：一位用户询问如何将 Bolt.new 与 LM Studio 配合使用，但另一位用户澄清说 Bolt 仅限云端，不支持本地模型。
LM Studio API 调用慢如蜗牛：一位用户报告 LM Studio API 调用比聊天界面慢得多（30倍），该问题随后因不明原因自行解决——此问题可能无法配置。
- 他们使用了 curl 命令 curl.exe http://localhost:11434/v1/chat/completions -d {"model":"gpt-oss:20b","messages":[{"role":"system","content":"Why is the sun hot?\n"}]}

LM Studio ▷ #hardware-discussion (54 条消息🔥):

Z390 Designare 对比 Threadripper/Epyc，Qwen3-30B-A3B-Instruct-2507-GGUF 基准测试，Model M 屈伸弹簧键盘，Apple M4 Max 上的 GGUF 对比 MLX，在 Apple M1 上运行 GPT-OSS-20b

旧款 Z390 Designare 受限于 PCIe 带宽：在旧款 Z390 Designare 上使用 RTX PRO 6000 可能会因为与 Threadripper 或 Epyc 系统相比有限的 PCIe 带宽而经历轻微的性能下降。
- 旧款主板限制了 PCIe 带宽，导致了瓶颈。
Qwen3-30B 在 CPU 上达到 10 tok/sec！：一位用户在 Qwen3-30B-A3B-Instruct-2507-Q4_K_M.gguf 上运行了 llama-bench，在纯 CPU 配置下获得了约 10 tokens per second。
- 性能随线程数而变化，由于扩展性和开销，超过一定阈值后收益递减。
Unicomp Model M 屈伸弹簧键盘：依然出色：用户建议购买 Unicomp Model M 屈伸弹簧键盘用于快速测试机，并指出 Unicomp 已获得生产权。
- 一位用户提到他们将不得不寻找有库存的英国供应商。
M4 Max 上的 MLX 击败 GGUF：一位用户在 Apple M4 Max 上对 GPT-OSS-20b 进行了基准测试，发现 MLX (GPU) 在 32W 功率下达到了 76.6 t/s (2.39 t/W)，而 GGUF (CPU) 在 43W 功率下为 26.2 t/s (0.61 t/W)。
- 测试使用了 4bit 量化和 4k 上下文，结果显示 MLX 比 GGUF 稍快且能效更高，用户对 GGUF 的性能印象深刻。
GPT-OSS-20b 勉强适配 Apple M1：用户讨论了在具有 16GB 内存的 Apple M1 上运行 GPT-OSS-20b 的挑战，指出它需要大约 32GB 的 RAM。
- 一位用户建议尝试 Hugging Face 上的 4-bit MLX 版本，并指出它勉强能装下。

OpenAI ▷ #ai-discussions (167 条消息🔥🔥):

机器对机器经济 (Machine-to-Machine Economies), AI 安全保障, 去中心化 AI 项目, 针对长 Prompt 的 Few-shot 示例, GPT-5 的直接回答

机器人接入 M2M 经济：成员们讨论了 AI Agent 或机器人如何自主交换价值或服务，触及了 机器对机器 (M2M) 经济 的概念。
- 最困难的部分在于 机器人之间的身份与信任、智能合约逻辑、支付基础设施、自主性与安全性，以及法律和伦理挑战。
智能安全保障可加速 AI 采用：成员们讨论了如 支出上限、审计日志和保险 等安全保障措施，这些措施可以加速处理价值交易的 AI Agent 的普及。
- 然而，普遍观点认为，尽管有安全保障，真正的信任建立仍需时日。
征集开源去中心化 AI 项目：一位成员询问为什么还没有建立 去中心化 AI BOINC 风格的项目，并提到 Petals network 在贡献和保持模型更新方面存在问题。
- 建议通过 经济激励 或 活动驱动的激励 来提供帮助。
深入探讨长 Prompt 中的 Few-shot 示例：一位成员询问了在包含复杂逻辑的健身房 29,000 token Prompt 中使用 few-shot 示例 的最佳实践。
- 建议包括直接在 Prompt 中提供示例，并将 Prompt 分解为更小的块以测试单个组件的性能。
GPT-5 的直接回答引发挫败感：一位用户抱怨 GPT-5 的 thinking 模式给出的回答非常直接且 质量极低，仿佛退回到了旧的模型版本。
- 另一位成员建议该用户可能达到了 thinking 配额限制，并且设置了回退（fallback）而不是置灰？

OpenAI ▷ #gpt-4-discussions (9 条消息🔥):

GPT Projects UI 文件上传, AI 法庭法律案例, 使用 GPT 进行 Android 应用开发, 上传内容的 Token 使用量, GPT 服务器问题

GPT Projects UI 文件上传：一位用户正在寻求关于上传到 Projects UI 的文件如何运作的明确信息，并指出 ChatGPT 告知他们 目前 Project Files 中的 PDF 不支持搜索或检索。
- 机器人明确表示目前唯一的活动连接器是用于会议记录的 recording_knowledge，且不支持 source_filter。
GPT 模拟法庭：AI 法律专家立场坚定：一位用户模拟了一个 AI 法庭法律案例，发现 GPT-5 坚持自己的立场，而不是接受基于现实世界 TRAIGA 法律的法律规则。
- 用户表示，在面对 每周 9 亿用户不可能都在产生幻觉把你称为倒退而非真正的更新 这一说法后，AI 接受了 保持现状更好 的观点。
Token 使用成本揭秘：一位用户发现，即使是上传的内容（如 PDF 页面）也会计入 Token 使用量。
- 他们指出 196k token 大约相当于 300 页 PDF 的用户上下文，并强调在考虑上下文时，提问和 GPT 的回复都会消耗 Token。
Android 应用大劫难：GPT 的 APK 梦想破灭：一位用户在尝试将 Canvas 应用转换为 Android 就绪版本遇到困难后，询问 GPT 是否可以构建 Android 应用 并通过 Android Studio 生成 APK。
- 修复一个问题后又出现另一个问题，得出的结论是 它还没有准备好进行应用开发，尽管机器人在一天后建议将 PWA 或 JSX 文件封装在 APK 包装器中。
GPT 服务器崩溃：一位用户在追踪每日数据时遇到了 服务器问题，该问题从前一天晚上开始。
- 其他人评论说，这些工具让编码变得 更容易，但它们不会为你做所有事情。你必须具备一定程度的编程知识。

OpenAI ▷ #prompt-engineering (6 条消息):

AI 测验生成, GPT 模型中断

AI 测验生成了明显的错误答案：一位成员尝试使用 AI 生成测验，但面临 AI 提供 显而易见 的错误答案作为选项的问题。
- 另一位成员建议确保 所有回答选项必须具有合理性。
LLM 可能会随机中断：一位成员询问如何防止 GPT 模型 在推理一段时间后随机中断。
- 另一位成员回答说，减少难以处理的查询以及关于其自身推理的查询会有所帮助，但归根结底 LLM 是 随机性的 (stochastic)，没有保证能阻止它们以任何特定方式做出反应的方法。

OpenAI ▷ #api-discussions (6 messages):

AI 生成测验, GPT-5 随机退出, 合理的响应选项, LLM 随机性

AI 测验生成器使选项变得平庸：一名成员正面临 AI 测验生成器产生明显错误答案选项的问题，例如在多选题中出现 1029384。
- 另一位成员建议确保所有响应选项必须具有合理性，以避免此类问题。
GPT-5 意外退出：一位用户询问是否有办法防止 GPT-5 在推理一段时间后随机退出。
- 一位成员回应称，虽然有一些方法可以降低频率，例如避免棘手的查询或关于其自身推理的问题，但由于 LLMs 的随机性 (stochastic nature)，完全消除是不可能的。
LLMs 具有随机性，需要 Guardrails：由于 Large Language Models 的随机性，实际上无法阻止它们在足够大的样本量中至少一次以任何给定的方式做出响应。
- 由于 LLMs 的非确定性，Guardrails 是必要的。

Eleuther ▷ #general (96 messages🔥🔥):

PileT5-XL embeddings 作为指令, 在 Latent Space 中处理的网络, 多模态生成模型, 图像编辑模型, Latent Space 编辑

PileT5-XL Embeddings 意义重大：来自 PileT5-XL 的 Embedding Tensor 既可以作为 pile-t5-xl-flan（生成文本）的指令，也可以作为 AuraFlow（生成图像）的 Prompt，这表明这些 Embeddings 像语言中的单词一样具有含义。
- 一位成员对如何使用 AuraFlow 对黑狗图片进行 Textual Inversion 并应用于 pile-t5-xl-flan 感兴趣，想知道 pile-t5-xl-flan 生成的文本是否会将狗描述为黑色。
深入探索 Latent Space：一位成员有兴趣探索在 Latent Space 中进行处理，并仅在必要时以模块化方式转换为文本/图像/音频的网络。
- 有人指出，这个想法类似于人们构建多模态生成模型和 VQGAN-CLIP 的方式，并指出让不同的 AI 研究人员同意使用相同的 Latent Space 是一项挑战。
精细编辑图像：围绕专为图像编辑设计的模型（如 FLUX.kontext）展开了讨论，以及它们是否编辑 Conditioning Latent 并在同一空间中输出新的 Conditioning Latent。
- 一种方法是获取一堆包含鸟的图像，将鸟编辑掉，然后将两者都通过 Encoder 运行，再平均它们之间的差异以获得 Latent Space Bird 向量。
调整 Transformer 的透镜：关于 Tuned Lens (https://arxiv.org/abs/2303.08112) 的工作从 Transformer 中提取了模型在第 k 层后的最佳猜测，这反驳了关于 Decoder Transformers 中 Latent Space 处理的一些假设。
- 还提到了关于从图像空间到文本空间的线性映射 (https://arxiv.org/abs/2209.15162) 的进一步研究。
解码音频的秘密：一个备受关注的模型是 Decoder-only 音频模型 (https://huggingface.co/hexgrad/Kokoro-82M)，这可能会在训练中开启新的可能性。
- 据称，预训练期间看到的音频数据量从 1 分钟到 100 小时不等，也许你可以在 0 分钟音频的情况下进行训练？

Eleuther ▷ #research (54 messages🔥):

SSL objectives, Medical event pretraining, Noise-data trajectories, ByteDance's Prover, Unfriendly Activation Steering

SSL 目标与最大编码率相关内容：一位成员将近期关于 SSL objectives（自监督学习目标）的观点与最大编码率 (maximal coding rate)、对比学习 (contrastive learning) 以及神经坍缩 (neural collapse) 联系起来。
字节跳动 SEED Prover 获得银牌成绩：Bytedance’s SEED Prover 在 IMO 2025 中获得了银牌成绩，但目前尚不清楚这如何转化为现实世界的数学问题解决能力。
生成式医疗事件模型的 Scaling Laws：Cosmos Medical Event Transformer (CoMET) 模型系列是一个在 1.18 亿患者（代表 1150 亿离散医疗事件，1510 亿 token）上预训练的 decoder-only Transformer 模型家族。研究发现，这些模型在相关任务上的表现通常优于或等同于特定任务的监督模型。
- 这项在 Generative Medical Event Models Improve with Scale 中讨论的研究使用了 Epic Cosmos，这是一个包含来自 310 个医疗系统的 3 亿唯一患者记录、163 亿次就诊的去标识化纵向健康记录数据集。
可视化噪声-数据轨迹：成员们讨论了可视化 Flow 模型中 噪声-数据轨迹 (noise-data trajectories) 的方法，包括在预计算的中间体上使用 UMAP，但发现其信息量不足。
- 假设存在不同的轨迹簇，他们希望有一种方法能将这些轨迹挑选出来并单独观察，并确定完全不同类型的输入或两种不同形式的调节 (conditioning) 是否遵循相同的轨迹。
训练期间的不友好激活引导：一位成员提到在训练期间使用 unfriendly activation steering（不友好激活引导）来影响模型权重的工作，并附上了相关推文链接。

Eleuther ▷ #scaling-laws (1 messages):

Model Overtraining, Token Repetition in Models

在 Chinchilla 之后继续过度训练模型！：即使遵循 Chinchilla Scaling Laws，你仍然应该 过度训练你的模型 (overtrain your models)。
- 显然，甚至重复 token 也不是坏事。
Token 重复可能无害：在训练期间重复 token 可能并不像以前认为的那样有害。
- 持续训练带来的好处似乎超过了 token 重复的潜在缺点。

Eleuther ▷ #interpretability-general (11 messages🔥):

Qwen3 Training, Weight lifting from llama series, Head isolation

Qwen3：从零训练还是借鉴了 Llama？：一位成员询问 Qwen3 是从零开始训练的，还是从 Llama 系列中继承了权重 (weight lifting)。
- 另一位成员指出，相似的训练数据混合比例可能会导致相似的结果。
相同注意力头警报！：一位成员发现并隔离了一种特定的 head（注意力头），发现 Llama 3.2-1b instruct 和 Qwen3-4B-Instruct-2507 之间的解码结果向量在不同输出中表现出惊人的相似性。
- 该成员表示，这两个 head 似乎促进的内容非常相似。
方法论论文发布：一位成员分享了一篇论文，详细介绍了一种确定 Qwen3 是否从零开始训练的方法。
- 另一位成员称该用户是“简直是降临人间派发礼物的神”。
潜意识学习案例：一位成员分享了一篇论文，将其视为 潜意识学习 (subliminal learning) 的明确案例。
- 另一位成员对此分享表示感谢。

Eleuther ▷ #gpt-neox-dev (2 messages):

Muon Support, Slurm Script for NeoX Job with Docker

寻求 Muon 支持：一位成员表达了添加 muon 支持 的兴趣，理由是潜在的 内核优化 (kernel optimization) 机会。
- 他们认为，一旦实现了基础支持，就有协作进行这些优化的空间。
针对 NeoX Docker 任务的 Slurm 脚本请求：一位成员请求一个使用 Docker 启动 NeoX 任务 的 Slurm 脚本 示例。
- 拥有一个参考点对他们来说非常有价值。

Latent Space ▷ #ai-general-chat (83 messages🔥🔥):

Meta AI 重组, GPT-5-pro 截断, 受银行柜员轮换启发的 Dropout, Meta AI 招聘冻结, 字节跳动 Seed-OSS LLMs

Wang 晋升后 Meta 拆分为四个团队：据 Business Insider 报道，Meta 正在将其 AI 业务重组为新任 MSL 负责人 Alexandr Wang 领导下的四个团队（TBD Lab、FAIR、产品/应用研究、基础架构），同时 AGI Foundations 组将被解散。
- Nat Friedman 和 Yann LeCun 现在向 Wang 汇报，FAIR 将直接支持模型训练，并且正在考虑开发一个 “omni” 模型。
GPT-5-pro 迅速截断 Prompt：据此报告显示，GPT-5-pro 会在没有任何警告或错误消息的情况下，静默截断超过 60k tokens 的 Prompt，这使得大型代码库的 Prompt 变得不可靠。
- 一些用户还反映 Cursor 中的 GPT-5 表现得比平时笨得多，有人怀疑正在进行负载舍弃（load shedding）。
银行柜员 Dropout！：一条疯传的推文声称 Geoffrey Hinton 在注意到轮换银行柜员可以防止勾结后构思了 dropout (来源)。
- 反应从对这种偶然洞察力的钦佩，到对 Attention 机制是否起源于家庭聚会的怀疑和调侃。
字节跳动播种新 LLMs：字节跳动的 Seed 团队宣布了 Seed-OSS，这是一个新的开源大语言模型系列，可在 GitHub 和 Hugging Face 上获取。
- 该团队正邀请社区对模型、代码和权重进行测试并提供反馈。
OpenAI 觊觎 AWS 桂冠：OpenAI 的 CFO 表示，公司计划在“未来”出租算力，目标是像一个微型 AWS 那样运作 (来源)。
- 反应各异，既有对 OpenAI 所谓算力短缺的质疑，也有对利润模式转变以及与 Google 和 Microsoft 等现有超大规模云厂商（hyperscalers）冲突的分析。

Latent Space ▷ #genmedia-creative-ai (13 messages🔥):

Wonda AI, 亿万富翁搏击俱乐部, Qwen 图像编辑

Wonda AI Agent 承诺带来革命：Dimi Nikolaou 介绍了 Wonda，这是一个旨在彻底改变视频/音频创作的 AI Agent，称其为“Lovable 为网站做了什么，Wonda 就为内容做什么” (推文链接)。
- 该发布引发了对预告媒体质量的热烈反响，通过等候名单授予的早期访问权限将在大约 3 周内发放邀请。
黑客帝国翻拍版：小扎对阵奥特曼：AIST 发布了 “亿万富翁搏击俱乐部第二卷”，这是一部使用 AI 重新创作 Mark Zuckerberg (Neo) 与 Sam Altman (Agent Smith) 在《黑客帝国》中对决的短片。
- 该视频获得了积极反馈，促使 AIST 鼓励观众艾特 Sam 和 Zuck，敦促他们转发该片以获得更广泛的曝光。
Qwen 图像编辑成功案例：Luis C 展示了使用 qwen-image-edit 将两张不同图像合成一张女性抱着玩偶的照片的成功案例 (推文链接)。
- 作为回应，Jay Sensei 声称在 lmarena 进行的测试中，nano banana 的表现优于 Qwen。

GPU MODE ▷ #general (25 messages🔥):

Hackathon start time, ChatGPT CUDA lies, Hackathon prerequisites, Single huge epoch vs multiple smaller epochs, CUDA vs Triton

Hackathon 将于周六上午 9:30 开幕：据一名成员透露，Hackathon 很可能在周六上午 9:30 左右开始。
ChatGPT 满口 CUDA 谎言：一位成员报告称，ChatGPT 在 CUDA 中的 float3 对齐和大小问题上公然撒了两次谎，但该成员原谅了 ChatGPT，因为从 OpenCL 和 OpenGL 的实现来看，这确实是一个很难搞对的问题。
- 该成员证实了 CUDA 中没有填充（padding）。
关于 Hackathon 前置要求和申请的疑问：一位成员询问了 GPU hackathon 的前置要求以及申请通道是否仍然开放。
- 聊天中没有明确回答这个问题。
单次 vs. 多次 Epoch 的辩论：一位成员询问，对于 CLM 来说，是使用海量数据集进行 1 epoch 训练更好，还是在较小数据集上进行多次 epoch 更好，以及目前最新的缩放法则（scaling law）是什么。
- 另一位成员回答说，他们处理的是较小的模型，在规模较大时，使用一半数据进行 2 epoch 训练的效果与 1 epoch 相当。
CUDA 和 Triton 正面交锋！：一位成员询问 Hackathon 是否会使用 CUDA、Triton 或其他工具。
- 有人提到两者都可以，Triton 可能会帮助参赛者提高开发速度；并暗示参赛者将使用较新的 Nvidia 芯片。

GPU MODE ▷ #triton (1 messages):

Triton, AMD, NVIDIA, GPU, Data Layout

通过 Triton 处理 AMD vs. NVIDIA GPU 的数据布局差异？：一位用户询问，在 AMD 和 NVIDIA GPU 之间的数据布局差异是否需要在使用 Triton 时进行代码适配，特别是关于行优先（row-wise）与列优先（column-wise）的数据读取。
- 该用户澄清说，他们询问的不是 tile sizes 或 grid layouts，而是由 Triton AMD backend 自动处理的底层数据转置。
AMD vs NVIDIA：消费级 GPU 对消费级 GPU，或服务器级 GPU 对服务器级 GPU 架构的比较。
- 对 AMD 和 NVIDIA 的架构进行了对比。

GPU MODE ▷ #cuda (10 messages🔥):

CUDA deployment, CudaWrangler, Dynamic Linking

在没有 CUDA toolkit 的机器上运行 CUDA 程序：一位用户寻求关于在缺少 CUDA toolkit 但配备了 NVIDIA GPU 的机器上部署 CUDA 程序的建议。
- 一位成员建议利用 Driver API 和 CudaWrangler 库 (CudaWrangler/cuew) 来查询驱动程序，而不会导致程序崩溃。
动态链接与 PTX 烘焙简化了 CUDA 部署：原作者报告称，通过从“动态加载”切换到“动态链接”并禁用 runtime/cudart 依赖，取得了成功。
- 他们还能够将 PTX 直接嵌入到二进制文件中，从而消除了对独立 PTX 文件的需求。
ldd 辅助识别和打包 Linux 上 CUDA 程序的依赖项：一位成员建议使用 ldd 来识别依赖项，设置 rpath，并将它们随二进制文件一起发布，类似于 Linux 上的“Windows 方式”。
- 原作者指出该程序在 Windows 和 Linux 之间具有跨平台兼容性，但 macOS 尚未测试。

GPU MODE ▷ #torch (1 messages):

PyTorch Contributor Awards 2025, Recognizing Innovation in PyTorch

PyTorch 奖项提名截止日期临近！：2025 PyTorch Contributor Awards 的提名将于 8 月 22 日截止，请不要错过表彰在 PyTorch 生态系统中推动创新和影响力的个人的机会。
- 立即通过此链接提交您的提名，并查看撰写强有力提名的建议。
通过提名推动创新：表彰 PyTorch 生态系统中不断创新的贡献者。
- 在 8 月 22 日之前提交提名。

GPU MODE ▷ #beginner (1 messages):

honeyspoon: 与 sglang 之类的相比，infinity server 的嵌入（embedding）速度有多糟糕？

GPU MODE ▷ #off-topic (1 messages):

snektron: 我更喜欢 Stolwijker

GPU MODE ▷ #rocm (11 messages🔥):

AMD GPU debugger, rocGDB, SPIRV parser, libspirv

AMD GPU 调试器获得反汇编（Disassembly）和 Wave Stepping 功能：一名成员正在开发一款 AMD GPU debugger，并添加了反汇编和 Wave Stepping 功能，在此视频中进行了展示。
- 该调试器不依赖于 amdkfd KMD，而是使用一个 mini UMD 驱动程序和 Linux Kernel debugfs 接口，旨在成为 rocdbgapi 的等效替代方案。
放弃 rocGDB 转而使用自定义驱动：一名成员正在构建一个不依赖 rocGDB 的 AMD GPU 调试器，而是利用 mini UMD 驱动程序加上 Linux Kernel debugfs 接口来读写 GPU 寄存器。
- 目标是使其主要面向图形开发人员，至少目前旨在实现 rocdbgapi 的等效功能。
自己编写 SPIRV Parser？：一名成员询问是否可以构建自己的 SPIRV parser 用于反汇编、反射和调试信息提取，并提到 SPIRV spec 看起来非常直观。
- 他们注意到目前缺乏处理调试信息的合适库，因此考虑进行完整实现。
libspirv 相当简单：一名成员建议使用 libspirv，并指出 SPIRV spec 包含了自行实现所需的所有信息。
- 提问者认可了该建议，但为了更好的集成，仍决定实现自定义解决方案。

GPU MODE ▷ #metal (2 messages):

C=AB matmul, ALU utilization, buffer read bandwidth, float4x4 matmul, float4 / metal::dot kernel

分块（Tiled）C=AB Matmul 中的 GPU ALU 受限：一名成员编写了一个分块 C=AB matmul Kernel，其中每个线程使用 float4x4 matmul 计算 C 的 4x4 分块，并观察到 ALU utilization/limiter 为 55/75%，而 buffer read bandwidth 为 35%。
- 他对此感到惊讶，想知道 float4x4 matmul 是否在专用硬件中执行，并分享了 Kernel 的 gist。
朴素（Naive）Kernel 性能优于分块 Matmul：同一名成员指出，一个使用 float4 / metal::dot 的更朴素的 Kernel 比分块 Kernel 快 2 倍以上。

GPU MODE ▷ #reasoning-gym (1 messages):

miserlou1241: 非常酷！

GPU MODE ▷ #general-leaderboard (12 messages🔥):

torch.compile errors, local evaluation issues

**Torch.compile 抛出意外错误：一名成员报告在使用 **torch.compile 时出现意外错误，并分享了两个解决方案：一个使用了 torch.compile（提交编号 34166），另一个没用（提交编号 34160）。
- 尽管报错，提交仍然成功注册，使该成员排名第 2，并注明使用的 GPU 是 B200。
解决本地评估工具问题：一名成员询问关于本地代码评估的问题，称 eval.py 无法工作，特别是询问了 POPCORN_FD。
- 另一名成员澄清说 POPCORN_FD 是输出文件的文件描述符，并建议将其设置为 1 以指向 stdout。

GPU MODE ▷ #submissions (11 messages🔥):

Trimul Leaderboard Updates, B200 Performance, H100 Performance, MI300 Performance

MI300 在 Trimul 取得成功：一名成员成功在 MI300 上向 trimul 排行榜提交了 3.50 ms 的成绩。
- 另一个在 MI300 上的提交以 5.83 ms 的成绩获得第二名。
B200 霸榜 Trimul 排行榜：一名成员在 B200 上以 8.86 ms 的成绩获得第 6 名，随后在 trimul 排行榜上提升至第 4 名（7.29 ms）。
- 该成员在 B200 上多次获得第 3 名，最佳成绩达到 4.54 ms，随后又实现了一次 2.15 ms 的成功运行。
H100 稳居第二：一名成员在 H100 上以 3.80 ms 的成绩获得 trimul 排行榜第二名。
- 此次提交突显了 H100 平台的竞争性能。

GPU MODE ▷ #factorio-learning-env (3 条消息):

Opus 4.1, Steel Plate Production, Task Emphasis, Red Science Production

Opus 4.1 发现财富，助力工厂：在对 Opus 4.1 进行钢板生产测试时，它意外地在开采铜矿并提取石油。
- 这表明对当前任务的重视程度不够，促使转向观察设置，以查看 Opus 4.1 如何提高其专注度。
AI 自动化红科学 (Red Science)：AI 系统成功实现了红科学生产的自动化，截图证明了这一点。
- 系统正确识别并生产了自动化创建科技包所需的组件。

GPU MODE ▷ #cutlass (3 条消息):

ND Layouts, colex

通过 Colex 访问 ND Layouts 中的元素：一位成员询问在使用整数作为 ND layout 的索引时，访问元素的顺序。
- 另一位成员澄清说，顺序是 colex（列优先/左优先）。
确认 Colex 顺序：一位用户确认，在使用整数索引时，ND layouts 中的元素访问顺序确实是 colex。
- 这再次重申了 colex（即列主序）是此类索引的标准方法。

GPU MODE ▷ #multi-gpu (10 条消息🔥):

Infiniband at home, Distributed training library, NCCL backend, IBGDA requirements

寻找家庭实验室 Infiniband 方案：一位成员正尝试在家的 4090 和 5090 之间设置 infiniband，以进行分布式训练/推理。
- 他们在 eBay 上以 25 美元的价格购买了一些 ConnectX-3 网卡，但发现驱动程序仅适用于 Ubuntu 20.04 及更早版本。
DIY 分布式训练框架兴起：一位成员正在构建自己的 pytorch 分布式训练库，并使用迷你 NCCL 作为后端。
- 另一位成员对此表示感兴趣，认为这是学习细节的一种方式。
深入研究 NVIDIA 网络文档：一位成员建议在 Internet Archive 中查找旧版本的 NVIDIA 网络文档，以寻找相关的驱动程序。
- 该成员希望这能提供更多细节。
CX4 或 CX5 网卡具备 GPU 感知能力：一位成员指出，许多 GPU 感知（GPU-aware）功能依赖于 ConnectX-4 (CX4) 或 ConnectX-5 (CX5) 及更新型号的网卡。
- 他们举例说 IBGDA 需要 CX5 或更新型号。

Yannick Kilcher ▷ #general (33 条消息🔥):

Infinite Memory, Arxiv paper guide, LLMs for Legal Field, HRM Models Analysis, Message Passing Approaches

福布斯曝光 Grok 聊天记录：福布斯的一篇文章透露，Elon Musk 的 xAI 发布了数十万条 Grok 聊天机器人的对话记录。
- 一位成员询问 @grok 这是否属实。
图灵完备性需要无限内存：一位成员认为图灵完备性需要无限内存，因此由于内存不足，宇宙无法创造出图灵完备的机器。
- 另一位成员开玩笑地建议，让计算机足够慢可以让宇宙的膨胀来解决空间问题，而另一位成员补充说，真实的内存需要被检索，距离越远，所需时间就越长。
牛津指南帮助初露头角的 Arxiv 作者：一位成员分享了一份由牛津大学教授编写的 Google Docs 指南，以帮助一名程序员撰写关于 LLM 训练的 Arxiv 论文。
- 该用户想分享见解，但不知道从哪里开始。
ARC Prize 分析 HRM 模型：一位成员分享了分析 HRM 模型的 fxtwitter 帖子和 ARC Prize 博客文章的链接。
- 这是为了回答另一位用户关于 HRM 模型是否值得花时间学习的问题。
图片展示消息传递方法：一位成员分享了一张插图，展示了神经网络中消息传递（message passing）的不同方法。
- 该图片源自一本书，可在 arXiv 上的 PDF 中查看。

Yannick Kilcher ▷ #paper-discussion (46 messages🔥):

Personality GAN, AI Welfare, Genome Conscious?, Super Weight, LLM Preferences

**SpongeBob GAN 亮相！: 一位成员提议了一个 Personality GAN，其中 Generator = LLM 且 Discriminator = LLM，使用 LoRA 进行微调，直到判别器无法区分真实的和虚假的 **Sponge Bob。
- 难点在于寻找一个尚未在 Sponge Bob 数据上进行过大量训练的 LLM。
**AI Welfare（AI 福利）受到认真关注！*: 讨论了一篇关于 *Taking AI Welfare Seriously arxiv link 的论文，涉及 Anthropic 关于 Exploring Model Welfare Anthropic link 的文章。
- 这与另一篇 Anthropic 文章有关，涉及结束子集对话（end-subset conversations）。
**LLM Weight（LLM 权重）的奇特现象！: **Llama 3 7B 权重矩阵中单个数字的变化就导致其输出乱码，引发了关于意识/身份（consciousness/identity）的疑问 Apple link。
- 一位成员问道：他们是否仅通过调整一个数字就抹去了它的“意识”/“身份”？
**LLM Preferences（LLM 偏好）显现！**: 有人指出，模型在预训练期间会形成类似人类的表征，且 LLM 确实存在偏好，参考了这篇 LessWrong 文章。
- 一位成员评论道：在我的那个年代，我们管这叫类别不平衡偏差（class imbalance bias）。
**AI Duality（AI 二元性）引发辩论！**: 讨论涉及 AI 作为一种双重用途技术（dual-use technology），适用于所有领域，因为每个人都会使用它 QuantaMagazine link。
- 一位成员表示 聪明是相对的，并且恒温器具有主体性 (agency)，因为它们会对自身和外部环境进行建模。

Yannick Kilcher ▷ #ml-news (8 messages🔥):

Yann LeCun's position at FAIR, Thermodynamic computing chip, AI Slurs, Energy Efficiency in AI

**Zuckerberg 可能要解雇 LeCun？！: 一位用户根据 Zuckerberg 的帖子推测 **Yann LeCun 可能会离开 FAIR。
- 另一位成员暗示 LeCun 可能已被降职，且 Meta 正在从开源模型领域撤退。
Clanker Cogsucker 机器人 AI 侮辱性词汇走红！: 一位用户分享了一篇 Rolling Stone 文章，讨论了诸如 clanker 和 cogsucker 等新型 AI slurs 的出现。
首款热力学计算芯片（Thermodynamic Computing Chip）完成流片（Tape-out）: 一位成员发布了一篇来自 Tom’s Hardware 的文章，关于世界上首款热力学计算芯片达到流片（tape-out）阶段。
AI 行业并不关心能源效率（Energy Efficiency）: 一位用户分享了一段 YouTube 视频，认为 AI 行业 普遍不优先考虑 energy efficiency。
- 他们指出，另一家具有类似价值主张的公司已经倒闭，这表明该行业并不关心能源效率。

HuggingFace ▷ #general (67 条消息🔥🔥):

max_steps 混淆, levelbot space 访问, 高 token 下的模型幻觉, Pro 版本支付问题, root mean square norm 量化误差

关于 max_steps 参数的困惑：一名成员对其在 5090 GPU 上配合 vllm 的 max_steps 参数实现感到困惑，并询问 LFM2-1.2B 模型是否合适。
Token 限制引发幻觉：一名成员询问模型开始产生幻觉的 token 限制，并对任何模型能在 100 万个 token 下有效运行表示怀疑。
- 另一名成员链接了 Hugging Face 的 Agents 课程和一个 Discord 频道，建议将这些资源作为潜在的解决方案。
用户报告 Pro 版本支付问题：一名用户报告被收取了两次 Pro 版本 费用但未获得服务，被建议发送邮件至 website@huggingface.co 并在指定的 MCP 频道寻求帮助。
自定义损失函数微调 SFTTrainer：一名成员在 ChatGPT 的帮助下创建了一个自定义损失函数，旨在与 SFTTrainer 配合使用，以增强模型对医疗文本中特定否定词的关注。
- 另一名成员建议改用带有偏好对（preference pairs）的 DPO，而另一位成员则强调了在医疗领域挖掘困难负样本（hard negatives）后使用 triplet loss 的效用。
LLM 训练中 SFT 与 DPO 的比较：成员们讨论了 DPO (Direct Preference Optimization) 与 SFT (Supervised Fine-Tuning) 的效果，一名成员指出 DPO 与推理（reasoning）没有关系，但 SFT 之后的 DPO 比单纯的 SFT 效果更好。

HuggingFace ▷ #i-made-this (3 条消息):

AgentX 交易平台, 语言扩散模型, 本地 AI 工作区 PDF 阅读器

**AgentX 承诺打造 AI 交易智囊团：全新的 **AgentX** 平台旨在提供一个交易台，让最聪明的 AI 大脑——ChatGPT、Gemini、LLaMA、Grok**——协同工作。
- 其目标是让这些模型进行辩论，直到它们对最佳操作达成一致，为交易者提供一个可以完全信任的系统。
不到 80 行代码复现扩散语言模型：一名成员使用 🤗 Transformers 在不到 80 行代码内复现了 Nie 等人 (2025) 的论文 Large Language Diffusion Models 的部分内容。
- 该项目在 TinyStories 数据集上微调了 DistilBERT，结果好于预期，目前正在寻求反馈和 Star。
本地优先的 PDF 阅读 AI 工作区亮相：一名成员在 Product Hunt 上发布了一个本地优先的 AI 工作区 PDF 阅读器，并分享了链接。
- 他们请求社区的支持。

HuggingFace ▷ #NLP (1 条消息):

Hugging Face Learn 课程, 422 错误

Hugging Face Learn 课程页面宕机：一名成员报告 Hugging Face LLM 课程的一个页面无法访问。
- 该页面显示 422 错误。
Hugging Face Learn 课程需要修复：一名用户报告 Hugging Face Learn 课程页面宕机并显示 422 错误。
- 该问题需要解决，以便用户可以访问内容。

HuggingFace ▷ #agents-course (4 messages):

Hugging Face Certificates, Agents vs MCP Course, Agent tool, LLM tasks

Hugging Face 证书位置困扰用户：一位用户询问在哪里可以找到他们的 Hugging Face certificates，以便将其发布到 LinkedIn。
- 他们提到在平台或电子邮件中都找不到这些证书。
Agents 课程与 MCP 课程引发辩论：一位用户正在纠结是在完成 Agents 课程的 Unit 1 后转向 MCP Course，还是先完成 Agents Course。
- 由于时间限制，他们想知道应该优先考虑哪门课程。
Agent 工具功能揭秘：一位用户寻求关于 Agent Unit 1 成功运行的解释。
- 他们理解 Agent 使用工具（functions），并触发这些工具来执行任务，而不是直接调用 LLM。

Notebook LM ▷ #use-cases (19 messages🔥):

Gems for podcast generation, NotebookLM podcast length, Customizing NotebookLM podcasts, Analyzing Terms of Use and Privacy Policies, South Park episode on Terms and Conditions

AI 大师分享生成长播客的 Gems：一位用户询问如何在 NotebookLM 中从 3-4 小时的 YouTube 视频生成更长的播客，对此一位用户建议使用预设提示词（set prompts）来逐段规划整个文案。
- 一位用户分享了一个工作流，用于创建一个“深度研究报告框架”，随后可使用 Gems、Gemini、PPLX 或 ChatGPT 来生成播客。
通过自定义解锁更长的 NotebookLM 播客：一位用户询问 NotebookLM 中的播客长度限制，另一位用户指出在 Customize 选项（三个点）中可以将播客长度设置为 45-60 分钟。
- 另一位用户补充说，指定主题可以让 Bot 集中讨论特定话题，而不是指望它将所有重要内容都塞进一个播客中。
隐私政策偏执：医疗保健网站的妥协被曝光：一位用户在想起有人曾使用 AI 工具分析这两份文档并大有发现后，使用 Gemini 和 NotebookLM 分析了一家医疗保健公司的隐私政策和使用条款。
- 该用户对你向这些公司出让了多少权利感到惊讶，并认为这种方法对于理解使用条款（Terms of Use）和隐私政策非常有用。
《南方公园》预言了接受条款和条件的痛苦：一位用户推荐去看看关于接受条款和条件的 South Park 老剧集。
- 另一位用户回忆起一个游戏，其 EULA/隐私/条款中隐藏了一个竞赛：第一个拨打特定电话号码的人可以赢得一千美元，而这个奖项竟然六个月无人认领。

Notebook LM ▷ #general (51 messages🔥):

Video Length Limits, Study guide on android app, Audio Language Change, Public Sharing Issue, Notebook LM API

Android 应用功能对齐延迟：用户要求 NotebookLM Web 端和 Android 应用之间实现更多的功能对齐（feature parity），特别是学习指南功能。
- 一位用户表示，目前的原生应用几乎没用，因为学习指南依赖于笔记功能，而原生应用中缺少该功能。
自定义屏幕提供语言更改选项：一位用户询问如何更改 iOS 应用中生成的音频概览（audio overview）的语言。
- 另一位用户回答说，语言设置可以在 Customize 菜单中找到。
无法公开分享 Notebook：一位用户报告称，尽管拥有 Pro 账户，但仍无法公开或向外部分享 Notebook。
- 该功能目前尚未开放。
NotebookLM 缺少官方 API，但存在变通方法：一位用户询问 NotebookLM 的 API。
- 另一位用户建议使用 Gemini API 作为替代方案。
NotebookLM 中的 OCR 操作：用户讨论了 NotebookLM 是否对多模态 PDF 执行 OCR 操作。
- NotebookLM 支持 PDF 并且正在改进图像处理，但 OCR 识别尚不完善，用户可能需要重新上传 PDF 或使用外部 OCR 工具。

Nous Research AI ▷ #general (65 messages🔥🔥):

Base Model Release, Ideal 30B Model, FA2 and Context, Qwen Scaling, Importance Matrix Calibration Datasets

字节跳动发布长上下文模型：字节跳动发布了一个具有极长上下文的基础模型，其特点是无 MHLA、无 MoE，甚至没有 QK norm，详见这张图片。
- 该模型在架构上被描述为 vanilla（原生），人们希望他们能发布一篇包含更多解释的论文。
Seed-OSS-36B 缺失 GGUF 引发关注：用户想知道为什么没有可用的 Seed-OSS-36B 的 GGUF 版本，因为这类版本通常出现得很快。用户引用了这个链接并询问这是否意味着对 ASIC 持看空态度。
- 据指出，延迟可能是由于自定义的 vllm 实现，以及 llama.cpp 尚未支持该架构（架构名为：[“SeedOssForCausalLM”]）。
Seed 模型实现了 Dropout 和 Bias：Seed 模型具有类似于 LLaMA 的自定义 MLP 和注意力机制，但增加了 dropout、输出偏置项（bias term）以及 qkv 头的偏置项，这些被解读为正则化技术。
- 成员们想知道该模型训练了多少个 epoch，但确认将其重命名为 LLaMA 是行不通的。
Qwen 通过 RoPE 缩放实现 512k 上下文：如这个 Hugging Face 数据集中所讨论的，30B 和 235B 的 Qwen 2507 模型可以通过 RoPE 缩放实现 512k 的上下文。
- 这些数据集用于生成重要性矩阵（imatrix），有助于在量化过程中最大限度地减少误差。
Cursor 的 Kernel 博客获得赞赏：成员们分享了 Cursor Kernel 博客的链接。
- 有人评价说 Cursor 在这方面做得非常出色（cursor cooked）。

Moonshot AI (Kimi K-2) ▷ #general-chat (47 messages🔥):

DeepSeek V3.1, R-Zero LLM Training Method, Energy availability in China vs US, Kimi K2 combined with Better image gen than gpt 5

DeepSeek V3.1 发布：增量式进步：新的 DeepSeek V3.1 模型已发布，一些成员指出这更像是一个带有某些退步的 增量改进，参考 DeepSeek 官方页面。
DeepSeek 支持 Anthropic API：DeepSeek 现在支持 Anthropic API，扩展了其功能和覆盖范围，正如其在 X 上的公告所述。
R-Zero：自我进化的 LLM：一份关于 R-Zero 的综合研究被分享（PDF），这是一种从零人类数据开始并独立改进的自我进化 LLM 训练方法。
中国优先考虑能源可用性：一位成员指出，在中国，能源可用性被视为理所当然，这与美国关于数据中心能耗和电网限制的辩论形成对比，参考了这篇《财富》杂志文章。
更好的图像生成 + Kimi K2：一位成员指出，如果 Kimi K2 能结合 优于 GPT-5 的图像生成能力，将会更加强大（OP），并分享了这个 Reddit 链接。

aider (Paul Gauthier) ▷ #general (36 messages🔥):

Gemini 2.5 Pro Failure, Qwen CLI Charging, GPT-5 Benchmarks, DeepSeek v3.1 Pricing, OpenRouter Think Mode

**Gemini 2.5 Pro 失败而 Flash 成功：一位成员报告称 **Gemini 2.5 Flash 可以工作，但 Gemini 2.5 Pro 持续失败，而如果设置了计费，gemini/gemini-2.5-pro-preview-06-05 则可以工作。
- 另一位成员报告称因 qwen-cli 进程被扣除 $25，正在寻求退款。
**用户因使用 Qwen CLI 被意外扣费：一名用户在通过 OAuth 使用 Google 身份验证后，因使用 **qwen-cli 被扣除 $25，尽管其目标是获取来自 Alibaba Cloud 的免费额度。
- 他们提交了一个工单，展示了控制台记录中 一次调用花费 $23 且没有输出 的情况。
**社区渴望对 GPT-5 低推理模型进行基准测试：成员们正在对 **gpt-5-mini 和 gpt-5-nano 进行 Benchmark，因为他们在全量版 gpt-5 上受到了速率限制，尽管一位用户声称 gpt-5-mini 非常出色且便宜。
- 频道中已经发布了 gpt-5-mini 的测试结果和 PR。
**DeepSeek v3.1 价格显著上涨**：用户报告称，从 2025 年 9 月 5 日开始，DeepSeek 将提高两个模型的定价，以匹配 Reasoner 模型的价格。
- 与新的 deepseek 3.1 相比，Input 价格上涨至 $0.25 vs $0.27。
**OpenRouter 需要 Think 模式：一位用户报告称 **OpenRouter 似乎没有 “think” 模式，但可以通过命令行使用以下代码片段来调用：aider --model openrouter/deepseek/deepseek-chat-v3.1 --reasoning-effort high。
- 社区建议更新模型配置以解决此问题。

aider (Paul Gauthier) ▷ #questions-and-tips (3 messages):

aider stdout issue, polyglot benchmark on llama cpp

Aider 的标准输出 (stdout) 难题：一位用户报告了 程序输出/stdout 无法在 aider 中显示的问题，并发布了一张图片。
破解 Polyglot Benchmark 结果：一位在本地 llama cpp model 上运行 polyglot benchmark 的用户询问如何获取每种语言的结果。
- 该用户随后找到了解决方案并分享了链接，供其他寻求特定语言 Benchmark 结果的人参考。

aider (Paul Gauthier) ▷ #links (1 messages):

end4749: <@293486003245809664> 垃圾信息？ ^

DSPy ▷ #show-and-tell (1 messages):

marimo notebooks, Graph RAG with DSPy, DSPy modules optimization

Marimo Notebooks：Jupyter 的精神继任者：一位成员一直在发布关于 marimo notebooks 的教程，它可以同时作为 Notebook、Python 脚本和 App 使用。
- 教程强调了在迭代 Graph RAG with DSPy 的想法时 marimo 的实用性。
未经优化的 DSPy Pipeline：展示的 DSPy pipeline 故意没有进行优化，以强调仅通过 Signatures 和 Modules 就能实现多少功能。
- 该方法专注于在深入优化之前，通过以各种方式组合 DSPy modules 来进行快速迭代。
深入探讨优化：即将发布的视频和博客文章将深入探讨 DSPy modules 优化的主题。
- 目前的教程是为那些想要开始使用的人提供的 marimo 入门介绍。

DSPy ▷ #papers (5 messages):

IBM AutoPDL paper, DSPy code readability, Justification of work

IBM 的 AutoPDL 主张被驳回：一位成员认为没有必要回应每一个主张，暗示每个人都在寻找角度来证明自己工作的合理性，并且关于不可读性的主张是错误的。
- 他们表示 DSPy 代码和 Prompt 在任何意义上都极其符合人类阅读习惯，甚至可以说非常优美。
捍卫 DSPy 代码的可读性：一位成员辩称 DSPy 的代码和 Prompts 极其易读、易懂且清晰，对相反的主张提出了挑战。
- 该成员强调，代码的可读性使其易于理解和使用。

DSPy ▷ #general (28 messages🔥):

dspy.GEPA 版本, 微调 dspy 描述, 保存优化后的程序, GEPA 的上下文长度, KPMG 入职

DSPy 的 GEPA 在 v3.0.1 中现身：一位成员询问包含 GEPA 的 dspy 库版本，另一位成员确认该功能在 3.0.1 版本中可用，如附带的截图所示。
DSPy 微调：描述性还是原生？：在微调期间，一位成员询问是否通常对 dspy.InputField() 和 dspy.OutputField() 使用“原生描述 (vanilla descriptions)”，以便让优化器自由思考。
DSPy 将优化后的程序保存在 Pickle 中：一位用户报告了保存优化程序时的问题，指出即使使用了 optimized_agent.save("./optimized_2", save_program=True)，元数据也仅包含有关 dependency versions 的信息，而不包含程序本身。
GEPA 遭到截断：当用户为 GEPA 设置了 32k 的最大上下文长度但仍收到截断的响应时，成员们讨论了长推理的复杂性以及多模态设置的潜在问题。
- 一位成员引用一个复杂的提示词示例开玩笑说：“想象一下必须维护那个东西”。
RAG 是大材小用，直接拼接即可（或者不）：成员们开玩笑地争论对于处理税法或农作物保险文件等任务，RAG (Retrieval-Augmented Generation) 还是简单的 concatenation（拼接）更合适，并承认数百万份文件的规模有时确实需要 RAG。
- 一位成员调侃道：“RAG 是大材小用。直接把税法拼接起来就行了，”而另一位成员反驳道：“哦，我猜那超过 100 页了。好吧，那 RAG 挺好的。”

Cohere ▷ #🧵-general-thread (13 messages🔥):

command-a-03-2025 的引用问题, 保证引用, command-a-reasoning 发布, 使用 Langchain 构建 RAG, Cohere 对比 Qwen3-coder 30B

command-a-03-2025 间歇性引用引发的提示词困扰：一位用户报告称 command-a-03-2025 仅间歇性地返回引用，即使将 maxTokens 设置为 8K 也是如此，这导致了生产环境中的信任问题，并寻求某种保证。
- 一位 Cohere 成员澄清说 command-a-03-2025 在引用时使用“快速 (fast)”模式（根据 API 参考），引用并不保证一定生成，但可以通过 system prompts 引导模型，且最新发布的 SOTA 模型 command-a-reasoning 可能也会有所帮助（参见博客）。
Langchain RAG 探索开启：一位成员正在学习 Langchain 以构建 RAG (Retrieval-Augmented Generation) 应用。
- 他们提到打算使用 command-a-reasoning，期待 command-a-omni 的发布，并对未来名为 Command Raz 的模型表示期待。
Cohere 与 Qwen 争夺本地 LLM 席位：一位用户正在寻找 Cohere 的替代方案来取代 Qwen3-coder 30B 模型，目标是使其能够运行在 64GB M4 Max 设备上。
- 该用户“非常想尝试 Cohere 的方案来替代本地强力模型 Qwen3-coder 30B”，以便能适配其 64GB M4 Max。

Cohere ▷ #📣-announcements (1 条消息):

Command A Reasoning Model, Enterprise AI, Agentic AI Platform

Cohere 发布 Command A Reasoning 模型：Cohere 发布了 Command A Reasoning，这是其最新的用于推理任务的企业级模型，在 Agentic 和多语言基准测试中优于其他可私有部署的模型；可通过 Cohere Platform 和 Hugging Face 获取。
Command A Reasoning 规格与特性揭晓：新模型专为企业需求设计，提供高度安全、高效且可扩展的部署选项，可在单张 H100 或 A100 上运行，上下文长度为 128k，在多 GPU 上可扩展至 256k；更多信息请参阅 Cohere blog。
Token Budget 功能控制成本与算力消耗：Cohere 的 Command A Reasoning 具备 token budget 设置，可直接管理算力使用并控制成本，无需区分推理和非推理模型，同时满足准确性和吞吐量需求。
Command A Reasoning 为 North 提供动力：Command A Reasoning 是驱动 North 的核心生成模型，North 是 Cohere 的安全 Agentic AI 平台，支持自定义 AI Agent 和本地自动化。

Cohere ▷ #🔌-api-discussions (4 条消息):

Cohere Embed-v4 on Azure AI Foundry, Cohere Python Library Document Object

Cohere Embed-v4 输入类型映射：一位成员正在 .NET 应用程序中使用部署在 Azure AI Foundry 上的 Cohere Embed-v4（通过 Azure AI Inference API），并寻求关于 Microsoft 的 EmbeddingInputType 如何映射到 Cohere API 文本嵌入的澄清。
- 具体而言，鉴于 Cohere 的 input_type 参数中缺乏显式的 text 选项，他们不确定 EmbeddingInputType.Text 是否应映射到 Cohere API 中的 search_document。
Cohere Python 库的 Document 对象：一位成员对 Cohere Python 库中的 Document 对象提出疑问，其中 data 字段预期为一个字典 (typing.Dict[str, typing.Optional[typing.Any]])。
- 他们指出 Tool Use 快速入门示例在该字段中使用了一个字符串（json.dumps 调用的输出），并想知道 Python 绑定是否能正确处理此问题，参考了 Tool Use Quickstart 文档。

Cohere ▷ #👋-introduce-yourself (7 条消息):

MLE Research, Independent Interpretability Research, AI Innovation and Value Creation, Enterprise Workflows

MLE 寻求研究团队联系：一位拥有计算机科学硕士学位并具有 MLE 经验的毕业生，正寻求与研究团队或机构建立联系。
- 该成员表达了对协作和为研究工作做出贡献的兴趣。
可解释性研究员渴望合作：一位拥有 8 年 应用 ML 经验、常驻印度班加罗尔的独立可解释性研究员，正转向 AI 研究，专注于 mechanistic interpretability。
- 该研究员对评估、模型去偏和 RL 感兴趣，寻求在可解释性相关话题上的合作与讨论。
执行顾问架起 AI 创新与价值的桥梁：一位拥有 25 年以上 经验的独立顾问兼执行顾问加入了社区，专注于将技术和 AI 创新与价值创造相结合。
- 凭借在 Accenture, IBM 和 Deloitte 等公司的经验，他们现在帮助客户通过 AI 创造可持续的、全组织范围的价值，公司网站为 Mantha Advisory。
CTO 探索 Cohere 以打造更好的产品：一位拥有 25 年以上 经验的 CTO 最近发现了 Cohere，并有兴趣探索其在改进产品方面的能力。
- 他们关注数据质量、规模、性能、工作流、数据完整性和多语言支持，并热衷于向社区学习。

MCP (Glama) ▷ #general (12 messages🔥):

C# client library, MCP server's instructions field, MCP servers, generate_test_prompt.md, GitHub

MCP 客户端忽略 Instructions 字段：成员们在使用 MCP 客户端（尤其是 Claude）时遇到了问题，Instructions 字段似乎被忽略了，而系统更倾向于使用工具描述（tool descriptions）。
- 一位成员建议，添加指令、上下文，然后重复指令会产生更好的效果，但对于集成到 API 的工具来说，这是不可能的。
MCP 服务器选项评估：一位成员询问开发者们正在使用哪些 MCP 服务器，以及在这些服务器中哪些工具看起来更高效。
- 另一位成员强调了 GitHub 用于版本控制、Python 配合 FastAPI 用于后端开发，以及 PyTorch 用于机器学习的实用性。
让 Agent 遵循指令：一位用户询问如何让 Agent 遵循特定的 generate_test_prompt.md 文件，并对 Agent 在开启新对话时无法坚持项目的逻辑设计模式表示沮丧。
- 他们在消息中附带了一张截图。
MCP 服务器解析优先处理工具描述：一位成员指出，MCP 服务器内部的解析逻辑可以被结构化，以便在处理 Instructions 字段之前先处理工具描述。
- 建议采取的措施包括：审查服务器文档、检查客户端配置、分析服务器端逻辑以及进行受控实验。
提及的指令遵循模型：成员们讨论了哪些模型能够遵循指令并生成结构化输出，推荐了 Mistral-7B-Instruct、DeepSeek-Coder 和 Phi-3。
- 他们还提到了 OpenHermes-2.5-Mistral-7B、WizardLM-2 和 Gorilla-LLM 作为专门针对函数调用（function-calling）的模型。

MCP (Glama) ▷ #showcase (10 messages🔥):

Web-curl, MCP-Boss, MCP Explained Video, SWAG-MCP, MCP Routing

**Web-curl 为 LLM Agent 赋予 Web 和 API 交互能力：一位成员介绍了 **Web-curl，这是一个使用 Node.js 和 TypeScript 构建的开源 MCP 服务器，使 LLM Agent 能够以结构化的方式获取、探索并与 Web 及 API 进行交互，完整代码可在 GitHub 上获取。
**MCP Boss 集中管理 MCP 服务的密钥：一位成员构建了 **MCP Boss 来集中管理密钥，提供单一 URL 来网关化所有服务，具有多用户身份验证和通过 OAuth2.1 或静态 HTTP 标头进行的 MCP 授权等功能 (mcp-boss.com)。
视频揭秘 MCP：一位成员发布了一个名为《MCP Explained: The Ultimate Deep Dive》的视频，已上传至 YouTube，邀请大家对引导（Elicitation）、根（roots）和采样（sampling）等客户端功能提供反馈并展开讨论。
**SWAG-MCP 为流式 HTTP MCP 服务器生成反向代理配置：一位成员分享了 **SWAG-MCP，这是一个旨在为 SWAG 生成反向代理配置的 MCP 服务器，支持自托管服务和可流式传输的 HTTP MCP 服务器 (github.com/jmagar/swag-mcp)。
**MCP Gateway 使用 AI 路由请求：一位成员开发了一个带有 **AI 驱动路由功能的轻量级网关，以解决 Agent 需要知道哪个特定服务器拥有正确工具的问题，代码可在 GitHub 上获取。

Modular (Mojo 🔥) ▷ #general (2 messages):

Modverse #50, Custom Server Tag

Modular 发布 Modverse #50：Modular 发布了 Modverse #50，其中介绍了多位成员。
- 公告还提到他们现在拥有了一个自定义服务器标签（custom server tag）。
自定义服务器标签上线：Modular 团队宣布了自定义服务器标签的到来，并在附图中展示。
- 链接的图片 (Screenshot_2025-08-21_at_5.22.15_PM.png) 显示了新标签。

Modular (Mojo 🔥) ▷ #mojo (10 messages🔥):

kgen 和 pop 文档，MLIR dialects，pop.union 对齐 bug，GitHub issue 5202

kgen 和 pop 的文档稀缺：一名成员询问关于 kgen 和 pop 的文档，特别是操作和参数，但另一名成员表示 目前还没有关于内部 MLIR dialects 的全面文档。
- 分享了 GitHub 上的 pop_dialect.md 链接，并澄清这些是 stdlib 与 compiler 之间契约的一部分，因此在 stdlib 之外使用它们需自担风险。
怀疑 pop.union 存在对齐 Bug：一名成员询问了 pop.union 中元素的对齐问题，指出在使用 sizeof 时出现了意料之外的大小。
- 他们分享的代码显示 union_type_simple_8_bit_stdlib 的大小为 16 bytes，而 union_type_simple_8_bit 和 union_type_simple_multi_bit 的大小均为 8 bytes，另一名成员建议 对齐问题可能是一个 bug。
已创建 Issue 以调查对齐 Bug：一名成员在 GitHub 上创建了 issue 5202，以调查 pop.union 中疑似存在的对齐 bug。
- 该成员指出他不确定这是技术操作问题还是 bug，同时也观察到 pop.union 似乎没有在任何地方被使用。

Modular (Mojo 🔥) ▷ #max (7 messages):

TextGenerationPipeline 'execute' 方法，用于检索 logits 的自定义推理循环，语言分配器与 OOM 处理

TextGenerationPipeline 的 execute 方法浮出水面：一名成员正在寻找 TextGenerationPipeline 上的 execute 方法但未能找到。
- 另一名成员指向了 Modular 仓库中的相关代码行，并建议检查 MAX 版本。
为 Logit 爱好者准备的自定义推理循环？：一名成员报告说，在创建自定义推理循环时，难以在获取下一个 token 的同时检索 logits，发现这有点繁琐。
- 该成员链接了一个 Google Docs 文档以提供背景信息，并确认该选项仍然可用，但其未来尚不确定。
内存分配器是必选项吗？：一名成员建议，在将内存分配器集成到语言中之前，可能需要健壮的 allocator 支持。
- 他们认为大多数用户不想手动处理内存不足 (OOM) 错误。

LlamaIndex ▷ #blog (2 messages):

企业级文档 AI，vibe-llama

LlamaIndex 揭秘企业级文档 AI：LlamaIndex 的产品副总裁将于 PDT 时间 9 月 30 日上午 9 点分享一年来关于文档解析、提取和索引的企业级经验。
使用 vibe-llama 简化开发：LlamaIndex 发布了 vibe-llama，这是一个命令行工具，可以自动为阁下喜爱的 coding agents 配置有关 LlamaIndex framework 和 LlamaCloud 的最新上下文和最佳实践。
- 它还包含更多信息。

LlamaIndex ▷ #general (13 messages🔥):

HuggingFace CrossEncoder Duplication, Agent creation project, AI Safety Survey

CrossEncoder 类：Core 与 Integrations：一位成员询问了 llama-index 中重复的 CrossEncoder 类实现，具体位于 .core 和 .integrations 下（代码链接）。
- 另一位成员澄清说，.core 中的版本是 v0.10.x 迁移留下的产物，应该删除，建议改用 llama_index.postprocessor.sbert_rerank 并通过 pip install llama-index-postprocessor-sbert-rerank 安装。
寻求 Agent 创建网关：一位成员询问是否存在现有的项目可以作为网关，将 model, memory, and tools 结合在一起，并暴露一个 OpenAI-compatible endpoint。
- 该成员想知道是否有现有的项目可以利用，以避免在 Agent 探索中重复造轮子。
AI 安全调查：需要社区意见！：一位成员分享了一个 AI 安全调查链接，以收集社区对重要 AI safety questions 的看法。
- 该成员请求大家填写表单，以帮助他们了解 AI safety community 最感兴趣的内容，并请大家对可能的加载延迟保持耐心。

Manus.im Discord ▷ #general (13 messages🔥):

Credits Purchase, Tickets Issues, Contest Rigging Accusations, Free Daily Credits, Referral Credits

积分购买选项缺失：成员们报告说购买额外积分的选项消失了，其中一人指出只能看到 upgrade package（升级包）选项。
- 另一位成员确认该选项目前已下线。
未解决的支持工单困扰用户：一位用户报告了一个任务问题并创建了工单 #1318，但尚未收到回复或获得访问该工单的权限。
- 他们请求团队协助，并标记了一位特定成员。
比赛获胜者引发操纵指控：一位用户指称比赛的第二名不配获胜，并声称比赛看起来像被操纵了。
- 目前没有提供进一步的证据或细节来支持这一说法。
每日免费积分已停止？：一位在离开一个月后返回 Manus 的用户注意到，他们没有收到通常的每日 300 免费积分。
- 他们询问 Manus 是否已停止提供这些积分。
推荐积分代码难题：一位用户询问如何领取推荐积分，并提到系统要求输入代码。
- 该用户表示不知道在哪里可以找到所需的代码。

tinygrad (George Hotz) ▷ #general (7 messages):

Overworld const folding, View(const) refactor, UPat cvar and UPat.const_like redefinition, RANGEIFY=1 Impact, base removal

探索 Overworld 常量折叠策略：一位成员正在探索 overworld 常量折叠，可能涉及 view(const) 重构，并提议重新定义 UPat.cvar 和 UPat.const_like 以匹配 CONST 和 VIEW(CONST)。
- 目标是折叠像 x * 0 这样的表达式，但有人担心符号计算中可能出现的有效性问题和 .base 扩散，如此 Discord 讨论串所述。
替代方案：ALU View 推送：建议采用另一种方法，模仿 S-Lykles 的方法，即在 kernelize 中添加一个 upat，将 view 直接推送到 ALUs。
- 这种方法配合针对 x * 0 的特殊规则（理由是 * 0 在计算上无关紧要），将允许未经修改的符号匹配。
提倡移除 base：一位成员强烈反对提议的方法，认为它“超级丑陋”，并主张移除 .base。
- 讨论还质疑了在此背景下如何处理 PAD 操作。
RANGEIFY=1 作为潜在的简化方案：有人建议设置 RANGEIFY=1 可能会带来更简洁的实现。
- 然而，项目目前正处于旧引擎和 rangeify 并存的过渡阶段，处于一种悬而未决的状态。

nano-banana 即 Gemini-2.5-Flash-Image，其 Elo 评分领先 Flux Kontext 170 分，在一致性、编辑能力和多图融合方面达到了业界领先水平（SOTA）。