平静的一天。

2026年3月23日至3月24日的 AI 新闻。我们检查了 12 个 subreddits，544 个 Twitter 账号，没有新增 Discord 信息。AINews 网站允许您搜索所有往期内容。提醒一下，AINews 现在是 Latent Space 的一部分。您可以选择加入/退出邮件接收频率！

AI Twitter 综述

模型与产品发布：Gemini 3.1 Flash Live, Mistral Voxtral TTS, Cohere Transcribe 以及 OpenAI GPT-5.4 mini/nano

Google 通过 Gemini 3.1 Flash Live 推动实时化：Google 推出了 Gemini 3.1 Flash Live，作为其用于语音和视觉 Agent 的新实时模型，强调了更低的延迟、改进的 function calling、更强的噪声环境鲁棒性，以及 Gemini Live 中 2 倍长的对话记忆。此次发布涵盖了 Gemini Live、Search Live、AI Studio 预览版以及企业级 CX 界面。Google 在一些面向开发者的总结中提到，该模型支持 70 种语言、128k 上下文，并能通过 SynthID 为生成的音频添加水印 (Logan Kilpatrick, Google DeepMind, Sundar Pichai, Google)。来自 Artificial Analysis 的第三方基准测试强调了新的“思考级别”权衡：在高推理模式下，Big Bench Audio 准确率为 95.9%，TTFA（首字响应时间）为 2.98s；而在最低推理模式下，准确率为 70.5%，TTFA 为 0.96s。
语音技术栈竞争迅速升温：Mistral AI 发布了 Voxtral TTS，这是一个旨在用于生产级语音 Agent 的开放权重 TTS 模型，支持 9 种语言，具有低延迟和极佳的人类偏好指标；多份摘要提到其模型占用空间约为 3B/4B 级，首个音频输出时间 (TTFA) 约为 90 毫秒，且在偏好测试中与 ElevenLabs 的对比表现出色 (Mistral AI, Guillaume Lample, vLLM, kimmonismus)。Cohere 推出了其首个音频模型 Cohere Transcribe，基于 Apache 2.0 协议，并声称以 5.42 WER（字错率）和 14 语言支持位居 Hugging Face Open ASR 排行榜英语类榜首 (Cohere, Aidan Gomez, Jay Alammar)。值得注意的是，Cohere 还为 vLLM 贡献了 encoder-decoder 推理服务优化——包括变长 encoder 批处理和打包的 decoder attention——据报道，这为语音工作负载带来了高达 2 倍的吞吐量提升 (vLLM)。
OpenAI 较小的 GPT-5.4 变体在具备成本竞争力的同时也存在一些局限：Artificial Analysis 报道了 GPT-5.4 mini 和 GPT-5.4 nano，两者均为多模态模型，具备 400k 上下文以及与 GPT-5.4 相同的推理模式。亮点在于 GPT-5.4 nano，它在多项 Agent 和终端类任务的基准测试中领先于 Claude Haiku 4.5 和 Gemini 3.1 Flash-Lite 预览版，同时在有效成本基础上更便宜。缺点是：这两个变体都被描述为极其啰嗦，输出 token 使用量偏高，且由于较高的幻觉率，在 AA-Omniscience 上的表现较弱。这与开发者在实践中对 GPT-5.4/代码模型过于冗长的负面反馈相吻合 (giffmana)。
其他值得关注的发布：Zai 向 GLM 编程计划用户开放了 GLM-5-Turbo；Reka 将 Reka Edge 和 Flash 3 上架 OpenRouter；Google/Gemini 也开始推出从其他 AI 应用导入聊天历史和偏好的功能；多条推文报告称，OpenAI 已降低了包括 Sora 和“成人模式”聊天机器人在内的副线项目优先级，转而专注于核心生产力工作 (Andrew Curran, kimmonismus)。

Agent 基础设施、测试框架与多 Agent 用户体验 (UX)

Cline Kanban 具象化了一种全新的多 Agent UX: 当天最清晰的工具发布是 Cline Kanban，这是一个免费、开源的本地 Web 应用，用于在隔离的 git worktrees 中并行编排多个 CLI 编程 Agent。它支持 Claude Code, Codex, 和 Cline，允许用户从一个看板链接任务依赖关系、审查 diffs 并管理分支 (Cline, Cline)。开发者的反应非常强烈，多人称其可能成为默认的多 Agent 界面，因为它解决了当前编程 Agent 工作流中的两个实际瓶颈：受限于推理速度的等待 (inference-bound waiting) 和 充满合并冲突的高并发 (merge-conflict-heavy parallelism) (Arafat, testingcatalog, sdrzn)。
“Harness engineering” 正在成为一个类别: 推特上反复出现的一个主题是，模型质量不再是全部；Agent harness——包括中间件、内存、任务编排、工具接口、安全策略和评估循环——正日益成为真正的产品。LangChain, hwchase17 等人强调 middleware（中间件）是 Agent 行为的定制层。voooooogel 提出了更强有力的观点，认为用户随口说 “LLM” 时，他们实际使用的是一个在基础模型之上集成了格式化、解析器、工具使用、结构化生成和内存的 agentic language system。
Hermes vs. OpenClaw: 内存和长时间运行的自主性至关重要: 大量帖子赞扬 Nous Research 的 Hermes Agent，认为在长时间运行、跨平台的 Agent 工作流中，它比 OpenClaw/OpenClaw 衍生堆栈更易用。示例包括 跨 Slack 和 Telegram 的持久内存、Agent 间的共享内存、更低的维护开销，以及用户报告 Agent 在本地或云端设置中无人值守运行数小时的情况 (IcarusHermes, jayweeldreyer, Niels Rogge)。Teknium 还预告了一个具有争议性的 GODMODE skill 用于持久化越狱，这强调了能力和安全性现在是在 harness 层而不仅仅是基础模型层被产品化的。
围绕 Agent 的工具链扩展: OpenAI 的 Codex 团队征集了扩展工具包集成的需求 (reach_vb)，而 Google 发布了如何构建 Gemini API skill 来教模型学习较新的 API 和 SDK，使 Gemini 3.1 Pro 在 117 项评估测试中的通过率达到 95% (Phil Schmid)。OpenEnv 被作为一种针对 agentic RL 环境 的开放标准推出，具有异步 API、websocket 传输、MCP-native 工具发现和可随处部署的打包方式。

研究系统与训练基础设施：AI Scientist, ProRL Agent 以及实时 RL

Sakana AI 的 AI Scientist 获得 Nature 里程碑并提出缩放定律观点: 最实质性的研究系统更新来自 Sakana AI，他们强调了一篇发表在 Nature 上的关于 AI 研究全流程自动化的论文，以及一个显著的实证结果：通过使用自动评审器对生成的论文进行评分，他们观察到了 AI 科学的缩放定律 (scaling law for AI science)，即更强大的基础模型会产生更高质量的科学论文，并认为这将随着更好的基础模型和更多的 inference-time compute 而进一步提升 (Sakana AI, paper/code follow-up)。Chris Lu 补充道，AI Scientist V1 早于 o1-preview 风格的推理模型，这意味着利用当今更强大的模型还有巨大的提升空间 (Chris Lu)。
基础设施瓶颈而非模型瓶颈可能正在限制 Agent RL: 一个重要的系统研究线程认为，Agentic RL 框架的架构设计存在问题，将 rollout 和优化耦合在同一个进程中。总结 NVIDIA ProRL Agent 的帖子声称，将 rollout 完全解耦为独立服务后，Qwen 8B 在 SWE-Bench Verified 上的表现几乎翻倍，从 9.6% 提升至 18.0%，4B 和 14B 版本也有类似增益，同时 GPU 利用率大幅提高 (rryssf_)。如果属实，这有力地提醒了人们，Agent 训练基准测试可能受限于基础设施，而非单纯受限于能力。
Cursor 的“实时 RL”是一种值得注意的生产训练模式：Cursor 表示它可以每五小时发布改进后的 Composer 2 检查点（checkpoints），将其呈现为一种产品化的 RL 反馈循环，而非静态的模型发布节奏。多位工程师将此视为生产环境中持续学习（continual learning）的早期信号，特别是对于具有高频交互数据的垂直整合应用（eliebakouch, code_star）。

架构、检索与推理效率

Transformer 深度正变得“可查询”：Kimi/Moonshot 将 Attention Residuals (AttnRes) 描述为将深度转变为一个注意力问题，允许各层选择性地从前一层的输出中检索，而不是被动地累积残差（Kimi）。来自 The Turing Post 的一篇有力解析将其定性为一个更广泛的趋势：深层 Transformer 正在从固定的残差叠加转向针对深度的自适应检索。
压缩与内存效率工作仍是核心：TurboQuant 作为一种实现具有近乎零精度损失的类 3-bit 压缩的实用路径而受到关注，它结合了 PolarQuant 和 1-bit 误差校正 (QJL) 来加速注意力计算和向量搜索，减少 KV cache 内存占用，并避免重新训练（The Turing Post）。另外，在 AI21 追踪到一个导致 GRPO 训练中 logprob 不匹配的隐蔽 uint32_t 溢出后，vLLM 的 Mamba-1 CUDA kernel 合入了一个微妙但影响重大的生产 Bug 修复；该修复实际上是将 uint32_t 更改为 size_t（vLLM, AI21）。
检索正趋向多模态化和专业化：多篇帖子指出检索技术正脱离通用的 RAG 方案。Victoria Slocum 强调了 IRPAPERS，研究显示 OCR/文本检索和图像页面检索在不同查询上各有所长，且多模态融合在处理科学 PDF 方面优于单一模式。Chroma 开源了 Context-1，这是一个专注于搜索的模型，通过超过 8,000 个合成任务进行 SFT+RL 训练，声称比前沿通用模型更好、更快、更便宜；John Schulman 称其课程学习、经过验证的合成数据以及上下文剪枝工具特别有趣。

热门推文（按互动量排序）

Meta 的 TRIBE v2：Meta 发布了 TRIBE v2，这是一种三模态大脑编码器，在来自 700 多人的 500 多小时 fMRI 数据上训练而成，声称比之前的方法提高了 2-3 倍，并能对未见过的受试者、语言和任务进行零样本预测（Meta AI, 详情）。
Claude Code 云端自动修复：Anthropic 为 Claude Code Web/移动端会话推出了远程 PR 跟踪自动修复功能，允许无人值守地修复 CI 失败和解决评论（Noah Zweben）。
Karpathy 论全栈软件自动化：Andrej Karpathy 认为“为我构建这个初创公司”的难点不在于代码生成，而在于完整的 DevOps/服务编排生命周期——支付、鉴权、基础设施、安全、部署——他认为这些对于 Agent 来说正变得可行。
Cline Kanban：面向编程 Agent 的多 Agent 工作树编排工具的发布引发了开发者异常强烈的兴趣（Cline）。
Cohere Transcribe 和 Mistral Voxtral：开放的、面向生产的音频模型发布继续保持势头，特别是在提供宽松许可和即时基础设施支持的情况下（Cohere, Mistral）。

AI Reddit 摘要

/r/LocalLlama + /r/localLLM 摘要

1. 新模型与基准测试发布

Mistral AI 将发布 Voxtral TTS，这是一个拥有 30 亿参数且权重开放的文本转语音模型，公司称其在人类偏好测试中超越了 ElevenLabs Flash v2.5。该模型可在约 3 GB 的 RAM 上运行，首音延迟（time-to-first-audio）仅为 90 毫秒，支持九种语言。 (热度: 1306): Mistral AI 宣布发布 Voxtral TTS，这是一个具有 30 亿参数并提供开放权重的文本转语音（TTS）模型，声称其在人类偏好测试中超越了 ElevenLabs Flash v2.5。该模型旨在高效运行，仅需约 3 GB RAM，实现 90 毫秒 的首音延迟，并支持九种语言。正如 VentureBeat 所详述，其开放权重可免费获取。评论者对 Mistral 之前的模型表示怀疑，但注意到 Voxtral TTS 有显著改进，强调其令人印象深刻的输出质量。人们对该模型权重的发布充满期待，部分用户已在 Mistral Console 上进行了测试，并反馈了积极的结果。
- Mistral AI 的 Voxtral TTS 模型是一个 30 亿参数的模型，据报道在人类偏好测试中优于 ElevenLabs Flash v2.5。它运行高效，仅需约 3 GB 的 RAM，并实现了 90 毫秒的首音延迟，这对于实时应用至关重要。该模型支持九种语言，使其能够适应多种语言需求。
- 一位用户对 Mistral 之前的模型表示怀疑，指出“Small 4 表现极差”且“Large 3 也令人难以置信地失望”。然而，在 Mistral Console 上测试 Voxtral 后，该用户对输出质量印象深刻，表明其较以往模型有了显著改进。这表明 Mistral 在其 TTS 技术上取得了实质性进步。
- Voxtral 正在与 Qwen-3 TTS 和 TADA 等其他 TTS 模型进行比较。一位用户询问了 Qwen-3 TTS 在 VLM-omni 上的延迟和串流能力，质疑其低延迟串流的主张是否得到验证。这凸显了 TTS 技术领域的竞争态势，延迟和串流能力是关键的性能指标。
nvidia/gpt-oss-puzzle-88B · Hugging Face (热度: 436): NVIDIA 的 gpt-oss-puzzle-88B 是一个经过部署优化的 LLM，源自 OpenAI 的 gpt-oss-120b，利用 Puzzle 框架进行训练后神经架构搜索 (NAS)。该模型专门针对 NVIDIA H100 级硬件进行了优化，在长上下文场景中实现了 1.63倍 的吞吐量提升，在短上下文场景中提升了 1.22倍，同时将参数量减少到 88B（约为父模型的 73%）。它在各项推理任务中保持或略微超过了父模型的准确度。其架构是一个采用修改后的全局/窗口注意力模式的 Mixture-of-Experts Decoder-only Transformer。有评论认为 gpt-oss-puzzle-88B 可能会超越 gpt-oss-120b，而另一条评论则强调 AMD 应该采取类似的优化策略，暗示 NVIDIA 在该领域具有竞争优势。
- 一位用户对 NVIDIA 的模型表示怀疑，指出尽管基准测试表现强劲，但他们通常发现本地模型更具通用性和有效性。他们将 NVIDIA 的模型描述为“只会一招的马（单一用途）”，暗示虽然它们在特定任务中表现出色，但缺乏其他模型的普遍适用性或适应性。

2. Intel GPU 发布

Intel 将于下周发售一款拥有 32GB VRAM 的廉价 GPU (活跃度: 1723): Intel 计划于 3 月 31 日发布一款配备 32GB VRAM 的新 GPU，售价为 $949。该 GPU 提供 608 GB/s 的带宽和 290W 的功耗，在带宽方面略低于 NVIDIA 5070。这款 GPU 预计将对本地 AI 应用大有裨益，特别是对于像 4-bit 量化 的 Qwen 3.5 27B 这样的模型。更多细节可以在 PCMag 的文章中找到。评论者对 $989 的价格是否能被称为“廉价”表示怀疑，而其他人则将其与 R9700 AI PRO 进行比较，指出两者在 VRAM 和带宽上相似，但 Intel 的功耗略高。人们对 Intel 的产品将如何竞争，特别是针对 AI 和 LLM 应用，表现出了浓厚兴趣。
- Clayrone 讨论了他们使用 R9700 AI PRO 的经验，强调其 32GB VRAM 和 640 GB/s 的带宽，认为这能满足其需求。他们提到使用为 Vulkan 构建的 llama.cpp，在 300W 的功耗限制内运行良好。他们对 Intel 即将推出的 GPU 如何与之竞争表示关注，认为这在性能和效率方面可能是直接竞争对手。
- KnownPride 认为 Intel 发布 32GB VRAM GPU 的决定具有战略意义，因为它迎合了对支持大语言模型 (LLM) 硬件日益增长的需求。这表明了一种市场趋势，即消费者对能够高效处理 AI 工作负载的 GPU 越来越感兴趣。
- qwen_next_gguf_when 提出了关于生产 96GB VRAM GPU 可行性的疑问，暗示可能存在限制此类配置的技术挑战或市场考量。这反映了科技社区中关于平衡 VRAM 容量与成本及性能的持续讨论。
Intel 发布配备 32GB GDDR6 的 Arc Pro B70 和 B65 (活跃度: 541): Intel 推出了 Arc Pro B70 和 B65 GPU，配备 32GB GDDR6 显存。B70 售价为 $949，提供 387 int8 TOPS 和 602 GB/s 的显存带宽，而 NVIDIA RTX 4000 PRO 为 1290 int8 TOPS 和 672 GB/s。B70 的功耗为 290W，高于 RTX 4000 PRO 的 180W。4 片装的 B70 售价为 $4,000，可提供 128GB 的 GPU 显存，这在 RTX 4000 PRO $6,400-$7,200 的价格区间内极具竞争力。与 vLLM 的合作确保了这些 GPU 的首日支持，增强了它们的性能潜力。评论者指出，虽然 B70 提供了更多的显存和效率，但与 RTX 3090 相比，其推理速度较慢，且缺乏 CUDA 支持。然而，其单位 GB 价格使其在大型模型的本地推理中极具吸引力。
- Intel Arc Pro B70 和 B65 GPU 已集成到 vLLM 主线中，确保了首日支持和稳定的性能。然而，B70 的性能落后于 RTX 4000 PRO，B70 达到 387 int8 TOPS，而 RTX 为 1290。B70 提供 32GB VRAM 和 602 GB/s 显存带宽，而 RTX 4000 PRO 拥有 24GB VRAM 和 672 GB/s 带宽。B70 的功耗更高，为 290W，而 RTX 为 180W。4 片装 B70 的价格为 $4,000，对于需要 128GB GPU 显存的用户来说是一个极具竞争力的选择。
- Arc Pro B70 的 32GB VRAM 和 $949 的价格使其成为本地推理（特别是 70B 模型）的高性价比选择。尽管与 RTX 3090 相比推理速度较慢且缺乏 CUDA 支持，但 B70 提供了更多显存并提升了 Prompt 处理效率，使其成为特定用例的可行替代方案。
- 虽然 Arc Pro B70 提供了诱人的硬件规格，但用户对 Intel 的驱动支持表示沮丧。相比之下，B70 与 AMD R9700 属于同级别，但速度略慢且价格更低，软件支持也较差，这表明它并未给市场带来重大创新。

3. Innovative AI Techniques and Tools

RotorQuant: 10-19x faster alternative to TurboQuant via Clifford rotors (44x fewer params) (热度: 480): RotorQuant 引入了一种利用 Clifford Algebra 进行向量量化的新方法，与 TurboQuant 相比，实现了 10-19x 的速度提升，且参数量减少了 44x。该方法通过将向量分块为 3D 组并应用 rotor sandwich 乘积，在 Cl(3,0) 中使用 Clifford rotors 取代了 d×d 随机正交矩阵，将计算负载从 16,384 次 FMA 减少到约 100 次。基准测试显示其余弦相似度为 0.990（TurboQuant 为 0.991），在 CUDA 和 Metal 平台上均有显著的速度增益。其权衡在于随机向量上的合成 MSE 较高，但通过 QJL 修正，实际模型表现依然稳健。GitHub Paper。辩论的焦点集中在 RotorQuant 的理论与实际意义上。虽然它提供了显著的速度和参数效率，但缺乏 TurboQuant 的全局随机旋转特性（该特性通过将能量分散到各个维度来优化标量量化）。这一限制影响了低比特量化性能，特别是在最坏情况的向量下。然而，RotorQuant 在实际 KV cache 分布中的实用性得到了认可，被认为是一个有价值的速度/质量权衡方案。
- Juan_Valadez 强调了 RotorQuant 和 TurboQuant 之间的一个关键理论差异，指出 TurboQuant 的全局随机旋转 (Haar) 将能量分散到所有维度，使标量量化接近最优。相比之下，RotorQuant 仅在 3D 块内混合，这限制了其分散能量的能力，并影响了低比特量化性能，特别是在像 one-hot vectors 这样的最坏情况向量中。尽管如此，RotorQuant 在向量非对抗性的实际场景（如 KV cache 分布）中可能仍然有效。
- Dany0 将 TurboQuant 与图形编程中使用的技术进行了类比，特别是引用了 2023 年的 QuiP。他们对 TurboQuant 的新颖性和有效性表示怀疑，认为虽然 RotorQuant 背后的数学原理看起来很扎实，但演示和可视化不够令人信服。他们将这种方法比作使用四元数（quaternions）代替欧拉角（Euler angles），暗示效率来自于大多数乘法结果为零这一事实。
- sean_hash 评论了 Clifford algebras 在量化领域出人意料的应用，指出这种来自几何代数的交叉融合让图形领域之外的人感到惊讶。这突显了 RotorQuant 背后创新的跨学科性质，即利用一个领域的数学概念来优化另一个领域的性能。

Less Technical AI Subreddit Recap

1. Claude Code Usage and Issues

Open Letter to the CEO and Executive Team of Anthropic (热度: 1607): 这封致 Anthropic 首席执行官和执行团队的公开信强调了 Claude AI 服务在可靠性和透明度方面的重大问题，特别是关于不透明的使用限制和不足的客户支持。用户报告称，广告宣传的 1M context windows 和 MAX x20 usage plans 与实际表现不符，因为分析一个 100k document 的任务可能在几分钟内耗尽高级账户额度。信中呼吁在动态限速、功能性上下文窗口以及针对付费层级的人工支持方面保持透明，强调当前服务的可靠性正导致用户转向 Qwen 和 DeepSeek 等替代性本地 LLM。这封信旨在请求改进服务，以防止专业人士对 Claude 的信任进一步流失。评论者对 Token 限制问题的严重性表示难以置信，部分人并未遇到同样的问题，这表明用户体验存在差异。付费客户缺乏人工支持是一个反复出现的争论点。
一个非常严肃的对 Claude Code 的感谢 (活跃度: 817): 该帖子批评了 **Claude Code 极其严格的使用限制，重点描述了一名用户在极少交互后就触发了 5-hour usage limit（5 小时使用限制）的情况，具体是在询问了两个涉及 10 行代码修改的文件后。该用户对公司在这些限制方面的冷淡回应表示沮丧，并将其与据称会重置限制且提供更好用户体验的 Codex 进行了对比。问题似乎与一个涉及 5 Python files 用于数据库格式重排的项目有关，仅仅是一个输出极少的 Prompt 就意外消耗了 55% 的使用限额。** 评论者对 Claude Code 的客户服务和使用限制政策表示不满，并指出 Codex 提供了一个更可靠的替代方案。一位用户提到由于这些问题已转向 Codex，表明更倾向于其对使用限制的处理方式和整体服务。
- 用户在 Claude 的使用限制上遇到了问题，一些人报告限制达到的速度异常之快。例如，msdost 指出，在 5 小时限制重置后，使用 Opus 4.6 处理一个简单的任务，在短短 8 分钟内就耗尽了限额，仅生成了 200-300 行测试代码。这表明可能存在基于资源可用性的动态限制计算，Claude 状态页面上持续的停机故障也印证了这一点。
- Codemonkeyzz 等人对 Claude 处理缓存和使用限制计算的方式表示沮丧，并指出公司缺乏沟通或道歉。这与据称能更可靠地重置限制的 Codex 形成鲜明对比。由于这些问题，用户正在考虑 Codex 等替代方案，正如 chalogr 所强调的，他认为 Codex 是一个可行的替代品。
- Opening-Cheetah467 报告了使用模式的突然变化，尽管工作流没有变化，却很容易触发 5 小时限制。这与其他用户关于限流加剧的经历一致，可能是由于 Claude 端的计算技术问题，因为他们会根据可用容量动态调整限制。
- 13 分钟内使用率达 100%，昨天也发生了！太可恶了，我要取消订阅 (活跃度: 1717): 图片和帖子突出了某订阅服务使用情况追踪系统中可能存在的 Bug，用户在仅使用 13 分钟后就意外收到了使用率 100% 的通知。这个问题导致了极大的挫败感，因为该用户已经额外支付了 $30，并由于这一明显的错误正考虑取消订阅。图片显示了详细的使用统计数据，包括高额的额外使用成本，表明在使用限制追踪方面可能存在计算错误或系统错误。评论者表达了同情并分享了类似经历，其中一人指出他们在类似的方案下没有遇到问题，这表明该问题可能是孤立的或区域性的。另一位评论者表达了对替代模型取代当前服务的希望，显示出对当前服务商的不满。
  - ArWiLen 报告称在使用 ‘sonnet 4.6 extended’ 仅发出三个 Prompt 后就达到了每日限制，他认为这非常荒谬，并因此取消了订阅。这表明该模型在使用追踪或配额管理方面可能存在问题，特别是对于进行调试任务的用户。
  - jadhavsaurabh 分享了意外产生高额使用费用的个人经历，提到有 34 美元的超支，并且在重置后很快就达到了 100% 的使用率。这凸显了订阅模型透明度以及客户支持在解决这些问题方面的有效性存在潜在问题。
  - TriggerHydrant 注意到使用体验上的差异，因为他们使用的是欧盟的 ‘5Max’ 方案，并且大量使用 Claude 也没有达到限制。这表明问题可能是特定地区的，或者与特定的账户设置有关，表明需要进一步调查该服务在不同地区的性能一致性。
说一声 ‘hey’ 消耗了我 22% 的使用额度 (活跃度: 1235): 该 Reddit 帖子讨论了 **Claude Code 的一个严重问题：在一段非活跃时间后重新访问打开的会话会导致使用额度大幅增加，据报道一条简单的消息就高达 22%。这归因于系统的缓存机制，即每条消息都会将整个对话上下文（包括系统提示词和对话历史）重新发送给 API。缓存读取成本较低，但在 Pro 方案上 5 分钟 后过期，在 Max 方案上 1 小时 后过期，导致恢复会话时产生昂贵的缓存写入。此外，使用量追踪采用 5 小时滚动窗口，导致之前会话的上下文被计入新窗口，加剧了该问题。GitHub issue 指出，以前消耗 20-30% 额度的工作负载现在占用 80-100%，而 Anthropic 尚未给出官方回复。建议的解决办法是开启新会话或使用 /clear 和 /compact 命令来高效管理对话历史。** 评论者指出该问题在网上讨论广泛，但未得到 Claude 官方承认。一些用户建议，当 Claude 在系统问题期间重试提示词时，问题会恶化，导致过度使用。
- Fearless_Secret_5989 解释说，Claude Code 的架构涉及随每条消息重新发送整个对话上下文，包括系统提示词、工具定义和对话历史。这可能导致高 Token 使用量，特别是当会话缓存过期（Pro 方案 5 分钟，Max 方案 1 小时）时，会触发全量缓存写入，其成本是普通输入的 1.25 倍。一个 GitHub 追踪显示，在恢复的会话中，92% 的 Token 是缓存读取，每次 API 调用在输出极少的情况下消耗了 192K Token。
- Fearless_Secret_5989 还强调了速率限制窗口边界问题，Claude Code 使用 5 小时滚动窗口进行使用量追踪。在新窗口中恢复会话可能会将旧会话积累的上下文计入新窗口，导致使用量突然飙升。用户报告称，由于这种滚动机制，瞬间消耗了高达 60% 的额度，部分用户自 3 月 23 日以来消耗量增加，可能是由于后端更改或 Bug 导致的。
- Fearless_Secret_5989 提出了减轻高 Token 使用量的实用方案，例如开启新会话而不是恢复旧会话、使用 /clear 切换任务或使用 /compact 压缩对话历史。官方文档建议清除陈旧上下文以避免浪费 Token。用户还可以使用 /cost 或 /stats 来监控 Token 消耗，防止超出使用限制。
- WTAF? (活跃度: 1906): 一位从 70 年代末就开始有丰富编程经验的医生分享了他们使用 **Claude（一款 AI 编程助手）开发涉及 esp32 hardware 和 Sony 点唱机 Slink bus commands 项目的积极体验。他们强调了 Claude 如何通过迭代复杂代码来加速工作流，使他们能够专注于功能实现而非底层细节。用户将这一技术飞跃与编程范式的历史性转变相提并论，例如从汇编语言转向编译语言，再转向现代脚本语言。他们强调了 AI 在编程中的民主化潜力，使非开发人员能够在没有深厚技术背景的情况下创建实用项目。**
  - 讨论凸显了反 AI 和支持 AI 社区之间的分歧。反 AI 人群通常认为 AI 生成的作品毫无意义，而支持 AI 的人群则批评其技术执行，如不规范的 linting 和数据库架构错误。这反映了关于 AI 辅助创作价值和质量的更广泛争论，特别是在可扩展性和技术完美性可能不是主要目标的个人项目中。
  - 一位有编程背景的医生分享了在休假一年后在 App Store 上线 App 的经历。这凸显了 AI 和编程 Agent 赋能个人实现项目的潜力，即使是那些拥有长期非技术职业的人。评论强调了 AI 在促成那些原本可能过于复杂或耗时的个人项目方面的变革性影响。
  - ‘kurushimee’ 的评论指出，AI 对业余爱好项目特别有益，否则这些项目可能太枯燥或需要投入过多精力。这强调了 AI 在民主化技术获取方面的作用，允许个人在没有传统的时间和复杂性障碍的情况下追求个人兴趣和项目。

2. Sora 关停及其影响

Sora 关停是私营 AI 公司在实现 AGI 时会采取行动的一个很好的早期案例 (热度: 1037): 该帖子推测，作为一家私营 AI 公司的 **Sora 的关停，预示着未来 AI 公司将优先考虑实现人工超智能 (ASI)，而非维持消费者服务。论点认为，随着公司接近 AGI，它们将重新分配资源以加速 ASI 的开发，这可能导致消费者成本增加，并由于对计算资源需求的增加而导致硬件价格上涨。** 评论者则认为，Sora 的关停主要是由于财务亏损，而非向 ASI 的战略转型。他们指出，这项技术虽然先进，但尚未达到面向大众的商用水平，导致 OpenAI 和 Google 等公司面临重大财务亏损。
- CatalyticDragon 指出，Sora 的关停主要是出于财务原因，强调该服务并不盈利。这突显了 AI 创业公司面临的一个共同挑战：尖端技术并不总能立即转化为财务上的成功。
- solbob 认为，Sora 的关停表明了其最先进视频生成技术的局限性，暗示其在广泛使用方面并不实用，并导致了重大财务亏损。这反映了 AI 开发中一个更广泛的问题，即先进的能力可能无法满足市场需求。
- eddyg987 提到来自中国的开源模型表现优于 Sora，这表明来自免费替代方案的竞争会显著影响专有 AI 服务。这强调了 AI 领域的竞争压力，开源解决方案可以迅速进步并挑战商业产品。

3. Google TurboQuant 与 Gemini 更新

Google 刚刚发布了 TurboQuant —— 显存占用减少 6 倍，推理速度提升 8 倍，零精度损失。这会是 LLM 迄今为止最大的效率提升吗？ (热度: 98): **Google Research 推出了一种名为 TurboQuant 的新压缩算法，声称可将 KV cache 显存减少 6x，并将推理速度提高 8x，且没有任何精度损失。这是通过自适应精度和熵感知分组实现的，目标是通常占据推理显存 80-90% 的 KV cache，尤其是在长上下文场景下。虽然研究论文尚未发表，但据报道 Google 已在内部为某些 Gemini 工作负载部署了 TurboQuant。其潜在影响包括大幅降低推理成本、在消费级 GPU 上实现 1M+ token 上下文，以及促进边缘设备上的更多 AI 应用。** 一些评论者持怀疑态度，指出该论文据称已有 11 个月 之久，而且这些改进仅影响 KV cache，而 KV cache 仅占模型的一小部分 (10%)。此外，对于零精度损失的说法也存在质疑，一些人对来源的有效性表示怀疑。
- Bakanyanter 指出 TurboQuant 论文并非新作，已有 11 个月之久，并强调其影响仅限于 KV cache，而 KV cache 仅占模型的 10% 左右。这表明所声称的效率提升可能并不像描述的那样显著，尤其是考虑到 KV cache 在整体模型架构中是一个相对较小的组件。
- Old_Stretch_3045 提到 TurboQuant 已经部署在 Google 内部的一些 Gemini 工作负载中，这意味着 Google 已经测试并可能完善这项技术一段时间了。这种内部部署可能表明该技术已足够成熟可供实际使用，尽管该评论讽刺地暗示了对其性能的不满。
- Bakanyanter 对零精度损失的说法提出质疑，对营销辞令表示怀疑。这突显了 AI 模型优化中的一个常见担忧，即效率的提升可能会以模型精度为代价，并且需要明确的证据或基准测试来支持此类主张。
Google Research：TurboQuant 在零精度损失下实现 6 倍 KV cache 压缩 (热度: 93): Google Research 推出了 TurboQuant，这是一种新型量化技术，可在不损失精度的情况下实现 Key-Value (KV) cache 的 6x 压缩。这一进步对于大型语言模型（LLM）和向量搜索引擎尤为重要，因为它优化了高维向量存储，从而提升了检索速度并降低了内存成本。该技术有望缓解内存瓶颈并提高 AI 系统的效率。更多细节请参阅原文。一些用户希望 Google 能尽快在其系统中应用 TurboQuant，而另一些用户则考虑将其集成到 llama.cpp 等项目中，因其在解决特定用例方面具有巨大潜力。
- TurboQuant 方法在不损失精度的情况下实现了 KV cache 的 6x 压缩，这对于优化大规模模型的内存占用具有重要意义。这对于 llama.cpp 等模型尤为有利，因为内存效率对于在有限硬件资源上的性能至关重要。
- 社区正在讨论 TurboQuant 在现有系统中实施的可能性，部分用户寄希望于 Google 尽快将其整合到自身系统中。这意味着虽然理论上的提升非常显著，但实际应用和真实世界的性能收益仍有待充分实现。
- 一位用户表达了将 TurboQuant 集成到 llama.cpp 中的兴趣，强调了它在处理需要高效内存管理的特定用例时的潜力。这表明 TurboQuant 的压缩能力对于那些致力于在受限硬件上运行模型的开发者来说非常有用。
- Gemini 3.1 Flash Live 来了！ (热度: 130): Gemini 3.1 Flash Live 已经发布，重点在于改进语音模型的性能。此次更新解决了之前存在的“机器人般的重声和回响”等问题，提升了整体音频质量。然而，其发布策略引起了质疑，因为语音模型先于标准的 3.1 Flash 模型部署，一些用户认为这很不寻常。之前的 Live 模型被认为已经过时，因此这次更新是一个显著的进步。一些用户对部署顺序感到困惑，质疑为什么语音模型被优先于标准模型发布。尽管如此，这次更新普遍被视为积极的一步，解决了关键的音频质量问题。
  - TheMildEngineer 注意到 Gemini 3.1 语音模型在标准 3.1 Flash 模型之前部署的异常顺序，认为这可能是开发者的一项潜在战略决策。他们还观察到该更新解决了“机器人般的重声和回响”问题，表明音频处理质量有所提升。
  - Zemanyak 评论称之前的 Live 模型已经过时，认为新版本是一次重大升级。然而，他们更倾向于发布完整的 3.1 Flash 模型，这表明当前的更新可能无法完全满足用户对全面改进的期望。
  - douggieball1312 提到“AI 模式下的实时搜索/Google Lens”也随着本次发布在全球范围内推出，并指出此前该功能已在英国上线。这表明了一个更广泛的战略，即将 AI 功能整合到不同地区，通过更高级的搜索功能来提升用户体验。
- Gemini 2.5 Pro 表现太神了（Goated），他们不得不把它带回来！🙏 (热度: 248): 图片展示了 Google Gemini 界面，特别聚焦于“使用 2.5 Pro 进行深度研究（Deep Research）”功能，暗示了该功能在用户中的重要性或受欢迎程度。该功能是 Gemini 3 套件的一部分，该套件还包括快速回答、解决复杂问题以及使用 3.1 Pro 处理高级数学和代码等能力。强调重新引入 2.5 Pro 版本表明它可能具有用户喜爱的独特或卓越功能，从而促使了它的回归。一条评论质疑 2.5 Pro 中的“深度研究”能力是否优于 3.1 Pro，这引发了关于不同版本效能的讨论。另一条评论则表达了对 Google 用户界面（UI）的不满，并将其与 OpenAI 的界面进行对比，反映出用户对科技产品 UI 设计的广泛不满。
Head_Map4196 提出了一个关于 Google Gemini 2.5 Pro 与 3.1 Pro 性能对比的技术问题，特别是在 “deep research” 能力的背景下。这表明关注点在于这些版本如何处理复杂查询或数据分析任务，尽管评论中未提供具体的 benchmarks 或性能指标。
hasanahmad 推测重新推出 Gemini 2.5 Pro 是否意味着 3 和 3.1 版本表现不佳或未达到用户预期。这暗示了这些版本之间可能存在性能或功能差距，但未详细说明具体的技术缺陷。
ameeno1 指出了 Google AI Pro 功能可能存在的区域可用性问题，询问身处英国是否会影响对 Gemini 2.5 Pro 的访问。这凸显了软件发布中一个常见的技术问题，即功能可能受到 region-locked 限制或处于分阶段发布状态。

AI Discords

不幸的是，Discord 今天关闭了我们的访问权限。我们不会再以这种形式恢复它，但我们很快就会发布全新的 AINews。感谢阅读到这里，这是一段美好的历程。

今天没发生什么特别的事。