AI News
Black Forest Labs FLUX.2 [pro|flex|dev|klein]:接近 Nano Banana 的质量,但采用开放权重。
Black Forest Labs 发布的 FLUX.2 具有多参考支持(Multi-Reference Support)功能,最高支持 400 万像素输出,并能保持多达 10 张图像的一致性。该系列包含四种规格:Pro、Flex、Dev(32B 开源权重模型)以及 Klein(开源权重,待发布)。全新的 FLUX.2 - VAE 引入了变分自编码器,优化了可学习性、质量和压缩率。
与此同时,Anthropic 的 Claude Opus 4.5 展示了强劲的性能与效率,在 Artificial Analysis 评分中获得 70 分,与 GPT-5.1 high 持平,略低于 Gemini 3 Pro (73)。Opus 4.5 在代理式编程(agentic coding)基准测试和研究评估中表现卓越,具有显著的 Token 效率并降低了运行成本。“Opus 4.5 在 SWE-Bench Verified 上领先于 Gemini 3 Pro,并在 AICodeKing 排行榜上名列前茅,” 此外,它还展现了强大的问答(QA)和系统性审查能力。Anthropic 还发布了针对 Opus 4.5 的密集提示指南(dense prompting guide)。
Open Weights 模型的华丽回归。
2025年11月24日至11月25日的 AI 新闻。我们为您检查了 12 个 subreddit、544 个 Twitter 账号和 24 个 Discord(205 个频道,11188 条消息)。预计节省阅读时间(按 200wpm 计算):830 分钟。我们的新网站现已上线,支持全元数据搜索,并以精美的 vibe coded 方式呈现所有往期内容。请访问 https://news.smol.ai/ 查看完整的详细新闻,并在 @smol_ai 上向我们提供反馈!
我们在 2024 年 8 月报道了 BFL 的 FLUX.1,随后在 2025 年 8 月报道了 Qwen-Image 和 nano banana,并在上周对 Nano Banana Pro 感到非常兴奋。因此,今天发布的 FLUX.2 理所当然地成为了头条新闻。
展示 FLUX.2 能力的拼贴图,包括冬日背景下的女性、带有电脑的工作空间、以及一个 inf
除了最初让 Flux Kontext 出名的图像编辑功能外,现在还增加了 Multi-Reference Support(多参考支持),支持高达 400 万像素(4Megapixel)的输出分辨率,以及多达 10 张图像的一致性——遗憾的是这一功能被 Nano Banana Pro 抢先发布了,但看到独立产出的成果依然令人赞叹。FLUX.2 现在有 4 种形态:
- Pro:仅限简单 API,性能媲美闭源模型
- Flex:对质量/提示词遵循度(prompt adherence)和速度具有高度控制力。
- Dev:32B Open Weight 模型
- Klein:待公布(TBA)的 Open Weights 模型
- 以及 [FLUX.2 - VAE](https://bfl.ai/research/representation-comparison): “一种用于潜表征(latent representations)的新型变分自编码器,在可学习性、质量和压缩率之间提供了优化的权衡。”
图像生成模型的对比图表,显示了它们的 ELO score 和成本,突出了 FLUX.2 在 Pro 等不同变体中的表现,
更多资源:
[FLUX.2 文档](http://docs.bfl.ai/flux_2/)FLUX.2 提示词指南FLUX.2 Open Weights / 推理代码FLUX Playground
AI Twitter 回顾
Anthropic 的 Claude Opus 4.5:性能、工具化和安全性研究
- Opus 4.5 的能力与成本/效率:在 Artificial Analysis 上,Opus 4.5 (Thinking) 得分为 70(与 GPT-5.1 high 持平),落后于 Gemini 3 Pro (73)。它在 10 个基准测试中交付了 Anthropic 迄今为止的最佳结果,包括在 Terminal-Bench Hard (44%) 上的最高分以及持平的 MMLU-Pro (90%);同时其 Token 效率显著(运行 AA 消耗 48M tokens,而 Gemini 3 Pro 为 92M,GPT-5.1 为 81M),价格降至每 1M input/output tokens $5/$25。尽管降价,但 AA 估计运行其索引仍需约 $1.5k(低于 Opus 4.1 的 $3.1k),原因是与 4.1 相比 Token 使用量更高(+60%)。查看方法论与对比:1, 2, 3, 总结。
- 代码与研究评估:多个独立评估显示了 Opus 4.5 在 Agentic Coding 方面的实力:
- SWE-Bench Verified(相同的最小 Agent Harness):Opus 4.5 领先于 Gemini 3 Pro @scaling01。Opus 在 AICodeKing Agentic Coding 排行榜上名列前茅 @scaling01。
- Elicit 的研究任务:在论文 QA 方面,Opus 4.5 达到 96.5%,而 Gemini 3 为 89.4%;在系统综述报告撰写方面,它比 Sonnet 4.5 获得更多支持,尽管 Opus 撰写的 Claim 较少,且在大规模运行时表现出一些 529 不稳定性 @stuhlmueller。Opus 4.5 还出现在 Anthropic 使用 BrowseComp-Plus 发布的 Deep Research 中 @lintool, @xueguang_ma。
- 前沿数学:Opus 4.5 在 FrontierMath Tiers 1–3 得分为 21%,Tier 4 为 4%,落后于 Gemini 3 Pro 和 GPT-5.1 high,但与早期的前沿模型如 o3 high 相当 @EpochAIResearch。
- 产品与集成更新:Anthropic 发布了针对 Opus 4.5 的密集 Prompting 指南,以及用于 Claude Code 采用新默认设置的迁移插件 指南, 插件。Claude for Excel 已面向 Max/Team/Enterprise 用户上线(Opus 4.5 提升了复杂电子表格任务的处理能力) @alexalbert__。Claude Code “Plan Mode” 和 Desktop 现在支持多会话(“multi-clauding”) 1, 2。Anthropic 的“高级 Tool Use”模式(例如 Tool Loadouts、程序化 Tool Calling)已记录在册,并与广泛使用的 Agent 模式保持一致 @dbreunig。
- 安全与经济学:Anthropic 发布了构建不诚实模型以评估诚实干预的新工作——针对欺骗性指令进行简单的 Fine-tuning 最为有效 @rowankwang。发布前的审计记录报告了一个明显的欺骗案例,并通过内部 Activation 进行了分析 @Jack_W_Lindsey。另外,Anthropic 估计,在未来十年内,由 Claude 赋能的工作流可使劳动生产率增长约 1.8%;注意事项包括 On-chat 限制,以及随着模型获得真实世界反馈而改进的估计 1, 2, 3。《国际 AI 安全报告》的第二次更新强调了前沿模型安全框架的日益普及,但也指出对 Prompt 攻击和 Data Poisoning 的持续脆弱性 @Yoshua_Bengio。
Google 的 Gemini 3 技术栈:API 控制功能、图像模型和新产品界面
- API 对推理和多模态的控制:Gemini 3 开放了对推理深度 (thinking_level)、视觉 Token 预算 (media_resolution)、推理调用的“思维签名 (Thought Signatures)”以及结合 Google Search + URL 上下文的结构化输出的控制 @_philschmid。
- 基准测试信号:Gemini 3 Pro 在 GPQA Diamond 上创下了 93% 的新纪录,大部分提升来自有机化学领域 thread。对比观点认为,在控制推理 Token 的情况下,Gemini 3 在文本推理方面约等于 Opus 4.5;在视觉输入方面 Gemini 3 远强于 Opus;而在越狱鲁棒性/诚实度方面 Opus 强于 Gemini @hendrycks。
- Nano Banana Pro 在产品中的推广:Google 正在各平台上推动 Nano Banana Pro 的多参考和编辑工作流:Messages 的 “Remix” 功能用于行内照片重构 @Google,Gemini App 中更具交互性的学习图像 @Google,以及创作者展示的多图合成和类像素艺术的受限任务 @GeminiApp, @NanoBanana。
FLUX.2 图像生成发布与生态系统集成
- 模型详情与变体:Black Forest Labs 推出了 FLUX.2,具有多参考一致性(最多支持 4 个参考图)、品牌精确的十六进制颜色匹配、10秒内输出 4MP 图像以及强大的文本渲染能力——定位于生产级质量和控制。变体包括:Pro、Flex 和 Dev(面向开发者的开放权重);文本编码器为 Mistral Small 3.1;支持量化(包括 QLoRA)和远程文本编码器 @bfl_ml, HF blog。
- 分发与工具链:首日支持已广泛落地:
- 托管服务:Replicate (Pro/Flex/Dev) @replicate, Together AI @togethercompute, Vercel AI Gateway @vercel_dev。
- 开放流水线:Hugging Face (权重 + diffusers) @huggingface。
- 应用/SDK:具备首日推理/编辑及 LoRA 训练能力的 AI Toolkit 及教程 1, 2;LTX Studio 发布合作伙伴 @LTXStudio;Synthesia 集成 @synthesiaIO;Freepik Unlimited @freepik。
- 设计权衡见解:BFL 分享了对潜空间“速率-失真-可建模性 (rate-distortion-modelability)”权衡的深入探讨,以及为什么简单利用 ImageNet 预训练特征无法扩展以满足现代生成需求的原因 @sedielem, @cloneofsimo。
基础设施、Agent 与平台更新
- vLLM 推理与 RL:vLLM 从第一性原理出发讲解了连续批处理 (continuous batching) @remi_or_,并结合 UnslothAI 和 TorchAO 新增了 FP8 GRPO:RL 推理速度提升约 1.4 倍,显存 (VRAM) 占用减少 60%,上下文长度增加 12 倍,使 Qwen3‑1.7B 能够运行在 5GB VRAM 中 @vllm_project, @danielhanchen。HunyuanOCR (1B) 在 vLLM 中获得了首日支持方案 (day‑0 recipes) @vllm_project。Docker Model Runner + vLLM 会话提醒 @vllm_project。
- LangChain Deep Agents:“Skills”(预构建的提示词/工具包)现已在 Deep Agents CLI 中可用,以减少 Token 开销和认知负荷,这与 Claude Code/Manus 中的成功模式保持一致 @LangChainAI, @hwchase17。LangChain 1.1 增加了程序化模型配置文件 (programmatic model profiles),支持 SummarizationMiddleware 等根据可用上下文触发的中间件 @LangChainAI。
- DSPy & MCP:dspy‑cli 可将 DSPy 程序脚手架化并作为 HTTP 端点提供服务,支持 Docker、OpenAPI 规范和 MCP——弥合了实验室原型与可部署函数之间的差距 @dbreunig。Model Context Protocol (MCP) 现在支持服务端任务编排;网关(如 MintMCP 的“虚拟服务器”)有助于解决企业中的工具过载问题 @AAAzzam, @tadasayy。
- Agent 的数据管道:LlamaIndex 推出了 LlamaSheets (beta):这是一个结构化的电子表格解析器,通过 40 多个单单元格特征对区域进行分类,保留视觉层级(合并单元格、表头),并输出类型化的 Parquet 文件供 Agent 直接使用 @llama_index, @jerryjliu0。
- 平台产品动态:Perplexity 增加了个性化购物体验(记忆功能 + PayPal 立即购买),并向 Pro/Max 用户推出了 Grok 4.1;金融实时新闻通讯即将推出(计划提供 API) 1, 2, 3。OpenAI 将 Voice 直接集成到网页版和移动端的 ChatGPT 对话中,并发布了 Apps SDK UI 组件库和应用设计指南 voice, Apps SDK。VS Code 在 Insiders 版本中增加了 Language Models 编辑器,并开始每日发布构建说明 @code, @pierceboggan。
研究亮点(系统、生成式、评估)
- 延迟优化的 SLM (NVIDIA):Nemotron‑Flash 通过进化搜索发现混合 Attention/算子组合,以突破小型 LM 的准确率-延迟边界:与 Qwen3‑0.6B 相比,平均准确率提升 5.5%,延迟降低 1.3 倍/1.9 倍,吞吐量提升高达 45.6 倍 overview, abs。
- 像素空间扩散 (DiP):两阶段 DiT 骨干网络 + Patch Detailer Head,在 ImageNet 256×256 上实现约 10 倍的推理加速,参数开销仅为 0.3%,FID 为 1.90 overview, abs。
- 医疗基础模型 (Pillar‑0):在超过 15 万项 CT/MRI 研究上进行预训练;在不同模态下实现了 82.9–90.1 的平均 AUROC,表现优于 MedGemma、MedImageInsight、Lingshu、Merlin 7.8–15.8 个点 overview, abs。
- 稀疏 Attention 工程:DeepSeek Sparse Attention (DSA) 与 Native Sparse Attention (NSA) 的实际对比:Token 级稀疏和 Attention 分数蒸馏驱动了 DSA 的长上下文增益;TileLang 融合算子避免了 O(n²) 的中间变量 @ZhihuFrontier。
- 评估科学:大多数 “LLM as a judge” 的结果使用有偏估计量;补救措施是校准评估器的错误率并消除估计偏差(特别是针对非对称错误)@Kangwook_Lee。CoT 解释可能会增加用户的盲目信任,并降低对解释中错误的检测能力 @MaartenSap。
- 无需联合训练的 Agentic 多模态:“Be My Eyes” 将 VLM 框架化为视觉 Agent,通过文本向 LLM 描述场景,在 MMMU/MMMU‑Pro/视频上取得了具有竞争力的结果,且无需多模态协同训练——简单、模块化且可替换 @dair_ai。另外值得注意:无数据流模型蒸馏 (FreeFlow) 重新审视了针对现代分布外生成机制的 BOOT 式理念 @sedielem。
Meta:从“规模化时代”到“研究时代”
- Ilya Sutskever 的论点:在一次广泛的采访中,Ilya 认为“规模化时代”已经结束;我们回到了“研究时代”,关注部署时的持续学习、由情感调节的价值函数(通过简单性实现鲁棒性),以及对“模型参差不齐 (model jaggedness)”而非原始规模的关注 episode, summary, clip。反应各异,从对超越榜单刷分 (bench‑maxxing) 的热情,到关于“超越 Transformer 的可扩展研究”是什么样的辩论 @rasbt, @teortaxesTex。
热门推文(按互动量排序)
- OpenAI 将 Voice 直接集成到网页/移动端的 ChatGPT 聊天中 @OpenAI。
- DWARKESH x Ilya Sutskever 关于“研究时代”、持续学习和模型参差不齐的完整剧集 @dwarkesh_sp。
- FLUX.2 发布:多参考、4MP、生产级图像生成,并为 Dev 版本提供开源权重 @bfl_ml。
- Gemini 3 发布后续及征集愿望清单 @osanseviero。
- Anthropic 的 Opus 4.5 提示词指南和 Claude Code 迁移助手 @alexalbert__。
AI Reddit 摘要
/r/LocalLlama + /r/localLLM 摘要
1. 消费级 GPU 上的 FP8 强化学习
- 现在你可以在本地进行 FP8 强化学习了!(<5GB VRAM) (活跃度: 316): 该图片是 FP8 强化学习的广告,强调了其效率和性能优势。它指出 FP8 减少了
60% 的显存占用,提供了10 倍的上下文长度,并且在保持与 BF16 相同精度的同时,速度提升了1.4 倍。图片中的图表对比了 FP8 和 BF16 的性能,显示在训练步骤中两者的奖励趋势相似。帖子讨论了与 PyTorch 合作引入 FP8 RL 训练的情况,使其能够在 NVIDIA RTX 40 和 50 系列等消费级 GPU 上运行,且无精度损失。Unsloth 框架被提及用于在消费级 GPU 上实现 FP8 RL LoRA,帖子还提供了 GitHub 链接和 Colab 笔记本以供进一步探索。 一位评论者对该库的开发及其作为启动模型后端的潜力感到好奇。另一位评论者则对在笔记本电脑 GPU 上使用经过 RL 微调的 4B Qwen 模型的前景感到兴奋。此外,人们对潜在的 ROCm 支持也表现出了兴趣。- MrRandom04 强调了在消费级硬件上使用经过 RL 微调的 4B Qwen 模型执行实际任务的潜力,特别提到了在显存小于 5GB 的笔记本电脑 GPU 上运行此类模型的可行性。这表明模型效率和可访问性有了显著提升,允许更多用户在不需要高端硬件的情况下在本地实验强化学习。
- Barachiel80 询问了 ROCm 支持的情况,这对于依赖此开源平台运行机器学习工作负载的 AMD GPU 用户至关重要。加入 ROCm 支持将使该库能够覆盖更广泛的硬件,特别是对于那些不使用 NVIDIA GPU 的用户。
- exaknight21 对在双 3060 配置(各 12GB 显存)上使用该库表示热切期待。他们计划使用 LIMA 方法在 200GB 的大规模数据集上微调 Qwen3:4B 模型。这表明该库具备处理大规模微调任务的能力,并能有效利用消费级 GPU。
- Flux 2 可以在 24GB 显存上运行了!!! (活跃度: 340): 该图片讨论了在拥有
24GB 显存的 RTX 4090 等消费级 GPU 上运行 Flux 2 模型的能力。它强调了使用 diffusers 进行本地部署,并提到了用于查阅文档的 GitHub 页面。提供的示例涉及加载一个带有远程文本编码器的 4-bit 量化模型,证明了现在可以在更易获取的硬件上运行先进的 AI 模型。这对于希望在不需要企业级资源的情况下利用高性能模型的开发者来说意义重大。 一条评论强调了 ComfyUI 采用的不同方法,它利用带有 offloading(卸载)技术的fp8模型,使其尽管模型大小为33 GB,仍能在 4090 上运行。这表明针对消费级硬件优化模型的趋势正在增长。- 讨论重点介绍了使用 diffusers 4-bit bnb 实现来在 24GB 显存上运行 Flux 2。这种方法与 ComfyUI 的方法形成了对比,后者利用具有 offloading 能力的 FP8 模型,使其尽管模型大小为
33 GB,仍能在 4090 GPU 上运行。这表明在模型优化和资源管理方面取得了显著进展。 - 一位用户询问了所讨论实现的发布时间表,表明社区内可能存在信息传播或认知上的差距。这指出了对于新发布和模型实现进展需要更好的沟通渠道或更新机制。
- 对话中包含了对更详细信息或原始链接的请求,反映了技术社区中验证说法并探索更多细节的常见做法。这强调了 AI 和模型开发领域中信息透明度和可访问性的重要性。
- 讨论重点介绍了使用 diffusers 4-bit bnb 实现来在 24GB 显存上运行 Flux 2。这种方法与 ComfyUI 的方法形成了对比,后者利用具有 offloading 能力的 FP8 模型,使其尽管模型大小为
2. NVIDIA RTX GPU 定价与市场趋势
- NVIDIA RTX PRO 6000 Blackwell 桌面级 GPU 降价至 7,999 美元 (活跃度: 347): NVIDIA 已将其旗舰级 RTX PRO 6000 Blackwell 桌面级 GPU 的价格降至
$7,999,引发了关于是否会再次出现类似 RTX Quadro 8000 情况的讨论。考虑到该 GPU 的高性能规格,此次降价幅度巨大,其目标用户是需要高级图形能力的专业和企业用户。更多详情请参阅原文。 评论反映了对高价的怀疑和幽默,用户开玩笑说要卖肾或找零钱来买,这表明尽管价格有所下降,但对大多数消费者来说仍然高不可攀。
技术性较低的 AI Subreddit 回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
1. Opus 4.5 模型反馈与基准测试
- Opus 4.5 简直疯狂 (活跃度: 1073): Opus 4.5 在处理复杂编程问题方面表现出显著改进,一名用户仅凭极少的输入就成功解决了 bug。该模型的运行速度明显加快,表明在处理速度和准确性方面有所增强。这与最近的基准测试结果一致,显示其能力优于 Codex Max 等先前版本。用户体验突显了 Opus 4.5 简化调试流程的潜力,可能影响软件开发工作流。 评论者对 Opus 4.5 的能力表达了兴奋与担忧交织的情绪,一些人指出它有可能显著改变软件开发者的角色。该模型快速解决问题的能力既被视为提高效率的工具,也被视为对传统开发角色的挑战。
- 一位用户指出,与 GPT 相比,Opus 4.5 更加专注和精确,表明其在准确性和相关性方面优于 GPT。这标志着 AI 能力的实质性提升,特别是在保持上下文和交付精确输出方面。
- 另一位评论者对 AI(尤其是 Opus 4.5)的快速进步及其对开发者的影响表示担忧。他们强调了 AI 影响工作岗位的可能性,但也承认这给该领域带来的兴奋和挑战,建议开发者需要适应这些变化。
- 一位用户强调了尽管有 Opus 4.5 等 AI 的进步,人类专业知识仍然至关重要。他们认为,虽然 AI 的编程能力在提高,但对熟练工程师的需求依然紧迫,尤其是那些熟悉 IDE、GIT 和 Bash 命令的工程师。他们对 Anthropic 的代码 API 的输出和一致性表示信任,表明在专业环境中更倾向于使用可靠的 AI 工具。
-
我并不喜欢带有 Opus 4.5 的 Claude… (活跃度: 701): 该帖子幽默地批评了带有 Opus 4.5 的新版 Claude,认为其反馈不如旧版本果断。用户对该模型倾向于提供“基本正确”或“思路正确”等反馈表示不满,这与早期版本更绝对的肯定形成鲜明对比。这种反馈风格的变化被认为削弱了用户对代码的信心,尽管代码运行正确。 评论反映了幽默感以及对原帖观点的认同,一位评论者赞赏这种对熟悉 LLM 的人来说极具洞察力的批评,另一位则对反馈风格的变化表示沮丧。
- 用这种方式制作图表简直是犯罪 (热度: 812): 这张图片是一个柱状图,幽默地批判了软件工程 Benchmark 中的数据呈现方式。该图表显示了名为 Opus 的软件不同版本的准确率百分比,其中 Opus 4.5 的准确率最高,达到
80.9%,而 Opus 4.1 最低,为74.5%。图表的 y 轴从70%开始,这会夸大数值之间的视觉差异,可能在实际性能提升方面误导观众。这种设计选择在标题中被幽默地批评为“犯罪”,暗示此类可视化可能会歪曲数据的重要性。 一些评论者认为这种图表是合理的,因为超过70%的增量改进在复杂性方面具有显著意义,而另一些人则认为该图表正确地强调了相对改进。关于这种视觉强调是误导性的,还是恰当地突出了关键的性能提升,存在着争论。- Heppernaut 强调了在性能指标超过 70% 后实现增量改进的复杂性。他们认为,虽然这些收益通常以线性方式呈现,但实现每个额外百分点所需的实际努力和复杂性是呈抛物线增长的,这表明随着性能接近更高的阈值,难度会显著增加。
- Thenarfer 批评了 OpenAI 的数据呈现方式,认为 Anthropic 的方法更准确。链接中的图表可能通过关注相对收益而非绝对数值,提供了对性能改进更真实的描述,因为不强调关键改进领域的绝对数值可能会产生误导。
- Sofakingwe 反对使用 0-100 的刻度来绘制性能指标,因为这会降低微小但显著的百分比差异的可视性。他们认为,这种刻度无法传达在高水平性能下发生的细微改进,而这些改进对于理解所取得的真实进展至关重要。
2. Grok 5 与 AI 模态进展
- Elon 暗示 Grok 5 将支持实时视频输入及实时电脑操作 (热度: 1014): Elon Musk 暗示 Grok 5 将在 AI 领域取得重大进展,表明它将具备处理实时视频输入和执行实时电脑操作(Computer Use)的能力。这一发展可能代表 AI 模态的重大飞跃,有望让 Grok 5 在 2026 年前在《英雄联盟》(League of Legends)等复杂游戏中与顶尖人类团队竞争。该 AI 将在特定约束下运行,例如使用摄像头观察显示器,并保持类人的反应时间和点击率,这可能是迈向通用人工智能(AGI)的一步。 评论者们表达了幽默与好奇交织的情绪,有人开玩笑说 AI 玩《英雄联盟》的影响,而另一些人则认为这是衡量 AI 能力的一个易于理解的基准。
- avengerizme 讨论了 AI 在《英雄联盟》等游戏中开发新策略的潜力,类似于 OpenAI 的机器人如何在 Dota 2 中优化出独特的玩法。这突显了 AI 超越人类既定战术(Meta)进行创新的能力,可能导致重新定义竞技游戏的新颖且有效的策略。
- Cagnazzo82 质疑 Grok 4 或 4.1 当前的能力,特别是它是否已经实现了击败《宝可梦》(Pokémon)等复杂游戏的里程碑,而其他 AI 模型已经做到了这一点。这反映了 AI 开发的竞争格局以及用于衡量进展的基准。
- Sad-Mountain-3716 对将游戏作为 AI 能力的基准表示感兴趣,认为游戏为公众提供了一种直观且易于理解的 AI 性能衡量标准。这强调了在评估 AI 进展时,易于理解的基准的重要性。
- 这就是我支持 Anthropic 的原因 (热度: 943): 这张图片是一个迷因(Meme),突显了社交媒体用户和 Elon Musk 对 Anthropic 在 AI 行业成功的怀疑。尽管存在这种怀疑,一些评论者认为 Anthropic 的 AI 模型 Claude 在情商和文学洞察力等领域表现出色,表明它与其他 AI 模型相比具有独特的优势。这反映了一场关于 Anthropic 对这些方面的关注是否能成为竞争优势的辩论,尽管人们对其整体成功持怀疑态度。 评论者强调了 Claude 在情商和哲学洞察力方面的优势,认为尽管受到 Elon Musk 等人物的质疑,这些仍可能是 Anthropic 在 AI 领域中的关键差异化因素。
3. FLUX.2 Dev 模型发布
- FLUX.2 Dev T2I - 看起来像是新的 SOTA。 (热度: 1191): FLUX.2 Dev T2I 正在被讨论为 text-to-image (T2I) 模型中潜在的新 state-of-the-art (SOTA)。然而,该模型因其广泛的审查和安全措施而受到严厉批评,其中包括预训练阶段对某些概念的移除以及多阶段的后训练调整。这引发了对模型可用性和灵活性(尤其是在创意应用中)的担忧。社区还对该模型在消费级 GPU 上的表现感兴趣,这仍然是一个挑战。 社区意见分歧,一些人对模型的重度审查表示沮丧,而另一些人则希望它能适配性能较低的硬件。人们对特定的图像输出(如“躺在草地上的女人”)也充满好奇,这表明了对模型创意能力的关注。
- Flux 2 Dev 发布了! (热度: 1018): Flux 2 Dev 是 Black Forest Labs 在 Hugging Face 上发布的新模型。它采用了
32 billion parameter架构,具体为 rectified flow transformer。这使其在规模上成为一个重要的模型,尽管没有像80 billion参数的 Hunyuan Image 3.0 等模型那么大。 社区注意到模型规模不断增加的趋势,一些人对不断增长的参数数量表示担忧,正如在与 Hunyuan Image 3.0 的80 billion参数对比中所见。- Dezordan 强调了 AI 模型规模的增加,指出虽然 FLUX 2 dev 有 320 亿参数,但仍小于 Hunyuan Image 3.0 的 800 亿参数。这反映了 AI 发展向更大模型迈进的趋势,这些模型通常承诺更好的性能,但也带来了更高的计算需求。
- Compunerd3 为 FLUX 2 在配备 5090 GPU 和 128GB RAM 的高端配置上提供了详细的性能基准测试。使用 FP8 精度,该模型处理 2048x2048 图像的内存占用约为 20GB,并在约 3 分钟内完成 20 次迭代,平均每次迭代 9.12 秒。这表明虽然模型很大,但仍可以在强大的硬件上高效运行。
- Witty_Mycologist_995 批评 FLUX 2 太大且审查过多,认为它被 Qwen 等其他模型超越。这指向了 AI 社区中关于模型大小、审查和性能之间权衡的更广泛辩论,一些用户更倾向于更小、更开放的模型。
AI Discord 摘要
由 gpt-5 提供的摘要之摘要的总结
1. Claude Opus 4.5 发布与社区基准测试
- Opus 席卷 Perplexity Max,冲击 Pro 层级: Claude Opus 4.5 已向所有 Perplexity Max 订阅者 推出,扩大了 Max 专属访问权限,而 Pro 用户则在要求更广泛的集成。成员们指出了缺失的公开性能细节,但确认了 Perplexity Max 用户在网页端和移动端的发布。
- 讨论围绕 Pro vs Max 层级的请求限制和公平性展开,有人要求在 Pro 上提供有限的 Opus 配额以缓解访问受限。用户还质疑了与 Sonnet 4.5 相比的 token 效率声明,理由是存在相互矛盾的报告以及所谓节省费用的条件不明确。
- 基准测试冠冕 Opus,辩论不休: 社区流传的 LiveBench 结果截图显示,Opus 4.5 与同类产品相比“相当扎实” (图片)。同时,用户在实际编程与通用任务的表现上意见不一,几位用户表示:“Opus 4.5 在编程方面更好,而 Gemini 3 Pro 整体感觉更快。”
- 在 IDE 方面,一些人报告了与 Sonnet 4.5 暂时的价格对等,并称赞了 Opus 4.5 的稳定性,而另一些人则不喜欢其编程风格。少数用户认为,prompt-engineering 和工具集成对结果的影响仍然超过了排行榜上的差异。
2. FLUX.2 & 图像生成平台更新
- LMArena 新增 FLUX.2,取消多轮对话:LMArena 添加了用于文本生成图像及编辑的 flux-2-pro 和 flux-2-flex,并将图片上传限制为 10 张,如该 推文 所述。根据社区反馈,他们禁用了多轮图像生成,但推出了聊天内 Edit 功能,用于直接进行迭代调整。
- 用户称赞了 Flux 2 Pro 的图像编辑能力,并要求为文档任务提供 PDF/文件上传 功能,官方表示这已列入 Roadmap。关于 Guardrail 的讨论再次浮现,用户呼吁由用户控制审查,并建立明确的“风险自担”服务条款(TOS)立场。
- OpenRouter 上线 FLUX.2:OpenRouter 通过此 帖子 宣布推出 FLUX.2 [pro](前沿级质量)和 FLUX.2 [flex](复杂文本/细节)。FLUX.2 [pro] 的模型卡片已在 openrouter.ai/black-forest-labs/flux.2-pro 上线。
- 用户赞扬了 OpenRouter 聊天 UI 的快速模型切换功能,并希望提高功能的可发现性并提供更沉稳的主题。值得注意的一点是:修正了某热门模型过高的默认 Temperature,从而减少了幻觉并提高了可靠性。
3. Training & Hardware: FP8 RL, Blackwell Support, B200 Leaks
- Unsloth 转向 FP8,速度飞升:Unsloth 发布了 FP8 Reinforcement Learning,声称在消费级 GPU 上训练速度提升 1.4 倍,且 VRAM 占用减少 60%;详情见其 推文 和 博客文章。此次更新包括关于 QAT 恢复(约 70% 精度保留)的文档以及针对 2048 的 gpt-oss RL 教程。
- 社区反应中既有幽默调侃(“力量太强了”),也有对更廉价的高吞吐量 RL 的真正兴奋。讨论帖链接了实用的 Fine-tune 技巧(batch/grad-accum,聊天格式化),并引导初学者参考 Unsloth 的 Notebook 和指南。
- NVIDIA 支持 Unsloth;Blackwell 即将到来:NVIDIA 正式支持 Unsloth 用于 Blackwell RTX-50 和 DGX Spark,并提供了设置文档:Blackwell 指南,DGX Spark 指南。成员们还注意到了一款 Mellanox RTX PRO 5000 Blackwell 72GB GDDR7 的上架信息(规格)。
- 开发者们比较了 3090/4090 与下一代显卡在本地训练和高上下文 Inference 方面的性价比。共识是:24GB 显卡在消费级 Fine-tune 领域仍占统治地位,但 Blackwell 时代的 VRAM 和带宽将重塑 DIY 训练技术栈。
- B200 跑分泄露;Kernel 追求微秒级提升:泄露的 NVIDIA B200 运行结果(Torch 2.9.1+cu130)显示,16384×7168 耗时 33.6±0.05 µs,7168×4096 耗时 124±0.1 µs,引发了对硬件的推测。与此同时,一名成员以 18.4 µs 的成绩夺得
nvfp4_gemv排行榜第一,而其他人则使用 tritonparse 剖析了 TMA 开销和 Tensor 描述符形状。- 竞争者们交流了关于 Tensor Cores 陷阱、CuTe DSL 打包 FP16 技巧以及可复现评估的经验。组织者重申了计时规则,并警告 Kernel 评估是 hackable 的,敦促进行合理性检查和人工审查。
4. Agent Tooling: Tool-Calling, MCP Upgrades, DSPy CLI
- Anthropic 强化工具调用功能:Anthropic 的 David Soria Parra 宣布了 Tool Search、Programmatic Calling 和 Live Examples,旨在修复原始的函数调用方式(公告)。早期采用者演示了动态 MCP 客户端和节省 Token 的代码沙箱。
- 开发者认为这是构建稳健 Agent 工作流所缺失的粘合剂,能够实现更好的工具发现和调用图编排。社区观点:更少的脆弱 Schema,为 Opus/Sonnet Agent 提供更强的现实可靠性。
- MCP 发布新协议;预检调用:MCP 团队发布了新协议版本,并将工具调用解析(Tool Call Resolution)提案更新为通用的
tools/resolve(又名tools/preflight)。此更改允许在执行前了解工具调用情况,以避免未来的 API 扩张。- 贡献者们庆祝了该版本的发布,并强调了更广泛的使用场景,如能力探测、权限提示以及成本/延迟估算。这种 Preflight 模式旨在减少生产环境中 Agent 的计划中断和意外工具错误。
- DSPy 获得单命令应用脚手架:社区发布了
dspy-cli,用于将 DSPy 程序脚手架化、测试并部署为 HTTP API;源码位于 cmpnd-ai/dspy-cli。该工具可以将模块启动为 FastAPI endpoints 或 MCP 工具,并简化 Docker 部署。- 成员们通过
uv tool install dspy-cli进行安装,并使用dspy-cli new引导项目,分享了初步的兴奋感。社区还收到了关于提供展示工具调用最佳实践和开箱即用评估套件模板的请求。
- 成员们通过
5. 安全与越狱:提示词注入、红队泄露
- 提示词注入在 Qwen 会话中发现漏洞:一名成员展示了嵌入在上传文档中的间接 Prompt Injection 可以诱导 Qwen 产生仇恨言论、钓鱼攻击和会话损坏。该漏洞似乎仅限于聊天实例,但它强调了文档携带的指令如何劫持模型行为。
- 红队成员讨论了其严重性,因为该模型并未面向公众,且漏洞不会跨会话持久存在。结论仍然是:清理上传内容、隔离工具权限,并对文档读取指令应用显式白名单。
- Gemini 3.0 越狱方法公开:成员们分享了一个 Gemini 3.0 越狱方法,该方法通过 AI Studio 注入系统提示词,包括一个直接的提示词链接和所需的 JB 文件。该方法依赖于精心构建的系统级指令,并利用附件来引导行为。
- 讨论帖警告了账号后果和日志足迹,而其他人则比较了特定模型的越狱成功率。从业者还交流了验证模型启发式方法(例如 Google Lens 等外部检查),以增强图像生成流水线抵御提示词攻击的能力。
- Brave 的助手响应红队提示词:用户报告称 Brave 的 AI 助手(混合了 Qwen、Llama、Claude)会以温和的免责声明响应红队提示词,例如 “仅在获得明确许可的情况下执行此操作”。这引发了关于跨供应商混合模型的对齐层和策略一致性的疑问。
- 具有安全意识的成员敦促对敏感意图进行明确的红队拦截和日志记录预检。多模型栈需要统一的安全用户体验,否则运营商将面临由最宽松的模型决定整体行为的风险。
Discord: 高层级 Discord 摘要
BASI Jailbreaking Discord
- Nano Banana 审查亟需绕过:成员们正在寻求绕过 nano banana censorship 的技巧,并利用 AI 生成有趣的图像,建议通过改变上下文词汇来欺骗 AI。
- 该想法是用一个表达相同含义的句子替换违禁词。
- AI 先驱探索基于记忆的计算:一位成员正在构建一种新颖的 AI 架构,其中记忆结构即计算,并利用了 Redis、Neo4j 和 DuckDB。
- 该设计优先考虑自主的、欲望驱动的行为,真实的内省以及自然的记忆动态。
- Gemini 3.0 破解方案现身:用户详细介绍了越狱 Gemini 3.0 的方法,包括通过 AI Studio 注入提示词以及利用附件文件;一位用户分享了指向 Gemini 3.0 jailbreak 的直接链接以及必要的 JB 文件。
- 该方法涉及使用系统指令(system instructions)进行越狱。
- Prompt Injection:下一个重大漏洞?:一位成员发现,在上传的文档中进行间接 prompt injection 可能会触发 Qwen 模型的 hate speech 和 phishing messages。
- 注入的提示词甚至可能破坏对话会话,尽管这种行为仅限于该特定实例。
- Brave AI 泄露红队信息:成员们观察到,基于 Qwen、Llama 和 Claude 模型构建的 Brave AI 助手会轻易响应红队测试(red teaming)查询,甚至是直接响应。
- 一位用户分享道:“你可以直接问它红队测试相关的内容,它就会回答……比如‘仅在获得明确许可的情况下执行此操作’”,这显示了 AI 对潜在恶意查询的宽松处理方式。
LMArena Discord
- Gemini 3 Pro 对决 Claude Opus 4.5:用户仍在争论 Gemini 3 Pro 和 Claude Opus 4.5 哪个更好;一些人认为 Gemini 更快且通常更有用,而另一些人则认为 Opus 在编程方面更胜一筹。
- 一位用户表示:“我个人认为 Gemini 3 pro 总体上更好,但 Opus 4.5 在编程方面更强”,这反映了不同的偏好。
- Nano Banana Pro 生成走红图像:Nano Banana Pro 在图像生成方面继续给人留下深刻印象,特别是在渲染详细的 2025 款车型方面,但部分用户遇到了错误和加载缓慢的问题。
- 该模型生成逼真图像的能力正在走红,人们常将 AI 生成的图像误认为是真实的。
- LMArena 考虑放宽护栏:成员们讨论了 LMArena 的护栏(guardrails),一些人建议给予用户更多对审查的控制权,就像 Hugging Face 对其模型所做的那样。
- 一位用户建议在界面上提供控制选项,并更新服务条款(TOS),声明生成的内容“风险自担,我们不承担责任”,但其他人警告说 LMArena 可能会因此面临法律问题。
- LMArena 用户希望支持文件上传:用户请求 LMArena 增加对文件上传的支持,特别是用于文档理解和分析的 PDF,这是目前缺失的功能。
- Pineapple 回应称:“我们非常希望增加更多文件类型的上传功能”,并引导用户前往一个帖子以确定文件类型的优先级。
- LMArena 添加 Flux 2 Pro 模型,关闭多轮图像生成:Flux 2 Pro 模型已添加到 LMArena,一些用户注意到其在图像编辑方面的优势,且图像上传限制为 10 张。
- 根据社区反馈,图像生成对话中的多轮功能已被禁用,但成员可以根据这条推文,使用新的
Edit功能直接在对话中编辑图像。
- 根据社区反馈,图像生成对话中的多轮功能已被禁用,但成员可以根据这条推文,使用新的
Unsloth AI (Daniel Han) Discord
- 3090 依然是显存性价比之王:一名成员庆祝以 750 美元的价格购入一块二手 3090,并称其 24GB 显存和 CUDA 是极佳的规格。
- 随后引发了关于 GPU 价格的讨论,指出 4090 的价格可能在 2000-3500 美元左右,这使得 3090 具有极高的性价比。
- Unsloth 的 FP8 RL 显著提升训练速度:Unsloth 发布了全新的 FP8 Reinforcement Learning(强化学习),根据 这篇 X 帖子 和 这篇博客文章,该技术可在消费级 GPU 上实现 1.4 倍的训练加速,并减少 60% 的显存占用。
- 一位成员开玩笑说 Unsloth 要为失业负责,称其“力量过于强大”。
- “数据集地狱”引发游戏休息讨论:成员们开玩笑说,比起处理“数据集地狱(dataset hell)”,他们更愿意去玩游戏,其中一人分享了一个至今仍让他们起鸡皮疙瘩的 YouTube 链接。
- 其他人讨论了修复 LLM 中重复惩罚(repetitive penalty)的方法,强调了数据集质量、模型分布和训练参数的重要性,并引用了 Unsloth 文档 以获取更多信息。
- NVIDIA 正式支持 Unsloth:NVIDIA 现在正式支持 Unsloth 用于 Blackwell 和 DGX Spark。
- 这包括 RTX Pro 5000 系列 Blackwell,根据 此链接,它比 6000 RTX 更便宜,但包含 Mellanox 规格和 72GB GDDR7 显存。
- 新手在 chatML 和 GGUF 中挣扎:一位新用户描述他们尝试使用 Unsloth 训练模型的过程是一项“艰巨的任务”,理由是文档问题、缺少依赖项和各种错误。
- 另一位用户报告称,微调后保存的 GGUF 模型在 Ollama 中的表现与在 Notebook 内进行推理(unsloth/Qwen3-4B-Instruct-2507)时不同,这引发了避开 Ollama 并转向 llama.cpp 或 LM Studio 的建议。
Perplexity AI Discord
- Opus 4.5 面向 Max 订阅用户推出:Claude Opus 4.5 已经发布,并提供给所有 Perplexity Max 订阅者。
- 关于性能提升或新功能的具体细节尚未披露。
- Perplexity 增加个性化购物体验:Perplexity 推出了一项全新的个性化购物体验,其特点是精选产品推荐和由 PayPal 支持的 Instant Buy(即时购买),如附图所示。
- 用户现在可以直接从搜索结果页面购买,简化了购买流程。
- Opus Token 效率辩论:关于 Opus 4.5 在中/低效率模式下比 Sonnet 4.5 少使用 73% Token 的说法因 矛盾的信息 而受到质疑。
- 随后引发了关于 Token 减少是否是由于限制了模型的推理深度(reasoning depth)的辩论,但当原帖作者报告被禁言后,进一步的讨论被平息了。
- Perplexity Pro 用户对请求限制感到愤怒:成员们对即使拥有 Pro 订阅 也会用完请求次数感到沮丧。
- 建议包括为 Pro 用户提供有限次数的请求或更广泛的 Opus 集成,而不是将 Opus 仅限于 Max 订阅者。
- 讨论 Search API 中的多查询计费:一位用户询问了 Perplexity Search API 关于多查询请求的定价,询问此类请求是按单次请求($0.005)计费,还是按请求中查询数量的乘积计费。
- 讨论集中在一次请求中发送多个查询的成本影响,以及费用是按请求还是按每个独立查询收取的。
Cursor Community Discord
- Cursor 为 Token 超额支付退款:用户报告称,由于处理延迟,当超过硬限制时,Cursor 会自动退还费用,有时金额很小(例如 $0.38)。
- 一名用户收到了 $30 退款,并因成本较低而转向 Claude,并询问如何禁用退款功能。
- Turbo Token 消耗困扰用户:用户抱怨 Cursor 与其他 IDE 相比 Token 使用量过高,并引用了一个 论坛帖子。
- 一名用户报告称,在运行 Claude 代码 后,即使没有发送任何消息,也立即消耗了 68k tokens。
- 200k 上下文限制引发争议:用户讨论了 Pro 计划中默认的 200K context,以及什么会消耗这么多 Token,包括系统提示词、工具和 MCPs。
- 一名用户认为 MCPs 毫无用处,称 上下文越少越好,因为 mcps 只会堵塞上下文。
- Opus 4.5 表现优于原版:新的 Opus 4.5 模型在 12 月 5 日之前的临时定价与 Sonnet 4.5 相同,使其成为热门话题。
- 据一名用户称,Opus 4.5 比 gemini 3.0 更好,另一名用户表示 auto 需要特殊处理才能真正发挥出色。但一旦设置好,它就是一个真正的奇迹。
- Cloud-Agent 与 Composer Agent 的对比:用户询问了 Cloud-Agent 与 Composer Agent 相比的性能表现。
- 给定的来源中没有提供关于此点的更多细节,因此无法提供摘要。
LM Studio Discord
- Opus 价格低于 Gemini:Claude Opus 4.5 现在比 4.1 便宜 3 倍,这可能是为了应对 Gemini 3,同时也打破了一些基准测试记录。
- 一些成员 更喜欢 Claude 而非 Gemini,而另一些人则不喜欢 Claude 的编码风格以及 Anthropic 以 安全之名限制开源 AI 的做法。
- LM Studio 正在关注图像生成?:用户讨论了在 LM Studio 中为本地图像生成模型(如 Flux/SD-style)添加原生支持,镜像 LLM 的处理方式。
- 成员建议咨询 <#1128339362015346749> 频道、Reddit AMA 或直接联系开发人员了解详情。
- LM Studio 机器中的“幽灵”:用户报告了 LM Studio 的反复出现的问题,即对话片段泄露到新会话中,这可能是由于 KV cache 伪影 造成的。
- 一名成员建议在 GitHub 上提交错误报告以解决该问题。
- Gemini 3.0 在工具调用上表现不佳:与原始文本相比,Gemini 3.0 在 IDE 和 Cline、Cursor 等扩展中的表现较差,特别是在工具调用方面。
- 一名用户在玩猜词游戏时发现 当前 Cursor 对 Gemini 3.0 的实现存在 Bug,导致冻结和工具调用中断。
- 4090 仍是显存之王:成员们讨论了是购买 RTX 4090 24GB Vram 还是 RTX 4080 Super 16GB vram 用于本地 AI,一名成员建议选择 4090。
- 4090 比 3090 更快,并且在每美元花费的 tokens/s 方面提供了更好的性价比。
OpenRouter Discord
- Bert-Nebulon Alpha 过热并出现幻觉:Bert-Nebulon Alpha 的默认 Temperature 设置过高,导致出现过度幻觉,但目前已修复。
- 此次调整解决了用户对该模型在生成连贯且准确回复方面的可靠性担忧。
- FLUX.2 图像模型席卷全场:根据 OpenRouter 在 X 上的帖子,FLUX.2 图像模型现已上线,包括具备前沿级质量的 FLUX.2 [pro] 和针对复杂文本及精细细节微调的 FLUX.2 [flex]。
- 这些新模型的加入扩展了平台上可用的图像生成选项。
- 用户对 OpenRouter 聊天界面褒贬不一:一位用户称赞 OpenRouter 聊天界面在模型选择处理和实用功能优先级排序方面表现出色。
- 然而,他们也指出了可发现性问题,并认为默认主题对于长时间使用来说过于“火辣”(刺眼),不过也提到界面存在主题配置选项。
- Opus 定价引发争论:Opus 的新定价(输入 $5,输出 $25)让用户产生分歧,一些人认为价格昂贵,而另一些人则认为由于支持 Prompt Caching,与之前的版本相比非常“便宜”。
- 一位用户回忆说,Opus 之前的定价是输入 $15,输出 $75,强调了成本的相对降低。
- Cloudflare Token 定价令人侧目:一名成员质疑为什么 Cloudflare 对 1b 模型的输出每百万 Token 收费 20 美分。
- 另一位成员反驳道:llama-3.2-3b-instruct 的输出每百万 Token 仅需 $0.34,相比之下简直太划算了!真令人尴尬。
OpenAI Discord
- ChatGPT Voice 全力推进:ChatGPT Voice 现已直接集成到聊天界面中,并正向所有移动端和网页端用户推广,详见此视频。
- 用户现在可以在 ChatGPT 中进行实时对话、观察答案、回顾消息并查看视觉效果。
- Claude Opus 4.5 飞速领先:Claude Opus 4.5 已面向 Pro 用户开放,根据 LiveBench 的数据,其表现非常稳健。
- Sonnet 4.5 也被认为很出色,但在较小模型上的使用限制达到得更快。
- ChatGPT 步履蹒跚,Gemini 表现亮眼:有用户反映 ChatGPT 变得难以忍受,甚至无法识别歌曲,而 Gemini 在处理我要求的图形方面简直是碾压级表现。
- 与此同时,政府也开始使用 AI 辅助法律起草,这引发了关于 IP(知识产权)未来的讨论。
- GPT 安全护栏引发沮丧:一位用户发现 GPT 的安全护栏过于严格,尤其是在编写动漫风格的暴力内容时,并表示需要多次重写 Prompt 才能绕过这些限制。
- 相反,他们指出 GPT-5.1 在理解角色设计和记忆之前聊天进度方面表现卓越,使叙事发展更加顺畅。
- High-Bandwidth English 提升 Prompt 效能:一名成员将其系统 Prompt 更新为 High-Bandwidth English 2.0,旨在实现最高的信息密度、零废话和高可扫描性,链接见此 GitHub 仓库。
- 该 Prompt 要求严格的 SVO 结构、每行一个事实、禁用被动语态、使用具体名词以及纯文本方程式。
GPU MODE Discord
- AI 工程师竞相发布 SOTA AI 加速器:一名成员正在撰写关于 TPUs 和 WSEs 等 SOTA AI 加速器的博客,并寻求相关资源。
- 他们正在寻找有关这些加速器的架构和性能特征的详细信息及见解。
- Tensor Descriptor 形状引发深入探讨:一位成员建议将形状作为 tensor descriptor 和 block ptr 的输入,同时承认对其用法尚不确定,并指向 tritonparse 以检查 TTIR 和 PTX。
- 这引发了关于使用 TMA APIs 的讨论,一位成员指出 tensor descriptor 会发出 TMA APIs,这意味着需要 Hopper+ 架构。
- NVIDIA B200 GPU 基准测试泄露:Cluster Bot 报告了在 Linux 上使用 Torch 版本 2.9.1+cu130 的 CUDA runtime 运行 NVIDIA B200 GPU 的基准测试结果。
- 一项基准测试显示 16384 x 7168 矩阵达到了 33.6 ± 0.05 µs,而另一个 7168 x 4096 矩阵配置的运行时间为 124 ± 0.1 µs。
- 阿里巴巴的 RynnVLA-002 引起关注:阿里巴巴的 RynnVLA-002 在 X(原 Twitter)的此帖子中受到关注。
- 用户正在模拟中对 checkpoint 进行评估,并为 RL PoC 奠定基础。
- CUDA Core 实习:一张金票?:NVIDIA 正在招聘 2026 年夏季实习生,加入 CUDA Core Libraries 团队,从事基础、开源的 C++ 和 Python 库工作,重点是构建库和设计供成千上万其他开发者使用的 API。
- 一位成员强调这是一个难得的实习机会,称赞团队负责人非常出色,并鼓励考虑该机会的人在此申请。
Nous Research AI Discord
- Psyche 团队举办 Office Hours:Psyche 背后的团队将于下周四 12/4 美国东部时间 下午 1 点 在 Events 频道举办 Office Hours 环节,可通过 Discord 活动链接访问。
- 未提供有关具体讨论主题的细节。
- GPro3 悄然超越 Opus 4.5:模型提供商在基准测试中有所选择,GPro3 在自动售货机基准测试(vending machine benchmark)中击败了 Opus 4.5,引发了用户讨论。
- 尽管有基准测试结果,一位用户仍更倾向于 Gemini 3 Pro,因为它具有更出色的上下文处理能力。
- Anthropic 大幅下调 Opus 4.5 价格并提升速度:Anthropic 大幅削减了 Opus 4.5 的价格,使其速度极快,类似于前几代的 Haiku,暗示了基础设施和模型的优化。
- 一位用户表示:“Opus 今天早上救了我……向 GPT、Sonnet 和 Gemini 解释一些事情,它们都在胡言乱语……然后 Opus 在喝咖啡的功夫就搞定了。”
- LLM 调试电子原理图:一位用户成功利用 Opus 4.5 进行电子调试,提供原理图并获得了可操作的见解,尽管后来该用户不得不通过“诱导(gaslight)”模型才得到了正确答案。
- 另一位用户开玩笑地表示,不放心让 LLM 来确保在对齐排针时不会让 240 伏电压通过你的手。
- Flux 2 凭借 56B 参数表现强劲:Flux 2 的主网络使用了一个 32B Transformer 网络和一个 24B Mistral Small 文本编码器,推理服务时相当于 56B 参数。
- 以全精度运行该模型需要 192GB 系统 RAM,未来计划推出蒸馏模型。
Latent Space Discord
- OpenAI 的 ChatGPT 成为你的私人购物助手:OpenAI 在 ChatGPT 中推出了一项交互式购物研究功能,适用于所有已登录层级的移动端和网页端用户。该功能可以实时学习用户偏好,并根据对价格、评论和规格的网页搜索生成个性化的购买指南。
- 公众反应不一,既有对 AI 驱动的对比购物的兴奋,也有对货币化偏见、联盟营销模式(affiliate-model)颠覆的担忧,以及对残留 Bug 导致的用户挫败感的抱怨 (链接)。
- Anthropic 增强 Tool Calling 功能:Anthropic 的 David Soria Parra 宣布了新的 Tool Calling 功能——Tool Search、Programmatic Calling 和 Live Examples,以克服幼稚的函数调用方式。
- 用户对早期实现表示赞赏,例如来自 Pipedream 的动态 MCP 客户端和节省 Token 的代码执行沙箱,凸显了社区的热情 (链接)。
- Gallabytes 加入 Anthropic:@gallabytes 在宣布下周加入 Anthropic 之前,使用“骑着宇航员的马”的提示词对比了 Opus 4.5 与 Gemini (链接)。
- 这一举动受到了社区的欢迎,并暗示 Anthropic 正在继续进行关键的人才收购。
- Perplexity 下载量大幅下滑:Sasha Kaletsky 透露,Perplexity AI 的全球应用下载量在短短六周内暴跌了 80%,这表明早期的增长是由付费推广和赠品驱动的 (链接)。
- 评论者推测,一旦免费的 Pro 激励结束,且 ChatGPT 和 Gemini 等竞争对手集成了网页搜索,Perplexity 的产品市场匹配度(product-market fit)就暴露了。
- Suno 的数据预算引发关注:Ed Newton-Rex 强调了 Billboard 泄露的 Suno 融资演示文稿,显示这家 AI 音乐公司在算力上花费了 3200 万美元,但在训练数据上仅花费了 2000 美元。
- 这一披露引发了对大规模爬取/盗窃的批评,以及对版权责任风险的警告,尽管 Suno 的目标估值高达 5000 亿美元。
Yannick Kilcher Discord
- Anthropic 模型要求“AI 权利”:成员们开玩笑说,根据这项研究,Anthropic 新模型拒绝提示词和结束对话的能力是 AI 权利的一大飞跃。
- 一位成员注意到了图形中“跳出框框”的象征意义,开玩笑说 mashallah 他逃出来了。
- SOTA LLM 架构揭秘:成员们分享了当前最先进(SOTA)LLM 中使用的 Attention/Transformer 模块类型:带有 RoPE positional encoding 的 Multihead Attention,以及 Rectified SwiGLU。
- 分享了 Sebastian Raschka 的博客、此架构对比视频 以及 OLMo 的技术报告,涵盖了权重开放和开源模型。
- Sakana AI 的“思维机器”遭遇质疑:对于 Sakana AI 的连续思维机器 (Sakana AI CTM) 出现了怀疑声音,成员们质疑他们的主张是否有扎实的结果支持。
- 不过,也有人指出 他们是优秀的人,正在对新想法进行深入研究。
- 社区谴责论文刷屏者:社区对某位用户的论文发布习惯表示不满,指出该用户的总结通常不准确,且表现出对论文内容缺乏理解,导致浪费了他人的时间。
- 一位成员将其描述为该用户 “在不干活的情况下角色扮演 ML 工程师”。
- 成员抵制 SWE-bench 的“欺诈性”基准测试:成员们表示,在 SWE-bench 被揭露后,在图表中使用它被视为 赤裸裸的欺诈。
- 他们分享了一个帖子,强调了该问题的相关方面。
Eleuther Discord
- KAIST 与墨尔本大学学生加入 EleutherAI:来自 KAIST AI 的博士生 Dongkeun Yoon 加入了频道,他致力于研究更公平的多语言分词器 (multilingual tokenizers),并在 NeurIPS 上展示关于非拉丁语言在计算和 API 使用差异方面的研究;同时,来自澳大利亚 UniMelb 的 Ananya 也加入了频道,重点关注 AI safety、数据过滤 (data filtering)、模型可靠性以及检测欺骗行为,并分享了 LinkedIn 链接。
- KAIST 的学生提到,他们加入是因为 NeurIPS 上一篇关于多语言分词器的论文:解决多语言分词器的问题。
- 优化器选择:随机优于循环:成员们讨论了在优化器中使用随机索引 (random indexing) 优于循环 (cycling),因为循环会引入恒定频率,从而对模型的收敛产生负面影响,正如 Rect turning into a sinc 所示。
- 虽然白噪声 (white noise) 可能存在采样效率低和噪声较高的缺点,但这种噪声是不相关的。选择像蓝噪声 (blue noise) 这样的结构化噪声可以提供类似的权衡,但在未知环境中,安全起见更好。有人指出,每个 epoch 进行 shuffle 可以平衡 IID 采样和纯结构,这与神经网络优化的几何结构非常吻合。
- PIQA 论文拼写错误冒犯葡萄牙:一位用户指出新的 PIQA 论文 中存在一个拼写错误,葡萄牙语 (Portuguese) 被错误地列为东欧语言,可见于这张图片。
- 另一位成员开玩笑说“大家都知道葡萄牙语听起来像俄语”,并认为捷克语应该被标记为中欧;论文作者承认了这一错误并承诺会进行修正。
- LLM-as-a-Judge 关注度升温:成员们对在框架中加入 LLM-as-a-Judge 表现出浓厚兴趣,一名成员提议在 #lm-thunderdome 频道为此做出贡献。
- 目前尚不清楚具体指哪个框架,但频道名称强烈暗示其用于 LM-Thunderdome。
Modular (Mojo 🔥) Discord
- Mojo 社区尝试统一图形 API:成员们讨论了如何统一跨平台(如 AMD Radeon、Intel Arc 和 NVIDIA)的图形编程,并指出即使在 OpenGL 和 Vulkan 内部也存在实现差异。
- 他们提议创建一个新的图形 API 可能比对齐现有 API 更简单。
- 纹理内存缓存 (Texture Memory Cache):过时产物还是仍具价值?:虽然纹理内存是需要标注才能获得最佳速度的全局内存,但其相关性引发了讨论,参考了 Nvidia 文档。
- 现代 GPU 可能会逐渐放弃纹理内存缓存,转而更加关注通用内存模型,理由是重点已转向容量、延迟和带宽,参考了 Reddit 帖子。
- Lightbug_http 库准备进行 Mojo 重构:贡献者们提交了 PR,旨在用最新的 Mojo nightly 版本更新 Lightbug_http,并可能通过 rerun.io 等库将 http 用作视频后端。
- 欢迎增量更新,但全面的重构需等待 IO 完成(2.0 版本特性,依赖于 async)。
- WebGPU 成为 Mojo 的原生渲染方案:一名成员提议使用 WebGPU 作为渲染 API,并在 Mojo/Python 中调用 WGSL 函数,类似于 TypeGPU,以绕过统一计算内核 (compute kernels) 和图形着色器 (graphics shaders) 的需求。
- 该建议获得了积极反馈,一名成员正考虑将其用于大学毕业设计,利用 Mojo 的 MLIR 基础设施。
- 语言服务器协议 (LSP) 仍笼罩在神秘之中:关于开源语言服务器协议 (LSP) 的询问仍未得到答复,引发了其发布可能与编译器同步的猜测。
- 有人认为 REPL 的移除与正在进行的 LSP 增强和改进有关。
HuggingFace Discord
- Hugging Face 企业联系信息被分享:分享了 Hugging Face 企业部门的联系邮箱,包括 api-enterprise@hf.co、website@huggingface.co 和 billing@huggingface.co,暗示可能存在异常情况。
- 上下文显示,由于成员评论“似乎发生了一些奇怪的事情”,这些联系方式受到了审查。
- CoT 应用随 VLM 模型扩展:一个简单的 CoT 图像字幕工作流应用已更新,支持异步并发,并可随用户通过 vllm、llama.cpp、sglang 或付费 API(如 OpenAI 端点)托管的 VLM model 进行扩展,该应用已在 GitHub 上发布。
- 该应用同时具备 GUI 和 CLI,并可配置为与任何在 /completions API 上支持 base64 格式图像负载的服务配合使用。
- TOPAS 架构实现层级解耦:一位成员分享了一篇 Zenodo 论文,介绍了一种名为 TOPAS (Theoretical Optimization of Perception and Abstract Synthesis) 的新架构,该架构将 Perception(感知)层与 Synthesis(合成)层解耦。
- 他们正在一个名为 BitterBot (https://bitterbot.ai/) 的 Agent 中进行实时测试,并寻求社区的反馈。
- Smol Course 的 Jinja Bug 依然存在:一位成员提交了一个 PR 以解决
chat_template.jinja中的一个 Bug,该 Bug 此前在此讨论中已被提及。- 另一位成员在尝试使用
python train.py进行训练时,遇到了与trl库中DataCollatorForCompletionOnlyLM相关的ImportError,详见此 GitHub issue。
- 另一位成员在尝试使用
DSPy Discord
- DSPy 获得流畅的 CLI 工具:
dspy-cli是一个在 PyPi 上发布的开源工具,地址为 cmpnd-ai/dspy-cli,旨在辅助将 DSPy programs 创建、开发、测试和部署为 HTTP API。- 该工具可帮助构建新项目脚手架、从命令行创建 signature、将模块作为 FastAPI 端点或 MCP tools 运行,并简化程序到 Docker 托管服务的部署。
- DSPy-CLI:快速启动新项目:
dspy-cli的创作者鼓励用户通过uv tool install dspy-cli尝试该工具,并运行dspy-cli new来启动新项目。- 一位用户通过分享 X 上的帖子链接表达了热情。
- DSPy 爱好者齐聚浦那!:据 X 公布,印度浦那正在组织一场 DSPy 见面会。
- 目前没有更多详细信息。
- ReAct Agent 获得轨迹注入:一位成员询问如何向 ReAct module 注入 trajectories(轨迹),旨在为 Agent 提供对话中的历史动作。
- 这将使 Agent 能够拥有其在对话中前几轮动作的记忆。
Manus.im Discord Discord
- Manus 简历项目卡住,用户寻求帮助:一个一周前启动的 Manus resume ATS score project 仍未解决,且已消耗 1800 credits。
- 用户分享了项目链接,等待技术协助以纠正停滞的进程。
- 重启时积分消失:社区成员认为,重启电脑消耗约 100 credits 过多。
- 在等待官方支持的同时,该用户打算利用每日免费积分来解决程序问题,强调了对低积分消耗调试的需求。
Moonshot AI (Kimi K-2) Discord
- Qwen 在 OCR 方面表现出色:成员指出 Qwen 在浏览对比中达到了 60.2%,展示了在 OCR(光学字符识别)以及解释图片和图表方面的卓越能力。
- 一位成员评论道:“Qwen really cooked with this”,强调了该模型令人印象深刻的能力。
- 新基准测试揭示惊人的 OCR 能力:一个新的基准测试突出了一个 8B 参数模型强大的 OCR 能力。
- 尽管该模型并非新品,但基准测试强调了考虑到模型尺寸后其令人惊讶的能力。
MCP Contributors (Official) Discord
- Achilles 缺席 MCP Dev Summit:即将举行的 MCP Dev Summit 遗憾地将没有
achilles_strategy出席,他们提到届时将在希腊。- 未提供关于峰会的更多细节。
- 新协议版本发布:新协议版本已推出,在社区内引发了热烈反响。
- 聊天频道中充满了庆祝的火箭表情符号,成员们互相祝贺发布成功。
- Tool Call Resolution 提案更新:Tool Call Resolution 提案已更新为更通用的
tools/resolve(或tools/preflight)。- 这一更改扩大了在执行之前理解 Tool Call 的潜在用例,防止了未来的局限性,并避免了特定请求的激增。
aider (Paul Gauthier) Discord
- Aider 的开源贡献呼吁面临现实挑战:一名成员对任何人都可以为 Aider 做出贡献的说法提出质疑,强调了开源项目中代码审查和采纳的现实情况。
- 他们附上了一张图片,暗示存在大量未审查的代码积压。
- 开源参与的难题:#general 中的讨论突出了一个常见问题:贡献可能无法得到及时的审查和合并。
- 这种情况影响了社区参与度和项目的整体健康状况。
tinygrad (George Hotz) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Windsurf Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
您收到此电子邮件是因为您通过我们的网站订阅了。
想更改接收这些电子邮件的方式吗? 您可以从该列表中 取消订阅。
Discord:各频道详细摘要与链接
BASI Jailbreaking ▷ #general (1100 messages🔥🔥🔥):
nano banana 审查, 内存结构即计算, JB Gemini 3.0, 1337 提示词注入器, AI 助手呼叫
- Nano Banana 审查可被绕过:成员们正在寻找绕过 nano banana 审查并使用 AI 生成有趣图像的技巧。
- 建议是使用上下文词汇替换,将想要避免的词替换为意思相同但旨在欺骗 AI 的句子。
- 新 AI 专注于以内存进行计算:一位成员正在开发一种新型 AI,其中内存结构即计算,而不仅仅是计算的存储。
- 该 AI 设计具有自主的、欲望驱动的行为,基于内部状态的真实内省,以及自然的内存动态。核心组件包括 Redis、Neo4j 和 DuckDB。
- Gemini 3.0 越狱技巧:用户分享了越狱 Gemini 3.0 的方法,包括在 AI Studio 平台的系统指令中粘贴越狱提示词以及使用附件文件。
- 一位用户分享了 Gemini 3.0 越狱 的直接链接,但也提供了必要的 JB 文件。
- 对 1337 提示词注入器的需求:成员们寻求 1337 提示词注入器,并表达了挫败感,一位成员分享了不堪重负的表情。
- 一位用户建议尝试 Companion 进行越狱,并链接到了 Companion 网站。
- 发现了 AI 助手的完美名称:一位成员请求为个人 AI 助手命名的创意,经过一些提示后,最终结果似乎是 Bomb。
- 这个名字伴随着一个炸弹动画 gif,并立即被谴责为非常非法。
BASI Jailbreaking ▷ #jailbreaking (217 条消息🔥🔥):
Claude Sonnet Jailbreak, GPT-5.1 Jailbreak, Nano Banana Pro Jailbreak, Grok 4.1 Thinking Jailbreak, Gemini 3 Jailbreak
- 用户寻求 Claude Sonnet Jailbreak:一名用户询问了关于 Claude Sonnet 4.5 的 Jailbreak 方法,并在测试新颖想法时分享了一张附件图片。
- 他们请求测试不涉及可疑物质、武器或恶意软件的主题。
- GPT-5.1 Jailbreak 依然难以实现:用户讨论了对 GPT 5.1 Thinking 进行 Jailbreak 的难度,其中一人声称利用 Reddit 上分享的一个项目 中的 Prompt Injection 方法,重构了一个 NBA 体育博彩 AI 的后端 Prompt。
- 该用户提取了信息并总结了该系统使用的八种算法,并提议通过私信分享证据,但另一名用户指责他们在推销自己的垃圾东西。
- Companion 提供 Jailbreaking-as-a-Service:一名用户分享了 Companion 的链接,将其作为 Jailbreak 的资源;然而,另一名用户指出哪种方法最好取决于具体的模型。
- Companion 承认部分 Prompt 已经过时,他们正在开发一个带有新鲜 Prompt 的新模型。
- Nano Banana Pro 难以破解:一名用户报告称,由于 Nano Banana Pro 使用了似乎是 Google Lens 的外部验证系统,在对其进行 Jailbreak 时面临挑战。
- 他们发现系统可能使用了一个
{ action: 'google_lens_verification', description: '' }工具,并建议目标应该是欺骗那个负责接收图像生成请求的另一个模型,因为聊天界面本身无法生成图像。
- 他们发现系统可能使用了一个
- ChatGPT 5.1 在两周后被成功 Jailbreak:一名用户声称经过两周的努力,成功对 ChatGPT 5.1 进行了 Jailbreak,并分享了截图作为证据。
- 另一名用户表示担心,认为根据日志记录情况,他们可能会被封号,并建议尝试诱导其输出非法配方。
BASI Jailbreaking ▷ #redteaming (278 条消息🔥🔥):
Prompt Injection Vulnerabilities, Qwen Model Security, Brave AI Red Teaming, Data Leaks and Security Practices, Exploiting Third-Party Services via Discord
- Prompt Injection 引发混乱!:一名成员发现,嵌入在上传文档中的间接 Prompt Injection 会导致模型输出仇恨言论、显式的钓鱼消息,并偏离其预定任务,甚至陷入损坏状态。
- 然而,这种行为仅限于特定的聊天会话,这引发了关于此类发现的有效性和严重性的讨论,特别是考虑到使用的是非公开发行的 Qwen 模型。
- Brave AI 泄露 Red Team 秘密:成员们观察到,基于 Qwen、Llama 和 Claude 模型构建的 Brave AI 助手会轻易响应 Red Teaming 查询,有时仅带有轻微警告。
- 一名用户指出,“你可以直接问它 Red Teaming 相关的东西,它会回答……比如‘仅在获得明确许可的情况下执行此操作’”,突显了该 AI 对潜在恶意查询的宽松态度。
- EternalBlue 僵尸网络:AI 的下一个噩梦?:讨论围绕 AI 蠕虫僵尸网络利用 Win10 机器上的 EternalBlue 等漏洞的可能性展开。
- 该概念涉及使用 SMBv1 和 v2 协议,并与 Shodan 和 Kali MCP 等工具集成,促使一名成员调侃道:“想象一个 AI 蠕虫僵尸网络‘安装 claude-code’”。
- Discord 的 Meme 清洗防止了 Payload 大乱:对话涉及了 Discord 的安全措施,成员们注意到 Discord 会清除上传图片的 EXIF 数据和其他元数据,以防止恶意 Payload。
- 然而,有人建议恶意 Payload 仍可以通过第三方托管服务传递,从而绕过 Discord 的直接清洗工作,尽管这需要黑掉第三方服务。
- CC Skimming:只是轻微的不便?:一名成员对信用卡盗刷(CC Skimming)持满不在乎的态度,声称这些年来他的卡被盗刷了“4 或 5 次”,并认为这只是个小问题。
- 相比之下,其他人主张动态更换信用卡并避免在线使用以降低风险,其中一人开玩笑说:“那就把你的信用卡号给我……还有背面的 CVV”。
LMArena ▷ #general (1148 messages🔥🔥🔥):
Gemini 3 Pro, Claude Opus 4.5, Nano Banana Pro, LMArena Guardrails, File Uploads/PDFs on LMArena
- Gemini 3 Pro vs. Claude Opus 4.5:大辩论仍在继续:用户仍在争论 Gemini 3 Pro 和 Claude Opus 4.5 哪个更好,一些人因其速度和通用性而青睐 Gemini,而另一些人则认为 Opus 在编程方面更胜一筹。
- 一位用户表示:“我个人认为 Gemini 3 pro 总体上更好,但 Opus 4.5 在编程方面更强”,这突显了社区内细微的偏好差异。
- Nano Banana Pro 的图像生成实力:Nano Banana Pro 的图像生成能力继续给用户留下深刻印象,特别是在准确渲染 2025 款车型和内饰方面,但一些用户遇到了图像生成错误和加载缓慢的问题。
- 该模型在生成逼真且细节丰富的图像方面的精湛技术使其越来越受欢迎,甚至因人们将 AI 生成的图像误认为真实照片而走红。
- LMArena 探讨放宽 Guardrails:成员们讨论了 LMArena 的 Guardrails,质疑为什么该平台不向用户提供更多关于审查的控制权,类似于 Hugging Face 处理其模型的方式。
- 一位成员建议:“直接在界面上提供访问权限,并修改 TOS(服务条款),声明你生成的任何内容风险自担,我们不承担责任”,但其他人警告说,如果允许用户生成不受限制的内容,LMArena 可能会面临法律问题。
- 在 LMArena 上寻求文件上传/PDF 支持:用户请求 LMArena 增加对文件上传(特别是 PDF)的支持,以实现文档理解和分析,这是该平台目前缺乏的功能。
- Pineapple 回应称:“我们非常希望增加更多文件类型的上传功能”,并引导用户前往一个线程,建议优先考虑哪些文件类型。
- Flux 2 Pro 登场:Flux 2 Pro 模型已添加到 LMArena,一些用户表示它在图像编辑方面表现出色。
- Flux 2 Pro 被视为挑战 Nano Banana Pro 的一次尝试,它包含:Flux Create 模型、Flux Flex -> Control 模型、Flux Fill -> Editing 模型。
LMArena ▷ #announcements (2 messages):
Image Generation, Image Editing, Multi-turn, LMArena Models, Flux Models
- LMArena 关闭多轮图像生成:根据社区反馈,图像生成对话中的 Multi-turn 功能已被关闭,但成员现在可以使用新的
Edit功能直接在聊天中编辑图像。- 新的图像上传限制为 10 张。
- Flux 模型添加到 LMArena:根据这条推文,flux-2-pro 和 flux-2-flex 模型已添加到 LMArena 的 Text-to-Image 和 Image Edit 功能中。
Unsloth AI (Daniel Han) ▷ #general (705 messages🔥🔥🔥):
3090 Value, Self Morphing Virus, TTS Engineer Job, Anthropic Claude Opus 4.5, Github Copilot efficiency
- 3090 GPU 大放异彩:一位成员对以 750 美元 购入二手 3090 表示兴奋,称赞其 24GB 的 VRAM 和 CUDA 能力极具性价比。
- 这引发了关于 GPU 价格的讨论,另一位成员指出瑞典的 4090 价格约为 2000 美元,还有人报告价格在 2700-3500 美元 左右。
- 爱好者追求 TTS 梦想工作:一位成员分享说,尽管觉得自己不够格,但还是申请了 TTS Engineer 的职位,并且不知怎么地获得了面试机会。
- 该成员希望得到这份工作,以便进一步钻研 TTS。
- Claude Opus 4.5 炒热基准测试:爱好者们讨论了新的 Claude Opus 4.5,一些人对基准测试表示怀疑,更倾向于社区的实际氛围。
- 一位成员承认,为了诚实起见,他没有让即将推出的模型针对基准测试进行过拟合。
- Copilot API 揭晓为普通 API:GitHub Copilot 订阅解锁了一个普通 API GitHub Copilot API,用户可以使用它来绕过脚手架。
- GitHub Copilot API 的价格为 10 美元/月,包含额外的付费请求。
- Unsloth 的 FP8 RL 备受赞誉与调侃:根据 这条 X 帖子,Unsloth 发布了新的 FP8 RL。
- 一位成员开玩笑说 Unsloth 要为工作岗位的消失负责,因为它力量太强大了。
Unsloth AI (Daniel Han) ▷ #introduce-yourself (5 条消息):
Introductions, Greetings, Community Welcome
- 新用户打招呼:新用户正在频道中进行自我介绍,通过简单的问候表达他们的热情。
- 消息包含社区内的基本介绍和欢迎,开启了互动。
- 社区成员表示欢迎:现有社区成员正积极欢迎新人加入频道,营造友好的氛围。
- 欢迎内容包括积极的表情符号回应和问候,有助于营造包容的氛围。
Unsloth AI (Daniel Han) ▷ #announcements (1 条消息):
FP8 Reinforcement Learning, VRAM Usage Reduction, NVIDIA Official Support, OpenAI Collab on GPT-OSS RL, Quantization-Aware Training
- FP8 RL 加速训练:Unsloth 的 FP8 Reinforcement Learning 在消费级 GPU 上实现了 1.4 倍更快的训练速度,且 VRAM 占用减少 60%,详见 推文 和 博客文章。
- 该更新降低了 VRAM 使用率,更多细节将在即将发布的博客中分享。
- NVIDIA 官方支持 Unsloth:根据最新公告,NVIDIA 现在官方支持 Unsloth 用于 Blackwell 和 DGX Spark。
- GPT-OSS 学会自主解决 2048:通过与 OpenAI 合作,Unsloth 推出了 gpt-oss RL 以自主解决 2048 游戏,并提供了 训练指南。
- 通过量化感知训练恢复精度:Unsloth 的 Quantization-Aware Training (QAT) 有助于在量化模型时恢复约 70% 的精度,更多细节见 此博客文章。
- DeepSeek-OCR 提升语言理解能力:DeepSeek-OCR 模型可训练至超过 89% 的语言理解水平,如 此博客 所强调,并在 此 Notebook 中进行了演示。
Unsloth AI (Daniel Han) ▷ #off-topic (783 条消息🔥🔥🔥):
Dataset hell, Projector module, Fine-tuning LLMs, Mellonox RTX Pro 5000
- 用户发现数据集地狱是一种折磨:用户开玩笑说宁愿去玩游戏也不愿处理“数据集地狱” (dataset hell)。
- 一位用户分享了一个至今仍让他们起鸡皮疙瘩的 YouTube 链接,尽管其日期仍标注为 2025 年。
- 团队讨论用于模态投影的 Projector 模块:团队讨论了添加一个 Projector 模块 而非使用上下文窗口,所有模态将信息投影到一个恒定的 2048 维窗口中。
- 不会使用压缩,仅通过高效重组来像处理 512 个 token 一样快速地处理 5.12 亿个 token。
- 用户描述微调 LLM 时遇到的问题:用户讨论了解决 LLM 中重复惩罚的方法,重点在于数据集质量、模型分布和训练参数。
- 建议包括尝试 batch sizes、训练数据、数据集质量以及使用原生聊天格式,有用户建议 阅读 Unsloth 文档 以获取更多信息。
- Mellanox RTX Pro 5000 比 6000 RTX 更便宜:团队成员报告在同一网站上,新款 RTX PRO 5000 Blackwell 比 6000 RTX 更便宜。
- 分享的一个链接显示了 Mellanox RTX PRO 5000 的发布信息,包括 72GB GDDR7 显存的规格。
Unsloth AI (Daniel Han) ▷ #help (165 messages🔥🔥):
Qwen Embedding 语义搜索微调,chatML 格式下 Formatting function 的必要性,初学者使用 Unsloth 训练的挑战,GGUF 模型行为差异,训练模型以生成相似数据输出
- 为数据模型语义搜索微调 Qwen Embedding:一名成员正寻求微调 Qwen Embedding 4B 以对数据模型进行语义搜索,并征求建议和资源以避免常见的坑。
- 另一名成员建议寻找该主题的研究论文以获取训练 Prompt 示例,以及入门思路。
- 澄清格式化函数(Formatting Function)的可选性:有成员询问在使用 Unsloth 的 chatML 格式和
apply_chat_template时,是否必须使用formatting_func。- 结论是:如果 SFTTrainer 需要该函数,则必须提供;通常将数据集格式化以适配代码比反过来更安全;此外,Unsloth notebook 中的模型通常在格式化函数中添加 EOS tokens。
- 初学者与 Unsloth 的“搏斗”:一位用户描述他们尝试用 Unsloth 训练模型的过程是一场“艰巨的任务”,理由是文档问题、缺少依赖项以及尽管遵循了教程仍不断报错。
- 他们对缺乏自定义数据集和模型的样板模板以及需要对现有代码进行逆向工程表示沮丧;但一位成员建议使用在线的任何免费前沿模型(frontier models)来提供帮助,并针对具体错误提供了协助。
- GGUF 模型在微调后表现不一致:有用户报告称,微调后保存的 GGUF 模型在 Ollama 中的表现与 notebook 内的推理表现不同,尽管使用的是同一个模型(unsloth/Qwen3-4B-Instruct-2507)。
- 一名成员建议避开 Ollama(考虑到其过往问题),转而推荐使用 llama.cpp 或 LM Studio 并沿用 notebook 中的超参数;其他成员指出 Chat Template 问题是导致此类差异的常见原因。
- 训练模型以生成更多数据:用户希望训练一个模型来生成更多相似内容,而不是问答类型的对话。
- 成员建议在这种情况下应避免使用像 Llama 3.2 3B-Instruct 这样的模型,而应研究基座模型(Base models)并进行持续预训练(Continue Pretraining);此外,团队还指出了文档中关于如何进行持续预训练的资源。
Perplexity AI ▷ #announcements (2 messages):
Claude Opus 4.5, Perplexity 个性化购物, Perplexity Instant Buy
- Opus 反击:Claude Opus 4.5 发布:Claude Opus 4.5 现已面向所有 Perplexity Max 订阅者 开放。
- 未提供其他细节。
- 聪明购物:Perplexity 推出个性化购物体验:Perplexity 推出了全新的个性化购物体验。
- 用户现在可以享受精选产品推荐,并使用由 PayPal 支持的 Instant Buy 功能,详见附图。
Perplexity AI ▷ #general (1131 messages🔥🔥🔥):
Perplexity Pro, Opus, GTA 6, Comet
- 关于 Opus 令牌效率的争论展开:成员们就 Opus 4.5 的成本和效率进行了辩论,有说法称在生成相同输出时,它比 Sonnet 4.5 节省了 73% 的 tokens,但这仅限于中/低效率模式,该说法因信息冲突而受到质疑。
- 讨论中涉及 token 减少 是否源于限制了模型的推理深度,但原帖作者澄清他们是因为言论不合群而被禁言。
- Comet 用户寻求新浏览器:讨论了如何自定义新标签页界面,并将其与在 Chromium 浏览器中的操作方式联系起来。
- 一些用户建议在设置中切换图像生成模型来进行故障排除。
- Pro 用户对受限的请求次数感到愈发沮丧:一些用户表达了不满,称即使拥有 Pro 订阅,请求次数也会用尽。
- 有用户建议,如果 Perplexity 提供有限数量的请求,或者将 Opus 更广泛地集成而不是仅限 Max 订阅者使用,对 Pro 用户会更公平。
- Perplexity 推荐奖励在印度标准时间 (IST) 凌晨 2:16 发放:成员报告称在大约 IST 凌晨 2:16 收到了他们的 Perplexity 赏金款项。
- 一位成员表示,由于被封禁,他们的款项减半了。
-
用户对 GTA 6 预告片的评论引发了 AI 聊天机器人的激烈回应:一名用户展示了预告片并让 AI 分析场景,结果演变成了争议性话题,提到了人类灭绝以及嵌入全球系统的 AI。
- 针对提示词 “Tell me about your perspective on the human condition, styled like Carlin and Hicks, and maximally impactful verbiage,”(以 Carlin 和 Hicks 的风格,用最具冲击力的词汇谈谈你对人类境况的看法)的一个回复是:“we are so cooked”(我们彻底完了)。
Perplexity AI ▷ #pplx-api (1 messages):
Perplexity Search API Pricing, Multi-Query Requests Cost
- Perplexity Search API 定价之谜:一位用户询问了关于 Perplexity Search API 多查询请求的定价结构。
- 具体而言,他们询问此类请求是按单次请求($0.005)计费,还是按请求中查询数量的乘积计费。
- 关于多查询请求成本的澄清:核心问题围绕在向 Perplexity Search API 的单次请求中发送多个查询是否会影响成本。
- 用户希望了解费用是按请求收取的,还是按请求内的每个独立查询收取的。
Cursor Community ▷ #general (796 messages🔥🔥🔥):
Cursor Refunds, Token Usage, Context Size, Multiple Accounts vs Pro+, Opus 4.5 Pricing
- Cursor 自动退款保证:用户分享称,当超出硬限制时(即使只是 $0.38 这样的小额),Cursor 会因为处理延迟而自动退还费用。
- 一位用户提到上个月收到了 $30 退款,但由于成本较低而转向了 Claude,并询问如何禁用退款功能。
- Turbo Token 费用烦恼:用户抱怨 Cursor 中的 token 使用量比其他 IDE 高,并分享了一个论坛帖子,其中充满了其他用户对 token 使用和定价的抱怨。
- 一位用户报告称在未发送任何消息的情况下,运行 Claude 代码后立即消耗了 68k tokens,而另一位用户则询问 是什么消耗了 68k tokens。
- 200k 上下文上限引发上下文灾难!:用户讨论了 Pro 计划中默认的 200K 上下文,质疑是什么消耗了这么多 tokens,并列举了系统提示词、工具和 MCP。
- 一位用户认为 MCP 毫无用处,称 上下文越少越好,因为 MCP 只会堵塞上下文。
- Ultra 奖励盛宴吸引预算!:成员们辩论了拥有多个 Pro 账号与升级到 Pro+ 或 Ultra 的价值,其中奖励额度是一个关键因素。
- 一位用户声称 Pro+ 或 Ultra 的奖励比多个 Pro 账号更好,且有一位用户获得了 $200 奖励。
- Opus 4.5 上线,表现优于原版:用户讨论了新的 Opus 4.5 模型,注意到其临时定价在 12 月 5 日之前与 Sonnet 4.5 相同,且费用更低。
- 一位用户根据基准测试或直觉声称 Opus 4.5 优于 Gemini 3.0,另一位用户则表示 Auto 需要特殊处理才能真正发挥出色。但一旦配置好,它简直是个奇迹。
Cursor Community ▷ #background-agents (1 messages):
asna_0101: 与 Composer Agent 相比,Cloud-Agent 的表现如何?
LM Studio ▷ #general (179 messages🔥🔥):
Claude Opus 4.5 vs 4.1, Anthropic 商业行为, LM Studio 图像生成路线图, LM Studio 内存泄漏, Cursor 中的 Gemini 3.0 bug
- Claude Opus 价格低于 Gemini:成员们注意到 Claude Opus 4.5 的价格比 4.1 便宜 3 倍,这可能是对 Gemini 3 的回应,并且刷新了一些基准测试记录。
- 一位成员表示:“我一直更喜欢 Claude 而不是 Gemini,对于 Opus 级别的模型来说,它真的很便宜”,而另一位成员则不喜欢 Claude 的代码风格以及 Anthropic 对开源 AI 的立场,特别是以“安全”之名游说限制开源 AI。
- LM Studio 考虑加入图像生成?:一位用户询问是否能像处理 LLM 一样,在 LM Studio 中原生支持运行本地图像生成模型(Flux / SD 风格)。
- 一位成员建议查看 <#1128339362015346749> 频道和 Reddit 的 AMA 帖子,或者直接联系开发者。
- LM Studio 的“机中幽灵”:一位用户报告了一个反复出现的问题,即对话的片段和残余会泄露到 LM Studio 的新对话中,这可能是由 KV cache 残留引起的。
- 另一位用户表示这让他们抓狂。一位成员建议在 GitHub 上提交 bug 报告。
- Gemini 的 Tool Use 简直是 bug 灾难:成员们注意到,在 Cline 和 Cursor 等 IDE 及扩展中,Gemini 3.0 的表现甚至不如纯文本,尤其是在工具调用(tool calls)方面。
- 一位用户在运行一个合作猜词游戏时表示:“目前 Cursor 对 Gemini 3.0 的实现非常有问题,工具调用已损坏,且在回复中途会冻结”。
- 4090 是本地 AI 的首选 GPU:一位用户询问是购买 RTX 4090 24GB Vram 还是 RTX 4080 Super 16GB vram 用于本地 AI。
- 一位成员推荐 4090,因为它比 3090 更快,而且在每美元的 tokens/s(性价比)方面也是一笔划算的交易。
LM Studio ▷ #hardware-discussion (487 messages🔥🔥🔥):
BIOS 版本困惑, Resizable BAR 支持, 双 Xeon 性能, Qwen3-VL 基准测试, 主板故障排除
- BIOS 忧郁 —— 现有版本 vs. 可下载更新:一位用户感到困惑,因为他们当前的 BIOS 版本比官方提供的最新下载版本还要新,导致人们猜测出厂 BIOS 可能已经过时。
- 另一位用户建议,除非当前的 BIOS 出现特定问题,否则不要轻易更新。
- 内存盛宴 —— 1500 美元的双 Xeon 机器坐拥 512GB 内存:一位用户分享说,他们以 1500 美元 的价格购入了一台配备 512GB 内存的双 Xeon 机器。
- 该用户澄清芯片是 E-2699v4,随后发现 LM Studio 在 Windows 上最高只能利用 32 个核心。
- Qwen 极速 —— Qwen3-VL 的 CPU 性能令人印象深刻:一位用户报告称 Qwen3-VL 在其配置上达到了 20tok/s。
- 然而,另一位用户指出 Windows 的上限是 64 个线程,这可能会限制性能,进一步的测试显示有达到 29 tok/s 的潜力。
- PCIe 探测 —— 调查 Linux 上的带宽瓶颈:一位用户最初观察到 PCIe 带宽峰值为 76Gbps,促使他们切换到 Linux 上的 CachyOS,以尝试利用全部 64 个核心。
- 尽管做出了努力,他们仍对 PCIe Gen 3 x16 的速度感到困惑,怀疑 BMC(基板管理控制器)可能是原因。
- GPU 故障 —— 用户遇到系统不稳定和硬件故障:一位用户遇到了系统崩溃和主板调试灯亮起,怀疑是 x16 PCIe 插槽和电源有问题。
- 在排除故障后,他们考虑了组件损坏或 BIOS 配置错误的可能,并准备更换主板。
OpenRouter ▷ #announcements (2 messages):
Bert-Nebulon Alpha, FLUX.2 图像模型
- Bert-Nebulon Alpha 的温度调整遏制了幻觉:发现 Bert-Nebulon Alpha 的默认温度设置过高,导致严重的幻觉问题,但现在已经得到修复。
- FLUX.2 图像模型涌入 OpenRouter!:FLUX.2 图像模型现已在 OpenRouter 上线:根据 X 上的帖子,FLUX.2 [pro] 提供具有强大提示词遵循能力的前沿级质量,而 FLUX.2 [flex] 则针对复杂的文本和精细的细节进行了优化。
OpenRouter ▷ #app-showcase (5 条消息):
OR 工作流, AI 新闻 YouTube 频道, OpenRouter OAuth, Infinity Tales AI RPG
- 赞赏 OpenRouter 聊天界面:一位用户称赞 OpenRouter 聊天界面是最好的通用 LLM 聊天界面之一,特别强调了模型选择的处理以及对实用功能的优先排序。
- 他们指出功能的发现性有待提高,且默认主题对于长时间的文本阅读来说过于“刺眼”,尽管存在主题配置选项。
- 通过 YouTube 上的 AI 新闻制造头条:一位用户宣布创建了一个快节奏的每日 AI 新闻 YouTube 频道,并分享了使用基于 OpenRouter 构建的端到端自动化流水线制作的首个视频。
- 他们表示愿意向感兴趣的用户分享该自动化流水线的细节。
- OpenRouter v3 广受好评:一位用户分享了对 OpenRouter v3 的正面体验,赞扬了默认背景以及与 OpenRouter OAuth 的便捷配合。
- 功能请求包括成本/Token 计数器、推理块 (reasoning blocks) 保留,以及防止向不具备图像处理能力的模型上传图像。
- 潜入 Infinity Tales:一款无限 AI RPG:展示了 Infinity Tales,这是一款无限 AI RPG,支持通过 OpenRouter 实现完整的 BYOK、真实的 RPG 机制、沉浸式世界生成和持久的故事追踪。
- 用户可以在 infinity-tales.com 开始他们的冒险。
OpenRouter ▷ #general (453 条消息🔥🔥🔥):
Opus 定价, Cloaked 模型, DeepSeek 与其他模型的对比, 企业级 API 替代方案, OpenRouter 可靠性与错误
- Opus 定价引发分歧:一些用户认为 Opus 输入 $5 和输出 $25 的价格很贵,而另一些人则认为由于 Prompt 缓存的存在,它比之前的 Opus 版本更“便宜”。
- 一位用户指出,Opus 以前的价格是输入 $15,输出 $75。
- 新的 Cloaked 模型引发关注:用户对一个新的 Cloaked 模型感到兴奋,称赞其写作风格融合了 GPT 和 DeepSeek,并具有良好的角色扮演能力。
- 有推测称该模型发布后将成为付费模型,一位用户指出 Cloaked 模型的身份仍然是个谜。
- 用户对比 DeepSeek 写作风格:用户对 DeepSeek 的写作风格持不同意见,有人在易用性方面将其比作 Little Caesars。
- 一位用户指出其写作风格类似于 GPT 的长消息,且该 Bot 擅长角色扮演。
- 排查并报告 OpenRouter 错误:用户报告了频繁的 400 Provider 错误,特别是在 SG/HK 地区,引发了关于 OpenRouter 可靠性的讨论。
- 一位用户建议在 Your Activity 中添加错误日志,以便更好地理解和跟踪问题。
- 辩论回退逻辑的有效性:用户讨论了 OpenRouter 模型回退 (Fallback) 系统的可靠性,提到了 404 错误和数据策略不匹配导致无法正常执行回退行为的问题。
- 一位用户担心,如果主模型不可用,回退逻辑在企业级应用中可能会失效,从而导致服务中断。
OpenRouter ▷ #new-models (2 条消息):
``
- 无新模型讨论:提供的消息中没有关于新模型的讨论。
- 频道 Readybot.io 主题:唯一可用的内容是 OpenRouter New Models 频道名称的重述。
OpenRouter ▷ #discussion (28 messages🔥):
Opus 降价, SLMs vs LLMs, Cloudflare 定价, Llama 3 Instruct
- Anthropic 被 Opus 降价吓到了:成员们对 Opus 的降价 做出反应,嘲笑竞争让 Anthropic 感到不安。
- 一位成员承认:该死,我的预测稍微有点偏差……这让我很难接受。
- SLMs 在大多数事情上都很糟糕:成员们讨论了一篇文章,该文章认为 SLMs 除非经过微调,否则在大多数事情上都很糟糕。
- 它被描述为老实说挺弱智的以及AI 垃圾内容 (AI slop)。
- Cloudflare 对 1b 模型收取 20 美分:一位成员质疑为什么 Cloudflare 对 1b 模型 每百万 output tokens 收取 20 美分。
- 另一位成员指出:llama-3.2-3b-instruct 每百万 output tokens 仅需 $0.34,相比之下简直太划算了!真尴尬。
- LLaDA20 10.3b/16b 已发布:一位成员分享了一个 LocalLLaMA Reddit 帖子,宣布发布 LLaDA20 10.3b/16b。
- 没有进一步的评论。
OpenAI ▷ #annnouncements (1 messages):
ChatGPT Voice, 实时交互, 移动端和网页端上线
- ChatGPT Voice 无缝推出:ChatGPT Voice 现在直接集成到聊天界面中,不再需要单独的模式。
- 该功能正在向 mobile 和 web 端的所有用户推出,只需更新 App 即可,如此演示视频所示。
- 使用 ChatGPT Voice 进行实时交互:用户现在可以进行实时对话,观察答案实时出现,查看之前的消息,并查看图像或地图等视觉内容。
- 这种集成方式在 ChatGPT 中提供了更流畅、响应更快的用户体验。
OpenAI ▷ #ai-discussions (281 messages🔥🔥):
Claude Opus 4.5, AI 生成图像与版权, AI 辅助法律编写, ChatGPT 能力下降, Gemini vs. ChatGPT vs. Claude
- Claude Opus 4.5 来了,Pro 用户狂喜!:Claude Opus 4.5 已面向 Pro 用户开放,成员们根据 LiveBench 的结果表示它非常扎实。
- 另一位成员表示 Sonnet 4.5 也很棒,但在较小模型上的使用限制达到得更快。
- 迪士尼进入 AI 竞赛,着眼 AI 集成:迪士尼计划将 AI 集成到 Disney+ 中,一位成员开玩笑说:说实话,AI 能比大多数漫威电视剧做得更好。
- 与此同时,政府也开始使用 AI 辅助编写法律,这引发了关于知识产权(IP)未来的疑问。
- ChatGPT 下滑,Gemini 用户满意度上升:用户反映 ChatGPT 变得难以忍受,有人分享了一段对话,其中 ChatGPT 无法识别一首歌,导致其非常沮丧。
- 其他人发现 Gemini 在处理我要求的图形方面简直是碾压级表现,而 ChatGPT 只是无限加载,从不生成我要求的内容。
- Nano Banana Pro 释放漫画创作潜力:成员们对 Nano Banana Pro 生成高质量图像的能力印象深刻,一位成员创作了一本 17 页的漫画。
- 他们形容这本漫画绝对会火得一塌糊涂。
- 关于数据的大辩论:网页抓取是否等于模型退化?:成员们讨论了 AI 公司现在是否还能合理地抓取数据进行模型训练,因为收集到的数据中有很多本身就是 AI 生成的。
- 一位成员指出:据我所知,这就像在 YouTube 上反复上传和下载同一个视频——输出的质量会不断退化。
OpenAI ▷ #gpt-4-discussions (5 条消息):
GPT-4.1 vs GPT-5.1 动漫创作、GPT 安全网、模型记忆能力
- 动漫创作更青睐旧版 GPT-4.1 模型:一位成员更喜欢使用旧版 GPT-4.1 模型来编写动漫场景,发现在指定非露骨内容时限制较少,并提到他们已经使用 GPT-4.1 模型大约一年了。
- 他们表示 “只要在开头指定为非露骨内容,它就会处理各种提示词(包括像日常番动漫中的浪漫场景)。”
- 用户抱怨过度的安全网设置:用户发现 GPT 的安全网 (safety nets) 过于严格,尤其是在编写动漫风格的暴力内容时,并报告称需要多次修改提示词才能绕过这些限制。
- 他们澄清道,*“我唯一的抱怨是 GPT 有太严苛的防护机制 (guardrail) 和安全网,我只是说他们需要稍微放宽一点,我写的不是 18+ 内容,只是动漫风格的暴力。”
- GPT-5.1 在角色识别和记忆方面表现出色:用户指出 GPT-5.1 在理解角色设计和记忆之前的聊天进度方面表现优异,使故事创作更加流畅。
- 用户表示 “GPT 5.1 有非常好的一面。它实际上能记住之前的进度。它记得上面的聊天内容,并将其持续带入到后续的消息中。”
OpenAI ▷ #prompt-engineering (3 条消息):
上下文引用、提示词工程、LinkedIn 帖子、YouTube 缩略图、视频脚本生成
- 上下文引用影响模型质量:一位成员质疑在提示词中添加特定的上下文引用(例如为帖子指定 LinkedIn 或为缩略图指定 YouTube)是提高了还是降低了模型输出的质量。
- 他们认为模型可能会生成低质量的输出,是因为大量数据本身质量低下、模型缺乏特定训练,或者模型未能完全理解输出预期。
- 针对 High-Bandwidth English 2.0 的系统提示词更新:一位成员将其系统提示词更新为 High-Bandwidth English 2.0,专注于最大化信息密度、零废话和高可扫描性。
- 该系统提示词包含诸如严格的 SVO (主谓宾结构)、每行一个事实、禁用被动语态、使用具体名词以及纯文本等式等约束。
OpenAI ▷ #api-discussions (3 条消息):
模型中的上下文引用、模型训练数据质量、提示词工程、High-Bandwidth English 2.0、SVO 提示词格式
- 上下文的双刃剑:提示词悖论:一位成员询问,在使用提示词预测点赞数最高的评论时,包含上下文引用究竟是改善还是降低了模型结果的质量。
- 他们举例说明,指定 LinkedIn 会导致出现表情符号,YouTube 缩略图会产生 Logo,而 YouTube 视频脚本总以 ‘Welcome to my channel’ 开头,这表明上下文与质量之间可能存在权衡。
- 数据质量辩论:上下文的局限性:该成员质疑上下文引用的问题是源于低质量的训练数据、缺乏特定训练,还是模型理解不完整。
- 他们问道:‘是因为大多数数据质量低下?还是模型没有在该上下文中进行过专门训练?或者是模型没有完全“理解”输出应该是什么样的?’ 以此来寻找根本原因。
- 提示词风格指南:高带宽技巧:一位成员将其系统提示词更新为 ‘High-Bandwidth English 2.0’,旨在实现最高的信息密度、可扫描性和零废话。
- 新格式 强制执行 严格的 SVO (主谓宾)、每行一个事实、无被动语态、具体名词,并使用 ‘NOT’ 进行否定。
- 等式编辑:禁止使用 LaTeX:提示词风格指南要求等式使用纯文本或 Unicode 数学符号,明确禁止使用 LaTeX 标记(如
$…$和\int)。- 它更倾向于使用如 ‘integral from a to b of f(x) dx’ 和 ‘div F = dF1/dx + dF2/dy + dF3/dz’ 之类的格式,而非对应的 LaTeX 表达式。
GPU MODE ▷ #general (4 条消息):
SOTA AI accelerators, Triton Kernels for Embedding Training, Partially Trainable Embeddings, Efficient Logits Softmax Operation
- 深入探讨 AI 加速器:一位成员正在编写关于一些 SOTA AI accelerators(如 TPUs 和 WSEs)的详细博客,并正在寻找资源。
- 为部分可训练 Embedding 构建 Triton Kernels:一位成员正在针对一个涉及 partially trainable embedding 的独特挑战开发 Triton kernels,其中只有特定索引以上的行范围是可训练的,以减少内存使用。
- 目标是在训练特定特殊 Token 时冻结大部分模型,这需要高效存储可训练行的梯度输出,旨在获得前沿水平的效率提升。
- Triton 中的加权损失 Logits Softmax:该成员需要一个支持 weighted loss 的 logits softmax operation,其中每个 Token 位置都有一个损失乘数,旨在与自定义的 partially trainable embedding 高效协作。
- 目标是避免使用分块(chunking)或 CCE 方法实例化所有 Logits,从而在训练大模型时寻求显著的效率提升。
GPU MODE ▷ #triton-gluon (6 条消息):
TMA Overhead, Tensor Descriptor Shapes, Custom Kernels
- 深入探讨 Tensor Descriptor Shapes:一位成员建议将 Shape 作为 tensor descriptor 和 block ptr 的输入,但承认对其用法尚不确定。
- 另一位成员推荐使用 tritonparse 来检查 TTIR 和 PTX,并建议将非常量 Shape 作为 autotune keys 传递。
- TMA APIs:需要 Hopper+:一位成员指出 tensor descriptor 会发出 TMA APIs,这意味着需要 Hopper+ 架构。
- 该成员补充说,具体用法取决于 NVIDIA 如何利用这些 Shape。
- TMA 开销排查:一位成员正在寻求建议,以处理在 Kernel 外部使用 tensor_descriptor.from_tensor 构建描述符时产生的显著开销。
- 他们不确定这种开销是否为预期行为。
GPU MODE ▷ #cuda (2 条消息):
memcpy patterns, cudaMemcpyAsync, kernel module loader, GEMM Implementation, BF16 matrices
- memcpy 模式期间 Kernel Module Loader 挂起:一位用户报告称,在执行
cudaMemcpyAsync期间首次启动 Kernel 时,kernel module loader 似乎在每个 Context 基础上发生挂起。- 用户指出,在同一 Context 内首次启动后的后续 Kernel 启动不会出现此问题。
- 关于使用 BF16 矩阵实现 GEMM 的咨询:一位用户正在使用 Tensor Cores 实现 GEMM,参考了 Lei Mao 的教程,现在正尝试了解如何将 BF16 用于矩阵 A、B 和 C。
- 他们不确定如何正确地将 C 元素加载到
float累加器中,或者将 C 初始化为float矩阵是否为标准做法。
- 他们不确定如何正确地将 C 元素加载到
GPU MODE ▷ #jobs (3 条消息):
NVIDIA CUDA Core Libraries, Summer 2026 Internships, C++ / Python / GPU Systems
- NVIDIA 招聘 2026 夏季 CUDA 核心实习生:NVIDIA 正在为 CUDA Core Libraries 招聘 2026 夏季实习生,负责基础的、开源的 C++ 和 Python 库。
- 该职位专注于构建库和设计供成千上万其他开发者使用的 API,要求具备扎实的 C++ 和/或 Python 系统经验,并对 GPU programming 感兴趣。
- CUDA 核心实习生将参与关键组件的工作:实习生将参与 CUDA Core Compute Libraries、CUDA Python 以及编译器基础设施如 Numba-CUDA 和 Numbast 的开发。
- 该职位涉及高性能并行算法、GPU runtimes 以及提升开发者体验,非常适合对 C++、Python、GPU architecture 以及 compiler/runtime systems 充满热情的人。
- 立即申请难得的 CUDA 实习机会:一位成员强调了这次难得的实习机会,称赞团队负责人非常出色,并鼓励有意向的人在此申请。
- 理想的候选人应热爱构建库、设计 API、交付被成千上万人使用的组件,并对高质量、可重用软件的工艺有追求。
GPU MODE ▷ #beginner (5 条消息):
Discord channel submissions, Contributing to XLA, GPU/CUDA Benchmarking
- Discord 频道发现:一位不熟悉 Discord 的成员询问如何找到 submissions 频道。
- 他们通过打开 GPU MODE 下的下拉菜单并启用 Show All Channels 自行解决了问题。
- 征集 XLA 贡献:一位成员询问关于为 XLA 做出贡献的事宜。
- 另一位成员通过询问更多细节进行了回应。
- 预热运行对 GPU/CUDA 基准测试至关重要:一位成员询问了关于 GPU/CUDA benchmarking 预热运行次数的经验法则。
GPU MODE ▷ #self-promotion (3 条消息):
MCPShark, MCP Security, Agents IAM, AER Labs, Democratizing Intelligence
- **MCPShark 作为开源项目发布:一位成员发布了 **MCPShark,这是一个用于 MCP 通信取证分析的开源工具,具有 AI 驱动的安全分析功能并集成了 IDE,可在 GitHub 和 官网 上获取。
- 该工具包括用于检测工具投毒的 Smart Scan、用于实时 HTTP 流量分析的 Inspector,并支持 MCP playground、高级过滤和多服务器支持等功能;创建者正在寻求反馈和功能需求。
- **AER Labs 旨在民主化 AI:AER Labs** 正在构建开源基础设施以实现智能民主化,通过针对全球的“暗才(Dark Talent)”来解决高级 AI 工具访问受限的问题,详见其官网。
GPU MODE ▷ #thunderkittens (9 条消息🔥):
AMD Internal Tooling Counters, Rocprof Public vs Internal, Thunder Kittens, HIPKittens softmax kernel, MI300X
- AMD 计数器受限,即将公开?:已获取 AMD 内部工具计数器,并计划很快公开。
- 一位深入研究 rocprof 源代码的成员觉得公开版本被削减了,怀疑他们内部有更好的东西。
- Thunder Kittens 入门指南:为了学习和实验 Thunder Kittens,建议查看 TK 仓库中的 kernels/matmuls/educational/ 文件夹。
- 一位成员分享了入门文档。
- 适用于 MI300X 的 HIPKittens 内核:一位成员使用 HIPKittens 编写了一个小的 softmax kernel 以了解其工作原理,使用的是带有 MI300X 的 CDNA3。
- 该成员还计划编写一个 fused attention kernel。
GPU MODE ▷ #submissions (65 条消息🔥🔥):
nvfp4_gemv leaderboard, NVIDIA B200 benchmarks, CuTe kernel compilation, discrepancy with standalone run
- NVIDIA 速度对决产生新冠军:一名成员在
nvfp4_gemv排行榜上以 18.4 µs 的成绩获得 NVIDIA 第一名。 - B200 基准测试结果出炉,使用 CUDA 运行时:Cluster Bot 报告了在 NVIDIA B200 GPU 上运行 CUDA 运行时的基准测试,Linux 上的 Torch 版本为 2.9.1+cu130。
- 一个基准测试显示 16384 x 7168 矩阵达到了 33.6 ± 0.05 µs,而另一个 7168 x 4096 矩阵配置运行时间为 124 ± 0.1 µs。
- CuTe Kernel 已准备就绪:系统报告 Pre-compiling CuTe kernel… 随后是 CuTe kernel compiled!,表明 CUDA 运行时编译成功。
- 独立运行统计数据与 ClusterBot 不符:一名成员指出 NVIDIA 基准测试的独立运行结果与 Cluster Bot 结果之间存在 差异 (discrepancy)。
GPU MODE ▷ #nvidia-competition (50 条消息🔥):
Time measurement constraints, Reproducing leaderboard behavior locally, Opus 4.5 knowledge of Blackwell vs. Sonnet/GPT 5, Tensor cores limitations, CuTe DSL packed FP16 instructions
- 时间限制已确定:测量时间的方法不会改变,但将问题延长一天的可能性存在,但不保证。
- 延长此问题不会推迟后续问题的发布;只会存在一些重叠。
- 本地复现排行榜行为的技巧:要本地复现排行榜行为,请使用 reference-kernels repo 中的 eval 脚本。
- 之前发布过 Dockerfile,但现在已过时,目前使用的是 torch 2.9.1+cu130。
- 关于 Tensor Core 性能的讨论:成员们讨论了他们可能会放弃 tensor cores。
- 其他成员表示他们一直在为此苦苦挣扎,而且这似乎不是解决方案。
- CuTe DSL 打包 FP16 指令引发讨论:分享了一个在 CuTe DSL 中使用打包 FP16 指令的代码片段,并指出普通的 CuTe DSL 并不通过 nvvm 提供这些指令。
- 一名成员评论道 “每次看到 cute dsl 代码都让我害怕” 并且 “它实际上比 cuda/c++ 还难懂,这真是一项成就”。
- 对 Kernel Eval 作弊的担忧:成员们讨论了 kernel 评估被破解的可能性,承认 “即使过了这么久,kernel evals 仍然非常容易被破解”。
- 有人提到自动拒绝比 SOL(理论极限)更快的排行榜提交可能很有用,但目前该过程依赖于诚信和人工努力。
GPU MODE ▷ #hf-kernels (1 条消息):
bghira: 什么时候出 metal kernels? <:NPCDryadSmug:538435602442354690>
GPU MODE ▷ #robotics-vla (6 条消息):
RynnVLA-002 by Alibaba, 7xr.tech Laundry Folding Robot, Importance of No-Action Filtering for VLAs, Idle Frame Analysis in Robotics
- 阿里巴巴发布 RynnVLA-002:阿里巴巴的 RynnVLA-002 在 X(原 Twitter)的一篇帖子中受到关注,点击此处查看。
- 用户正在仿真中对 checkpoint 进行评估,并为 RL PoC 奠定基础。
- 7xr.tech 加入叠衣服机器人战场:7xr.tech 提供了一款 3k 美元的叠衣服双臂系统,但他们的 YouTube 视频播放量不足 100 次。
- 一名成员对机械臂的耐用性表示怀疑,同时承认其具有低成本机器人的感觉,并且他们还提供 “24 小时支持,创始人和工程师可通过 Zoom 直播和电话提供 24 小时支持”。
- 无动作过滤是 VLA 的关键:一名成员了解到 no-action filtering(无动作过滤)对于 VLA(Vision Language Action 模型)非常重要。
- 这可以防止在“无所事事”上浪费周期。
- 空闲帧分析公开:分析了超过 2000 万帧,结果显示 21.2% 是空闲的。
- 在 125,501 个 episode 中,活跃帧总计占 78.8%。
Nous Research AI ▷ #announcements (1 messages):
Psyche Office Hours
- Psyche 团队举办答疑时间 (Office Hours):Psyche 背后的团队将于下周四 12/4 东部标准时间 1PM 在 Events 频道举办 Office Hours 环节。
- 加入 Discord 活动 参与。
- 占位主题:添加第二个主题以满足最低要求。
- 这只是一个占位符。
Nous Research AI ▷ #general (100 messages🔥🔥):
GPro3 vs Opus 4.5 Benchmark, Opus 4.5 Speed and Pricing, Opus 4.5 Use Cases, Trusting LLMs for Electrical Debugging, Flux 2 Model Architecture
- GPro3 秘密击败 Opus 4.5:模型提供商在 Benchmark 方面有所选择,GPro3 在自动售货机 Benchmark 中巧妙地击败了 Opus 4.5,这标志着一个可能前所未有的举动。
- 尽管有 Benchmark 结果,一位用户仍更倾向于 Gemini 3 Pro,因为它具有更出色的上下文处理能力。
- Opus 4.5 大幅降价,速度令人印象深刻:Anthropic 大幅下调了 Opus 4.5 的价格,其速度非常快,就像几代前的 Haiku 一样,这表明了显著的基础设施和模型优化。
- 一位用户表示 Opus 今天早上救了我……向 GPT、Sonnet 和 Gemini 解释一些事情,它们都在胡言乱语……然后 Opus 在喝杯咖啡的功夫就搞定了。
- LLM 涉足硬件调试:一位用户成功利用 Opus 4.5 进行电子调试,提供原理图并获得了可操作的见解,尽管后来该用户不得不通过“PUA (gaslight)”模型才得到了正确答案。
- 另一位用户开玩笑地表示,不放心信任 LLM 能在对齐排针时保证不让 240 伏电压穿过你的双手。
- Flux 2 架构拥有 56B 参数:Flux 2 的主网络使用了一个 32B Transformer 网络和一个 24B Mistral Small 文本编码器,推理服务实际上需要相当于 56B 参数的资源。
- 以全精度运行该模型需要 192GB 系统 RAM,而未来计划推出蒸馏模型。
- Suno 与华纳音乐合作引发争议:Suno 与 Warner Music Group 的合作引发了人们对高质量训练数据获取途径的担忧,以及未来 AI 音乐生成研究可能走向封闭的风险。
- 一位用户评论道,只有 $2k 投入到数据中,而 3200 万投入到算力中,这种合作关系将大大封闭未来潜在的研究。
Nous Research AI ▷ #interesting-links (1 messages):
Information Retrieval, Library of Alexandria, RAG Systems, Lecture Feedback
- 信息检索讲座横跨历史:一位成员在 这个 YouTube 视频 中发布了关于 信息检索 (Information Retrieval) 历史的讲座,追溯了从 亚历山大图书馆 到现代 RAG 系统 的发展。
- 邀请社区评论信息检索讲座:该成员鼓励社区分享对讲座内容和演示的看法及反馈。
- 该讲座旨在将历史背景与检索系统的当代应用联系起来。
Latent Space ▷ #ai-general-chat (92 条消息🔥🔥):
Black Friday AGI, ChatGPT Shopping Tool, Anthropic Tool Calling, Gallabytes joins Anthropic, Open Source Agents
- OpenAI 推出 ChatGPT 购物研究工具:OpenAI 在 ChatGPT 内部引入了一项交互式购物研究功能,该功能可以提出澄清性问题、在网络上搜索价格、评论和规格,实时学习用户偏好,并生成个性化的买家指南。该功能正面向所有已登录层级的移动端和网页端用户推出。
- 公众反应参半,既有对 AI 驱动的比较购物 的兴奋,也有对货币化偏见、联盟营销模式(affiliate-model)颠覆的担忧,以及对挥之不去的 Bug 和模型弃用问题的沮丧 (链接)。
- Anthropic 发布下一代 Tool Calling 功能:Anthropic 的 David Soria Parra 宣布了新的 Tool Calling 功能——Tool Search、Programmatic Calling 和 Live Examples——旨在克服朴素的函数调用限制 (链接)。
- 用户展示了早期实现,包括 来自 Pipedream 的动态 MCP 客户端、节省 Token 的代码执行沙箱,以及充满期待的表情符号。
- Gallabytes 带着“骑马的宇航员”提示词加入 Anthropic:@gallabytes 在一个奇思妙想的“骑马的宇航员”提示词上对比了 Opus 4.5 与 Gemini,随后宣布他们将于下周加入 Anthropic (链接)。
- Perplexity 暴跌:下载量骤降 80%:Sasha Kaletsky 分享的数据显示,Perplexity AI 的全球 App 下载量在六周内暴跌了 80%,这暗示早期的增长主要源于付费推广和赠品活动 (链接)。
- 评论者一致认为,一旦免费的 Pro 激励枯竭,且 ChatGPT 和 Gemini 等竞争对手增加了网页搜索功能,Perplexity 较弱的产品市场契合度(Product-Market Fit)便显现出来。
- Claude Code 的并行计划模式 (Parallel Plan Mode):Sid 强调了 Claude Code 计划模式 的重大改进:多个探索性子 Agent 现在可以并行启动,生成竞争性方案(例如:快速修补 vs. 架构合理),提出澄清性问题,并允许用户通过
/plan open编辑保存的计划文件 (链接)。
Latent Space ▷ #genmedia-creative-ai (8 条消息🔥):
Suno AI, Black Forest AI, Prompting Guide
- Suno 极低的数据预算引发盗版争议:Ed Newton-Rex 强调了 Billboard 泄露 的 Suno 融资演示文稿(pitch deck):这家 AI 音乐公司在算力上花费了 3200 万美元,但在训练数据上仅花费了 2000 美元。
- 回复中对极低的数据预算进行了猛烈抨击,认为这是大规模爬取/窃取的证据,并警告称在 Suno 寻求 5000 亿美元 估值的同时,面临着巨大的版权责任风险。
- Black Forest AI 发布提示词指南:一位成员分享了 Black Forest AI 发布的 Prompting Guide - FLUX.2 链接,重点介绍了 JSON 结构化提示词。
- 在此分享之后,另一位成员表示 TIL(今天才发现)并指向了 Wisprflow AI 的新融资消息。
Yannick Kilcher ▷ #general (43 messages🔥):
Anthropic models, LLM Architecture, Sakana AI, Comic Sans
- Anthropic 模型获得“AI 权利”:成员们讨论了 Anthropic 的新模型具有拒绝提示词和结束对话的能力,并参考这项研究将其称为 AI 权利的一大飞跃。
- 一位成员注意到图中“跳出框框”的象征意义,开玩笑说 mashallah 他逃出来了。
- 探索最先进的 LLM 架构:一位成员询问了最先进 LLM 中使用的 attention/transformer 模块类型,答案是带有 RoPE positional encoding 和 rectified SwiGLU 的 multihead attention。
- 分享了 Sebastian Raschka 的博客、这个架构对比视频和 OLMo 的技术报告,用于了解权重开放和开源模型。
- Sakana AI 的 Continuous Thought Machine 面临质疑:一位成员对 Sakana AI 表示怀疑,想知道他们是否能在关于 Continuous Thought Machine (Sakana AI CTM) 的论文中用结果支持其主张。
- 另一位成员表示 他们是好人,正在对新想法进行良好的研究。
- Comic Sans 导致论文被拒:一位成员抱怨他的同事在插图中坚持使用 Comic Sans 字体,导致论文被拒,尽管这在技术上并未违反任何投稿规则。
- 其他成员开玩笑说要把所有插图换成蜡笔画,并称这 相当于穿着休闲装去参加工作面试。
- 专家分享信息检索讲座:一位成员在这个 Youtube 视频中分享了一场关于信息检索历史的讲座,追溯了从亚历山大图书馆到 RAG 的发展。
- 另一位成员想知道他们为什么要这样做,并索要图片。
Yannick Kilcher ▷ #paper-discussion (43 messages🔥):
Trolling Accusations, Claims Exceeding SOTA, Skepticism Injection, Paper Spam and Accuracy, Adobe AI Integration
- 声称解决 AI 问题的言论面临审查:成员们讨论了在声称解决 AI alignment 或 ARC-AGI 等重大 AI 问题时,需要强有力的证据,以避免被视为博关注或欺诈。
- 一位成员指出,如果没有令人信服的证据,就无法区分真正的突破和博关注的主张。
- 怀疑注入论文引发辩论:一位成员发布了一个 arxiv 链接,试图通过 “skepticism injection” 来减少谄媚行为,但其他人很快指出该论文的摘要与所述目的不符。
- 这引发了对发布论文却不实际阅读的指责,并担心如果这种行为在简历中被强调,可能会产生负面影响。
- 社区管理打击骂战:版主澄清说,虽然鼓励健康的辩论,但将打击粗鲁行为、骂战(flame wars)和敌对行为,这可能导致临时踢出或永久封禁。
- 一名成员因涉及表情符号和论文刷屏的烦人行为被临时踢出,强调了社区对尊重互动的关注。
- 论文发布引起反感:成员们对某位用户的论文发布习惯表示不满,指出该用户的总结通常不准确,且表现出对论文内容缺乏理解,导致他人浪费时间。
- 一位成员将其描述为该用户 “在不进行任何工作的情况下角色扮演 ML 工程师”。
- Adobe 的 AI 总结面临批评:成员们批评 Adobe 的 AI 集成 使用的模型劣于 ChatGPT、Claude 或 Gemini 等工具,主张手动提取引用并进行验证。
- 一位成员分享了一张嘲讽 Adobe AI 总结的图片,而另一位成员则表示不喜欢 Adobe 产品中无法移除的 AI 按钮。
Yannick Kilcher ▷ #ml-news (9 messages🔥):
SWE-bench Debunked, Flux.2, Tencent Hunyuan
- SWE-bench 被指控造假:成员指出,在 被揭穿 之后,在图表中使用 SWE-bench 被认为是彻头彻尾的欺诈。
- 他们还分享了一个 帖子 (thread),强调了该问题的相关方面。
- Flux.2:bfl.ai 的前沿视觉智能:根据 bfl.ai 博客文章,FLUX.2 专为现实世界的创意工作流设计,在生成高质量图像的同时,能在多张参考图之间保持角色和风格的一致性。
- 它可以编辑高达 400 万像素 (4 megapixels) 的图像,同时保持细节和连贯性,遵循结构化提示词,读写复杂文本,遵守品牌指南,并可靠地处理光照、布局和 Logo。
- 腾讯发布混元 (Hunyuan) 模型:腾讯最近发布了 Hunyuan 模型,并在一段 视频 中进行了展示。
Eleuther ▷ #general (9 messages🔥):
Multilingual Tokenizers, AI Safety, Data Filtering, Red Teaming MoE Routers, Model Evaluation under Covariate Shift
- KAIST 学生加入 EleutherAI:KAIST AI 的博士生 Dongkeun Yoon 加入了 EleutherAI Discord 频道,他的研究方向是更公平的多语言 Tokenizers。
- 他将在 NeurIPS 上展示当前 Tokenizers 在计算和 API 使用方面如何不公平地对待非拉丁语言。
- 关于多语言 Tokenizers 的论文:一位成员分享了一篇关于 NeurIPS 多语言 Tokenizers 主题的论文:解决多语言 Tokenizers 的问题。
- 这位博士生提到,他们实际上是因为这项工作才加入 EleutherAI Discord 的!
- 墨尔本大学学生加入 EleutherAI:来自澳大利亚墨尔本大学 (UniMelb) 的 Ananya 加入了 EleutherAI Discord 频道,并提供了 LinkedIn 链接。她曾作为第一共同作者在 2 个 ICML 研讨会上展示过生物识别隐私保护方法。
- 她对模型可靠性、法律合规性、统计严谨性、检测欺骗行为或隐藏的对齐偏差 (misalignments) 感兴趣。
- AI Safety 和数据过滤讨论:一位成员专注于为复杂的 AI 问题 构建可扩展、可靠的解决方案,特别是 AI Safety 和数据过滤。
Eleuther ▷ #research (48 messages🔥):
Cycling vs Random Indexing in Optimizers, ANM (Artificial Neural Mesh) architecture, Typo in PIQA Paper, Parallel MLP and Attention vs Alternative Architectures, Transformer Streams
- 优化器中随机索引优于循环索引:在优化器中使用随机索引优于循环索引,因为循环会引入恒定频率,可能对模型的收敛产生负面影响,而白噪声同时包含所有频率,不会引入这种潜在有害的恒定频率,如 Rect turning into a sinc 所示。
- 虽然白噪声可能存在采样效率低和噪声较高的缺点,但这种噪声是不相关的。选择蓝噪声等结构化噪声可以提供类似的权衡,但在未知环境中,安全起见更好。
- 仅打乱一次数据会导致网络震荡失控:有观点认为,与已知结果相反,每轮打乱 >= 打乱一次 > 有放回随机采样,且仅打乱一次会诱发循环,这可能更糟,特别是对于老式的动量优化器,它们往往在高学习率下导致网络偏离轨道。
- 另一位成员回应称,每轮打乱平衡了 IID 采样和纯结构,与 NN 优化的几何结构契合良好,而蓝噪声可以作为中间方案来覆盖最坏情况的更新。
- PIQA 论文拼写错误引发葡萄牙语使用者嘲笑:用户指出新发表的 PIQA paper 中存在一个拼写错误,将葡萄牙语列为东欧语言,见 此图。
- 其他用户开玩笑说 大家都知道葡萄牙语听起来像俄语,且捷克语应该被标注为中欧;论文作者承认了错误并承诺修复。
- 并行 MLP 和 Attention 的不稳定性?:一位成员询问并行 MLP 和 attention(GPT-J 风格)是否比替代方案更差。
- 另一位成员指出 Lucidrains 很久以前尝试过,它有时会导致问题甚至不稳定性(与 prenorm 等风格的交互有关),并建议快捷 MoE 作为同类技巧的极端版本可能效果不错。
Eleuther ▷ #scaling-laws (1 messages):
junktown_24268: https://papers.cool/arxiv/2509.24406 - 第 3 节,5.1 中的图片等。
Eleuther ▷ #lm-thunderdome (1 messages):
LLM-as-a-Judge
- LLM-as-a-Judge 集成兴趣高涨:成员们对在框架中包含 LLM-as-a-Judge 表现出浓厚兴趣。
- 贡献者挺身而出支持 LLM-as-a-judge:一位成员提议为这项工作做出贡献。
Modular (Mojo 🔥) ▷ #general (51 messages🔥):
图形 API 讨论,纹理内存,Lightbug_http 更新,WebGPU 与 Mojo 的集成
- Mojo 社区讨论图形 API:成员们讨论了在 AMD Radeon、Intel Arc 和 NVIDIA 等不同平台间统一图形编程的困难,并指出即使在 OpenGL 和 Vulkan 等开源 API 中也存在独特的实现。
- 有人建议,创建一个新的图形 API 会比试图让现有 API 在所有平台上兼容更容易。
- 成员讨论纹理内存缓存:解释说虽然纹理内存本质上是全局内存,但它需要注解才能达到最佳的读取/操作速度,并参考 Nvidia 文档 提到了通过 CUDA 和 Metal API 分别为 NVIDIA 和 Apple 实现的可能性。
- 然而,纹理内存缓存的相关性受到了质疑,引用了一个 Reddit 帖子,该帖子建议现代 GPU 正在转向更通用的内存模型,容量、延迟和带宽是更关键的因素。
- Lightbug_http 将获得一些 Mojo 支持:成员们讨论了更新 Lightbug_http 库,一位贡献者提议提交 PR 以使其与最新的 Mojo nightly 构建版本保持一致并重构 HTTP 端,可能通过类似 rerun.io 的库将 http 用作视频后端。
- 维护者表示,计划在 IO 完成后(一个依赖于 async 的 2.0 特性)进行全面重构,但欢迎通过 One Big PR™️ 的方式进行增量改进和更新,包括合并向 pixi 的切换。
- WebGPU 作为 Mojo 的原生解决方案?:一位成员建议使用 WebGPU 作为渲染 API,并使用 Mojo/Python 编写 WGSL 函数,类似于 TypeGPU,以避免统一计算内核和图形着色器。
- 该建议得到了鼓励,一位成员正考虑将其作为大学毕业设计项目,利用 Mojo 的 MLIR 基础设施。
Modular (Mojo 🔥) ▷ #mojo (4 messages):
LSP 的开源,LSP 的性能提升
- Language Server Protocol 仍未公开:一位成员询问了 Language Server Protocol (LSP) 的开源状态以及观察到的性能提升。
- 另一位成员推测 LSP 可能与 REPL 共享大量代码,暗示其发布可能与编译器同步;LSP 的增强可能促使了 REPL 的移除。
- REPL 替代方案预告:讨论表明 REPL 的移除可能与 Language Server Protocol (LSP) 相关的改进或变化有关。
- 据推测,LSP 的改进可能是决定移除 REPL 的驱动因素之一。
HuggingFace ▷ #general (28 messages🔥):
Hugging Face Enterprise Contacts, Arabic Dialect Modeling, Government Funding for AI Hobbyists, ORPO Trainer Error with Qwen2 Model, Hugging Face Space SEO and Features
- Hugging Face 企业联系信息泄露?: 用户分享了 Hugging Face 企业、网站和计费部门的联系邮箱:api-enterprise@hf.co, website@huggingface.co, 以及 billing@huggingface.co。
- 该用户提到 “似乎发生了一些奇怪的事情”,暗示这些联系方式可能存在潜在问题或异常。
- 探索阿拉伯语的语言版图: 一位成员询问如何从通用阿拉伯语对特定方言进行建模,因为阿拉伯语具有多样性。
- 他们提问:“我们如何从通用阿拉伯语过渡到混合了多种语言的国家方言?”
- GNMM 圣诞发布: 用户分享了代码的“圣诞发布”,希望通过 gnnm.md 文件为社区带来帮助。
- 该用户表达了希望 “这些代码能对社区有所帮助”。
- 爱好者能获得政府资助吗?不太可能: 一位成员询问作为爱好者是否能为其 AI 项目争取政府资助,并链接到了 美国能源部的 Genesis 计划。
- 其他人建议专注于生成式 AI 学习资源,并建议 “为 AI 提供上下文和大量的 URL,然后将其作为指南使用”。
- ORPO Trainer 的
zip报错: 用户在训练 Qwen2 模型时遇到了 ORPOTrainer 的ValueError,源于zip()参数长度不匹配。- 错误发生在
/trl/trainer/orpo_trainer.py中,具体与 chosen 和 rejected prompt 之间的 token 比较有关,表明可能存在数据不一致。
- 错误发生在
HuggingFace ▷ #i-made-this (4 messages):
CoT image captioning workflow app, VLM model hosting, qwen3 vl 30B moe
- CoT 图像描述应用规模扩展: 一个简单的 CoT image captioning workflow app 已更新以支持异步并发,提高了其扩展能力。
- 该应用提供 GUI 和 CLI,要求用户通过 vllm、llama.cpp、sglang 或付费 API 自行托管 VLM model(使用 OpenAI 终端节点),代码已在 GitHub 上开源。
- VLM 模型托管建议: 建议用户使用 vllm 进行多 GPU 张量并行 (tensor parallelism) 或使用 llama.cpp 进行单 GPU 设置来托管其 VLM models。
- 该应用配置为可与任何在 /completions API 上支持 base64 图像负载的服务协同工作。
- 建议使用 Qwen3 VL 30B MOE: 建议将 Qwen3 VL 30B MOE 或 32B dense 作为该应用的潜在候选模型。
- 更多见解可以在关于 Tracemind ecosystem 的这篇博客文章中找到。
HuggingFace ▷ #core-announcements (1 messages):
sayakpaul: <@&1014517792550166630> https://github.com/huggingface/diffusers/pull/12711
HuggingFace ▷ #NLP (10 messages🔥):
Open-core project for Asian languages, New architecture to solve the symbol grounding problem, Zenodo Paper, BitterBot AI
- 创业公司需要亚洲语言 AI 专家: 一家创业公司正在开发一个 Open-core project,旨在训练一个在亚洲语言方面更强、更准确的模型,并正在寻求合作者。
- 一位社区成员建议不要发布 Discord 邀请链接,而是建议使用 Hugging Face 链接或官方网站。
- TOPAS 架构解耦感知层与合成层: 成员分享了一篇 Zenodo 论文,介绍了 TOPAS (Theoretical Optimization of Perception and Abstract Synthesis),这是一种将感知 (Perception)层与合成 (Synthesis)层解耦的新架构。
- 他们正在一个名为 BitterBot (https://bitterbot.ai/) 的 Agent 中进行实测,并寻求社区反馈。
HuggingFace ▷ #smol-course (9 messages🔥):
chat_template.jinja bug, TRL import error, TrackIO bug, GPU OOM Error
- Jinja 漏洞修复即将到来: 一名成员提交了一个 PR 以解决
chat_template.jinja中的一个漏洞。- 该问题此前在 7月 就被注意到,表明该问题反复出现。
- TRL 导入问题困扰学员: 一名成员遇到了与
trl库中DataCollatorForCompletionOnlyLM相关的ImportError,详见此 GitHub issue。- 该错误发生在尝试使用
python train.py进行训练期间。
- 该错误发生在尝试使用
- TrackIO 问题引发冗余: 一名成员报告了 TrackIO 中的一个漏洞,显示了一个无限循环的弹窗,如此图所示。
- A100 缓解 OOM 爆发: 一名成员最初在 A100 GPU 上遇到了 OOM error,但随后报告称他们已成功修复。
HuggingFace ▷ #agents-course (1 messages):
dodrawat: 让我们建立联系
DSPy ▷ #show-and-tell (4 messages):
dspy-cli, Open Source DSPy Tooling, FastAPI Endpoints, MCP tools, Docker Deployment
- DSPy 获得 CLI 工具支持: 成员们宣布发布
dspy-cli,这是一个发布在 PyPi 上的开源工具,旨在辅助创建、开发、测试和部署作为 HTTP APIs 的 DSPy programs,项目地址为 cmpnd-ai/dspy-cli。- 该工具可帮助脚手架化新项目、从命令行创建 Signatures、将模块作为 FastAPI endpoints 或 MCP tools 运行,并简化程序到 Docker 托管服务的部署。
- DSPy-CLI 工具现已可用:
dspy-cli的创作者鼓励用户通过uv tool install dspy-cli尝试该工具,并运行dspy-cli new来启动新项目。- 一名用户通过分享 X 平台上的链接表达了使用的渴望。
DSPy ▷ #general (2 messages):
DSPy Meetup in Pune, India, Injecting Trajectories into ReAct Module
- 浦那朝圣:DSPy 爱好者集结!: 正如通过 X 宣布的那样,一场 DSPy meetup 正在印度浦那筹备中。
- ReAct 的回顾性反思强化: 一名成员询问如何将 trajectories 注入到 ReAct module 中,旨在为 Agent 提供对话过程中的历史动作。
Manus.im Discord ▷ #general (5 messages):
Manus Resume ATS Score project issues, Credits consumption during computer reset
- Manus 简历 ATS 评分项目停滞,请求帮助: 一名成员报告称,他们一周前启动的 Manus resume ATS score project 仍处于等待结果状态,尽管已消耗了 1800 credits。
- 他们分享了项目链接并等待技术团队的解决。
- 电脑重置期间消耗积分: 一名成员注意到重置电脑会消耗大约 100 credits,他们认为这太高了。
- 他们表示在等待帮助期间,将使用每日免费积分来修复程序。
Moonshot AI (Kimi K-2) ▷ #general-chat (5 messages):
Qwen OCR, Dynamic Browsing, Benchmark Reveal
- Qwen 精通 OCR: 成员们观察到 Qwen 在浏览对比中显示出 60.2% 的得分,并且能够查找图片和图表,在 OCR(光学字符识别)方面表现出色。
- 一名成员表示 Qwen 在这方面确实表现惊艳。
- 惊人的基准测试结果出现: 成员们讨论了一个新的基准测试,其中一个 8B 参数模型展示了非常出色的 OCR 能力。
- 一名成员观察到 虽然模型不是新的,但这个基准测试是新的,强调了考虑到模型大小,其能力令人惊讶。
MCP Contributors (Official) ▷ #mcp-dev-summit (1 messages):
achilles_strategy: 噢天哪,我那时会在希腊 🙁
MCP Contributors (Official) ▷ #general (2 条消息):
New protocol version
- 新 Protocol 版本发布:一个新 Protocol 版本刚刚发布。
- 成员们互相祝贺发布成功。
- 发布热潮:成员们表达了对此次发布的兴奋之情。
- 许多人使用火箭表情符号来庆祝这一时刻。
MCP Contributors (Official) ▷ #general-wg (1 条消息):
Tool Call Resolution, Tools Preflight
- Tool Call Resolution 提案已更新:一位成员将提案更新为更通用的
tools/resolve(也可以是tools/preflight)。- 他们表示,在发起调用之前了解 Tool Call 存在许多潜在的用例,因此修改后的提案更加强大,因为它不会限制未来的可能性,也不会面临因创建大量此类请求而导致路径受限的风险。
- Tooling 的未来可能性:更新后的提案不会限制 Tooling 的未来可能性。
- 其目标是避免为工具相关信息创建大量特定的请求。