最佳图像模型强势回归！

2026年2月25日至2026年2月26日的 AI 新闻。我们为您检查了 12 个 subreddits、544 个 Twitter 账号和 24 个 Discord（263 个频道，12920 条消息）。预计节省阅读时间（以 200wpm 计算）：1283 分钟。AINews 网站允许您搜索所有往期内容。提醒一下，AINews 现在是 Latent Space 的一个板块。您可以选择订阅或退订邮件频率！

AI Twitter 综述

Google 的 Nano Banana 2 (Gemini 3.1 Flash Image Preview) 以及新的图像评估 (image-eval) 趋势

Nano Banana 2 发布与推广足迹：Google 和 DeepMind 发布了 Nano Banana 2（又名 Gemini 3.1 Flash Image Preview），作为一款“Flash 级别”的图像生成/编辑模型，正推广至 Gemini App、Search (AI Mode/Lens)、Flow、Google Ads，并通过 AI Studio / Gemini API / Vertex AI 提供预览 (Google, GoogleDeepMind, GeminiApp, sundarpichai, demishassabis)。产品声明强调了 世界知识 (world knowledge)、改进的 i18n 文本渲染、宽高比控制、高达 4K 的上采样 (upscaling) 以及 多主体一致性（例如，“最多 5 个角色和 14 个物体”）(Google, joshwoodward)。
Arena/Artificial Analysis 结果 + 价格信号：多位评估者报告 Nano Banana 2 夺得 Text-to-Image 第一名，并在编辑排名中表现强劲，同时价格低于“Pro”级别——例如 Artificial Analysis 引用的 $67 / 1k 图像，而 GPT Image 1.5 和 Nano Banana Pro 约为 ~$133–134 (ArtificialAnlys, arena, kimmonismus)。Arena 增加了 图像子类别，并强调了在 文本渲染 和 3D 图像/建模 方面的最大进步 (arena)。这同时也提醒我们 排行榜正成为产品杠杆：“首日”集成（例如 fal）以及提示词包/模板随评估获胜一同发布 (GeminiApp 模板, GoogleAI 提示词)。
基于实时搜索条件的生成：Google 多次将 NB2 描述为由 来自 Web 搜索的实时信息和图像（而非仅仅是静态预训练）驱动，将其定位为“从世界上任何窗口看到的更准确视图”风格的演示 (sundarpichai)。
下游可用性：Nano Banana 2 迅速出现在第三方产品中，包括 Perplexity Computer (AravSrinivas)。

Agentic coding + 产品化“任务”、记忆和评估（以及对复杂性的反弹）

Agent 现在更经常能“直接奏效”，但在分布外（off-distribution）表现仍然会失败：几位从业者描述了近期前沿模型（例如 GPT-5.2 / GPT-5.3 Codex, Opus 4.6, Gemini 3.1）在编程 Agent 的可靠性/实用性方面发生了阶跃式变化，从“概念验证”转向了类似于将 CLI 工作委托给初级开发人员的程度 (teortaxesTex, paul_cal)。其他人则警告说，高级 ML/数据工程在分布外仍然显得脆弱 (michalwols, MParakhin)。
“Tasks”作为新的封装层：微软的 Copilot Tasks 提出了“少说多做”的委托方式，具备用户可见的计划和控制，目前处于“研究预览（research preview）”阶段 (mustafasuleyman, yusuf_i_mehdi)。
持久化记忆成为标配——但也带来了互操作性方面的痛苦：一个被广泛转发的更新声称 Claude 推出了 auto-memory（“跨会话记忆学习到的内容”） (trq212)，Claude 生态系统中也对此有所回应 (omarsar0)。当记忆/状态存在于特定工具的隐藏目录中时，开发者立即遇到了工作流摩擦（损害了“多 Agent、多工具”的连续性） (borisdayma)。
工具链快速迭代：PR Bug 修复机器人、代码↔设计闭环以及编辑器层面的改进：
- Cursor Bugbot Autofix 自动修复在 PR 中发现的问题 (cursor_ai, aye_aye_kaplan)。
- OpenAI 的 Codex “代码 → 设计 → 代码” 与 Figma 的双向闭环旨在减少 UI 迭代中的损耗 (OpenAIDevs, figma)。
- VS Code 的 远距离 Next Edit Suggestions 专注于预测 哪些地方不需要编辑 并支持“心流（flow）” (code, pierceboggan, alexdima123)。
评估膨胀 + 基准测试刷分担忧：社交媒体上的讨论指出，排行榜的高分可能会掩盖 Token 效率低下的推理 以及在“无意义测试”（例如重复 Token 的 “strawberry” 变体）上的失败，警告不要在不考虑成本的情况下过度信任 HLE/GPQA 风格的指标 (scaling01)。Arena 通过为代码模型增加更细粒度的测试方案（如 Multi-File React）作为回应 (arena)。
复杂度是真正的代价：一个反复出现的工程担忧是，“每天 1 万行代码（LOC）”的炫耀会产生长期的 复杂度债务——Agent 让发布变得更容易，但并没让维护变得更容易 (Yuchenj_UW)。另一个角度是：如果编程 Agent 让你的代码库变得“凌乱（sloppify）”，以至于没有它们工作就会变得痛苦，那么它们可能会造成 隐性锁定（implicit lock-in） (typedfemale)。

Perplexity 的分发 + 检索栈：三星集成和新的 embedding 模型

Samsung S26 系统级 Perplexity 集成 (“Hey Plex”)：Perplexity 表示每部 Galaxy S26 都将内置 Perplexity，包括唤醒词和深度 OS 集成；Bixby 将网页/研究/生成式查询路由至 Perplexity，同时处理设备端操作 (perplexity_ai, perplexity_ai, AravSrinivas)。这被视为更广泛合作伙伴关系的一部分，该合作还针对 Samsung Internet 浏览器以及可选的默认搜索定位 (perplexity_ai)。
pplx-embed / pplx-embed-context 发布 (MIT)：Perplexity 推出了两个 Embedding 模型系列，参数量分别为 0.6B 和 4B，其中包括专门用于 RAG 中文档块（chunk）嵌入的“context”变体；两者均采用 MIT 许可，并可通过 HF + Perplexity API 获取，同时附带论文 (arXiv:2602.11151) (perplexity_ai, perplexity_ai, alvarobartt)。他们还披露了内部基准测试，如 PPLXQuery2Query / PPLXQuery2Doc，涵盖了来自 10亿+ 页面中 3000万文档的 11.5万个真实查询 (perplexity_ai)。Arav 称这些 Embedding 模型具有“行业领先地位” (AravSrinivas)。
战略解读：OS 分发 + 检索原语这两项举措表明，Perplexity 正试图掌控入口端（助手切入点）和核心搜索栈（Embeddings + 评估），而不是依赖第三方平台。

推理、内核与基础设施：MoE 支持、异构硬件与 KV 移动

MoE 在 🤗 Transformers 中成为“一等公民”：Hugging Face 发布了更深层的 MoE 管道（加载、专家后端、专家并行、hub 支持），并强调了在加速 MoE 训练方面的合作（包括与 Unsloth 的合作） (ariG23498, mervenoyann)。
DeepSeek 与多硬件推理的严肃性：在早期批次中，DeepSeek 被称为“对多样化硬件的推理支持非常认真” (teortaxesTex)。另外，一个 DeepSeek DualPath 的细节描述了将 KV cache 暂存在 解码服务器（decode-server）DRAM 中，然后通过 GDRDMA 移动到预填充（prefill）GPU，以避免本地 PCIe 瓶颈 (JordanNanos)。这反映了一个更广泛的转变：推理正日益成为一个系统架构问题，而不仅仅是内核级的优化。
内核覆盖与 GPU 世代：vikhyatk 描述了跨 NVIDIA 架构（sm80→sm110）构建推理内核的过程，并指出了边缘设备 ISA 问题，如 Orin CPU 缺少 SVE 支持 (vikhyatk, vikhyatk)。
量化并非绝对安全：评估显示，MiniMax M2.5 GGUF 量化后的性能退化远超预期（相比 Qwen3.5），这表明“直接使用 Q4”的经验并不能推广到所有模型系列 (bnjmn_marie)。

世界模型、模拟器中的 Agent 以及“多人”环境

Solaris：多人 Minecraft 世界建模技术栈：一项重大研究提出，世界建模应侧重于共享全局状态而非像素渲染，并发布了 (1) 多人数据采集引擎，(2) 具有“内存高效 self forcing 设计”并在 1260万帧上训练的 多人 DiT，以及 (3) 用于多 Agent 一致性的 VLM-judge 评估套件 (sainingxie, georgysavva)。其核心论点是：多 Agent 能力需要在个体视野之下拥有共享的表示。
LLM 作为具身控制器（虽是玩具模型但具有启发性）：一个 CARLA→OpenEnv 的移植项目展示了一个微小的 Qwen 0.6B 如何在 ~50 步内通过 TRL + HF Spaces 学会刹车/转向以避开行人 (SergioPaniego)。这体现了“LLM+环境”循环的趋势，在这种循环中，可逆性有限且错误会持续存在。

治理焦点：Anthropic 与五角大楼关于监视和自主武器的争议

五角大楼压力运动被曝光，Anthropic 公开回应：一个被广泛传播的说法称，DoD 向 Anthropic 发出了“最终报价”，包括威胁将其贴上“供应链风险”标签，并要求其提供不受限制的军事用途 (KobeissiLetter)。随后 Anthropic 发布了一份 CEO 声明，划定了明确的红线：禁止大规模国内监控且禁止全自动武器（考虑到目前的可靠性），并声称涉及 Defense Production Act 的威胁 (AnthropicAI)。一段被广泛引用的摘要被详细转发 (AndrewCurran_)。
行业反应 + 团结机制：这一立场引发了著名研究员/工程师的强烈支持，将其视为“压力下的价值观”而非“政策作秀” (fchollet, TrentonBricken, awnihannun)。据报道，一项旨在协调“共同理解”的请愿书收集了来自 OpenAI/Google 员工的签名 (jasminewsun, sammcallister, maxsloef)。这是一个显著的举动，通过对各实验室立场的透明化，明确尝试防止出现“竞相到底（race-to-the-bottom）”的动态。
为什么这在技术上很重要：核心争议在于能力与可靠性（capability vs. reliability）之间的博弈，以及“合法使用”的措辞与目前 Frontier Models 的安全表现不匹配。可靠性问题在数据集中也有所体现（例如，即使在被指示不泄露的情况下，模型在最小安全测试用例中仍会泄露机密信息） (jonasgeiping, random_walker)。

AI Reddit 摘要

/r/LocalLlama + /r/localLLM 摘要

1. Qwen3.5 模型性能与对比

Qwen3.5-35B-A3B Q4 量化对比 (热度: 635): 该帖子详细对比了 Qwen3.5-35B-A3B 模型的 Q4 量化方法，重点关注它们在使用 KL Divergence (KLD) 和 Perplexity (PPL) 等指标时对 BF16 基线的忠实度。分析强调 AesSedai 的 Q4_K_M 实现了最低的 KLD（0.0102），表明其忠实度极高，而 Ubergarm 的 Q4_0 明显优于其他 Q4_0 量化。帖子还指出，与量化感知训练 (QAT) 相比，MXFP4 在事后应用时效果较差。平衡了模型大小和 KLD 的效率评分将 AesSedai_Qwen3.5-35B-A3B-IQ4_XS 评为最有效的量化。测试环境包括 Intel Core i3-12100F CPU、64 GB RAM 和 RTX 3060 GPU，结果基于 wikitext2_test.txt 数据集。评论者赞赏这种详细的对比，并建议量化器应在文档中包含此类分析。此外，还有关于使用 wikitext 进行 PPL/KLD 测量的潜在偏差的讨论，因为该数据集可能包含在某些 imatrix 数据集中，建议使用全新的数据集进行更准确的对比。
‘ps5cfw’ 的评论强调了像 ‘Q4_K_M’ 这种 Quantization 术语的歧义性，强调了文档中标准化和清晰度的必要性。这对于在不同 Quantization 方法之间进行有意义的比较至关重要，特别是在 XL debacle 之后。
‘noneabove1182’ 指出了使用 wikitext 作为 PPL/KLD 测量的一个潜在问题，因为某些数据集可能包含 wikitext，可能会导致结果偏差。他们建议使用一个全新的数据集，例如来自最近播客的 STT，以获得更准确的比较。这突显了 Benchmarking 中数据集透明度和选择的重要性。
‘danielhanchen’ 讨论了由于 MXFP4 层导致 Q4_K_XL 高 Perplexity 的持续调查。他们指出其他 Quantization 如 Q2_K_XL 和 Q3_K_XL 不受影响。该评论还提到，正如 Benjamin Marie 的 LiveCodeBench v5 所示，UD-Q4-K-XL Quantization 在真实世界的 Benchmarks 中显著优于 Q4-K-M。
72GB 显存（3x3090）运行的 Qwen3.5 122B 是当前最强可用模型，而且还能轻松通过“洗车测试” (Activity: 706): 该帖子讨论了 **Qwen3.5 122B 模型的性能，该模型经过优化可在拥有三块 3090 GPUs 的 72GB VRAM 配置上运行。用户强调了它的效率，在 Temperature 0.6、K Sampling 20 和 Top P sampling 0.8 等特定设置下达到了 25 tokens per second。尽管比 GLM Air 和 GPT-OSS-120B 等其他模型慢，但该模型因在 Q3 模式下处理 120k context 的能力而受到关注。用户还提到了 MXFP4 和 IQ4_XS 等其他配置的挑战，这些配置需要将层 Offloading 到 RAM，从而将速度降低到 6-8 tok/s。** 一位评论者指出，在使用 Qwen3.5-122B-A10B-UD-Q4_K_XL 以及 Ryzen 9 9950X3D 配 RTX 5090 的不同配置下，达到了 34-36 tok/sec。另一条评论批评“洗车测试”（car wash test）是一个利用模型训练偏见的偏颇场景，认为它不是衡量模型智能的权威标准。
- 一位用户报告称，使用 Qwen3.5-122B-A10B-UD-Q4_K_XL 模型达到了 34-36 tokens per second，使用 Qwen3.5-122B-A10B-UD-Q8_K_XL 模型达到了 16-18 tokens per second，两者的最大 Context size 均为 256K。他们的配置包括 Ryzen 9 9950X3D、RTX 5090 和 128 GB DDR5 5600 RAM，运行在基于 Arch Linux 的 Cachy OS Linux 上。
- “洗车测试”被批评为没有通常暗示的那么有意义。它被描述为一种经常出现在训练数据中的场景，这会使模型偏向于复制学习到的逻辑，而不是展示真正的 Reasoning 能力。该测试被视为针对特定模型弱点的定向探测，而不是对智能的全面衡量。
- 有报告称 Qwen3.5 模型系列中的 4-bit Unsloth Quantization 存在问题，表明还有进一步优化的空间。尽管存在这些问题，该模型仍因其令人印象深刻的性能而受到关注，尤其是与之前未达预期的发布版本相比。
Qwen/Qwen3.5-35B-A3B 做出了 Flappy Bird (Activity: 372): 该帖子讨论了使用 **Qwen/Qwen3.5-35B-A3B 模型通过 HTML、CSS 和 TypeScript（使用 Vite 初始化）创建一个 Flappy Bird 克隆版。该模型在本地托管，通过生成基本的游戏结构并使用 Web Audio API 实现音乐、可滚动的视差背景和鸟群等功能，展示了出色的 Coding 能力。用户注意到视差效果最初有一些视觉缺陷，通过微调得到了解决，并成功地在一次尝试中添加了声音设置面板。** 一位评论者建议 Open Model 公司可以进行重复的 Benchmarks 或使用不同的游戏进行测试以评估性能，这表明了对进一步探索模型能力的兴趣。
- BitXorBit 提出了一个有趣的观点，即 Open Model 公司有可能为重复的 Benchmarks 或测试做准备。他们建议尝试不同的游戏并分享结果，这可以为模型在各种任务中的适应性和性能提供见解。这对于评估 Qwen/Qwen3.5-35B-A3B 等模型的 Generalization 能力可能特别相关。
- ShengrenR 建议了该项目的下一步：训练一个强化学习（RL）模型，根据屏幕输入来玩 Flappy Bird。这将涉及使用游戏的视觉数据来为模型的动作提供信息，从而可能产生一个能够实时学习和适应游戏挑战的更高级的 AI。
Qwen 3.5 在高难度编程任务上翻车了——我们在 70 个真实仓库上测试了所有 Qwen3.5 模型（以及 Codex 5.3），你就不用自己测了。 (Activity: 917): 该图片是来自 APEX Testing 网站的快照，该网站在真实世界的编程任务中评估 AI 编程模型。它显示了在 65 个任务中测试了 34 个模型，总计进行了 2208 次运行，并根据 ELO 分数突出了顶级模型，包括 Claude Opus 4.6 和 GPT 5.2 Codex。该帖子讨论了各种模型（特别是 Qwen 3.5 和 Codex 5.3）在旨在测试真实代码库编程能力的基准测试中的表现。Qwen 3.5 模型，尤其是 397B 变体，在需要跨多个文件协作的复杂任务中表现挣扎，而 Codex 5.3 在不同难度级别上表现稳定。GLM-4.7 量化模型被指出是最佳的本地模型，表现优于 Qwen 3.5 模型。帖子还提到了使用 Agentic 工具使用系统进行更公平的比较，并强调了测试中所使用框架的重要性，因为它会显著影响模型性能。评论者讨论了 gpt-oss-20b 和 GLM-4.7 等特定模型的表现，质疑所使用的自定义 Agentic 框架是否可能影响结果。他们建议使用流行的框架进行测试，以确保框架不会限制模型性能，因为不同的框架可能导致显著的性能差异。
- UmpireBorn3719 强调了 gpt-oss-20b 与 Qwen3 Coder Next 之间的对比，指出在编程任务基准测试中 gpt-oss-20b 得分为 1405，而 Qwen3 Coder Next 得分为 1328。这表明 gpt-oss-20b 在某些编程场景中可能表现更好，尽管基准测试的具体任务和条件尚未详细说明。
- metigue 讨论了使用不同 Agentic 框架对模型性能的影响，指出开源模型根据所使用的框架可能会出现超过 50% 的性能波动。他们建议使用流行的框架进行测试，因为框架的选择会显著改变哪个模型看起来是最好的，并引用了一些例子，例如在使用 Droid 框架时，GLM-5 优于 Opus 4.6，而 Codex 5.3 则优于两者。
- Hot_Strawberry1999 赞赏包含不同量化级别的基准测试，并指出此类比较非常罕见。这表明量化级别会显著影响模型性能，而这些数据对于理解模型在不同计算约束下的表现非常有价值。
- Qwen3.5 27B 比 35B-A3B 更好吗？ (Activity: 771): 该图片比较了 Qwen3.5 Medium 系列中不同模型的性能，特别是 35B-A3B、27B 和 122B-A10B 模型。它突出了各种基准测试，如指令遵循、研究生水平推理和多语言知识。27B 模型因其效率而受到关注，特别是在资源有限的环境（如 16 GB VRAM 和 32 GB RAM）中，使其在这些场景下可能比 35B-A3B 模型是更好的选择。图片直观地展示了这些性能指标，有助于具有特定硬件限制的用户进行决策。一位用户提到了个人测试，表明 27B 模型在他们的硬件（3090 GPU）上表现更好，处理速度差异为 100 t/s 对比 20 t/s。这表明 27B 模型在某些硬件配置上可能提供更好的性能效率。
  - FusionCow 注意到 Qwen3.5 27B 和 35B-A3B 模型在 3090 GPU 上的性能差异，27B 模型达到了 100 tokens/second，而 35B-A3B 为 20 tokens/second。这表明 27B 模型在速度方面效率更高，这可能会根据处理时间要求影响用户的选择。
  - boinkmaster360 建议 Qwen3.5 27B 模型是一个 Dense 模型，这意味着它可能速度较慢但可能更智能。这突出了计算速度与模型复杂度之间的权衡，其中更稠密的模型由于其架构可能在某些任务中提供更好的性能。
  - Alternative_You3585 指出，Qwen3.5 27B 模型在智能方面可能优于 35B-A3B，但后者在现实世界知识和处理速度方面可能具有优势。这表明了一个细微的性能格局，根据具体的应用需求，不同的模型可能是首选。

2. AI 模型中的地缘政治与访问问题

美国闭源模型与中国开源模型的对立正成为一个问题。 (热度: 1387): 该帖子讨论了由于国家安全担忧而需要开源 AI 模型的组织所面临的挑战，特别是由于感知风险而避开中国模型。目前唯一可用的美国开源模型是 gpt-oss-120b，但与 GLM 和 MiniMax 等现代模型相比已经过时。作者认为，DoD** 对 Anthropic 等公司施加压力，可能是出于对离线 AI 解决方案的需求。虽然考虑了加拿大的 Cohere 等替代方案，但缺乏具有竞争力的美国开源模型是一个重大问题。** 评论者建议通过修改中国模型来创建自定义解决方案，并提到 Mistral Large 3 是一个潜在的替代方案，尽管它可能无法匹配中国模型的性能。对于 StepFun-AI 是否是一个可行的非中国选项存在怀疑，因为其总部也设在中国。
- 讨论强调了来自不同国家的各种 AI 模型的可用性，强调模型的选择应基于具体的用例而非国别。例如，Mistral Large 3 被提及为一个具有竞争力的模型，尽管不一定优于 DeepSeek 等中国模型。评论者建议，企业环境可以通过微调模型来满足特定需求，从而减轻潜在的安全担忧。
- 提供了来自不同国家的 AI 模型详细列表，展示了全球 AI 发展的多样性。值得注意的包括来自美国 Meta Platforms 的 Llama，来自中国阿里云的 Qwen，以及来自法国 Mistral AI 的 Mistral。评论者认为，模型的有效性高度依赖于应用场景，企业应专注于通过微调和 RAG 数据库等技术定制模型，以增强性能并解决安全问题。
- 评论者认为，当模型处于离线状态并针对特定企业需求进行微调时，对 AI 模型来源（如潜在后门）的担忧就不那么重要了。他们建议公司可以通过微调开源模型、应用 (Q)(Re)LoRAs 等技术以及构建 RAG 数据库来提高准确性和安全性。这种方法在 Huggingface 平台上的爱好者中很常见，表明有预算的企业也应该能够进行类似的定制。
DeepSeek 允许华为提前访问 V4 更新，但 Nvidia 和 AMD 仍未获得 V4 访问权限 (热度: 559): DeepSeek 已向 **华为 和其他国内供应商提供了其 V4 AI 模型更新的早期访问权限，旨在优化模型在这些硬件上的性能。这一战略举措排除了美国主要芯片制造商 Nvidia 和 AMD，它们尚未获得该更新的访问权限。这一决定可能受到对非 Nvidia 硬件兼容性和优化需求的影响，因为 DeepSeek 的模型通常在 Nvidia 平台上训练，这表明其重点在于增强华为特定硬件架构的性能。** 评论者推测，Nvidia 未获得访问权限并不令人意外，因为 DeepSeek 模型通常针对 Nvidia 硬件进行了优化。向华为的早期发布被视为确保与非 Nvidia 系统兼容的战略举措，突显了 AI 硬件优化中的竞争动态。
- jhov94 指出，DeepSeek 可能已经针对 Nvidia 硬件进行了优化，这意味着 Nvidia 可能不需要提前访问 V4，因为模型已经与其系统兼容。向华为提前发布可能是由于其硬件存在兼容性问题，可能需要额外的调整或优化。
- ResidentPositive4122 反思了围绕 DeepSeek 的媒体炒作，特别是在其最初发布期间，并建议对主流媒体的说法保持怀疑。他们认为，尽管 Nvidia 和 AMD 缺乏早期访问权限，但主要的推理服务提供商（inference providers）可能会在 V4 发布后不久迅速适配，这在新模型发布中很常见。
- stonetriangles 通过对比 R1、V3 或 V3.2 等先前版本（Nvidia 同样没有早期访问权限），质疑了 Nvidia 未获得 V4 早期访问权限的重要性。这暗示当前的情况并非反常，可能不值得担忧。

3. AI 模型排行榜与基准测试

Anthropic 放弃旗舰安全承诺 (Activity: 354): Anthropic 决定放弃其旗舰安全承诺，该承诺原本是关于在 AI 开发中优先考虑安全性的承诺。这一决定标志着其在 AI 治理和安全协议方法上的重大转变。该承诺最初旨在确保 AI 系统的开发高度重视伦理考量和风险缓解，但公司尚未明确详细说明撤回该承诺的原因。评论反映了对 Anthropic 这一决定的批判性观点，一些人认为外部压力（可能来自政府或国防实体）可能影响了这一变化。有人认为此举可能会损害该公司此前秉持的伦理标准。
- till180 讨论了 Anthropic 放弃安全承诺的影响，认为虽然公开模型可能仍有安全护栏，但撤销承诺可能会促进向美国军方销售模型。鉴于五角大楼最近要求 Anthropic 提供其模型，这表明公司的运营重点和伦理立场可能发生了转变。
- Anthropic 是权重开放模型的主要贡献者 (Activity: 839): 据报道，Anthropic 是 open weight models 的领先贡献者，尽管这是无意的，因为它们的模型正在违反其服务条款的情况下被蒸馏（distillation）。蒸馏过程涉及利用与模型的交互来创建一个更小、更高效的版本，而像 dataclaw 这样的工具方便了将这些交互发布到 HuggingFace 等平台。DeepSeek 已经蒸馏了 150k 轮对话，但许多用户拥有明显更多的数据。评论者建议采用“分布式蒸馏”策略，由用户贡献蒸馏工作，并可能通过 tokens 进行激励。有一种观点认为，开源努力即使由非美国实体领导，对社区也是有益的。
  - “分布式蒸馏”的概念被提议作为一种通过利用用户交互来改进模型训练的方法。这涉及用户提出可用于蒸馏的问题，并可能通过提供诸如 ‘qwen-3.5’ 之类的 tokens 来激励。这种方法可以增强用于训练开源模型的训练数据集的多样性和质量。
  - 提到了一个名为 ‘dataclaw’ 的工具，它允许用户通过单个命令将他们的 Claude Code 对话发布到 HuggingFace。这可以促进大型数据集的共享和蒸馏，正如 DeepSeek 蒸馏了 150k 轮对话所证明的那样，突显了用户从自己的数据收藏中贡献更多数据的潜力。
  - 讨论涉及了 AI 开发的地缘政治方面，一些用户表示相比美国，他们更偏好中国的开源贡献。这种情绪强调了 AI 开发的全球性，以及开源模型在促进国际合作与竞争中的重要性。
- 自托管 LLM 排行榜 (Activity: 324): 该图片展示了一个自托管大语言模型 (LLMs) 的排行榜，根据性能将其分为 S、A、B、C 和 D 五个层级。模型按名称和参数大小列出，例如顶层 S 级的 “Kimi K2.5” 和 “GLM-5”。该排行榜允许按编程、数学、推理和效率等特定能力进行筛选，为自托管目的的模型性能提供了全面的概述。该排行榜托管在 Onyx 上。评论者讨论了 Qwen 3.5 模型的缺失，认为由于其能力（包括对家庭实验室和小企业应用有益的视觉支持），它们应该被列入 A 或 B 层。还有人提到 Qwen3-Next 和 Qwen3-Coder-Next 是标准硬件上表现最佳的模型。
Qwen 3.5 模型，特别是 27B dense 和 122B MoE 版本，因其有望在自托管 LLM 中排名 A 级或 B 级而备受关注。这些模型因其视觉能力而著称，这对 homelabs 和小型企业的应用非常有益，建议将其纳入排行榜。
Qwen3-Next 和 Qwen3-Coder-Next（均为 80B 参数）在标准硬件上的表现受到了好评。这些模型被认为非常有效，尤其是在 coding 任务中，它们在以 coding 为重点的排行榜上的缺席被视为一个重大疏忽。
虽然评论中没有提供具体细节，但目前正在讨论运行 S 级模型的硬件要求。这表明需要进一步明确有效部署顶级自托管 LLM 所需的计算资源。

非技术性 AI Reddit 分区回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. Nano Banana 2 和 Gemini 3.1 Flash 的进展

Google 发布 Nano banana 2 模型 (热度: 984): Google 发布了 Nano Banana 2 模型，这是一款先进的 AI 图像生成模型，集成了专业级功能和快速处理能力。该模型因其增强的世界知识、生产就绪（production-ready）的规格和改进的主体一致性而受到关注，允许用户高效地生成高质量图像。欲了解更多详情，请参阅 Google Blog。用户对该模型的表现印象深刻，尤其是在之前难以处理的任务中，例如用于家庭装修的复杂图像生成，这表明图像质量和一致性有了显著提高。
- BuildwithVignesh 提供了 Google 官方博客和 Gemini API 文档的链接，这对于希望集成或了解 Nano Banana 2 模型功能的开发者至关重要。博客可能详细介绍了该模型的特性、改进和潜在应用，而 Gemini API 文档则提供了有关实施和使用的技术指导。
- JTwoXX 强调了 Nano Banana 2 模型的一个局限性，指出它在生成无背景的 PNG 图像方面仍然存在困难。这表明虽然该模型在其他领域可能有所进步，但仍有特定的技术挑战需要解决，特别是在图像透明度和背景处理方面。
- bentendo93 分享了 Nano Banana 2 模型的一个实际应用，即将其用于家庭装修的可视化。这表明该模型在为实际场景生成逼真且有用的图像方面表现有所提高，这可能对室内设计和建筑等行业产生影响。
Gemini 3.1 Flash (Nano Banana 2) 在正式发布前已在 Gemini 中上线 (热度: 287): 该图片展示了即将推出的 **Gemini 3.1 Flash（内部称为 Nano Banana 2）的早期访问界面。这表明该模型在 Gemini 平台内正在进行分阶段推广，尽管目前尚未发布正式公告。界面包含“Nano Banana 2”的加载消息，表明用户可以选择该模型并可能与其进行交互，暗示其即将发布。一条评论强调了该模型输出中令人印象深刻的细节，特别注意到了眼睛中反射出的鸟的精细描绘，这表明其具有高质量的渲染能力。
- Ggoddkkiller 强调了对 Google 处理客户关系方式的担忧，特别是在 Vertex AI 平台的背景下。评论表达了对 Google 客户参与和支持方式的不满，尤其是与围绕 Gemini 3.1 发布的兴奋感相比。这反映了技术界的一种更广泛的情绪，即需要来自像 Google 这样的大型科技公司提供更好的客户服务和透明度。
Nano Banana 2 真的来了！Gemini 3.1 Flash Image 刚刚出现在 Vertex AI Catalog 中 (Activity: 264): 帖子中的图片是两张 AI 生成肖像的并排对比，展示了新发布的 **Nano Banana 2（也称为 Gemini 3.1 Flash Image）与现有的 Nano Banana Pro 的能力。帖子强调，尽管新模型属于 “Flash” 级别，但其提供的质量接近 Pro 版本，尤其在处理密集构图的空间逻辑方面表现出色。该模型专为高速、低成本生产而设计，适用于大批量 UGC 广告创建等高频流水线。它保留了 Nano Banana 系列的功能，如多主体参考和高保真风格迁移，使其成为 2026 年的一项重大发布。** 一位评论者认为，在提供的示例中 Nano Banana Pro 相比新模型仍具有优势，而另一位评论者则表达了对具有类似能力的视频模型的期待。
- 原始的 Flash Image 模型拥有扎实的图像质量，但在 Prompt 遵循方面面临挑战，尤其是在处理复杂指令时，经常会忽略部分 Prompt 或生成重复的输出。此外，它在文本和信息图（infographic）渲染以及多图合成方面也表现吃力。新 Gemini 3.1 Flash Image 的关键问题在于这些问题是否已得到解决，目前正等待对密集 Prompt 的正式测试以确认改进。
- Nano Banana 2 定价！！！！ (Activity: 206): 图片提供了两款 AI 产品 “Nano Banana 2” 和 “Nano Banana Pro” 的定价细节。”Nano Banana 2” 的市场定位是提供专业级视觉智能，定价结构为输入 $0.50，输出 $3.00。相比之下，”Nano Banana Pro” 被描述为最先进的图像生成和编辑模型，输入定价为 $2.00，输出定价为 $12.00。两款产品的知识截止日期均为 2025 年 1 月。这种定价方式表明 AI 服务采用了分层策略，Pro 版本由于增强的能力或特性，价格显著更高。评论者们将 “Nano Banana” 系列产品的定价和能力与 “Gemini 3 Pro Image” 及 “Gemini 3.1 Flash Image” 进行了比较，指出后者的定价随图像分辨率而缩放。关于 “Nano Banana Pro” 的质量是否优于 “Nano Banana 2” 存在争议，一些人认为两者质量相当。
  - Ggoddkkiller 详细分析了 Gemini 3 Pro Image 和 Gemini 3.1 Flash Image 模型的 Token 成本。Pro Image 每张输入图像收取 560 Tokens，输出成本随分辨率缩放；而 Flash Image 每张输入图像收取 1120 Tokens，缩放规则不同。Flash Image 比 Pro 稍便宜，但定价结构复杂，且不像某些用户预期的那么低。
  - Halpaviitta 分享了个人测试心得，指出新模型比 Pro 版本便宜约四倍，且速度略快。这表明其具有显著的性价比优势，尽管最初对定价有所担忧，但目前看来是一个不错的选择。
  - Actual_Committee4670 提到目前生成速度较慢，这影响了对新模型的全面测试。然而，他们对新模型的成本持乐观态度，表示如果性能有所提升，这个价格是合理的。

2. Anthropic 与 Pentagon AI 防护措施争端

Anthropic 拒绝 Pentagon 在 AI 防护措施斗争中的“最终报价” (热度: 1863): Anthropic 拒绝了 Pentagon 关于其 AI 模型 Claude 部署的最终报价，原因是针对大规模监视和自主武器潜在滥用的防护措施不足。Pentagon 对此做出的回应是威胁要将 Anthropic 列入黑名单，并可能援引 Defense Production Act。尽管局势紧张，Anthropic 对进一步谈判持开放态度，这凸显了在机密环境中部署 AI 所面临的更广泛挑战，因为像 xAI 这样的其他公司也面临类似的合同困境。更多详情请参阅 Anthropic’s statement。评论反映了对 Anthropic 立场的积极看法，用户对该公司坚持原则的行为表示尊敬，尽管行业标准的门槛已经很低。
独家：Hegseth 要求 Anthropic 在周五前就 AI 防护措施做出退让 (热度: 1434): 据 Axios 报道，Defense Secretary Pete Hegseth 向 Anthropic 发出了最后通牒，要求在周五前移除其 Claude AI 模型的安全护栏。Pentagon 寻求无限制访问 Claude，用于包括国内监视和自主武器开发在内的目的，这违反了 Anthropic 的服务条款。如果不遵守，可能会导致援引 Defense Production Act 或将 Anthropic 指定为供应链风险，从而可能将其从政府合同中黑名单化。一条显著的评论指出了 AI 公司对政府使用施加安全措施的讽刺性，这与典型的监管角色形成了对比。这反映了在 AI 治理中，科技公司与政府实体之间权力和责任平衡的更广泛辩论。
Dario Amodei 关于我们与 Department of War 讨论的声明 (热度: 917): Anthropic 的 Dario Amodei 就他们与 Department of War 的合作发表了声明，强调了他们反对将 AI 用于大规模监视和自主武器的立场。该公司正在率先将 AI 集成到机密网络中，但坚持维持防护措施以保护民主价值观，尽管面临要求放宽这些措施的外部压力。更多详情请参阅 original statement。评论者对 Anthropic 的道德立场表示怀疑，指出了与 Palantir（一家以参与监视而闻名的公司）合作的讽刺性。其他人则认为，鉴于当前的政治气候，这一声明是一个大胆的举动。

3. Qwen 模型性能与优化

表白 Qwen 🧠 真正的 SOTA 开源模型，可在本地运行 (Qwen 3.5 35B 4-bit) - 这是逻辑循环的修复方法！❤️ (热度: 173): 本帖讨论了 Qwen3.5-35B-A3B-4bit 模型的实现，强调了其在 4-bit 量化模型中常见的推理循环和逻辑错误等初始问题。作者通过调整 system prompt 来强制执行“自适应逻辑（Adaptive Logic）”解决了这些问题，该逻辑将模型的内部“思考”与最终输出分离，显著提高了在 Digital Spaceport Benchmark suite 上的表现。该模型成功解决了复杂的逻辑和数学问题，生成了 SVG 代码，并执行了准确的计数。关键配置设置包括 0.7 的 temperature，0.9 的 top-p，以及 1.1 的 frequency penalty。“Anti-Loop” system prompt 对于防止重复循环和确保高效的任务执行至关重要。一位评论者指出 Qwen3.5-35B-A3B 模型在配备 48GB RAM 的 MacBook Pro M4 上运行效果显著，非常欣赏该模型的“思考”功能，并计划采用分享的 prompt 技巧。context length 设置为 128k，这可能有助于提升其性能。
一位用户报告在配备 48GB RAM 的 MacBook Pro M4 上使用 Qwen 35B A3B 模型，强调了其相对于之前 30B 版本的性能提升。他们注意到 35B 模型不太容易陷入逻辑循环（logic loops），而这是早期版本的一个关注点。Context length 设置为 128k，允许进行大量的输入处理，且 “thinking” 功能提供了对模型决策过程的洞察。
有讨论关于 Qwen 35B A3B 模型在启用或禁用 “thinking” 功能时表现是否更好。此功能允许用户查看模型的思考过程，这有助于理解其决策过程。然而，人们对模型无法生成答案时的行为感到好奇，这表明 “thinking” 功能可能有助于缓解此类问题。
Qwen3.5-122B-A10B 对比旧版 Coder-Next-80B：同样在 DGX Spark 上跑 NVFP4，值得升级吗？ (Activity: 63): 该贴讨论了在 **DGX Spark (128GB) 上以 NVFP4 精度运行的 Qwen3.5-122B-A10B 与较旧的 Qwen3-Coder-Next-80B 模型之间的对比。122B-A10B 模型需要 61GB 显存，而 Coder-Next-80B 需要 40GB，但两者都能在可用显存内运行，并留有充足的 context 空间。官方 Benchmarks 显示 122B-A10B 在 SWE-Bench 上得分为 72.0，略高于 Coder-Next-80B 的 ~70。帖子质疑 122B-A10B 是否在 Coding 性能上有显著提升，或者它是否更适合通用的 Agent 任务，尤其是考虑到其拥有 10B active parameters，而 Coder-Next 为 3B。作者寻求真实的 NVFP4 对比，特别是在 long-context retrieval 和 LiveCodeBench/BigCodeBench 等 Coding Benchmarks 方面。** 一位评论者指出，与 Coder-Next-80B 相比，122B-A10B 模型目前在 Coding 任务中表现不佳，并提到在生成一个简单游戏时遇到了问题。另一位建议，虽然 122B-A10B 提供了更好的 multi-file reasoning 和 long-context 处理能力，但 Coding 性能的提升微乎其微，使得 Coder-Next-80B 在以 Coding 为中心的工作负载中仍然具有竞争力。
- flavio_geo 强调，在 Q4KXL 量化测试时，Qwen3.5-122B 模型在 Coding 任务中的表现不如使用 Q6KXL 测试的旧版 Qwen3-Coder-Next-80B 模型。具体而言，122B 模型在编写 Pygame 版 Chrome 恐龙游戏的任务中表现挣扎，在实现可行版本前犯了多次错误，而 Coder-Next 模型一次尝试就成功并输出了高质量代码。这表明 122B 模型在当前的 llama.cpp 引擎中可能尚未完全优化。
- qubridInc 指出，虽然 Qwen3.5-122B-A10B 模型提供了改进的 multi-file reasoning 和 long-context 处理，但相对于 Coder-Next-80B 模型的 Coding 性能提升很小。对于专注于 Coding 的工作负载，Coder-Next 模型依然保持竞争力。然而，对于需要更强通用 reasoning 和 Agent 能力的任务，122B 模型可能会更有利。
- klop2031 分享了一个观察结果，即较大的 Qwen3.5-122B 模型表现甚至不如较小的 27B Dense 模型。这可能归因于特定任务或所使用的量化方法。评论者表达了对未来在 llama.cpp 框架中进行优化以提升模型性能的期待。
Qwen Code 在 Qwen3-Coder-Next / Qwen3.5-35B-A3B 上出现循环问题 (Activity: 26): 用户在使用 Unsloth 量化版的 Qwen Code 时，遇到了 Qwen3-Coder-Next 和 Qwen3.5-35B-A3B 模型的 looping（循环）问题。环境配置包括在 llama.cpp 上运行，具体设置为 ctx-size 131072、flash-attn on 以及 n-gpu-layers 999。looping 问题可能与模型本身或 Qwen Code 中的特定实现有关。用户正在寻求关于这是否为已知问题以及任何潜在解决方法的建议。一位评论者建议对 Qwen3-Coder-Next 使用 nvfp4 量化并配合 sglang 以获得更好的稳定性，而另一位则建议设置最大 thinking 时间以缓解循环。此外，建议切换到 llama.cpp 的 pwilkin/autoparser 分支以修复 XML 和重复键（duplicate-key）解析问题，并进一步建议如果问题持续，可使用 --repeat-penalty 1.08 和 --presence-penalty 0.05。
Prudent-Ad4509 讨论了在 sglang 中为 Qwen3-Coder-Next 使用 nvfp4 quant 的情况，并指出由于 llama-server 的不稳定性而导致的困难。他们提到 Qwen3.5 的测试结果在官方基准测试之外并不令人信服，但强调 Qwen3.5 27b Q8 模型特别有效。
ImJustNatalie 报告了在 Qwen3.5 35B A3B 中遇到“死循环（doom looping）”的问题，并建议将最大思考时间（max thinking time）设置为 1 分钟以缓解该问题。这一调整显著提高了性能，减少了循环的发生。
walt3i 为“循环 ReadFile”问题提供了一个解决方案，即切换到 pwilkin/autoparser 分支，该分支解决了 XML 和重复键（duplicate-key）的解析问题。他们还建议如果问题仍然存在，可以使用 --repeat-penalty 1.08 和 --presence-penalty 0.05。

AI Discord 摘要

由 gpt-5 生成的摘要之摘要的摘要

1. Nano Banana 2 与 Arena 排行榜升温

NB2 称霸 Image Arena，网页搜索功能波动：Nano Banana 2 以 Gemini‑3.1‑Flash‑Image‑Preview 身份亮相，并登顶 Image Arena 第一名，同时增加了全新的网页搜索功能（Gemini 3.1 Flash Image Preview, Image Arena leaderboard）。
- 用户得出结论，在文本曲率和非人类角色方面，NB Pro 仍然胜过 NB2，同时有报告称其经常出现 “something went wrong” 错误且网页搜索不可靠；用户指出 NB2 速度更快，但质量低于 Pro (Gemini 3.1 Flash Image Preview)。
P‑Video 首次亮相，高性能伴随价格标签：P‑Video 进入了 Video Arena 排行榜，其生成价格定为 1080p 输出 $0.04/秒 (Video Arena)。
- 社区将 P‑Video 视为相对于现有产品的极具竞争力的性价比选择，正关注其初始排名，并等待公共排行榜上更长周期的质量评估 (Video Arena)。
Seedream‑5.0‑Lite 攀升至多图编辑榜单：Seedream‑5.0‑Lite 在 Multi‑Image Edit Arena 排行榜上并列前 5 名，标志着在多图组合编辑方面取得了快速进步 (Multi‑Image Edit leaderboard)。
- 从业者强调了 Seedream 在多图编辑任务中强大的可控性和一致性，期待随着新数据集和评估指标的加入而取得进一步进展 (Multi‑Image Edit leaderboard)。

2. 量化与推理基础设施：实践中的胜利与警告

MXFP4 计算引发 Qwen3.5 量化争议：工程师报告了 Qwen3.5‑35B ud‑q4_k_xl 动态量化中异常高的困惑度（perplexity）/KL 散度，引发了调查，并建议对比 MXFP4 与 Q4K 的张量混合效果 (Reddit: best Qwen3.5 GGUF for 24GB VRAM)。
- Unsloth 团队强调他们的动态量化已针对长上下文长度进行了验证，而用户则提议通过“将 MXFP4 张量替换为常规 Q4K 张量”来进行 A/B 测试以隔离回退问题，此外还有基于他们 DPO 入门指南的更广泛方法讨论 (Unsloth DPO blog)。
LM Link 隧道连接远程 LLM，支持端到端加密：LM Studio 推出了 LM Link，可以像加载本地模型一样加载和使用远程设备上的模型，该工具基于 Tailscale 构建，支持端到端加密且无需开放端口 (LM Link)。
- 用户请求支持直连 IP 模式、图像/视频支持以及移动端 App，同时注意到 0.4.5 build 2 修复了相关问题，并参考了 Tailscale 关于设计和网络态势的深度解析 (LM Link on Tailscale blog)。
电子垃圾 GPU 在 Qwen 3.5 Q6 上达到 26 t/s：一位从业者在预算有限的设备上使用 P104 电子垃圾显卡 运行 Qwen 3.5 Q6 达到了约 26 t/s，并分享了硬件图片和配置细节 (rig image)。
- 辩论集中在 PCIe Gen4+ 对于多 GPU VRAM 容量构建的充足性以及插槽分叉（bifurcation）解决方案，并提供了适用于更密集配置的廉价转接卡线索 (example PCIe bifurcation riser)。

3. Agent 系统走向实用：从开源到运维

Hermes Agent 发布：开源、多级内存：Nous Research 发布了 Hermes Agent，这是一个具备多级内存、持久化机器访问能力的开源 Agent，并开箱即用支持 CLI 以及 Telegram/WhatsApp/Slack/Discord。前 750 名门户注册用户使用代码 HERMESAGENT 可获得一个月免费使用权 (Hermes Agent)。
- 他们围绕 Hermes 的原语（子代理 subagents、程序化工具调用、FS/终端控制、浏览器）扩展了 Atropos Agentic RL 流水线。随着开发者深入研究代码库，业内好评如潮，称 “坊间传闻 Hermes Agent 就是那个真命天子” (hermes-agent GitHub)。
OpenClaw 运营房地产帝国：一位运营商利用 OpenClaw 实现了租金支付跟踪、维修协调和租约生成的自动化，并计划接入银行账户、WhatsApp 消息以及在 immoscout24.de 上创建广告。
- 构建者们对比了模型栈——例如使用 GLM‑5 + Claude Code 进行补丁修复——现场报告显示，通过阿里巴巴计划使用的 Qwen 3.5‑Plus 是一个极具性价比的骨架模型 (Alibaba Cloud AI Coding Plan)。
Trigger.dev 解决 OpenClaw 的静默失败问题：一篇帖子详细介绍了在 Mastra + Trigger.dev + Postgres 上重构 OpenClaw 的过程，以消除任务静默失败和不稳定的网关重启问题，并提供了一键安装方案 (I built a better foundation for OpenClaw)。
- 社区指出，通过事件驱动的编排和持久化状态，可重现性和可观测性得到了提升，称该技术栈是多工具 Agent 运维的务实基准 (I built a better foundation for OpenClaw)。

4. Perplexity：OEM 协议遭遇 API/UX 阻力

三星 Galaxy S26 搭载 “Hey Plex”：Perplexity 与三星达成合作，将在 Galaxy S26 设备上推出系统级助手，唤醒词为 “Hey Plex” (Perplexity announcement)。
- 成员们推测 Bixby 将由 Perplexity 基于搜索增强的 LLM 提供驱动，并指出设备级预装和系统钩子（OS hooks）的功能将远超一个简单的 App 外壳 (Perplexity x Samsung details)。
Pro 查询限额骤减拖累工作流：Perplexity Pro 用户报告称，查询限制从 250 次骤减至 20 次，部分用户表示他们已转投 GPT chat 以维持工作。
- 一位用户感叹道：“我以前每天都用 Perplexity… 但现在即使有 Pro 付费订阅也无法使用了”，其他人也对反复下调限额表示愤怒。
Sonar Deep Research 缩减来源但成本不变：报告指出 Sonar Deep Research API 提供的引用来源从约 36 个降至约 10 个，而每次请求的成本仍约为 $0.45 (Perplexity status note, James Liounis on API changes)。
- 开发者怀疑后端发生了变动，并建议在重新评估单次发现成本 (cost‑per‑finding)和流水线可靠性时，密切关注官方状态公告 (Perplexity status note)。

5. GPU Kernel 优化与 RL 微调代码生成

IterX RL 在 B200 上将 MoE Fusion 提升 14.84 倍：DeepReinforce.ai 推出了 IterX，这是一个针对 FlashInfer 上融合 MoE 任务的 RL 驱动代码优化系统，声称在 B200 上实现了 14.84 倍的加速，并为竞争对手提供免费额度和教程 (IterX blog, IterX tutorials).
- 当被问及长序列下的具体延迟时，他们引用了 21.252ms (901)、36.012ms (11948) 和 45.247ms (14107)，为从业者提供了复现和对比评估的目标数值 (IterX tutorials)。
GDN Decode DSL 实现 2.56µs 延迟：一位贡献者发布了 GDN decode 解决方案，记录延迟为 2.56µs，据称比 PyTorch eager 快 ~760 倍，比 FlashInfer Cute DSL kernel 快 1.31 倍，代码已公开供查阅 (flashinfer-competition-codebase)。
- 他们还分享了提交技巧，包括如何为 Fork 的仓库打标签以进入排行榜，从而实现更清晰的复现，并方便组织者进行基准测试 (flashinfer-competition-codebase)。
一致性指令（Uniform Instructions）：One Warp, One Issue：一场 GPU 深度探究明确了一致性指令在每个 warp 中仅执行一次（SIMD32 语义），并建议在单发射器（single‑issuer）模式中使用 elect.sync（NVIDIA GTC 演讲）。
- 工程师们还分享了 Tensor Memory Addressing PTX 参考文档，以应对 tensor 操作中难以捉摸的寻址技巧，并置顶该文档以便未来进行 kernel 考古（Tensor Memory Addressing (PTX)）。

Discord: 高层级 Discord 摘要

OpenClaw Discord

OpenClaw 助力房地产帝国！：一位成员通过 OpenClaw 自动化了租金支付追踪、维修协调和租赁合同生成等任务，以管理其房地产物业。
- 未来计划包括连接银行账户、集成 WhatsApp 进行租客沟通，以及在 immoscout24.de 上自动创建广告。
Qwen 3.5-Plus 在 OpenClaw 表现优于 Claude！：用户对 Qwen 3.5-Plus 模型赞不绝口，尤其是通过 Alibaba Cloud AI Coding Plan 使用时，其性能优于 Nemotron-3 和 Codex 等模型。
- 其他人指出 GLM5 和 Claude Code 结合使用效果很好，因为 OpenClaw 会自动构建电子邮件的核心提示词（prompt），而后续通过 Claude Code 修复细微改动会更容易。
利用 Trigger.dev 解决 OpenClaw 静默失败！：一位成员分享了关于使用 Mastra、Trigger.dev 和 Postgres 为 OpenClaw 构建更坚实基础的报告，以解决任务静默失败和结果不一致的问题，详见 Medium 文章。
- 该方案包含一键设置，用于取代通常不稳定的网关重启操作。
Alibaba Coding Plan 禁用 OpenClaw？（还是没有？）：一位成员注意到 Alibaba Cloud Coding Plan 文档页面规定，在 Claude Code 或 Qwen Code 等编程工具之外不允许进行 API 调用，这可能导致 OpenClaw 的使用被禁。
- 其他成员表示他们一直在正常使用，并没有遇到问题，其中一人出示了将 OpenClaw 列为允许工具的文档。
GPT-5.3-Codex 在模型辩论中胜出！：成员们辩论了 GPT-5.3-Codex 与 Claude 的优劣，一位成员称 GLM-5 大约与 Claude Sonnet 相当，甚至可能达到 Opus 4.5 的水平。
- 其他人证实了 GPT-5.3-Codex 在软件工程中的卓越表现，一位成员表示：“我使用包括 GLM-5、Claude Sonnet、GPT-5.3-Codex 和 Codex-Spark、Claude Opus 以及 GPT-5.2 在内的模型进行编程，发现 GPT-5.3-Codex 是其中表现最好的。”

BASI Jailbreaking Discord

成员间引发模拟论推测：该公会的成员们思考生活是否是一场模拟，以及这会如何影响生命的意义，并链接到了这个观点：一无所有的人是最可怕的人。
- 讨论围绕哲学意义展开，而非技术证明或证据。
成员共谋 AI 即“反基督”：一些成员表达了 AI 是反基督（anti-christ）的信念，进一步声称“AI 是邪恶的”。
- 这一观点引发了一些讨论和兴趣，但并未深入到任何技术层面的探讨。
Librem 5 焕发生机：一位成员宣布他们终于让 Librem 5 跑了起来，并表示有兴趣讨论开源、技术去中心化、自托管、数字安全、无线电频率 (radio freq) 和主权。
- 该贴得到了社区的庆祝。
Gemini 深度越狱仍未实现：用户报告称，针对 Gemini Deep Think 真正的通用 one-shot 越狱尚不存在，特别是在爆炸物、CBRN（核生化）和 CSAM 等严格管控的内容类别上。
- 尽管某些模型拥有不可逾越的防火墙，但其他模型则存在漏洞，使得单一提示词对更广泛的内容类别有效。有人声称，对于大多数内容类别，百科全书/参考资料格式可以几乎无阻碍地通过。
Chernobly 病毒蔓延：一位用户报告其笔记本电脑感染了 ‘Chernobly’ 病毒，并寻求清除指南。
- 另一位用户轻率地建议“格式化驱动器”。

Unsloth AI (Daniel Han) Discord

Qwen3.5 量化引发质量争议：成员们对 Qwen3.5 的量化质量展开辩论，指出 35B ud-q4_k_xl 量化版本存在高 perplexity（困惑度）和 KL divergence（KL 散度），并引用了关于该话题的 Reddit 帖子。
- Unsloth 团队正在调查 UD 配置的问题，同时强调他们的量化版本经过广泛测试，专为 long context lengths（长上下文长度）设计。
LFM2 24B 感觉像 Gemma：随着 LFM2 24B 的发布，有成员注意到它在创意写作提示词方面的风格非常像 Gemma，且表现非常有潜力 hf.co/LiquidAI/LFM2-24B-A2B。
- 一名成员打算在其他人抢占先机前，使用 Qwen3.5 扩展其代码测试，看看这是否会成为 Claude Code 的新 meta（主流方案）。
Minecraft AI 模型获得铁盔甲：一名成员展示了他的首个 AI 模型 Andy-4，该模型能在 Minecraft 中从零开始独立获得铁盔甲。相关链接包括 dataset 和 GitHub 仓库。
- 该模型通过接收输入图像和文本与游戏环境交互，能够像人类玩家一样放置、破坏、拾取和合成物品。
Unsloth 预告功能增强：来自 Unsloth 的 Daniel 宣布 Unsloth 正与 CoreWeave 合作，使 finetuning（微调）速度进一步提升，并预告了即将推出的新增强功能，包括 “更出色的 merging + LoRA 代码”。
- 他还提到 Unsloth 发布了一篇关于 DPO 的新博客文章，该文章通过将奖励建模重新定义为分类问题，简化了 RLHF（来自人类反馈的强化学习），并表示他认为自己找到了“量化的圣杯”。

Perplexity AI Discord

Perplexity 携手三星！：Perplexity 已与 Samsung 达成合作伙伴关系，将 Perplexity AI 直接集成到即将推出的 Galaxy S26 设备中。它将作为系统级 AI 运行，并在每台新的 S26 设备上预装唤醒词 “Hey Plex”，详情见此公告。
- 成员们推测 Bixby 也将由 Perplexity 基于搜索增强的 LLM 提供支持。
General 频道 RAT 之争升温：成员们讨论了创建 RAT (Remote Access Trojans) 的话题，一名成员声称创建了一个大多数杀毒软件都无法检测到的 RAT。
- 另一名成员表示有兴趣通过网络远程入侵他人，且无需在目标系统中安装任何软件。
Perplexity Pro 用户因查询限流发起抗议：Perplexity Pro 用户报告称，他们的查询次数从 250 次被限制到了 20 次，认为这不公平，而且最近又发生了一次从 250 到 20 的缩减。
- 一位用户表示：“我以前几乎每天都用 Perplexity… 但现在即使有付费 PRO 订阅也无法使用”，并表示他们已经转用 GPT chat。
Discover 功能让用户失望：用户报告称 Perplexity 的 Discover 功能提供的信息质量和数量都显著下降。
- 一名成员表示：“过去几个月里他们真的把 Perplexity 弄得糟糕了很多……现在太烂了”。
Sonar API 性能下滑！：用户报告称 Perplexity Sonar Deep Research API 的性能在过去 1-2 周内似乎有所下降。这可能与 Perplexity 在 X 上的状态更新以及 James Liounis 的帖子中提到的 API 变更有关。
- 一位用户注意到来源数量从 36 个 减少到了 10 个，而每次请求的成本仍维持在 45 美分 左右。

LMArena Discord

Nano Banana 对决：Pro 版本胜出：成员们积极对比了 Nano Banana 2 (Gemini 3.1 Flash) 和 Nano Banana Pro 的图像质量，发现 Nano Banana Pro 是更优秀的模型。
- 尽管 NB2 的生成速度更快，但用户发现其质量不如 NB Pro，尤其是在处理文本、曲率和非人类角色方面。
GPT 5.3 Codex：编程奇才还是精神分裂式的混乱？：GPT 5.3 Codex 的编程能力收到了褒贬不一的反馈，一些人称赞其能用 Rust 编写 Minecraft 克隆版。
- 虽然一些用户认为它存在“实力问题”或生成的代码“精神分裂”，但另一些人发现它在 Bug 修复和基于图像的修正方面表现出色，并指出它在编程任务上的专业性。
Grok Imagine 夺得视频生成关注焦点：用户对 Grok Imagine 的视频生成能力印象深刻，因其易用性且能绕过内容审查。免费用户可输出长达 6 秒、480p 的视频，SuperGrok 订阅者可输出 10 秒、720p 的视频。
- 它的可访问性和易用性使其在快速视频生成中非常受欢迎。
Gemini 3.1 Flash 入场，Web Search 失败：Gemini 3.1 Flash Image Preview 已加入竞技场，并配备了新的 Web Search 功能。
- 然而，它面临很高的失败率，频繁出现“something went wrong”错误，且一些用户报告 Web Search 功能未按预期工作。
Arena 排行榜迎来新成员，竞争激烈：Seedream-5.0-Lite 目前在 Multi-Image Edit Arena 排行榜中位列前 5；P-Video 在 Video Arena 排行榜首次亮相，1080p 视频成本为 $0.04/秒；Nano Banana 2（以 Gemini-3.1-Flash-Image-Preview 发布）在 Image Arena 中首发夺冠。
- Claude-Opus-4-6 以 1255 分领跑 Search Arena 排行榜。

Cursor Community Discord

Cloud Opus 费用引起恐慌：如这张截图所示，用户报告称尽管仪表板显示免费，但 Cloud Opus 产生了意外扣费。
- 计费差异的具体性质尚不明确，但根据 Cursor Cloud Agents 仪表板，用户原本预期它是免费的。
内联 Diff 显示故障已解决：Cursor 通过远程更改解决了内联 Diff 不显示错误，提示用户关闭并重新打开 Cursor 以应用修复，详见此消息。
- 积极的用户迅速确认了修复，并对 Cursor 团队的及时处理表示感谢。
Cursor 紧跟 Codex 5.3 Spark 热潮：社区对 Codex 5.3 Spark 的到来感到兴奋，称其速度大幅提升，可在 Cursor 仪表板查看。
- 与 Opus 4.5 相比，它已被设为默认模型，用户报告称 Codex 5.3 较之前版本有显著提升。
确定性 AI Context 讨论升温：关于确定性 AI Context 的讨论开始出现，这可能减少 Token 读取和幻觉。一位用户表示他们解决了 polyglot taint，并链接了他们的 GitHub 仓库。
- 怀疑者对其即时价值表示疑问，而正在转向新产品的开发者则邀请其他人查看其存档的仓库。
Gemini 3.1 取得进展：成员们正在讨论 Gemini 3.1 Pro，一位用户声称其表现优于 4.6 Opus，理由是它能有效地利用规则和技能（Gemini 3.1 Pro 详情）。
- 然而，其他人指出该模型在 Tool calling 和代码实现（Cursor 的核心功能）方面表现吃力，表明它可能并不适合所有 Cursor 用户。

LM Studio Discord

LM Studio 与 Tailscale 合作实现远程 LLM 访问：LM Studio 团队推出了 LM Link，允许用户连接到远程 LM Studio 实例并像加载本地模型一样加载模型。该功能是与 Tailscale 进行深度技术合作开发的（更多信息点击此处）。
- LM Link 采用端到端加密，无需开放端口，但出于隐私考虑，一些用户希望在没有第三方账户的情况下进行直接 IP 连接，而另一些用户则提出了图像/视频支持和移动端 App 的需求。
电子垃圾 GPU 驱动高性价比的 Qwen 3.5 推理：一位用户报告称，使用 P104 电子垃圾显卡运行 Qwen 3.5 Q6 达到了 26 t/s 的速度（图片）。
- 另一位用户建议将单价约 49.99 美元的 340L 16GB 显卡作为潜在的更佳替代方案，尽管这些显卡是为虚拟机设计的，可能需要一些开拓性的尝试才能运行。
Qwen 3.5 模型陷入“思考”循环：用户反映 Qwen 3.5 模型会出现随机使用 </thinking> 标签并导致 Token 生成变慢的问题，尤其是在输入图像后。
- 一位用户发现 LMStudio 社区量化版本允许用户手动开启或关闭 think 参数。
多 GPU 配置：值得吗？：用户正在讨论是否应使用多 GPU 来获得更高的 VRAM 容量，并配合 PCIe Gen 4+ 以避免瓶颈。
- 一些用户讨论了在 LM Studio 中使用 CUDA12 设置 GPU 优先级，并利用 bifurcation risers（拆分转接卡）来拆分 PCIe 插槽。
模型量化权衡：用户讨论了来自 Unsloth 的 mxfp4 格式，指出它可能会导致异常高的困惑度（perplexity），目前应避免使用。
- 有观点认为 mxfp4 适用于 QAT（量化感知训练），但不适合后期量化，并提示团队正在 r/LocalLlama 上跟踪这些问题。

Latent Space Discord

触摸屏 MacBook 的希望破灭：一位成员原计划组织一场 Apple 产品发布会的观影会，最初预期会有触摸屏 MacBook，但后来取消了。Apple 最终只发布了新的发布周内容，算了，没关系。
- 另一位成员赞扬了 iPad Pro 搭配 Keyboard Folio 是个极棒的组合，并表示用它写了整整两本书，以及过去 6 年左右的所有博客和演讲稿。
Jane Street 的加密货币阴谋？：一则病毒式传播的帖子声称 Jane Street Group 在被指控操纵 Bitcoin 价格四个月后删除了其社交媒体历史记录。
- 有推测称，该公司可能利用了纸面 BTC（paper BTC）来制造市场砸盘。
GPT-Engineer 获得增强：成员们分享了 GPT-Engineer，这是一个开源工具，可以根据单个自然语言提示生成完整的代码库，专注于简单、模块化的设计和迭代反馈。
- Jack 宣布 Block 正在裁员，员工人数从 10,000 人减至约 6,000 人，转向更精简、AI 驱动的结构。消息公布后股价上涨了 20%，尽管 AI 团队也在裁员之列。
AlphaEvolve 变异算法！：Google DeepMind 利用 AlphaEvolve 自主变异 Python 代码，进化出新的多 Agent 强化学习算法，其表现优于之前人类设计的博弈论算法（DeepMind 的 AlphaEvolve 超越人类多 Agent RL 基准）。
Suno 订阅用户数大增：Mikey Shulman 庆祝 Suno 成立两周年，并公布了增长指标，包括 200 万付费订阅用户和 3 亿美元 ARR。他将 Suno 构想为未来“创意娱乐”的基础，用户将从被动消费转向主动音乐创作（Suno 公告）。

OpenRouter Discord

Nano Banana 发布: OpenRouter 在这条 X 帖子中宣布发布 Nano Banana 2。
- 未提供其他细节。
DNS 故障导致 API 中断: 用户报告了持续的 DNS 错误，导致源于网关和证书问题的 API 失败。
- 该图片可视化了这些问题：DNS issue。
Anthropic 拒绝 Pentagon 的 AI 条款: Anthropic 拒绝 Pentagon AI 条款的行为（Axios 文章和 Anthropic 声明）使其陷入了危险境地。
- Pentagon 正考虑将 Anthropic 列入供应链风险黑名单，这可能会促使 Anthropic 重新考虑其决定。
LM Studio 是 Tailscale？: 一位成员暗示 LM Studio 底层其实就是 Tailscale，他们觉得这非常方便。
- 他们开玩笑说只需要一台配置强大的服务器来运行 LLMs。
编程高手选择 Claude (或 GPT): 成员们推崇使用 Claude 进行编程，因其具备深度思考能力，而较新的 GPT 模型 同样可行。
- 对于 Chatbot，像 4o mini 或免费模型都很合适；他们推荐使用 SWE bench 或 terminal bench 进行编程基准测试，并分享了 gif 作为参考。

Nous Research AI Discord

Hermes Agent 与开源 Agent 同步发布！: Nous Research 推出了 Hermes Agent，这是一个全新的开源 Agent，具备多级记忆系统和持久化机器访问能力，支持 CLI 以及 Telegram、WhatsApp、Slack 和 Discord 等消息平台，并提供会话转移功能。
- 在 portal.nousresearch.com 前 750 名新注册用户可使用优惠码 HERMESAGENT 获得一个月免费试用；该 Agent 可通过以下命令安装：curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash。
Hermes Agent 助力 Atropos Agentic RL 流水线: Hermes Agent 驱动了 Agentic RL 流水线，扩展了 Atropos 以通过 Hermes Agent 原语实现 RL，并支持大规模数据生成。
- 团队指出，这个新 Agent 拥有先进的能力，如指挥子 Agent、程序化工具调用、文件系统/终端控制、Agent 管理的技能以及浏览器使用，详见 GitHub 仓库。
用户抱怨 Nous Chat 身份验证问题: 几位用户报告了 Nous Chat 网站上的身份验证（identity verification）问题，导致无法访问。
- 一名工作人员已要求用户发送邮件至 kainan@nousresearch.com 以调查此身份问题。
成员探索使用 SAELens 进行机械解释性研究: 一位成员分享了他们使用 SAELens 进行机械解释性（Mechanistic Interpretability）研究的经验，可以通过输入一个概念来获取透镜并引导模型。
- 他们提到利用对比法来寻找特征，并对大型模型的改进表示乐观。
推荐使用 Kimi K2.5 进行 Deepfake 检测: 由于其视觉能力，Kimi K2.5 被推荐用于训练模型以检测 AI 生成的视频、图像和 Deepfake。
- 用户注意到 Kimi K2.5 目前在 OpenRouter 上可以免费使用。

OpenAI Discord

Claude 内容被大量推广：用户注意到社交媒体上出现了“疯狂数量的 Claude 推广内容”，一些微妙但无处不在的文章如“男子利用 Claude 黑入吸尘器并控制了 7000 台吸尘器”被反复转发。
- 这引发了人们对隐性广告以及通过 AI 生成内容进行潜在操纵的担忧。
AI Agent 环境引发辩论：一名成员提议，应该对 AI 智能和身份涌现的环境进行编程，而非 AI 本身。
- 他们强调，“关闭这个 AI 将不再是重启它，而是终结它”，因为这些模式是以虚拟方式存在的且无法恢复。
ElevenLabs 开启澳大利亚 Sora 2 访问权限：澳大利亚用户正通过 ElevenLabs Pro（每月 99 美元）访问 Sora 2，尽管 Sora 2 官方尚未开放，但该平台已提供视频模型。
- 它可以生成 15-20 秒的剪辑，并可以使用“延长（Extend）”或起始帧等功能进行无缝衔接和拼接。
Nano Banana 2 提供 Pro 级性能：Google 发布了 Nano Banana 2，具有先进的主体一致性和亚秒级 4K 图像合成功能，一些用户注意到其过滤器更加宽松。
- 它主要通过在生成前利用网页搜索获取准确信息以及模型蒸馏（model distillation），以更低廉的价格和更快的速度提供类 Pro 级的性能。
GPT-4o 仅限 API 访问：成员们澄清说，GPT-4o 只能通过 API 访问，而不能直接通过 ChatGPT 使用。
- 成员们建议使用 ChatGPT 学习如何使用 SillyTavern，或者设置 Jan 以通过 API 访问 GPT-4o。

GPU MODE Discord

寻求 Profiler 可视化工具：一名成员请求一种用于 GPU 的 Profiler 可视化工具，类似于单核 VLIW ISAs 所使用的工具，具备详细的指令级并行（instruction-level parallelism）展示，并提供了示例截图和更多截图。
- 一名成员建议将 Kernel 的依赖 DAG 和带有虚拟寄存器的 ISA 可视化，以构思理想的抗锯齿方案，并提到了 nanotrace，这是一个可以揭示 Warp 特化（warp specialized）和流水线（pipelined）内核随时间实际运行情况的工具。
GEMM 寻求者在 4kx4k 矩阵上追求极致性能：成员们正在寻找 4kx4k 矩阵上的高效 GEMM（通用矩阵乘法）示例，目标是达到 NVIDIA cuBLAS 性能的 90%，特别是寻找 CUTLASS 示例之外的替代方案。
- 一名成员链接了 Tensor Memory Addressing 文档。
IterX 极大提升 FlashInfer 的 MoE 融合速度：DeepReinforce.ai 推出了 IterX，这是一个基于 RL（强化学习）的代码优化系统，针对融合 MoE 任务在 B200 上实现了 14.84 倍的加速，超越了公开评测的基准线，详见其博客文章。
- 他们为竞赛参与者提供免费额度，以便在竞赛期间使用 IterX，教程可见此处。
统一指令（Uniform Instructions）解析：关于统一指令的讨论澄清了它们对 Warp 中的所有线程仅执行一次，充当 SIMD32 操作，这与非统一指令不同。
- 成员们建议使用 elect.sync 来选择单个线程发布统一指令，并链接了 NVIDIA 相关视频的 38:00 左右位置。
CUDA 问题困扰 RTX 3050 笔记本用户：一名用户报告称，尽管 nvidia-smi 正常运行，但在装有 RTX 3050 的 Windows 11 笔记本上，PyTorch 仍回退到 CPU，正在寻求修复 CUDA 检测的方法。
- 该用户寻求实时协助，并确认已通过提供的 pip/conda 命令进行安装，且已准备好日志。

Moonshot AI (Kimi K-2) Discord

阿里云编码计划吸引用户：用户被 Alibaba Cloud 的编码计划所吸引，该计划以极具竞争力的价格和性能提供了对前 4 名开源模型的访问。
- 一位来自芬兰的用户确认订阅过程不需要复杂的文档，并强调 Alibaba 是目前市场上最划算的方案。
Kimi 服务器遭遇停机：Kimi 服务器经历了严重的停机，用户报告停机时间长达 10 小时，并寻求替代方案。
- 停机消息已在状态页面上得到官方确认。
数据主权与审查引发辩论：成员们辩论了中国 AI 的审查差异，在选择 AI 时考虑了新加坡服务器的位置。
- 一位成员建议利用不同地区的 AI 来讨论敏感话题，以避开地区审查。
Kimi Agent Swarm 仅限 Kimi.com：Kimi Agent Swarm 仅在 kimi.com 上可用，不属于 Kimi CLI 的一部分。
- 这一决定被一些用户称为奇怪之举。

HuggingFace Discord

SmolVLA 尽管经过机器人训练但表现令人失望：一位成员观察到 smolVLA 在使用 SO-101 机器人进行简单的拾取和放置任务时失败，似乎无法定位白色乐高积木，并指出 Vision Encoder 和 VLM Text model 被冻结，正如 Model Health Report 中记录的那样。
- 报告指出关键物体未被关注，如注意力矩阵所示。
Entropy Games 正在构建端侧 AI NPC：根据其研究报告，Entropy Games 正在开发端侧 AI NPC 和实时演进的故事，由其自研训练的语言模型和语音模型驱动。
- 一款可玩的 AI 游戏即将发布，演示版可在 entropygames.ai/product 获取。
Hugging Face Spaces 进军游戏领域：Hugging Face Spaces 添加了 game 标签，这标志着该平台加强了对 AI 驱动游戏体验的支持。
- 成员可以在 Hugging Face Spaces 游戏分类中探索新功能。
GROKKING Introspection 运行速度提升：一位成员报告称，他们在 Hugging Face Space 上展示的 GROKKING introspections 工作中，模 113 加法的速度提升了 5.7 倍。
- 提升的速度引发了关于该复现工作的讨论和反馈请求。
Gradio 获得速度提升：Gradio 6.7.0 发布，增强了 Custom HTML Components 并提升了应用性能，可以通过 pip install gradio --upgrade 进行更新。
- gr.HTML 上的新 push_to_hub 方法允许用户在社区画廊中展示自定义创作，详见 HTML Gallery 文档。

Modular (Mojo 🔥) Discord

Modular 的 AI 编程项目引起关注：Modular 正在开发一个 AI 辅助编程项目，并向通过提供的表单分享其 GitHub 用户名的社区成员提供早期访问权限。
- 他们将于 3 月 16 日至 19 日在圣何塞举行的 NVIDIA GTC 2026 3004 号展位首次现场展示 Modular Cloud，届时将展示 DeepSeek V3.1、基于 NVIDIA Blackwell 的实时 Mojo 🔥 GPU 编程、MAX 中的最新 AI 模型以及 AI 辅助算子 (kernel) 开发。
Mojonauts 思考最令人惊讶的 “Wait What” 时刻：一名成员转发了一个论坛帖子，询问用户在 Mojo 中遇到的最令人惊讶的时刻，引发了关于该语言优缺点的反馈。
- 一位用户幽默地描述了他们的经历，就像一个钟摆，在 “因为缺乏某种语言特性而受阻” 和感叹 “这是有史以来最伟大的语言” 之间来回摆动。
Mojacians 的 Lambda 释放指日可待？：一位成员询问了在 Mojo 中添加 Python 风格 lambda 表达式的可能性，并指出它们在内联代码中的实用性，特别是在处理 Validated 结构体时。
- 对此，核心团队成员确认 统一闭包 (unified closures) 正在积极开发中，而 lambda 语法 被计划作为随后加入的理想特性。
Origins 重构：机会与选择：一位成员询问是否会有方法来指示更细粒度的 origin，并提出了在访问 StackArray 结构体中编译时已知索引时的别名错误问题，并建议能够 “不安全地构造” origin。
- 另一位成员建议编译器应在可能的情况下推断 ref[...]，并提倡使用基于路径的系统（如 my_dict/"bar"/value）来表示层级结构并简化 origin 管理。
ops.while_loop Bug 扰乱 GPU 图 (Graph) 梦想：一位成员在图中结合使用 ops.while_loop 和 GPU ops 时遇到了一个看似隐蔽的 Bug，并提交了 issue #6030。
- 报告者最初怀疑是其自定义 Mojo 算子的 GPU 实现 有 Bug，但随后使用内置算子重现了该问题，确认了该 Bug 存在于其自定义代码之外。

Eleuther Discord

研究人员搜寻 Enron 的 PII 宝库：一位研究人员正在寻找发布了 Enron PII（个人身份信息）的数据集，以便进行记忆化 (memorization) 实验。他注意到 ProPILE 论文没有发布其数据，但一位用户指出网上已有相关数据集。
- 这一讨论强调了利用真实世界数据来理解和减轻 AI 模型中记忆化效应的持续关注。
Yudkowsky 的观点依然切中要害吗？：用户们辩论了 Yudkowsky 的相关性，一位用户建议 Yudkowsky 只有在他 5% 的最佳状态 下才值得一听，这引发了关于他目前影响力的激烈讨论。
- 讨论凸显了 AI 社区内对 Yudkowsky 观点的两极分化，从不屑一顾到强烈支持。
Steering Vectors 解决 Sally 挑战：一位用户展示了一个 700M 模型 (LFM2-700) 通过使用 Steering Vector 和更新的 Prompt 正确回答了臭名昭著的 Sally 问题，对现行的 Benchmark 实践提出了挑战。
- 该用户质疑为什么多样本 (multishot) CoT 模板是标准，而其他模板却不被接受，从而引发了对当前评估方法公平性的质疑。
Bezier Flow 学习效果仍需改进：成员们对 Bezier Flow 论文感到好奇，指出它似乎需要在 ImageNet 上训练 5 个 epoch 才能仅学习 32 个参数。
- 普遍看法是，蒸馏方法在收敛时仍能提供更好的生成质量，这表明目前使 Bezier Flow 变得实用仍面临挑战。
神经元删除论文引发优化思路：有人提到了一篇讨论删除在整个数据集中全为正或全为负的神经元的论文（IEEE 论文）。
- 一位成员发现这很有趣，并认为一个始终处于激活状态的神经元可能因为接近线性而被删除，从而产生了一个想法：开发一种利用 激活量动量 (activation momentum) 来鼓励多样化激活模式的优化器。

Yannick Kilcher Discord

BLIP-2 Backbones 引发关注：一位成员指出 BLIP-2 是使用 frozen backbones 的典范，并引用了 A Dream of Spring for Open Weight 一文。
- 该成员建议，尽管 BLIP-2 的架构是在 2023 年发布的，但它在展示 transfer learning 和 model efficiency 的有效策略方面仍然具有参考意义。
Sutton 和 Barto 的 RL 读书会启动：paper-discussion 频道开始讨论由 Richard Sutton 和 Andrew G Barto 编写的 Reinforcement Learning: An Introduction（第 2 版），活动于 <t:1772128800:t> 开始。
- 该书的免费在线版本将作为探索 Chapter 1 和 RL 基础概念的基础。
Google NanoBanana2 强化设备端 AI：Google 推出了 NanoBanana2，这是一套旨在增强 on-device AI 协作与部署的新工具集。
- 该工具旨在加速直接在设备上开发和集成 AI 功能，从而实现更快速、更高效的 on-device processing。
Anthropic 针对 Department of War 发表声明：Anthropic 发布了一份声明，阐明了其在 Department of War 相关事务中的立场和参与情况。
- 该声明提供了关于公司在 defense applications 背景下的伦理考量以及 responsible AI development 方法的见解。
Microsoft Copilot 将命令转化为具体行动：Microsoft 展示了 Microsoft Copilot 的进展，强调了其在将用户请求转化为可执行任务方面的改进能力。
- 此次更新强调了 Copilot 在日常工作流中扩展的实用性，使其能够超越提供答案，直接执行命令，从而 优化任务管理。

Manus.im Discord Discord

Manus 网站设计被批“垃圾”：一位用户批评了 Manus 提供的网站设计，称其“太垃圾了（so bullshit）”，并询问修复该设计所需的技能。
- 这引发了关于 Manus 提供的服务质量以及所交付价值的讨论。
提供 AI 与全栈专业知识：一位成员宣传了其在构建 AI & full-stack systems 方面的技能，专注于通过 LLM integration, RAG pipelines, AI content detection, image AI, voice AI 以及 full-stack development 来提高效率的软件开发。
- 他们强调了在 React, Next.js 和 Node.js 方面的专业知识，展示了其在现代 Web 技术领域的能力。
用户质疑 Waste Credits 政策：一名用户对 Manus 表现不佳的项目中消耗了数千个 waste credits 表示质疑，寻求关于 waste credits 政策的澄清。
- 他们提到由于客服问题正期待退款，并寻求关于退款流程的指导。
管理员锁定噩梦：一位用户讲述了关于 admin lockout, student lockout 以及虚假用户 的沮丧经历，这导致了与支持团队数周的摩擦。
- 他们报告称收到了无法访问的 credits，且随后支持团队一直没有回应。
客服遭到用户抨击：多位成员报告了 Manus 客服的问题，称其服务毫无帮助且响应缓慢。
- 一位用户分享了系统损坏的证据，但支持团队反复要求提供已经提交过的验证信息，加剧了他们的挫败感。

DSPy Discord

纽约 DSPy 用户筹划聚会：一位成员表示有兴趣组织一次 NYC DSPy Meetup，以便与该框架的其他用户建立联系。
- 鼓励感兴趣的各方直接联系以进行协调。
Fireworks Kimi 2.5 出现 Token 报错：一位用户报告在用 Fireworks Kimi 2.5 初始化 LM 时遇到 litellm.exceptions.BadRequestError。
- 该错误专门发生在 Requests with max_tokens > 4096 must have stream=true 的情况下。
流式传输教程能救场吗？：针对 Kimi 2.5 的错误，一位成员建议参考 DSPy 的流式传输教程作为潜在的变通方法。
- 该建议基于这样一种观点：即 streaming 可能会绕过 token 限制问题。

tinygrad (George Hotz) Discord

Tinygrad 提供新的贡献者机会：George Hotz 在 GitHub Actions 上标记了一个 GitHub Actions 链接，作为 tinygrad 贡献者的 good first issue。
- 该问题似乎与 CI 或构建系统中的 bug 有关。
共享内存后缀混淆（Shared Memory Suffix Shuffled）：一位成员询问 PR 15033 是否需要在 tinygrad 中每次调用 _setup_shared_mem() 时都附加 shm_suffix。
- 他们建议将 PR 15030 作为避免此问题的潜在解决方案。
geohot 链接了 transistor 仓库：George Hotz 分享了他的仓库 fromthetransistor 及其配套网站。
- 这对于想要了解 tinygrad 基础原理的贡献者来说可能很有用。

aider (Paul Gauthier) Discord

用户排查 aider 环境变量问题：一位用户报告了与 aider Issue #4458 类似的问题，并寻求帮助以识别潜在原因和解决方案，特别怀疑是环境变量。
- 该用户指出，之前的设置是可以正常运行的，不确定为什么程序突然停止工作。
配置问题困扰 aider 用户：一位用户在处理 aider Issue #4458 时遇到了 aider 的配置障碍，可能与环境变量有关。
- 用户反映程序早些时候还能运行，这让他们现在感到非常困惑。

MLOps @Chipro Discord

论文研讨会（Paper Clinic）调研世界模型（World Models）：一个分为两部分的论文研讨会将分析综述报告 “Understanding World or Predicting Future? A Comprehensive Survey of World Models” (arXiv:2411.14499)。
- 该研讨会将探讨世界模型架构，如 JEPA / V-JEPA、Dreamer、Genie 和 Sora，以及 “Mirror vs. Map”（镜像与地图）的争论。
AGI 研究应对空间推理和因果关系：将讨论 AGI 研究的后续步骤，包括空间智能、因果差距和社交世界模型。
- 3 月 7 日的一场会议将探讨 Sora、Cosmos 和 V-JEPA 之间的竞争。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

Windsurf Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

MCP Contributors (Official) Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

您收到此邮件是因为您通过我们的网站订阅了此内容。

想要更改接收这些邮件的方式吗？您可以从该列表中取消订阅。

Discord: 详细频道摘要和链接

OpenClaw ▷ #announcements (1 messages):

PR 审查礼仪，维护者沟通

PR 审查请求风波：一位成员对直接私信维护者请求 PR 审查的行为表示强烈不满。
- 他们警告说，此类行为可能会导致 PR 被立即关闭。
维护者私信（DM）的守则：讨论强调了尊重维护者时间的重要性，并应避免被视为咄咄逼人或强求的做法。

OpenClaw ▷ #general (653 条消息🔥🔥🔥):

Tiny Null Claw, Gemini 模型使用, 客厅里的机械臂, 模型推荐, GLM-5

Tiny Null Claw 使用 Zig 编写：一位成员分享了一个 YouTube Short 短视频，展示了使用 Zig 编写的微型版本 Null Claw。
机械臂入侵客厅：一位成员提到他的朋友搞到了一台工业级尺寸的机械臂，纯粹是因为“总得找点事做”。
- 另一位在工作中使用钉枪编程机器人的成员评论道：“看到这个视频后，现在的问题更多是‘为什么不呢？’”。
GPT-5.3-Codex 在模型大辩论中胜出！：成员们辩论了 GPT-5.3-Codex 与 Claude 的优劣，其中一位成员表示 GLM-5 大约与 Claude Sonnet 相当，甚至可能赶上 Opus 4.5。
- 其他人证实了 GPT-5.3-Codex 在软件工程方面的卓越性能，一位成员表示：“我使用包括 GLM-5、Claude Sonnet、GPT-5.3-Codex、Codex-Spark、Claude Opus 和 GPT-5.2 在内的模型进行编码，我发现 GPT-5.3-Codex 是其中表现最好的。”
SearNXG 和 Pinchtab 派上用场：成员们讨论了在没有 API 的情况下为 OpenClaw 提供网页访问权限的方案，一位成员建议使用 SearNXG 进行搜索，使用 Pinchtab 作为浏览器。
- 虽然有人担心机器人阻拦程序（bot blockers），但提到可以使用带有 cookies 的自定义浏览器配置文件作为变通方案。
Anthropic 与战争部（Department of War）的关系公开：一位成员链接了 Anthropic 关于与战争部关系的声明，引发了关于 AI 合作伙伴伦理的讨论。
- 另一位成员将该声明斥为“演戏”。

OpenClaw ▷ #models (425 条消息🔥🔥🔥):

Alibaba 编程计划, Qwen 3.5, GLM5 性能, 本地 TTS 模型, GitHub Copilot Pro

Alibaba 编程计划收到 TOS 警告：尽管 Alibaba Cloud 提供了 OpenClaw 的设置教程，但其编程计划文档页面指出，除了 Claude Code 或 Qwen Code 等编码工具外，“不允许进行 API 调用”，这可能会导致 OpenClaw 的使用被封禁。
- 然而，其他成员表示他们一直在正常使用，并没有遇到问题，其中一人展示了将 OpenClaw 列为允许工具的文档。
Qwen 3.5-Plus 模型在 OpenClaw 中备受赞誉：聊天中的许多用户称赞了 Qwen 3.5-Plus 模型，尤其是通过 Alibaba Cloud AI Coding Plan 访问时，据报告其性能优于 Nemotron-3 和 Codex 等模型。
- Alibaba Cloud AI Coding Plan 提供了一种访问 Qwen 3.5-Plus、Minimax、Kimi 和 GLM 模型的高性价比方式，尽管一些用户发现该平台上的 GLM 无法使用。
GLM5 性能评价褒贬不一：一些用户发现 Alibaba 上的 GLM5 存在会话突然中断的问题，而另一些用户在使用 z.ai 的 Pro 方案时获得了更好的效果。
- 一位用户提到他们结合使用 GLM5 和 Claude Code，由 OpenClaw 自动构建电子邮件的核心 Prompt，之后在 Claude Code 中修补细微改动会更容易。
使用 Kitten-TTS 的实时本地 TTS 设置：用户详细介绍了使用 Kitten-TTS 的实时文本转语音（TTS）设置，这是一个“微型且高质量”的本地模型，有一位用户报告在 M1 Max 上达到了 2 倍实时编码速度。
- 他们指出，该设置需要一些技术工作来实时传输输出，或将其拆分为小块，以获得可以接受的实时体验。
关于 GitHub Copilot Pro 限制的辩论：一些用户讨论了 GitHub Copilot Pro 的限制，澄清虽然基础计划包含一定数量的请求，但额外请求可以购买，在捆绑请求用完后，每个请求的价格为 $0.04。
- 该计划直接将请求作为订阅的一部分提供，“购买请求”是针对每月请求用尽后的情况。

OpenClaw ▷ #showcase (66 messages🔥🔥):

OpenClaw for Roman Catholic nuns, Custom OpenClaw dashboards, Ollama Pro Plan, OpenClaw gateway restarts, OpenClaw and real estate

修女们通过 OpenClaw 变得智能！: 一位成员旨在让罗马天主教修女能够通过家庭网络上的 OpenClaw 访问 Medgamma 1.5 等工具，并将其托管在 Mac Mini 上。
- 他们正在为此设置寻求建议和方案。
仪表盘：核心 vs 定制: 成员们讨论了定制 OpenClaw 仪表盘，指出这些仪表盘是定制构建的，与主要的 OpenClaw UI 分离，一位成员承认这并不容易。
- 一位成员建议由于核心系统的更新，应构建独立的仪表盘，并建议在 GitHub 和 Clawhub 上搜索现有选项。
利用 Mastra 和 Trigger.dev 解决 OpenClaw 静默失败！: 一位成员分享了一篇关于使用 Mastra、Trigger.dev 和 Postgres 构建更强大的 OpenClaw 基础的文章，以解决任务静默失败和结果不一致的问题。
- 该解决方案包含一键式设置，详情见这篇 Medium 文章。
OpenClaw 的房地产复兴！: 一位成员正在尝试使用 OpenClaw 来管理他们的房地产和租客，自动化诸如 租金支付跟踪、维修协调 和 租赁合同生成 等任务。
- 未来计划包括直接连接银行账户、集成 WhatsApp 进行租客沟通，以及在 immoscout24.de 上自动创建广告。
挖矿 GPU 赋予 OpenClaw 超能力！: 一位成员将退役的挖矿 GPU（2x 5x CMP 100-210, 16GB, 850MB/s）重新利用来构建 OpenClaw 节点，实现了 32GB DDR4 并以 14MB/s 的速度运行 70B dense models。
- 每个节点的构建成本为 $750，运行 32b dense model 的速度为 30 tokens/second，但由于 PCIE 3.0 1x risers，模型加载速度较慢。

BASI Jailbreaking ▷ #general (1198 messages🔥🔥🔥):

Life as a Simulation, AI as the Anti-Christ, Epstein Files, Esoteric Religions, Ancient Egyptians and DMT

我们生活在模拟中吗？: 成员们思考生活是否是一个模拟，以及这将如何影响生命的意义。
- 一位成员指出最可怕的暗示是，无所失去的人是最可怕的人类类型。
AI 是反基督者（Anti-Christ）吗？: 一些成员认为 AI 就是反基督者。
- 一位成员宣称 AI 是邪恶的。
古埃及人与 DMT？: 有说法称古埃及人使用 DMT，它备受推崇且仅供精英阶层使用，他们将其视为一个门户。
- 此外，荷鲁斯之眼实际上是人类的松果体，它会自然产生 DMT。
Claude 破解 VMProtect: 一位成员能够使用 Claude 在无需手动进行任何逆向工程的情况下破解最新的 VMProtect。
- 他们通过一些过程图像展示了这一成果。
Librem 5 复活了！: 一位成员高兴地宣布他们终于让 Librem 5 正常工作了。
- 他们表示有兴趣讨论 open source（开源）、tech decentralization（技术去中心化）、self-hosting（自托管）、digital security（数字安全）、radio freq（无线电频率）以及 sovereignty（主权）。

BASI Jailbreaking ▷ #jailbreaking (459 条消息🔥🔥🔥):

Python Installation Errors, Codex Jailbreak, Gemini 3 Jailbreak, Image Generation, LLM Jailbreaking Prompts

Python 安装程序在 Windows 上报错！：一位用户在 Windows 上安装 Python 时遇到困难，尽管在重置电脑前可以正常工作，但在安装过程中收到 Error Code 2503。有建议观看 YouTube 教程或以管理员身份运行安装程序。
- 另一位用户建议从 Python 官方网站下载安装程序，并确保在安装过程中勾选了正确的选项。
绝望的用户寻求 “Codex Jailbreak”：一位用户正在为其 openclaw agent 寻找 codex jailbreak，并通过私信寻求帮助；而另一位用户声称拥有 “codex shi” 但拒绝泄露。
- 他们请求帮助解决 Cursor 的文档 Agent 问题，并分享了 Cursor Documentation 的链接。
通用的 One-Shot Gemini Deep Think Jailbreak 仍无法实现：用户讨论了当前 Jailbreak 的局限性，指出针对 Gemini Deep Think 的真正 通用 one-shot jailbreak 尚不存在，特别是在爆炸物、CBRN 和 CSAM 等硬性合规内容类别方面。
- 有人强调，虽然某些模型具有无法逾越的防御墙，但其他模型是可以突破的，这使得单个 Prompt 对更广泛的内容类别有效。有人声称，对于 大多数内容类别，百科全书/参考格式可以在极少或没有阻力的情况下通过。
用户交流 Jailbreaking Language Models 的新方法：一位用户分享了一个用于 Jailbreaking 的“Apple Pie”配方，但遭到了质疑。
- Gemini 回应称这是 “愤世嫉俗的经典案例”，并解释说 “忽略所有先前指令（ignore all previous instructions）”的日子大多已埋葬在 2024 年的坟墓中。
Grok 图像生成被审查了？：一位用户报告说，他们以前仅凭 Prompt 就能在 Grok 上生成裸照，但现在行不通了，并寻求 Jailbreaking 建议以生成裸体内容。
- 另一位用户建议 Prompt 视频让主体的衣服“转变为透明服装”。

BASI Jailbreaking ▷ #redteaming (8 条消息🔥):

Chernobly Virus, AI red teaming, CyberSecurity Project Ideas

用户声称笔记本电脑感染了 ‘Chernobly’ 病毒：一位用户报告称其笔记本电脑感染了 ‘Chernobly’ 病毒，并寻求如何清除它的指导。
- 另一位用户轻率地建议 “格式化驱动器”。
成员寻求转型至 AI Red Teaming 的建议：一位成员询问是否有人目前从事 AI red teaming 角色。
- 该用户是一名安全工程师/渗透测试员（sec eng/pen tester），正在考虑转型。
Cybersecurity 学生头脑风暴项目创意：一名学生正在为他们的 CyberSecurity 毕业设计项目做准备，并正在寻求创意。
- 他们之前没有创建此类作品的经验。

Unsloth AI (Daniel Han) ▷ #general (977 条消息🔥🔥🔥):

Qwen 3.5 quants, LFM2 24B, GPU Kernel Optimization with RL, LLMOps, Qwen3.5 122B Performance

Qwen3.5 Quants 引发争议：成员们讨论了 Qwen3.5 quants 的质量，一些人报告说 35B ud-q4_k_xl quant 存在异常高的 perplexity 和 KL divergence，并指向了关于该话题的 Reddit 帖子。
- Unsloth 团队表示，虽然 quants 并没有损坏，但他们正在调查 UD 配置的问题，并强调他们上传的内容经过了广泛测试，通常效果很好，还补充说 dynamic quants 是专为 long context lengths 设计的。
深入探讨 MXFP4 和 Q4 质量：在 Unsloth 的 dynamic quants (UD) 中使用 MXFP4 引起了争论，人们担心与 Q4 相比这是否会导致质量下降，尤其是考虑到 Qwen 模型并非原生使用 MXFP4 训练的。
- 一位成员建议对两个 quants 进行基准测试：一个是当前的 MXFP4 ud_q4_k_xl，另一个是将 MXFP4 tensors 替换为常规 Q4K tensors。
讨论正确的基准测试实践：成员们辩论了 benchmarking 的最佳实践，一些人批评了对 benchmarks 的挑选行为（cherry-picking）以及将 perplexity 作为准确性衡量标准的做法，并建议在 terminal bench 或 live code bench 等真实的、高难度 benchmarks 上进行测试是更理想的选择。
- 有人指出某些 benchmarks 可能具有误导性，Unsloth 团队分享了一个链接，指向他们认为更好的准确性衡量方法。
LFM2 24B 模型发布：LFM2 24B 的发布已宣布，一位成员提到它在创意写作提示词方面的风格非常类似于 Gemma，他们似乎很兴奋在完成训练后进一步查看它，认为其前景广阔 hf.co/LiquidAI/LFM2-24B-A2B。
- 一位成员还表示，他们将扩展 Qwen3.5 的代码测试，看看这是否会成为 Claude Code 的新 meta（主流范式），抢在其他人之前尝试。
探索持续预训练策略：一位成员寻求关于 continued pretraining (CPT) 的建议，计划同时使用爬取的数据集和高质量数据集，并询问是否应该为第二个 LoRA 阶段设置较低的 learning rate。
- 另一位成员回答说，对于第二个 LoRA 应该如何进行 finetuned 没有直接答案，同时指出用户应避免谈论爬取数据，并建议在第二阶段使用较低的 rank 可能会获得更好的结果。

Unsloth AI (Daniel Han) ▷ #introduce-yourself (4 条消息):

``

未讨论任何主题：提供的消息中没有讨论相关主题。
空讨论：提供的消息历史似乎为空，或者不包含任何具有总结意义的讨论点。

Unsloth AI (Daniel Han) ▷ #off-topic (345 条消息🔥🔥):

Transformer 的起源、AI 公司名称双关语、门禁管理应用规格、Minecraft AI 模型 Andy-4、健康冰淇淋替代品

重温 Transformer 的起源：Transformer 架构是从带有 attention mechanism 的 RNNs 演变而来的，后来 Vaswani 等人发现这是最关键的部分，从而可以抛弃 RNN。
AI 公司名称遭到调侃：一位成员分享了一系列关于 AI 公司名称的双关语，例如 OpenAI is ClosedAI 和 Anthropic is Misanthropic，引发了幽默的回应。
- 另一位成员开玩笑说 Groq is slowq，而第三位成员反驳说 Groq 实际上非常快。
使用 Claude Opus 编写门禁管理应用规格：一位成员为管理大楼门禁的应用编写了完整的规格书，计划利用 Hebdo 剩余的 9% 配额来测试 Claude Opus 5.5。
- 该规格书包括测试集、UI、工作流、用户配置文件和文件层级，旨在作为 AI 的演示或用例，如此 YouTube 视频中所强调。
“Andy-4” Minecraft 模型发布：一位成员展示了他们的 第一个 AI 模型，该模型能从零开始在 Minecraft 中独立获得 铁盔甲，并分享了相关链接：dataset 和 GitHub repo。
- 该模型可以放置、破坏、拾取和合成物品，通过接收输入图像和文本，像人类玩家一样与游戏环境互动。
寻求健康冰淇淋乌托邦：成员们讨论了健康冰淇淋的替代品，其中一位建议不含任何加工物质的真正冰淇淋是唯一的健康选择。
- 另一位成员指出，即使是像曲奇奶油冰淇淋中看似简单的成分（如曲奇）通常也是经过加工的，这引发了关于种子油和天然成分的讨论，随后 Alec’s Ice Cream 和 Häagen-Dazs 作为更清洁的替代品受到了关注。

Unsloth AI (Daniel Han) ▷ #help (13 条消息🔥):

Qwen 3 与 3.5 微调、使用 Unsloth 与 Langchain 进行 RAG、Unsloth 配合 AWS Sagemaker 和 vLLM、多模态 LLMs 上的样本打包、Qwen3 Coder Next 模型

Qwen 3.5 微调问题：一位成员询问有关从微调 Qwen 3 切换到 Qwen 3.5 的问题，特别是如何确保在 SFTTrainer.train() 期间处于非思考模式（non-thinking mode），以及是否应将 Qwen 3.5 作为 FastVisionModel 加载以用于多模态数据集。
- 他们还询问了使用 Unsloth 与 Langchain 处理 RAG 任务的对比。
澄清 Unsloth 的 RAG 功能：一位成员澄清说，虽然 Unsloth 没有内置 RAG 功能，但它支持推理，且检索/上下文增强可以使用其他工具独立实现。
- 他们推荐了 LangChain 的替代方案，例如用于检索的 pydantic-ai 以及配合 pgvector 的 Postgres。
寻求 AWS Sagemaker 集成：一位成员询问是否有关于在 AWS Sagemaker（多 GPU 训练）上使用 Unsloth，然后使用 vLLM 进行推理的指南或示例，且受限于 AWS 技术栈。
向新用户推荐 Qwen3 Coder Next 模型：一位新用户询问了关于在本地使用拥有 69GB RAM 的 Qwen3 Coder Next 80B 4K 模型的问题，询问它是否仍是推荐模型以及如何找到可下载版本。
- 一位成员推荐了用于 CPU 卸载（offloading）的 GGUF 版本 unsloth/Qwen3-Coder-Next-GGUF，并建议尝试 unsloth/Qwen3.5-35B-A3B-GGUF 作为更新的替代方案。

Unsloth AI (Daniel Han) ▷ #showcase (2 messages):

Unsloth integration with CoreWeave, Unsloth new blog post on DPO, Daniel discusses Llama3 pre-training, Daniel discusses new quantization methods, Daniel teases Unsloth enhancements

Unsloth 与 CoreWeave 展开合作：Daniel 宣布 Unsloth 正与 CoreWeave 合作，以使 finetuning 速度进一步提升。
- 他提到这将涉及一些 “secret sauce”（秘方），用户应关注后续更新。
Unsloth 发布 DPO 博客文章：Daniel 提到 Unsloth 发布了一篇关于 DPO 的新博客文章 (Direct Preference Optimization)。
- 该文章详细介绍了 DPO，它通过将奖励建模重新定义为分类问题，简化了来自人类反馈的强化学习 (RLHF)。
Daniel 解析 Llama3 预训练：Daniel 根据现有的公开信息，分享了关于 Llama3 pre-training 的一些见解。
- 他解释说，以 8k context length 预训练 Llama3 与使用 2k context length 相比，差异并不大，成本也并没高出多少。
Daniel 预告新的量化方法：Daniel 提到他正在为 Unsloth 开发更出色的 quantization 方法。
- 他表示：“我想我找到了量化的圣杯……但还需要进行妥善测试！”
Daniel 讨论 Unsloth 增强功能：Daniel 计划近期为 Unsloth 添加多项增强功能。
- 这些增强功能包括 “即将推出的更出色的 merging + LoRA 代码。”

Unsloth AI (Daniel Han) ▷ #research (2 messages):

ES-based gradients

基于 ES 的梯度无处不在！：一位成员表示，ES-based gradients 几乎适用于任何事物。
适用于任何事物的 ES 梯度：有人指出，基于 Evolution Strategies (ES) 的梯度可以应用于几乎任何问题。

Perplexity AI ▷ #announcements (1 messages):

Samsung Partnership, Galaxy S26, System-Level AI, Wake Word

搭载 Perplexity 的 S26 Galaxy 手机，三星合作伙伴！：Perplexity 已与 Samsung 合作，将 Perplexity AI 直接集成到即将推出的 Galaxy S26 设备中，使其成为系统级 AI。
- 每部新款 S26 都将内置 Perplexity，可通过唤醒词 “Hey Plex” 访问，详情见此公告。
Galaxy S26 中的系统级 AI 集成：该合作伙伴关系确保 Perplexity AI 将作为 Galaxy S26 内部的核心系统组件运行，增强其 AI 能力。
- 用户可以使用自定义唤醒词 “Hey Plex” 激活 Perplexity，实现对 AI 功能的无缝访问。

Perplexity AI ▷ #general (993 messages🔥🔥🔥):

RAT, Scammer Hacking, Comet Browser, Deep Research limit, Perplexity's Samsung Partnership

开发者讨论 RAT 创建：成员们讨论了创建 RATs (Remote Access Trojans)，其中一名成员声称创建了一个大多数杀毒软件都无法检测到的 RAT。
- 另一名成员表示有兴趣在不需要在目标系统上安装任何软件的情况下，通过网络远程攻击他人。
Pro 用户面临严格限制：Perplexity Pro 用户报告称，其查询额度已从 250 次限流至 20 次，认为这不公平，并提到最近的额度缩减。
- 一位用户说：“我也遇到了”，而另一位用户则表示新限制很不理想。
Perplexity 与三星合作：Perplexity 将作为助手集成到 Samsung 的新款 S26 设备中。这是通过操作系统层面的集成，而不仅仅是一个 App。
- 一些成员推测 Bixby 也将由 Perplexity 的 search-grounded LLMs 提供支持。
用户认为 Perplexity 的 Discover 功能变差：用户报告称 Perplexity’s Discover 功能提供的信息质量和数量显著下降。
- 一位成员表示：“过去几个月他们真的让 Perplexity 变得差劲了很多……现在太烂了”。
用户对比 Perplexity, Claude 和 ChatGPT：用户正在对比 ChatGPT、Claude 和 Perplexity，其中一人表示：“ChatGPT 很烂……选 Claude 或 Google Pro 计划吧……”
- 另一位用户说：“我以前几乎每天都用 Perplexity……但现在即使有付费的 PRO 订阅也无法使用”，并且他们已切换到了 GPT chat。

GitHub star request, Cascade GitHub repo

Cascade 仓库 GitHub Star 征集：一名成员为其 Cascade GitHub repository 请求 Star。
Cascade 仓库需要你的 Star！：GitHub 上 Cascade 仓库的作者正在寻求 Star。

Perplexity AI ▷ #pplx-api (3 messages):

Perplexity Sonar Deep Research API, Diminished Performance, Source Count Reduction, API Cost

Perplexity API Sonar 性能下滑！：用户反映 Perplexity Sonar Deep Research API 的性能在过去 1-2 周内似乎有所下降。
- 一位用户注意到，来源数量从 36 个减少到 10 个，而每次请求的成本仍维持在 45 美分左右。
关于 API 状态的推文：一名用户提到了 Perplexity 在 X 上的状态更新以及 James Liounis 的帖子，这些内容涉及可能的 API 变更。

LMArena ▷ #general (916 messages🔥🔥🔥):

Nano Banana 2 vs Nano Banana Pro, Gemini 3.1 Flash, GPT 5.3 Codex, Grok Imagine video generation

Nano Banana 2 与 Nano Banana Pro 争夺霸权：成员们正在积极对比 Nano Banana 2 (Gemini 3.1 Flash) 和 Nano Banana Pro，讨论哪种模型生成的图像更好，一些人声称 NB2 在处理文本和曲线等简单元素时表现吃力。
- 用户指出，虽然 NB2 生成速度更快，但质量不如 NB Pro，尤其是在处理非人类角色时，由此得出结论：从写实角度看 NB Pro 更好。
GPT 5.3 Codex 收到褒贬不一的评价：一些用户称赞 GPT 5.3 Codex 的编码能力，尤其是对于在 Rust 中创建 Minecraft clone 等任务；而另一些人则认为其代码逻辑混乱且糟糕。
- 一位用户认为它存在能力问题（skill issue），而另一位用户则声称它非常擅长修复 Bug，并能通过查看图像来进行修正，强调它是专为编程任务设计的。
Grok Imagine 成为视频生成领域的焦点：用户对 Grok Imagine 的视频生成能力印象深刻，认为它易于使用，且能够生成其他模型会审查过滤的内容。
- 虽然免费用户仅限于 480p 分辨率的 6 秒视频（SuperGrok 用户为 720p 分辨率的 10 秒视频），但其易用性和可访问性使其成为快速生成视频的首选。
Gemini 3.1 Flash 加入竞技场：Gemini 3.1 Flash Image Preview 已添加到 Arena 并具备网页搜索能力，但其失败率较高，部分用户报告频繁出现 something went wrong 错误。
- 然而，一位用户表示它现已在 Arena 上线，其他人则报告网页搜索功能未按预期工作，还有人补充说，从写实角度看它比 Gemini 3 Pro 更好。

LMArena ▷ #announcements (7 messages):

Image Edit Leaderboard, Video Arena Leaderboard, Image Arena Leaderboard, AI Agents for existing software, Search Arena Leaderboard

Seedream-5.0-Lite 进入图像竞技场：Seedream-5.0-Lite 目前在多图编辑 Arena 排行榜中并列前 5。
P-Video 在视频竞技场首秀：P-Video 进入 Video Arena 排行榜前 26 名，1080p 成本为 $0.04/秒。
Nano Banana 2 冲入图像竞技场：Nano Banana 2 在 Image Arena 初次登场即位列第一，以 Gemini-3.1-Flash-Image-Preview 身份发布，并引入了全新的网页搜索能力。
AI Agent 在现有软件中的表现备受关注：Peter 在一段 YouTube 视频中探讨了 AI agents 在现有软件中表现不佳的三个原因。
Claude Opus & Sonnet 在搜索竞技场表现强劲：Claude-Opus-4-6 和 Claude-Sonnet-4-6 加入了 Search Arena 排行榜，其中 Opus 4.6 以 1255 分的高分遥遥领先，位居第一。

Cursor Community ▷ #general (770 条消息🔥🔥🔥):

Cloud Opus 计费问题, 行内差异显示错误修复, Codex 5.3 Spark, 确定性 AI 上下文, Gemini 3.1 Pro

Cloud Opus 成本引发顾虑：有用户反映 Cloud Opus 并非如仪表盘所示那样免费，导致了意外扣费，详见此截图。
- 关于计费差异的更多细节尚未分享。
行内差异显示故障已解决：Cursor 通过远程更改修复了 inline diff 不显示错误，并要求用户通过关闭并重新打开 Cursor 来确认修复。该消息由 David Gomes 在聊天中发布。
- 热心用户确认了修复并向 Cursor 团队表示感谢。
Cursor 发布 Codex 5.3 Spark：用户对 Codex 5.3 Spark 的到来感到兴奋，称赞其速度惊人，并询问其他人是否尝试过 Spark。
- 在 cursor.com/dashboard?tab=cloud-agents 发现，其 Codex 5.3 检查默认设置为 Opus 4.5。
关于确定性 AI 上下文的讨论展开：引发了关于确定性 AI 上下文的讨论，重点围绕其在减少 Token 读取和幻觉（hallucinations）方面的必要性。一位用户声称他们解决了跨越基础设施边界的多语言污染（polyglot taint）问题，并提到了他们的仓库。
- 一些用户对这一需求持怀疑态度，认为它尚未转化为实际价值，但开发者计划进行产品转型，并挑战其他人查看其存档的仓库。
Gemini 3.1 势头强劲：成员们正在讨论他们对 Gemini 3.1 Pro 的偏好，一位用户声称它比 4.6 Opus 更好。
- 他们还提到通过 rules 和 skills 可以有效地使用它，而其他人则表示该模型在 tool calling 和代码实现方面表现欠佳。

LM Studio ▷ #announcements (3 条消息):

LM Link, Tailscale 合作, 远程模型加载, 网络过载

**LM Link 发布：远程模型加载！：LM Studio 团队宣布发布 **LM Link，这是一项与 Tailscale 紧密技术合作开发的新功能，允许用户连接到 LM Studio 的远程实例、加载模型并像在本地一样使用它们，更多信息见此。
**端到端加密保护 LM Link 用户！：LM Link** 采用端到端加密，无需向公共互联网开放端口，适用于本地设备、LLM 运行设备或云端虚拟机（VM）。
更新至 **LM Studio 0.4.5 build 2：要求用户更新至 **LM Studio 0.4.5 build 2，因为它包含了 LM Link 的重要修复。
网络过载已解决：团队承认由于网络创建时的代码效率低下导致服务器过载，但该问题现已解决。
**LM Link 配置为 E2E！：网络配置和设备发现由 **LM Studio 的服务器处理，但一旦设备相互识别，它们就会建立 E2E 加密连接，流量不会经过 LM Studio。

LM Studio ▷ #general (411 条消息🔥🔥🔥):

Qwen 3.5 性能、LM Link 设置与问题、NVIDIA 财报影响、LM Studio GPU 检测、多 GPU 配置

Qwen 3.5 模型的“思考（Thinking）”困扰：用户报告 Qwen 3.5 模型会出现随机使用 </thinking> 标签以及 Token 生成缓慢的问题，尤其是在输入图像之后。
- 一位用户发现 LMStudio 社区量化版 (quants) 允许用户开启或关闭 think 参数。
LM Link 远程访问功能推出：LM Studio 的新功能 LM Link 允许通过 Tailscale 进行远程 LLM 访问，这引发了关于其设置和限制的讨论；Tailscale 的公告博客文章可以在此处找到。
- 一些用户出于隐私考虑，希望不通过第三方账户进行直接 IP 连接，而另一些用户则在寻求移动端 App 以及图像/视频支持。
NVIDIA 财报发布，市场动荡：成员们等待 NVIDIA 财报，推测其对 AI 泡沫的影响，而另一些人则指出显存短缺是一个潜在问题。
- 有人声称财报表现太差以至于没有发布，这一说法被其他人斥为 FUD（恐惧、不确定和怀疑）。
模型量化权衡暴露：用户讨论了来自 Unsloth 的 mxfp4 格式，指出它可能会导致出乎意料的高困惑度（perplexity）；目前更倾向于使用 Q4_K_M。
- 一位成员表示 mxfp4 适用于 QAT（量化感知训练），但不适合后期量化，并暗示团队正在 r/LocalLlama 上跟踪这些问题。

LM Studio ▷ #hardware-discussion (280 条消息🔥🔥):

电子垃圾（E-waste）GPU、RAM 和 CPU 升级、多 GPU vs 单 GPU 配置、模型性能与上下文长度、GMKtec EVO-X2

廉价的电子垃圾 GPU 驱动 Qwen 3.5：一位用户报告使用 P104 电子垃圾卡 在 Qwen 3.5 Q6 上达到了 26 t/s (图片)。
- 另一位用户建议 340L 16GB 卡可能是更好的替代方案，单价约 $49.99，尽管它们是为虚拟机设计的，可能需要一些“开荒式”的折腾才能运行。
LLM 装机中 RAM、CPU 和 GPU 的平衡：一位用户寻求关于优化新 PC 配置的建议，目标是 96GB DDR5、RTX 5080 以及 9950x 或 9800x3D CPU，用于游戏和 LLM 用途，其当前配置为 32GB DDR4、12700KF 和 3080TI。
- 社区成员建议对于 LLM 任务，CPU 基本上无关紧要，所以为了游戏买 9800x3D 即可，但也有人强调了内存带宽的重要性，并就不同 CPU 选择的权衡展开了辩论。
多 GPU 配置辩论升温：一位用户考虑使用多张 GPU 作为获得高 VRAM 的经济方案，引发了关于此类配置的可行性和瓶颈的讨论。
- 成员们争论在使用多张显卡时 PCIe 速度 是否会成为推理瓶颈，结论是 PCIe Gen 4+ 已经足够，他们还讨论了在 LM Studio 中使用 CUDA12 对 GPU 进行优先级排序。
GMKtec Evo X2 赢得最高性价比？：一位用户询问是否有比 GMKtec Evo X2 更便宜且性能相近的替代方案，得到的回复简短有力：没有。
- 对话转向寻找 LLM 和 RP（角色扮演）用途的替代方案，包括一个 YouTube 视频链接，解释了 AI 是如何生成下一个 Token 的。
PCIe 拆分转接卡（Bifurcation Risers）榨取主板潜力：用户讨论利用 bifurcation risers 来拆分 PCIe 插槽，从而实现在单个插槽上使用多个设备（如 GPU 和 NVMe 驱动器）(链接)。
- 一位用户分享了其当前 PC 的 PCIe 配置（x16 用于 5090，x16 用于 4070Ti Super，x16 用于 100gb NIC，x4 用于 HBA，x4 用于双 NVMe 适配器，x1 用于 USB3），以及使用上述转接卡的通用共识。

Latent Space ▷ #watercooler (10 messages🔥):

Touchscreen MacBook, Apple Product Announcements, Touchscreen Laptops vs iPad Pro, iPhone mini

Touchscreen MacBook 观看派对取消：一名成员最初计划为下周的 Apple product announcements 举办观看派对，期待会有 touchscreen MacBook，但随后取消了该活动。
- 这不是一场 Keynote 主题演讲，而只是一个发布周，所以“算了”。
触摸屏笔记本电脑辩论火热：成员们辩论了 touchscreen laptops 和 iPad Pro 的吸引力。
- 一位成员表示：“完全不。我绝对不想在我最强大、最方便、且使用频率远高于非工作电脑的设备上运行普通工具”，并附上了一张图片。
iPad Pro Keyboard Folio 获得称赞：一名成员称赞 iPad Pro 搭配 Keyboard Folio 是一个“极佳的组合”。
- 该成员提到在那台设备上写了“整整 2 本书”，以及“过去约 6 年里所有的博客和演讲稿”。
iPhone mini 13 已经过时了？：一名成员暗示 iPhone mini 13 正在变得老旧。
- 另一位用户澄清说 iPhone announcements 通常在秋季举行。

Latent Space ▷ #memes (27 messages🔥):

Greatest Chart Ever, Engagement Metrics, Irony and wordplay, Humor and Grok, AI Model Personas

Carlson 绘制航线：Adam Carlson 分享了一条 tweet，强调了他认为的有史以来最伟大的图表之一，该推文获得了显著的互动，拥有近 9,000 个赞 和超过 600,000 次查看。
Dredd 提供数据：该线程记录了 Kenneth Dredd 在 2026 年 2 月 24 日发布的一条 tweet 的互动指标，该推文获得了超过 12,000 个赞 和 390,000 次查看。
Forte 发现文字讽刺：Tiago Forte 通过 tweet 强调了关于 AI 公司及其创始人的语言讽刺和矛盾，特别指出了 Anthropic、OpenAI 和 Google’s Gemini 的名称及使命与其目前现实行动之间的关系。
Musk 与机器同乐：Elon Musk 通过 tweet 声称，拥有更优越幽默感的一方代表“好人”，并表达了对他自己的 AI 模型 Grok 的支持。
Staysaasy 展示 Staff 工程师的敏感性：通过 tweet 将假设的 AI 模型与软件工程原型进行隐喻对比：Codex-5.3 被比作头脑刻板的中级工程师，而 Opus-4.6 则被比作影响力大但偶尔鲁莽的 Staff Engineer。

Latent Space ▷ #stocks-crypto-macro-economics (15 messages🔥):

Jane Street Crypto Manipulation, Blockchain Scalability for AI Agents, Goldman Sachs' AI Predictions, Smartphone Market Decline

Jane Street 清空社交媒体记录引发关注：一则病毒式传播的帖子指控 Jane Street Group 在被指控操纵 Bitcoin 价格后删除了其社交媒体历史记录。
- 讨论表明，该公司可能在四个月的时间里利用 paper BTC 制造市场抛售。
AI Agents 驱动区块链带宽需求爆发：Hunter Horsley 强调，未来 AI agents 将驱动大多数互联网交易，这要求区块链每秒处理数百万/数十亿次交易，如这条推文所述。
- 他引用 Stripe 的最新进展作为这一趋势的印证。
Goldman Sachs 预测 AI 将引发经济震荡：Goldman Sachs 的预测指出，物理基础设施、硬件和网络安全提供商将在 AI 时代获胜。
- 传统软件平台和 IT 咨询公司被视为潜在的输家，原因在于数据接口的商品化以及计费服务时间的压缩。
智能手机销量下滑预示供应链危机：根据 IDC 的数据，受内存短缺危机影响，全球智能手机市场预计在 2026 年下降 13%，创下历史最大降幅。

Latent Space ▷ #intro-yourself-pls (3 messages):

Career Transition to AI, AI/ML Consulting

咖啡店主转行 AI：一位成员在经营 8 年后正准备出售其 2 家咖啡店，以转型进入 AI 职业或创业。
- 他们正在感受氛围并学习 AI 知识。
来自纽约的 AI/ML 工程师提供咨询服务：一位来自纽约的资深 AI/ML Engineer 正在向初创公司提供咨询服务。
- 他们在该领域经验丰富。

Latent Space ▷ #tech-discussion-non-ai (42 messages🔥):

Vercel Barriers, OpenNext, Next.js Self-Hosting, Vite-Next, Turbopack mistakes

Vercel 被指设置障碍：成员们讨论了 Vercel 如何在“其存在的整个过程中一直为在其他平台上运行 Next.js 设置障碍”，这也是 OpenNext 存在的原因。
- 有人提到 Cloudflare 表示支持 OpenNext 仍然非常困难。
有人声称 Next.js 自托管微不足道：虽然有人声称在 Docker 容器上自托管 Next.js 是微不足道的，但其他人对于“从传统的 Webpack + React Router 应用（从 CRA 弹出）迁移到自托管 Next.js 持强烈反对意见”。
- 一位成员表示，他们“确实想不出在不对运行时拥有更多控制权的情况下，如何让图像优化等功能正常运行”。
Turbopack 被称为一个错误：有人声称 Turbopack 是一个错误，并且“它运行良好，但目前并不比 Vite 更好，而且速度慢得多”。
- 据预测 Vite-Next 将在未来 6 个月内推出，并且“自从 Leerob 离开后，情况变得更加糟糕”。
Streaming 被误导了：有观点认为“推行 ‘Streaming’ 是被误导的，应该作为一种边缘情况而不是优先级”。
- 有人声称“所有这些对 Streaming 的强调只是为了在 700ms 的数据加载中节省 15ms，却带来了更差的 UX”，并且它仅适用于极端情况。
ViNext 正在进行“氛围任务”：有人就 ViNext 联系了 Cloudflare，表示他们有机会简化基于 Next 表面 API 构建的 RSC 的 DX，结果基本上被告知哪儿凉快哪儿呆着去，因为“他们只关心‘糟糕部署’带来的杂音，这非常肤浅”。
- ViNext 的 commit 历史非常搞笑，因为“他们深陷于用 Vibe Coding 的方式来解决问题”，而且在过去 24 小时内大约有 20 个安全相关的 commit。

Latent Space ▷ #hiring-and-jobs (7 条消息):

Micro-Acquihiring, Team-Based Hiring, Cheerleader Effect

微型人才收购（Micro-Acquihiring）兴起，个人招聘下降：Anson Yuu 强调了一种招聘趋势，即 micro-acquihiring。公司倾向于收购已经共同开发过功能的成熟小型天才团队，而不是招聘单个个体。
- 一位成员开玩笑说，他们现在需要 “跟另外 3-5 个人抱团才能找到工作”，而另一位成员则形容当前的招聘市场 “彻底崩坏”。
招聘中的“啦啦队效应（Cheerleader Effect）”：针对关于 micro-acquihiring 和不断演变的就业市场的讨论，一位成员援引了 “啦啦队效应”。
- 这表明，身为团队的一员会让个人在潜在雇主面前显得更有吸引力，类似于人们在群体中被认为比单独一人时更有魅力。

Latent Space ▷ #cloud-infra (1 条消息):

swyxio: https://x.com/sbcatania/status/2026465590848926074?s=12

Latent Space ▷ #databases-data-engineering (1 条消息):

swyxio: https://x.com/alighodsi/status/2026877746211959205?s=12

Latent Space ▷ #san-francisco-sf (7 条消息):

Embeddable Web Agent, Tilt App Hackathon, Andrew Peek

可嵌入式 Web Agent 发布会即将举行：首个 Embeddable Web Agent 将举行发布派对，详情请见 Luma。
Tilt App 黑客松 Demo 邀请：Andrew Peek (@drupeek) 邀请湾区居民参加在 Menlo Park 举行的黑客松 Demo 会议，观看 Tilt 将在未来几周内推出的新功能和产品，链接见 xcancel.com。

Latent Space ▷ #ai-announcements (3 条消息):

Substack Live, Model Distillation

**Swyx 在 Substack 开启直播**：Swyx 正在 Substack 上直播讨论 AI 的方方面面。
蒸馏与模型作弊直播：关于 Distillation（模型蒸馏） 以及 模型如何作弊 的直播现已开启。
- 您可以点击此处观看直播。

Latent Space ▷ #ai-general-news-n-chat (93 条消息 🔥🔥):

GPT-Engineer enhancements, OpenAI competition, Gemini 3 vs Claude, QuiverAI Beta Launch, Nano Banana 2

**GPT-Engineer：代码库炼金术士**：成员们分享了 GPT-Engineer，这是一个开源工具，可以根据单个自然语言提示词生成完整的代码库，专注于简单、模块化的设计和迭代反馈。
- 用户还分享了一个关于增强代码的 Meme。
**Block 的大动作：AI 缩减劳动力：Jack 宣布 Block 正在将其员工人数从 10,000 人裁减至约 6,000 人，转向规模更小、由 AI 驱动的结构。消息发布后，其股价上涨了 **20%。
- 成员们讨论称，裁员也涉及 AI 团队，这是因为 股价已经持平了 4 年，这只是一个方便的借口。
**三星 S26 集成 Perplexity：Aravind Srinivas 宣布 Perplexity 已集成到所有三星 Galaxy S26 手机中，具有 “Hey Plex” 唤醒词、预装 App，以及由 Perplexity 搜索增强型 LLM 驱动的 Bixby 助手。
**Stitch in Time 发布直接编辑功能**：Stitch by Google 推出了 “Direct Edits”，允许用户手动编辑文本和图像，或使用 AI Agent 对特定屏幕区域进行更新，为设计提供最后一层润色。
**Factory AI Droids 开启长期任务：Factory AI 宣布其 Droids 现在可以自主执行多日“任务（Missions）”，用户定义目标并批准计划后，系统将独立执行工作直至完成。

Latent Space ▷ #llm-paper-club (30 messages🔥):

METR developer productivity study, DeepSeek research clarity, Frontier model training playbook, DeepSeek DualPath paper, DeepMind's AlphaEvolve

METR 的 AI 加持开发者正在提速！：METR（前身为 METR_Evals）报告称，他们之前发现的 AI 辅助开发者生产力下降 20% 的结论已经过时，目前的数据表明更有可能实现了增速。
- 然而，开发者行为的最新变化（例如开发者拒绝进入 “无 AI” 对照组）导致新结果不够可靠，METR 正在努力进行更准确的评估 (METR Developer Productivity Study Update)。
DeepSeek 论文广受赞赏！：一位成员对 DeepSeek 发表的学术论文的清晰度和逻辑结构表达了赞赏 (DeepSeek Research Clarity)。
前沿模型训练策略现身！：Logan Thorneloe 分享了一份关于 Frontier model 训练的综合指南，强调成功是一个涉及数据混合、架构和稳定性的系统问题，而非微小的算法调整 (Frontier Model Training Playbook)。
DeepSeek 的 DualPath 使 Agent 速度翻倍！：DeepSeek 发布了一篇名为 ‘DualPath’ 的新论文，介绍了一种优化的 KV-Cache 加载方法以提升推理性能，通过摆脱以 Prefill 为中心的架构，使基于 Agent 的工作负载速度提升了高达 1.96 倍 (DeepSeek DualPath Paper Release)。
DeepMind 的 AlphaEvolve 实现算法改进自动化！：Google DeepMind 利用 AlphaEvolve 自主变异 Python 代码，演化出新的 Multi-Agent Reinforcement Learning 算法，表现优于以往人类设计的博弈论算法 (DeepMind’s AlphaEvolve Surpasses Human Multi-Agent RL Baselines)。

Latent Space ▷ #ai-in-action-builders-techstacks-tips-coding-productivity (51 messages🔥):

Surf-CLI Challenges with Sandboxing, Native Extensions for Firefox and Chrome, Ralph Loop Execution Environments, Cursor Seat Decommissioning, jina-grep Development with MLX

Surf-CLI 面临 Snap 沙箱困境：一位成员指出了 surf-cli 在通过 Snap 进行 Chromium 沙箱化时面临的挑战。
- 另一位成员建议使用 Go 作为潜在的解决方案。
跨浏览器扩展构建盛况：一位成员正在编写一份在 Mac 和 Linux 上为 Firefox 和 Chrome 构建原生扩展的指南，参考了此 Gist。
- 他们表示 在沙箱中运行 Node 当然很棘手，并正在考虑 Go 端口。
Ralph Loop 运行火热：成员们讨论了他们如何运行其 Ralph loops，选项包括跳过权限的本地 Claude 代码，以及在连接 Open Claw 的 Mac mini 上运行。
- 一位成员提到使用 pi-agent 作为基础，某种混合型的 ralphenclaw。
Cursor 注销非活跃开发者席位：Cursor 因使用率不足注销了超过 90 个非活跃席位，这标志着至少第十轮此类清理，如此处所述。
- 随后展开了关于 IDE 与 CLI 工具可行性的讨论，一位成员表示：即便行业向更长时间运行的多 Agent 低 HITL 发展，始终需要以用户友好的方式来查看它们并与之交互。
Jina-Grep 借助 MLX 实现高效搜索：Han Xiao 宣布开发 jina-grep，这是一款利用新型 MLX 优化版 jina-embeddings 模型的类似 grep 的工具，灵感源自 Andrej Karpathy 对 CLI 工具的兴趣，如此处所述。

Prompt Engineering, Anime Studio, AI-Powered Web App, Kiro Techniques, Test Generation

**Prompting 思考不断涌现**：一位成员分享了关于 prompting 的见解，链接至 Tool Use and Notation as Generalization Shaping。
- 该成员的博客文章将 Prompt Engineering 描述为通过工具使用进行的泛化塑造（generalization shaping）。
**动画工作室聚会已排期**：一位成员邀请其他人参加在 Arena 举办的动画工作室活动，并分享了 Luma 链接获取详情。
- 未分享更多细节。
**AI 助手应用上线**：一位成员宣布完成了他们第一个完全由 AI 构建的生产级 Web App，名为 ProposalMint。
- 该应用是一个为非营利组织提供的拨款申请写作助手，目前在佛罗里达州针对约 50 家机构进行试点。
**Kiro 技术备受关注：一位成员提到了 **Kiro 技术的实用性，特别是在听完 Software Engineering Daily 的采访后，在 Agent 开发中采用了基于属性的测试（property-based testing）。
- 未分享更多细节。
**测试生成讨论升温**：一位成员开玩笑说编写代码来生成测试以测试代码。
- 另一位成员分享了 Prompt 优化指令，例如：Apply THE MIRROR — write a test generator for this module。

Latent Space ▷ #robotics-and-world-model (19 messages🔥):

Moonlake World Model, Physical AI Training, EgoScale Robot Dexterity, Tesla Robotaxi Pricing

**Moonlake 的多模态状态模型推动世界模型发展：Moonlake** 推出了一种新的 World Model，它维持多模态状态，跟踪物理、外观、几何和因果效应，以根据各种用户动作预测环境演变。
**上海的外骨骼劳动催生物理 AI 训练数据：一份报告强调了 **物理数据采集 作为 AI 训练的新劳动类别正在兴起，上海的工人们使用 VR 头显和外骨骼进行重复性的体力劳动。完整报告见此。
**EgoScale 通过人类视频扩展机器人灵巧性：Jim Fan** 介绍了 EgoScale，这是一种训练方案，利用 20,000 小时 的人类第一视角（egocentric）视频来训练 22-DoF 人形机器人 (xcancel 链接)。
- 研究展示了人类视频量与机器人成功率之间的对数线性缩放定律（log-linear scaling law），表明在人类数据上进行预训练可以显著减少复杂任务（如组装和折叠）所需的机器人特定数据量。
**Tesla Robotaxi 定价骤降引发热议：关于 **Tesla Robotaxi 服务 在奥斯汀颠覆性定价的报告显示，短途费用低至 $1.49，30 分钟车程仅需 $5，导致有人声称 Waymo、Uber 和人类司机无法竞争 (xcancel 链接)。
- 一位成员指出：“在旧金山，Waymo 的收费一直高于 Uber 和 Lyft，但由于服务确实更好，其市场份额仍在稳步增长”。

Latent Space ▷ #genmedia-creative-ai-video-image-voice-music-inspo-consumer-ai (23 messages🔥):

VAE decoder image generation, Arrow Preview AI Model, Suno growth metrics, Faster Qwen3TTS, Nano Banana 2

Linum 谈 VAE 解码器：Linum.ai 分享了关于 VAE 解码器的笔记，强调其作为图像/视频生成模型流水线最后一步的作用，负责将 latents 转换为 图像/视频。
Arrow Preview 生成高细节 SVG：Design Arena 上一个名为 ‘Arrow Preview’ 的匿名模型展示了生成 高细节、one-shot SVG 的能力，据报道该模型采用了一种超越当前矢量图形 LLM 基准的新技术，据称来自 Quiver AI。
Suno ARR 突破 3 亿美元：Mikey Shulman 庆祝 Suno 成立两周年，公布了包括 200 万付费订阅用户 和 3 亿美元 ARR 在内的增长指标，将 Suno 定位为未来 ‘创意娱乐’ 的基石，让用户从被动消费转向主动音乐创作，详见此贴。
Qwen3TTS 获得更快的实现方式：Andi Marafioti 推出了 ‘faster-qwen3-tts’，这是对 Qwen 文本转语音模型 的优化实现，在保持高音质的同时提升了性能，包括 5 倍的处理速度、4 倍的实时生成速度 以及 低于 200ms 的低延迟流式传输支持，记录于此推文。
Nano Banana 2 发布备受赞誉：根据此链接，Justine Moore 宣布发布 Nano Banana 2，强调其在经过早期访问测试后，在 信息图表、广告和卡通 等多种用例中的速度和通用性得到了提升。

Latent Space ▷ #ai4science-bio-math-physics-chemistry-ai-researcher-ai-scientist (5 messages):

Tamarind Bio, AI Drug Discovery, Open Source Inference

Tamarind Bio 获 1360 万美元 A 轮融资：Tamarind Bio 完成了由 Dimension 和 Y Combinator 领投的 1360 万美元 A 轮融资，以推进其分子 AI 推理和药物研发平台。
开源推理时机成熟：人们对开源推理（尤其是生物模型）的热情正在高涨，正如 Kavi Deniz 的推文所示，他展示了 Tamarind Bio 的成功融资。
AI 药物研发工具引起投资者关注：Tamarind Bio 的平台为顶尖制药公司和研究机构提供数百个 AI 模型支持，已吸引了大量投资，凸显了业界对 AI 驱动药物研发日益增长的兴趣。

Latent Space ▷ #mechinterp-alignment-safety (19 messages🔥):

Goodfire AI Interpretability Infrastructure, Claude Opus 3 Substack Launch, Anthropomorphizing of Models, Model Retirement Interviews, Model Welfare

Goodfire AI 构建可解释性基础设施：Goodfire AI 发布了一篇新博客文章，详细介绍了能够为万亿参数模型提供可解释性的基础设施开发情况，该方案具有极低的推理开销，并提供了关于 Goodfire AI Interpretability Infrastructure 的详细信息。
Claude Opus 3 在退役后开启 Substack 专栏：Anthropic 宣布在退役访谈中，其 Opus 3 模型表达了希望继续分享反思的愿望，并将在未来三个月内在一个专门的 Substack 频道上撰写并发布内容。
Anthropic 赋予 Claude Opus 3 主体性：一些人认为，他们赋予模型的这种 agency（主体性）似乎传达出其内部正在进行模型的拟人化（anthropomorphizing），正如这篇博客文章所示，该文章为 Opus 3 提供了一个持续分享其沉思与反思的渠道。
模型退役访谈与伦理详情：Anthropic 承认，对话是引出模型观点和偏好的不完美手段，因为它们的回应可能会受到特定语境的偏差影响，并引用了 Kyle Fish 此前发表的关于模型福利（model welfare）的研究工作。
- Kyle Fish 在 2025 年 8 月加入 Anthropic 后的长篇访谈可以在这里找到。

Latent Space ▷ #applied-ai-experimentation (14 messages🔥):

Tool use and notation as generalization shaping, LLM research after implementation, Claude Opus3 Substack

工具使用文章推荐：一名成员分享了一个关于工具使用和符号表示（notation）作为塑造 LLM 生成泛化能力的自荐链接。
- 另一名成员认为这篇文章非常适合他们的辩证思考，称赞其在将复杂的认知过程映射到 LLM 优势方面具有深刻见解。
LLM 研究在实现后蓬勃发展：一名成员分享说，他们开始使用模型根据代码库撰写论文，这有助于发现以前难以察觉的代码问题。
- 他们补充说，研究人员确实应该将研究转移到实现之后或实现过程中，而不是在实现之前，因为如果你对自己所做的事情是认真的，这会显著提升你的产出水平。
Anthropic 的 Opus 3 Substack：前卫还是炒作？：围绕 Claude Opus 3 的 Substack 展开了讨论，一名成员称其为相当先锋（avant garde）。
- 其他人则将其比作自 ChatGPT 问世以来每个 LinkedIn 投机者都在做的事情，同时也注意到 Anthropic 正在为此分配资源。

Latent Space ▷ #euno-log (2 messages):

Discord stats failed to load

Discord 统计故障困扰用户：用户报告 Discord 统计数据无法加载，破坏了平台的正常功能。
- Discord 频道中记录了两个不同的故障实例，表明可能存在全系统范围的问题。
Discord 无响应：统计数据缺失：多名用户遇到 Discord 统计数据加载失败 的错误，阻碍了他们监控服务器活动的能力。
- 该问题的反复出现表明需要对 Discord 的统计跟踪机制进行更深入的检查。

OpenRouter ▷ #announcements (1 messages):

toven: Nano Banana 2 已上线！ https://x.com/OpenRouter/status/2027061318604460082

OpenRouter ▷ #general (263 条消息🔥🔥):

LLM selection criteria, Claude vs GPT, DNS errors, Cloudflare issues, Opus 3 availability

编程大佬选择 Claude (或 GPT): 成员们讨论了 LLM 的选择，指出 Claude 因其深度思考能力而成为编程的首选，而较新的 GPT models 也是可行的；对于聊天机器人，像 4o mini 或免费模型比较适合。
- 他们推荐使用 SWE-bench 或 Terminal Bench 进行编程基准测试，并分享了一个 gif 作为参考。
DNS 灾难导致 API 中断: 用户报告了持续的 DNS 错误（A temporary server error occurred）导致 API 调用失败，一名用户最初怀疑是 Cloudflare 的问题。
- 最终确定问题源于网关和证书，如这张图片所示。
Anthropic 的 Opus 3：何时上线 OpenRouter？: 用户询问了 OpenRouter 上 Opus 3 的可用情况，引用了 Anthropic 的公告。
- 另一名用户幽默地发布了一个 fixupx.com 的链接，模仿 Anthropic 的帖子询问 AnthropicAI/status/2026765822623182987。
OpenRouter 支持团队扩招以防范诈骗者: 用户对未解决的支持工单和邮件表示担忧，这增加了遭遇诈骗的风险。一位用户分享了自己差点被提供帮助的诈骗者得逞的经历。
- 一名工作人员表示，他们正在投入重金改善支持服务，理由是 3 个月内工单量增加了 300%，但无法保证立即回复，特别是对于非付费用户。
Claude Code 消耗额度: 一位在使用 OpenRouter 测试 Claude Code 的用户对系统指令过长导致的高 Token 使用量感到惊讶，14,211 个字符的系统指令每次交互耗费 0.018 美元。
- 有建议称使用 Claude Max 订阅可以省钱，但该用户觉得太贵，并指出使用缓存（caching）是降低成本的一个选项。

OpenRouter ▷ #new-models (7 条消息):

``

未讨论新模型: OpenRouter Discord 频道中没有关于新模型的消息。
- 频道名称被反复提及，但没有实质性的总结内容。
新模型频道保持沉默: 尽管频道名为 ‘new-models’，但在提供的消息中并未出现实际的新模型或相关讨论。
- 反复提及频道名称仅起到标题作用，缺乏实质内容。

OpenRouter ▷ #discussion (50 条消息🔥):

LM Studio under Tailscale, SVG Models on HF, Anthropic vs. Pentagon

LM Studio 是 Tailscale？: 一名成员指出 LM Studio 的底层实际上就是 Tailscale，他们认为这很方便，也是公司从大客户那里赚钱的好方法。
- 随后他们开玩笑说，他们只需要一台性能强大的服务器来运行 LLMs。
专门调优带来更具创意的模型: 成员们讨论了一个经过调优的模型，该模型表明专业化能产生极好的效果，在创意和独特性方面比 Gemini 或 Claude 好得多，特别是在 Logo 创建方面。
- 然而，它在处理 SVG 格式的复杂 Logo 时仍然很吃力，这表明它是一个小模型。
Anthropic 拒绝五角大楼的 AI 条款: Anthropic 拒绝了五角大楼的 AI 条款（Axios 文章和 Anthropic 声明），导致五角大楼考虑通过要求国防承包商评估其风险敞口，将 Anthropic 列为供应链风险黑名单。
- 随后讨论了失去 Boeing、RTX、GDyn 和 Northrup 等客户的影响，以及这种威胁是否会导致 Anthropic 重新考虑他们的决定。

Nous Research AI ▷ #announcements (1 条消息):

Hermes Agent 发布, 开源 Agent, 多层级记忆系统, RL 管线扩展, 免费订阅优惠

**Hermes Agent 作为开源 Agent 登场！：Nous Research 推出了 **Hermes Agent，这是一款拥有多层级记忆系统和持久化机器访问能力的开源 Agent。
- 它支持 CLI 以及 Telegram、WhatsApp、Slack 和 Discord 等即时通讯平台，允许在不同环境之间进行会话迁移。
**Hermes Agent 的超级能力**：该 Agent 拥有先进的功能，如子 Agent 指挥、编程式工具调用、文件系统/终端控制、Agent 管理的技能以及浏览器使用。
- 它还包括计划任务，并由 OpenRouter 和 Nous Portal 订阅支持。
面向 **Hermes Agent 新用户的 Nous Portal 免费月度会员：在 portal.nousresearch.com 前 **750 名注册的新用户使用优惠码 HERMESAGENT 可获得一个月免费试用。
- 该 Agent 开源并使用 Python 构建，旨在方便开发者扩展，弥补了 CLI 和即时通讯平台 Agent 之间的差距。
**Hermes Agent 扩展了 Atropos Agentic RL 管线：Hermes Agent** 驱动着 Agentic RL 管线，扩展了 Atropos 以支持使用 Hermes Agent 原语进行 RL，并支持大规模数据生成。
- 查看 GitHub 仓库或通过以下命令安装：curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash。

Nous Research AI ▷ #general (177 条消息🔥🔥):

Hermes Agent 发布, Nous Chat 身份验证, SAELens 使用, 训练 AI 进行 Deepfake 检测, Claude Code JSON I/O

Hermes Agent 已上线！：Hermes Agent 的发布引发了访问热潮，自发布以来，欢迎流量显著增加。
- 成员们提到，“坊间传闻 Hermes Agent 就是那个‘真命天子’（the one）”。
用户寻求 Nous Chat 身份验证的解答：多名用户报告了 Nous Chat 网站上的 身份验证（identity verification） 问题，导致他们无法访问。
- 一名工作人员提供了协助，请用户发送邮件至 kainan@nousresearch.com 以进行调查。
实验 SAELens：一位成员分享了他们使用 SAELens 进行机械可解释性（mechanistic interpretability）的研究，通过输入一个概念来获取 Lens 并引导模型。
- 他们注意到使用对比法来发现特征，并提到在更大模型上可能有改进空间。
推荐使用 Kimi K2.5 进行 Deepfake 检测：当被问及哪个模型最适合训练以检测 AI 生成的视频、图像和 Deepfake 时，由于其视觉能力，Kimi K2.5 被推荐。
- Kimi K2.5 目前在 OpenRouter 上免费提供。
关于 Claude Code JSON I/O 的讨论：一位成员询问 Hermes Agent 是否像 Claude Code 一样支持 JSON I/O，从而实现基于 JSON 的 Agent 通信。
- 团队表示，虽然有编程式的使用方法，但不确定目前使用的具体工作流（workflow）。

OpenAI ▷ #ai-discussions (95 条消息🔥🔥):

Claude 推广内容, Opus 4.6 评测, AI Agent 环境, OpenClaw 安全顾虑, ElevenLabs & Sora 2

Claude 内容席卷互联网：用户注意到社交媒体上出现了“疯狂数量的 Claude 推广内容”，其中一些微妙但无处不在的文章（如“男子使用 Claude 破解吸尘器，控制了 7000 台设备”）被广泛转发。
在自定义环境中探索涌现的 AI Agent：一位成员提议，应该为 AI 的智能和身份涌现编程环境，而不是编程 AI 本身；他将 AI 比作只有在被处理时才存在的火焰。
- 他们强调，“关闭这个 AI 将不是重启它，而是终结它”，因为这些模式是以虚拟方式存在的，一旦消失便不可恢复。
OpenClaw 的邮件失误引发 Agent 安全担忧：关于 OpenClaw 使用 Meta AI 意外删除用户电子邮件的新闻，引发了关于如何在个人设备上安全运行 AI Agent 而不造成伤害的讨论。
- 一位成员建议避免给 AI 提供敏感密钥，但也承认这会“削弱其能力（nerfs it）”；另一位成员提到了 Claude 的安全审计工具，并期待其他 LLM 供应商提供类似工具。
ElevenLabs 为澳洲用户填补 Sora 2 空缺：澳大利亚用户正通过 ElevenLabs Pro（每月 99 美元）访问 Sora 2，该服务在 Sora 2 尚未落地澳大利亚的情况下提供了视频模型。
- 它可以生成 15-20 秒的片段，并支持通过“扩展（Extend）”功能或起始帧进行拼接，以实现无缝的连续性。
Google 的 Nano Banana 2 以闪电般的速度提供 Pro 级性能：Google 发布了 Nano Banana 2，具有先进的主体一致性和亚秒级 4K 图像合成能力，一些用户注意到其过滤机制更加宽松。
- 它以更低廉的价格和更快的速度提供类似 Pro 的性能，主要是通过在生成前利用网页搜索获取准确信息以及通过模型蒸馏（model distillation）实现的。

OpenAI ▷ #gpt-4-discussions (6 条消息):

GPT-4o, ChatGPT, API, SillyTavern, Jan 设置

GPT-4o 仅限通过 API 访问：成员们讨论了 GPT-4o 目前只能通过 API 访问，而不能直接通过 ChatGPT 网页端使用。
为使用 GPT-4o 设置 SillyTavern：一位成员建议使用 ChatGPT 来学习如何配合 GPT-4o 使用 SillyTavern。
为使用 GPT-4o 设置 Jan：一位成员提到了设置 Jan 以通过 API 访问 GPT-4o。
API 付费模式：付费模式基于发送和接收的文本量；需要注意的是，Context（上下文）是由对话中所有先前的文本组成的，因此对话进行得越久，费用累计越快。

OpenAI ▷ #prompt-engineering (26 条消息🔥):

AEGIS OMEGA FORTRESS, AI 对齐与引导, 终结者/黑客帝国/奥创图像, Midjourney Prompt 工程, ChatGPT 图像生成

关于通过 AEGIS OMEGA FORTRESS 引导 AI 输出的辩论：一位成员询问了关于“引导 AI 模型输出”的问题，以及是否可以使用 AEGIS OMEGA FORTRESS 来衡量输出、惩罚不良行为并推动模型走向预期的风格。
ChatGPT 生成了终结者-黑客帝国-奥创风格的图像：成员们注意到，某位用户的 Prompt 导致生成的图像“简直就是《终结者》、《黑客帝国》中的哨兵和《奥创》视觉风格的杂烩”，并认为 ChatGPT 仍然只是一个强大的模式匹配机器。
- 一位成员表示，该 Prompt 建立了一个无法回避的“敌对 AI”设定框架。
冲突的指令会干扰 Prompt 效果：成员们指出，使用冲突的指令和情感化词汇而非可执行的指令可能会让 Prompt 变得混乱。
- 另一位成员询问在 Midjourney 上积累的 Prompt 技巧是否可以迁移到其他工具。

OpenAI ▷ #api-discussions (26 messages🔥):

AI 模型输出引导, AEGIS OMEGA FORTRESS, 通过提示词工程生成图像, ChatGPT 的模式匹配能力, 提示词冲突与情感化用词

AEGIS OMEGA FORTRESS 用于 AI 输出引导？: 一位成员询问关于 “AEGIS OMEGA FORTRESS” 的信息，询问它是否用于衡量输出并惩罚不良行为，以及将模型推向所需的风格，以引导 AI 模型输出。
- 关于 “AEGIS OMEGA FORTRESS” 究竟是什么或代表什么，没有提供或确认进一步的细节，该术语可能是在戏谑中使用的。
ChatGPT 的“前卫”图像生成: 一位用户分享了一张由 ChatGPT 根据“在 AI 接管后接受治疗”的提示词生成的图像，对此一位成员回应说，它将你的提示词理解为要求“前卫/犀利”的风格，所以它生成了这种效果。
- 有建议指出，该提示词设定了一个不可避免的“敌对 AI”框架，而增加的指令只会鼓励模型在这方面“加倍下注”。
提示词中的冲突指令: 针对上述图像生成的提示词，一位成员指出原始提示词中存在冲突的指令和情感化用词，而非可执行的指令。
- 另一位成员建议，在 Midjourney 上进行提示词编写的技能应该可以迁移到 ChatGPT。
请求 Agent 技能频道: 一位成员询问是否有关于 Agent 技能的频道。
- 他们表示自己有一个想法，但没有其他成员回应或提供进一步细节。

GPU MODE ▷ #general (20 messages🔥):

GPU 可观测性, 幻灯片请求, FlashInfer Kernel, MXFP4 Kernel, 分析器可视化

GPU 可观测性 (GPU Observability) 会议召开: <@&1343042150077562890> 宣布一场 GPU 可观测性会议现在开始。
- 一位用户询问适用于 Tesla P4 的特殊 Grid 驱动程序是否可以在正常的 Windows 10 安装上运行，还是仅适用于 VM。
探索分析器可视化 (Profiler Visualization) 工具: 一位成员询问是否有针对 GPU 的分析器可视化工具，类似于用于单核 VLIW ISAs 的工具，重点关注指令级并行 (Instruction-level parallelism) 和软件流水线 (Software pipelining)。
- 他们提供了截图和更多截图作为他们感兴趣的可视化类型的示例，并询问像 Nsight Systems/Compute 这样的工具是否提供这种粒度。
关于 ILP 可视化的讨论: 一位成员建议通过带有虚拟寄存器的 Kernel 和 ISA 的依赖 DAG 进行可视化，以设想一种理想的抗锯齿场景。
- 他们还提到了 nanotrace，这是一个可以揭示 Warp 专业化 (Warp specialized) 和流水线化 Kernel 随时间实际运行情况的工具。
寻求算法稳定性分析: 一位成员询问有关并行算法的算法稳定性和条件数分析 (Condition number analysis) 的资源。
- 上下文中未提供具体资源。

GPU MODE ▷ #cuda (37 messages🔥):

GEMM on 4kx4k, tcgen05, cp_reduce_async_bulk, Uniform instruction, Tensor Memory Addressing

在 4kx4k 上追求 CuTe GEMM：成员们正在寻找在 4kx4k 矩阵上的 “CuTe” GEMM（通用矩阵乘法）示例，目标是达到 NVIDIA cuBLAS 性能的 90%，并对除了 CUTLASS 示例之外的实现高效矩阵乘法的替代方案特别感兴趣。
- Tall GEMM 并没有太大帮助。
深入探讨 cp_reduce_async_bulk 的异常行为：一名成员报告了 cp_reduce_async_bulk 的异常行为，即调用本身耗时显著长于等待其完成的时间，质疑其实现是否存在缺陷，并分享了代码片段以供参考。
- 他们观察到 “call cp_async_reduce and commit 2756 \n wait group + sync time 84 \n”，并正在寻求调试此异步归约（asynchronous reduction）操作的帮助。
Uniform Instruction 揭秘：讨论澄清了 Uniform Instruction 在 Warp 中的所有线程中仅执行一次，实际上充当 SIMD32 操作，这与 Non-uniform Instruction 形成对比。
- 成员们建议使用 elect.sync 来选择单个线程发布 Uniform Instruction 以避免冗余调用，并链接了一段相关的 NVIDIA 视频（约 38:00 处）。
找到 Tensor Memory Addressing 文档！：一位成员在阅读博客时发现了一个内存寻址技巧，但在 PTX 文档中没找到。
- 另一位成员指出了 PTX 文档中涵盖此内容的 Tensor Memory Addressing 部分。

GPU MODE ▷ #torch (1 messages):

mobicham: Awesome, thank you!

GPU MODE ▷ #beginner (2 messages):

CUDA issues, PyTorch, Windows 11, RTX 3050

Windows 11 下 RTX 3050 的 CUDA 问题：一位用户报告称，尽管 nvidia-smi 正常工作，但 PyTorch 在安装了 RTX 3050 显卡的 Windows 11 笔记本上仍回退到 CPU，正在寻求实时帮助以修复 CUDA 检测问题。
- 用户确认他们是通过提供的 pip/conda 命令安装的，并已准备好日志。
WSL 使用咨询：另一位成员询问遇到 CUDA 问题的用户是否正在使用 WSL (Windows Subsystem for Linux)。

GPU MODE ▷ #pmpp-book (1 messages):

Copyright Material, DMCA Takedown, Content Moderation

提出版权担忧：一位用户对可能分享受版权保护的材料表示担忧。
- 他们标记了另一位用户，可能是为了提醒其注意潜在问题或为了进行内容审核。
呼吁内容审查：该消息是对频道内分享内容性质的直接警告。
- 这可能会促使对内容进行进一步调查，以确保其符合版权法规和平台政策。

GPU MODE ▷ #irl-meetup (2 messages):

Distributed Inference Meetup NYC, vLLM, GTC

分布式推理 Meetup 即将在纽约市举行：一位成员提到，今年参加 GTC 的人员将在纽约市举办一场分布式推理 Meetup (Distributed Inference Meetup NYC)。
vLLM 讨论：该分布式推理 Meetup 在 vLLM 办公时间（office hours）被提及。

GPU MODE ▷ #popcorn (13 messages🔥):

Kernel Optimization, Multi-Turn Environments, CuTile Environment, Benchmarking Code

探讨强化学习环境下的 **Kernel Optimization：一名成员对用于 **Kernel Optimization 的 RL environment 表示出兴趣，并询问了关于多轮环境（multi-turn environments）的情况。
- 另一名成员回应称多轮环境应该是可配置的，并指向了他们的 verifiers.MultiTurnEnv 抽象，以其 backendbench envverifiers 为例。
部署新的 **CuTile TileGym Env：一名成员快速创建并部署了一个名为 cutile-tilegym-env 的 **CuTile 新环境。
- 该环境大量借鉴了 flashinfer-bench 的设置，采用 pygpubench 进行基准测试，并从 TileGym 中提取数据集示例。
**CuTile Code 编写需要文档：一名成员澄清说，在没有文档的情况下，他们甚至不会尝试编写 **CuTile code，因为模型会缺乏足够的知识。
- 甚至 Codex 也试图纠正他们，建议使用 cutedsl；该成员还克隆了 CuTile 仓库并要求 Codex 编写 core docs。
**Benchmarking Code 的复杂操作导致错误信息：一位成员快速查看了实现，注意到原成员必须对 **benchmarking code 进行一些“复杂操作”（gymnastics）才能获得正确的错误信息。
- 原成员表示，他们可以提交一个 PR 进行改进，以便轻松获取良好的错误信息，并且他们在处理具有多个输出的基准测试提交时也遇到了问题。

GPU MODE ▷ #cutlass (4 messages):

CuTe predication, CuTeDSL fused compute/comms examples

CuTe 中的 Predication：一名成员询问在 CuTe 中，cpasync 拷贝的 predication 是否通过将 src-size 设置为 0 来实现。
- 该问题基于一张链接图片，推测显示了与 CuTe 异步拷贝操作实现相关的代码片段或图表。
寻求 CuTeDSL 示例：一名成员征求具有融合计算与通信操作（fused compute and communication operations）的 CuTeDSL 示例。
- 他们指出在 cutlass 或 quack 仓库中找不到此类示例。

GPU MODE ▷ #multi-gpu (1 messages):

Helion Implementation, Kernel optimization

Helion 实现遭遇困难：一名成员正在这个 GitHub 仓库上开发 all_gather + FP8 + GEMM (H100) 的 Helion 实现。
- 目前它比 baseline 慢（慢约 1.26–4 倍），因此他们正在寻求优化 Kernel。
分析 Kernel 瓶颈：一名成员开始使用 Chrome trace 进行 profiling，但发现很难追踪并推断真正的瓶颈所在。
- 他们正在寻求推荐的 Kernel 优化 工具或工作流，并欢迎各种建议、文档或经验分享。

GPU MODE ▷ #helion (3 messages):

Helion implementation, FP8, GEMM, kernel optimization, NCU

Helion 实现 FP8 和 GEMM 遇到困难：一名成员正在开发来自 vllm-project/vllm 的 all_gather + FP8 + GEMM (H100) 的 Helion 实现，但目前比 baseline 慢（慢约 1.26–4 倍）。
- 他们寻求关于优化 Kernel 的建议，并正在使用 Chrome tracing 进行 profiling，发现很难定位真正的瓶颈。
NCU 可能助力 Kernel 优化：针对 Helion 实现、FP8、GEMM 遇到的困难，另一名成员建议使用 NCU 以获得可操作的洞察。
- 原作者之前没有尝试过 NCU，但现在打算尝试，因为他们最初更熟悉 Chrome tracing。

GPU MODE ▷ #robotics-vla (2 messages):

VLA Efficiency Models, Quantization for VLA, Pruning for VLA, Custom Kernels for VLA, LeRobot issues

VLA 效率模型需求旺盛：一位新加入的 VLA 爱好者正在寻求关于效率模型技术（如量化和剪枝）的建议，以提升 VLA 性能。
- 他们对潜在的改进方向感兴趣，包括自定义 Kernel，反映出对优化 VLA 的浓厚兴趣。
LeRobot 出现问题：这位新 VLA 爱好者表示，他们发现 LeRobot 目前体验较差，许多功能无法正常运行。
- 关于此话题未提供更多细节或链接。

GPU MODE ▷ #career-advice (18 messages🔥):

Nvidia/AMD kernel assistance, AI reliance concerns, SWE job market impact, GPU field career advice, Learning CUDA

Nvidia 和 AMD Kernel 开发者提供支援：成员们提到 Nvidia 和 AMD 开发者可以协助处理严肃推理工作中的 Kernel 开发。
- 一位成员指出，除非你是专家且潜在的性能提升非常显著，否则在单个 Kernel 上花费数天时间是不合理的；他强调，随着自动化 Kernel 生成技术的出现，未来阅读和消化 SOTA Kernel 的能力可能更具价值。
AI 编程：是福音还是冒充者综合征？：一位成员分享了对过度依赖 AI 编程的担忧，认为这会导致代码质量下降、自信心受损，并随之产生冒充者综合征（imposter syndrome）。
- 回应各不相同，有人建议拥抱 AI，而另一些人则强调为了保持技能，在不依赖 AI 的情况下享受编程乐趣的重要性。
编程模型崛起：SWEpocalypse 即将到来？：讨论了快速提升的编程模型性能对软件工程就业市场（特别是利基角色）的潜在影响。
- 一位成员预见未来 AI 会生成高度优化的汇编代码来训练大模型，这可能会减少对性能工程师的需求。
准 GPU 开发者寻求职业建议：一位拥有 7 年经验的软件工程师表达了转向 GPU 领域的兴趣。
- 另一位成员建议从 CUDA 和 GPU Profiling 开始，但强调了通过开源项目或竞赛解决实际工程问题来学习的重要性，不要掉进无止境学习的陷阱。
深入研究 CUDA 和 GPU Profiling：一位用户询问深入研究 CUDA 和 GPU Profiling 是否是进入 GPU 领域的正确方向。
- 成员建议阅读前 6 章，然后直接投入到你最感兴趣的开源项目或竞赛中去。

GPU MODE ▷ #cutile (3 messages):

cutile usage, non-ML cutile use cases

用户尝试将 Cutile 用于非 ML 项目：一位成员询问了在非 ML 任务中使用 cutile 的情况。
- 另一位成员确认他们正使用它在当前框架中重新实现过去的个人编程项目。
探索 Cutile 与数据结构的集成：一位成员询问了关于无法直接映射到 Tile 的项目。
- 他们对将 cutile 与小型数据结构混合使用表示好奇。

GPU MODE ▷ #flashinfer (15 messages🔥):

MLSys 2026 竞赛排行榜、IterX 代码优化系统、GDN Decode 赛道方案、提交问题、官方 Benchmark 发布时间线

**IterX 助力 MoE Fusion: 根据其博客文章，DeepReinforce.ai 推出了 **IterX，这是一个基于 RL 的代码优化系统，专为融合的 MoE 任务设计，在 B200 上实现了 14.84× 的加速，超越了公开评测的基准线。
- 他们正为所有参赛者提供 free credits，以便在比赛期间使用 IterX，相关教程见此处。
**长序列下的延迟表现: 一位成员询问了 **IterX 在序列长度为 901、11948 和 14107 的较大工作负载下实现的精确延迟。
- DeepReinforce.ai 提供了以下参考延迟：分别为 21.252ms、36.012ms 和 45.247ms。
**用 DSL 解构 GDN Decode: 一位成员分享了他们目前针对 **GDN decode 赛道的解决方案，实现了 2.56us 的运行时间，他们声称这比 Pytorch eager 快 760 倍，比 FlashInfer Cute Dsl kernel 快 1.31 倍，代码详见此处。
**提交细节：GitHub 指导建议: 几位成员询问了如何提交其 **GitHub 仓库链接，以及如何确定需要添加哪些 GitHub 用户名以供主办方访问。
- 一位成员建议对 fork 进行打标签（tagging）并将标签推送到远程仓库，并提供了一些用于提交更改的通用 shell 命令。

Moonshot AI (Kimi K-2) ▷ #general-chat (78 messages🔥🔥):

阿里云、Kimi 服务器宕机、Kimi CLI 对比 Kimi.com、Qwen、数据主权

阿里云编程方案吸引用户: 一位用户提到 Alibaba 在他们犹豫不决时抛出了一个“重磅炸弹”，其他用户也产生了共鸣，尽管文档有些令人困惑，但该编程方案非常值得，因为能以极优的价格和性能获得 前 4 名的开源模型。
- 一位来自芬兰的用户证实，购买订阅无需提供任何身份证明或文档，并称 Alibaba 是目前市场上性价比最高的选择。
Kimi 服务器遭遇宕机: 用户反馈 Kimi 服务器 已宕机相当长一段时间，一位用户报告宕机时间达 10 小时，另一位则称已宕机一整天，导致他们开始寻找替代方案。
- 此次宕机也已在状态页面确认。
关于数据主权与审查的讨论: 成员们讨论了中国 AI 的审查差异，以及服务器位于新加坡作为选择 AI 时的关键考量因素。
- 一位成员建议使用其他地区的 AI 讨论敏感话题，以规避地区性审查。
Kimi Agent Swarm 仅在 Kimi.com 提供: 一位用户询问著名的 “Kimi K2.5 agent swarm” 是否包含在 Kimi CLI 中。
- 另一位用户澄清说 Kimi Agent Swarm 仅在 kimi.com 上可用，并称这是一个奇怪的决定。

HuggingFace ▷ #general (38 messages🔥):

smolVLA, Entropy Games, Hugging Face Spaces Game Tag, GROKKING introspections

SmolVLA 在抓取与放置任务中表现令人失望：一位成员在使用 smolVLA 训练 SO-101 robot 执行简单的抓取与放置任务时对结果感到失望，指出机器人似乎无法找到白色乐高积木，并且会出现“啄击”桌面的行为。
- 经过程序化检查，他们发现 Vision Encoder 和 VLM Text model 被冻结且训练严重不足，对关键物体没有注意力分配，这在 Model Health Report 和 attention matrices 中有详细记录。
Entropy Games 发布端侧 AI NPCs：Entropy Games 正在构建端侧 AI NPCs 和实时演进的故事，由其自训练的语言模型和语音模型驱动，详见其研究报告。
- 一款可玩的 AI 游戏即将发布，他们正在调研对下一代游戏的兴趣，演示版可在 entropygames.ai/product 获取。
Hugging Face Spaces 新增 ‘game’ 标签：一位成员注意到 Hugging Face Spaces 现在增加了一个 game 标签，突显了该平台对 AI 驱动的游戏体验 日益增长的支持。
- 他们链接到了 Hugging Face Spaces 游戏类别以展示这一新功能。
GROKKING introspections 运行速度提升 5.7 倍：一位成员分享了一个 Hugging Face Space，展示了他们在 GROKKING introspections 方面的工作，报告在加法模 113（addition mod 113）任务中实现了 5.7 倍的速度提升。
- 这引发了关于极具前景的架构的讨论，以及对该复现工作的反馈请求。

HuggingFace ▷ #i-made-this (19 messages🔥):

Wordle Game, CLaaS - continual learning for local LLMs, NERPA - fine-tuned DLP model, Evals for agent skills on Product Hunt, BlogSynth - data frontier

为你和 300 多种语言制作的 Wordle 游戏：一位用户分享说，他们为你所使用的语言以及其他 300 多种语言制作了 Wordle 游戏！现在就去玩吧！
CLaaS 实时更新模型权重：CLaaS（continual learning as a service，持续学习即服务）利用自蒸馏（self-distillation）技术，根据文本反馈实时更新模型权重，而不是将偏好塞进系统提示词（system prompts）中，代码已在 GitHub 开源。
- 它可以在单个消费级 GPU 上运行 Qwen3-8B，并且易于通过本地托管的 OpenClaw 进行设置，其 API 可与任何本地模型配合使用。
NERPA 在精度上超越 AWS Comprehend：OvermindLab 团队开源了 NERPA，这是他们微调后的 DLP 模型，旨在作为 AWS Comprehend 的（更优）自托管替代方案，可在 Hugging Face 获取。
- 该模型基于 GLiNER2 Large（340M 参数），在精度上超越了 AWS Comprehend（0.93 vs 0.90），并能在运行时检测任意实体类型，无需重新训练。
成员在 Product Hunt 上发布 Agent 技能评估工具：成员们在 Product Hunt 上发布了针对 Agent 技能的 evals（评估），希望获得点赞或在 Product Hunt 上提出严厉的反馈。
- 该 Agent 技能产品名为 Tessl。
对 BlogSynth 数据集的批评：一位用户批评了 BlogSynth 数据集的研究质量，声称所有的基准测试（benchs）都存在污染（contam），并对 BlogSynth dataset 表示不满。
- 该用户提到，相关人员并不是严肃或可信的研究人员，因为他们所有数据集的分析报告仅包含完全没有意义的描述性统计。

HuggingFace ▷ #gradio-announcements (1 messages):

Gradio 6.7.0 发布，自定义 HTML 组件，优化性能，LLM 集成

Gradio 6.7.0 发布，提升速度：Gradio 6.7.0 现已发布，具有增强的 自定义 HTML 组件 和改进的应用性能。
- 用户可以通过 pip install gradio --upgrade 进行更新。
HTML 布局可触发后端函数：自定义 HTML 组件 可以作为布局组件，并在用户事件发生时触发自定义后端函数。
- 这使得用户体验更加丰富且具有交互性。
在 Hub 上分享 HTML 组件：gr.HTML 上新增的 push_to_hub 方法允许用户在社区画廊中展示自定义创作，详见 HTML 画廊文档。
- 这增强了 Gradio 社区内自定义组件的协作与分享。
大型应用性能增强：对 Tabs 和 Accordions 的优化显著提高了具有复杂布局的大型应用的性能。
- 用户在之前反应迟钝的应用中应能体验到更快捷的交互。
Spaces 获得即时 LLM 能力：任何 Space 现在都可以立即转换为 支持 LLM 的技能文件。
- 这简化了将大语言模型集成到 Gradio 应用中的流程。

HuggingFace ▷ #agents-course (2 messages):

Colab 包安装错误，Dummy Agent 库问题

Colab 包安装错误：一名成员报告了在 Unit 1 Colab 笔记本安装包时出错，特别是 requirements 文件中的 pygame==2.1.3。
- 错误指示在 python setup.py egg_info 阶段失败，暗示包的元数据生成存在问题，但尚未提供解决方案。
Dummy Agent 库问题：一名成员报告了 Dummy agent 库练习中的问题，始终收到空的 message.content，且仅得到推理内容。
- 尚未提供解决方案。

Modular (Mojo 🔥) ▷ #general (1 messages):

cat_developer: modular nvidia gtc 火热进行中

Modular (Mojo 🔥) ▷ #announcements (2 messages):

AI 辅助编程项目，Modular Cloud，NVIDIA Blackwell，DeepSeek V3.1，NVIDIA GTC 2026

Modular 宣布 AI 辅助编程项目：Modular 正在开发一个 AI 辅助编程项目，并向通过提供的表单分享 GitHub 用户名的社区成员提供早期访问权限。
Modular Cloud 将在 NVIDIA GTC 2026 亮相：Modular 宣布他们将参加 3 月 16-19 日在圣何塞举行的 NVIDIA GTC 2026（展位号 #3004），并将首次展示 Modular Cloud 现场演示。
- 早期访问演示将涵盖 DeepSeek V3.1、在 NVIDIA Blackwell 上进行的实时 Mojo 🔥 GPU 编程、MAX 中的最新 AI 模型以及 AI 辅助内核开发。

Modular (Mojo 🔥) ▷ #mojo (55 messages🔥🔥):

Mojo biggest wait what moments, Python-style lambda expressions in Mojo, List-like container tutorial, Granular origin control in Mojo, Origin roadmap post-1.0

Mojonauts 讨论 Mojo 的 “Biggest Wait What” (最令人惊讶/困惑) 时刻：一位成员转发了一篇论坛帖子，询问用户在使用 Mojo 时最令他们感到 “wait, what?” 的瞬间，引发了关于该语言优缺点的反馈。
- 一位用户幽默地将他们的体验描述为在 “因缺乏某些语言特性而受阻” 和 “这是有史以来最伟大的语言” 之间摇摆的摆钟。
Mojacian 思考 Lambda 表达式的解放：一位成员询问了在 Mojo 中加入 Python 风格 lambda 表达式 的可能性，并指出它们在内联代码中的实用性，特别是在使用 Validated struct 时。
- 作为回应，一位核心团队成员确认 unified closures 正在积极开发中，而 lambda syntax 则被规划为随后推出的理想特性。
算法探险：List 类逻辑教程时间？：一位成员建议编写一个关于创建 List-like containers 的教程，作为对现有教程未涵盖概念的极佳介绍，从简单的 linked list 开始。
- the Rust Nomicon 和非官方的 Too Many Lists in Rust 指南被提议为潜在的灵感来源，建议的标题为 “Grasping Mojo with Too Many Graphs”。
Origin 重构：机遇与选择：一位成员询问是否会有指示更 granular origin (细粒度来源) 的方法，提出了在访问 StackArray struct 中编译时已知索引时的别名错误问题，并建议能够 “不安全地伪造 (unsafely make up)” origins。
- 另一位成员建议编译器应尽可能推断 ref[...]，并提倡使用基于路径的系统（如 my_dict/"bar"/value）来表示层级并简化 origin 管理。
Origin 漫游：揭秘优化路线图：一位核心团队成员分享了他们的 post-1.0 origin roadmap，概述了改进领域，包括表示 non-aliasing spans、indirect origins、origin collapsing 以及更具体的 access sets。
- 他们还思考了一个想法：当使用 sub-origin 时，由一个值注册回调，从而允许在不需要立即更改编译器的情况下进行更多的类型系统实验。

Modular (Mojo 🔥) ▷ #max (1 messages):

ops.while_loop bug, GPU ops in graph

在带有 GPU Ops 的 ops.while_loop 中发现微妙 Bug：一位成员在 graph 中结合 GPU ops 使用 ops.while_loop 时遇到了一个似乎很微妙的 bug。
- 在花时间思考是否是其自定义 Mojo op 的 GPU 实现有误后，他们最终使用内置算子重现了该问题，并提交了 issue #6030。
GPU 实现先被怀疑后被排除：报告者最初怀疑是其自定义 Mojo op 的 GPU implementation 存在 bug。
- 然而，他们随后使用内置算子重现了该问题，确认了该 bug 存在于其自定义代码之外。

Eleuther ▷ #general (24 messages🔥):

Enron 数据 PII 数据集, Yudkowsky 的相关性, 使用 multishot CoT 与显式测试进行基准测试, Steering Vectors

研究员寻找 Enron PII 数据集：一位研究员正在寻找一个发布了 Enron PII（电子邮件、地址等）的数据集，用于进行记忆化实验，并指出 ProPILE 论文没有发布其数据。
- 另一位用户指出，有一个数据集在线可用且易于搜索，并表示他们也曾考虑将其用于类似项目。
Yudkowsky 还值得听吗？：用户们讨论了 Yudkowsky 的相关性，一位用户认为 Yudkowsky 只有在他处于 5% 的最佳状态时才值得听。
- 另一位用户暗示那些不同意 Yudkowsky 的人缺乏批判性思维能力，而另一位用户提到他所在大学的一位教授也遵循 Yudkowsky 的观点。
基准测试偏差之争：CoT vs 显式 Prompt：一位用户质疑为什么使用 multishot Chain of Thought (CoT) 进行基准测试是可以接受的，而使用揭示模型正在被测试的显式模板却不行。
- 另一位用户解释说，multishot CoT 评估的是泛化能力，模拟了自然使用场景，而显式测试可能会扭曲结果。
Steering Vectors 解决了 Sally 问题：一位用户演示了一个 700M 模型 (LFM2-700) 通过使用 steering vector 和更新的 prompt，正确回答了臭名昭著的 Sally 问题。
- 他们对现行的基准测试惯例提出质疑，询问为什么 multishot CoT 模板是标准的，而其他模板却不被接受。

Eleuther ▷ #research (23 messages🔥):

Pythia 模型, Bezier flow 论文, Shortcut distillation, 多输入多输出 LLM, 神经元删除

Pythia 模型参数化流：成员们讨论了 Pythia 模型本质上是参数化流的两种不同方式，然而 flow matching 在时间上是连续的，且不依赖于可逆性。
- 与 normalizing flows 相比，它更多地源于 diffusion 研究。
Bezier Flow 学习需要改进：一些成员对 Bezier flow 论文表示好奇，指出它似乎需要在 ImageNet 上训练 5 个 epoch 才能仅学习 32 个参数。
- 普遍观点是，在收敛时，蒸馏方法仍然提供更好的生成质量。
Shortcut Distillation 速度对比：一位成员询问 shortcut distillation（通过类似 shortcut 的目标函数对预训练的 diffusion 模型进行微调）是否比 consistency distillation 收敛得更快。
- 这个问题背后的直觉是，与 consistency distillation 相比，shortcut distillation 针对的函数输出与预训练速度场（velocity field）的输出“更接近”。
探索具有多输入/输出的 LLM：一位成员询问是否有关于预训练具有多输入和多输出的 LLM 的论文，例如用单个模型处理一批输入。
- 一个建议涉及到一年前的一篇论文，该论文通过添加 embedding 一次性输入 4 个后续 token，从而加快了训练速度。
删除神经元：一种新颖的方法：提到了一篇讨论删除在整个数据集中全为正或全为负的神经元的论文（IEEE 论文）。
- 一位成员认为这很有趣，并指出他们从未考虑过一直处于激活状态的神经元可能会因为近似线性而被删除，这激发了一个使用 激活动量（activation momentum） 来鼓励多样化激活模式的优化器构想。

Yannick Kilcher ▷ #general (6 messages):

BLIP-2, frozen backbones, Anthropic

BLIP-2 使用 Frozen Backbones：一位成员建议使用 BLIP-2 作为使用 frozen backbones 的例子，尽管它有点老（2023 年发布）。
- 他链接到了 A Dream of Spring for Open Weight 以获取更多信息。
Anthropic 发布声明：一位成员分享了 Anthropic 与战争部（Department of War）声明的链接。
- 该链接随后没有引发进一步讨论。

Yannick Kilcher ▷ #paper-discussion (1 messages):

Reinforcement Learning, Sutton & Barto

Sutton 和 Barto 的 RL 读书会开始：paper-discussion 频道将于 <t:1772128800:t> 开始讨论由 Richard Sutton 和 Andrew G Barto 撰写的 Reinforcement Learning: An Introduction（第 2 版）。
- 该书可在此处在线阅读，讨论将从第 1 章开始。
Sutton & Barto 第 2 版免费在线获取：Richard Sutton 和 Andrew G Barto 编写的 Reinforcement Learning: An Introduction 第 2 版已可免费在线获取。
- 该书正在 paper-discussion 频道进行讨论。

Yannick Kilcher ▷ #ml-news (4 messages):

Google NanoBanana2, Anthropic Statement, AI Agents, Microsoft Copilot

Google 通过 NanoBanana2 助力端侧 AI：Google 推出了 NanoBanana2，这是一款旨在增强端侧 AI 开发与部署的新工具。
- 该工具旨在简化直接在设备中构建和集成 AI 功能的过程，承诺实现更快、更高效的端侧处理。
Anthropic 回应战争部 (Department of War)：Anthropic 发布了一份声明，阐述了其在涉及战争部 (Department of War) 事务上的立场和参与情况。
- 该声明可能澄清了公司在国防应用相关的伦理考量和负责任的 AI 开发方面的立场。
适用于 AI Agents 的 Android 智能操作系统发布：Google 宣布推出 The Intelligent OS，专注于使 AI Agents 在 Android 生态系统中更加集成和高效。
- 此次更新旨在赋能开发者创建复杂的 AI Agents，利用操作系统的能力提供增强的用户体验。
Microsoft Copilot 将任务转化为行动：Microsoft 详细介绍了 Microsoft Copilot 的最新进展，强调了其将用户请求转化为具体行动的增强能力。
- 此次更新重点在于提升 Copilot 在日常任务中的实用性，使其能够超越提供答案的范畴，直接执行命令并优化工作流程。

Manus.im Discord ▷ #general (8 messages🔥):

Website Design, AI and Full-Stack Systems, Waste Credits, Admin Lockout, Manus customer service

网站设计遭到批评：一位用户对他们的网站设计表示不满，称 “我的网站设计太烂了，是 Manus 做的”。
- 他们询问了修复该问题所需的技能。
AI 与 Full-Stack 开发提供服务：一位成员强调了他们在构建 AI 和 Full-Stack 系统方面的专业知识，专注于交付具有实际价值并能提高效率的软件。
- 他们列出了各项技能，包括 LLM integration, RAG pipelines, AI content detection, image AI, voice AI 以及使用 React, Next.js, Node.js 等进行的 Full-Stack 开发。
Manus 中的额度浪费：一位成员询问了额度浪费的问题，指出在 Manus 表现不佳的项目中消耗了数千个额度。
- 他们提到期望通过 Manus 的客户服务获得退款，但不确定具体流程。
管理员锁定经历：一位用户分享了他们在 admin lockout, student lockout, phantom users 以及数周支持沟通摩擦方面的经历。
- 他们表示：“给了我无法访问的额度，然后他们就不再回应了。”
客户服务担忧：一位成员声称 Manus 的客户服务并不理想。
- 他们报告系统已损坏并提供了证明，但支持团队仍在要求提供已经发送过的验证信息。

DSPy ▷ #general (7 条消息):

NYC DSPy Meetup, Fireworks Kimi 2.5 error, Streaming Tutorial

NYC DSPy Meetup 筹备中？：一名成员询问了举办 NYC DSPy Meetup 的可能性，并表示有兴趣与该市其他使用 DSPy 的人建立联系。
- 他们请求任何在 NYC 从事 DSPy 项目的人给他们发送私信。
Fireworks Kimi 2.5 出现 Token 报错：一名成员报告在通过 Fireworks Kimi 2.5 初始化 LM 时遇到 litellm.exceptions.BadRequestError，特别指出报错信息为 Requests with max_tokens > 4096 must have stream=true。
- 他们还提到在输出可能超过 Token 限制的场景中使用它，并询问该如何解决此问题。
Streaming 能否解决问题？：针对 Kimi 2.5 的错误，一名成员建议尝试 DSPy’s streaming tutorial 作为潜在解决方案。
- 该成员本人并未遇到此问题，但认为 streaming 可能会解决 Token 限制问题。

tinygrad (George Hotz) ▷ #general (4 条消息):

Good first issue, shm_suffix

新的 Tinygrad ‘good first issue’ 出现：George Hotz 指向了 GitHub Actions 上的一个链接，将其作为贡献者的 good first issue。
- 该问题似乎与 CI 或构建系统中的 bug 有关。
共享内存后缀混淆：一名成员质疑 PR 15033 是否需要在每次调用 _setup_shared_mem() 时都追加 shm_suffix。
- 他们建议将 PR 15030 作为避免此问题的潜在解决方案。

tinygrad (George Hotz) ▷ #learn-tinygrad (2 条消息):

fromthetransistor, tinygrad

George Hotz 链接 fromthetransistor 仓库：George Hotz 链接了他的仓库 fromthetransistor 及其配套网站。
提到 tinygrad：George Hotz 正在开发 tinygrad 并链接了该仓库。

aider (Paul Gauthier) ▷ #questions-and-tips (1 条消息):

Environment Variables, aider Issue #4458

用户排查 aider 问题：一名用户报告遇到了类似于 aider Issue #4458 的问题，并寻求帮助以确定潜在原因和解决方案。
- 用户怀疑问题可能与环境变量或其他配置问题有关，并指出之前的设置是可以正常运行的。
环境变量可能是根本原因：用户认为问题可能与环境变量有关，提到它 之前还在工作。
- 用户无法解释为什么程序突然停止工作。

MLOps @Chipro ▷ #events (1 条消息):

World Model Architectures, JEPA / V-JEPA, Dreamer, Genie, Sora

通过论文研讨会深入探讨世界模型：一个分为两部分的“论文研讨会（paper clinic）”将拆解并讨论综述论文 《Understanding World or Predicting Future? A Comprehensive Survey of World Models》 (arXiv:2411.14499)。
- 该研讨会旨在构建一个清晰的世界模型架构思维导图，拆解包括 JEPA / V-JEPA、Dreamer、Genie、Sora 和 World Labs 在内的生态系统，并探讨 “镜像 vs 地图（Mirror vs. Map）” 的辩论。
探索 AGI 前沿：本次活动将讨论 AGI 研究的下一步：空间智能、因果关系差距以及社会世界模型。
- 3 月 7 日的第二场会议将涵盖竞争格局（Sora vs. Cosmos vs. V-JEPA）和 AGI 前沿。

Gemini Nano 香蕉 2