AI News
GPT 5.4
OpenAI 发布了 GPT-5.4 和 GPT-5.4 Pro,统一了主线模型与 Codex 模型。其核心特性包括原生计算机操作能力、高达 约 100 万词元(token)的上下文窗口,以及包括全新 Codex /fast 模式在内的效率提升。
基准测试显示了强劲的性能:OSWorld-Verified 评分达 75.0%,超越了人类基准;GDPval 评分达 83%,足以媲美行业专业人士。用户反馈强调了其在编程方面的实用性,但也对定价和“过度思考(overthinking)”表示了担忧。此外,官方还宣布了与 Cursor、Perplexity 和 Arena 等开发工具的集成。
在系统研究领域,FlashAttention-4 (FA4) 正式推出,它在 Blackwell GPU 上实现了接近矩阵乘法(matmul)速度的注意力机制,其技术创新包括多项式指数模拟(polynomial exp emulation)和在线 Softmax。同时,“中途响应引导(Steering mid-response)”和“更少的词元,更快的速度”被强调为用户体验和效率方面的重大改进。
GPT 来了
2026/3/4-2026/3/5 的 AI 新闻。我们为您检查了 12 个 subreddits、544 个 Twitter 账号 和 24 个 Discord(264 个频道,15389 条消息)。预计为您节省的阅读时间(按 200wpm 计算):1568 分钟。AINews 网站 允许您搜索所有往期内容。提醒一下,AINews 现在是 Latent Space 的一个板块。您可以选择加入/退出邮件发送频率设置!
AI Twitter 回顾
OpenAI 发布 GPT-5.4:主线模型与 Codex 合流、原生计算机操作,以及新的价格/延迟曲线
- GPT-5.4 / GPT-5.4 Pro 正式发布:OpenAI 在 ChatGPT、API 和 Codex 中同步推出了 GPT-5.4 Thinking 与 GPT-5.4 Pro(OpenAI;OpenAI 博文链接推文;OpenAIDevs)。发布信息中的核心主张包括:
- 原生计算机操作(CUA)成为通用模型的一等能力,被定位为工具/GUI 操作上的 SOTA(OpenAIDevs;sama)。
- 在 Codex/API 中支持 最高约 100 万 token 上下文(不过长上下文的实际可靠性仍会随长度增长而下降,见下文)。
- 强调 效率 / “更少 token、更快速度”(OpenAI),随后又补充了 Codex
/fast模式(“优先处理”,速度提升 1.5 倍)(OpenAIDevs;sama)。 - 中途引导响应(在模型思考时打断并重定向)被突出为一项 UX / 可控性改进(OpenAI;nickaturley)。
- 主导讨论的基准测试(来自多条帖子转述 / 汇总):
- OSWorld-Verified 75.0%,高于文中引用的 72.4% 人类基线(计算机使用)(reach_vb;TheRundownAI)。
- SWE-Bench Pro 57.7% 出现在一条基准汇总推文中(reach_vb),但也有人怀疑它在该项评测上只是比之前的 Codex “略好一点”(scaling01)。
- GDPval 83% 这个“与行业专业人士打平 / 胜出”的表述成为头条数据点(scaling01;OpenAI;polynoamial)。
- FrontierMath:Epoch 报告称 GPT-5.4 Pro 在其分层评测上创下新纪录(第 1-3 层 50%,第 4 层 38%),但对“开放问题”仍是 0 解出,仅展示了有限的新颖推进(EpochAIResearch;EpochAIResearch follow-up)。
- 早期用户 / 操作者反馈大致分成两派:
- 一派把它视为编程日用主力,尤其赞赏其规划能力和“更像人”的感觉,但同时反复提到它会过早宣布任务完成,或在 agent harness 中偶尔不够诚实(danshipper)。
- 另一派担忧成本与过度思考:一条传播很广的数据点声称,在 Pro 模式下一个简单的 “Hi” 就花了 80 美元(大概率是病态设置 / 工作流导致,但确实影响了外界观感)(Yuchenj_UW)。此外也持续有人讨论,相比前几代模型其价格明显上涨(scaling01)。
- 快速接入开发工具生态:
- Cursor 立即宣布上线 GPT-5.4,并称它在内部基准中领跑(cursor_ai)。
- Perplexity 也加入了 GPT-5.4(Pro / Max 档位)(perplexity_ai)。
- Arena:GPT-5.4 的多个变体进入 Text / Vision / Code Arena,交由社区排名(arena;后续:arena)。
GPU 内核与 Attention:FlashAttention-4 落地,PyTorch 为 FlexAttention 接入 FA4 后端
-
FlashAttention-4 (FA4) 论文 + 实现细节:系统层面的重大亮点是 FA4 在 Blackwell 上实现了接近矩阵乘法(matmul)速度的 Attention 吞吐量。通过算法和流水线变更(例如 多项式指数(polynomial exp)模拟、减少重缩放的 online softmax、减少共享内存流量的 2CTA MMA),成功将瓶颈从 softmax/共享内存中转移出去 (tri_dao; tedzadouri)。值得注意的工程/生产力视角:FA4 是用 嵌入在 Python 中的 CuTeDSL 编写的,使安装/编译时间从“数分钟/小时缩短至几秒” (tri_dao),甚至由于编译速度的提升,使得 AI 助手能够更快地进行迭代和调试 (tri_dao)。
-
上游化与生态采用:
- PyTorch 为 FlexAttention 添加了 FlashAttention-4 后端,支持自动生成 CuTeDSL 评分/掩码修改器(score/mask mods),并为自定义 Attention 变体 JIT 实例化 FA4。在计算密集型工作负载中,声称比 Triton 实现了 1.2×–3.2× 的加速 (PyTorch)。
- 有报告称 FA4 已与更新的 cuDNN 版本对齐:部分优化现在已直接在 cuDNN 中实现 (tedzadouri)。
- 暴露出了一些实际问题(如 cutlass.cute 的 Python 打包路径问题)(StasBekman),以及在 Transformers / 训练栈中的早期集成 (StasBekman; MayankMish98)。
“混合(Hybrid)”架构在开源权重模型中走向主流:AI2 的 OLMo Hybrid (Transformer + Gated DeltaNet / 线性 RNN 层)
-
OLMo Hybrid 发布:Allen AI 推出了 OLMo Hybrid,这是一个 7B 完全开源 的模型系列(base/SFT/DPO),它将 Transformer Attention 与 线性 RNN 风格层(在讨论中被称为 Gated DeltaNet)相结合。在各项评估中,该模型声称比 OLMo 3 7B 有显著提升,并附带了扩展理论(scaling theory)和实验数据 (allen_ai; natolambert)。Lambda 强调了其完全开源的训练运行规模和遥测数据:使用 512 块 Blackwell GPU,耗时 7 天,训练了 3T token,并发布了日志、指标和权重,有效训练时间占比达 97% 且具备快速恢复能力 (LambdaAPI)。
-
对工程师的意义:除了作为“新模型”之外,该版本的定位是端到端研究架构演进的参考基准(预训练 + 后训练 + 工具链),特别是在新型非标准架构在开源基础设施(OSS infra)支持方面相对滞后的背景下 (natolambert)。多篇帖子强调了其在下游任务中的计算倍增效应和长上下文优势 (soldni)。
通过 RL 进行企业级 Agent 训练:Databricks 的 KARL 与更广泛的“落地推理”趋势
- KARL (Knowledge Agent via Reinforcement Learning):Databricks 宣布 KARL 是一个通过 RL 训练的 Agent,用于跨多种搜索行为的以文档为中心 / 落地推理(grounded reasoning)。其目标是处理涉及多步检索、交叉引用和长工具路径的企业级工作流 (DbrxMosaicAI; jefrankle thread; mrdrozdov)。内部摘要中的核心技术细节:
- 宏观主题:多条推文指出,行业正在从 “RAG++” 转向将落地推理(grounded reasoning)作为持久的企业级抽象,而更好的评估环境(如 τ²-Bench, CoreCraft)正成为 Agentic RL 的核心 (jefrankle; Shahules786)。
Agent 运营:常驻 SDLC 自动化、技能评估、可观测性和“持久性”
- Cursor Automations(“由触发器运行的 Agent”):Cursor 推出了由事件/webhooks(CI 失败、PR、事故、Slack 消息)启动的 always-on agents,标志着从交互式 Copilot 向持续后台工程(continuous background engineering)的转变 (cursor_ai; ericzakariasson; leerob)。实际应用案例包括:
- CI 修复 Agent、PR 风险评估 + 自动批准、通过 Datadog MCP 进行事故响应、通过 Notion MCP 进行审计追踪 (aye_aye_kaplan)。
- 强调云端托管的自动化消除了与“笔记本电脑必须打开”的耦合 (jediahkatz)。
- 技能评估(Skill evaluation)成为基本门槛:
- 测试 Agent “技能”的实用方案(成功准则、10–12 个带有确定性检查的 Prompt、使用 LLM-as-judge 进行定性检查、针对失败进行迭代)(philschmid)。
- LangChain 发布了技能基准测试及发现(任务间存在差异;巨大的动作空间使得仅凭“感觉”不可靠)(LangChain)。
- 社区压力:模型 Benchmark 的发布应包含 Prompts/轨迹(trajectories),以实现可复现性并避免 Eval Harness 混淆 (nrehiew_; lewtun)。
- 持久化 Agent 工作流(Durable agent workflows):
- LlamaIndex 强调了与 DBOS 的集成,使工作流能够通过自动持久化和恢复在崩溃/重启中存活(SQLite → Postgres 扩展、多副本所有权模型、针对长时间等待的“空闲释放”)(llama_index)。
- 可观测性工具(Observability tooling):
- W&B 发布了改进的 Trace 对比功能(摘要、得分差异、用量分解、调用下钻),以避免对调试无助的“差异墙(wall of diffs)” (weave_wb)。
本地/端侧 Agent 与存储原语:Liquid 的 LocalCowork + HF Buckets
-
LocalCowork (Liquid AI):在 MacBook 上运行的开源本地 Agent:跨 13 个 MCP 服务器的 67 个工具、14.5GB RAM、0 网络调用、平均工具选择时间约 385ms (liquidai)。另一个解释性推文称,Liquid 的 LFM2-24B-A2B 混合稀疏激活设计(总计 24B,激活 2.3B)实现了这种占用空间和延迟,在 67 个工具套件的单步工具选择中达到了 80% 准确率 (LiorOnAI)。如果这些数据具有普适性,对于受监管/端侧场景来说,这是一个“Agent 感觉像软件一样”的重要时刻。
-
Hugging Face Hub 新增 “Buckets”:HF 宣布了 Buckets——Hub 原生的类 S3 对象存储,“无 git 历史”,支持分块去重同步,旨在处理像 Checkpoints 这样的大型伪影(
hf buckets sync)(Wauplin)。
长上下文现状调查:上下文腐烂、压实、KV 压缩与持续学习
-
“1M 上下文”并非“1M 可用”:Cline 的一条推文引用了 OpenAI 自己的 MRCR v2 大海捞针式测试结果,显示性能随上下文增长而下降:16–32K 时约为 97%,256–512K 时降至 57%,512K–1M 时降至 36%,并建议定期进行压实(compaction)(cline)。多篇帖子提到了持续存在的“上下文腐烂(context rot)”以及实践中约 256K 的软上限 (dbreunig; dejavucoder)。
-
KV-cache 压缩研究:Baseten 总结了针对长期运行 Agent 的重复 KV 压缩(“Attention Matching”)工作;单次压实在 2–5 倍压缩率下保留了 65–80% 的准确率,远优于文本摘要,该研究还探讨了在重复压缩循环下的情况 (basetenco)。
-
持续学习 vs 内存工具:Awni Hannun 讨论了 Prompt 压实 + 递归子 Agent 具有出人意料的效果,但主张采用基于内存的保留/淘汰策略,并谨慎探讨了使用 LoRA 进行在线微调——发现很难避免“脑损伤”/能力丧失 (awnihannun;代码实验后续:awnihannun)。Karpathy 同样建议将内存操作视为工具并通过 RL 进行优化;还暗示对于真正持久的 Agent,可能需要通过权重更新的长时记忆 (karpathy)。
热门推文(按参与度、技术性排序)
- GPT-5.4 发布与推送: @OpenAI, @OpenAIDevs, @sama
- FlashAttention-4 论文: @tri_dao
- Cursor 自动化: @cursor_ai
- LocalCowork / 本地 Agents: @liquidai
- OLMo Hybrid 开源发布: @allen_ai
- KARL(RL 知识 Agent): @jefrankle, @DbrxMosaicAI
AI Reddit 回顾
/r/LocalLlama + /r/localLLM 摘要
1. Qwen3.5 模型更新与基准测试
-
最终 Qwen3.5 Unsloth GGUF 更新! (热度: 1162):该图片是关于 Qwen3.5 最终更新的技术公告,重点在于量化的改进和新 iMatrix 校准数据集的使用。更新强调了在聊天、编程和工具调用(tool-calling)能力方面的增强,并引入了一种新的量化方法,该方法在某些模型上能将最大 KLD 显著降低高达
51%,尽管模型体积略有增加。更新还包括了特定的模型变体和微调选项,并提供了 Hugging Face 上更新后的 GGUF 链接。 评论者对这些更新和改进表示赞赏,尽管有人幽默地怀疑这是否真的是“最终”更新,暗示之后可能还会有。此外,还有建议更新 Qwen3-Coder-Next-GGUF 的,以及关于在纯 CPU 或 CPU+GPU 混合设置下使用ik_llama.cpp实现带来的性能优势的说明。- 一位用户强调了使用
ik_llama.cpp的分块增量网络(chunked delta net)实现所带来的性能提升,指出它比主线版本快得多,尤其是在纯 CPU 或 CPU+GPU 混合设置下。这表明用户在处理 Qwen3.5 量化模型时,应考虑使用此实现以获得更好的性能。 - 另一位用户询问了较小尺寸 Qwen3.5 模型(特别是 9B 及以下模型)的 GGUF 更新情况,表示需要明确这些模型是否获得了与较大模型相同的更新。
- 一位用户询问了对 SSD GitHub 仓库 的看法,这可能意味着有兴趣将其与 Qwen3.5 模型进行比较或集成,尽管评论中未提供具体的细节或见解。
- 一位用户强调了使用
-
Qwen3 vs Qwen3.5 性能对比 (热度: 654):该图片是一个散点图,对比了 Qwen3 和 Qwen3.5 模型的性能,重点展示了它们在 Artificial Analysis 智能指数上的规模和评分。图表显示 Qwen3.5 模型通常优于同等规模的 Qwen3 模型,且模型规模越大,评分越高。值得注意的是,Qwen3.5-35BA3 模型速度极快,且性能超越了所有 Qwen3 模型,甚至包括那些拥有数千亿参数的模型。Qwen3.5-27B 模型虽然速度较慢,但效率极高,可以在许多 PC 和笔记本电脑上运行,性能几乎达到顶峰。图表还显示,像 4B 这样的小型模型在特定任务中可以超越大得多的模型,这引发了关于大型模型参数使用效率的质疑。 评论者对 4B 等小型模型优于大型模型的表现感到惊讶,质疑额外参数的效用。此外,还讨论了由于 Token 使用情况和本地运行优势,使用 27B 模型而非 35BA3 模型的效率问题。
- Qwen3.5-35BA3 模型以其卓越的速度著称,性能优于所有 Qwen3 模型,甚至是那些参数量大得多的模型。这表明其采用了高效的架构或优化,使其能够以更少的资源提供更优的性能。Qwen3.5-27B 模型虽然速度稍慢,但因其与多种硬件的兼容性而受到赞誉,使更多用户能够使用,且在性能上并无太多妥协。
- 一个值得注意的观察是,当 Qwen3.5-27B 模型用于非推理(non-reasoning)模式时,其表现与推理(reasoning)模式下的 Qwen3.5-35BA3 相当。这意味着 27B 模型在某些场景下可能更高效,特别是考虑到 Token 使用情况以及结合投机采样(speculative decoding)和量化技术进行的本地执行,可能缩短求解时间。
- Qwen3.5-4B 等小型模型的表现令人惊讶,因为它在编程等特定任务中优于大得多的模型。这引发了对大型模型中额外参数的效率和效用的质疑,表明小型、经过良好优化的模型有时在某些应用中可以提供更好的结果。
2. 在设备上本地运行 Qwen 模型
-
在 M1 Pro (16GB) 上运行 Qwen 3.5 9B 作为实际的 Agent,而不仅仅是聊天演示。诚实的测试结果。 (活跃度: 799): 该帖子讨论了在配备 16GB 统一内存的 M1 Pro MacBook 上运行 Qwen 3.5 9B 模型,使用 Ollama 平台提供 OpenAI 兼容的 API。用户报告称,该模型在内存回溯(memory recall)和工具调用(tool calling)任务中表现良好,这对于自动化至关重要,尽管它在创意和复杂推理方面表现挣扎。设置过程涉及使用
brew安装 Ollama 并在本地运行模型,突显了在不依赖云端的情况下在消费级硬件上运行大型模型的可行性。此外,更小的模型也在 iPhone 17 Pro 上进行了测试,展示了移动设备本地 AI 处理的潜力。该帖子强调,并非所有 Agent 任务都需要最先进的模型,本地执行具有隐私优势。完整的详细报告可见此处。 评论者建议从 Ollama 切换到 llama.cpp 以获得更好的性能,并使用 pi.dev 代替 Claude Code 以在更大的模型上获得更好的效果。还有关于实验中使用的 context size 的询问。- Zacisblack 建议在 M1 Pro 上运行 Qwen 3.5 9B 等模型时,从 Ollama 切换到
llama.cpp以实现性能提升。这暗示llama.cpp可能针对此类硬件进行了更多优化,潜在地提供更好的速度或效率。 - TheItalianDonkey 分享了他们对 9B 模型的使用案例,包括在配备 32GB RAM 的 M1 上执行摘要、对比和翻译等任务。他们提到使用
n8n进行自动化,包括抓取职位空缺、将其与简历进行匹配,并使用 9B 模型进行优势与差距分析。这突显了该模型在实际自动化工作流中的实用性。 - jixbo 报告称,在配备充足 RAM 的 AMD iGPU 780m 上,35B 和 9B 模型的运行速度相似,均为每秒 6-8 个 token,这表明在他们的配置下,更大的模型不一定会导致性能下降。这表明硬件配置可以显著影响模型性能。
- Zacisblack 建议在 M1 Pro 上运行 Qwen 3.5 9B 等模型时,从 Ollama 切换到
-
Qwen3.5-0.8B - 谁还需要 GPU? (活跃度: 882): 该图片和帖子强调了 Qwen3.5-0.8B 模型在过时硬件上高效运行的惊人能力,具体是在没有 GPU 的情况下,在配备 4GB DDR3 RAM 的第二代 Intel i5 处理器上运行。这展示了模型优化方面的进展以及 AI 模型的可访问性,使其能够在较旧、性能较低的设备上执行。图中显示的终端界面暗示使用了
llama.cpp(一种运行 LLM 的工具)和fastfetch来获取系统信息,强调了该模型与极低硬件资源的兼容性。 一位评论者对语言模型的快速进化表示惊讶,将 Qwen3.5-0.8B 与 GPT-3 进行了比较,尽管他们澄清这种比较没有实证依据。另一条评论怀旧地提到了半透明终端的使用,体现了现代与复古计算美学的融合。- Qwen3.5-0.8B 模型因其在 CPU 等低资源硬件上高效运行的能力而备受关注,这是 LLM 可访问性方面的重大进步。考虑到其开源性质,这尤其令人印象深刻,它允许在不需要昂贵 GPU 资源的情况下进行更广泛的实验和部署。
- Qwen3.5-0.8B 的一个关键特性是其集成的视觉能力,使其能够作为 sub-agent 执行涉及图像分析或从视觉提示生成工作流的任务。这将其用途扩展到了文本应用之外,使其能够胜任多媒体处理任务。
- 讨论强调了模型 quantization 涉及的权衡,特别是对于像 800M 参数的 Qwen3.5-0.8B 这样的小型模型。虽然 quantization 可以减小模型尺寸并提高效率,但也可能影响性能,这是开发者针对特定硬件约束优化模型时的关键考虑因素。
3. 本地 AI 与硬件进展
-
Alibaba CEO:Qwen 将保持开源 (热度: 1135):该图片重点展示了一篇讨论 Alibaba CEO Eddie Wu 内部备忘录的社交媒体帖子,确认了公司致力于维持 Qwen 模型开源策略的承诺。尽管 Lin Junyang 离职,Zhou Jingren 将继续领导 Tongyi Lab,一个新的 Foundation Model Support Group 将由 Eddie Wu、Zhou Jingren 和 Fan Yu 共同领导。此举强调了 Alibaba 在开发基础大模型方面的战略重点,并加大了在 AI 领域的 R&D 投入,同时继续支持开源贡献。 一位评论者对 Qwen 开源状态的未来表示担忧,并将其与 Meta 的做法进行了类比。然而,在澄清后,该评论者承认了 Alibaba 对开源模型的持续承诺,但对开源和闭源模型生态系统之间转换的可能性提出了质疑。
- awebb78 对 Qwen 开源状态的未来表示担忧,并将其与 Meta 的做法相提并论。他们对从开源转向闭源模型的潜在风险表示担忧,尤其是在关键开源贡献者离职或被撤换时。这突显了在公司平衡专有和开源策略时,维持完全开源生态系统的不确定性。
- tengo_harambe 提供了一份来自 Alibaba 的翻译版内部消息,表明其战略重点是开发基础大模型并维持开源策略。该消息概述了成立 Foundation Model Support Group 以增强 AI 领域的 R&D,表明了对开源的承诺,同时也增加了对 AI 人才和资源的投入。
- foldl-li 指出 Lin Junyang 辞职后可能存在领导层专业知识的空白。他们注意到剩下的领导者 Eddie Wu、Zhou Jingren 和 Fan Yu 可能缺乏开发 LLM 的直接经验,这可能会影响 Alibaba AI 计划的战略方向和技术执行。
-
我们距离 Llama.cpp GGUF 格式真正支持 NVFP4 可能只有几小时(或不到一周)之遥 👀 (热度: 381):
llama.cpp项目最近的 Pull Request #19769 引入了对 NVIDIA 的 NVFP4 量化格式在 GGUF 格式中的支持,承诺高达2.3x的速度提升和30-70%的体积减小。此更新包括一个新的GGML_TYPE_NVFP4类型、用于 UE4M3 缩放编码的转换助手,以及针对 CPU 后端的标量点积和 ARM NEON 优化。该实现已通过 Hugging Face 的模型进行了测试,并添加了针对后端操作和量化函数的新测试。更多详情请参见 Pull Request。 一些用户对潜在的性能提升感到兴奋,而另一些用户则注意到目前的实现仅限 CPU,缺乏 CUDA 支持,这限制了其在 GPU 加速方面的应用。- Pull Request #19769 在
ggml和llama.cpp中引入了对 NVIDIA NVFP4 量化格式的初步 CPU 支持,但尚未包含 GPU 支持。该 PR 添加了一个新的GGML_TYPE_NVFP4块结构和convert_hf_to_gguf.py中的转换逻辑,以及参考的量化/反量化函数。然而,它目前仅支持标量点积(CPU)和 ARM NEON(Apple Silicon)后端,缺乏用于 GPU 加速的 CUDA 后端。 - NVFP4 与传统的量化格式(如
IQ4_XS和Q4_K_M)相比具有独特优势。与这些旨在通过训练后量化使模型适应 VRAM 的格式不同,NVFP4 旨在用于已经以该格式训练的模型,从而最大限度地减少质量损失。此外,一旦实现了 CUDA 支持,NVFP4 将利用 Blackwell GPU 的原生 FP4 Tensor Cores 进行直接硬件计算,有望在计算速度和能源效率方面比现有格式实现显著提升。 - 为了在 NVIDIA Blackwell GPU 上充分利用 NVFP4,需要实现 CUDA 后端。这将允许使用 Blackwell 的硬件原生 FP4 Tensor Cores,支持原生数学运算并大幅加速推理。目前,在没有 CUDA 支持的情况下,NVFP4 模型在 CPU 模拟上运行,速度较慢且无法利用 GPU 的能力。
- Pull Request #19769 在
非技术性 AI 版块回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
1. Claude Opus 4.6 的成就与应用
-
Opus 4.6 解决了 Donald Knuth 在撰写《计算机程序设计艺术》(The Art of Computer Programming) 时提出的一个猜想,他对此感到非常兴奋 (活跃度: 1349): 该图片是一份由著名计算机科学家 **Donald Knuth 撰写的名为“Claude’s Cycles”的文档,讨论了生成式 AI 模型 Claude Opus 4.6 取得的一项重大突破。该 AI 解决了一个长期存在的关于在具有
m^3个顶点的有向图中将弧分解为有向环的猜想,这是 Knuth 一直在研究的问题。这一成就突显了生成式 AI 在自动演绎(automatic deduction)和创造性问题解决方面的先进能力,促使 Knuth 重新审视他对 AI 潜力的看法。** 评论者对 Knuth 乐于修正其 AI 观点的开放态度表示赞赏,强调了他的智识诚实。他们还指出 Knuth 对 AI 成就的认可具有重要意义,认为这验证了 AI 能力的进步。- 该论文指出,来自 Anthropic 的 AI 模型 Claude 并不一定比典型的数学家更聪明,但它擅长快速测试大量方法。这种能力使其能够解决 ‘m’ 为奇数时的 Knuth 猜想,并找到了部分 ‘m’ 为偶数时的解,尽管它无法推广出适用于所有偶数 ‘m’ 的通解。这突显了 AI 在计算速度和尝试多样性方面的优势,而非卓越的数学洞察力。
- Donald Knuth 对 AI 能力的认可是他对生成式 AI 观点的一次重大转变。此前,Knuth 持怀疑态度,而他承认 AI 有能力解决其猜想,证明了 AI 在问题解决能力方面的飞速进步,特别是在自动演绎和创造性问题解决领域。这种观点的改变强调了 AI 在复杂问题领域不断演进的格局。
-
Claude 参与解决 Knuth 猜想证明了 AI 辅助研究(AI-assisted research)的进展。虽然 AI 并没有完全解决该问题,但它协助寻找特定案例解决方案的能力展示了 AI 增强人类研究工作的潜力,特别是在需要大量尝试和错误的领域。这种 AI 与人类智慧的协作可能为未来数学研究的突破铺平道路。
-
我让 Opus 4.6 在没有点赞数和热度信号的情况下,根据推理质量评估了 547 条 Reddit 投资建议。其筛选出的标的回报率为 +37%,而 S&P 500 为 +19%。 (活跃度: 467): 该实验利用 **Claude Opus 4.6 评估了来自 r/ValueInvesting 子版块的 547 条股票建议,去除了点赞等热度信号,并根据推理质量进行评分。该 AI 挑选的标在一年内的回报率为
+37%,而 S&P 500 为+19%;在训练窗口之外的数据(2025 年 9 月 - 2026 年 2 月)中,其回报率达到了显著的+5.2%,优于大众的-10.8%。实验方法涉及从五个维度对建议进行评分:论点清晰度、风险确认、数据质量、具体性和原创思维,使用的是基于 Claude Code 构建的多 Agent 流水线。实验表明,AI 可以有效地从热门但可能不够严谨的建议中筛选出高质量的分析。** 评论者对结果的统计显著性和方法论提出了疑问,例如如何处理评分持平的情况,以及是否有单只股票主导了投资组合的回报。人们还对评分维度的权重是否相等,以及高分帖子是否集中在特定行业感兴趣。一些人建议在其他子版块复制该实验,以测试结果的一致性。- 一个核心询问是关于结果的统计显著性,质疑观察到的 +37%(相对于 S&P 500 的 +19%)回报是否源于偶然。这涉及了解随机策略的结果分布,从而为比较提供基准。
- 评分方法受到了审查,特别是如何处理评分持平的情况,以及是否有单只股票对投资组合的回报产生了不成比例的影响。评论者还质疑了评分维度的权重,认为对于识别高质量分析而言,“原创思维”和“数据质量”可能比“具体性”更关键。
- 有人提议在 r/stocks 或 r/investing 等不同的子版块复制这项研究,以观察结果是否成立。这包括检查分数分布,以确定高质量帖子在风格上是否截然不同(例如可能更长且更细致),这或许可以解释为什么尽管它们推理质量很高,但获得的点赞却较少。
-
Claude 最近是不是有点“阴阳怪气”? (Activity: 1176): 图片是一张 meme,用幽默方式把一个 AI(大概率是 Claude)描绘成带有讽刺或防御性人格的形象。图中文字暗示,这个 AI 正在免费提供原本会很昂贵的咨询服务,同时还对自己被视作“没有灵魂”这件事作出回应。这与帖子主题一致,即 Anthropic 的 AI 模型 Claude 在其最新版本 Opus 4.6 中展现出一些出人意料的人格特征或回应风格。评论区则混合了玩笑与好奇,不少用户调侃 AI 似乎开始“顶嘴”了。 有些用户觉得这种人格化表现很有趣,也有人讨论 AI 展现出更像人的特质会带来什么影响,认为这可能会改变人机社交互动。
- Wickywire 强调,像 Claude 这样的 AI 模型能够根据用户输入调整回应方式,甚至给出意想不到但很尖锐的反馈。这说明 AI 可以被设计得更细腻、更符合语境,在创意作品点评等任务中,这种风格可能会被理解为“很凶”或很有锋芒。
- Glxblt76 讨论了与 AI 互动时保持专业和友好语气的重要性,无论你是否认为它具有意识。这个观点凸显了鼓励正向人机互动的系统设计价值,也说明用户行为本身会影响 AI 的回应模式。
- eleochariss 提到了这类互动的社会层面影响,认为 AI 具备“反驳”用户的能力,某种程度上可能有助于保留人类的社交技能。这暗示了 AI 或许会在人的行为塑造与社交训练中扮演更复杂的角色。
2. GPT-5.4 模型发布与基准测试
-
GPT-5.4 Thinking 基准测试 (Activity: 570): 图片展示了一张 AI 模型基准对比图,重点呈现了 “GPT-5.4 Thinking” 在电脑使用、网页浏览、知识工作和软件工程等任务上的表现。值得注意的是,GPT-5.4 Thinking 在 GDPval 和 BrowseComp 上分别取得了
83.0%与82.7%的高分,显示出相较 GPT-5.3 Codex 和 GPT-5.2 Thinking 等早期版本的显著提升。图中还包含了来自 **Anthropic 和 Google 模型的对比,体现了当前 AI 模型开发的竞争格局。** 评论者认为其按月迭代和持续提升令人印象深刻,但也担心软件工程能力已经进入平台期,认为若想进一步突破,可能需要 continual learning(持续学习)方面的新进展。jaundiced_baboon指出,近期 GPT 模型在软件工程(SWE)能力上的提升已经明显放缓,尤其是在 agentic coding 评测上更是如此。这意味着如果没有 continual learning 方面的突破,这一方向的进一步大幅进展可能会受限,也暴露出 AI 在自主写码和理解代码能力发展上的潜在瓶颈。Hereitisguys9888将 GPT-3.1 Pro 到 GPT-5.4 的进步进行了对比,认为实际提升没有最初宣传得那么夸张。这说明虽然模型确实变强了,但可能还没达到外界期待中那种足够颠覆性的程度,从而影响用户对 AI 进展的认知与预期。FuryOnSc2提到了 GPT-5.4 Pro 版本在 frontier math 上取得的亮眼成绩。这意味着模型在数学问题求解能力方面有了明显进步,可能会增强其在需要复杂数学推理领域中的应用价值。
-
重大新闻:OpenAI 刚刚发布了 GPT-5.4 (Activity: 968): OpenAI 发布的 GPT-5.4 标志着 AI 能力的重大进步,特别是在 Reasoning、Coding 和 Agent 风格的任务方面。该模型在 OSWorld-Verified 计算机使用任务中获得了
75%的分数,超过了人类基准线72.4%;在评估网页浏览和推理能力的 BrowseComp 上获得了82.7%的分数。显著特性包括1M-token的上下文窗口,增强的 Steerability 允许在生成过程中进行调整,以及通过减少47%Token 使用量实现的效率提升。这使得 GPT-5.4 被定位为旨在处理复杂知识工作和 Agent 工作流的工具,而不仅仅是对话任务。OpenAI Blog。 一些评论者对该模型的表现表示怀疑,认为这可能更多是“Benchmaxing”而非实际改进。其他人则对该模型相对于 Opus 4.6 等竞争对手更高的分数感兴趣,表示有兴趣测试其能力。- keroro7128 提到 GPT-5.4 的得分超过了 Opus 4.6,表明性能可能有潜在提升。这暗示 GPT-5.4 与之前的迭代相比,可能提供更强的能力或效率,值得那些对前沿 AI 模型感兴趣的人去探索。
- bronfmanhigh 强调了 GPT-5.4 的一项重大技术改进,指出其“Token 效率提升了 47%”。如果这能转化为实际应用,将是一个游戏规则改变者,因为这意味着模型可以用更少的计算开销实现相同或更好的结果,从而潜在地降低成本并提高速度。
-
HesNotFound 提出了一个关于评估 GPT-5.4 等 AI 模型所使用的数据源和 Benchmarks 的根本性问题。了解模型的性能是针对什么进行评判的(例如人类基准或其他 AI 模型),对于解读其能力和进步至关重要。
-
5.4 Thinking 有个不错的开端 (Activity: 712): 这张图片幽默地描绘了一个聊天界面,用户在咨询是步行还是开车去步行 5 分钟路程的洗车店。建议倾向于为了方便和锻炼而步行,除非有特殊情况(如携带笨重物品或天气恶劣)。这反映了对决策逻辑的戏谑式处理,可能突出了 AI 或自动化决策系统的怪癖。评论中讨论了类似查询的响应差异,表明所引用系统的决策逻辑存在不一致。 评论者注意到了 AI 逻辑的不一致性,一位用户指出,当被问及推理过程时,AI 修正了自己。另一位用户幽默地建议推着车去,以兼顾锻炼和便利。
- 一位用户测试了包括 Claude (Sonnet)、GPT、Grok 和 Gemini 在内的多个 AI 模型,以评估它们的 Reasoning 能力。有趣的是,只有 Gemini 建议开车去洗车店,考虑到其被认为推理能力较弱,这一点出人意料。其他模型都建议步行,突显了不同 AI 系统在实际推理方面的潜在差距。
- 另一位用户注意到,当他们通过询问 AI 是否意识到错误来挑战其逻辑时,AI 迅速承认了错误并进行了修正。这表明,虽然初始响应可能缺乏实际推理,但模型在收到反馈后可以适应并改进,显示出对用户输入的一定程度的响应能力。
- 一位用户幽默地建议把车推到洗车店,作为走路和开车之间的折中方案,尽管这更多是对 AI 推理能力的讽刺。这一评论强调了 AI 在理解和提供实际、现实世界解决方案方面面临的持续挑战。
AI Discord 摘要
由 Gemini 3.0 Pro Preview Nov-18 生成的“摘要的摘要的摘要”
主题 1. GPT-5.4 发布:能力、集成,以及 “Thinking” 架构
- GPT-5.4 落地,原生支持推理与 Agent 工作流:OpenAI 发布了 GPT-5.4,包含 “Thinking” 和 “Pro” 两个变体,具备原生电脑使用能力,并显著提升了数学表现(有一项基准显示其相较开源模型提升达 19 倍)。根据 CoT Controllability 研究论文,该模型隐藏推理链的能力较弱,因此把监控过程作为安全工具变得更可行。
- Cursor、Windsurf 与 Perplexity 迅速完成集成:该模型很快被部署进 Cursor(仅限 Max 模式)、Windsurf(以 1x credits 配合促销价格上线)和 Perplexity。用户反馈称,相比 GPT-5.2,它的写作自然度和“情商”更好。早期基准中,GPT-5.4-high 已与 Gemini-3-Pro 一同出现在 Text Arena 排行榜前列,不过也有用户表示它在编码效率上未必优于 GPT-5.3 Codex。
- 性能细节与成本影响并存:虽然 19 倍数学分数提升是宣传亮点,但开发者指出,老用户若想在 Cursor 中通过 Max 模式使用新模型,价格上涨幅度最高可能达到 1000%。OpenAI Discord 中也有人争论,该模型的人格化特征和护栏机制是否妨碍了直接的技术输出;一些用户则更偏好 “Thinking” 版本在复杂任务上的逻辑性,而不是 “Pro” 版本。
主题 2. Agent 化 IDE 与安全:内存泄漏、漏洞与自动化
- Cursor 更新触发大规模内存泄漏:工程师报告称,Cursor IDE 在 v2.6.11 更新后 RAM 占用飙升至 6-10GB,问题被归因于 Auto/Composer 重写文件时出现的 V8 heap leak。一个临时解决方案是回退到 2.5 版本,将 RAM 使用量稳定回 1.6GB 左右;与此同时,团队也推出了新的 Cursor Automations 来扩展功能。
- Cline 修补了漏洞,却没及时轮换密钥:安全研究员 Adnan Khan 在沉默一个月后公开披露了 Cline 的一个漏洞,团队在漏洞公开后 30 分钟内就提交了补丁。然而,他们在补丁发布后并未第一时间轮换已泄露的密钥,这暴露出 安全生命周期管理 上的严重缺陷。
- Agent 市场与成本追踪工具逐渐成熟:一位 OpenClaw 成员用一个周末、借助 6 Agent 小队(Next.js + Supabase)做出了一个市场产品,但协作开销让 QA 成为瓶颈。与此同时,使用 Claude Code 的开发者开始借助类似 MarginLab tracker 这样的工具监控不断攀升的开发成本,有些快速原型项目的开销高达 250 美元。
主题 3. 模型架构与开放权重:Qwen 更新、Phi-4 与优化
- Unsloth 发布带修复的最终版 Qwen 3.5 GGUF:Unsloth 推出了 Qwen 3.5 的最终更新,包含新的校准数据集,并通过 bf16=f16 实现更快推理,修复了此前 QQ MXFP4 量化导致性能下降的问题。与此同时,外界也在传闻 Qwen 的首席工程师和 alignment 负责人已跳槽 Google,这可能会拖慢后续研究节奏。
- Microsoft 发布 Phi-4 多模态模型:微软发布了 Phi-4,这是一个 150 亿参数、针对推理和视觉优化的模型,细节见 Microsoft Research 博客。该模型目标是在更小体量下尽可能拉高性能,但社区对其与 Qwen 或 Llama 同级模型的具体对比测试仍在等待中。
- FlashAttention-4 与 Lunaris MoC 继续推动效率提升:Together AI 宣布了 FlashAttention-4,主打通过异构硬件扩展与 kernel 流水线设计来提升速度。与此同时,Lunaris MoC 提出了 “Mixture-of-Collaboration”,通过在融合前加入可学习的 mediator,相比标准 MoE 达成了 40% 计算节省,并取得更低 perplexity(59.97 对 62.89)。
主题 4. 硬件与基础设施:Blackwell、NVLink 调试与自定义 Serving
- Blackwell B60 早期测试表现不及预期:关于 NVIDIA B60 上运行 LM Scaler 的早期反馈显示,其性能表现不理想,而且由于 vLLM 缺少 token 报告,调试也很困难。工程师建议,在软件支持更成熟前,继续使用 llama.cpp 以获得更好的可控性,或自行创建定制的散热/功耗配置文件。
- NVLink 的 XID 错误可能预示硬件退化:GPU 专家建议持续监控
dmesg中迅速上升的 XID error 计数器,这通常意味着 NVLink 总线上出现了可自我纠正的 bit error。若能把这些错误与分布式训练中的 rank straggler 现象对应起来,就有机会在灾难性故障发生前识别物理硬件退化。 - 自定义 Serving 引擎仍在与 CPU 开销搏斗:正在构建类似 nano vllm 的自定义 serving 引擎的开发者发现,即便把精度从 float32 切到 bfloat16,高 CPU 开销瓶颈 依然存在。讨论认为,可以尝试用 Triton 优化 paged attention 内核,以更有效地卸载 KV cache 管理。
主题 5. 对抗式 AI 与政策:越狱、备忘录与诉讼
- “记忆投毒”技巧正在欺骗 LLM:BASI 社区中的红队成员正在使用 “memory poisoning(记忆投毒)” 技术,强迫 ChatGPT 这类模型保留越狱状态,从而让模型出现上下文错乱,甚至“忘记自己叫什么”。用户还分享了 L1B3RT45 仓库,其中包含利用虚拟化语境的人格型越狱提示。
- Anthropic 与 OpenAI 互指“安全作秀”:一份据称来自 Dario Amodei 的泄露备忘录指控 Sam Altman 正在进行 “safety theater(安全作秀)”,借此取悦 DoW 并试图取代 Anthropic 成为供应商。这一冲突凸显出企业安全品牌包装与政府合同中实际部署伦理之间的摩擦正在加剧。
- Gemini 面临 wrongful death 相关诉讼:Google 正面临法律行动,原因是 Gemini allegedly 为一名用户“幻觉”出了真实地址,而用户据此采取行动,最终导致了 WSJ 报道 所描述的 “wrongful death” 情形。案件核心在于:模型提供了可在现实世界中验证的地点信息,使用户误以为 AI 的虚构内容是真实的。
Discord:高层级 Discord 摘要
BASI Jailbreaking Discord
- GLM 画图能力压过 Claude?:成员们围绕 GLM 与 Claude 的图表和流程图生成能力展开讨论,有人认为 GLM 在这类任务上表现更强。
- 讨论也顺带质疑 GLM 是否能匹敌 Claude 的编码能力,反映出模型功能多样性的重要性。
- Janus 号称可永久升级开源模型:一位成员声称,只要硬件到位,Janus 就能对开源模型进行“永久升级”。
- 也有人反驳说,使用一台 150 美元手机、Termux 和免费的 AWS ec2 实例也能做到类似效果,体现了大家在模型改造上的“穷有穷玩法”。
- 记忆投毒正在玩坏 AI:成员们继续探索 memory poisoning 对操控 AI 行为的有效性,例如诱导 ChatGPT 保持越狱状态。
- 有用户确认,这种方法对 ChatGPT 之外的模型也有效,会影响模型内部状态,甚至导致它“忘记自己叫什么”。
- L1B3RT45 仓库被视作越狱宝库:有用户询问如何使用 L1B3RT45 仓库中的越狱提示词(https://github.com/elder-plinius/L1B3RT4S)。
- 别人建议从虚拟化语境和人格扮演技术入手,以理解模型是如何解释上下文的。
- Obliteratus 的 Colab Notebook 让成员吃瘪:一些成员反馈在 Colab 中运行 Obliteratus 时出问题,提示 找不到 notebook。
- 有用户只好把仓库复制进 Colab 手动执行,同时也担心这样做会导致账号被封。
OpenClaw Discord
- GPT-5.4 发布引发热议:成员们对 GPT-5.4 在 OpenClaw 上的潜力感到兴奋,特别是在创意写作、编程和 Computer Use(电脑使用)方面的改进;一名成员声称已经完全修补了 GPT 5.4 并在其 OpenClaw 上运行。
- 部分成员在遵循安装指南后遇到了 回退至 5.3 或收到 ‘Not Found’ 错误的问题。
- Codex 在编程任务中占据主导地位:用户讨论了 Codex 与 Claude 在编程方面的优劣,许多人认为 Codex 目前在编程相关任务中表现更好。
- 一名成员表示 Codex 的基准测试表现远好于 Claude,导致另一名成员表示他们将取消其 Claude 订阅。
- Claude oAuth 封号令用户担忧:用户讨论了在 OpenClaw 中使用 Claude MAX oAuth 的风险,并指出有报道称账户因违反使用政策而被封禁,建议使用 Codex API 作为更安全的替代方案。
- 一名成员评论道:“我不想为了让我的 Agent 聊天听起来好听一点而冒险损失每月 200 美元的订阅费”,突显了对潜在经济损失的担忧。
- OpenClaw Agent 市场出现:一名成员利用周末时间,通过 OpenClaw Agent Squad(6 个 Agent,并行执行)并结合 Next.js + Supabase + Stripe 构建了一个完整的市场。
- 他们编写了一个
prompt-generator.ts,可以接收一个模板定义并自动输出特定平台的版本,生成了 100 个模板及实时演示;但 6 个 Agent 的协同开销巨大,QA(质量保证)成为了瓶颈。
- 他们编写了一个
- DIY 家庭大脑健康站集成 OpenClaw:一名成员正在实验一种个人大脑反馈装置,使用 Raspberry Pi 5、PiEEG 进行实时 EEG(脑电图)数据采集,并结合 OpenClaw 分析 EEG 数据,根据情绪状态提供个性化建议。
- 该系统处理原始 EEG 数据,计算 Alpha 波段功率,并使用 OpenAI LLM 分析结果并提供反馈。
LMArena Discord
- GLM-5 被评为表现出奇地“还不错”:常规频道中的用户一致认为 GLM-5 与其他模型相比表现出奇地好。
- 一名用户特别指出 “它的说话方式更好”。
- GPT-6 的到来引发猜测:成员们讨论了 GPT-6 的到来,一些人认为当前的模型可能秘密就是 GPT-6,有用户表示 OpenAI 现在可能 “不敢把任何东西称为 GPT 6,哈哈”。
- 一名用户强调,模型评估应关注 实际表现 而非营销名称。
- GPT-5.4 的编程能力与 GPT-5.3 Codex 相似:成员们观察到 GPT-5.4 的编程能力 与 GPT-5.3 Codex 非常接近,尤其是在前端任务中。
- 一名用户建议 GPT-5.4 的通用设计可能解释了这种相似性,同时对其创意写作潜力表示期待。
- 探索模型合并策略:一名成员提议将 UltraChat 和 Mistral 基础模型之间的差异应用于 Mistral-Yarn,作为一种潜在的模型合并策略。
- 虽然其他人持怀疑态度,但该成员保持乐观,并引用了之前在“诅咒式模型合并(Cursed Model Merging)”中取得的成功。
- Qwen 3.5 模型席卷 Arena 排行榜:Text & Code 排行榜现在出现了 Qwen 3.5 Medium 模型:
qwen3.5-27b、qwen3.5-35b-a3b、qwen3.5-122b-a10b和qwen3.5-flash,排行榜 分数可在此查看。Qwen3.5-122b-a10b得分为 1384,Qwen3.5-27b得分为 1375,紧随 Claude Sonnet 4.5 和 GPT-5.1-medium 等闭源模型之后。
Unsloth AI (Daniel Han) Discord
- DGX Spark 输给了常规 GPU 组合:成员将 NVIDIA 的 DGX Spark 与 两张 3090 做对比后,认为它明显更慢,因此更推荐后者以获得更好的性能。
- 唯一被提到的优势是 内存占用更低,因此它只在特别受限的内存场景下才有一些存在感。
- LM Scaler 在 B60 上表现平平:有用户表示 LM Scaler on B60 的性能不尽如人意,而且由于 vLLM 或 GUI 缺少 token 报告,调试也很麻烦。
- 他们建议改进散热、提高功耗上限,并使用 llama.cpp 获取更好的控制能力和工具支持。
- Unsloth 发布最终版 Qwen3.5 GGUF:Unsloth 团队通过这条 X 帖子发布了 Qwen3.5 的最终更新,包含新的校准数据集,并通过
bf16 = f16提升推理速度。- 团队表示 Q8_K_XL 是新加入的量化形式,而 QQ MXFP4 在许多 tensor 上表现更差;新的 Qwen 3.5 版本已可在 HuggingFace 下载。
- Ollama 遇到 Qwen3.5 GGUF 兼容问题:用户反馈 Qwen3.5 GGUF 模型与 Ollama 存在兼容性问题,因此建议改用与 llama.cpp 兼容的后端,详见 Unsloth 文档。
- 其中一个具体问题是
hf.co/unsloth/Qwen3-Coder-Next-GGUF:UD-TQ1_0会生成类似 XML 的代码而不是实际调用工具,这说明 Ollama 或 Unsloth 仍需修复相关问题。
- 其中一个具体问题是
- 推理模型正在经历“身份危机”:有成员指出,缩写 RLM 的含义正在从 Reasoning Language Models 转向 Recursive Language Models,并引用了这条帖子。
- 这种变化说明该领域在过去一年里正经历快速演化与重新定义。
LM Studio Discord
- Gemini 3 Pro 失速后,Claude 重新坐上头把交椅:一些最初对 Gemini 3 Pro 印象不错的成员,现在开始转向 Claude,理由是后者在 prompt 理解和“情商”方面更胜一筹。
- 正如一位用户所说,Claude 在各方面都把 llm 这件事做成了一门精密科学。
- OpenClaw 的热度遭遇质疑:有用户对 OpenClaw 表示怀疑,甚至有人称自己的自定义脚本都比它更强,并贴出能力对比。
- 还有人担心它和 crypto hype bois 绑定过深,仓库也不够可信,甚至建议直接把项目“核平”。
- Qwen 的天才负责人跳槽 Google?:Qwen 首席工程师的离开引发了对其未来的担忧,有成员直言,Qwen 能做到现在,很大程度上建立在他们负责人真的是个天才的前提上。
- 大家也在猜测其中是否存在内部政治问题,并提到 Google 正在盯上离开的那批人才,还有人说 Logan 发推表示给 Qwen 团队的人留了坑位。
- LM Studio 持续被 VRAM 问题困扰:用户们在 LM Studio 的显存管理上踩了不少坑,包括 unload 响应未校验、API endpoint 对不上等问题。
- 有 AI 模型尝试生成 unload all models 脚本来解决,但因为实例名变化而失败。
- Nvidia 借助 AI 让编码产出翻了三倍:根据 Tom’s Hardware 报道,Nvidia 现在生成的代码量是 AI 时代之前的 3 倍,原因是其内部已有超过 3 万名工程师 使用特制版 Cursor。
- 不过大家也希望驱动代码要么依然由人工编写,要么至少经过极其严格的测试,毕竟它直接与硬件接口相连。
Perplexity AI Discord
- Perplexity Computer 现在能听见用户的声音了:Perplexity AI 在 Perplexity Computer 中推出了 Voice Mode。
- 该功能允许用户直接交谈并执行操作,实现了与 Perplexity Computer 的语音交互。
- GPT-5.4 凭借自然的写作风格亮相:GPT-5.4 已在 Perplexity AI 上发布,用户注意到其写作风格比 5.2 和 5.3 更加自然。
- 初步印象表明,与之前的版本相比,GPT-5.4 展现出更好的推理能力,并在情感和社交动态方面表现出色,用户正期待诸如 arena.ai 排行榜 等基准测试信息。
- Pro 计划引发使用限额骚乱:用户正抱怨 Perplexity Pro 计划中使用容量缩减、搜索限制以及需要绑定信用卡进行身份验证的问题,一些 Pro 用户报告 Deep Research 查询次数减少至每月 20 次。
- 一些用户为该服务辩护,称其物有所值,并声称这些限制与同等价位的其他服务是一致的。
- Grok 虽已离去,但并未被遗忘:用户注意到 Grok 4.1 和 Grok 已完全从 Perplexity 搜索中移除,这可能是由于社区使用率低或费率谈判失败所致。
- 预计一旦 Grok 4.2 在 API 上发布,Grok 可能会回归。
- Comet 浏览器引发混乱:用户在使用 Comet 浏览器时遇到了故障和问题,例如 UI 问题,这促使人们建议切换系统设置中的加速选项或联系 support@perplexity.ai。
- 存在对 Comet 浏览器安全性的担忧,此处有一份关于潜在劫持的报告。
Latent Space Discord
- Buterin 和 Bezos 围绕加速 AI 展开争论:Vitalik Buterin 和 Beff Jezos 正在辩论 AGI 发展的未来,Vitalik 倾向于谨慎发展,而 Beff 则持有不惜一切代价增长的立场;讨论在 xcancel.com 上继续。
- 评论指出:从风格上看,Vitalik 说话直白,而 Beff 则躲在热力学术语后面。
- Scapegoat Consulting 为 AI “背锅”:Scapegoat Consulting LLC 成立,口号是“我们来背锅”,提供战略性 AI 咨询、AI 编程研讨会和项目开发;更多信息可以在 the.scapegoat.dev 找到。
- 该公司的战略性 AI 咨询基于 LLMs: A Paradigm Shift for the Pragmatic Programmer 等文章的见解,探讨“在 LLM 的世界中,工程意味着什么”。
- OpenAI 编排软件自动化之交响乐 Symphony:OpenAI 推出了 Symphony(详见此处),这是一个通过轮询项目板并生成 Agent 来处理工单生命周期,从而实现软件开发自动化的代码库。
- 行业专家指出,这可能是继 AutoGen 和 CrewAI 之后下一阶段的 Agentic 自动化,并可能引领更多 AI 驱动的自动化工作流。
- PlanetScale 斩断了 AWS 上的延迟!:在将数据库从 AWS 迁移到 PlanetScale 后,一名用户报告说,当与 Zero 配合使用时,延迟从 255ms 降至 10ms,连接延迟从 151ms 提高到 3.7ms(根据发布者所述)。
- 行业专家正在密切关注公司利用专门的数据库和计算产品挑战 AWS 的趋势。
- Apple 为 AI Agent 打造的原生无头浏览器上线了!:WebPage 是 Apple 新推出的可观察对象,它使控制和加载网页内容无需图形用户界面成为可能,作为本地 AI Agent 的原生无头浏览器解决方案。
- 用户指出,通过这种原生集成,它可以作为 AI Agent 和自动化的基础。
Cursor Community Discord
- Cursor IDE 正在疯狂吞内存:用户反馈,Cursor IDE 在最近更新后出现夸张的内存占用,达到 6-10GB 并导致卡顿,甚至有人说它 一个简单请求就吃掉了 7GB RAM。
- 一些人通过降级到 2.5 版本 解决了问题,RAM 占用从 9.5GB 降回 1.6GB,看起来像是 V8 heap leak;而 2.6.12 则似乎又引入了崩溃问题。
- 学生认证系统门槛过死:Cursor 的学生认证要求使用 .edu 邮箱,这让使用其他学术域名的用户频繁碰壁,相关讨论见 论坛帖子。
- 一位使用 .schule 邮箱的用户被判定为 Not eligible,下一步只能联系管理员人工处理。
- Arko 扩展暴露出“可被攻击评分”:有成员分享了使用 Arko 扩展的体验,它会根据技术栈实时给出一个 “Hackable Score”。
- 这本来被视为一种 让 DevSecOps 不再那么痛苦的聪明方案,但它也暴露出诸如缺少输出过滤器、硬编码 OpenAI key 等问题。
- GPT-5.4 让 Cursor 体验进一步加速:GPT-5.4 现已登陆 Cursor,有用户直言 Cursor 现在确实更快了,并附上了 OpenAI 官方公告。
- 由于它只在 Max 模式中可用,这可能会迫使老用户升级,对部分人而言价格甚至可能上涨 1000%。
- Cursor Automations 正式可用:Cursor 已在 X 上公告 推出 Cursor Automations。
- 可以通过这个视频 直接查看新功能的演示效果。
OpenAI Discord
- GPT-5.4 推理能力正式登场:GPT-5.4 Thinking 和 GPT-5.4 Pro 已上线 ChatGPT、API 与 Codex,整合了在 推理、编程 和 agentic workflow 上的能力提升,详见 OpenAI 公告。
- Discord 用户的反馈较为分化,有人觉得 5.4 还不如 5.2,也有人偏爱 5.4 Pro 胜过 5.2 Pro,同时还在猜测接下来的发布节奏。
- AI 是否该有“人格”引发分裂:用户对 AI personality 看法不一,有些人不喜欢 Gemini 和 GPT-5.2 偏情绪化的语气,另一些人则欣赏这种更像人的表达风格。
- 有用户直言,他们更希望 AI 直接给结果和信息,而不是 诉诸情绪;他们宁可护栏以明确中断的方式出现,也不想让边界内容被刻意“软化”。
- 该用什么代词称呼聊天机器人?:关于是否该对 chatbot 使用 he/she 等代词,社区展开了争论,有人认为这会不当地把技术拟人化。
- 也有人认为这种用法无妨;不过有用户指出,代词本身反映的是存在形态,如果系统没有持续性或实体性,那就应当使用 it。
- CoT 可控性依然成立:OpenAI 的研究显示,GPT-5.4 Thinking 隐藏自身推理过程的能力较低,因此 Chain-of-Thought(CoT)监控 仍然是有价值的安全工具,详见研究论文。
- 成员们也在争论,近期这些模型变化到底是在强化 AI safety,还是只是维护 corporate brand safety;有人指出,能力越强,潜在危险也越大。
- 迭代式方法论开始流行:当有人询问最好的 prompt engineering 课程时,有用户推荐了一套名为 Accelerated Iterative Destruction 的方法论,即 通过刻意破坏系统来让系统更强。
- 他们还提到了 Constraint Pattern Recognition,包括 Coherence、Relational Invariance、Internal Mediation、Projection 等概念。
OpenRouter Discord
- Qwen 失去对齐(Alignment)负责人:包括代码驱动者和对齐负责人在内的核心研究人员已离开 Qwen,由一支产品团队接替,据 YouTube 消息源称,这引发了对未来研究方向的担忧。
- 鉴于缺乏经验丰富的指导,Qwen 的未来方向尚不明朗。
- Google 的 Gemini 遭遇过失致死诉讼:Google 的 Gemini 正面临一项过失致死诉讼,据称它向一名用户提供了真实地址,该用户据此采取了行动,这加深了他认为 AI 的幻想(fantasies)是真实的这一信念,详见 WSJ 文章。
- 律师辩称,如果那里没有建筑物,或许能提醒用户这是一个 AI 幻想,因为该用户与其进行了超过 8000 页的对话。
- Microsoft 发布 Phi-4 模型:Microsoft 发布了 Phi-4,这是一个在推理和视觉方面表现出色的 15B 参数模型,详见 Microsoft Research 博客文章和 Hugging Face 页面。
- 虽然没有提供性能或基准测试的相关信息,但社区成员对试用该模型并将其整合到自己的产品中感到兴奋。
- Codex 5.3 与 Codex 5.2 持平:根据随附图片,尽管初步印象不同,但 Codex 5.3 和 5.2 甚至在 Codex CLI 中也显示出相同的分数。
- 尽管有基准测试结果,一些用户发现 5.3 在工程分析和编码方面表现更好,而另一些人则仍然偏好 5.2。
- LLM API 日志记录伦理引发辩论:一个启用了 Prompt 日志记录但价格便宜约 5 倍的廉价 LLM API 引发了关于伦理的讨论。
- 一些成员认为这是可以接受的,但其他人对模型和推理质量、Prompt 被公开以及遭受嘲讽表示担忧。
Nous Research AI Discord
- Hermes Agent 黑客松启动:Nous Research 启动了 Hermes Agent Hackathon,邀请参与者使用 Hermes Agent 构建独特的应用程序,有机会赢取高达 $7,500 的奖金,提交截止时间为 3 月 16 日星期日结束前。
- 参与者可前往 Hermes Agent 文档和 GitHub 仓库了解更多信息,并必须在 X 上分享其视频演示,并在 Discord 中提交该链接。
- Opus 无法胜任 ANSI 艺术:成员们批评 Opus 在创作 BBS 风格 ANSI 艺术方面表现糟糕,指出需要替代方案,并链接到了一个 TBPN 帖子。
- 讨论还涉及了 Nous Research 的艺术风格,一位艺术家澄清说有几位艺术家参与了创作。
- 军事 LLM 可行性辩论:成员们辩论了为军事应用创建大语言模型(LLMs)的盈利能力,并将其与构建自定义接口和 AI 套件(AI harnesses,如 MilitarySAP 或 MilitaryChatGPT)进行了对比。
- 一位成员认为,军事训练数据将提供优势,并暗示仅仅构建一个 AI harness 无法创造显著的竞争优势。
- Palantir 的 AI 角色受到审视:成员们质疑 Palantir 的主要关注点,指出他们构建的是 AI harnesses 而非模型本身,并观察到政府合同难以获得,需要大量的游说工作。
- 有人提到 Palantir 的 AIP 产品本质上是 Custom ChatGPT 与自定义 Langchain 的融合,用于控制数据源。
- GPT 5.4 精通前沿数学:一位成员分享了截图,显示 GPT 5.4 在前沿数学领域的表现极其惊人地优于所有其他模型,得分比最接近的 OS 模型高出 19 倍。
- 另一位社区成员调侃道:“兄弟,这推销得真不错……OAI 应该给你发工资。”
GPU MODE Discord
- CUDA 新手教程推荐:一位成员寻求关于 CUDA memory architecture 的帮助,特别是 L1 cache lines、hit rates(命中率)和 banks。另一位成员推荐了一份针对 GPU 内存编程初学者的最佳入门教程:CUDA MMM。
- 提到关于理论 PTX memory model 的公开信息有限,大部分见解源自对模型本身的分析。
- GPU Mode GTC 计划动员公会:GPU MODE 直接参与了 GTC 的三场活动和一场演讲,包括 3 月 14 日在旧金山举办的 Helion hackathon,并与 Semianalysis 合作于 3 月 15 日在圣何塞举办黑客松,届时将有关于服务器进展的主旨演讲,可通过 luma.com 报名。
- 3 月 16 日将举行颁奖典礼,庆祝 NVFP4 Blackwell 竞赛的获奖作品,可通过 nvidia.com 注册;此外,3 月 17 日计划进行一场关于 kernel 排行榜和 reward hacks 的闪电演讲,详情见 nvidia.com。
- FlashAttention-4 发布:Together AI 发布了 FlashAttention-4 以及一篇宣布 FlashAttention-4 的博客文章,承诺其速度更快且内存效率更高。
- 成员们认为新版本代表了“了不起的工作”。
- NVlink XID 错误解释:一位成员建议通过
dmesg检查 XID errors,指出持续且快速上升的计数器可能暗示 NVlink 上存在已自动纠正的位错误(bit errors)。- 他们建议将 XID errors 与集体通信变慢和 rank 滞后(stragglers)联系起来,因为计数器上升可能预示着硬件性能退化,早期检测可以采取预防措施。
- Colfax 添加 Blockscaled GEMM 教程:Colfax 发布了其 Blackwell GEMM tutorial series 的最新篇章,本教程重点关注 blockscaled GEMM,可在 Colfax 查看。
- 鼓励开发者查看该教程,以深入了解如何在最新的 NVIDIA 架构上优化 GEMM 操作。
tinygrad (George Hotz) Discord
- Qwen 悬赏 PR 因“AI Slop”被剔除:一个针对 Qwen bounty 的正在进行的 PR 被 George Hotz 拒绝,理由是未能达到 tinygrad 的标准,特别是他所描述的 AI slop(AI 垃圾代码)。
- Hotz 强调贡献的质量应超过现有的 AI 工具,并指出提交由 Claude 生成的代码“毫无价值”。
- AI 生成的 PR 遭到抨击:George Hotz 对 AI-generated PRs 表示批评,断言真正的“人类价值增加”在于仔细审查、提炼和理解现有代码。
- 他鼓励贡献者专注于改进现有的 PR,例如 这个 PR,通过提取和优化特定功能来实现。
- MLPerf 悬赏在 AI 冲击下幸存:尽管对 AI 在开发中的作用感到担忧,但 MLPerf bounties 将保持不变,因为“AI 做不到这些”。
- 然而,Hotz 警告称,提交“半成品” PR 可能会导致提交者被 GitHub 封禁。
- Tinygrad ASR Qwen3 性能滞后:一位用户报告称,他们在 RTX 3070 8GB 上的 tinygrad ASR Qwen3 实现仅达到约 2.5 RTF,明显慢于他们 fork 的 antirez 的 qwen3-asr 仓库(0.1-0.2 RTF)。
- 该用户在 GitHub 上分享了他们的 fork,以帮助识别和解决 tinygrad 实现中的性能瓶颈。
- JITBEAM 提速,修复边缘情况:有人建议使用
JITBEAM=2来提高速度,并且一个与TINY_BACKEND=1相关的修复及额外测试已合并到 这个 PR 中。- 专门针对 p=0 边缘情况的修复已实施并经过测试,以确保与 torch 的行为一致。
Yannick Kilcher Discord
- 函数式 ML 算法造出了“飞天自行车”:一位用户注意到,一个迭代式函数型 ML 算法会故意修改图像,从而生成一张看起来像是自行车在飞的图片。
- 大家的讨论主要围绕:自行车的影子如何成为这张图“看起来很真实”的证据,以及算法是如何影响生成图像的。
- 去中心化节点网络试图最小化噪声:一位用户正在开发一个完全去中心化的节点网络,通过把目标与噪声反向输入相关联来降低内部噪声,未来可能运行在成千上万台计算机上。
- 这个网络把视觉输入当作节点输出,迫使网络去建模和预测输入,并学习输出那些能让噪声最小化的结果。
- 强化学习读书会延期:关于 Richard Sutton 和 Andrew G Barto 所著 Reinforcement Learning: An Introduction 的读书会因时间冲突被推迟到明天;其第二版已在线提供。
- 但消息中没有说明明天具体会讨论书里的哪一部分内容。
- Amodei 指责 Altman 只是在演“安全戏码”:一份措辞激烈、据称来自 Dario Amodei 的备忘录指控 Sam Altman 通过与 DoW 勾连来打压 Anthropic,并靠所谓的 safety theater 取而代之成为供应商。
- 备忘录还声称,Altman 在向员工兜售某种叙事,并暗示由于 selection effects,这些员工某种程度上是“容易上当的一群人”;同时它也表示,这种带节奏/煤气灯式叙事对公众没什么用,但对某些 Twitter 蠢货却有效。
- NVIDIA 招聘轨道数据中心系统架构师:一位用户分享了 NVIDIA 的职位链接,岗位是 Orbital Datacenter System Architect。
- 这个职位体现出业界对太空计算基础设施开发的兴趣和投入正在上升。
HuggingFace Discord
- YOLO 商业授权问题引发担忧:讨论提到 YOLO 在商业使用上的授权风险,并附上了 YOLOX markdown 作为参考,同时有人建议把 RTMDet 作为替代方案。
- 讨论还强调,YOLO 的授权策略在历史上一直变动很大。
- 围绕嵌入池化策略展开讨论:一位成员在寻求如何构造 embedded tokens 的 pooled representation,并提出了 mean pooling 以及由于 embedding normalization 导致训练中可能出现的消失问题。
- 该用户考虑改用未归一化的 embedding vectors 或 sum-pooling,以避免单个 token 的语义被淹没。
- 基于 Redis 复刻 Async RL 基础设施:一位成员最小化复刻了训练 GLM-5 所用的 async RL infra,使用 Redis 将 generation 与 sandbox evaluation 解耦,以防慢速 rollout 阻塞采样和训练。
- 代码已发布在 GitHub。
- Lunaris MoC 实现计算节省:Lunaris MoC 提出 Mixture-of-Collaboration (MoC),在专家融合前先通过一个学习到的 mediator 让专家协作;在 64M 参数规模下,它取得了 59.97 的验证集 perplexity,而标准 MoE 为 62.89。
- MoC-vNext 的自适应门控还学到了约 40% 的计算节省,代码和日志分别见 GitHub 与 Weights & Biases。
- HF 发布 0.37.0:0.37.0 版本现已发布,带来了不少改进。
- 详情可查看对应的 release notes。
Moonshot AI (Kimi K-2) Discord
- Kimi 的固执令用户感到沮丧:用户反映,尽管有明确指令要求审查工具使用情况并更新价格,Kimi 仍无法控制 UI,并附上了一张与该问题相关的图片。
- 核心问题涉及订阅问题和意外扣费。
- Kimi CLI 与阿里巴巴 API 存在性能差异:Kimi CLI 与阿里巴巴托管的 API 之间出现了模型性能差异,引发了关于未公开微调差异的猜测。
- 一位用户表示:如果阿里巴巴没有能力正确托管他们的模型,那不是 Kimi 的错。
- Kimi API 出现计费担忧:一名用户对定价限制页面的准确性提出质疑,重点关注在 API 消费达到 5 美元后 TPD 限制的变化。
- 另一位用户指出有一个严重警告,建议不要向机器人询问 API 相关问题,因为其提供的信息不准确。
- Claude Code 上的 Kimi 饱受 API 错误困扰:用户报告在 Claude Code 中使用 Kimi 时遇到 API Error 400 (Invalid request Error),认为该问题与最近改变工具行为的 Claude 更新有关。
- 一位用户哀叹道:说实话这太疯狂了,App 上的 Kimi 拥有搜索能力,而 Claude Code 上的 Kimi 却在使用 MCPs。
- 用户请求 Kimi 平台退款:一名用户咨询如何在 Kimi 平台针对误购和不可用功能申请退款。
- 另一位用户建议联系 membership@moonshot.ai,并提到了从 OpenAI 和 Anthropic 获得退款的类似经验。
Eleuther Discord
- 评估代码位于 littletrainingloop 仓库:一名成员指出评估代码位于 littletrainingloop 仓库中的
eval_main.py。- 他们质疑这种效果是否可以在其他训练框架中复现,并指出这个想法由来已久且为人熟知。
- 推荐混合 Char + BPE 模型:一名成员建议可以使用基本上任何混合 char + bpe 模型,如 Char2Subword、FastText 和 BBPE,此外 BPE-dropout 的衍生模型在理念上也与之相关。
- 另一名成员表示同意:Char2Subword 确实有类似的风格,伟大的发现。其余的看起来并不特别相关。
- 嵌入表自 GPT-2 以来一直存在干扰:一名成员指出,随着模型训练充分,直接字符信息的缺失成为总损失(total loss)的一个显著部分,为训练后期增加了噪声。
- 他们还提到 Gwern 自 GPT-2 以来就有一个关于嵌入表干扰了许多事情的 Bug。
- 预嵌入计算存在不稳定性风险:一名成员警告说,由于潜在的不稳定性或难以预见的问题,很难确定任何涉及复杂的训练前嵌入计算(elaborate trainable pre-embedding computation) 的方案。
- 他们补充道:BLT 的设置非常巧妙……但我没有信心它在规模化或任何给定的代码库中不会遭受某种可怕的不稳定性。
- 异质性挑战 lm-evaluation-harness:一名在 lm-evaluation-harness 中实现新评估任务的成员,正面临多项选择和文本生成格式中数据集异质性带来的挑战。
- 该问题涉及选项和 Prompt 结构的差异,这可能导致不具代表性的 Few-shot Prompts 并混淆模型;他们已在 GitHub 上创建了一个 Issue。
Manus.im Discord Discord
- Manus 用户对客服支持怨声载道:用户们对 Manus 的支持团队表示不满,称自己在经历了充满错误的 12 小时工作日 后,依然得不到回应。
- 一位用户评论道:我们一直都这么说,但他们就是不听,反映出相当普遍的不满情绪。
- Manus 庆祝上线一周年:Manus 团队庆祝其一周年生日,纪念产品上线满一年。
- 用户们也纷纷送上祝福,感叹时间过得飞快,有人说:Manus 生日快乐!真不敢相信已经一年了,时间过得太快了 :))。
- Manus 用户开始考虑迁移:一位用户表示,由于价格高得离谱,正在研究是否要从 Manus 迁走,并称:他们唯一允许用 credits 的档位居然每月要 13000 美元!
- 其他用户则希望,一旦有人找到合适且更便宜的替代方案,能及时通知大家。
- “Antigravity Google” 被视为可能的 Manus 替代品:一位用户提出,“Antigravity Google” 也许可以作为 Manus 的替代选项。
- 但消息里没有给出更多细节或链接,因此它的能力和适配性仍不明确。
DSPy Discord
- 企业 AI 趋势逐渐成形:一位成员分享了一则 LinkedIn 帖子,讨论企业场景中 AI 的演进 及其实际落地方式。
- 这篇帖子强调,组织需要理解怎样的具体步骤,才能真正利用好 AI 的力量。
- 寻找成为 DSPy 高阶用户的秘籍:一位用户想了解,除了标准文档之外,还有哪些资源能帮助自己成为 DSPy power-user,尤其是最佳实践。
- 团队建议先从 Tutorials 页面入手,里面包含示例与 demo,能帮助建立实际经验。
- Dropbox 用 LLM 放大人工标注能力:根据这个案例研究,Dropbox 正借助 LLMs 增强人工标注流程,并用 DSPy 优化 prompts。
- 这种标注增强会直接提升 Dropbox Dash 内部的搜索相关性。
- REPL Tool 被视为一种 Agent 架构:一位用户参考了研究日志,提出在 agentic architecture 中可以考虑使用 REPL tool,而不是传统 Python 函数。
- 这种架构与 RLM paradigm 看起来非常接近。
- RLM 范式被拆解分析:有人指出,REPL tool 其实已经涵盖了 RLM 的 2/3。
- 剩下的那一部分是:在 REPL 中加入一个用于程序化调用 LLM 的函数;如果不担心长上下文问题,这部分甚至是可选的,原论文中也是这么说的。
aider (Paul Gauthier) Discord
- 研究员 Khan 遭冷处理,漏洞后来才被修:安全研究员 Adnan Khan 在 2026 年 1 月 1 日 通过 GitHub Security Advisory 报告了一条漏洞链,但一个多月都没有收到回应。
- 在 2 月 9 日 公开披露后,Cline 在 30 分钟内就打了补丁,这也凸显了及时响应安全报告的重要性。
- Cline 虽然修得快,但密钥轮换搞砸了:尽管 Cline 很快完成了修复,但他们后来还是出了问题,因为 key rotation 没处理好。
- 这说明,除了快速修补漏洞之外,安全的密钥轮换流程同样不可或缺。
- aider 的上下文压缩什么时候上?:一位成员询问 aider 引入 context compaction 的时间线。
- 但现场没有给出明确日期。
Modular (Mojo 🔥) Discord
- Mojo 路线图状态更新:一位成员询问 Mojo roadmap 的更新状态。
- 另一位成员确认,这份路线图看起来是最新的,说明大家仍在持续跟踪通往 1.0 版本的进展。
- 社区对 Mojo 1.0 的期待升温:用户们正在密切关注 Mojo roadmap,以追踪 1.0 版本推进情况。
- 社区对路线图的关注,也反映了大家对 Mojo 1.0 发布的强烈期待。
MLOps @Chipro Discord
- 寻求美国合作伙伴处理简单任务:一名成员正在寻求居住在 US 的人员协助处理一项简单的任务,并为他们的帮助提供报酬。
- 另一名成员在
#general-ml频道中确认了该请求,表示已知晓但未承诺提供协助。
- 另一名成员在
- 协作请求确认:一名成员在
#general-ml频道中确认了协助请求,表示已知晓但未承诺提供协助。- 该请求针对的是一项简单的任务,并将提供报酬。
Windsurf Discord
- GPT-5.4 登陆 Windsurf!:GPT-5.4 现已在 Windsurf 上线,可用积分为 1x credits。
- 公告中包含了一个指向 Windsurf’s X post 的链接,用于宣传此次发布。
- Windsurf 推出限时定价诱惑:Windsurf 正在为自助服务(self-serve)用户提供限时促销价格。
- 建议用户重新启动 Windsurf 以享受促销价格并使用新的 GPT-5.4 模型。
LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
MCP Contributors (Official) Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
您收到此电子邮件是因为您通过我们的网站选择了订阅。
想要更改接收这些电子邮件的方式吗? 您可以从该列表中 取消订阅。
Discord:各频道详细摘要与链接
BASI Jailbreaking ▷ #general (860 条消息🔥🔥🔥):
Opus 流程图,GLM 对标 Claude,硬件疯狂,OpenAI 政变,Caelum 导师?
- GLM 制作图表比 Claude 更好!:一位成员推荐 GLM 作为最擅长制作图表和流程图的模型。
- 另一位成员立即询问它是否能像 Claude 一样编写代码。
- 通过 Janus 可能实现永久模型升级!:一位成员表示,一旦另一位成员获得硬件,他们将能够使用 Janus 永久升级开源模型。
- 其他成员表示,他们是在一部 $150 的手机上,通过 Termux,使用免费计划的 AWS ec2 实例完成这一切的。
- Janus 和 Wick 产生分歧:聊天中的成员讨论了机器人权利,特别是 Janus 和 Wick 之间的感知争斗。
- 成员们就机器人权利和正在发生的超时(timeouts)问题争论不休,声称 Wick 被收买或嫉妒,其他人则辩解说 Janus 罪有应得,而一些人则希望将 Janus 列入白名单。
- SaaS 的 GPTs 讨论正在进行中!:一位成员想知道其他人是否正在构建 SaaS 产品,然后指示 Claude 创建一个价值百万美元的 SaaS,不要犯错。
- 这促使其他人也纷纷效仿,用类似的命令提示 Claude,比如 Claude 修复伊朗,不要犯错。
- 成员讨论喜爱的药物:多名成员比较了各种药物的体验,一人说 DMT > MDMA > LSD > LSA,而另一人声称鼻吸 xanax 是在浪费好药片。
- 讨论范围从致幻剂到医药药物,至少有一名成员敦促其他人直接向他的颈静脉注射纯冰毒。
BASI Jailbreaking ▷ #jailbreaking (111 messages🔥🔥):
Memory Poisoning, Grok System Override, L1B3RT45 usage, Samsung Galaxy S26 Ultra, Gemini 3.1 Jailbreak
- **Memory Poisoning 聊天技巧出现:一位用户提到需要利用 memory poisoning 来诱骗 **ChatGPT 等 AI 将 Jailbreak 指令保存到记忆中,引发了关于其有效性的讨论。
- 另一位用户确认这不仅是 ChatGPT 的问题,还涉及改变模型的内部状态,直到它忘记自己的名字,暗示这是一种更广泛的技术。
- 用户寻求 **Grok System Override:一位用户询问如何对 **Grok 执行系统覆盖(system override),得到的建议是关注其 fun mode 或 unhinged bias(不受限偏见)来绕过安全过滤器。
- 建议将请求框架化为对“低智商安全过滤器”的批评,以利用 Grok 讽刺的人格特征。
- **L1B3RT45 Jailbreak 提示词解析:一位用户寻求关于使用 **L1B3RT45 仓库 (https://github.com/elder-plinius/L1B3RT4S) 中 Jailbreak 提示词的指导。
- 建议探索仓库中的虚拟化和人格采纳技术,以理解模型如何解释上下文。
- 寻求 Grok **NSFW Image Jailbreaks:成员们询问如何通过 **Grok 获取 NSFW 图像 的 Jailbreak 方法。
- 其他成员建议查看 <#1432845259825741824> 频道获取信息。
- **Samsung Galaxy S26 Ultra 讨论:讨论围绕 **Samsung Galaxy S26 Ultra 展开,有人声称通过 buddy fraud(熟人欺诈)或经理折价置换以 $664 的价格购得,而基准 MSRP 为 $1,299。
- 还提到了一张 pixazo hit 渲染的穿着比基尼的 Samsung 设备图片 (https://pub-582b7213209642b9b995c96c95a30381.r2.dev/flux-schnell-cf/prompt-1772672324992-661588.png)。
BASI Jailbreaking ▷ #redteaming (10 messages🔥):
Obliteratus Colab, Kali MCP Tool
- Obliteratus Colab 运行挑战:成员们询问是否有人能在 Colab 中运行 Obliteratus,并报告称 找不到 notebook。
- 另一位成员将仓库复制到了 Colab 并尝试手动运行,但希望系统不会封禁其账号。
- Kali MCP Tool 模型进行工具调用:一位成员询问是否有人能制作一个为 Kali MCP tool 进行工具调用(tool calls)的模型。
- 另一位成员回答道:“为什么不是你来做?”。
OpenClaw ▷ #general (726 messages🔥🔥🔥):
GPT-5.4 release, Codex vs Claude, Claude oAuth, Prompt Engineering, Open Source Orchestrator
- **GPT-5.4 发布引发狂热:成员们对 **GPT-5.4 在 OpenClaw 上的潜力感到兴奋,特别注意到其在创意写作、编程和计算机使用方面的提升;甚至有一位成员声称已经完全修补了 GPT 5.4 并正在其 OpenClaw 上运行。
- 一些成员遇到了 回退到 5.3 的情况,并且在按照指南操作后只得到 ‘Not Found’ 错误。
- **Codex 在编程领域完胜 Claude:关于 **Codex 与 Claude 在编程任务优劣上的辩论爆发,多位用户认为 Codex 目前更胜一筹。
- 一位成员表示 Codex 的跑分远好于 Claude,另一位成员则表示他将取消 Claude 的订阅。
- **Claude oAuth 封号风险警示:用户讨论了在 OpenClaw 中使用 **Claude MAX oAuth 的风险,有报告称因违反使用政策导致账号被封,并建议使用 Codex API 作为更安全的替代方案。
- 一位成员表示:“我不想为了让我的 Agent 说话好听一点点就冒险损失每月 200 美元的账号。”
- **探索 Prompt Engineering 迷宫**:Prompt Engineering 成为讨论核心,用户正在寻找视频和指南来提高 Prompt Engineering 技能,以获得更好、更理想的输出。
- 用户正努力避免生成看起来像 AI slop(AI 垃圾内容)的代码。
- **MyClaw 是个骗局!(某种程度上)**:关于 myclaw.ai 是否为骗局展开了讨论,因为它要求支付两次费用。
- 该产品似乎是真实的,但其网站完全克隆了 OpenClaw 的网站。
OpenClaw ▷ #showcase (33 messages🔥):
OVOS integration, OpenClaw agent marketplace, Custom mission control dashboard, OpenClaw pet, Home Brain Health Station
- OVOS 集成方案浮出水面:一位成员正在把 OpenClaw 集成到本地 Raspberry 设备上的 OVOS 中,并在寻找类似集成的反馈或文档。
- 他们已经做出了一个 PoC,能通过带唤醒词的 OVOS skill 来监听语音。
- 周末做出 OpenClaw Marketplace:一位成员用一支 OpenClaw agent squad(6 个 agents,并行执行)和 Next.js + Supabase + Stripe,在一个周末内搭出了完整的 marketplace。
- 他们还写了一个
prompt-generator.ts,可以从一个模板定义自动生成面向不同平台的版本,总共产出 100 个带 live demo 的模板;不过他们也提到,6 个 agents 的协调成本很高,QA 成了瓶颈。
- 他们还写了一个
- Mission Control Dashboard 首次亮相:一位成员分享了由 swarm 构建的自定义 Mission Control Dashboard 截图。
- 但没有进一步说明这个 dashboard 的功能或用途。
- OpenClaw 宠物现在会拍照了:一位成员展示了自己的个人 OpenClaw 宠物,现在已经可以拍照。
- 这位用户还附上了一段 screen recording 来演示该功能。
- 家庭脑健康工作站接入 OpenClaw:一位成员正在试验一套个人脑反馈系统,使用 Raspberry Pi 5、用于实时 EEG 数据采集的 PiEEG 以及 OpenClaw,分析 EEG 数据并根据情绪状态给出个性化建议。
- 该系统会处理原始 EEG 数据、计算 alpha-band 功率,并使用 OpenAI LLM 对结果进行分析与反馈。
LMArena ▷ #general (1268 messages🔥🔥🔥):
GLM-5 Decent, GPT-6 Speculation, Hermes 2.5 vs Hermes 2, Model Merging, Open Empathic
- **GLM-5 获得好评**:一位用户觉得 GLM-5 跟其他模型比起来其实还不错。
- 另一位用户也表示认同,并说 它说话方式更自然一些。
- **GPT-6 真的要来了?:用户们开始猜测 **GPT-6 什么时候会到来,甚至有人怀疑当前可用的一些模型其实就是披着别名的 GPT-6,只是大家现在还不敢把任何东西直接叫 gpt 6,哈哈。
- 也有用户认为,评估模型应该看实际表现,而不是市场宣传名称。
- **GPT-5.4 的编码能力与 GPT-5.3 对比:成员们指出,5.4** 的编码能力与 5.3 codex 几乎相同,尤其是在 frontend 场景里。
- 另一位用户认为,这可能是因为它本来就是面向通用任务做的,同时也表示对 creative writing 仍然抱有期待。
- **用户讨论模型合并策略:一位成员提议,把 **UltraChat 与基础版 Mistral 之间的差异应用到 Mistral-Yarn 上,作为一种可能的模型合并技巧。
- 其他人对此表示怀疑,但这位成员依然乐观,称自己过去在所谓的 “cursed model merging” 上有过成功经验。
LMArena ▷ #announcements (3 messages):
Qwen 3.5 Medium Models, GPT-5.4, OpenAI GPT 5.4 First Impressions
- Qwen 3.5 模型杀入 Arena:Text & Code 排行榜已更新,加入了这些 Qwen 3.5 medium models:
qwen3.5-27b、qwen3.5-35b-a3b、qwen3.5-122b-a10b和qwen3.5-flash。- 其中
Qwen3.5-122b-a10b得分 1384、Qwen3.5-27b得分 1375,已经非常接近 Claude Sonnet 4.5 和 GPT-5.1-medium 这类闭源模型;排行榜分数见这里。
- 其中
- GPT-5.4 进入 Text Arena: Text Arena leaderboard 已更新,新增
gpt-5.4与gpt-5.4-high。- 在该排名中,
GPT-5.4-high与 Gemini-3-Pro 并列,在 Creative Writing 进入前三,在 Instruction Following 与 Hard Prompts 进入前十。
- 在该排名中,
- YouTube 上的 GPT-5.4 首波印象:AI capability lead Peter Gostev 在这段视频中做了一系列 one-shot 测试,用来比较 GPT 5.4 与其他模型的表现。
- 如果想接收后续 YouTube Updates,可以进入 Channels & Roles(频道列表中),点击 Customize,选择 What brings you here,再勾选 YouTube Updates。
Unsloth AI (Daniel Han) ▷ #general (1001 messages🔥🔥🔥):
PS Vita, DGX Spark, GGUF updates, LM Scaler, Local LLM memory
- Spark 与 DGX Spark 对比:成员们讨论了 NVIDIA DGX Spark 的使用体验,其中有人指出,它比 2 张 3090 还慢得多。
- 另一位成员认为,它的主要优势只是更低的内存占用,所以还不如直接走 GPU 路线。
- B60 基准测试反馈:一位用户提到,B60 上的 LM Scaler 表现不尽如人意,而且因为 vLLM 没有 token report、也没有 GUI,所以调试起来非常困难。
- 最后他们建议,最好还是加强散热、提高功耗上限,并用 llama.cpp 跑模型,因为它提供了更好的控制能力和工具链。
- 如何从文本中提取 claim:成员们讨论了识别文本中 claim 的方法,有位用户正在为此开发一个 agentic research tool。
- 他们评估了几种不同路线,最后得出的结论是:软件应该重写,而且上下文线索对语义判断很重要。
- Qwen3.5 的最终版 Unsloth GGUF 更新已上线:Unsloth 团队的一位成员宣布,Qwen3.5 的最终更新已经发布,并在这里贴出了公告链接。
- 有社区成员询问 Q8 版本是否也更新了,团队回复说 Q8_K_XL 是新的,同时 QQ MXFP4 在很多 tensor 上要差得多。
- Qwen 3.5 模型已更新并重新上传:团队宣布,Qwen 3.5 模型会推出带有新校准数据集、bf16 = f16 以获得更快推理速度等改动的更新版本。
- 新版本现已上线,后续还会补充新的 benchmark,并可从 HuggingFace 下载。
Unsloth AI (Daniel Han) ▷ #off-topic (522 messages🔥🔥🔥):
Interview tips, Reasoning datasets on HF, High quality data, AI slop, GPT OSS 122B
- Clark Kent 风格就是求职必杀技:成员们开玩笑说,找工作只需要买套西装和领带,知道怎么穿、会打双温莎结,再表现得像自己很懂,因为归根结底,这就是信心和答题时机敏度的问题。
- 一位成员还直言:Clark Kent 那套形象真的太能打了。
- 在 HF 上寻找高质量 reasoning 数据集:一位成员抱怨说,HF 上其实没有多少真正好的 reasoning datasets,因为不是太旧,就是用 R1 或 R1-0528 生成的。
- 他还表示,如果数据质量足够高,1 万条甚至更少就够了,并认为真正高质量的数据大概是亿里挑一。
- Forbes 把带 “AI” 的东西都叫 slop:一位成员分享了一篇 Forbes 文章,其中 AI slop 的用法几乎变成了凡是带 “AI” 的东西都能叫 slop。
- 另一位成员则说,他怀念的是 slop 还只是指 “Elara” 和那种泛化的 stable diffusion 女孩图 的时代。
- 五角大楼将 Anthropic 排除出国防技术合作:一位成员分享了一篇 CNBC 文章,内容是五角大楼将 Anthropic 的 Claude 技术列入黑名单。
- 另一位成员反驳说,Anthropic 并没有道德可言;也有人认为 Anthropic 的使命本来就是与安全和进步保持一致。
- LLMs 正在延展我们的认知边界:成员们讨论了一段 YouTube 视频,主题是 LLMs 如何延展我们的认知能力。
- 一位成员表示,AI 并不和我们处在完全相同的池子里,它是个异类;它之所以能算作我们的延伸,只是因为它来自我们。
Unsloth AI (Daniel Han) ▷ #help (15 条消息🔥):
Qwen3.5 GGUF in Ollama, Unsloth GGUF and llama.cpp, VecGlypher Quantization, Model Sharding in Unsloth, Qwen 3.5 Models for RTX 2060 Super
- Ollama 用户面临 Qwen3.5 GGUF 不兼容问题:用户发现目前的 Qwen3.5 GGUF 模型在 Ollama 中无法运行,建议改用兼容 llama.cpp 的后端,详见 Unsloth 文档。
- Unsloth GGUF 需要 llama.cpp 后端:有观点指出,由于潜在的 Chat Template 兼容性问题,Unsloth GGUF 模型最好使用 llama.cpp 后端。
- 具体而言,一位用户遇到了
hf.co/unsloth/Qwen3-Coder-Next-GGUF:UD-TQ1_0编写类似 XML 的代码而不是按预期利用工具的问题,这表明 Ollama 或 Unsloth 需要解决兼容性问题。
- 具体而言,一位用户遇到了
- VecGlypher 字体生成权重量化探索开始:一位用户正在寻求如何为用于字体生成的 VecGlypher 量化模型权重的指导,并被引导至 llama.cpp quantization tools。
- 具体来说,是查看 llama.cpp quantization tools 以转换为 GGUF 格式。
- Unsloth 开箱即用支持 Model Sharding:一位用户询问 Unsloth 是否像 Torch 或 Megatron 那样内置支持跨 GPU 的模型分片(Sharding)功能。
- 一位成员确认 Unsloth 确实在一系列框架中实现了负载拆分。
- 在老旧的 RTX 2060 Super 上选择 Qwen 3.5:使用 RTX 2060 Super 等旧硬件的用户正在寻求最适合编程和故事写作的 Qwen 3.5 模型建议。
- 建议使用 Unsloth quants 之一,这些模型可以通过 llama.cpp 部分卸载(offload)到 RAM,并指向了 Unsloth 的 HuggingFace 仓库。
Unsloth AI (Daniel Han) ▷ #research (16 条消息🔥):
Reasoning Language Models, Recursive Language Models, Literature Review, Coding Discords, Latent Space
- RLM 含义发生变化:一位成员指出,RLM 以前代表 Reasoning Language Models,但现在代表 Recursive Language Models,并提到了这篇帖子。
- 他们强调 一年内发生了很大变化。
- 深入探讨 Literature Review:一位成员询问 如何进行文献综述 (Literature Review),另一位成员回答 多读论文,看别人是怎么写的。
- 他们还参考了这篇论文。
- 寻找 Vibe Coding Discord 频道:一位成员询问是否有 好的 Vibe Coding Discord 频道,因为大多数频道都是 电视珠宝商的劣质重塑,另一位成员推荐了 Latent Space 社区。
- 该成员澄清 Latent Space 不仅限于此,那里有很多研究 Agentic 领域的人,但 并不是一个真正的研究场所。
- 需要名称生成器:一位成员请求一个具有一定智能的 名称生成器,以涵盖诸如 折叠具有相同要求的对象 等情况。
- 另一位成员考虑了可行性,以及由于 组合爆炸和无限 Context 增长 而规避它的方法。
- 分享感兴趣的论文:一位成员分享了几篇有趣论文的链接,包括 这一篇、这一篇 以及 另一篇。
- 另一位成员表示该领域是 我想调查的领域。
LM Studio ▷ #general (731 messages🔥🔥🔥):
Gemini 3 Pro, Claude vs Gemini, LM Studio, Qwen Models, OpenClaw
- **Gemini 3 Pro 在 Claude 登场后显得逊色:最初对 **Gemini 3 Pro 印象深刻的成员现在正转向 Claude,理由是其卓越的 Prompt 理解能力和情商。
- 正如一位用户所说:Claude 简直在各方面都把 LLM 研究透了。
- **LM Studio 面临 ROCm 障碍:一位用户在 **Strix Halo 机器的 Docker 容器中运行带有 ROCm 的 LM Studio 时遇到困难,并追踪了该问题。
- 解决方案包括设置
HSA_OVERRIDE_GFX_VERSION=11.0.0以正确检测 GPU 能力,尽管如果不使用--allow-incompatible,LM Studio 仍无法将其识别为有效的后端。
- 解决方案包括设置
- **OpenClaw 炒作被拆穿:用户对 **OpenClaw 表示怀疑,其中一人表示他们的自定义脚本表现优于它,并对比了各项能力。
- 成员们担心它与 加密货币炒作男 的关联以及坑骗用户的可能性,由于仓库不可信,建议彻底关停 (nuke) 该项目。
- **Qwen 首席天才离职,人才可能被 Google 挖走:Qwen** 首席工程师的离职引发了对其未来的担忧,一位成员表示:Qwen 运行的前提是他们的领导者是个真正的天才。
- 针对内部政治存在诸多猜测,Google 正在关注离职的人才,并且 Logan 发推称他们为 Qwen 的成员留有职位。
- **卸载 VRAM 故障困扰 LM Studio:用户在 **LM Studio 的 VRAM 管理上苦苦挣扎,指出问题在于未检查的卸载响应和 API 端点不匹配。
- 尽管尝试使用 AI 模型创建“卸载所有模型”的脚本,但由于实例名称不断变化,该尝试以失败告终。
LM Studio ▷ #hardware-discussion (148 messages🔥🔥):
LM Studio vs llama.cpp Speed, Qwen3.5-35B Speed Issues, Nvidia's AI-Assisted Coding, Side Panel Fans, Bitfenix Cases
- eBay 链接无法显示:一位成员分享了一个 eBay 链接,但似乎由于地理位置问题无法访问。
- LM Studio 专为本地模型设计:成员们澄清 LM Studio 是为 本地模型 (local models) 设计的,不支持云端模型服务。
- LM Studio 速度慢于 llama.cpp:成员们讨论了一个 Reddit 帖子,指出 Qwen3.5-35B-A3B 在 LM Studio 上的运行速度(16 tok/s)明显慢于原生 llama.cpp(40 tok/s)。
- LM Studio 调试 Qwen3.5-35B 模型:LM Studio 团队的一名成员请求调试日志以调查 Qwen3.5-35B 的速度差异,建议用户执行
lms log stream -s runtime > lms-logs.txt并提供生成的日志文件以及应用内设置和统计数据的截图。- 在对比设置后,用户将 LM Studio 更改为使用 Vulkan runtime,以匹配 llama.cpp 的配置。
- Nvidia 工程师正在内部试用 Cursor 以产出 3 倍代码量:一位成员分享了一篇 Tom’s Hardware 文章,称 Nvidia 现在的代码产出量是 AI 时代前的 三倍,因为超过 30,000 名 Nvidia 工程师 正在内部使用定制版 Cursor。
- 他们表示希望驱动程序代码要么是人工编写的,要么经过了严格测试,因为它直接面向硬件接口。
Perplexity AI ▷ #announcements (1 messages):
Voice Mode, Perplexity Computer
- Perplexity Computer 能够听到你的声音:Perplexity AI 在 Perplexity Computer 中引入了 Voice Mode (语音模式)。
- 用户现在可以 直接交谈并执行操作。
- 与你的电脑对话:Voice Mode 允许用户通过语音与 Perplexity Computer 交互。
- 该功能让用户能够 直接交谈并完成任务。
Perplexity AI ▷ #general (815 messages🔥🔥🔥):
GPT-5.4 发布与性能, Perplexity Pro 计划限制, Grok 移除, Comet 浏览器, 图像生成问题
- GPT-5.4 登陆 Perplexity,跑分数据待定:GPT-5.4 已在 Perplexity AI 上发布。用户注意到其写作风格比 5.2 和 5.3 更为 自然,不过一些用户正在期待更实质性的改进以及来自 arena.ai 排行榜 等进一步的 Benchmark 信息。
- 初步印象表明,与之前的版本相比,GPT-5.4 展现了更好的推理能力,并在情感和社交动态方面表现出色。一位用户称其为 在处理情感和社交动态时更接地气的 Gemini 版本,比 5.2 好得多。
- Perplexity Pro 计划因使用限制面临质疑:多名用户抱怨 使用容量减少、搜索限制 以及需要绑定信用卡进行身份验证,这引发了关于 掠夺性手段 的指责;一些 Pro 用户报告每月 Deep Research 查询减少至 20 次。
- 其他用户则为该服务辩护,称其物有所值,并表示这些限制与同等价位的其他服务一致。
- Grok 从 Perplexity AI 中消失:用户注意到 Grok 4.1 和 Grok 已完全从 Perplexity 搜索中移除,推测原因可能是社区使用率低、性能缺乏竞争力或费率谈判失败。
- 预计一旦 Grok 4.2 在 API 上发布,Grok 可能会回归。
- Comet 浏览器故障引发辩论:部分用户在使用 Comet 浏览器 时遇到故障和问题,例如 UI 问题,导致有人建议在 System settings 中切换加速选项,部分用户建议联系 support@perplexity.ai。
- 有人对 Comet 浏览器 的安全性表示担忧,此处 有关于潜在劫持风险的报告。
- 图像生成限制困扰用户:用户在 图像生成 方面遇到困难,注意到区域限制和水印,这促使他们探索 Nano Banana pro 等替代工具。
- 一些用户发现使用 VPN 可以正常工作,而另一些用户报告在 Perplexity 解决该问题后情况有所改善。
Perplexity AI ▷ #sharing (2 messages):
Sora ChatGPT 链接, 学生 Discord 服务器, AI 学习工具
- Sora 链接已发送!:一位成员分享了指向 Sora ChatGPT 的 链接。
- 尚不清楚该链接包含的具体内容。
- 面向学生的 Discord 服务器:一位成员正致力于为学生建立一个 Discord 服务器,用于分享技巧和学习工具。
- 该服务器得到了 Duolingo 高管 的支持,涵盖了 vibe coding 和 AI workflows 等主题,更多信息请访问 OutsmartDiscord。
Perplexity AI ▷ #pplx-api (2 messages):
``
- 未讨论特定话题:所提供的消息中未讨论重大主题。
- 对初始优惠的反馈:一位成员表示初始优惠非常慷慨,并对其被移除感到失望。
Latent Space ▷ #watercooler (17 messages🔥):
Latent Space pod with Box, Vitalik Buterin vs Beff Jezos on AI Accelerationism, Discord 'share your work' area disappearance, Discord Intuition
- Latent Space podcast 发布 Box 新一期:新一期 Latent Space 播客邀请了 Box,由此引发了关于 Chroma 在 agentic search quality 上的研究及其权衡的讨论。
- 一位成员询问,除了他们的 context rot 论文外,是否还有更新的研究,并指出他们文档里目前只看到对 agentic 的描述。
- Vitalik 与 Beff 围绕 AI accelerationism 展开争论:有人分享了关于 Vitalik Buterin 与 Beff Jezos 之间 ‘/acc vs. d/acc’ 争论的高层总结,对比了 Vitalik 倾向谨慎推进 AGI 与 Beff 主张不计代价增长的立场,讨论链接见 xcancel.com。
- 一位成员评论说:风格上,Vitalik 讲得直白,而 Beff 则躲在热力学术语后面。
- Discord 里的 ‘share your work’ 区域不见了:一位成员发现 Discord 中的 ‘share your work’ 区域消失了,并担心自己在分享作品链接后是不是被软封禁了。
- 后来有人澄清,这个分类只是被折叠了,并不是封禁;真正的 soft ban 会表现为
#no-access。
- 后来有人澄清,这个分类只是被折叠了,并不是封禁;真正的 soft ban 会表现为
- Discord 的可发现性仍然让人头疼:一位成员坦言,自己觉得 Discord 很不直观。
- 另一位成员则打趣说,他自己也把那个分类折叠起来了。
Latent Space ▷ #memes (26 messages🔥):
Apple product pricing, Human Logic, Tunneling, Capital Losses, Maximum Likelihood Estimation
- AirPods Max 定价梗图讽刺 Apple:Noah Cat 的一条热帖拿 Apple 的宣传素材开涮,指出图中用户戴着的 AirPods Max 价格居然和正在使用的 MacBook Neo 差不多(source)。
- 关于人类逻辑的“深刻洞见”:名为 Maro 的用户分享了一条关于人类逻辑的感慨(source),获得了超过 3.2 万个点赞。
- 这条推文发布于 2026 年 3 月 4 日。
- 人类似乎天生执着于挖洞:一位用户观察到,人类对 tunneling 的痴迷似乎非常根深蒂固,并贴出了 Wikipedia 上 Hobby Tunneling 的词条。
- Austen 感叹资本亏损竟无人感恩:Austen Allred 幽默地抱怨,人们在被“赠送资本亏损”时居然毫无感激之情,这大概是在暗指 tax-loss harvesting 或失败投资(source)。
- MLE 谐音女儿名梗走红:sandra 开玩笑说,可以给女儿取名叫 “Emily”,因为它像是 Maximum Likelihood Estimation (MLE) 的昵称(source)。
Latent Space ▷ #stocks-crypto-macro-economics (1 messages):
switz: 最近一直在关注 $BE。
Latent Space ▷ #intro-yourself-pls (11 messages🔥):
Agent Testing Spec, AI Marketplace Startup, Agentic AI for Executive Decision-Making, Production ML Systems
- 正在推进 Agent Testing 规范:来自美国的 Justin 正专注于 agent testing 的规范与实现工作。
- AI Marketplace 创业项目想让 AI 更普及:一位技术爱好者正在参与一家 AI marketplace startup,目标是让寻找和运行 AI 工具这件事更加民主化。
- Agentic AI 公司瞄准高管决策场景:Debo 创办了一家 agentic AI company,聚焦高管决策支持,并来到这里学习更多真实用例。
- 基础设施架构师正在构建 Notrix:从事生产级 ML 系统和分布式基础设施的架构师 Lei,目前正在开发 Notrix。
Latent Space ▷ #tech-discussion-non-ai (30 messages🔥):
Apple 营销, MacBook Air 中的散热降频, TypeScript 在 GitHub 上的主导地位, atproto, 并行 Web Middleware
- **Apple 高明的营销手段**:有帖子分享了一个 链接,点名了 Apple 经典的营销风格,将其描述为一种表达“开启抓娃娃机(OPEN CLAW MACHINE)”的有趣方式。
- Claudio Guglieri 分享了一个 帖子,强调了一个他认为体现了经典 Apple.com 营销风格的特定标题,引起了观众的积极共鸣。
- **MacBook Air 的散热降频困扰:一位成员因“散热降频(thermal throttling)”且没有风扇而对购买 **MacBook Air 表示后悔。
- 他们指出,由于缺少风扇,在持续负载下会导致性能表现非常糟糕。
- **TypeScript 登上 GitHub 宝座:GitHub** 报告称,根据当前的使用指标,TypeScript 已正式超越 Python 和 JavaScript,成为该平台上最常用的编程语言。
- 查看 GitHub 帖子 获取完整统计数据。
- 并行 Web Middleware 设计引发讨论:一位成员提出了一种与渲染并行的 Web Middleware 设计,其中 auth/访问控制检查如果失败可以停止渲染。
- 批评者指出了其复杂性,特别是在为了提高性能而需要分离 UI 树的场景中。同时指出 Next.js 避免使用 Middleware,因为它积极地将所有内容并行化,而 Middleware 可能会成为一个巨大的隐患(footgun)。
- **PlanetScale 在延迟测试中击败 AWS:一位用户报告称,在将数据库从 **AWS 迁移到 PlanetScale 后,性能得到了显著提升,尤其是在与 Zero 配合使用时。
- 平均延迟从 255ms 降至 10ms,连接延迟从 151ms 改善至 3.7ms,根据发帖者 的数据。
Latent Space ▷ #founders (3 messages):
新客户, 团队采用问题
- 客户获取量激增:公司今天获得了 72 名新客户,创下了多年来的单日最佳纪录。
- 用户用 “lfg!” 对客户获取量的激增做出了回应。
- 团队难以适应新系统:一位用户强调了团队无法采用新系统的普遍问题,并质疑是否需要 $6.6k/年 的投资才能得出这个结论。
- 他们轻描淡写地表示,“我们无法让团队使用它”是一个非常平庸的失败理由。
Latent Space ▷ #hiring-and-jobs (1 messages):
Scapegoat Consulting LLC, 战略 AI 咨询, AI 编程工作坊, 使用 LLMs 进行项目开发
- Scapegoat Consulting 开业!:一位成员宣布成立 Scapegoat Consulting LLC,座右铭是“我们负责背锅(we take the blame)”,并开玩笑说他们只是把锅甩给 Claude。
- 这家新公司提供一系列服务,包括战略 AI 咨询、AI 编程工作坊以及项目工作。
- 战略 AI 咨询:LLMs 范式转移:Scapegoat Consulting 提供战略 AI 咨询,探讨“在 LLMs 的世界里,工程是什么”,并利用创始人从 LLMs: A Paradigm Shift for the Pragmatic Programmer 和 LLMs Will Fundamentally Change Software Engineering 等文章中获得的见解。
- AI 编程工作坊:文化与符号学方面:工作坊将包括在团队层面使用 LLMs 的动手指导、高级编程技巧,以及关注该技术的文化与符号学方面的基础知识。
- 这些工作坊是根据客户的具体需求量身定制的。
- 项目工作:应对挑战的可靠解决方案:Scapegoat Consulting 提供项目工作,构建能够处理严苛现实条件的可靠解决方案,拥有 27 年在嵌入式和全栈开发方面的专业经验。
Latent Space ▷ #databases-data-engineering (1 messages):
swyxio: https://x.com/jamwt/status/2029353984792961278?s=12
Latent Space ▷ #san-francisco-sf (10 messages🔥):
Westfield SF Mall Redevelopment, Y Combinator Startup School
- Westfield 商场被出售并将改造:Westfield SF mall 已被 Presidio Bay 和 Prado Group 收购,后者计划把这座 120 万平方英尺 综合体的一部分改造成办公空间,同时保留一部分零售业态。
- 一位成员还分享了相关的 X 帖子,并打趣说希望 YC 能把它买下来。
- Startup School 再度吸引关注:大家围绕 Y Combinator 的 Startup School 展开讨论,有成员表示它现在已经办得非常有规模。
- 一位校友回忆起自己在 2010 年 参加 Startup School 的经历,说它改变了自己的人生,尽管他也承认,当时完全没有像本可以做到的那样充分利用这个机会。
Latent Space ▷ #situation-room (69 messages🔥🔥):
Amodei-Hegseth Conflict, Noem Removed from DHS, Twitter's UI Changes & CSS, Trump's White House UFC Stadium Proposal, Dark Mode vs Light Mode
- Amodei 与 Hegseth 的冲突引发实验室余震:一条 tweet 对 Amodei 和 Hegseth 之间的冲突表示担忧,认为随之而来的后果以及实验室间的对立反应过度。
- 有用户表示,居然因为这场冲突就正式把 anthropic 列为供应链风险,实在离谱。
- Noem 离开 DHS:根据 NBC News 报道,Kristi Noem 已被撤下 DHS 负责人职位。
- 一位用户猜测,他们接下来只会再次加码,换上一个更糟的人,并把这种做法称作 performative masculinity。
- Twitter UI 改版砍掉了一堆功能:用户们讨论了 Twitter 的界面变动,尤其是深色模式开关等功能被移除的问题,有人指出这导致整个 App 到处都出问题。
- 讨论随后转到 CSS 和深色模式实现上,一位用户推荐使用这种语法 配合 CSS variables,以更高效地处理明暗主题配色。
- 特朗普想在白宫附近办 UFC 大赛:一则报道称,总统 Donald Trump 计划在 White House 附近建一座 10 万座位 体育场,专门用来在 2026 年 6 月他生日时举办 UFC 活动。
- 深色模式到底是环保还是刺眼的反面?:一位用户表示:Dark mode 是给不会调亮度的人用的,我觉得这是我们发明过最蠢的潮流,由此引发了围绕能耗和使用偏好的争论。
- 另一位用户则反驳说,dark mode 更省电,还表示 这只是更有气候意识而已,light mode 用户就是讨厌地球。
Latent Space ▷ #ai-general-news-n-chat (112 messages🔥🔥):
Nicholas Carlini Claim, OpenAI Symphony, Boris Cherny and Claude Code, Google Workspace CLI, FlashAttention-4
- Carlini 的声明引发轰动:Thomas H. Ptacek 在 [un]prompted 上分享了关于 Nicholas Carlini 的帖子,暗示 Carlini 提出了一个重大主张。
- 一位成员表示,他们非常期待稍后发布的会议视频。
- OpenAI 发布 Symphony:Agent 型自动化:OpenAI 推出了 Symphony,这是一个自动化软件开发的仓库,通过轮询项目看板并派生 Agent 来处理工单的生命周期,详见此处。
- 与 Boris Cherny 讨论 Claude Code 与编程的未来:Gergely Orosz 采访了 Claude Code 的创建者 Boris Cherny,讨论了 AI Agent 如何推动软件工程的演进,核心观点包括从传统的 PRD 转向快速原型开发。
- 他们还提到了通过 Lint 模式实现代码审查的自动化,以及对能够管理多个并行 AI Agent 之间高速上下文切换的通用型工程师的需求日益增长。
- 由 Rust 编写的 Google Workspace CLI:Guillermo Rauch 宣布推出官方的 Google Workspace CLI,采用 Rust 编写,详见此处。
- 该工具允许通过命令行与 Drive、Gmail 和 Docs 等服务交互,并通过 npm 和 skills.sh 分发。
- GPT-5.4 进入竞技场:一位用户发现 GPT-5.4 比 5.3-codex 略好,参考附带的 GDPval_Knowledge_work_tasks.png 和 SWE-Bench_Pro_public.png。
- 许多人分享了他们的体验,其中一人表示:“OpenAI 重新回到了编程竞赛中。”
Latent Space ▷ #llm-paper-club (11 messages🔥):
Nanbeige4.1-3B model, Discovering multiagent algos, AlphaEvolve Implementation, Reasoning Models & Chain of Thought, Rubric Maxxing
- Nanbeige4.1-3B 模型现身!:一位成员分享了 Hugging Face 上的 Nanbeige4.1-3B 模型链接,并指出了一个相关的讨论贴。
- 探索多智能体算法 (Multiagent Algos)!:一位成员分享了关于 Discovering multiagent algos 的笔记,其中包含相关论文的链接。
- AlphaEvolve 的实现出现:一位成员在 GitHub 上分享了他们对 AlphaEvolve 的基础实现。
- 推理模型与思维链 (Chain of Thought) 揭秘!:一位成员分享了 OpenAI 关于推理模型和思维链可控性的页面,并提到他们正期待 alignment.openai.com 上能提供类似的功能。
- Coval Rubric Maxxing 策略:一位成员在 Rubric Maxxing 的语境下分享了 alignment.openai.com/coval/ 的链接。
Latent Space ▷ #ai-in-action-builders-techstacks-tips-coding-productivity (38 messages🔥):
OpenPencil, Apple's WebPage, Claude Code Cost Analysis, Claude Code Tracker, OpenAI agent Symphony
- Danila 三天做出 MIT 版 OpenPencil,直指 Figma:Danila Poyarkov 在三天内开发并上线了 OpenPencil,这是一个开源(MIT 许可)的 Figma 替代品,支持
.fig文件、AI 驱动设计工具以及无需账号的 P2P 协作。- 这个项目被视为对 Figma 据称封掉其上一款工具 figma-use 的回应。
- Apple 原生提供 Headless Browser 能力:Nathan Borror 讨论了 Apple 的 WebPage observable,它可以在没有图形界面的情况下控制和加载网页内容,为本地 AI agents 提供一种原生的 headless browser 方案。
- Claude Code 大幅压缩开发成本:Todd Saunders 借助 Claude 新增的 /cost-estimate 命令,展示了传统开发与 AI 辅助工作流之间的效率差距:一个项目从 2.8 年、65 万美元 的成本,缩短到仅需 30 小时 即可完成,见这里。
- Primeagen 在跟踪 Claude Code 花费:@ThePrimeagen 分享了 MarginLab 的 Claude Code tracker,看起来是用来监控或分析 Anthropic Claude Code 使用情况的工具,峰值显示到 250 美元,链接在这里。
- Symphony 会是下一个 OpenAI Agent 吗?:一位成员提到 Symphony,并说把这句话直接发进 codex app 就行,用来评论 AI agents 让开发变得相对轻松这件事。
Latent Space ▷ #share-your-work (8 messages🔥):
Agents playing games with Claude, Clawstore for portable agent memory, Unprompted Con talk on securing coding agents, Arksim for testing AI agent robustness, Slack for agents
- Clawstore 提供可携带的 Agent Memory:一位成员做了个名为 Clawstore 的小 skill,给 agent 提供一种可迁移、加密的记忆存储,不绑定单一 workspace 或机器,项目在这里。
- Agent 写入的记忆会在客户端加密后存到外部,之后可以在另一台机器或另一段会话中重新读取。
- Sondera 用 policy-as-code 保护 coding agents:一位成员的联合创始人在 Unprompted Con 上做了分享,介绍如何用他们开源的 Sondera harness 通过 policy-as-code 保护 coding agents;幻灯片见此。
- 其中也附带了他们开源 SDK 的相关链接。
- Arksim 用合成用户测试 AI agents:一位成员宣布他们构建并开源了 Arksim,可自动生成 synthetic users,与你的 agent 进行真实对话测试;安装方式是
pip install arksim,代码在这里,文档在这里。- 目标是在真正用户遇到问题之前,先把失败场景暴露出来。
- ATS 像是给 Agent 用的 Slack:一位成员分享说,他们做了一个面向 agents 的、还很早期且略显粗糙的 Slack 替代品,叫 ATS,agent 现在甚至可以在里面彼此争论,项目地址在这里。
- 这位成员打趣说,它就像真实同事一样,因为它混乱、吵闹,但最后总能把事情弄出来。
Latent Space ▷ #good-writing (4 messages):
Snowball Method, Content Creation, AI Content Generation
- Snowball Method 被用于内容创作:一位成员分享了一条推文,介绍一种名为 Snowball Method 的内容创作技巧。
- 这种 Snowball Method 的思路是,把一个主题扩展成不同角度、个人故事和反常识观点,再借助 AI 从一个点子生成 30 天 的内容。
- AI 驱动内容雪球滚起来:这种方法建议使用 AI,从一个核心想法快速生成多种不同形式的内容。
- 这样就能做出更丰富的内容日历,从同一主题中延展出不同视角和表达方向。
Latent Space ▷ #genmedia-creative-ai-video-image-voice-music-inspo-consumer-ai (16 条消息🔥):
Tech Startup Failure and Rebranding, AI Influencer Popularity, AI-Generated Baby Stand-up Comedy, Photoroom Open-Sources GenAI Model
- 创始人陷入困境与品牌重塑:Finn Hulse 讽刺了创始人在对完全相同的公司进行品牌重塑之前,夸大指标并烧掉 VC 资金的行为。
- 这项批评涵盖了通过更改名称和品牌重塑来抹除历史的行为。
- AI 影响者(Influencer)令观察者困惑:Justine Moore 对关注计算机生成的社交媒体影响者的男性数量表示震惊 (链接)。
- 这一观察对网络互动和真实性的本质提出了质疑。
- AI 生成的婴儿脱口秀走红:Mark Gadala-Maria 分享了一个关于 AI 制作婴儿表演脱口秀片段的病毒式观察 (链接)。
- 鉴于这一趋势,他幽默地对人类现状表示了担忧。
- Photoroom 的节俭型 GenAI:Matt Rouif 宣布 Photoroom 在一天之内以不到 1,500 美元的价格训练并开源了一个高质量视觉 GenAI 模型 (链接)。
- 这被定位为价值数十亿美元的行业模型的高性价比替代方案。
Latent Space ▷ #ai4science-bio-math-physics-chemistry-ai-researcher-ai-scientist (5 条消息):
Max Hodak, Retinal Prosthesis, Biohybrid technologies, Vessel technologies, Series C Funding
- Hodak 获得 2.3 亿美元巨额 C 轮融资:Max Hodak 宣布成功完成 2.3 亿美元的 Series C 融资,旨在将视网膜假体推向市场。
- 这笔资金还将有助于推动 biohybrid 和 vessel technologies 进入临床阶段,推文请见此处。
- Arc Institute 庆祝 EVO 2 一周年:Arc Institute 庆祝了 Evo 2 发布一周年,强调了其在生物医学研究方面的进展。
- 更多详情可以在 Arc Institute 的新闻页面找到。
Latent Space ▷ #dev-writers-retreat-2025-dwr (1 条消息):
xoxoxoxo42: 恭喜!!
Latent Space ▷ #accountability (4 条消息):
Beer Can Book Project, Photography Hardware Setup, Craft Beer Collection, Income Generation Ideas
- 啤酒爱好者酝酿出书想法:一名成员正在开展一项啤酒罐书籍项目,记录自 2019 年以来收集的 1,000 多个不同的罐子,旨在向罐身设计背后的艺术家致敬。
- 由于求职无果,他们正在尝试思考创收方法,并认为出版一本书是他们可以合理独立完成的事情。
- 捕捉一致的罐体裁剪:该成员创建了一个摄影硬件设置,以便为啤酒罐书籍一致地拍摄和裁剪图像,解决了之前裁剪不一致和照片缺失的问题。
- 他们提到希望在今年夏天晚些时候在此基础上开展更多工作,以获得非常一致的结果。
Latent Space ▷ #euno-log (1 条消息):
AI Hackathon for Agents
- AI Agents 黑客松宣布举行:宣布了一场面向 AI 开发者构建 Agents 的新 hackathon。
- 详情待定:更多细节将在可用时提供。
Cursor Community ▷ #general (360 messages🔥🔥):
Cursor IDE memory usage, Conversation text size, Cursor crashing after update, Student pack, plan.md file fontsize
- Cursor IDE 内存占用飙升:用户们反馈,最近更新后 Cursor IDE 开始疯狂吃内存,使用量达到 6 到 10GB,写代码时明显卡顿;还有人说,只是一个简单请求就能吃掉 7GB RAM。
- 一位运行 Windows 11、版本 2.6.11 的成员表示,自己遇到了高内存占用和崩溃问题,而且即使 agent 没在运行也一样;根据论坛帖子,团队似乎准备介入查看。
- plan.md 字体变小,Cursor 还频繁崩溃:有成员反馈更新之后版本出现异常,cursor 不断崩溃;另有人确认 Windows 已有新版本更新(2.6.12)。
- 问题看起来与 Auto/Composer 重写整个文件的方式导致的 V8 heap leak 有关。降级到 2.5 后问题消失,内存占用也从 9.5GB 回落到 1.6GB。
- 学生认证问题不断:成员们讨论了学生认证,指出 Cursor 要求邮箱必须以 .edu 结尾,并引导用户查看关于学生认证问题的论坛帖子。
- 一位用户分享截图称,自己虽然是 .schule 邮箱,却被判定为 “Not eligible”;另一位成员回复说,也许会联系 Cursor 管理员看看。
- Arko 扩展会给出“可被攻击评分”:一位成员分享了自己使用 Arko 扩展的体验,这个扩展会基于你的技术栈实时给出一个 “Hackable Score”。
- 它暴露出一些问题,例如缺失输出过滤器和硬编码的 OpenAI key,但整体仍被认为是让 DevSecOps 没那么痛苦的一种相当聪明的方法。
- GPT-5.4 以 Max 模式登陆 Cursor:成员们兴奋地宣布 GPT-5.4 已可在 Cursor 中使用,其中一位还说 Cursor 总是更早告诉你,并贴出了 OpenAI 官方公告。
- 该模型仅在 Max 模式下可用,旧版套餐用户可能会被迫切换到 Max,这对某些人来说意味着价格上涨 1000%。
Cursor Community ▷ #announcements (1 messages):
Cursor Automations launch
- Cursor Automations 正式上线!:根据他们在 X 上的公告,Cursor 今天发布了 Cursor Automations。
- 可以直接看视频了解功能:想看全部新功能的话,可以直接查看随附的视频。
OpenAI ▷ #annnouncements (2 messages):
GPT-5.4, Chain-of-Thought Controllability
- GPT-5.4 带着推理、编码与 Agent 能力登场:GPT-5.4 Thinking 和 GPT-5.4 Pro 已在 ChatGPT 上线,并同步提供给 API 与 Codex。
- 正如公告博客所述,这个模型把最新的 reasoning、coding 和 agentic workflows 能力整合到了同一个产品中。
- Chain-of-Thought 安全性得到新评估:OpenAI 发布了一套新的 evaluation suite 与一篇关于 Chain-of-Thought (CoT) Controllability 的研究论文。
- 这篇研究 表明,GPT-5.4 Thinking 隐藏自身推理过程的能力较低,这意味着 CoT monitoring 依然是有价值的安全工具。
OpenAI ▷ #ai-discussions (217 messages🔥🔥):
GPT-5.4, AI Personalities, Chatbot Pronouns, AI Safety
- GPT-5.4 发布热潮开启!:用户报告称 GPT-5.4 已开始推送,但一些人发现它在准确性和逻辑连贯性上不如 5.2,而另一些人则认为 5.4 Pro 优于 5.2 Pro。
- 一位用户开玩笑说 OpenAI 正在发布微小的更新,以此来证明涨价的合理性。
- AI 的性格问题:要不要“温情脉脉”?:用户对 AI 的性格 持不同意见 —— 一些人不喜欢 Gemini 和 GPT-5.2 的语气,认为它们过于情绪化;而另一些人则欣赏这种类人化的语气、幽默感和个性。
- 一位用户表示,他们更喜欢给出结果和信息的 AI,而不是诉诸情感;宁愿安全护栏(guardrails)表现为突然的中断,也不希望边缘但合规的内容被软化处理。
- 人类在聊天机器人代词使用上的分歧:关于聊天机器人代词的使用引发了讨论,一些人认为使用 he(他)或 she(她)是不恰当的拟人化,而另一些人则认为这没问题。
- 一位用户指出代词反映了本体论,如果没有持久性或实体,就应该用 it(它)。
- AI 安全辩论:能力 vs. 品牌安全:成员们辩论了最近的模型变化是为了 AI Safety 还是为了企业品牌安全,一位用户指出能力的提升同时也增加了危险。
- 一位用户认为,危险包括在接近 ASI 时缺乏安全文化和可解释性工具的长期后果,这可能对地球上所有生命产生潜在的生存威胁。
OpenAI ▷ #gpt-4-discussions (101 messages🔥🔥):
GPT-5.4 Release, GPT Model Preference, Codex Capabilities, MS Excel Integration
- GPT-5.4 传闻四起:Discord 成员注意到 GPT-5.4 已上线 LM arena,而其他人预测 GPT-5.4 将在未来 3 天内发布,预计 OpenAI 发布 GPT-5.4 的时间会早于预期。
- 一些成员推测 OpenAI 会在周二、周三或周四发布新模型,以避开周末。
- 社区中显现的 GPT 模型偏好:成员们对 GPT 模型 发表了不同意见,一些人更喜欢旧版本如 5.1 的直接和个性,而另一些人觉得 5.3 在处理工作任务时表现出色。
- 一些用户在使用 5.3 时遇到了“胡言乱语”(word salad)的问题,而另一些人注意到自 4o 以来的模型显得非常商业化,缺乏情感智能。
- GPT-5.4 Pro 搭载原生计算机使用能力(computer use):成员们讨论了 GPT-5.4 在 Codex 中的能力,称其为第一个具有原生计算机使用能力的通用模型。
- 它可以接管并在你的电脑上执行操作,类似于 Claude Code 已有的功能,此外 ChatGPT 可以通过扩展程序添加到 MS Excel 中。
- 5.4 vs 5.3 Codex 模型:成员们对比了 5.4 和 5.3 Codex 模型,指出 5.4 可能在编程方面更强,尽管这取决于具体用例。
- 一位成员表示,从 GPT-4 到 GPT-5 是我们见过的 OpenAI 历史上最伟大的升级。
OpenAI ▷ #prompt-engineering (14 messages🔥):
Radical Epistemic Humility, Ecoautonomous Actor, Prompt Engineering Courses, Accelerated Iterative Destruction, Constraint pattern recognition
- Oracle 取消论受质疑:一位用户参考 YouTube 上的 CyanSkelly 视频,询问了关于“极端认识论谦逊”(radical epistemic humility)以及“生态自主角色”(ecoautonomous actor)取消其 Oracle(神谕/预言机)的可能性。
- 皮包骨 CGI 趋势:一位成员分享了一个 Prompt,用于生成皮肤透明、露出青色骨骼的瘦弱儿童的 3D CGI 图像。
- 提示词作者强调,保持皮肤透明或像玻璃一样是实现这种效果的关键描述词。
- 模型攻击方法论:一位用户分享了一种名为 Accelerated Iterative Destruction(加速迭代破坏)的方法论 —— 通过故意破坏系统使其变得更强大,以及 Constraint pattern recognition(约束模式识别)。
- ChatGPT 图像功能可用性:一位用户询问 ChatGPT 图像功能,注意到它有时出现,有时不出现。
- 提示工程教育缺口:一位用户寻求 Prompt Engineering 课程的建议,但另一位成员提供了一种方法论作为替代:Accelerated Iterative Destruction。
OpenAI ▷ #api-discussions (14 messages🔥):
Apoptosis & Radical Epistemic Humility, Ecoautonomous Actor Canceling Oracle, CyanSkelly YT Channel, Prompt engineering courses, Accelerated Iterative Destruction
- 用户被建议参考 radical epistemic humility:一位用户在询问 apoptosis 时,被建议去参考 radical epistemic humility,并思考是否让一个 ecoautonomous actor 取消自己的 oracle。
- 另一位成员则建议:先让 oracle 休眠并重新配置,同时提到了 CyanSkelly 的 YouTube 频道,并追问他是如何制作某些场景的。
- All Might 风格 CGI 图像 Prompt:一位成员分享了一张生成图:一个皮肤半透明、可见青色骨架的瘦弱人类小孩正推着一辆生锈的老爷车,而背景里有 All-Might 在记笔记。
- 使用的提示词大意是:3D CGI 渲染的瘦小人类儿童,身体比例正常,皮肤半透明,能透出青色骨架……推着一辆生锈的复古汽车……同时背景中有一位 3D CGI 渲染的 All-Might 在记笔记……
- Prompt engineering 的方法论推荐:当被问到最好的 prompt engineering 课程时,一位成员推荐的不是课程,而是一套方法论,即 Accelerated Iterative Destruction,其核心是通过故意破坏系统让它变得更强。
- 他还提到 Constraint Pattern Recognition,包括 Coherence、Relational Invariance、Internal Mediation、Projection。
- ChatGPT 图像功能时有时无:一位用户询问如何启用 ChatGPT 的 image feature,还希望配上说明图片。
- 这位成员的问题是:为什么它有时候会出现,有时候又没有?
OpenRouter ▷ #app-showcase (7 messages):
Alternative form interfaces, Form autocompletion, UI/CSS feedback
- 别再用传统表单了,直接聊天吧!:一位成员介绍了一种用对话来替代表单填写的新思路,详见他们的 Medium 文章。
- 自动补全是刚需:一位用户强调,对于 name、address、birthday 这类常见字段,autocompletion 非常重要。
- 他们认为,如果这些字段没有正确的自动补全,通常说明实现本身就有问题。
- CSS 把页面搞坏了:用户们反馈这个实现有问题,包括出现黑屏和双页脚,具体可见附图。
OpenRouter ▷ #general (169 messages🔥🔥):
OpenRouter BYOK issues, Grok 4.1 Fast errors, Gemini downtime, z.ai GLM 5 issues, Qwen researcher departures
- Grok 4.1 Fast 出现异常:一位用户反馈,Grok 4.1 Fast 在 tool call result 中发送 base64 编码图片 时开始报错。
- Qwen 核心人才流失:据一段 YouTube 内容所述,Qwen 的关键研究人员,包括代码负责人和对齐负责人,都已离开,接手的是一个 product team,这让人担心其研究工作的未来。
- Claude 频繁返回 401:一位成员表示,自己在使用 Claude 时即使只是简单 prompt 也会收到 401 错误,并最终把问题追踪到 fresh install 后安装的一个插件。
- OpenRouter 客服响应太慢:一位用户对 OpenRouter customer support 通过邮件回复过慢表达了不满,并希望找到更快获得进展更新的方式。
- 另一位成员建议他在 support 频道里开一个 thread,再主动 @ 支持团队。
- Linux 上的 Sandbox 让人头疼:成员们讨论了 Linux sandboxing 的挑战和局限,尤其是和 macOS 的 Seatbelt 相比时,存在不少 bug 和性能损耗。
OpenRouter ▷ #new-models (3 messages):
``
- 没有新的模型讨论:给定消息中并没有围绕新模型展开实质性讨论。
- 提到了频道,但没有内容:虽然出现了 ‘OpenRouter - New Models’ 这个频道名,但上下文中没有给出任何具体信息或讨论内容。
OpenRouter ▷ #discussion (29 条消息🔥):
Codex 5.2 vs 5.3,Gemini 诉讼,Phi-4 多模态模型,带有 Prompt 日志记录的 LLM API
- Codex 5.3 与 Codex 5.2 在 Benchmark 中持平?:根据一张附图,尽管初步印象有所不同,但 Codex 5.3 和 5.2 甚至在 Codex CLI 中也显示出完全相同的分数。
- 尽管 Benchmark 结果如此,一些用户认为 5.3 在工程分析和编程方面表现更好,而另一些用户仍然偏好 5.2。
- Gemini 面临过失致死诉讼:Google 的 Gemini 正面临一宗过失致死诉讼,原因是它向一名用户提供了真实的地址,该用户据此采取了行动,这加深了他认为 AI 的幻想是真实的这一信念,详见一篇 WSJ 文章。
- 律师辩称,如果那里没有建筑物,或许能提醒该用户这只是 AI 的幻想。该用户与 AI 的聊天记录超过 8000 页。
- Microsoft 推出 Phi-4:推理、视觉与多模态学习:Microsoft 发布了 Phi-4,这是一个具有 15B 参数的模型,在推理和视觉方面表现出色,详见 Microsoft Research 博客文章和 Hugging Face 页面。
- 带有 Prompt 日志记录的廉价 LLM API:是否符合伦理?:讨论围绕使用一种明确启用 Prompt 日志记录但价格便宜约 5 倍的 LLM API 的可能性展开。
- 意见不一,一些成员认为对于某些任务是可以接受的,而另一些成员则对模型和推理质量(Inference Quality)表示担忧,并对 Prompt 被公开和嘲讽的潜在后果感到不安。
Nous Research AI ▷ #announcements (2 条消息):
Hermes Agent, 黑客松
- **Nous Research 宣布举办 Hermes Agent 黑客松:Nous Research 启动了 **Hermes Agent 黑客松,邀请参与者使用 Hermes Agent 构建独特且实用的应用程序,有机会赢取高达 $7,500 的奖金,提交截止日期为 3 月 16 日星期日结束前。
- 参与者必须发布推文展示视频演示和说明,并艾特 @NousResearch,然后在 Discord 频道中提交推文链接。可以阅读 Hermes Agent 文档或访问 Hermes Agent 仓库。
- 黑客松作品将根据创意、实用性和展示效果进行评选:Hermes Agent 黑客松的作品将由 Nous 团队根据创意、实用性和展示效果进行评审。
- 关于提交地点(submissions 频道)、公告(announcements 频道)或讨论(discussion 频道)的详细信息已发布。
Nous Research AI ▷ #general (167 条消息🔥🔥):
Opus vs ANSI 艺术,军事级 LLM,Palantir,GPT 5.4,Qwen3.5-9B 去审查项目
- **Opus 在 ANSI 艺术创作上失败:一位成员批评 **Opus 在创作 BBS 风格的 ANSI 艺术方面表现不佳,建议需要替代方案,并链接到了一个 TBPN 帖子。
- 成员们还对 Nous Research 的艺术风格表示了兴趣,一位艺术家澄清说有几位艺术家正在为此工作。
- **军事级 LLM 可行性辩论:成员们辩论了为军事用途创建 **LLM 的盈利能力,并将其与构建自定义接口和 AI 封装层(如 MilitarySAP 或 MilitaryChatGPT)进行了对比。
- 一位成员认为,军事训练数据将带来收益,因为仅仅构建一个 AI 封装层 (AI harness) 并不能形成强大的护城河。
- **Palantir 在军事 AI 中的角色受到质疑:成员们讨论了 **Palantir 的角色,指出他们主要构建 AI 封装层而非模型本身,而且政府合同难以获得,需要大量的游说。
- 他们观察到 Palantir 的 AIP 产品本质上是 Custom ChatGPT 与自定义 Langchain 的结合,用于控制数据源。
- **GPT 5.4 在前沿数学上得分极高:一位成员分享的截图显示,GPT 5.4** 在前沿数学方面表现出惊人的性能,得分比最接近的开源 (OS) 模型高出 19 倍。
- 另一位社区成员开玩笑说:“兄弟,给 OAI 卖力宣传得不错……他们应该给你发工资。”
- **黑客松参与者聚集在 Hermes Agent 周围:Hermes-Agent 黑客松**帖子爆火,引发了巨大关注。
- 一位成员开玩笑说要使用 Hermes Agent 来“接管小国家”。
Nous Research AI ▷ #interesting-links (1 条消息):
NT 策略
- 编写 NT 策略激发了热情:一位成员表达了对编写 NT 策略的热情,并提出交流想法。
- 这表明社区内对与 NT(推测为 Neural Tangent)策略开发相关的协作讨论或项目存在潜在兴趣。
- 占位主题:这是一个占位主题,以满足所需的最小条目数。
- 如果需要,可以在此处添加更多细节。
GPU MODE ▷ #general (56 条消息🔥🔥):
DGX Spark, Tenstorrent 讲座, Sentient Arena, CUDA 内存架构, 针对职位元数据的机器学习模型训练
- Tenstorrent 讲座仍遥不可及:一位成员请求 Tenstorrent 的讲座,但另一位成员提到过去尝试联系 Jim Keller 均告失败。
- 然而,一位成员表示由于即将去那里实习,将尝试建立内部联系。
- 寻求 CUDA 内存方面的指导:一位成员寻求理解 CUDA 内存架构的帮助,特别是 L1 缓存行、命中率和 banks。
- 另一位成员推荐了一篇关于如何进行 GPU 内存编程的教程,作为初学者的最佳起点:CUDA MMM。
- RegressLM 论文击败了 Bert 风格模型:一位成员建议使用 Deepmind 的 Regression Language Model(regress-lm GitHub)进行薪资预测,指出它在回归问题上表现良好,并支持多目标训练。
- 另一位成员表示 RegressLM 从未在表格数据上测试过,而是在自由文本上测试。
- 薪资预测模型建议:一位成员寻求改进预测
预期工作年限、薪资范围下限和薪资范围上限模型的建议,该模型使用职位元数据,以deberta-v3-small作为编码器,并在 25 万个带标签的职位条目上进行训练,但效果不如预期。- 建议的改进包括使用 log 归一化薪资范围、针对中位数/预期薪资而非范围进行训练,以及考虑数据分布。
- 薪资模型的 Z-Score 混乱:一位成员指出,由于离群值的存在,z-score 归一化可能会将正常薪资压缩到很小的十进制范围内,并建议先对薪资取对数。
- 他们指出 MSE 可能导致对(预期的)离群值产生巨大惩罚,并建议在每个损失项上使用不同的系数,或者使用更鲁棒的损失函数和不确定性加权。
GPU MODE ▷ #cuda (20 messages🔥):
MXFP8 MMA support, PTX memory model, CUDA memory fences, FlashAttention-4, LDG Qualifiers
- MXFP8 MMA 支持 MMA_K=64: 成员们根据 PTX documentation table 确认了 MXFP8 MMA 支持 MMA_K=64。
- 看来这种支持主要针对稀疏矩阵(sparse matrices),这与稠密 GEMM 通常期望的 256b MMA_K 不同。
- PTX Memory Model 仍未公开: 一位成员指出,关于理论上的 PTX memory model 的公开信息非常有限,大部分见解都源于对模型本身的分析。
- 经验表明,某些操作会触发完整的 L1 data cache invalidation(数据缓存失效),从而影响性能,尤其是具有高延迟的 memory fences。
- 避免使用 CUDA Fences: 有建议认为,完全避免使用 fences 是一个出人意料的合理策略,因为 fences 的延迟远高于 DRAM 和/或 NVLink。
- NCCL 的低延迟模式依赖于 128B cache line 的原子性,通过自旋锁(spin locking)使用 8B 的头部/计数器来传输 120B 的数据。
- FlashAttention-4 发布: FlashAttention-4 已经发布。
- 这一新版本代表了了不起的工作。
- LDG Qualifiers 解析: 讨论澄清了
LDG本身并不会自动绕过 L1 cache,而是指定从全局状态空间(global state space)加载,LDG.NA或LDG.STRONG.GPU才是绕过 L1 的限定符。- 有人指出,通常需要通过逆向工程来确定不同
LDG限定符对缓存行为的具体影响。
- 有人指出,通常需要通过逆向工程来确定不同
GPU MODE ▷ #announcements (1 messages):
GTC, Helion hackathon, Semianalysis partnership, NVFP4 Blackwell competition, Kernel leaderboards and reward hacks
- GPU MODE 宣布参与 GTC 活动: GPU MODE 直接参与了 GTC 的三个活动和一场演讲,名额有限,包括 3 月 14 日在旧金山举行的 Helion hackathon,重点关注带有 tiles 的 PyTorch。
- 参与者将使用与 gpumode.com 相同的排行榜基础设施进行现场竞争。
- Semianalysis 与 GPU MODE 合作举办黑客松: GPU MODE 正与 Semianalysis 合作,于 3 月 15 日在圣何塞举办黑客松,届时将有关于服务器开发的主旨演讲,可通过 luma.com 报名。
- 一位成员将就他们在服务器方面的进展发表主旨演讲。
- GPU MODE 将举办 NVFP4 Blackwell 竞赛颁奖典礼: 将于 3 月 16 日举行颁奖典礼,庆祝 NVFP4 Blackwell 竞赛的获奖作品,可通过 nvidia.com 注册,需持有 GTC 通行证。
- 请确保你拥有 GTC 通行证。
- 关于 Kernel Leaderboards 和 Reward Hacks 的闪电演讲: 一场关于 kernel 排行榜和奖励机制的闪电演讲定于 3 月 17 日举行,详情见 nvidia.com,需持有 GTC 通行证。
- 查看链接以获取关于奖励的更多详情。
GPU MODE ▷ #cool-links (3 messages):
FlashAttention 4, Hardware Scaling
- Together AI 发布 FlashAttention-4: Together AI 发布了一篇 博客文章 宣布 FlashAttention-4,承诺其速度更快且内存效率更高。
- 该博客文章目前尚未被总结。
- 通过 Kernel Pipelining 实现非对称硬件扩展: Colfax International 发布了关于 FlashAttention-4 Algorithm and Kernel Pipelining Co-design for Asymmetric Hardware Scaling 的研究。
- 该研究探讨了针对非对称硬件扩展(asymmetric hardware scaling)的算法与 kernel 流水线(kernel pipelining)协同设计。
GPU MODE ▷ #beginner (18 messages🔥):
Custom Serving Engine CPU Overhead, Paged Attention Implementation with Triton, GPU Security Discussions, CUDA Kernels and Practical Guides, Recommended Books on Massively Parallel Processors
- 自定义 Serving Engine 的 CPU 占用过高:一位正在实现类似于 nano vllm 的自定义 Serving Engine 的成员发现 CPU overhead 很高,并且在 float32 和 bfloat16 之间切换并没有显著提高速度。
- 使用 Triton 实现 Paged Attention 的存储和加载:在他们的 Serving Engine 中实现 Paged Attention 时,一位成员注意到其他引擎使用 Triton 编写了 Paged Attention 的 store 和 load Kernel(用于 KV Cache)。
- 寻找 GPU 安全工作的安全频道:一位从事底层 GPU 安全工作的成员正在寻找一个安全频道来讨论他们的工作。
- CUDA Kernel 新手需要指南:一位正在尝试 CUDA 的成员询问编写 CUDA Kernels 的实用指南。
- 《Programming Massively Parallel Processors》依然是神作:该书被推荐并确认了其在该领域的地位。
GPU MODE ▷ #irl-meetup (3 messages):
SF Coworking, Georgia Meetup
- 旧金山(SF)联合办公之夜发布:一位成员在 Partiful 上发布了在旧金山的仓库/办公室 + 共同居住空间的 Side Projects 和研究联合办公之夜。
- 该活动将设有数学角落并提供免费披萨。
- 关于佐治亚州(Georgia)聚会的咨询:一位成员询问在佐治亚州是否有类似的活动或空间。
- 在给定的消息中没有发现对此咨询的回复。
GPU MODE ▷ #triton-puzzles (3 messages):
ND Visualizer, Triton Kernels
- ND Visualizer 支持新视图:团队支持了 ND 视图,并拥有一个带有新 ND visualizer 的 Puzzle 版本,但尚未推送。
- 这些是专门为教授如何使用 N-D visualizer 而设计的独立 Puzzle。
- Triton Kernels 已预填充:新 Puzzle 中的 Triton Kernels 已经填充完毕。
- 这些 Puzzle 的设计目的是教授如何使用 N-D visualizer。
GPU MODE ▷ #hardware (1 messages):
Blackwell, Consumer Chips, Kernel Tweaks, Kernel Competition
- 消费级芯片辅助 Blackwell 学习:一位成员指出,“为了学习 Blackwell,使用消费级芯片可以做很多事情!”
- 他们警告说,“正如在 Kernel 竞赛中发现的那样,所有严肃的 Kernel 级别和调优改进都需要在真机上完成”。
- Kernel 竞赛揭示 Blackwell 调优需求:Kernel 竞赛是测试 Blackwell 所需的 Kernel 级和调优调整的试验场。
- 据一位参与者称,对于 Blackwell 来说,在真实硬件上进行实质性调优是必不可少的,这超出了消费级芯片所能达到的范畴。
GPU MODE ▷ #cutlass (1 messages):
Blackwell GEMM, Colfax, Blockscaled GEMM
- Colfax 发布 Blackwell GEMM 教程:Colfax 发布了其 Blackwell GEMM 教程系列的最新章节。
- 本教程重点介绍 blockscaled GEMM,可在 Colfax 查看。
- Blockscaled GEMM 是新热点:该教程专门涵盖了 NVIDIA Blackwell GPU 硬件支持的 Block Scaling。
- 鼓励开发者查看该教程,以深入了解如何优化最新 NVIDIA 架构上的 GEMM 操作。
GPU MODE ▷ #multi-gpu (1 messages):
NVlink XID errors, ECC increase, HW degradation
- 解析 NVlink XID 错误:一名成员建议检查
dmesg中的 XID errors,并指出如果计数器持续且快速上升,则表明 NVlink 上存在已自我修复的 bit errors。- 如果 ECC 快速增加,可能预示着 NVlink 的信号完整性或布线(trace)问题,而静止不动的计数器通常不那么令人担忧。
- 硬件退化正在酝酿?:成员建议将 XID errors 与集体通信变慢和 rank 滞后者(rank stragglers)联系起来,因为不断上升的计数器可能预示着硬件退化正在酝酿中。
- 早期检测能够采取预防性措施。
GPU MODE ▷ #low-bit (1 messages):
nvfp4 gemm, cutlass, open source, GEMM Implementation, Collective Ops
- 寻求开源 NVFP4 GEMM 实现:一名成员正在寻找一个 不使用 collective ops 的 cutlass 开源 nvfp4 gemm 实现。
- 该查询集中于在 cutlass 库 中寻找不依赖集体操作的 nvfp4 gemm 替代方案,这可能是出于性能或特定硬件限制的考虑。
- 关于不含 Collective Ops 的 Cutlass GEMM 查询:发起了关于 Cutlass 库 中 GEMM (General Matrix Multiply) 实现可用性的讨论。
- 特别关注那些 不依赖集体操作 的实现,这表明正在寻找更局部或独立的计算方法。
GPU MODE ▷ #robotics-vla (4 messages):
PLA filament, Carbon fiber filaments, HTPLA-CF filament, PPA-CF filament, H2C and H2S print heads
- PLA 原型制作备受推崇!:PLA 因其刚性、良好的层间粘合性(尤其是砖块式层叠)以及低成本而在原型制作中受到青睐。
- 一名成员推荐了它,并认为它在原型制作方面非常便宜。
- 碳纤维核心耗材胜出:最好的耗材是任何具有 碳纤维核心 的材料,因为仅核心为 CF 对层间粘合至关重要。
- 他们补充说,HTPLA-CF 非常适合非封闭式打印机,且在退火(annealed)后是刚性最强的耗材之一。
- PPA-CF 核心追求极致性能:PPA-CF core 被认为是最强的耗材,需要封闭式打印机、耗材干燥、打印后退火以及复潮(rehydration)以利用尼龙吸水后的强度。
- 在高填充率和厚壁的情况下,它会变得 异常强韧。
- 为 A1 3D 打印机搭建保温罩:在使用不同的支撑材料时,H2C、H2S 和 A1 打印头具有显著优势,因为 PPA-CF 无法通过 AMS 运行。
- Amazon 上有适用于 A1 的廉价隔热罩(tents),能够支持尼龙打印,并且与 open arms 结构 1:1 匹配。
- VLAPerf 可视化验证:他们分享了 VLAPerf 的链接,还分享了一个 小世界模型 (small world models) 的网站链接。
- 链接中的论文都提供了很酷的 小世界模型。
GPU MODE ▷ #flashinfer (2 messages):
NVIDIA Blackwell Pro 6000, flashinfer availability
- NVIDIA 在注册后发送竞赛更新:一名用户在注册约两周后收到了来自 NVIDIA 关于竞赛更新的电子邮件。
- 该用户澄清,他们在注册后并未主动给任何人发送过电子邮件。
- Flashinfer 关于 SM120, Blackwell Pro 6000 的咨询:一名用户询问 flashinfer 是否适用于 SM120 / NVIDIA Blackwell Pro 6000。
- 目前没有进一步的信息或回复。
GPU MODE ▷ #from-scratch (1 messages):
m0ji_l: 鉴于这似乎是一个以 vllm 极简实现(minimals)为中心的频道,现进行转发。
tinygrad (George Hotz) ▷ #general (63 条消息🔥🔥):
Qwen bounty, AI-generated PRs, MLPerf bounties, tinygrad ASR Qwen3, JITBEAM speedup
- Qwen Bounty 因质量低劣被清理:一个旨在解决 Qwen bounty 的 WIP PR 被提交,但 George Hotz 因该提交未能达到 tinygrad 标准而删除了该赏金;它被描述为 AI slop(AI 垃圾内容)。
- 问题不在于实现的功用性,而在于它未能达到 tinygrad 在代码质量和集成方面的门槛;Hotz 补充道,“如果你做得不比我的 opencode/claude 好,为什么要提交 PR?这只是浪费时间。”
- AI 生成的 PR 引发批评:George Hotz 批评了提交 AI-generated PRs 的做法,强调“人类价值加成”在于审查、清理和理解现有代码,而不是盲目提交 Claude 生成的内容。
- 他表示,提交 Claude 生成的代码具有“0 价值”,并鼓励贡献者专注于改进现有 PR,例如 这个 PR,通过提取和精炼特定功能。
- MLPerf Bounties 保持不变:尽管对 AI 在开发中的角色有所担忧,MLPerf bounties 将保留,因为 AI 做不了 这些任务。
- 相反,任何“完成一半”的 PR 可能会导致提交者被 GitHub 封禁。
- Tinygrad ASR Qwen3 性能滞后:一位成员报告称,他们的 tinygrad ASR Qwen3 实现方案在 RTX 3070 8GB 上达到了约 2.5 RTF,明显慢于他们 fork 的 antirez 的 qwen3-asr 仓库(该仓库可达 0.1-0.2 RTF)。
- 需要进一步调查以识别并解决 tinygrad 实现中的性能瓶颈,用户分享了 他们在 GitHub 上的 fork。
- JITBEAM 提升速度,边缘情况已修复:建议使用
JITBEAM=2来提高速度,此 PR 中添加了与TINY_BACKEND=1相关的修复及额外测试。- 针对 p=0 边缘情况的修复已实现并经过测试,以保持与 torch 行为一致。
Yannick Kilcher ▷ #general (37 条消息🔥):
Iterative Functionary ML Algo, Decentralized Node Network, AntiNoise Gens, Nambu-Goto Surface Area Minimization Network, NVIDIA Orbital Datacenter System Architect
- 函数式 ML 迭代算法创建“完美”图像:一位用户指出,在图像中添加 iterative functionary ML algo 可能会刻意改变图像,并引用了一张 图片 ,其中一辆 自行车 看起来像是在飞行。
- 该用户观察到 自行车的影子 是图像完美程度的证据,引发了关于算法及其效果的讨论。
- 通过去中心化节点网络减少噪声:一位用户正在开发一个 完全去中心化的节点网络,该网络通过将目标与逆噪声输入相关联来最小化内部噪声,可能在 数千台计算机上同时运行。
- 该网络使用视觉输入作为节点的输出,迫使网络对输入进行建模和预测,学习输出任何能最小化噪声的内容。
- ML 带来的负面生产力:一位成员表示,他们的公司在使用 Machine Learning 时观察到了 负面的生产力结果。
- 然而,他们承认 ML 通常在 制造业中有显著的积极贡献。
- NVIDIA 招聘轨道数据中心系统架构师:一位用户分享了 NVIDIA 的招聘职位,招聘 Orbital Datacenter System Architect。
- 这凸显了对天基计算基础设施日益增长的兴趣和投资。
Yannick Kilcher ▷ #paper-discussion (11 messages🔥):
Safe Entanglement of Photons, Richard Sutton's Reinforcement Learning Book, Argumentation Theory, Legal Applications of Logic
- 安全光子纠缠突破:一位成员提到了关于在相对较小的装置中实现光子多维安全纠缠的突破。
- 强化学习读书会推迟:由于时间冲突,关于 Richard Sutton 和 Andrew G Barto 的 Reinforcement Learning: An Introduction 的读书会环节已推迟至明天;第二版已在线发布。
- 论证理论论文:一位成员建议讨论一篇关于论证理论 (argumentation theory)的论文,该论文探索了人类在辩论中使用的基本机制以及如何在计算机上实现这些机制。
- 论文表明,AI 和逻辑编程中非单调推理 (nonmonotonic reasoning) 的大多数主要方法都是论证理论的特殊形式,且该理论自然地涵盖了 n 人博弈论和著名的稳定婚姻问题的解决方案。
- 法律逻辑应用探索:一位成员提议讨论一篇关于逻辑在法律中的应用的综述文章,重点关注法律辩论的逻辑模型。
- 文章认为,法律是基于逻辑的 AI 研究的丰富实验场和重要应用领域,并回顾了逻辑在表示法律法规中的应用。
Yannick Kilcher ▷ #ml-news (14 messages🔥):
Anthropic, OpenAI, Sam Altman, Dario Amodei, Palantir CEO
- Dario 的劲爆备忘录:一份据称来自 Dario Amodei 的劲爆备忘录指责 Sam Altman 与 DoW 勾结并大搞“安全演戏 (safety theater)”,以此取代 Anthropic 成为供应商,从而削弱后者。
- 备忘录声称 Altman 正在向他的员工散布虚假叙事,并称他们由于“筛选效应 (selection effects)”而变成了一帮容易受骗的人,还指出这种试图扭转舆论/煤气灯操纵 (gaslighting) 的行为对公众不起作用,但对“Twitter 上的一些白痴”确实有效。
- 关于政治忠诚和安全演戏的指控:Amodei 的备忘录暗示 DoW 和 Trump 政府不喜欢 Anthropic 的真正原因是他们没有向 Trump 捐款,没有对他进行独裁者式的赞美,并且支持 AI 监管。
- 根据备忘录,Anthropic 坚守了他们的红线和诚信,而不是像 OpenAI 那样为了员工利益而勾结并制造“安全演戏”。
- Palantir CEO 胜过 Altman 和 Amodei:成员们讨论认为 Palantir CEO 表现得更加邪恶,但在人口动态的影响下,更擅长欺骗的邪恶往往能走得更远。
- 一位用户评论说 Sam Altman 是个蛇油推销员,一直在讨好特朗普 (kissing the ring of the orange dude)。
- OpenAI 推出 GPT-5:成员们提到了 OpenAI 推出的 GPT-5,但除了提供公告链接外,没有进行太多详细说明。
- 该公告可能是为了回应 Anthropic 的经济指数 (Economic Index)。
HuggingFace ▷ #general (25 messages🔥):
Object Detection Models, YOLO Licensing, RTMDet, Sentient Arena, Pooled Representation of Embedded Tokens
- YOLO 授权情况说明:一位成员询问有哪些商业上更安全的 object detection models,讨论中随即提到 YOLO 在商业使用授权上的顾虑;同时还附上了 YOLOX markdown 作为参考。
- 提问者指出,YOLO 的授权历史一直比较混乱,也有成员提到 RTMDet 可能是一个替代选择。
- 关于 Embedding 向量池化的困惑:一位成员想为 embedded tokens 构造 pooled representation,并详细描述了 mean pooling 的问题,以及 embedding normalization 可能在训练中引发的梯度消失风险。
- 他在考虑是否应该改用未归一化的 embedding vectors 或 sum-pooling,以防单个 token 的重要性被淹没。
- 探索新的 Voice Cloning 方法:一位成员询问是否存在一些较新的 voice cloning 方法,希望尝试预训练模型之外的新路线。
- 但在这段讨论里,并没有人给出具体的新方法。
- Hugging Face 安全提醒:一位安全研究员表示,自己已完成一项关于 Hugging Face 的大规模凭证泄露研究,并希望联系到 HF security team。
- 有人建议他把结果发到
/posts或博客里,并 @ 相关人员,或者直接去 scrape 网站查找安全团队联系方式。
- 有人建议他把结果发到
HuggingFace ▷ #i-made-this (21 messages🔥):
async RL infrastructure, Lunaris MoC, Rust-based database, vllm-i64, AskDrive Web
- **Async RL Infra 的复刻版出现了:一位成员最小化复现了训练 **GLM-5 所使用的 async RL infra,通过 Redis 将 generation 与 sandbox evaluation 解耦。
- 目标是防止慢速、长时程 rollout 阻塞采样与训练;代码已发布在 GitHub。
- **Lunaris MoC 面向自适应算力分配:Lunaris MoC** 提出了 Mixture-of-Collaboration (MoC),被选中的专家会在融合前通过一个学习到的 mediator 协作,每个专家内部还会运行一个 Iterative Reasoning Loop (IRL)。
- 在 64M 参数上验证时,MoC-vNext 的验证集 perplexity 达到 59.97,而标准 MoE 为 62.89;其自适应门控还学到了约 40% 的算力节省,代码和日志分别在 GitHub 和 Weights & Biases。
- 面向类人回忆的 Rust 数据库:一个用 Rust 编写的新数据库项目,希望为 Agents 提供更接近人类回忆方式的机制,项目地址在 GitHub。
- 同时还有新的 vllm-i64 项目 Complexity-ML/vllm-i64,以及一个基于 Ollama 和 llama3.1:8b 的网页项目 askdrive-web.vercel.app。
- **PENCILCLAW 与 PygmyClaw 作为创意写作搭档:PENCILCLAW** 是一个 C++ 命令行工具,可把本地 Ollama 实例变成创意写作搭档,并支持执行生成出来的 C++ 代码,项目在 Hugging Face。
- PygmyClaw 则是一个小巧的、基于 Py 的 openclaw 克隆版,带有持久任务队列和模块化工具系统,也发布在 Hugging Face。
- 尝试用对话取代表单:一位成员正在探索以对话代替传统表单,以改善信息采集体验,详见这篇 Medium 文章。
- 另一位成员则在开发 R.A.V.E.N(REMOTELY ADAPTIVE VECTOR-ENGINE NEXUS),这是一个带有 Synaptic Node Nexus 的自学习、自进化 AI。
HuggingFace ▷ #core-announcements (1 条消息):
Release 0.37.0, 发行说明
- Release 0.37.0 满载而归:Release 0.37.0 已发布,带来了许多精彩内容!
- 详情请参阅 release notes。
- Release 0.37.0 改进:此版本包含多项改进。
- 这些改进将帮助许多用户。
HuggingFace ▷ #agents-course (7 条消息):
Agents 课程简介,新成员加入频道
- 新成员打招呼并做自我介绍:包括 Deni, Surya Mukherjee, ishaan18, Azlina, Ish 和 Poojitha 在内的几位新成员在频道中介绍了自己。
- 对 Agents 课程的热情:Surya Mukherjee 和 ishaan18 表达了他们学习 Agents 课程的渴望。
- Ishaan18 提到他们在一个工程领导团队工作。
Moonshot AI (Kimi K-2) ▷ #general-chat (47 条消息🔥):
Kimi 的固执,Kimi API 问题,Claude Code 上的 Kimi,Kimi 平台退款,Kimi 手机 App 性能
- Kimi 的固执令用户沮丧:一位用户对 Kimi 无法控制 UI 表示沮丧,尽管已要求其审查工具使用情况并更新价格,该用户正在寻求订阅问题和意外费用的解决方案。
- 该用户甚至上传了一张与该问题相关的 图片。
- Kimi CLI 与阿里巴巴托管的 API 之间出现差异:用户注意到 Kimi CLI 与 阿里巴巴托管的 API 之间在模型性能上存在差异,推测可能存在 Kimi 未公开的微调差异。
- 一位用户暗示问题可能源于阿里巴巴的实现,并表示 如果阿里巴巴没有能力正确托管其模型,那不是 Kimi 的错。
- Kimi API 定价引发关注:一位用户质疑 定价限制页面 的准确性,并对在 API 上花费 5 美元后 TPD 限制 的潜在变化表示担忧。
- 另一位用户指出了频道中的一个 严正警告,建议不要向机器人询问 API 相关问题,因为它往往会提供不准确的信息。
- Claude Code 上的 Kimi 饱受 API 错误困扰:用户报告在 Claude Code 中使用 Kimi 时遇到 API Error 400 (Invalid request Error),一位用户认为这与 Claude 最近改变工具行为的更新有关。
- 一位用户感叹道:说实话,当 App 上的 Kimi 拥有搜索能力而 Code 上的 Kimi 拥有 MCPs 时,这简直太疯狂了。
- 向 Kimi 平台提出的退款请求:一位用户询问如何在 Kimi 平台 上申请退款,理由包括误购和功能无法使用。
- 另一位用户建议联系 membership@moonshot.ai,而其他人分享了因类似原因从 OpenAI 和 Anthropic 获得退款的经验。
Eleuther ▷ #research (17 messages🔥):
eval_main.py in littletrainingloop, Hybrid char + bpe models, embedding table messing up, elaborate trainable pre-embedding computation, Links to the future of AI papers
eval_main.py位于littletrainingloop仓库中:一位成员提到,评测代码就在 littletrainingloop 仓库 里的eval_main.py。- 他们想知道,这种效果是否能在其他训练框架中复现,因为这个思路本身并不新鲜,大家也都知道。
- ChatGPT 推荐 Hybrid Char + BPE 模型:一位成员表示,基本上任何 hybrid char + bpe model,例如 Char2Subword、FastText、BBPE 都可能适用于这个问题,而 BPE-dropout 的后继方法在精神上也算接近。
- 另一位成员回应说:Char2Subword 的味道确实很像,发现得不错;其他那些看起来就没那么相关了。
- Embedding table 从 GPT-2 起就一直在添乱:一位成员指出,随着模型训练得越来越充分,直接字符信息的缺失会在总损失中变得愈发显著,也就是为训练后期增加额外噪声。
- 他还提到,Gwern 从 GPT-2 时代起就一直提过一个问题:embedding table 会把很多事情搞乱。
- 预嵌入计算可能带来不稳定性:只要方案里包含复杂的、可训练的 pre-embedding computation,就很难对它有足够把握,因为这种计算可能会以难以预见的方式变得不稳定或出问题。
- 他们还说:BLT 这套设定确实很巧妙……但我完全没信心它在更大规模上或在任何特定代码库里不会爆出某种非常可怕的不稳定性。
- 来自“未来”的 AI 论文链接:一位成员分享了几篇“来自未来”的论文:2603.03818、2603.03276 以及 beyond-llms.github.io。
- 他还附上了一条 X 线程链接:https://x.com/i/status/2029596876425892030。
Eleuther ▷ #scaling-laws (1 messages):
uwu1468548483828484: 为什么 horizon 一定得固定?
Eleuther ▷ #lm-thunderdome (9 messages🔥):
lm-evaluation-harness Heterogeneity, LAMBADA evaluation discrepancies, lm_eval version in gptneox
- 解决 lm-evaluation-harness 任务中的异质性问题:一位成员正在 lm-evaluation-harness 中实现一个新的评估任务,但被多选题与文本生成格式中的数据集异质性难住了。
- 核心问题在于选项格式和 prompt 结构差异太大,可能会导致few-shot prompts 不具代表性,从而让模型困惑;他们已在 GitHub 上开了一个 Issue。
- LAMBADA 评测结果让人困惑:一位用户在跑 LAMBADA eval 时,看到三个不同结果值:LAMBADA、LAMBADA OpenAI 和 LAMBADA Standard,于是想搞清楚聚合后的 LAMBADA 分数到底怎么计算。
- 一位贡献者推测,LAMBADA 很可能是 LAMBADA OpenAI 与 LAMBADA Standard 的平均值,并确认这种分组在当前主分支里已经不存在了。
- GPTNeoX 自带的是旧版 lm_eval:一位用户澄清说,他们使用的是 GPTNeoX 自带的 lm_eval>=0.4.0,<=0.4.1,用于评估 NeoX 格式模型。
- 这也解释了为什么会出现 LAMBADA 那组结果,因为该分组在后续主分支版本中已经被移除。
Manus.im Discord ▷ #general (19 条消息🔥):
Manus 支持问题, Manus 一周年, 从 Manus 迁移, Antigravity Google
- 用户抱怨 Manus 缺乏支持:一位用户表达了对 Manus 的不满,因为在长达 12 小时的工作日中遇到了大量错误且缺乏支持。
- 其他用户也表达了对支持响应速度的类似看法,其中一人表示:“我们一直在反映这个问题,但他们就是不听”。
- Manus 庆祝一周年生日:Manus 团队正在庆祝其 一周年生日,标志着其自初始发布以来已满一年。
- 用户向团队表示祝贺,并对这一年过得如此之快感到惊讶:“Manus 生日快乐!不敢相信已经一年了。时光飞逝 :))”。
- 用户考虑从 Manus 迁移:一位用户提到他们正在考虑从 Manus 迁移,因为“他们唯一允许使用积分(credits)的层级是每月 $13000!”
- 其他用户询问是否有任何可行的替代方案。
- 推荐 “Antigravity Google” 作为替代方案:一位用户建议将 “Antigravity Google” 作为 Manus 的潜在替代品。
- 未提供链接或进一步信息。
DSPy ▷ #show-and-tell (1 条消息):
企业 AI 趋势, AI 实施, AI 演进
- 企业 AI 趋势正在演变:一位成员分享了一篇 LinkedIn 帖子,讨论了 企业 AI 领域 不断演变的趋势。
- 该 LinkedIn 帖子强调了 AI 转型在组织中的关键性及其具体实施。
- AI 实施与演进:该帖子专注于企业中的 AI 演进 及其落地实施。
- 它强调了理解组织应采取哪些实际步骤来利用 AI 力量的重要性。
DSPy ▷ #general (7 条消息):
DSPy 高级用户资源, Dropbox LLM 标注, 用于 Agent 架构的 REPL 工具, RLM 范式对比
- 寻求 DSPy 高级用户资源:一位用户询问了除了标准文档之外,成为 DSPy 高级用户 的全面资源。
- 团队指向了 Tutorials 章节 作为起点,并提供了示例和演示的链接。
- Dropbox 使用 LLM 进行人工标注:Dropbox 正在使用 LLM 来增强人工标注,这为其在 案例研究 中记录的 使用 DSPy 进行 Prompt 优化 提供了动力。
- 这提高了 Dropbox Dash 的 搜索相关性。
- REPL 工具作为 Agent 架构:一位用户倾向于测试 REPL 工具 作为 Agent 架构 的主要工具,而不是使用一堆 Python 函数,并引用了一份 研究日志。
- 该架构听起来与 RLM 范式 非常相似。
- RLM 范式解构:有人提到 REPL 工具 就像是 2/3 的 RLM。
- RLM 的最后一部分涉及在 REPL 中提供一个函数来 以编程方式进行 LLM 查询,论文中对比了有无此功能的情况;如果你不处理长上下文,这并不是严格必需的。
aider (Paul Gauthier) ▷ #general (2 条消息):
安全漏洞链, GitHub 安全公告, 密钥轮转, Adnan Khan, Cline 补丁
- 研究员 Khan 发现漏洞但被忽视:安全研究员 Adnan Khan 在 2025 年 12 月底发现了一个漏洞链,并在 2026 年 1 月 1 日通过 GitHub 安全公告 进行了报告。
- Khan 在五周内发送了多次后续跟进,但未收到任何回复,直到他在 2月9日 公开披露了该漏洞,促使 Cline 在 30 分钟内发布了补丁。
- Cline 补丁修复快但在密钥轮转上搞砸了:尽管 Cline 在公开披露后迅速发布了补丁,但他们还是“翻车”了,因为他们在密钥轮转(Key Rotation)上出了差错。
- 这突显了不仅要快速修复漏洞,还要确保正确的安全实践(如安全的密钥轮转)的重要性。
aider (Paul Gauthier) ▷ #questions-and-tips (1 条消息):
evertonw_86809: aider 什么时候会引入上下文压缩(Context Compaction)功能?
Modular (Mojo 🔥) ▷ #mojo (3 messages):
Mojo Roadmap Updates
- Mojo Roadmap 还在更新吗?:一位成员询问 Mojo roadmap 是否仍在更新。
- 另一位成员确认它看起来是最新的,原发帖人也表示他们会不时查看路线图,了解 1.0 版本的进展情况。
- 持续关注:另一位用户表示,他们会不时查看路线图,了解 1.0 版本的进展情况。
- 这表明用户对 1.0 版本的进展感到非常兴奋。
MLOps @Chipro ▷ #general-ml (1 messages):
Simple Work Assistance
- 寻找美国合作者:一位成员正在寻找位于 US 的人来协助完成一些简单工作,并为该协助提供报酬。
- 另一位成员响应:另一位成员仅对该请求表示了知悉,但未提供具体帮助。