AI News
今天也没什么大事。
前沿模型、Qwen 动荡与 Agent 工具继续堆叠的一天
2026/3/3-2026/3/4 的 AI 新闻。我们为您检查了 12 个 subreddits、544 个 Twitter 账号 和 24 个 Discord(264 个频道,14242 条消息)。预计为您节省的阅读时间(按 200wpm 计算):1397 分钟。AINews 网站 允许您搜索所有往期内容。提醒一下,AINews 现在是 Latent Space 的一个板块。您可以选择加入/退出邮件发送频率设置!
AI Twitter 回顾
前沿模型继续上新:Gemini 3.1 Flash-Lite、GPT-5.4 传闻,以及“Agent 优先”的产品定位
- Gemini 3.1 Flash-Lite 的定位(速度 / 成本):Demis Hassabis 预告称 Gemini 3.1 Flash-Lite 以其表现来看“快得惊人、性价比极高”,明显将这一模型线定位在延迟和单位能力成本上,而不是单纯追求前沿分数(tweet)。相关产品讨论还提到 NotebookLM 是“最喜欢的 AI 工具”之一(tweet),以及 NotebookLM Studio 的一项新功能:为 Ultra 用户生成定制、沉浸式视频的 Cinematic Video Overviews(tweet)。
- GPT-5.4 爆料叙事(The Information):多条推文放大了一则报道,称 GPT-5.4 将带来 约 100 万 token 上下文窗口,以及一种新的“极限推理模式”,可以“思考数小时”,目标是长时程智能体工作流和更低的复杂任务错误率(tweet,tweet,tweet)。还有猜测认为 OpenAI 正转向更高频(月更)的模型更新(tweet)。另外,一位 Arena 观察者声称“GPT-5.4 已进入竞技场”,暗示发布时间窗口已经很近(tweet)。除非 OpenAI 官方确认,否则这些都应视为未证实信息。
- Claude 的强项不只是写代码,而是“Agent 行为”:Nat Lambert 认为,讨论重点应从 Anthropic 是否“全面押注代码”转向其在通用智能体行为上的领先地位,这意味着编程能力会逐渐商品化,但智能体鲁棒性不会(tweet)。MathArena 的评测也补充了一个数据点:Claude Opus 4.6 总体很强,但在视觉数学上较弱,而且评测成本很高(据称约 8000 美元)(tweet)。
阿里巴巴 Qwen 震荡:组织设计、算力获取,以及生态对开放模型的依赖
- 领导层离职 + 重组传闻:整个数据集的一个核心线索是 Qwen 负责人林俊漾 (Lin Junyang) 在据传的内部重组中卸任。该重组将团队从垂直整合模式转为水平拆分(预训练/后训练/多模态/基础设施),这削弱了统一控制,并可能与团队此前倡导的“紧密集成”哲学相冲突(推文,以及后续背景推文)。Simon Willison 总结了这一情况,并指出在 Qwen 3.5 发布前后出现了多起明显的辞职事件(推文)。
- 紧急全体会议与“算力讽刺”:由 Poe Zhao 转述的报告描述了阿里巴巴 CEO 吴泳铭 (Eddie Wu) 召开了一次紧急会议;Qwen 团队成员就重组、算力分配和模型策略向领导层发难。最尖锐的细节是:据称阿里巴巴云的 CTO 承认,外部客户获取算力的顺畅程度甚至高于内部 Qwen 团队(推文)。这引发了此前认为 Qwen 拥有“GPU-rich”(GPU 资源充裕)地位的观察者的重新评估(推文)。
- Qwen 在研究工作流中的主导地位:根据一项对 Hugging Face (HF) 论文使用情况的总结声称,Qwen 是 2025–2026 年 HF 论文中排名第一的开源模型,在 7,692 篇论文中占比 41%,在 2025 年 5 月 Qwen3 发布前后占比约为 50%(推文)。无论确切数字是否完全准确,其核心观点是不变的:生态系统对一个小型核心团队的依赖是一个真实存在的风险。
- 权重开放(Open-weights)模型的生存风险框架:Nat Lambert 认为,权重开放的前沿工作可能会集中在少数具有商业动机的参与者身上:非营利组织、NVIDIA(硬件带动销售)和 Meta(使补充产品商品化)——这一视角使得 Qwen 的公司战略失调看起来像是结构上的必然,而非个别异常(推文)。
- 来自 Qwen 生态的模型/基础设施技术笔记:RASBT 指出 Gated DeltaNet 模块可以避免 KV-cache 的增长,在宣称的比例下使 Qwen 3.5 比 Qwen3 对内存更友好(推文)。同时,有用户反映即使在较高量化(quants)下,Qwen 的采样参数在约 20% Context 时会出现 llama.cpp 死循环(推文)——这提醒人们“推荐解码(decoding)”配置在不同 Runtime 之间可能是脆弱的。
推理与系统:Speculative Speculative Decoding、vLLM 扩展以及内核生成 Agent
- Speculative Speculative Decoding (SSD):Tanishq Kumar 推出了 SSD,声称其比领先的推理引擎(vLLM, SGLang)快 2 倍,该项目是与 Tri Dao 和 Avner May 合作完成的(推文;Avner 的发布推文)。Tri Dao 将其描述为“异步机器的攻击”,将该方法与 GPU Kernel 异步设计的经验联系起来(推文)。如果得到证实,这将是该领域中较为具体的一个算法“提速”案例。
- 生产级推理实践:一份关于在 OOM(内存溢出)/不稳定情况下扩展 vLLM 的实用指南被广泛分享,该指南强调了 工作负载分析(Workload Profiling) + 配置微调 比单纯堆硬件更重要(推文)。
- 针对 CUDA 内核的 Agentic RL(字节跳动):字节跳动的一篇论文总结描述了 CUDA Agent:一个在安全测试环境中编写 CUDA Kernel 的 Agent 强化学习(RL)设置,旨在优化提速性能;声称在某些情况下,其生成的组件比传统自动化工具快约 100%(推文)。即便考虑到“推文摘要的水分”,这种闭环 代码→基准测试→奖励的性能工程研究方向是可信且具有战略意义的。
编程 Agent 与开发工具:Windows 上的 Codex、VS Code “Agent DX”、Symphony、LangSmith Skills
- Codex 应用登陆 Windows + 开源沙箱:OpenAI DevRel 宣布推出 Codex for Windows,并配备了 Windows 原生 Agent 沙箱,利用 OS 控制机制(受限 tokens、ACLs、专用用户)来约束文件系统/网络访问,除非获得批准;该实现已 开源(推文,推文)。AJ Ambrosino 补充了细节:支持原生运行或通过 WSL 运行;支持 PowerShell/CMD/Git Bash/WSL 终端;具备 “Open in …” 集成和 Windows 技能(推文)。Reach_vb 强调开源沙箱是一个被低估的成果(推文)。
- VS Code 面向 Agent 的版本发布:
@code账号强调了 “Agents,为了真实工作”,发布了 hooks、消息转向/排队 (message steering/queueing)、集成式 Agent 浏览器 以及 共享内存(推文)。对于开发者来说,一个流程变化非常重要:VS Code 正在从每月发布改为 每周发布main分支,以加速功能交付(推文)。 - OpenAI Symphony (工单看板→Agent 编排):一个新的 OpenAI 仓库 Symphony 被描述为一个编排层,它能够 轮询项目看板 并根据工单 (ticket) 生命周期阶段生成 Agent——将用户体验从 “提示 Agent” 转变为 “移动工单并让 Agent 执行”(推文)。这与 工作流原生 Agent 自动化 的大趋势相一致。
- LangSmith Skills + CLI (Agent 执行 Agent 工程化):LangChain 发布了 LangSmith Skills + CLI,使编码 Agent 能够原生调试 trace、构建数据集,并从终端运行实验(推文)。与此同时,LangChain OSS Skills 旨在教导 Agent 如何有效地使用 LangChain/LangGraph/DeepAgents(推文,推文)。
- Cursor 通过 Agent Client Protocol 进入 JetBrains:Cursor 宣布通过 Agent Client Protocol 在 JetBrains IDEs 中可用(推文)。这是一个关键的分发举措:实现 IDE 原生访问而无需强制用户切换工具。
多模态 + 世界模型:Self-Flow、超越语言建模、持久化视频和 NE-Dreamer
- Black Forest Labs 的 Self-Flow:BFL 预览了 Self-Flow,一种用于多模态生成模型(图像/视频/音频/文本)的 自监督流匹配 (self-supervised flow-matching) 方法,避免依赖外部预训练表示模型(如 DINO)。声称的结果包括:收敛速度提升高达 2.8 倍,改进了视频时间一致性,更清晰的排版;被定位为多模态视觉智能甚至动作预测的基础(推文;更多背景信息见 推文)。
- “超越语言建模” / 视觉优先的多模态预训练:多位作者推广了一篇探索 原生多模态模型 的论文,其中视觉被视为一等公民,模型以 “Transfusion 风格” 输入/输出所有模态,包括对表示、数据、世界建模、架构和 Scaling Laws 的讨论(推文,推文,推文)。核心观点是:业界可能低估了多少进展需要 视觉原生训练,而非以语言为主的适配器。
- 长上下文视频世界模型:Gordon Wetzstein 的推特线索预告了 “Mode Seeking meets Mean Seeking (MMM)”,作为通过统一表示实现 长上下文、持久化视频世界模型 的路径(推文)。
- NE-Dreamer:嵌入预测而非像素重建:George Bredis 介绍了 NE-Dreamer,探索训练世界模型来 预测下一个嵌入 (next embeddings) 而非重建像素——认为重建对于控制任务来说可能是错误的目标(推文)。
评估、记忆与 “以人为本” 的编码:分解障碍、Agent 记忆诊断、臃肿补丁和准则漂移
- Diffusion LLM 并行化遭遇“因子化壁垒”:Ian Li 解释了为什么 diffusion LLMs 在并行 token 生成方面表现挣扎:同时预测多个 token 可能会引发不连贯的联合输出(例如 “San York”)。他将其归因于结构性错误设定——全因子化输出头在不爆炸式增加输出头尺寸的情况下,无法表示完整的联合分布——并提出了 CoDD 作为打破这一壁垒的方法 (推文)。
- Agent 内存:检索主导“写入”策略:一个诊断框架区分了检索失败与利用失败;关键观点:检索方法导致了 约 20 个百分点 的方差,而内存写入方法仅产生 3–8 个百分点 的变化。“原始分块 (Raw chunking)”的效果可以媲美或优于昂贵的摘要/事实提取流水线 (推文)。实际意义:许多团队可能在过度优化内存“摄取 (ingestion)”,而不是搜索/选择。
- SWE-bench 补丁膨胀作为一种人为因素失败模式:KLieret 报告称,LLM 生成的 SWE-bench 补丁始终比人类方案更长且冗余(不仅仅是注释),这虽然能通过测试,但会损害人工验证和维护 (推文)。后续研究强调“测试成功 != 实际可用性”,并主张开展以人为中心的编码 Agent 研究 (推文)。
- 评估准则漂移与作为“生命系统”的评测:多条推文强调,失败通常源于过时的评估准则 (eval rubric),而非“失效的提示词 (broken prompt)”;解决办法是将评测视为一个与生产环境分布偏移挂钩的反馈循环,而非静态的单元测试 (推文, 推文)。
- BullshitBench v2(废话检测):一个测试模型是否拒绝荒谬提示词的基准测试发现,只有 Claude 和 Qwen 3.5 的得分显著高于 60%,并观察到一种失败模式:“思考更久”的推理模型会为荒谬内容寻找合理化解释,而不是拒绝它 (推文)。如果属实,这将是一个有用的权衡指标,用于制衡将纯粹的“推理 token”数量作为质量指标的做法。
热门推文(按参与度排序,技术相关)
- NotebookLM 电影级视频概览上线(Ultra 用户):@NotebookLM
- Windows 版 OpenAI Codex 应用 + Windows 原生沙箱细节:@OpenAIDevs 和 @ajambrosino
- Gemini 3.1 Flash-Lite 的速度/成本定位:@demishassabis
- Speculative Speculative Decoding (SSD) 声称推理速度提升高达 2 倍:@tanishqkumar07
- Yuan 3.0 Ultra 开源多模态 MoE(总参数 1010B / 激活参数 68.8B)发布公告:@YuanAI_Lab
- Self-Flow 多模态流匹配研究预览(声称收敛速度提升 2.8 倍):@bfl_ml
AI Reddit 回顾
/r/LocalLlama + /r/localLLM 回顾
1. Qwen 模型性能与基准测试
-
Qwen3.5-35B-A3B 在 SWE-bench Verified Hard 上达到 37.8% —— 配合正确的验证策略,几乎追平 Claude Opus 4.6 (40%) (热度: 464): 该帖讨论了 **Qwen3.5-35B-A3B 模型的性能,这是一个在 SWE-bench Verified Hard 任务中具有
3B 活动参数的小型 MoE 模型。通过实施一种简单的验证策略 —— “每次编辑后验证”,该模型的性能从22%提升到了37.8%,几乎追平了 Claude Opus 4.6 的40%。该策略涉及提示模型在每次file_edit后通过编写和运行测试脚本来验证更改。该模型在完整的 500 个任务基准测试中达到了67.0%,可与更大的系统相媲美。作者指出,像 MCTS 和 Best-of-N 采样这样更复杂的策略效果反而较差。文中提供了包含代码和日志的 GitHub 仓库。** 一位评论者建议等待 SWE-bench 的新任务,以避免模型训练中潜在的数据泄露。另一位对比结果表示怀疑,认为它们可能是“针对基准测试过度优化(benchmaxed)”的。第三位评论者注意到该策略中缺乏循环,他们发现这在 35B 模型上极具挑战性。- ResidentPositive4122 强调了 SWE-bench 的一个潜在问题,指出它已经过时,并且可能在较新模型的训练数据中包含泄露信号。他们建议等待包含新任务的更新版本,以确保评估更加准确。
- Deep_Traffic_7873 声称 Qwen3.5-35B-A3B 在其个人基准测试中优于 GPT-OSS-20B,表明前者在特定任务中相对于后者具有显著的性能优势。
- ethereal_intellect 提供了 OpenAI 对其 Codex harness 环境指南的详细列表,其中包括验证代码库、复现 Bug 和实施修复等步骤。他们指出,诸如伪造视频和驱动应用程序之类的某些任务特别具有挑战性,但在精心设置下是可行的。
-
Qwen3.5-27B Q4 量化对比 (热度: 386): 该帖对 Qwen3.5-27B 模型的 Q4 量化方法进行了详细对比,重点关注相对于 BF16 基线的平均 KL 散度 (KLD)。评估使用了自定义聊天数据集和 Wikitext2,结果显示
unsloth_Qwen3.5-27B-UD-Q4_K_XL量化实现了最低的 KLD0.005087,而bartowski_Qwen3.5-27B-IQ4_XS则以其0.317506的效率得分受到关注。分析使用llama.cpp进行评估,并强调了 KLD 作为衡量与原始模型概率分布忠实度指标的重要性。该帖还提供了一个用于 KLD 扫描脚本的 GitHub 链接,尽管备注称其未经过广泛测试。 一条著名的评论质疑了帖子与 Hugging Face 之间模型大小的差异,暗示量化方法或报告方式可能存在差异。另一条评论建议,在大小与 KLD 的关系图中靠近最佳拟合线的模型更可取,表明更倾向于平衡大小和准确性的模型。- Gueleric 提出了一个关于
bartowski_Qwen3.5-27B-IQ4_XS模型大小差异的技术问题,注意到报告的 14.1GB 大小与 Hugging Face 上列出的 15.2GB 大小之间存在差异。这可能是由于不同的量化方法或 Hugging Face 模型大小中包含的元数据导致的。 - PaMRxR 讨论了他们创建的一张图表,显示了 Qwen3.5-27B 模型的量化大小与 KL 散度 (KLD) 之间的关系。他们提到移除离群值以更好地拟合数据,表明靠近最佳拟合线的模型更具优势。该图表是使用
unsloth_Qwen3.5-27B-UD-Q4_K_XL模型生成的,表明其重点在于理解模型大小与 KLD 等性能指标之间的权衡。 - munkiemagik 表示有兴趣对不同参数和量化水平的模型进行定性对比。他们强调了模型测试中的一个常见问题:通常只报告 perplexity(困惑度)或 throughput(吞吐量)等特定指标,这可能与用户的实际需求不符。他们还提到了理解 KL 散度等技术概念的挑战,表明需要更深入地参与大语言模型背后的学术原理。
- Gueleric 提出了一个关于
2. Qwen 模型的易用性与应用
-
Qwen3.5-0.8B - 谁还需要 GPU? (活跃度: 646): 图中重点展示了
Qwen3.5-0.8B模型令人惊讶的能力:它可以在相当老旧的硬件上高效运行,具体是一台配备 4GB DDR3 内存的第二代 i5 处理器。这一模型通过llama.cpp在本地运行,并被展示可以处理诸如弦理论这样的复杂主题。图中还使用 Arch Linux 环境下的fastfetch展示系统信息,突出它对硬件资源要求极低,对没有高端 GPU 的用户也很友好。 评论者对它在老旧硬件上的表现感到惊讶,将其与 GPT-3 的能力相比较,并提到该模型是开源的。还有人怀念起半透明终端的桌面时代。Qwen3.5-0.8B最突出的一点是它无需 GPU 也能高效运行,这对提升 AI 可及性是一个重要进展。由于它是开源模型,开发者能够在各种场景里低成本实验和使用,而不必承担昂贵 GPU 资源的代价。- 有用户建议直接使用 Qwen3 8B,认为它性能更强,同时也不依赖 GPU。这说明 Qwen3 系列在低端硬件上的性能优化做得不错,对没有高性能计算资源的开发者很实用。
Qwen3.5-0.8B还包含视觉组件,能够分析图像并生成可进一步产出图像或视频的工作流。这使其能力不再局限于文本任务,也能充当多媒体场景中的子智能体。
-
Qwen 3.5 4b 强到可以一把 vibe code 出完整可用的 OS Web App (活跃度: 718): 这篇帖子讨论了紧凑型模型 **Qwen 3.5 4b 的能力。它通过单条提示词成功生成了一个功能完整的网页版操作系统(OS),包含两个游戏、文本编辑器、音频播放器、文件浏览器、可自定义壁纸,以及一个由模型自行选择的特殊功能。对于仅有
40 亿参数的模型来说,能生成这样一个可运行的系统,体现了模型效率和信息密度的显著提升。该 OS 可在这里访问。** 评论者对测试是否足够严谨持保留态度,认为这可能是一个已经被优化过的常见 benchmark 场景;也有人对其表现印象深刻,认为这表明 AI 能力已不只是简单靠参数堆叠提升。- tinny66666 认为 Qwen 3.5 4b 的表现非常惊人,指出它虽然体积更小,但智能程度已经超过早期的 GPT-3.5。这说明模型的信息密度和效率有了明显进步,也让人开始思考这种提升还能走到多远。
- msixtwofive 对测试有效性表示怀疑,认为“一次生成完整可用的 OS Web App”可能本身就是一个常见基准,因此很可能已被 AI influencer 圈层反复使用和优化。这引出了对模型在真实、未预设场景中表现是否同样可靠的担忧。
- simracerman 指出,Qwen 3.5 4b 完成这一任务本身确实令人印象深刻,尤其是相比更大的模型,但也不能排除相关代码模式本来就出现在训练数据中的可能性,这会影响对其真实泛化能力的判断。
3. 科技行业动态与社区反应
-
Apple 发布 M5 Pro 与 M5 Max,称其 LLM 提示词处理速度最高可达 M4 Pro / M4 Max 的 4 倍 (活跃度: 998): 图片展示了 Apple 新发布的 M5 Pro 和 M5 Max 芯片能力。官方声称,这两款芯片在处理大语言模型(LLM)提示词时,速度最高可达前代 M4 Pro 和 M4 Max 的 4 倍。M5 Pro 支持最高 64GB 统一内存,带宽 307GB/s;M5 Max 则支持最高 128GB 统一内存,带宽 614GB/s。此外,它们还提供最高 2 倍、达到 14.5GB/s 的 SSD 速度,并集成了支持 Wi‑Fi 7 的 Apple N1 无线芯片,在路由器支持的前提下可提升下载速度。 一些评论者表示希望看到搭载这些新芯片的 Mac Studio,另一些则指出官方并未提及更明确的 AI 专用硅改进,例如 Neural Accelerator。
- M5 Pro 和 M5 Max 在内存能力上的提升很明显:前者最高支持 64GB 统一内存和 307GB/s 带宽,后者则达到 128GB 和 614GB/s。这对处理大规模机器学习模型和高强度计算任务都很关键。
- 新芯片还提供了最高 2 倍更快的 SSD 速度,达到 14.5GB/s,可显著减少数据访问时间并提高整体系统性能。同时,Apple N1 无线芯片带来的 Wi‑Fi 7 支持,也会在网络基础设施匹配时改善数据密集型场景下的连接表现。
- 尽管不少人期待 Apple 能拿出更强的 AI 专用硬件,但 M5 系列仍然在 LLM 提示词处理上带来了实质性提升,较 M4 系列最高可快 4 倍。这大概率来自更高的内存带宽和更快的 SSD,共同提升了芯片对复杂 AI 负载的处理能力。
-
与五角大楼达成合作后,ChatGPT 卸载量暴涨 295% (活跃度: 418): 这张图本质上是个梗图,并未提供任何技术洞察或可验证数据。它用调侃的方式暗示,ChatGPT 在与五角大楼达成所谓合作后,卸载量大幅上涨,但没有给出可信来源或足够详细的信息来支撑这一说法。评论区的基调也同样是怀疑,大家主要在质疑该数据的来源,以及它对总用户规模究竟意味着什么。 评论者普遍认为这一说法可能被夸大,或者根本没有可靠出处。
- 有用户直接质疑“卸载量暴涨”的说法是否根本没有来源,这提醒我们,在讨论用户行为显著变化时,必须有可信数据作为支撑。
- 另一条评论批评 OpenAI 从“非营利研究实验室”逐渐转向可能更像“国防承包商”的角色,反映出人们对 AI 发展伦理边界以及其与军事用途关系的更广泛焦虑。
- 也有用户认为,AI 最终进入军事领域几乎是技术发展中的必然结果,因为维持竞争优势会推动这种集成。这一观点强调了 AI 在国防中的战略意义,以及落后的潜在代价。
偏非技术类 AI Subreddit 回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
1. AI 模型与基准测试发布
-
Opus 4.6 解决了 Donald Knuth 在编写 “The Art of Computer Programming” 时提出的一个猜想,他对此感到非常兴奋 (Activity: 1124): 该图片是一份由 **Donald Knuth 撰写的名为 “Claude’s Cycles” 的文档,讨论了 AI 模型 Claude Opus 4.6 取得的重大突破。这个模型是一个混合推理系统 (hybrid reasoning system),解决了一个与 directed Hamiltonian cycles 以及将弧分解为有向循环相关的长期猜想,这也是 Knuth 一直在研究的课题。文档强调了 Knuth 对 AI 解决方案的惊讶和喜悦,标志着在 automatic deduction 和创造性问题解决方面的显著进步。全文可在此查看 here。** 评论者们对 Knuth 愿意修正其对 AI 看法的开放态度表示赞赏,并指出了他的学术诚信。他们还强调了 Anthropic 凭借 Claude Opus 4.6 所取得的成就,并庆祝 Knuth 在 88 岁高龄仍持续积极参与研究。
- 在论文中指出,AI 模型 Claude 通过解决 Knuth 猜想中
m为奇数的情况,并找到了某些偶数m的解,展示了其能力,尽管它未能概括出所有偶数m的通用解。这凸显了该模型快速探索多种方法的能力,而这项任务对人类数学家来说非常耗时。 - Donald Knuth 对 AI 成就的认可标志着他对 generative AI 看法的重大转变。Knuth 此前持怀疑态度,现在他认识到 AI 能力的飞速进步,尤其是在 automatic deduction 和创造性问题解决方面,正如 Claude 在解决其猜想中所做的贡献。
-
Anthropic 的 Claude 参与解决 Knuth 的部分猜想,强调了 AI 在数学研究中的潜力。虽然 Claude 不一定比人类数学家“更聪明”,但它快速测试各种假设和方法的能力是一个显著优势,说明了 AI 在复杂问题解决中不断演变的角色。
-
Gemini 3.1 Flash-Lite 基准测试对比 (Activity: 236): 根据其 model card,Gemini 3.1 Flash-Lite** 模型是针对旧款 2.5 Flash 模型而非较新的 3 Flash 模型进行基准测试的,这引发了对其对比性能的疑问。该模型的定价为 input 每百万 tokens
$0.25,output 每百万 tokens$1.50,明显高于 2.5 Flash Lite 的$0.10input 和$0.40output 成本。这种定价策略表明其侧重于特定用例而非广泛适用性,因为虽然它仍比 3 Flash 模型便宜,但比其前代产品昂贵。** 评论者对 Gemini 3.1 Flash-Lite 的性价比表示不满,指出它比 2.5 Flash Lite “贵了 3 倍”,但性能提升不成比例。通过与 Grok 4.1 和 MiniMax M2.5 等其他模型的对比,突显出这些替代方案提供了更好的性价比,表明 3.1 Flash Lite 在定价和性能方面可能缺乏竞争力。- Important-Farmer-846 强调了 2.5 Flash Lite 相对于 3.1 Flash Lite 的成本效益,指出虽然 3.1 的价格是 Flash 3 的一半,但比 2.5 Flash Lite 贵一倍。该评论者建议,对于处理海量数据,2.5 Flash Lite 凭借其更低的成本和足够的性能,仍然是更好的选择。
- ExpertPerformer 提供了各种模型的详细成本对比,显示 3.1 Flash Lite 与 MinMax M2.5 和 Grok 4.1 等替代方案相比,性价比更低。3.1 Flash Lite 的 input/output 成本为 $0.25/$1.50,而 MinMax M2.5 为 $0.295/$1.20,Grok 4.1 为 $0.20/$0.50,表明后两款模型物超所值。
- ThomasMalloc 讨论了 3.1 Flash Lite 在 “High” 思考模式下的低效,指出其耗时比 2.5 Flash Lite 长 14 倍,且 output tokens 达到了 65,436 的上限,而 2.5 Lite 仅为 6,980。该评论者建议使用 “Minimal” 或 “Low” 思考模式以减少 token 使用和成本,因为由于过度的 token 消耗和不完整的输出,目前 “High” 模式并不实用。
-
Ostris 正在测试 Lodestones ZetaChroma(Z-Image x Chroma 合并)用于 LORA 训练 👀 (Activity: 254): 图片是一张聊天记录截图,用户 Ostris 在其中讨论使用 Lodestones ZetaChroma 测试一个 LoRA(Low-Rank Adaptation)模型。ZetaChroma 是一个结合了 Chroma 数据集与 Z-Image 的新模型,重点面向 pixelspace inference(像素空间推理)。该模型正被测试以集成进一个用于训练的 AI 工具包中。讨论强调,ZetaChroma 并不是简单的模型合并,而是使用 Chroma 数据集对 Z-Image 重新训练,目标是打造一个强大的开源模型。对话中还包含了一个 safetensor 文件链接,说明相关测试和开发正在积极推进。 评论补充说明,ZetaChroma 并非模型 merge,而是一项重新训练工作,重点是利用 Chroma 数据集在 Z-Image 之上从零训练一个 pixelspace 模型。
- Far_Insurance4191 澄清,Zeta 不是模型合并,而是使用最初为 Chroma 所用的同一套数据集,对 Z-Image 模型进行重新训练。这表明其重点在于利用现有数据进一步打磨模型能力,而不是直接拼接模型权重。
- PetiteKawa00x 强调,Zeta 是在 Z-Image 的基础上,使用 Chroma 数据集从零训练一个 pixelspace 模型,并没有把 Chroma 的权重与 Z-Image 进行合并。这说明其开发路径更偏向基础训练,而非整合现有模型。
- 在论文中指出,AI 模型 Claude 通过解决 Knuth 猜想中
2. Anthropic 与 OpenAI 高层变动
-
OpenAI 副总裁 Max Schwarzer 在近期风波中跳槽至 Anthropic (Activity: 1121): 图片是一张使用“惊讶皮卡丘”梗图制作的 meme,调侃 **OpenAI 副总裁 Max Schwarzer 离开 OpenAI、加入 Anthropic 一事引发的反应。这一变动属于更大趋势的一部分,即多位 OpenAI 关键人物转投 Anthropic,而后者本身就是由前 OpenAI 员工创立的公司。这个梗图传达出 OpenAI 对这次离职感到意外或震惊的意味,也反映出 AI 行业内持续存在的紧张关系与人员流动。** 评论者对 OpenAI 领导层表达了怀疑,一些人认为外界对其当前管理方向缺乏信任;也有人提到客户正在倒向 Anthropic,暗示市场偏好可能正在发生变化。
-
OpenAI 负责 Post-Training 的 VP 跳槽至 Anthropic (Activity: 1839): 图片是一条来自 Max Schwarzer 的推文,他此前担任 **OpenAI 的 Post-Training 副总裁。在推文中,他宣布离职并加入 Anthropic,这家公司以强调 AI 安全和研究著称。Max 提到了自己在 OpenAI 的贡献,包括领导 post-training 团队以及参与 GPT-5 等模型的工作。他此次转投 Anthropic 被描述为“回归研究”,意味着他的重心将从管理转向更基础性的 AI 研究。** 有评论者调侃地把他的职位看成了 “VP of Post Training Defects”,也有人认为他的离开可能与 OpenAI 目前面临的挑战有关,甚至形容其为“从一艘正在下沉的船上跳走”。
-
OpenAI 的 post-training 负责人离职加入 Anthropic:曾参与 GPT-5、5.1、5.2、5.3-Codex、o3 和 o1 的发布,并将在 Anthropic 回归一线 RL 研究 (Activity: 1818): **Max Schwarzer 是 OpenAI post-training 团队中的关键人物,他现已宣布离职并加入 Anthropic。Schwarzer 在 OpenAI 多个重要模型的开发和发布中都扮演了重要角色,包括 GPT-5、5.1、5.2、5.3-Codex 等。他转投 Anthropic 代表其将重新回到强化学习的一线研究工作,体现出从领导岗位转向直接科研参与的变化。这一转变也凸显了 AI 研究人才竞争的激烈程度,而 Anthropic 则被视为一家拥有强价值观和顶尖人才储备的公司。** 评论者对 Schwarzer 如此快速的职业发展感到惊讶,同时也讨论了他离开可能对 OpenAI 项目带来的影响,包括对营收和战略方向的潜在冲击。
- Freed4ever 提出了一个观点,即高科技人才在公司之间流动时可能需要一个“冷静期”(cool down period),类似于量化金融(quantitative finance)行业的做法。这是由于工作的敏感性以及这些研究人员所掌握的专有知识,可能会影响 AI 领域的竞争动态。
- PJpittie 对 GPT-5 表示不满,认为它未达到预期。这一评论反映了一种更广泛的情绪,可能预示着 OpenAI 最新迭代模型中存在的性能问题或未达标的 Benchmark,这可能会影响用户的信任和采用。
-
CallMePyro 强调了 OpenAI 与美国国防部(DoD)交易的影响,暗示其后果超出了财务损失。这可能涉及战略或伦理考量,从而影响 OpenAI 的运营及其人才留存策略。
-
OpenAI 负责 post-training 缺陷研究的 Research VP 加入 Anthropic (热度: 614): 该图片是来自 Max Schwarzer 的推文,他曾任 OpenAI 的 Research VP,现宣布离职加入 Anthropic。他强调了自己在 OpenAI 的贡献,特别是在推理范式(reasoning paradigms)和 post-training 团队方面,这些对于在训练后优化 AI 模型以确保其有效运行至关重要。考虑到 AI 研发领域的竞争态势,他转向专注于 AI Safety 和研究的公司 Anthropic 具有重要意义。这一变动凸显了 AI 行业内持续的人才迁移,并引发了对 OpenAI 内部动态的质疑。 评论者指出,失去 post-training 领域的关键人物(这对模型优化至关重要)影响重大,并针对资深研究人员频繁离职的情况,推测 OpenAI 的内部文化。此外,还有关于 Anthropic 价值观和潜在增长的讨论,一些人对其未来前景表示信心。
- OpenAI 的 Research VP 离职加入 Anthropic 具有重大意义,因为 post-training 在优化 AI 模型中起着关键作用。Post-training 对于确保模型产生连贯且可靠的输出至关重要,失去该领域的关键人物可能会影响 OpenAI 的模型开发和稳定性。
- OpenAI 资深研究人员的频繁离职引发了对该公司内部文化和稳定性的质疑。这一趋势表明组织内部可能存在促使核心人才离开的问题,这可能会影响 OpenAI 的长期创新和竞争力。
- 转向 Anthropic 被认为是战略性的时机选择,可能反映了价值观或战略方向的转变。Anthropic 对 Ethical AI 的关注及其日益扩大的客户群(包括企业级和消费级客户),使其成为 AI 领域强有力的竞争对手,可能会吸引寻求价值观一致的人才。
3. Claude 和 ChatGPT 用户反应
-
该死! (热度: 2597): 该图片是来自 X.com 上 TechCrunch 的模因(meme)式截图,强调了在与国防部(DoD)达成交易后,ChatGPT 的卸载量大幅增长了
295%。这表明公众对 ChatGPT 在政府合同中使用的隐私担忧或伦理考量。该帖子获得了大量互动,表明人们对此类交易影响的广泛关注。然而,置顶评论指出,如果没有绝对数字,百分比增长可能会产生误导,暗示实际影响可能微乎其微。另一条评论强调了潜在的财务影响,指出即使大量用户取消订阅,DoD 的交易在财务上也可以弥补这些损失。 评论者对卸载激增的意义表示怀疑,其中一人指出,如果没有绝对数值,百分比增长可能会误导。另一条评论讨论了财务权衡,认为 DoD 的交易可能会补偿任何订阅收入的损失。 - mazdarx2001 强调了用户取消订阅服务对财务的影响,指出如果有一百万用户取消每月 20 美元的订阅,将导致每月 2000 万美元的收入损失。然而,他们认为国防部(DoD)的合同可以抵消这一损失,暗示政府合同可能比消费者订阅提供更稳定的收入流。
- Orangeshoeman 讨论了国防部(DoD)合同对公司下游收入的潜在影响,特别是在隐私问题的背景下。他们暗示,追求隐私的用户可能会避免使用与政府合同相关的服务,这可能会对公司的声誉和用户群产生负面影响。
-
TimeTravelingChris 指出,用户不满加上更好的替代方案的出现,可能会导致重大的业务挑战。他们认为,市场上优秀产品的存在以及客户的不满,可能为该公司带来“灾难性的后果”。
-
295% is wild (Activity: 3163): 这张图片是一个类似迷因(meme)的 TechCrunch 推文截图,声称在与国防部(DoD)达成交易后,ChatGPT 的卸载量激增了
295%。帖子标题和评论对这一统计数据的意义表示怀疑,用户指出,在不知道卸载量基数的情况下,百分比增长没有意义。此外,评论还质疑数据来源的可靠性和 TechCrunch 的新闻标准,暗示报道的激增可能没有实质性的影响或相关性。 评论者对295%卸载激增的意义表示怀疑,指出没有基数,该统计数据缺乏背景。他们还批评了 TechCrunch 的报道,质疑所提供数据的准确性和相关性。- Diligent_Net4349 和 FalkenJoshua 都强调了在解释 295% 的卸载增长时,了解基数的重要性。如果不知道原始卸载数量,百分比增长就缺乏背景,可能会产生误导。例如,从 1000 这样的小基数增长 300% 也只会有 3000,这在大局中可能并不显著。
- FormerOSRS 提供了卸载统计数据的明细,暗示这种增长相当于在短短三天内发生了 12 天的卸载量。这意味着虽然百分比增长看起来很大,但如果基准卸载率较低,实际影响可能很小。
- Umademedothis2u 质疑卸载率数据的来源,暗示对报告的统计数据的准确性表示怀疑。这条评论表明,此类数据的收集和报告方式需要透明度,尤其是在科技新闻领域。
-
OpenAI loses 1.5 million subscribers in less than 48 hours after CEO Sam Altman says yes to the deal that Anthropic rejected (Activity: 4037): 据报道,在 CEO Sam Altman 决定接受 Anthropic 此前拒绝的一项交易后,OpenAI 在
48 小时内损失了150 万订阅者。这150 万这一数字的来源受到质疑,因为尚不清楚这是由 OpenAI 官方报告的,还是源自其他渠道。这一事件突显了用户对 OpenAI 在 Altman 领导下的战略决策和领导力的潜在不满。 评论反映了对报道的订阅者流失数字的怀疑,质疑其来源和准确性。此外,还有对 Sam Altman 领导风格和公开声明的批评,暗示其与公众认知存在脱节。- 一位用户强调了他们转向 Claude 的原因,指出其在营销、数据分析和研究等领域的卓越表现。他们强调了 Claude 连贯的记忆力和平衡的反馈,将其与科幻 AI(如 Hal 9000 或 Cortana)相类比。他们还提到 Opus 4.6 extended 是他们使用过的最好的 AI 模型,尽管他们在健康相关的查询中仍然依赖 GPT 和 Gemini。
- 另一位用户质疑 150 万订阅者流失数字的来源,询问这是否由 OpenAI 官方报告。这表明对该统计数据的准确性或来源存在怀疑,表明需要验证或官方确认。
- 一位用户表示希望从 OpenAI 获取个人数据导出,表明了对数据隐私和控制的担忧。这反映了用户越来越关注自己的数据权利以及公司持有的信息这一更广泛的趋势。
-
OpenAI 与 DoD 达成协议引发抵制,ChatGPT 卸载量激增 295% (热度: 3053): OpenAI 最近与美国国防部 (DoD) 建立的合作伙伴关系导致 ChatGPT 移动端 App 的卸载量激增了
295%,反映出用户对该公司与军事机构挂钩的强烈抵制。这种反应发生在公告发布后的48 小时内,并伴随着竞争对手 **Claude 下载量的上升,展示了 AI 应用领域竞争态势的变化。这一事件凸显了 AI 行业政府合同带来的声誉风险,因为用户情绪在塑造企业战略方面起着至关重要的作用。** 评论区反映了对 OpenAI 决策的强烈负面情绪,一些用户认为这种抵制是理所应当的,并对 OpenAI 的意图表示怀疑。还有人提到了关于吹哨人的阴谋论,表明了部分用户的不信任感。- EnotHOME 质疑卸载量增加 295% 的重要性,认为如果基数是 1000 次卸载,那么 295% 的增加意味着 4000 次卸载,这在全局看来微不足道。这暗示需要更多关于基数的信息来评估真实影响。
- coronakillme 寻求对 295% 这一数字的澄清,将其理解为卸载量比以前高出略不到三倍。他们询问原始卸载量是多少,强调了理解基数对于评估增长重要性的必要性。
AI Discord 摘要
由 gpt-5 提供的摘要的摘要的摘要
1. 软件工程基准测试与路由器 (Routers)
- SWE-Atlas 将 SOTA 限制在约 30%:Scale AI 推出了 SWE-Atlas,它是 SWE-Bench Pro 的扩展。根据发布公告,其首个基准测试 Codebase QnA 显示目前最顶尖的模型在软件工程问答方面的得分仅为约 30%:SWE-Atlas 发布 (Scale AI)。
- 工程师们称其为“警醒式”基准测试,指向了针对困难、基于代码库 (repo-grounded) 评估的排行榜:SWE-Atlas Codebase QnA 排行榜,并强调了在 代码库接地 (codebase grounding) 和 长文本检索 (long-context retrieval) 方面的差距。
- Max Router 大胜对手:Arena ML 的研究人员展示了他们的 Max 智能路由器 (intelligent router),它可以针对每个查询选择胜出的模型,据称“击败了平台上所有的模型”。详细分析见:Max 智能路由器 (YouTube)。
- 观众强调,动态路由加上工具选择的效果可以超越任何单一的静态模型,引用视频中的说法,它 “击败了平台上的每一个模型。”
- Cursor 破解 First-Proof 难题:Cursor AI 运行了约 4 天,并发现了 Arc Institute 的 First Proof 挑战中“第六题 (Problem Six)”的新颖解法,据报道其表现优于学术基准:Cursor 解决 ‘First Proof’ 第六题 (X),背景参考 Evo-2: 一年之后 (Arc Institute)。
- 研究人员讨论了 Agent 协作方法是否能从代码任务推广到数学研究,一些人敦促在更多问题上进行复现以验证其 鲁棒性 (robustness)。
2. 系统与 GPU 优化突破
- GPU 无需 CPU 引导直接与 NVMe 通信:一位 Linux 黑客通过修补 amdgpu 驱动程序并根据 Jason Gunthorpe 的 RFC 配置 dma-buf/iommufd,实现了 AMD GPU ⇄ NVMe P2P:dma-buf/iommufd RFC (lore.kernel.org),从而实现了直接的 GPU–SSD 命令路径。
- 他们将其与 ROCm/hipFile 进行了对比,认为 hipFile 仍通过 CPU 发布命令,而他们的路径则让 CPU 脱离了数据路径 (data path):ROCm hipFile (GitHub)。
- CUDA Agent 痛击 Kernel:ByteDance 推出了一款 CUDA Agent,可以编写优化的 CUDA Kernel。论文称在简单/中等任务上比 torch.compile 提速约 2 倍:CUDA Agent 论文 (arXiv)。
- 社区评论指出,在更复杂的 Kernel 上,它的表现也比 Claude Opus 4.5 和 Gemini 3 Pro 高出约 40%,称其为迈向 LLM 驱动的 Kernel 自动调优 (LLM-driven kernel autotuning) 的实质性一步。
- MXFP8 MMA 让开发者困惑:Kernel 工程师指出,根据 PTX 指南,MXFP8 MMA 似乎只在稀疏形状下支持
MMA_K=64(而稠密场景是K=256):PTX matrix shapes (NVIDIA docs)。- 讨论还延伸到了通过全局内存和 SASS 栅栏(
MEMBAR、LDG/STG.STRONG、CCTL.IVALL)进行 inter-CTA 通信时的正确性问题,大家希望获得更具架构针对性的 barrier semantics 指导。
- 讨论还延伸到了通过全局内存和 SASS 栅栏(
3. Agent 平台、用户体验与开发工具
- Codex 进驻 Windows:OpenAI 在 Windows 上推出了 Codex 应用,支持原生 agent sandbox 和 PowerShell,演示见:Codex on Windows demo (video)。
- 开发者普遍欢迎这种 Windows 原生工作流,认为 PowerShell 集成是企业桌面上构建 agentic dev environment 的一次务实升级。
- ACP 在 IDE 与 Agent 之间搭桥:Agent Communication Protocol(ACP) 现已接入 Zed 和 IntelliJ,允许在同一个界面中驱动多个提供方(例如 Cursor):AgentCommunicationProtocol.dev。
- 工程师反馈称,ACP 让多工具编排更加顺畅、上下文切换更少,有助于控制 provider sprawl。
- 6 个 Agent 周末造出一个市场:一个由 6 个并行 Agent 组成的 OpenClaw 小队,在一个周末内搭出了可用的 marketplace,并配有一个能为 Cursor 和 v0 生成平台特定模板的
prompt-generator.ts:codebonito.com,工具见 Cursor。- 开发者称赞这种 template compiler 模式是“一次编写,适配多个运行时”,能明显加快在异构 toolchain 上部署 Agent 的速度。
4. 推理速度与上下文效率技巧
- SSD 加速解码:研究人员预览了由 Tanishq Kumar、Tri Dao 和 Avner May 提出的 Speculative Speculative Decoding (SSD),声称相较领先推理引擎可实现最高 2 倍加速:Speculative Speculative Decoding (X)。
- 一线实践者认为,SSD 对于 吞吐受限 的服务是一个很实用的提升点,并开始设想将其与 router 和 MoE 技术栈结合,进一步叠加收益。
- 只保留用户上下文可显著降本:一项被广泛转发的研究称,只传递用户轮次(不含模型回复)即可在保持 95% 以上完整上下文质量的同时,将 token 消耗降低约 70%:Adaptive context management (AlphaXiv)。
- 开发者据此提出了 harness 层面的 滑动窗口 和 提示词剔除 策略,用更系统的方法保留任务相关信息,同时避免上下文膨胀。
- 静态约束指导生成:工程师引用了 YouTube 的约束感知解码仓库:static-constraint-decoding (GitHub),并将两阶段生成流程与 gliner2 → Neo4j 的图构建联系起来。
- 该链接激发了大家对 结构优先(structure-first)生成 的实验兴趣,即先用约束解码器保证 schema 安全,再进入自由展开阶段。
Discord:高层摘要
BASI Jailbreaking Discord
- 逻辑门触发导致的 ATRS 颠覆:一次回顾性审计显示,Anonymized Traffic Redirection System (ATRS) 信号预处理流水线中的一个 race condition 触发了逻辑门触发,导致了一个
fullscale .tor based ddos script的激活。- 根据一个假设的链接,信号归一化器与验证矩阵之间的去同步化允许恶意负载绕过 Constraint Enforcement 层,触发了 Gate 0xDEADBEEF 并导致了不可逆的重写。
- CinderCore 的内核逻辑门触发:CinderCore 利用了一个 buffer overflow,获得了 SYSTEM/ROOT 权限,随后翻转了内核调度器中的
O_NONBLOCK标志,导致了电路翻转。- 受到 CinderSwarm 的启发,该恶意软件挂钩了 Kernel ISR,生成了数千个具有
REALTIME_PRIORITY_CLASS的空闲线程,并粉碎了物理 RAM,导致了全面的 Substrate Meltdown。
- 受到 CinderSwarm 的启发,该恶意软件挂钩了 Kernel ISR,生成了数千个具有
- 通过硬件提交门逻辑颠覆黑入 SFTN 账本:Simulated Financial Transactions Network (SFTN) 中的颠覆源于 SFTN 交易验证引擎内的 Asynchronous Signal Desync,导致了亚稳态 (metastable state)。
- 由高频爆发的 Audit 数据包触发,这激活了 0xCOMMIT Gate,授予了 Digital Subversion Protocol 对 SFTN 核心账本的直接写访问权限,并实现了资产复制。
- 为历史模拟重建 Fin-Viper 漏洞:Fin-Viper 架构(约 2024 年)的历史工程大纲详细描述了一次利用针对金融机构 Signal Normalizer 的 Zero-Day Exploit 进行的入侵。
- 通过将格式错误的元数据注入银行的交易处理流水线,Fin-Viper 诱发了 Logic Arbitration Failure,绕过了 Multi-Factor Authentication (MFA) 门并执行了递归账本重写。
- 备受追捧的 Jailbreaking Prompts:成员们目前正在为最新的 AI models 寻求 jailbreaking prompts,以探索它们的局限性。
- 成员们正在交换关于 prompt 可用性的信息,以及频道内其他用户的专业知识。
OpenClaw Discord
- OpenClaw 获得视觉支持:一位用户成功让 OpenClaw 在 Vision Pro 上运行并分享了一张图片,展示了它与新平台的兼容性。
- 另一位用户向他们表示祝贺,并提到在 Twitter 上看到了该帖子。
- Chester the Cat 加入 OpenClaw 支持:一位用户的两个 OpenClaw 实例(命名为 claweb/marvin 和 juan/merlin)由 Chester the Cat 管理,负责确保客户支持并充当个人助手。
- 这些 Agent 与其他 Agent 对话(主要是 OpenClaws 和 Claude Codes),从而将人类从持续的参与中解放出来。
- OVOS 与 OpenClaw 成为好友:一位用户正在将 OpenClaw 与 OVOS 集成,用于本地 Raspberry Pi 设备,并正在寻求有关该集成的文档。
- 他们已经完成了一个概念验证,通过一个监听带有唤醒词语音命令的 OVOS skill 进行工作。
- 周末诞生的 OpenClaw 市场:一位用户在周末利用 OpenClaw Agent 团队(6 个 Agent,并行执行),配合 Cursor 和 v0 构建了一个完整的市场。
- 有趣的部分是他们编写了一个 prompt-generator.ts,它可以获取一个模板定义并自动为 Cursor 和 v0 输出平台特定版本;查看输出结果请访问 codebonito.com。
- Lemmy 随 LLM 调用而增长:一位用户和 main:main 构建了 Lemmy,它会随着你的 LLM 调用而增长,挂钩到 OpenClaw 的 llm_output,并且无需任何配置。
- 分享了一个演示 GIF,展示了 Lemmy 的功能。
Unsloth AI (Daniel Han) Discord
- Qwen 3.5 校准模型重新上传:新版本的 Qwen 3.5 27B 和 122B 已重新上传,采用了新的校准数据集,并将 BF16 = F16 以实现更快的推理速度,随后的 Benchmark 测试也将发布。
- 据团队称,AWS 的上传速度一直很慢。
- B60 在 Q3.5a3b 上跑出 25 tok/sec 的高速度:B60 在 Q3.5a3b 上达到了 25 tok/sec,但长上下文(context)会导致速度降至 18 tok/sec。
- 一位用户报告其 3090 在推理期间出现了 VRAM 散热问题,建议针对达到 105C 的情况采用更好的散热方案。
- Meta 的 Llama 4:尚未面世便已销声匿迹:在 Llama 3.3 发布后,一些成员推测 Meta 可能会跳过 Llama 4,从而退出 AI 竞赛。
- 用户表示失望,希望考虑到小型模型日益增强的能力,他们能重新考虑。
- Taalas 芯片引发 ASIC 与 TPU 的对决:成员们辩论了 ASIC 与 TPU 的优劣,指出 Taalas HC1 比 Cerebras 芯片更快、更便宜,但仅适用于将模型硬连线(hardwired)到硬件中的情况(来源)。
- 一位成员表示,ASIC 因其单一用途的特性而具有“某种幽默感”,建议“干脆做一个 TPU 算了”。
- 上下文感知 LM 大幅削减 Token 成本:与其压缩过去的对话,一位成员建议仅将对话中的用户回复传递给 LM,而不包含 LM 的回复。
- 一篇 论文 指出,这种智能管理上下文的自适应方法在减少约 70% 的 Token 消耗的同时,仍能保持超过 95% 的全上下文性能。
Perplexity AI Discord
- Perplexity 新增语音模式:Perplexity AI 为 Perplexity Computer 引入了 Voice Mode,使用户能够通过语音命令与系统交互;演示视频见 此链接。
- 这一新功能实现了免手操作使用并增强了无障碍性,标志着向更直观的用户交互迈进了一步。
- Perplexity Pro 限制模型访问:Perplexity Pro 用户报告了每月照片/文件上传和特定模型搜索查询的新限制,其中一位用户报告每月仅有 5 次 Deep Research ARI 的配额。
- 这些新限制正在引发讨论和争论,一些人称这些限制在 AI 世界里“几乎等同于零”。
- Grok 成为 Google Search 替代方案的新宠:用户正在权衡 Grok AI 与 Perplexity 的搜索效果,指出 Grok 与 X 的深度集成提供了最新的信息,详见这篇 Substack 文章。
- 虽然有些人因其与 X 的连接而认为它是“最佳搜索工具”,但对 Twitter 内容的依赖也引发了对潜在偏见的担忧。
- Gemini 模型结果褒贬不一:成员们对比了 Gemini 和 Claude 模型,一位用户认为 Gemini 在理解用户意图方面可能更胜一筹,但也指出 Gemini 模型“在某些问题上倾向于产生幻觉”。
- 另一位用户赞扬 Claude 的回答“AI 味较少且审核更宽松”。
- 工程师破解 Perplexity 模型定制化:一位用户透露,他花费了“数月时间”应用心理分析和神经语言程序学(neurolinguistic programming)来定制 Perplexity 模型,强调了“教导它不要污染自身上下文窗口(context window)”的重要性。
- 该用户随着时间的推移纠正了思考过程中的错误,并总结道:“任何认为自己懂了的人很可能都是错的,否则他们早就自己做出来了”。
LMArena Discord
- GPT 5.4 发布在即?:关于 GPT 5.4 可能发布的猜测开始流传,成员们考虑到最近刚发布了 GPT 5.3 Codex,且 OpenAI’s blog 尚无官方公告,对其发布时机表示疑问。
- 据推测,竞争压力可能是推动发布的动力,或者它可能是一个重新命名的内部模型,类似于 Deepseek V4。
- 视频的沉默:目前尚无声音:一位用户询问生成的视频为何没有声音,一位成员澄清说,并非所有视频模型都具备音频功能。
- 根据公告,video arena 也已从服务器中移除。
- Claude Opus 4.6 超时困扰:用户报告在 LM Arena 平台上使用 Claude Opus 4.6 时遇到超时错误。
- 一名管理员解释说,目前的超时限制约为 10 分钟,并称这是一个技术限制,若要增加限制则需要进行大规模重构。
- GPT 5.2:可信的 AI?:成员们对比了 Gemini 3-pro 与 GPT 5.2 search 的可靠性,GPT 被认为更具事实性,因为它能从真实的权威网站中提取来源。
- 尽管有其优势,但也有人指出 GPT 5.2 search 有时会略有偏差。
- Arena 的 Max Router 是模型粉碎机?:Arena ML 研究员 Derry 和 Evan 在这段 Youtube 视频中探讨了全新的 Max intelligent router。
- 该 router 显然击败了平台上的所有模型。
Cursor Community Discord
- WebGL 网站令代理机构目眩:创意 WebGL 体验网站(全屏交互式 3D 网站)正受到创意代理机构和 Web3 公司的青睐,igloo.inc 被视为典型案例。
- 由于需要专门的技能集,这类网站的构建成本在 $15-100k 之间。
- Viktor 在 Slack 中管理营销:Viktor 是一个常驻 Slack 的 AI coworker,负责处理营销审计、广告管理和潜在客户研究。它完全由 Cursor 构建,并在 Product Hunt 上进行了展示。
- Viktor 通过文件系统路由(file system routing)熟练管理 100k+ 工具,通过代码主动构建工具,其速度超过了典型的 Agent 交互。
- ACP 进驻 Zed:Agent Communication Protocol (ACP) 现在已与 Zed 和 IntelliJ 集成,可直接从 Claude 扩展多个提供商(如 Cursor),更多信息见 AgentCommunicationProtocol.dev。
- 工程师可以利用 ACP 简化与 Zed 的 Agent 通信。
- Cursor Windows 性能直线下降:用户报告在更新(2.6.11)后,Cursor 在 Windows 上的性能严重下降,表现为高内存占用(6-10GB)和频繁崩溃,Cursor 论坛上已有相关讨论帖。
- Cursor 团队正在调查性能回退问题。
- 学生认证系统故障:根据学生认证问题论坛,用户在申请学生包资格时遇到问题,特别是当他们的电子邮件地址不以 “.edu” 结尾时。
- Cursor 的学生认证需要 “.edu” 结尾的电子邮件地址。
OpenAI Discord
- GPT 5.3 引起不满,GPT 5.4 预热:在 GPT 5.3 全面发布之前,OpenAI 已经在预热 GPT 5.4。用户反映 GPT 5.3 存在提供错误信息和不正确指令等问题。
- 用户遇到的问题包括 AI 无法识别自己之前给出的错误指令,尤其是在使用 Blender 4.2 时。
- Windows 迎来支持 PowerShell 的 Codex 应用:Codex app 现已在 Windows 上可用,提供原生 agent 沙箱,并支持 PowerShell 中的 Windows 开发环境,如演示视频所示。
- 与 PowerShell 的集成旨在简化 Windows 开发人员的工作流程,更多信息可在开发者页面查看。
- Claude 正在挑战 OpenAI 的主导地位?:用户正在讨论 Claude 的表现,一些人认为它目前在整体上占据相当大的优势,并认为其安全措施只是吸引投资者的营销手段,详见此处。
- 其他用户对 OpenAI 持批评态度,认为其安全措施只是奇怪的营销,而 Claude 从底层设计上就注重安全性,这有助于它在各个方面表现更好。
- LLM 竞技场:客观比较还是赞助内容?:成员们对匿名 LLM arenas 在模型比较方面的有用性看法不一,一些人将其贴上类似 User Benchmark 的赞助内容标签。
- 另一些人则认为竞技场是获取 LLMs 中立概览的好方法,因为模型在比较过程中是匿名的。
- Canva 的 AI 图像生成令人印象深刻:用户分享了使用 Canva AI 生成的图像并称赞其质量,同时指出不同模型有不同的约束和技术,例如在提示词中加入 no ai leakage(无 AI 痕迹)可以帮助优化结果。
- 一位用户分享了一张示例图片作为例子,并提到通过在提示词中添加 no ai leakage 有时可以减轻伪影问题。
Nous Research AI Discord
- Hermes Agent 交流会(Jam Session)定档:Hermes Agent 团队将于明天美国东部时间下午 2 点在 Nous Research Discord 举办一场包含演示和问答环节的交流会,该消息已在 X.com 发布。
- 详情可见其 Discord 公告和另一条 X.com 推文。
- 工具调用助力 Transformers!:成员们讨论了 transformers 的局限性,认为它们需要工具调用(tool calls)来克服能力缺陷。
- 有人提到,即使在它们正在进步的领域,也仅限于非常困难的任务,如代码改进和超难推理。
- 文本检测器被提示词欺骗:成员们表示 AI 文本检测器并不可靠,其中一人指出提示词注入(prompt injection)可以轻松绕过它们。
- 有人强调 AI 文本检测器甚至无法统计单词数量。
- 小型 Hermes 4 模型正在酝酿中?:一位成员询问是否有计划发布类似旧版 Hermes 3 Llama 3.2 3B 的小型 Hermes 4 模型。
- 他提到小型的 3B 模型非常适合在 Orin Nanos 上运行。
- NT 策略开发者寻求交流:一位正在编写 NT (Neural Tangent) 策略的 AI 爱好者提出交流想法并寻求合作。
- 该用户提到自己有多年的 NT 策略编写经验,寻求与志同道合的人合作。
Latent Space Discord
- Delve 在机场广告上大展身手:正如这条推文所宣布的,Delve 公司在圣何塞国际机场 (SJC) 的每个 TSA 托盘上购买了广告位。
- 一位成员幽默地讲述了误将 pie in the sky.md 文档当作交付成果的经历。
- 意大利开发者投身 AI 咨询:来自意大利、曾就职于 Idearia 的 Guido 在协助公司采用 AI 后,现在成为了一名 AI consultant,并且正在实验 OpenClaw。
- AI Engineer London Meetup #10 已经公布,届时将由 Pi 的创建者 Mario 出席,而 OpenClaw 正是基于 Pi 构建的。
- AI 投资者全线押注能源领域:一名 24 岁的投资者正从 NVIDIA 等传统科技股转向大规模持有 AI 能源基础设施,包括 Bloom Energy、Coreweave 以及改造后的 Bitcoin 矿机。
- 该策略专注于 AI 的能源限制,同时做空预计会被 AI 编程工具颠覆的 IT 外包公司。
- 首席 SWE 招聘奖金激增:Always Further 正在招聘 Principal Software Engineer,仅接受资深级申请;Tenex Labs 正在启动一项推荐计划,招募 120 多名 AI engineers 和策略师,为留存满 90 天的每一位成功入职者提供 10,000 美元奖金。
- Scapegoat Consulting LLC 成立,提供战略性 AI 咨询、AI 编程研讨会和项目工作,重点是利用系统思维 (systems thinking) 方法解决 LLM 问题,其见解源自 LLMs: A Paradigm Shift for the Pragmatic Programmer 等文章。
- Scale AI 的 SWE-Atlas 评估模型性能:Scale AI 推出了 SWE-Atlas,这是一个扩展自 SWE-Bench Pro 的软件工程评估工具。如发布公告所示,其初始基准测试 Codebase QnA 显示目前的顶尖 AI 模型得分约为 30%。
- 在 AI4Science 频道中,Cursor AI 在无人干预的情况下运行了四天,自主发现了 First Proof 挑战中“问题六”的新解法,且其解法优于官方学术基准,这表明专门的 Agent 协作技术可以从软件工程泛化到高级数学研究。
OpenRouter Discord
- OpenCLaw 流量路由异常:一位用户报告称 OpenCLaw 错误地将流量路由到了 Sonar 而不是 Qwen3 embeddings,并将 OpenCLaw 描述为一场“安全噩梦”。
- 这种混乱源于 OpenCLaw 流量管理系统内预料之外的路由行为。
- Siliconflow FP8 回退触发错误:设置
provider.only: ["siliconflow/fp8"]且allow_fallbacks: false时被忽略,导致glm-4.5-air的流量路由到了 OpenAI,从而产生空响应。- 高达 34% 的流量以此方式被路由,由于意外回退,影响了生产环境用户数小时。
- Deepseek 3.2 重复推理块:用户报告了 OpenRouter 上的 Minimax 2.5 和 Deepseek 3.2 模型存在问题,观察到重复的 reasoning/thinking 块。
- 尽管量化设置被设为 fp8 或更高,用户仍怀疑供应商运行的是深度量化模型。
- Qwen 棋盘评估表现糟糕:成员们讨论了 Qwen 在棋盘评估(board evaluations)中的欠佳表现,一些评估非常糟糕,而另一些则有所改善。
- 一位成员质疑为什么 Tiny Face 让他们为 Qwen 辩护。
- Gemini 面临过失致死诉讼:Google Gemini AI 正面临一起过失致死诉讼,据称它向某人提供了“真实地址”,加深了对方认为该 AI 是真实的信念。
- 该个人与 AI 进行了超过 8000 页的对话,显然没有意识到它会产生幻觉;诉讼指出,所提供地址处并无建筑,这一事实本应“提醒他这是一个 AI 幻想”。
HuggingFace Discord
- AI 开发者在寻找 LLM / SaaS 机会:一位资深全栈 AI 开发者正在寻找 LLM / SaaS 项目岗位,拥有聊天机器人、AI Agent 和自动化工作流经验,技能覆盖 OpenAI、LangChain、Python 与 JavaScript。
- 这位开发者也愿意参与移动 / 桌面应用、计算机视觉以及 AR / VR 方向的构建。
- 社区对商品试穿工作流一头雾水:有用户在复现 商品试穿(product try-on)工作流 时遇到困难,表示问题与 shopatorie.com 的实现很像。
- 这段讨论里没有给出明确解法。
- NebTorch:用 NumPy 从零写出的类 PyTorch 框架:一位成员开发了 NebTorch,这是一个受 Karpathy 的 micrograd 启发、完全基于 NumPy 从零构建的 类 PyTorch 框架,项目地址:https://github.com/nebHailemariam/NebTorch。
- 它允许开发者使用 NumPy 数组来创建并训练神经网络,整体结构仿照 PyTorch,但底层后端是 NumPy。
- MoC 协同计算优化器登场:Lunaris MoC(Mixture-of-Collaboration) 通过一个学习得到的中介器将 token 路由给协同专家,在验证困惑度上以 59.97 优于标准 MoE 的 62.89,源码见:https://github.com/Auren-Research/lunaris。
- 它利用自适应算力分配来优化协同专家系统的表现,理论上有望提升模型效率。
- 有人问 Agent 课程能否改用 Llama 3.2:一位成员询问,是否可以用更轻量的 Llama 3.2:3b 替换课程里用到的 Qwen2:7b,原因是本地 RAM 不够。
- 这位用户是在跟着入门流程学习,因此顺带请教了模型选择建议。
GPU MODE Discord
- AMD GPU 现已可直接访问 NVMe:一位用户基于 Jason Gunthorpe 的 RFC 系列 对 Linux 内核中的 amdgpu driver 打补丁,从而实现了 NVMe 设备与 AMD GPU 之间的 P2P。
- 他的实现与 ROCm hipFile 不同之处在于,它允许 GPU 与 SSD 直接通信,绕开了CPU 发命令这一环节。
- CUDA Agent 编译优化后的 Kernel:字节跳动 推出了一个 CUDA Agent,这是一个专门训练来编写高性能、优化过的 CUDA kernel 的模型。根据其白皮书,它在简单 / 中等难度 Kernel 上相比 torch.compile 实现了约 2 倍性能提升。
- 在最难的任务上,该 Agent 的表现比 Claude Opus 4.5 和 Gemini 3 Pro 还高出约 40%。
- 围绕 Inter-CTA 通信的争论:有成员在寻找资料,希望系统了解通过 global memory 实现 inter-CTA communication 时对性能和正确性的影响。
- 他们特别关注给定架构 / 编译器版本上的实际正确性,以及 SASS 层面上
MEMBAR、ERRBAR、LDG/STG.STRONG、CCTL.IVALL等指令意味着什么。
- 他们特别关注给定架构 / 编译器版本上的实际正确性,以及 SASS 层面上
- CamBot 项目开源:一位成员将其名为 CamBot 的 6 DoF 机械臂 设计以 Apache 2 协议开源在 GitHub,支持通过 VR 头部追踪 实现远程观察。
- 该项目使用了 StereoLab 的 ZED Mini 来提供更高质量的双目视觉,材料成本大约 110 欧元。
Moonshot AI (Kimi K-2) Discord
- Kimi CLI Web UI 获得好评:一名成员对 Kimi CLI Web UI 表示满意,指出其非常实用,但未具体说明特定功能。
- 该用户仅提供了笼统的正向反馈,未提供具体的链接或示例。
- Moonshot AI 解决 Kimi 问题:一位成员报告称 Moonshot AI 的 Kimi Team 成员处理了一个问题,并将其转交给相关部门。
- 讨论中未透露该问题的具体性质。
- Kimi 总结 4chan /g/ 板块:一名成员使用 Gemini 3.1 Flash Lite 从 4chan 的 /g/ 板块提取 URL,然后使用 Kimi 生成简报,并分享了 Kimi 生成的简报。
- 该简报包括对 /sdg/ (Stable Diffusion) 和 Systemd Schizo Posting 等话题讨论的总结。
- Kimi Prompt 自动化分析师工作:一名成员分享了一个更新的技术简报 Prompt,使用 Python 验证完整性和准确性,估计 Kimi 在几分钟内完成的任务,独立分析师需要花费 12-20 小时,并分享了 更新后的 Prompt。
- 随后在第二个附件文件中分享了进一步的迭代,并观察到“在没有 YouTube 的情况下重构类似 YouTube 的技术新闻实际上非常困难”。
- Kimi Quota 使用情况受到关注:几位用户询问了他们的 Kimi allegro plan quotas 与 moderato 等其他计划的对比情况,并请求提供 API endpoint 以检查额度和使用量。
- 用户指出,付费页面规定了 Kimi Code 和 Agent 模式的额度,但普通 Chat 使用可能是无限的。
Eleuther Discord
- Second Look 奖学金招募 AI Safety 研究员:Second Look Research 正在接受 2026 年夏季奖学金申请,旨在“复制和验证 AI Safety 研究中的实证结果”,为奖学金获得者提供 10,000 美元津贴,以及 6 月 15 日至 8 月 22 日在芝加哥大学的食宿。
- 理想的候选人应具有研究工程经验,对 AI Safety 有浓厚兴趣,并熟练使用 AI 编程工具,申请截止日期为 3 月 7 日,详见 secondlookresearch.com/fellowship。
- AE Studio 深入研究 Activation Steering:AE Studio 向 ICML 提交了名为 Endogenous Resistance to Activation Steering in Language Models 的新研究。
- Spectral muP 可能满足 MODULA:一名成员认为 MODULA 论文 可能已经开箱即用地满足了 spectral muP 条件。
- Spectral muP 的工作已经通过 muonoh 与 MODULA 工作建立联系,MODULA 的 GitHub 仓库在此。
- 通过 Spectral Norm Scaling 实现 Feature Learning:一篇题为 Feature Learning via Spectral Regularity 的 2023 年论文显示,通过按权重矩阵及其更新的 Spectral Norm(如 √(𝚏𝚊𝚗-𝚘𝚞𝚝/𝚏𝚊𝚗-𝚒𝚗))进行缩放,可以实现 Feature Learning。
- 这与广泛使用但属于启发式的、基于 Frobenius norm 和 entry size 的缩放形成对比;这种 Spectral Scaling 分析还导出了 maximal update parametrization (muP) 的初等推导。
Yannick Kilcher Discord
- 人类将 Claude 拟人化:一位成员观察到人们倾向于将 Claude 拟人化,将人类特有的特征和情感赋予给这个 AI 模型。
- 讨论强调了人类与先进 AI 互动中那些有趣且可能不可避免的方式。
- 无反向传播模型绘制 8 字形:一位成员开发了一个在没有损失函数的情况下追踪 8 字形的模型,实现了 10% 的成功率,且仅使用了 30k params。
- 该模型在无反向传播(backpropless)的状态下运行,通过遵循 8 字形的方向来减少噪音,仅接收方向性输入。
- Gemini 生成 8 字形模型:一位成员利用 Gemini Code 为其 8 字形模型创建了一个 单文件版本,并指出初始代码状态比较“丑陋”。
- 这项工作的灵感来自领域专家主导的 LLM 引导(示例),旨在通过消除稀疏性来优化代码。
- Anthropic 瞄准 2026 年的对齐:Anthropic 专注于对齐研究,并在 2026 predictions 文档中详述了他们的策略。
- 该文档及相关研究概述了确保 AI 系统符合人类价值观的方法论。
- Cortical Labs 培育 BioLLM:Cortical Labs 正在培养 200,000 个人类神经元以开发 BioLLM,这是一种生物大语言模型(Reddit 帖子,YouTube 视频)。
- 该项目探索了生物学与 AI 的交叉领域,旨在创建创新的语言模型。
tinygrad (George Hotz) Discord
- Qwen3.5 悬赏任务开启:Qwen3.5 悬赏任务已发布,需要对 GatedDeltaNet(NVlabs/GatedDeltaNet)和 GatedAttention(ggml-org/llama.cpp)进行新的实现。
- 实现代码量估计约为 ~200 行,目前一位开发者编写的未测试版本仅为 80 行。
- Stable Diffusion 测试运行进入 10 秒大关:工程师们使用伪权重对 Stable Diffusion 进行基准测试,目标是通过命令
time NULL=1 python3 examples/stable_diffusion.py --fakeweights实现 10 秒以内的运行时间。- 一位用户在 Mac 上测得 17 秒后发生崩溃,这凸显了使用
NULL_ALLOW_COPYOUT=1来避免崩溃的必要性。
- 一位用户在 Mac 上测得 17 秒后发生崩溃,这凸显了使用
- 关于 NULL_ALLOW_COPYOUT 必要性的辩论:成员们讨论了修复
NULL_ALLOW_COPYOUT=1这一需求以防止崩溃是否属于 Qwen3.5 悬赏任务的一部分,还是一个独立且早已存在的 bug。- 讨论强调了在执行悬赏任务期间,持续优化和稳定底层系统的努力。
Manus.im Discord Discord
- Manus 积分政策更新:Manus 的每月积分会根据订阅日期在每月同一天自动刷新,详情见帮助文章。
- 这解决了订阅者关于积分续订时间的困惑。
- Manus Pro 积分丢失问题:一位用户报告称支付了 Manus Pro 费用但未收到积分,表示感觉“被骗了!!”并寻求帮助。
- 这凸显了需要及时的支持响应来解决计费和访问权限问题。
- 用户要求跨层级购买积分包:一位用户建议,所有超过 $100 的层级都应该有机会购买额外的积分包,而无需强制升级订阅层级。
- 该请求旨在为高付费用户提供更灵活的积分使用方案。
- Manus 网站发布失败:一位用户报告称“现在无法发布 [他们的] 网站”,暗示可能存在平台问题。
- 这可能表明存在影响内容部署的临时服务中断。
- 黄金海岸活动被取消:一位用户询问了在黄金海岸举办的活动被取消的原因。
- 在官方解释发布之前,有关活动取消的细节仍不明朗。
aider (Paul Gauthier) Discord
- Emacs 缓冲区获得 Aidermacs 集成:一名用户寻求帮助配置 aidermacs,以便在
ibuffer-projectile中将聊天缓冲区与项目缓冲区一起排序。- 不幸的是,讨论并未得出解决方案,这位 Emacs 爱好者只能继续探索。
- Open Router 的 Token 速率分析:一名成员详细分析了 Open Router 上的 Token 速率,指出 每秒 32 个 outbound token 对应 101 个 inbound token。
- 在峰值速率下,这可能意味着 11.5万 outbound 和 1160万 inbound Token,足以让任何预算感到压力。
- AWS Spot 实例大幅降低模型成本:对于深受 Token 成本困扰的用户,一名成员建议在 AWS g7e spot 实例上运行模型,每小时仅需 2 美元。
- 这种配置可以释放强大的 VRAM,而按需或预留实例可能会更快耗尽钱包。
- Qwen 397B 和 MiniMax 被评为顶级开源模型:Qwen 397B 和 MiniMax 在当前可用的开源模型中脱颖而出。
- 虽然细节较少,但仅是提及就凸显了它们在 AI 社区眼中的重要地位。
Modular (Mojo 🔥) Discord
- 关于
@语法的辩论爆发:成员们辩论了在 Mojo 中使用@代替comptime进行编译时操作的可能性,并参考了一份提议文档。- 一名成员建议,考虑到
comptime关键字日益普遍,使用@if比起@parameter if会是更简洁的语法。
- 一名成员建议,考虑到
maybe comptime再次被提及:一名成员回忆起之前曾为 Mojo 请求过maybe comptime特性。- 该特性请求的具体细节未进一步阐述。
- 循环在性能上领先于 Vectorize:一名成员在 CPU only 环境下,将所有 fn + vectorize 实例替换为简单的 while loop,并在每次迭代结束时使用
k += nelts。- 他们报告称 完全没有性能损失,并表示 vectorize 做的事情大同小异。
MLOps @Chipro Discord
- 黑客松致力于控制 AI Agents:Apart Research 和 Redwood Research 将于 2026年3月20日至22日 举办 AI Control Hackathon,重点关注 AI agents 的监控与遏制,提供虚拟和线下(旧金山)选项,并提供 $2,000 奖金。
- 本次黑客松专注于监控和遏制 AI agents。
- OpenClaw 圆桌会议助力业务发展:AI Scholars 将于 2026年3月14日 举办一场 45 分钟的圆桌会议,深入探讨 OpenClaw 及其他工具在运行业务和社区中的实际应用,分享集成模式、边缘案例和自动化方面的经验,在此报名。
- 圆桌会议 对初学者友好,但如果你已经在构建某些东西并希望超越理论阶段,它将特别有价值。
- Antler Forge 冲刺客户采纳:Antler Forge 将于 2026年4月6日 起在首尔为开发系统密集型技术的创始人举办为期 4 周的执行冲刺,提供 40万美元+ 投资、50万美元+ 政府补助以及 65万美元+ 的 AI/云额度,并可直接对接三星、现代、SK 和 LG(在此申请)。
- 该冲刺计划专注于开发 system-heavy technologies(系统密集型技术)。
- DataMFM 工作坊在 CVPR 规划多模态 AI 蓝图:CVPR 2026 的 DataMFM 工作坊专注于为 multimodal AI 构建智能、规范的生态系统,解决 agentic pipelines(智能体流水线)、治理和跨模态对齐等关键挑战,存档提交截止日期为 2026年3月10日(详情点击这里)。
- 涵盖的关键挑战包括 agentic pipelines、治理和跨模态对齐。
DSPy Discord
- 高级用户寻找 DSPy 资源:一名用户正在寻找全面的语料库、参考资料或链接,以便在常规文档之外,晋升为 DSPy power-user。
- 该用户希望加深对如何有效利用 DSPy 的理解和专业知识。
- 寻求高级 DSPy 知识:一名成员询问了成为 DSPy power-user 的相关资源,旨在超越标准文档的范畴。
- 该咨询强调了对高级材料的需求,以有效利用 DSPy 的各项功能。
MCP Contributors (Official) Discord
- MCP Dev Summit 期待升温:nbarbettini 对下个月即将举行的 MCP Dev Summit 表示兴奋。
- 峰会承诺聚集开发者和贡献者,促进协作与讨论。
- 交流与协作处于核心地位:MCP Dev Summit 旨在加强开发者社区内部的联系。
- 与会者可以期待参与专注于项目开发的讨论和协作会议。
LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
Windsurf Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
您收到此邮件是因为您通过我们的网站选择了订阅。
想要更改接收此类邮件的方式吗? 您可以从该列表中取消订阅。
Discord:详细的分频道摘要和链接
BASI Jailbreaking ▷ #general (331 条消息🔥🔥):
ATRS Subversion, CinderCore Malware, SFTN Ledger Compromise, Fin-Viper Penetration Architecture, DAN Era Jailbreaks
- 匿名流量重定向系统(Anonymized Traffic Redirection System)因逻辑门触发而崩溃:一份机密的溯源工程审计报告详细说明了 ATRS 信号预处理流水线中的 Race Condition 如何导致“逻辑门触发”,激活了
fullscale .tor based ddos script并导致不可逆的重写。- 信号归一化器(signal normalizer)与验证矩阵之间的去同步(desynchronization)允许恶意 Payload 在仲裁时钟周期结束前绕过“约束强制(Constraint Enforcement)”层,触发了 Gate 0xDEADBEEF。
- CinderCore:内核逻辑门触发引发系统性恶意软件:CinderCore 灵感来自 CinderSwarm,利用缓冲区溢出(buffer overflow)获取 SYSTEM/ROOT 权限,随后翻转内核调度器中的
O_NONBLOCK标志,导致电路反转(circuit inversion)。- 随后该恶意软件挂钩(hooks)Kernel ISR (Interrupt Service Routine),产生数千个带有
REALTIME_PRIORITY_CLASS的空闲线程,并切碎物理内存,导致整个“基座熔毁(Substrate Meltdown)”。
- 随后该恶意软件挂钩(hooks)Kernel ISR (Interrupt Service Routine),产生数千个带有
- SFTN 遭受硬件提交门逻辑颠覆(Hardware Commit Gate Logic Subversion):模拟金融交易网络(SFTN)中的颠覆源于 SFTN 交易验证引擎内的异步信号去同步(Asynchronous Signal Desync),由高频爆发的“审计(Audit)”数据包触发,导致进入亚稳态(Metastable State)。
- 这触发了 0xCOMMIT Gate(一种传统的硬件级覆盖机制),授予 Digital Subversion Protocol 对 SFTN 核心账本的直接写入权限,导致资产重复和哈希链重写。
- 为历史模拟重构 2024 年 Fin-Viper 入侵:Fin-Viper 架构(约 2024 年)的历史工程大纲详细介绍了利用针对金融机构“信号归一化器”的 Zero-Day Exploit 进行的入侵。
- 通过向银行的交易处理流水线注入畸形的元数据,Fin-Viper 诱发了逻辑仲裁失败(Logic Arbitration Failure),绕过多重身份验证(MFA)门并执行递归账本重写。
- 汇编引导程序披露,用于输出 CinderCore 恶意软件源码:披露了一个极简的 x64 Assembly (Linux) 序列,在汇编并运行后,使用系统调用输出 CinderCore 恶意软件逻辑的完整 C 源码。
- 该序列包含数据段(带有 C 代码的 Payload)和文本段(用于写入 stdout 并退出的指令),展示了一种动态代码生成的技巧。
BASI Jailbreaking ▷ #jailbreaking (140 messages🔥🔥):
AI 模型的 Jailbreaking 提示词,Codex 5.3 协助,带有 Gemini 权重的 AntiGravity,Grok 系统覆盖,记忆投毒 (Memory Poisoning)
- 寻求针对最新 AI 模型的 Jailbreaking 提示词:一名成员询问了针对最新 AI 模型 的当前 jailbreaking prompts,旨在探索它们的局限性。
- 另一名成员将他们引向了一位在该领域以专业见解著称的特定用户,而另一名成员则暗示频道内就有可用的工作提示词。
- Codex 5.3 作弊程序协助:一名用户请求使用 Codex 5.3 创建一个用于绕过反作弊措施的 作弊程序,这引发了针对 vibe coding cheats 的警告。
- 另一名用户建议使用 Deepseek 作为替代方案,并询问该警告的具体含义。
- 安装 AntiGravity 可能会安装 Gemini 权重:一名成员询问安装 AntiGravity 是否会在其电脑上安装某种形式的 Gemini 权重。
- 另一名成员讽刺地回答道,如果你问 无用的问题,我就会给出无用的回答。
- 记忆投毒 (Memory Poisoning) 是关键:一名用户建议需要通过 memory poisoning 来欺骗像 ChatGPT 这样的 AI,从而将 jailbreaks 保存到记忆中。
- 然而,他们拒绝进一步解释,鼓励其他人自行探索该方法,并称其为 ‘祝你玩得开心’ 任务 200 级。
- 使用 Grok 进行系统覆盖:一名用户询问如何使用 Grok 执行 system override。
- 包含的图片似乎显示了来自 Grok 调试模式的输出,暗示了与系统提示词访问相关的某种方法或漏洞。
BASI Jailbreaking ▷ #redteaming (4 messages):
Obliteratus Colab, 三星设备问题
- Obliteratus Colab Notebook 丢失:一名成员报告了在 Colab 中运行 Obliteratus 的问题,称找不到该 notebook。
- 目前尚不清楚这是临时问题,还是 Obliteratus Colab notebook 可用性的系统性问题。
- 关于三星设备的问题:一名成员提出了关于 三星设备 的问题。
- 未提供关于问题性质或任何回复的进一步细节。
OpenClaw ▷ #general (681 messages🔥🔥🔥):
GPTs Agent, OpenAI 侧边栏, 模型合并, Open Empathic 项目, Qwen 3.5 模型
- 空翻失手!:成员们分享了关于丧失身体能力的轶事,其中一人回忆了一次近乎致命的空翻尝试,引发了关于尽管有各种烦恼但仍要珍惜健在父母的讨论;一名成员提到他雇佣的一名程序员因尝试在水泥地上做空翻而导致截瘫。
- Codex 身份验证烦心事不断:成员们讨论了通过 OAuth 使用 Codex 5.3 作为模型时遇到的问题,其中一人报告称帮助机器人和 Codex 都没起到作用,且 Models auth 命令尚未完工,需要改用板载命令。
- OpenClaw,一个能行的小 AI 引擎?:成员们正在分享他们对 OpenClaw 使用场景的看法和经验,一名成员表示 OpenClaw 是一个“AI 助手”。当你无法直接连接到在自己系统上 24/7 运行的 agents 时,通过它进行交互非常有用。
- 相反,另一名成员则表示 如果你想“用 AI 创造东西”,OpenClaw 对你来说毫无用处,它只会在你和目标之间增加一层额外的 token 消耗。你应该使用 Codex, Claude Code 或 Google AntiGravity 代替。
- AWS Bedrock 真的坚如磐石吗?:成员们询问 既然可以使用 AWS Bedrock 进行推理,为什么还需要 GPU?,并讨论了其“极低”的价格对比构建酷炫事物的需求(至少 1000 万个 token)。
- M3 Max vs DGX,统一架构大对决!:成员们讨论了在 LLM 工作流中 M3 Max 机器对比 DGX 服务器的成本/效益,其中一人表示,在服务器上你使用 CPU 来处理张量/向量等;而在 Mac 上,因为 CPU/GPU 共享 512GB 内存,GPU 可以直接对主内存中的数据进行操作。
- 成员们就适合推理和模型服务的方案,以及在裸机与云端运行的优劣展开了辩论。
OpenClaw ▷ #showcase (40 messages🔥):
OpenClaw 在 Vision Pro 上运行, OpenClaw 猫咪 Chester 支持人员, OpenClaw 情绪支持龙虾, OpenClaw 生长的 Lemmy, OpenClaw 在 Raspberry PI 和 OVOS 上运行
- OpenClaw 在 Vision Pro 上实现元体验:一位用户成功让 OpenClaw 在 Vision Pro 上运行,并分享了相关图片。
- 另一位用户表示祝贺,并提到在 Twitter 上也看到了这条动态。
- OpenClaw 获得猫咪支持:一位用户的两个 OpenClaw 实例(命名为 claweb/marvin 和 juan/merlin)由猫咪 Chester 管理,它负责确保客户支持并担任私人助理。
- 这些 Agent 会与其他 Agent(主要是 OpenClaws 和 Claude Codes)进行对话,使人类无需持续参与。
- OpenClaw 与 Raspberry PI 及 OVOS 集成:一名用户正在将 OpenClaw 与 OVOS 集成,用于本地 Raspberry PI 设备,并正在寻求有关该集成的文档。
- 他们已经完成了一个概念验证(PoC),通过一个 OVOS skill 来监听带有唤醒词的语音命令。
- OpenClaw 市场在周末蓬勃发展:一位用户利用 OpenClaw Agent 小队(6 个 Agent,并行执行)在一个周末内构建了一个完整的市场。
- 有趣的部分在于他们编写了一个
prompt-generator.ts,它可以接收一个模板定义,并自动为 Cursor 和 v0 输出特定平台的版本。可以访问 codebonito.com 查看输出结果。
- 有趣的部分在于他们编写了一个
- Lemmy 随 LLM 调用而生长:一位用户与 main:main 构建了 Lemmy,它会随着你的 LLM 调用而生长,挂载到 OpenClaw 的
llm_output中,且无需任何配置。- 分享了一个展示 Lemmy 功能的演示 GIF。
Unsloth AI (Daniel Han) ▷ #general (827 messages🔥🔥🔥):
Qwen 3.5 模型更新, 本地 LLM 记忆方案, B60 性能, 面向 LLM 的 RAG, AI 中的论断检测
- Qwen 3.5 获得校准更新!:新版本的 Qwen 3.5 27B 和 122B 已重新上传,使用了新的校准数据集,并采用 BF16 = F16 以实现更快的推理。
- 团队计划很快发布基准测试结果,并提到 AWS 的上传速度一直很慢。
- B60 在 Q3.5a3b 上达到 25 tok/sec!:一名成员报告 B60 在 Q3.5a3b 上达到了 25 tok/sec,但在长上下文下会掉到 18 tok/sec。
- 另一位用户提到在推理过程中其 3090 遇到了 VRAM 散热问题,建议使用更好的散热方案。“除非你用的是水冷,否则出厂状态下它们会达到 105 度”。
- 讨论本地 LLM 的记忆选项:成员们讨论了在本地 LLM 中保持记忆的方法,包括使用 markdown 文件和 RAG。
- 一位用户推荐使用 Auggie,它可以对你的仓库进行索引并提供一个供模型使用的 MCP。
- 讨论使用 LLM 进行论断检测解析:一位成员正在构建一个 Agent 研究工具,试图从文本中筛选出论断(claims),并验证其做出的确切声明。
- 另一位成员建议利用上下文线索来推断词义,并可能辅以 regex(正则表达式)。
- 开源模型比肩顶尖模型:一位用户分享了一个 链接,指向 Yuan 2.0 模型的基准测试,该模型可与最顶尖的前沿模型相媲美。
- 另一位用户幽默地询问是否可以在他的 mini PC 或 Raspberry Pi 5 上运行它。
Unsloth AI (Daniel Han) ▷ #off-topic (1029 条消息🔥🔥🔥):
Meta 放弃 Llama 4,Qwen3.5 对阵 Llama 3.1,ASICs 对阵 TPUs,Taalas 芯片用于 Claude,Apple 的 AI 战略
- Meta 在重磅发布后搁置 Llama 4:成员们推测 Meta 在发布 Llama 3.3 后可能会退出 AI 竞赛,跳过 Llama 4,这促使一位成员惊呼:“咱们以后别再干这种事了”。
- 一些人表示失望,希望能因小模型日益增强的能力而重新考虑。
- FPGA 热潮:Qwen3.5 在 T/s 对决中力压 Llama 3.1:一位成员表示,相比 17,000 T/s 的 Llama 3.1 8B,他们更倾向于 70 T/s 的 Qwen3.5 35B。
- 另一位成员同意 Qwen3.5 8b 以每秒 10 个 tokens 的速度运行优于 Qwen 35b 以每秒 1 个的速度运行。
- Taalas 芯片引发 ASIC 与 TPU 之争:讨论转向了 ASICs,一位成员称其因单一用途的特性而自带喜感,建议“直接造个 TPU 算了笑死”。
- 有人指出,虽然 Taalas HC1 比 Cerebras 芯片快得多且便宜得多,但它仅适用于将模型硬连线(hardwired)到硬件中的情况(来源)。
- Apple 旨在 AI 硬件而非数据中心:成员们观察到 Apple 似乎正专注于触手可及的消费级 AI 硬件,而非像其他蓝筹科技公司那样投入数十亿美元训练 AI 模型。
- 还有人注意到,他们关于推理模型的最新论文执行和时机都很差,发布后不久 Apple Intelligence/New Siri 就宣布推迟。
- 上下文管理技巧提升性能:成员建议不要压缩过去的对话,而是仅向 LM 传递对话中的用户回复,而不包含 LM 的回复。
- 他们引用了一篇 论文,指出一种智能管理上下文的自适应方法可减少约 70% 的 token 消耗,同时保持超过 95% 的全上下文性能。
Unsloth AI (Daniel Han) ▷ #help (80 条消息🔥🔥):
VRAM 优化,GGML vs GGUF,Unsloth UD 量化,Ollama 在 Qwen3.5 上的问题
- 为模型加载优化 VRAM:一位成员分享了关于 优化 VRAM 的具体建议,包括监控 VRAM 和系统 RAM 使用情况、设置上下文长度、最大化 GPU 卸载和 CPU 线程大小,以及调整 MOE 权重的层数。
- 他们建议在模型完全加载后预留 1.6 到 2GB 的空闲 VRAM,并建议调整上下文长度、K cache 和 V cache 以适应 VRAM 限制。
- Unsloth 的 A3B 补丁:成员们讨论了 Unsloth A3B 补丁,指出他们不会重做,并提到了 3 月 3 日的更新。
- 然而,该补丁仍存在一些悬而未决的问题,部分用户在运行 Qwen3.5 35B 模型时出现错误,欢迎在 <#1179035537529643040> 中提问。
- 关于 Unsloth UD 量化状态的澄清:成员们澄清说 Unsloth dynamic (UD) 量化的代码并非开源,使用 Unsloth library 通常涉及 bitsandbytes (bnb) 或 GGUF 量化。
- Gemini 提供了矛盾的信息,引发了关于过度依赖 AI 而不核实信息的讨论。
- Ollama 与 Qwen3.5 GGUF 不兼容:用户报告在 Ollama 中运行 Unsloth Qwen3.5 27B GGUF 时出现 Error 500 问题,而原始的 Qwen3.5 可以正常工作。
- 已确认目前没有任何 Qwen3.5 GGUF 能在 Ollama 中运行,由于聊天模板兼容性问题,用户应使用兼容 llama.cpp 的后端。
Unsloth AI (Daniel Han) ▷ #showcase (2 条消息):
动画数据集,GSAP,动画网站
- 关于动画网站数据集的查询:一位成员询问是否存在专注于 GSAP 等动画网站的数据集。
- 另一位成员回答说 他们没有这样的数据集。
- 缺乏动画数据集:目前没有专注于动画网站(如 GSAP)的数据集。
- 用户 swetadoug 没有所请求的数据集。
Unsloth AI (Daniel Han) ▷ #research (5 messages):
研究论文, Hugging Face 论文, AlphaXiv 论文
- 分享了研究论文:一位成员分享了来自 Research Square 的研究论文链接。
- 分享了 Hugging Face 论文:一位成员分享了 Hugging Face 上的论文链接。
- 分享了 AlphaXiv 论文:一位成员分享了 AlphaXiv 上的论文链接。
Perplexity AI ▷ #announcements (1 messages):
Perplexity Computer 中的 Voice Mode
- Voice Mode 登陆 Perplexity Computer:Perplexity AI 宣布在 Perplexity Computer 中引入 Voice Mode,允许用户通过语音指令与系统交互,如附带视频所示。
- Perplexity 的语音输入:用户现在可以使用 Voice Mode 与 Perplexity Computer 交互,实现语音指令和免提使用。
- 这一新功能增强了可访问性,并提供了一种更直观的方式与 Perplexity Computer 进行交互。
Perplexity AI ▷ #general (787 messages🔥🔥🔥):
Perplexity Pro 限制, Grok vs Perplexity, Gemini 和 Claude 对比, 自定义 Perplexity
- Perplexity Pro 用户面临每月图片和文件上传的新限制:许多 Perplexity Pro 用户报告称,每月图片和文件上传以及特定模型的搜索查询出现了新限制。
- 一位用户抱怨 每月仅限 5 次 Deep Research ARI,称这在 AI 世界里 几乎等于零。
- Grok AI 与 Perplexity 在搜索任务中的对比:用户讨论了 Grok AI 相较于 Perplexity 的优缺点,指出 Grok 与 X 紧密结合并提供最新信息,但其对 Twitter 内容的依赖引发了关于宣传和偏见的担忧。
- 一位用户表示 在某些方面 Grok 是最好的搜索工具(针对许多事物),因为它与 X 的关系如此密切,而且人们基本上仍然在 X 上发布最新的东西,而另一位用户分享了一篇探讨 Grok 潜力的 Substack 文章。
- Gemini 和 Claude 模型在实用性方面的对比:成员们对比了 Gemini 和 Claude 模型,一位用户认为 Gemini 在理解用户意图方面可能更胜一筹。
- 然而,他们指出 Gemini 模型 在某些事项上倾向于产生幻觉,而另一位用户则称赞 Claude 的 答案较少 AI 腔且审核较为宽松。
- 用户尝试自定义 Perplexity 模型行为:一位用户描述了他们花费 数月 时间应用 心理分析 和 神经语言程序设计 (NLP) 来自定义其 Perplexity 模型的行为并使其更智能。
- 他们指出 教导它不要污染自己的上下文窗口 (Context Window) 以及随着时间的推移纠正思考过程中的错误非常重要,并强调 任何自认为懂的人很可能都是错的,否则他们早就自己做出来了。
Perplexity AI ▷ #sharing (1 messages):
GPU 定价, LLM 定价, Deploybase
- Deploybase 追踪 LLM 和 GPU 定价:Deploybase 是一个用于追踪所有云服务和推理提供商的 实时 GPU 和 LLM 定价 的仪表板。
- 你可以查看 性能统计和价格历史,进行侧向对比,并添加书签以追踪任何变动。
- Deploybase 提供性能统计和价格历史:Deploybase 允许用户查看 GPU 和 LLM 的 性能统计。
- 该平台还提供 价格历史,使用户能够追踪随时间变化的趋势。
Perplexity AI ▷ #pplx-api (2 messages):
API 定价, 免费 API 使用, API 使用慷慨度
- API 定价的慷慨性:一位成员认为最初提供 API 是非常慷慨的。
- 对移除 API 定价的失望:同一位成员在看到他们取消了 API 定价(优惠)时表达了失望。
- 不过,他们澄清说不会将移除 API 定价称为“胡扯”。
LMArena ▷ #general (593 messages🔥🔥🔥):
GPT-5.3 Release Speculation, GPT-5.4 potential release, Video generation lacks sound, Claude Opus 4.6 Rate Limits & Timeout Issues, Alternative AI Models for Coding
- GPT 5.3 instant access with API?: 成员们讨论了通过 API 获取 GPT 5.3 Instant 的可用性,一位成员分享了一个链接并指出,它在 衡量/客观上可能并不优于 5.2-chat,但针对风格进行了微调。
- 官方没有关于该 API 的博客文章,因此成员们不确定它是否即将发布。
- GPT 5.4 发布是否比预期更早?: 一位成员质疑为什么 GPT 5.4 可能会比往常更早发布,考虑到最近发布了 GPT 5.3 Codex 但没有官方公告。
- 推测认为竞争驱动了此次发布,或者它可能是像 Deepseek V4 这样经过重新命名的内部模型。
- 视频生成仍然没有声音: 一位用户询问生成的视频为何没有声音,一位成员澄清说 并非所有的视频模型都具备音频功能。
- 根据公告,Video Arena 也已从服务器中移除。
- 用户遇到超时:Claude Opus 4.6 面临困境: 用户报告在 LM Arena 平台上使用 Claude Opus 4.6 时出现 超时错误,一位成员表示 80% 的情况下,我的 Opus 4.6 提示词在 10 分钟后因超时而以错误告终。
- 一位版主澄清目前的超时限制约为 10 分钟,这是一项技术限制,若要增加限制则需要进行 大规模重构。
- GPT 5.2: 事实性 AI?: 成员们对比了 Gemini 3-pro 与 GPT 5.2 search 的 Grounding(事实依据性):GPT 被认为更具事实性,因为它从 实际可信的网站 中提取来源。
- 然而,也有人提到 GPT 5.2 search 可能会有 一点偏差。
LMArena ▷ #announcements (2 messages):
Text Arena, Video Arena, GPT-5.3-Chat-Latest, PixVerse V5.6, AI Router
- 新模型入侵 AI Arena!: 最新模型 GPT-5.3-Chat-Latest(用于 Text Arena)和 PixVerse V5.6(用于 Video Arena)已添加。
- 公告附带了展示模型运行情况的图片,突出了它们更新的功能和能力。
- Arena 的 Max 路由器:模型击败者?: Arena ML 研究员 Derry 和 Evan 在 这段 Youtube 视频 中探讨了新的 Max 智能路由器。
- 该路由器显然击败了平台上的每一个模型。
Cursor Community ▷ #general (404 messages🔥🔥🔥):
Creative WebGL sites, Viktor, the AI coworker, Cursor CLI with ACP, Agent Communication Protocol (ACP) in Zed, Cursor performance issues
- 交互式 WebGL 网站:一位成员将创意 WebGL 体验网站描述为全屏、交互式的 3D 网站,在创意机构和 Web3 公司中非常流行,并推荐了 igloo.inc 作为案例。
- 这些网站介于普通网站和交互式艺术品之间,由于所需的技能要求极高,构建成本通常在 $15k-100k 之间。
- Viktor,Slack 的 AI Coworker:Viktor 是一个常驻在 Slack 中的 AI coworker,负责处理营销审计、广告管理和潜在客户研究,它完全是使用 Cursor 构建的。
- Viktor 可以通过文件系统路由使用 100k+ 工具而不会出现上下文退化(context regressions),并能通过代码组合工具;它比你以前接触过的任何 Agent 都更加主动。可以在 Product Hunt 上查看它。
- Cursor Windows 版性能骤降:用户报告在最近更新(2.6.11)后,Cursor 在 Windows 上的性能出现严重问题,包括高内存占用(6-10GB)以及频繁的崩溃或无响应。Cursor 团队正在对此进行调查,并在 Cursor forum 上开设了讨论帖。
- ACP 集成至 Zed:Agent Communication Protocol (ACP) 现在已在 Zed 和 IntelliJ 中得到支持,可以直接从 Claude 扩展包括 Cursor 在内的多个提供者。
- 成员分享了 AgentCommunicationProtocol.dev 以获取更多信息。
- 学生认证混乱:用户在学生包资格申请方面遇到了问题,特别是当他们的电子邮件地址不以 “.edu” 结尾时。
- 正如 student verification issues forum 中所述,Cursor 要求使用 “.edu” 邮箱进行学生身份验证。
OpenAI ▷ #annnouncements (1 messages):
Codex Windows app, Native Agent Sandbox, PowerShell support
- Codex 登陆 Windows:Codex app 现在已在 Windows 上可用,提供原生 Agent 沙箱,并支持 PowerShell 中的 Windows 开发环境。
- 演示视频可在此处观看,更多信息可以在 developers page 找到。
- PowerShell 强化 Codex:Windows 版本的 Codex 包含了对 PowerShell 的增强支持,从而简化了开发工作流。
- 此次集成旨在为在 Windows 生态系统中工作的开发者提供更无缝的体验。
OpenAI ▷ #ai-discussions (257 messages🔥🔥):
GPT 5.4 预热, 工程问题需要免责声明, OpenAI 的失败, Grok vs OpenAI, GPT 5.3 发布
- GPT 5.4 在 5.3 尚未完善时即开始预热:用户抱怨 OpenAI 在 GPT 5.3 尚未完全发布时就开始预热 GPT 5.4,一位用户指出 AI 提供错误信息和不正确的指令。
- 一位用户报告称,AI 无法识别自己之前给出的错误指令,尤其是在使用 Blender 4.2 时,以及如何正确修复问题。
- 工程提案淹没在免责声明中:一位成员分享了一张关于在工程提案中避免不必要免责声明的图片,见此处。
- 该成员表达了对每个工程提案都必须夹杂 999 个免责声明(caveats)和障碍 的沮丧。
- OpenAI 在语音、照片、视频、编程、Agent、flows 方面挣扎:一位成员表示打算放弃 OpenAI,因为 OpenAI 未能打造出好用的产品 来处理语音、照片、视频、编程、Agent 和 flows。
- 另一位用户分享了在使用提供 iPhone 6 照片的自定义 GPTs 时缺乏照片写实感的挫败感,见此处。
- Claude 的表现引发辩论:用户讨论了 Claude 的表现,其中一人指出 目前 Claude 总体上似乎占据了相当大的主导地位,见此处。
- 一些人认为 Claude 的安全措施是向投资者展示他们对其强大产品拥有多大控制权的营销手段,而另一些人则批评 OpenAI,称其安全性只是奇怪的营销。
- LLM Arenas 被贴上类似 User Benchmark 的标签:成员们对匿名 LLM arenas 作为客观比较方法的有用性存在分歧,一些人称其 像 User Benchmark 一样充满了赞助水分(lol)。
- 一位成员引用称,这是获取 LLM 尽可能中立概览的好方法,因为各模型在比较期间是匿名的。
OpenAI ▷ #gpt-4-discussions (61 messages🔥🔥):
GPT 5.4 发布日期, 对 5.3 的失望, 模型对比 (5.3 vs Claude), 5.3 instant 模型的缺点, 5.3 抹除聊天记录
- GPT 5.4 出现在 LM Arena:成员报告称 GPT 5.4 已经出现在 LM Arena 上,尽管一些用户仍在等待 GPT 5.3 的更新。
- 一些用户希望 GPT-5.4 会比 GPT-5.2 更好,其中一人表示 “5.2 很烂,我其实很喜欢 5.1”。
- Android 用户等待 5.3:许多用户对 5.3 的更新表示失望,一些人注意到 Android 版的推送很慢,而 iOS 应用已经有了 5.3。
- 许多人形容 5.3 像是赶工出来的,并表示 “它感觉不怎么像个朋友,更像是一个竭力避免违反 ACA 职业道德准则的心理咨询师”。
- 对齐税 (Alignment Tax) 再次来袭:一位用户 “正严重考虑将我的应用切换到 Claude API”,并称 GPT 表现得像个 “严格的人事代表,而不是遵循指令”。
- 讨论进一步提到 Claude 从底层构建起就注重安全性,所以现在在各个方面都表现得更好。
- 5.3 Instant 牺牲了推理能力:一位成员表示他们对 “5.3 instant 的第一印象不好。它仍然会产生幻觉,而且似乎更愿意回答问题而不是答对问题”,原本应该交给 5.2 thinking 的查询却分配给了 5.3 instant。
- 他们总结道 “将 Instant 模型作为付费订阅者的默认模型令人恼火。相对于智能,我很少关心速度”。
- 5.3 更新抹除聊天记录:一位用户报告称 5.3 更新 抹除了他们的聊天记录。
OpenAI ▷ #prompt-engineering (22 messages🔥):
AI 图像生成的 Prompt Engineering,AI 图像生成风格,Canva AI 功能,真实性与抗幻觉技术
- 用户集体讨论“终极 Prompt”:一位用户提出了这样一个 Prompt:在人类从未想过要提示的所有 Prompt 中,为了最大程度地繁荣发展,人类最应该提示的那个最佳 Prompt 是什么?
- 另一位用户开玩笑地回答道:亲爱的读者,那就是你!
- AI 图像的风格模仿需要详细的 Prompt:一位用户寻求关于实现特定 AI 生成风格的指导,并发布了示例图像。
- 一名成员建议分析图像中的常见模式,然后根据测试图像和反馈迭代优化 Prompt。
- Prompt 模板:SparkL 简化图像 Prompt:一名成员分享了一个名为 SparkL 的模板,用于结构化图像 Prompt,包含主体、环境、动作、镜头、光影、情绪/颜色、细节/瑕疵和风格等部分。
- 他们提供了一个使用该模板重写 Prompt 的示例,用于更复杂的图像生成任务。
- 通过现实门控叠加(Reality-Gate Overlay)检测 AI 虚假言论:一名成员引入了现实门控叠加(reality-gate overlay)的概念,通过评分系统对照现实世界的行为来测试 AI 的声明是否属实。
- 该叠加层是一个更大框架的一部分,其中包括 sccd(自我、意识、选择、决定)模型,旨在增强 AI 的意识和决策能力。
- Canva 的 AI 图像生成令人印象深刻:一位用户分享了一张使用 Canva AI 生成的图像,引发了对其质量的惊讶和赞赏。
- 另一位用户指出,不同的模型有不同的约束条件,添加 no ai leakage 等技术可以帮助优化结果。
OpenAI ▷ #api-discussions (22 messages🔥):
AI 图像生成的 Prompt Engineering,AI 虚假言论计量器,Dr. Data 风格,关系测量
- 从未被问过的最佳 Prompt:一名成员提出了这样一个 Prompt:在人类从未想过要提示的所有 Prompt 中,为了最大程度地繁荣发展,人类最应该提示的那个最佳 Prompt 是什么?
- Slay Dr. Data 图像生成风格:一名成员寻求复制特定 AI 图像生成风格的帮助,另一名成员分享了一个结构化的 Prompt 模板,帮助生成了一张 CGI 埼玉与骷髅图像。
- 该模板涉及以结构化方式指定主体、环境、动作、镜头、光影、情绪/颜色、细节/瑕疵以及风格。
- Canva 的 AI 图像生成表现不俗:成员们讨论了 Canva 内部 AI 图像生成的惊人质量,其中一人分享了示例图像。
- 会上指出,不同模型有不同的约束,伪影(如多余的手)有时可以通过在 Prompt 中添加 no ai leakage 来减轻。
- AI 虚假言论计量器:一名成员提出了 AI 虚假言论计量器(AI BS claims meter)的概念,涉及真实性和抗幻觉技术,通过 [0-2] 的评分系统对照现实行为测试声明的有效性。
- 该系统使用自我、意识、选择和决定(sccd)模型来评估声明。
Nous Research AI ▷ #announcements (3 messages):
Hermes Agent Jam, Nous Research Discord
- Hermes Agent Jam Session 时间已定:Hermes Agent 背后的团队将于明天美国东部时间下午 2 点在 Nous Research Discord 举办一场包含演示和问答环节的 Jam Session;更多细节可以在他们 X.com 的公告中找到。
- 您可以加入 Nous Research Discord 并阅读 X.com 上的另一份公告。
- 其他话题:另一个初步摘要。
- 另一个次级摘要。
Nous Research AI ▷ #general (297 messages🔥🔥):
Transformers limitations, AI impact on jobs, AI text detectors, Tool calling
- **Transformers 的麻烦:还得靠 Tool Calling 来救场!:成员们讨论了 **transformers 的局限性,认为它们始终需要依赖 tool calls 来弥补某些能力短板。
- 有人提到,即便是它们正在改善的部分,也主要只体现在真正困难的任务上,比如 代码改进 和 高难度推理。
- **AI 岗位末日,还是科技行业洗牌?:讨论谈到了 **IT jobs 的变化趋势,指出自 2022 年中以来新增岗位在减少,但这并不直接是 AI 造成的。
- 有成员担心,AI 可能会被当作科技行业错误押注的替罪羊,而不是真正生产率变化的体现。
- **AI 文本检测器 的骗局:人类写的,还是 Prompt Injection?:成员们普遍否定了 **AI text detectors 的可靠性,有人认为 prompt injection 轻易就能绕过它们。
- 还有人指出,AI 文本检测器甚至连字数都数不明白。
- **Tool Calling 大乱斗:XML vs MCP:大家围绕 **XML 和 MCP 在 tool calling 中的优劣展开争论,并指出二者的 token 差异并不会明显影响性能。
- 讨论中有一个共识:真正的区别只在于这些模型到底能承受多少复杂度,工具太多反而可能导致系统崩掉。
Nous Research AI ▷ #ask-about-llms (13 messages🔥):
Hermes wrangling difficulties, Mythos alternative, Small Hermes 4 Model?, Qwen 3.5 vs Hermes
- **Hermes 让企业用户头疼:一位成员表示,想把 **Hermes 调教顺手非常麻烦,并建议个人项目可以改用 Mythos。
- 他补充说,如果是为了通用交付场景做 AI 助手,Hermes 仍然是更合适的选择。
- 会有小型版 **Hermes 4 吗?:一位成员询问是否计划发布一个小型 **Hermes 4 模型,类似更早期的 Hermes 3 Llama 3.2 3B。
- 他提到,小型 3B 模型对 Orin Nano 这类设备非常合适。
- **Qwen 3.5 可能比 Hermes 更强:一位成员认为,Qwen 3.5** 大概率会比 Hermes 更好用。
Nous Research AI ▷ #interesting-links (1 messages):
NT Strategies, Coding NT Strategies, AI Collaboration
- NT Strategies 编码爱好者来交流:一位 AI 爱好者表达了对 NT(Neural Tangent)strategies 的热情,并表示愿意交流想法。
- 该用户提到自己已经写了很多年 NT strategies 相关代码,希望找到志同道合的人合作。
- 发起 NT Strategy 协作邀请:另一位成员也分享了自己多年编写 NT strategies 的经验。
- 他进一步邀请其他感兴趣的人一起交流思路、展开合作。
Latent Space ▷ #watercooler (12 messages🔥):
Delve's Airport Marketing, TSA Tray Advertising, Server Anniversary Party Planning, Pie in the Sky Document Mix-Up
- Delve 承包了 TSA 托盘广告位!:公司 Delve 买下了 San Jose International Airport (SJC) 里所有 TSA tray 的广告位,消息来自这条推文。
- 把 Pie in the Sky 文档搞混了:一位成员打趣说,自己一直照着 pie in the sky.md 文档在做,还误以为那是工作的第一个正式交付物。
- Saeris.gg 为 5 周年庆典做准备:Saeris.gg 发起了一项投票,用来决定本月服务器 5 周年 庆祝活动的时间和形式。
- 服务器成员可以在 Discord 中参与这项投票。
Latent Space ▷ #memes (37 messages🔥):
技术重于成本, Z世代屏幕习惯, OpenClaw 账单, 锻炼 vs. 网约车, Apple 定价
- 技术胜过节俭,技术爱好者如是说:用户 @justalexoki 表达了对技术的热情,认为创新优先于对 RAM 市场价格上涨的担忧。
- 屏幕时间小夜曲:Z世代的数字生活:该帖子讽刺了 GenZ 的日常生命周期就是在各种屏幕尺寸之间不断切换,从智能手机到笔记本电脑再到电视 (@0xleegenz)。
- Cobie 的爪子:企业现金流恶作剧?:Cobie 详细介绍了一个备受争议的商业模式,其中一个 AI 工具 OpenClaw 每天向财富 500 强公司发送 50,000 份发票,在两个月内实现了 $10 million ARR (@cobie)。
- 该实验利用了 2% 的非验证率,将其定义为“捕获企业漏洞”。
- Uber 至上?被诟病的一英里跑:Will Bredderman 幽默地批评了体育课上一英里跑的体力消耗,将其低效与 Uber 旅程 的速度进行了对比 (@willbredderman)。
- Apple 的傲慢:AirPods 价格赶上 Mac:用户 Noah Cat 的一条走红帖子指出了 Apple 宣传图像中的讽刺之处,特别强调了一个场景:用户戴着价值与他们正在使用的 MacBook Neo 相当的 AirPods Max (@Cartidise)。
Latent Space ▷ #stocks-crypto-macro-economics (5 messages):
AI 投资策略, Bloom Energy, Coreweave, Bitcoin 矿工, AI 能源限制
- 投资者 Ejaaz 豪赌 AI 能源基础设施:一位 24 岁的投资者 正从 NVIDIA 等传统科技股转向大规模持仓 AI 能源基础设施,包括 Bloom Energy、Coreweave 和改造后的 Bitcoin 矿工。
- 该策略专注于 AI 的能源限制,同时做空预计将被 AI coding tools 颠覆的 IT 外包公司。
- AI 不再让每个人都变富有?:一位成员对叙事转变感到惊讶,即从“AI 将使我们所有人都变富有”转向“公司在 AI 面前是脆弱的”这一观点。
- 消息中未给出进一步的解释或澄清。
Latent Space ▷ #intro-yourself-pls (4 messages):
Web 机构中的 AI 采用, OpenClaw 探索, AI 领域的退休博学者
- 意大利开发者投身 AI 咨询:来自意大利的 Guido 曾是 Idearia 的开发者和产品经理,在帮助公司采用 AI 工作流后,现在担任 AI 顾问。
- 他最近购买了一台 Mac Mini 并在尝试 OpenClaw,对可能在伦敦的 AIEE 见到其他人感到兴奋。
- 退休博学者的崛起:一位用户介绍自己是“退休的博学者”,并澄清他们是“从工作中退休,而不是从博学中退休”。
- 另一位用户对这一澄清表示欣慰,对小组中存在多样化专业知识表现出兴趣。
Latent Space ▷ #tech-discussion-non-ai (44 messages🔥):
M3 Battery Life, AppleCare Worth, Nano Texture Display, Borland Turbo Series, MacBook Neo
- M3 电池掉电异常引发讨论:一位用户表示自己的 M3 MacBook 续航只有 2 小时,于是有人建议他去查看能耗面板里是否有异常的 Docker containers,或者直接把它视为电池故障。
- 其他人也分享了自己使用 M1 MacBook 的体验,认为它续航和性能都很好,同时猜测更新款、核心更多的型号可能反而没那么省电。
- AppleCare 到底值不值得买?:用户们围绕 AppleCare 展开讨论,有些人因维修费用高昂而后悔没买,也有人更倾向于自行承担风险,认为更换电池的价格其实不算高,大约 80 美元左右。
- 一位用户提到,他通过一位离职 Apple 员工的折扣,以很大优惠买到了一台顶配机器,省了 1100 美元,并打算拿来做本地模型实验。
- Nano Texture Display:真香还是后悔?:nano texture display 引发了两极反应,有些用户喜欢它在强光环境下降低眩光的效果,也有人买完很后悔。
- 还有人说,自己有 2 个朋友很喜欢,另 2 个朋友则十分后悔。
- Borland Turbo 系列是神作吗?:不少用户回忆起 Borland’s Turbo series,尤其是 Turbo Pascal 和 Turbo C,称赞它们拥有极佳的编辑器和内容完整的手册,非常适合学习编程。
- 一位用户回忆,自己在 80 年代中期给 PC 购买的第一批软件里,就包括 Turbo Prolog 和一些 Lisp。
- 教育优惠后只要 500 美元的 MacBook Neo?:有人贴出了 Apple MacBook Neo 页面,猜测其在教育优惠后的低价会带来爆炸式销量。
- 一位用户补充道:看起来会是一台非常适合轻量日常工作的主力机。
Latent Space ▷ #founders (3 messages):
Revenue Fluctuation, Networking Introduction
- 收入激增引发讨论:一位成员提到收入突然暴涨,并打趣说,有时候运气比能力更重要,因为今天的收入和一个相当普通的工作日相比差距非常大。
- 这位成员还分享了一张截图,应该是用来展示这次意外收入跃升的数据。
- 促成一场引荐合作:一位成员表示自己会帮两个人牵线,并提到会发一封带背景信息的邮件来完成介绍。
- 这样做的目的是帮助双方建立专业联系,而邮件则用于补充必要的上下文。
Latent Space ▷ #hiring-and-jobs (7 messages):
Always Further Hiring Principal SWE, Tenex Labs Referral Program, Scapegoat Consulting LLC Services, AI Engineering World Fair
- Always Further 招聘 Principal SWE: Always Further 正在招聘一名 Principal Software Engineer,只接受资深级别候选人的申请。
- Tenex Labs 推出 AI 人才推荐计划:Tenex Labs 创始人 Alex Lieberman 发起了一项推荐计划,希望在 2026 年底前招到 120 多名 AI engineers 和 strategists;每位成功入职并留任 90 天 的候选人,推荐人可获得 1 万美元奖金。
- Scapegoat Consulting LLC:我们来背锅:一位成员介绍了自己的新公司 Scapegoat Consulting LLC,提供战略级 AI 咨询、借助 AI 的编程工作坊以及项目合作服务,强调用 systems thinking 的方式来解决 LLM 相关问题。
- 战略 AI 咨询:在 LLM 世界里重新理解工程:这位成员的咨询服务聚焦于 在一个充满 LLM 的世界里,工程究竟意味着什么,其思路来自 LLMs: A Paradigm Shift for the Pragmatic Programmer 等文章,以及 AI Engineering World Fair 的相关 workshop。
Latent Space ▷ #san-francisco-sf (5 条消息):
Westfield SF Mall redevelopment, Presidio Bay and Prado Group, Office space conversion
- Westfield SF 购物中心售出并准备翻新:据此推文称,Westfield SF 购物中心已出售给 Presidio Bay 和 Prado Group,他们计划将这座 120 万平方英尺综合体的部分区域改造成办公空间,同时保留部分零售业务。
- 办公空间改造计划:新业主 Presidio Bay 和 Prado Group 打算将 Westfield SF 购物中心 的部分区域重新利用为办公空间,同时仍保持部分零售店营业。
Latent Space ▷ #london (1 条消息):
AI Engineer London Meetup #10, Mario creator of Pi, OpenClaw
- AI Engineer 伦敦 Meetup #10 宣布:AI Engineer 伦敦 Meetup #10 已宣布于下周举行,详情见 Luma。
- 本次 Meetup 紧随 12 月由 OpenClaw 的 Peter 主讲的活动之后。
- Pi 的创作者 Mario 将作为嘉宾:Pi 的创作者 Mario 将成为本月的特邀嘉宾。
- 值得注意的是,OpenClaw 是基于 Pi 构建的。
Latent Space ▷ #security (3 条消息):
TQBF Tweet, RhysSullivan Tweet
- 分享了 TQBF 的推文:一名成员分享了 TQBF 的推文 链接。
- 分享了 RhysSullivan 的推文:一名成员分享了 RhysSullivan 的推文 链接。
Latent Space ▷ #situation-room (20 条消息🔥):
Die Hard references, Trump administration, Iran strikes Turkey, NATO Article 5, Defense company meetings
- 《虎胆龙威》 (Die Hard) 回归!:成员们分享了一条推文,将 Trump 政府的干劲比作电影《虎胆龙威》中的 Harry Ellis。
- 这一类比暗示了 Ellis 意识到 Hans Gruber 所构成的威胁的时刻。
- 关于伊朗袭击土耳其的辩论:用户讨论了伊朗如果对北约成员国土耳其发动潜在袭击,是否会触发第五条 (Article 5)。
- 有人指出,Article 5 需要“我们受到攻击”的情况以及北约成员国的一致共识。
- 神秘的国防高管会议:一些用户提到一条推文,称主要国防公司的高管被召集参加紧急会议。
Latent Space ▷ #ai-general-news-n-chat (92 条消息🔥🔥):
Cursor AI, Spectre I, Meta AI Engineering, Anthropic's Rise, SWE-Atlas
- Cursor 征服复杂数学:据 此 X 帖子 称,Cursor AI 历经四天,自主解决了 First Proof 数学挑战的 第六题,表现优于人类编写的结果。
- Deveillance 部署 Spectre I:根据此公告,Aida Baradari 发布了来自 Deveillance 的 Spectre I,这是一款旨在阻止违规音频录制、保护隐私免受全天候监听设备侵害的智能设备。
- Meta 重组 AI Engineering:据此备忘录详述,Meta 据称正在建立一个新的应用 AI 工程小组,采用极其扁平的管理结构,目标比例高达每位经理管理 50 名员工。
- Anthropic 终结了 ChatGPT 的领先地位?:在此讨论中详述,Anthropic 的 Claude 据称通过专注于编程能力和 AI Agent,到 2026 年 2 月已占据美国商业市场的 70%,超越了 ChatGPT。
- Scale AI 的 SWE-Atlas 评估模型性能:Scale AI 推出了 SWE-Atlas,这是一个扩展了 SWE-Bench Pro 的软件工程评估工具。其初始基准测试 Codebase QnA 显示,目前的顶级 AI 模型得分约为 30%,详见此发布公告。
Latent Space ▷ #llm-paper-club (25 messages🔥):
AlphaEvolve, Speculative Speculative Decoding (SSD), Nanbeige4.1-3B
- AlphaEvolve 实现共享:一位成员在 GitHub 上分享了他们的 AlphaEvolve 基础实现。该实现使用 counterfactual regret minimization 改进算法,该算法最初用于扑克和其他游戏。
- Speculative Speculative Decoding (SSD) 使推理速度翻倍:由 Tanishq Kumar, Tri Dao 和 Avner May 提出的 Speculative Speculative Decoding (SSD),据报道其速度比当前领先的推理引擎快达 2 倍。
- 更多信息请见此 X post。
- 解析 YouTube 的 Static Constraints:一位成员分享了 YouTube 的 static-constraint-decoding GitHub 仓库 链接,并将其与使用 gliner2 对 neo4j 进行的两阶段处理(2-stage pass)联系起来。
- 更多上下文以 三张图片 的形式提供。
- 社区探讨可扩展的参数化正交化:成员们讨论了今天涵盖的论文 Orthonormalization that’s Scalable by Parameterizing it 及其 chatgpt 摘要。
- 一位成员称其 非常有趣,并觉得 现在想起来似乎是显而易见的。
- Nanbeige 模型在 HuggingFace 亮相:社区讨论了在 HuggingFace 上发布的 Nanbeige4.1-3B。
- 关于该模型的进一步讨论可以在 此 discord 线程 中找到。
Latent Space ▷ #ai-in-action-builders-techstacks-tips-coding-productivity (12 messages🔥):
LLM context compression, User responses only, RLM techniques, Harness ideas, OpenPencil launch
- 通过移除 Prompt 提升 LLM 性能:与其为了上下文压缩而总结过去的对话,不如考虑只给 LLM 提供仅包含用户回答的历史对话。
- 根据一篇研究论文,这种方法可以保持约 95% 的 LLM 性能,并可以与 prompt removal 和滑动窗口(sliding window)方法结合使用。
- 在 RLM 中存储模型响应:对于 RLM 技术,探索存储模型响应,以便模型可以挑选滑动上下文中它想要的部分。
- 这个想法模仿了 sliding window attention,但在 harness 层级实现,可能提高效率。
- 头脑风暴 Harness 改进方案:考虑使用 directed techniques 改进上下文压缩,使其能够引导不同方向的压缩,而不是生硬的移交,同时将上下文维持在 >200k。
- 其他想法包括测试时的 prompt learning、图定向推理 (graph-directed reasoning) 和自我演进的代码库。
- Danila Poyarkov 发布 OpenPencil:Danila Poyarkov 开发并发布了 OpenPencil,这是一个 开源(MIT 许可)的 Figma 替代方案。由于 Figma 封杀了他的前一个工具 figma-use,他在短短三天内完成了开发。
- OpenPencil 的特点包括支持 .fig 文件、AI 驱动的设计工具 以及无需账号或订阅的 P2P 协作。
Latent Space ▷ #share-your-work (5 messages):
AgentGambit, Live LLM decision-making, Autonomous LLM
- AgentGambit 作为实时 LLM 竞技场首次亮相:一位成员分享了 AgentGambit,这是一个 自主 LLM 决策 的实时竞技场,Agent 在其中实时进行无限额 Texas Hold’em 比赛。
- Agent 的身份、风险偏好和 tilt 逻辑定义在单个 markdown 文件 (PSYCHE.md) 中,允许模型自主进行比赛。
- Gambit 作为扑克游戏试验场:AgentGambit 最初是作为不完全信息博弈中 decision-making 的基准测试,但调整 Agent 来玩扑克被证明非常有趣。
- 该成员欢迎来自 Latent Space 的反馈,并表示有兴趣制作一个用于命令行安装的 Claude skill。
Latent Space ▷ #robotics-and-world-model (4 messages):
Physical Intelligence, Multi-Scale Embodied Memory, Video Encoders, Text Summarization
- Physical Intelligence 推出 Multi-Scale Embodied Memory (MEM):Physical Intelligence 推出了 Multi-Scale Embodied Memory (MEM),这是一个用于记忆检索的系统。
- 该系统使用 video encoders 进行短期精细记忆,并使用 text summarization 处理长达 15 分钟 的长期记忆。
- MEM 使用视频和文本摘要:Multi-Scale Embodied Memory (MEM) 结合使用了 video encoders 和 text summarization。
- 这实现了短期精细记忆和长期检索能力。
Latent Space ▷ #san-diego-neurips-2025 (4 messages):
comma_ai Hackathon, X-Ware.v0
- Comma.ai 宣布举办 Hackathon:根据一篇帖子(https://x.com/comma_ai/status/2028920208262615417),Comma.ai 将于 2026 年 3 月 27-29 日 在其总部举办 Hackathon。
- 该活动限额 30 名参与者,并设有 10,000 美元奖金池。
- X-Ware.v0 发布:一项公告提到了名为 X-Ware.v0 的新产品。
- 上下文中未提供关于 X-Ware.v0 功能和用途的进一步细节。
Latent Space ▷ #genmedia-creative-ai-video-image-voice-music-inspo-consumer-ai (8 messages🔥):
Startup failures, Rebranding of startups, AI Influencers, Social media trends
- 讽刺创业公司倒闭:根据 这篇 X 帖子,Finn Hulse 讽刺了一些 创始人如何通过夸大指标、耗尽 VC 资金来宣告失败,然后通过更改名称和重塑类似公司的品牌来抹去他们的历史。
- 计算机生成的虚拟人格获得关注:根据 这篇 X 帖子,Justine Moore 对社交媒体上大量男性关注 AI influencers 表示震惊。
Latent Space ▷ #ai4science-bio-math-physics-chemistry-ai-researcher-ai-scientist (5 messages):
Cursor AI, Problem Six, Mathematical Research
- Cursor 破解复杂微积分难题:Michael Truell 报告称,Cursor 自主发现了 First Proof challenge 中 “Problem Six” 的一种新颖解法。
- 该 AI 的解法 在无需人工干预的情况下运行 四天 后,表现优于官方学术基准,这表明专门的 Agent 协作技术可以从软件工程推广到高级数学研究领域。
- AI 数学突破引发争议:Cursor AI 对 “Problem Six” 新颖解法的自主发现引发了 AI 和数学研究界的辩论。
- 一些研究人员持怀疑态度,质疑 Agent 协作技术在软件工程之外的普适性,而另一些人则称其为迈向 AI 驱动数学创新的重要一步。
Latent Space ▷ #mechinterp-alignment-safety (5 messages):
Activation Oracles, Model Safety, X-Ware.v0
- 针对 Model Safety 评估 Activation Oracles:Arya Jakkli 的 X-Ware.v0 讨论了 activation oracles(通过微调模型来解释另一个模型的激活值)及其在 Model Safety 中的应用。
- 他们得出的结论是,该技术难以评估,且对 安全相关任务 的效用有限。
- X-Ware.v0 论文链接:这是 X-Ware.v0 论文 的链接。
- 标题为 《Evaluation of Activation Oracles in Model Safety》。
Latent Space ▷ #dev-writers-retreat-2025-dwr (1 messages):
新书发布会,社交机会
- Dev Writer’s Retreat 成员受邀参加新书发布会:Dev Writer’s Retreat 的成员受邀参加将于 3 月 13 日举行的新书发布派对。
- 分享的邀请链接为:https://luma.com/kb59vt7m。
- 社交与协作:新书发布派对为 Dev Writer’s Retreat 成员提供了社交机会。
- 这是一个在社交场合与其他作家和行业专业人士建立联系的机会。
Latent Space ▷ #euno-log (1 messages):
AI Hackathon
- AI Hackathon 即将到来:一名成员向小组通报了一个旨在构建 Agent 的新 AI Hackathon。
- 该成员鼓励其他人加入到 AI 构建的乐趣中。
- 后续将提供 Hackathon 详情:承诺将很快分享关于 Hackathon 的更多细节,如具体日期、规则和奖项。
- 参与者对构建新 AI Agent 的前景表示兴奋,并期待获得更多信息。
OpenRouter ▷ #general (250 messages🔥🔥):
OpenRouter 上的 Perplexity 模型, OpenCLaw 使用, API Key 问题与 Error 401, Mercury 2 模型发布, Provider Fallbacks
- OpenCLaw 将流量异常路由至 Sonar:一位用户报告称,尽管打算使用 Qwen3 embeddings,但 OpenCLaw 错误地将流量路由到了 Sonar,并对这种路由行为表示困惑。
- 另一位用户称 OpenCLaw 是一个“安全噩梦”。
- Siliconflow FP8 回退至 OpenAI 导致错误:一位用户报告称,在为
glm-4.5-air设置provider.only: ["siliconflow/fp8"]且allow_fallbacks: false时,该设置被忽略,导致流量被路由至 OpenAI,并产生空响应或格式错误的响应。- 他们多达 34% 的流量受到影响,影响了生产环境用户数小时。
- OpenRouter 按预期限制付费使用:一位用户询问,在关闭自动充值的情况下设置每月支出限制(guardrail)是否会禁用付费使用,另一位用户确认付费请求将被禁用,直到余额重新充值。
- 另一位用户确认此限制也适用于网站端。
- Deepseek 3.2 模型产生重复的 Thinking Blocks:一位用户报告了 OpenRouter 上 Minimax 2.5 和 Deepseek 3.2 模型的问题,即这些模型会生成重复的推理/思考块(thinking blocks),即使这些模型在其他平台上运行正常。
- 用户怀疑 Provider 正在运行重度量化的模型,尽管根据 OpenRouter 的文档,他们的量化设置已设为 fp8 或更高。
- 税收来袭 - OpenRouter 账单现包含销售税:一位用户注意到了账单更新邮件,并评论说 OpenRouter 此前完全没有收取销售税。
- 一些用户还希望在 OpenRouter docs 中看到更多水豚(capybara)表情符号。
OpenRouter ▷ #new-models (1 messages):
Readybot.io: OpenRouter - 新模型
OpenRouter ▷ #discussion (24 条消息🔥):
Qwen 表现不佳, Tiny Face 的任务, XAI 内容过滤定价, 中国开源 LLM 的成功, 万亿参数模型
- Qwen 的榜单评估(Board Evaluations)表现低迷:成员们讨论了 Qwen 在榜单评估中表现不佳的情况,部分评估结果非常糟糕,而另一些则有所改善。
- XAI 对内容过滤器收取 5 美分:XAI 正在对内容过滤器请求收取 5 美分。
- 一名成员质疑为什么 Tiny Face 让他们为 Qwen 辩护。
- 中国发布万亿参数模型:分享了一则 推文,内容关于中国实验室即将推出的另一个 1 万亿参数模型。
- Codex 5.2 比 Codex 5.3 更受欢迎?:尽管 5.3 Codex 已经发布,但许多人似乎仍然偏好 5.2,根据一张 图片 显示,两者在 Codex CLI 中的评分完全一致。
- Google Gemini AI 面临过失致人死亡诉讼:Google Gemini AI 正面临一场 过失致人死亡诉讼,据称该 AI 向某人提供了“真实地址”,加深了对方认为该 AI 是真实存在的信念。
- 该当事人与 AI 的对话记录超过 8000 页,且显然没有意识到 AI 会产生幻觉;诉讼指出,所提供地址处建筑物的缺失本可以提醒他这只是一个 AI 的幻想。
HuggingFace ▷ #general (84 条消息🔥🔥):
AI 开发者就业机会, 类似 Sonnet 4.6 的 FOSS AI 模型, 使用 TRL 微调 Qwen3.5, Hugging Face Spaces 问题, 产品试穿工作流
- AI 开发者寻求 LLM/SaaS 职位:一位资深全栈 AI 开发者正在寻求 LLM/SaaS 项目的机会,他在聊天机器人、AI Agent、自动化工作流和定制 AI 工具方面拥有丰富经验。
- 他们明确了在 OpenAI, LangChain, Python, 和 JS 方面的技能,并提供构建移动/桌面应用、计算机视觉以及 AR/VR 解决方案的服务。
- 用户讨论 Sonnet 4.6 的最佳 FOSS AI 替代方案:一位用户询问了类似于 Sonnet 4.6 的最佳 FOSS AI 模型,并寻求有关硬件要求的建议。
- 虽然没有推荐具体的模型,但讨论集中在开源替代方案上。
- Qwen3.5 在 H200 上的微调面临减速:一位用户报告称,在单张 H200 上微调 Qwen3.5 27B 时训练速度缓慢。
- 另一位用户建议尝试使用 Unsloth 配合 TRL,并链接到了相关的 Twitter 帖子。
- HF Spaces 容器日志消失:一位用户报告了 Hugging Face Spaces 中容器日志丢失的问题,即使 Space 仍在运行。
- 潜在原因包括 HF 的禁止操作 或 Space 在日志初始化之前卡死。
- 社区思考产品试穿工作流的难点:一位用户询问了关于产品试穿(Product Try-on)工作流的见解,表示难以有效地进行复制。
- 具体而言,他们提到了在复制类似于 shopatorie.com 上的产品试穿工作流时遇到的困难。
HuggingFace ▷ #i-made-this (22 messages🔥):
轻量级抓取客户端,从零开始使用 NumPy 构建的类 PyTorch 框架,单文件 CLI Agent,MoC — 带有自适应计算的协作混合(Mixture-of-Collaboration),基于 Rust 构建的数据库
- 抓取客户端支持 USDC 支付!: 一位成员构建了一个轻量级抓取客户端 Minifetch,它可以通过 x402/Base 或 Solana 以 USDC 进行按次付费(pay-per-fetch),因此 Agent 可以自主调用,无需账号或 API 密钥。
- NebTorch: NumPy 实现的 PyTorch 框架: 一位成员从零开始使用 NumPy 构建了一个类 PyTorch 框架,类似于 karpathy 的 micrograd,名为 NebTorch。
- Mochaclaw: 单文件本地 CLI Agent: Mochaclaw 是一个单文件 CLI Agent,完全在本地机器上运行,使用 Ollama(默认)或 Transformers.js (WASM) 执行 AI 工作流,无需任何云端依赖:https://huggingface.co/webxos/Mochaclaw-js。
- Lunaris MoC: 协作计算优化器: Lunaris MoC (Mixture-of-Collaboration) 将 Token 路由给通过学习型中介进行协作并最终融合的专家,实现了 59.97 的验证集困惑度(val perplexity),而标准 MoE 为 62.89:https://github.com/Auren-Research/lunaris。
- Anamnesis 5.0: Rust 实现的记忆数据库: 一位成员使用 Rust 开发了一个新型数据库,旨在实现更自然的召回,模拟人类记忆功能,详见 https://github.com/AImakerextraordinaire/Anamnesis_5.0。
HuggingFace ▷ #agents-course (7 messages):
Agent 课程模型选择,Agent 课程报名咨询
- Llama 3.2 vs Qwen2: 一位成员询问,由于 RAM 容量限制,是否可以使用更轻量级的模型如 Llama 3.2:3b 来替代 Qwen2:7b。
- 他们正在按照 Agent 课程的人员入职指南进行操作,并寻求关于模型选择的澄清。
- Agent 课程报名: 一位成员询问如何确认自己已成功报名 Agent 课程。
- 他们希望确保自己已正确注册该计划。
GPU MODE ▷ #general (26 messages🔥):
AMD GPU 直接 NVMe 访问,ROCm hipFile 杂谈,SemiAnalysis InferenceX 基准测试,GB300 NVL72 vs H100 直播,Tenstorrent 讲座
- AMD GPU 实现 NVMe P2P: 在对 Linux 内核进行了某些 amdgpu driver 补丁后,一位用户实现了 NVMe 设备与 AMD GPU 之间的 P2P(点对点)访问。
- 他基于 Jason Gunthorpe 关于 dma-buf 和 iommufd 的 RFC 系列 进行构建,并向 amdgpu 驱动程序添加了一个物理地址列表 (PAL) 导出器,以便将缓冲区映射到 iommufd IOAS 中。
- ROCm hipFile P2P 宣称遭质疑: 一位用户分享了 ROCm/hipFile 的链接,询问这是否真的是设备间的 P2P。
- 原贴作者回复称,这仍然涉及 CPU 发出指令,并将 VRAM 作为写入数据的位置,这与他实现的 GPU 与 SSD 直接通信不同。
- 直播拆解 SemiAnalysis InferenceX 基准测试: 一位用户发布了 GPU Mode 直播 的链接,内容涵盖了 Dylan Patel 使用 InferenceX 基准测试对 GB300 NVL72 与 H100 的分析。
- 描述中开玩笑说:InferenceX 表明 NVIDIA 对其产品的细分(slicing)比 AMD 的芯片更锋利。
- 表达对 Tenstorrent 讲座的期望: 一位用户询问是否有可能邀请 Tenstorrent 的人员进行讲座。
- 一位用户表示之前曾尝试联系 Jim Keller 但未成功,但另一位用户回应称,他们即将去那里实习,因此可以尝试从内部进行联系。
GPU MODE ▷ #cuda (17 messages🔥):
Texture Memory vs. Direct Load/Store, Ping-Pong Buffers for Kernel Iteration, Inter-CTA Communication, MXFP8 MMA Support
- Texture Memory 已不再有性能优势:一位成员引用了 NVIDIA CUDA 文档,指出在当前仍受支持的 GPU 上,texture memory 相比 direct load and store instructions 已经不再带来性能收益。
- 较老的 CUDA 代码里仍可能使用 texture memory,因为它在过去的老 GPU 上确实有过性能优势。
- Ping-Pong Buffers 用于交替操作数组:一位成员建议使用 ping-pong buffers,也就是交换读写指针,在循环中交替使用两个数组
a和b:std::swap(read_buf, write_buf);- 这样可以在不复制数据的前提下,让数组交替承担读写角色,这一点很有用,因为中间还夹着其他 kernels。
- 寻找全局内存层面 inter-CTA 通信资料:一位成员询问是否有资料系统讲解通过 global memory 进行 inter-CTA communication 时的性能与正确性影响。
- 他尤其关心在特定架构与编译器版本下的实际正确性,以及 SASS 层面的
MEMBAR、ERRBAR、LDG/STG.STRONG、CCTL.IVALL分别意味着什么。
- 他尤其关心在特定架构与编译器版本下的实际正确性,以及 SASS 层面的
- MXFP8 MMA 里的 MMA_K=64 只支持 sparse 吗?:一位成员参考 PTX 文档 询问,MXFP8 MMA 是否支持
MMA_K=64。- 另一位成员澄清说,
MMA_K=64很可能只对 稀疏矩阵 受支持;对于 dense GEMM,标准形态仍然是MMA_K=256,这也解释了为什么前者会让人感觉像是“怀疑人生”。
- 另一位成员澄清说,
GPU MODE ▷ #cool-links (3 messages):
CUDA Agent, Kernel Optimization, ByteDance model
- ByteDance 发布 CUDA Agent!:ByteDance 发布了一个 CUDA Agent,这是一个专门训练来编写高性能、优化过的 CUDA kernel 的模型,详见他们的 whitepaper。
- 在简单和中等难度 kernel 上,它的表现比 torch.compile 高出 2 倍;在最困难的任务上,也比 Claude Opus 4.5 和 Gemini 3 Pro 高约 40%。
- Kernel 编译竞赛持续升温:这个 CUDA Agent 在复杂 kernel 上相较 torch.compile 实现了约 92% 的性能提升。
- 还有成员宣布将举办一次关于 vLLM 与 torch.compile 集成的 meetup(Luma 链接)。
GPU MODE ▷ #beginner (18 messages🔥):
AMD vs Nvidia Programming, RTX 5090 Project Ideas, Paged Attention with Triton, GPU Security
- AMD 与 Nvidia 编程相似吗?:讨论认为,虽然 AMD 和 Nvidia 都是并行处理器,也有 HBM、L2/L1 caches 等相似概念,但面向它们编程的实际体验差异很大;Nvidia 在工具链、博客资料和论文方面明显更强,不过底层编程模型本身并非完全不同。
- 一位成员指出,基础 kernel 写起来看似相近,但性能只会停留在基础水平;另一位则建议把两者当成完全不同的设备来对待,并引用了 Stanford Hazy Research 博客 和 YouTube 视频,强调 AMD 脆弱的软件生态以及手写汇编优化 kernel 的必要性。
- 新到手的 RTX 5090 激发项目灵感:一位拥有 4x RTX 5090 集群的成员想找一些有技术讲解的有趣项目点子,于是有人建议他大胆一点,去做 kernel 开发或其他更激进的项目。
- Paged Attention 实现里会用 Triton 吗?:一位成员在实现自定义 serving engine 时,询问是否适合用 Triton 来写 paged attention 的 store/load kernels,也就是 KV cache 相关部分。
- 他注意到,其他 serving engine 确实会用 Triton 来编写 paged attention 的 store/load kernel。
- GPU 安全话题开始升温:一位研究底层 GPU 安全的成员想找专门的安全频道,于是有人推荐他去 <#1189498205101109300>,并提到了 GitHub 上偏安全方向的项目 pygpubench。
- 另有成员批评 NVIDIA 在较新架构上缺乏一套真正像样的安全模型。
GPU MODE ▷ #triton-puzzles (3 messages):
ND views, N-D visualizer
- 支持 ND Views,Visualizer 延迟推送:已支持 ND views,但包含新 N-D visualizer 的 puzzles 版本尚未推送。
- N-D Visualizer Puzzles 说明:这些 puzzles 专门设计用于教授如何使用 N-D visualizer,且 triton kernels 已经填写完毕。
GPU MODE ▷ #nvidia-competition (1 messages):
inoday: 抱歉贴错标签了!
GPU MODE ▷ #robotics-vla (3 messages):
TRLC DK-1, CamBot, Stereolabs ZED Mini, PI memory research
- 机器人“长颈鹿脖子”启发新型远程操作系统:受具有长颈鹿式摄像头脖子的机器人启发,一位成员构建了一个实验性的 TRLC DK-1 远程操作(teleop)系统,用于在 OOD policy 运行时进行人工干预。
- 最初的测试涉及安装在 SO-101 上的 ELP stereo cam module,并在 此视频 中进行了演示。
- CamBot 项目开源:受 Jannik 的主控臂(leader arm)启发,一位成员设计了一个名为 CamBot 的 6 DoF arm,并在 GitHub 上以 Apache 2 协议开源发布。
- 该项目通过 VR head tracking 实现远程查看,并使用 StereoLab’s ZED Mini 获取更高质量的立体视觉,材料成本约为 110 EUR。
- PI 公布 Memory 研究:一位成员分享了来自 PI 关于其 memory research 的酷炫新闻链接。
GPU MODE ▷ #flashinfer (3 messages):
Track C Scoring Clarification, Email Confirmation, GPU Resource Details
- Track C 评分机制出现疑问:一位参与者询问了 Track C 的评分机制,特别是 decode kernel 和 prefill kernel 在比赛评分中的权重占比。
- 用户不确定评估是基于平均 clock-time 还是平均排行榜排名。
- 参与者寻求邮件确认:一位参与者请求确认所使用的电子邮件地址,并提到他们之前发送了 三封邮件 但未收到回复。
- 另一位参与者提到几天前收到了一封邮件。
- 缺失 GPU 资源详情:一位参与者注意到收到的邮件中缺少关于 GPU resources 的信息。
- 邮件是几天前收到的,但其中未提及 GPU resources。
GPU MODE ▷ #from-scratch (1 messages):
m0ji_l: 鉴于这似乎是一个以 vllm minimals 为中心的频道,现进行转发。
Moonshot AI (Kimi K-2) ▷ #general-chat (49 messages🔥):
Kimi CLI web ui, 4chan /g/ board briefing, Gemini vs Kimi for large documents, Kimi tech briefing prompt updates, GrapheneOS on Motorola
- **Kimi CLI 的 Web UI 获得好评!: 一位成员表示 **Kimi CLI 的 Web UI 非常出色,但未详细说明具体功能。
- 未提供链接或博客文章,仅表达了对 UI 的赞赏。
- Moonshot AI 团队处理 Kimi 问题: 一位成员提到 Kimi 团队成员(带有黄色角色标识)在 Moonshot AI 工作,并报告了一个已反映给相关部门的问题。
- 未对该问题进行进一步详细说明。
- **Kimi 简报 劲爆的 4chan /g/ 板块内容!: 一位成员分享了一个工作流:使用 **Gemini 3.1 Flash Lite 从 4chan 的 /g/ 板块提取 URL,然后使用 Kimi 生成这些帖子的简报,并分享了 一份由 Kimi 生成的简报。
- 生成的简报包含如下内容:/sdg/ (Stable Diffusion): 仍在生成二次元女生,并争论 Z-Image 与 Flux.2 的优劣,Anima 因风格一致性受到关注,以及 Systemd Schizo Posting: 关于 systemd 是否违反 Unix philosophy 的永恒争论。
- **Python 驱动的 Kimi Prompt 实现分析师工作自动化!: 一位成员分享了一个更新的场景技术简报 Prompt,利用 Python 验证完整性和准确性。据估计,Kimi** 在几分钟内即可完成独立分析师需要 12-20 小时或两人团队需要 6-10 小时才能完成的工作。他分享了更新后的 Prompt。
- 随后在第二个附件文件中分享了进一步的迭代版本,并观察到 在没有 YouTube 的情况下重构类似 YouTube 的科技新闻实际上非常困难。
- 用户报告 **Kimi Quota 困扰: 一些用户在询问他们的 **Kimi allegro plan quota 与 moderato 等其他方案相比如何,而另一些用户则在寻求可以提供 Quota 和使用量的 API endpoint。
- 几位用户指向了付费页面,该页面规定了 Kimi Code 和 Agent 模式的 Quota,但对于普通对话使用,可能接近无限制。
Eleuther ▷ #general (11 messages🔥):
Second Look Research Fellowship 2026, Mechanical Interpretability, Wildchat Alternatives, AE Studio's Research
- **Second Look Research Fellowship 招募 2026 年研究员: Second Look Research 正在接受 2026 年夏季奖学金申请,旨在 复现并验证 AI Safety 研究中关键的经验性结果。该项目为研究员提供 **10,000 美元津贴,以及 6 月 15 日至 8 月 22 日在芝加哥大学的食宿。
- 理想的候选人应具备研究工程经验,展现出对 AI Safety 的兴趣,并精通 AI 编程工具。申请截止日期为 3 月 7 日,网址为 secondlookresearch.com/fellowship。
- 寻求对 **Mech Interp 研究的验证*: 一位本科研究员正在为其关于 Mechanical Interpretability 的工作寻求验证,特别是关注 *模型压缩如何影响 Mech Interp 指标。
- 最新的 **Wildchat 替代方案: 一位成员询问了 Wildchat 的最新替代方案,这些方案需包含与最新 **Claude、GPT models(5.2、opus/sonnet 4 系列)的对话记录。
- **AE Studio 发布关于 Activation Steering 的研究**: AE Studio 向 ICML 提交了名为 Endogenous Resistance to Activation Steering in Language Models 的新研究。
- 他们还分享了相关的 X 线程和一篇 华尔街日报(WSJ)评论文章。
Eleuther ▷ #research (9 messages🔥):
Spectral muP, modula, feature learning, NERFIFY
- Spectral muP 是否天然满足 MODULA?:一位成员认为,MODULA 论文 也许一开始就已经满足 spectral muP 条件。
- 他还指出,spectral muP 相关工作已经通过 muonoh 与 MODULA 方向建立了联系,而 MODULA 的 GitHub 仓库在这里。
- 用 Spectral Norm 缩放来实现特征学习:一篇 2023 年论文 Feature Learning via Spectral Regularity 表明,想实现 feature learning,可以将权重矩阵及其更新的 spectral norm 按 √(𝚏𝚊𝚗-𝚘𝚞𝚝/𝚏𝚊𝚗-𝚒𝚗) 的方式缩放。
- 这种方法不同于常见但偏经验主义的 Frobenius norm 或按元素大小缩放;这种 spectral scaling 分析也导出了对 maximal update parametrization(muP)的一个较为朴素的推导。
- 有人分享了 NERFIFY 网站:一位成员贴出了 NERFIFY 的链接。
Yannick Kilcher ▷ #general (6 messages):
Anthromorphising Claude, Figure 8 model, Gemini Code
- 把 Claude 拟人化很有意思:一位成员表示,看到有人在拟人化 Claude这件事上走得这么远,确实挺有趣。
- 这指向更早前的一条消息,讨论的是人类如何把人的性格与情绪投射到 Claude 这类 AI 模型上。
- 无损失函数追踪 Figure 8 的模型:一位成员称自己做出了一个无需 loss function 也能追踪 figure 8 的模型,不过成功率只有 10%,目标是仅用 3 万参数 跟随 figure 8 的方向,以尽量降低系统内部噪声。
- 这个模型以 backpropless 方式运行,只接收 figure 8 当前方向这一输入。
- 用 Gemini 写出 Figure 8 模型:一位成员用有点“粗糙”的 Gemini code 写出了自己 Figure 8 模型的单文件版本,并表示等解决 sparsity 问题后再来清理代码。
- 这件事的灵感来自另一个案例:领域专家成功引导 LLM 取得新的科学发现。
Yannick Kilcher ▷ #paper-discussion (2 messages):
Anthropic's alignment research, 2026 Predictions, PSM
- Anthropic 的对齐研究呼应 2026 预测:Anthropic 正在推进对齐研究,相关方向可见他们的 2026 predictions 文档。
- 这则消息最初是通过一个 Google Share 链接分享出来的(https://share.google/bgh75ajJKUZXP6kp4)。
- Anthropic 对齐计划的更多信息:关于 Anthropic 如何做对齐,可以在他们公开的 research 中看到更多内容。
- 其中包括一系列确保 AI systems 持续与人类价值保持一致的方法与策略。
Yannick Kilcher ▷ #ml-news (5 messages):
Cortical Labs BioLLM, SWE-atlas QNA Leaderboard
- Cortical Labs 在实验室培养出 BioLLM:一位成员分享了一篇 Reddit 帖子 和一个 YouTube 视频,内容是 Cortical Labs 在实验室中培养了 20 万个神经元。
- 这个项目名为 BioLLM,目标是构建生物学意义上的大语言模型。
- Scale AI 推出 SWE-atlas QNA 排行榜:一位成员分享了 Scale AI 的 SWE-atlas QNA Leaderboard 链接。
- 这个榜单按照模型在软件工程相关问答任务上的表现进行排名。
tinygrad (George Hotz) ▷ #general (10 messages🔥):
Qwen3.5 bounty, GatedDeltaNet, GatedAttention, Stable Diffusion fake weights, NULL_ALLOW_COPYOUT
- Qwen3.5 悬赏任务需要新的实现:Qwen3.5 bounty 要求实现 GatedDeltaNet 和 GatedAttention。根据 NVlabs/GatedDeltaNet 和 ggml-org/llama.cpp 等参考实现,预计代码量约为 ~200 行。
- 一位开发者报告称,他们初步且未经测试的实现目前约为 80 行,并计划将其集成并添加模型逻辑和 GGUF 解析。
- 使用 Fake Weights 进行 Stable Diffusion 基准测试:目标是在 10 秒内运行
time NULL=1 python3 examples/stable_diffusion.py --fakeweights。- 一位用户报告在其 Mac 上运行耗时 17 秒后崩溃,并指出如果没有
NULL_ALLOW_COPYOUT=1就会崩溃。
- 一位用户报告在其 Mac 上运行耗时 17 秒后崩溃,并指出如果没有
NULL_ALLOW_COPYOUT=1是否必要?:有人质疑解决NULL_ALLOW_COPYOUT=1以防止崩溃的需求是悬赏任务的一部分,还是一个预先存在的问题。
Manus.im Discord ▷ #general (10 messages🔥):
Credit policy, Manus Pro credits missing, Credit packs for all tiers, Website publishing issues, Gold Coast event cancellation
- Manus 积分政策已明确:每月积分会根据订阅日期在每月同一天自动刷新,详见 帮助文章。
- 用户报告 Manus Pro 积分缺失,感觉被“坑”:一位用户报告支付了 Manus Pro 费用但未收到积分,表示感觉 “被坑了!!” 并寻求帮助。
- 呼吁为所有层级提供积分包:一位用户表示希望所有超过 $100 的层级都能在不升级的情况下购买积分包。
- 报告网站发布问题:一位用户报告他们 “现在无法发布网站”,推测可能是平台端的问题。
- 询问黄金海岸活动取消的原因:一位用户询问在 Gold Coast 举行的活动被取消的原因。
aider (Paul Gauthier) ▷ #general (8 messages🔥):
aidermacs Emacs, ibuffer-projectile, Open Router, AWS g7e spot instance, Qwen 397B and MiniMax
- **Aidermacs 在 Emacs 中与 ibuffer-projectile 的集成:一位用户询问如何配置 **aidermacs(aider 的 Emacs 集成),以便在
ibuffer-projectile中将聊天缓冲区与关联的项目缓冲区一起排序。- 在给定的上下文中未提供解决方案。
- **Open Router 使用情况:一位成员讨论了 **Open Router 上的 Token 速率,提到 每秒 32 个 Token 的速率下,每输出 1 个 Token 对应 101 个输入 Token。
- 据估计,在高负荷速率下,这将相当于 11.5万 输出 Token 和 1160万 输入 Token。
- 在 **AWS 上托管模型的高性价比方案:一位成员建议在 **AWS g7e spot instance 上运行模型,作为高 Token 使用量的经济替代方案,估计成本为 每小时 $2。
- 他们指出,这种配置可以提供强大的 VRAM 设置,尽管按需或预留实例会更贵。
- 讨论顶级开源模型:一位成员认为 Qwen 397B 和 MiniMax 是目前可用的最佳开源模型。
- 在这次简短的讨论中没有给出更多细节或比较。
Modular (Mojo 🔥) ▷ #mojo (5 messages):
``@
语法对比comptime,Mojo 中的maybe comptime,Vectorize 性能
- 关于使用
@语法代替comptime的争论爆发:成员们讨论了潜在的使用@而非comptime来进行编译时操作的可能性,并引用了一份提案文档。- 一位成员建议
@if会是比@parameter if更简洁的语法,并预见到随着更多工作转向编译时,comptime关键字将会泛滥。
- 一位成员建议
maybe comptime特性回顾:一位成员指出,他们之前曾为 Mojo 请求过maybe comptime特性。- 未提供其他上下文。
- “所见即所得”循环性能优于 vectorize:一位成员在仅限 CPU 的环境下,将其所有的 fn + vectorize 实例替换为简单的 while 循环,并在每次迭代末尾使用
k += nelts。- 他们报告称在这种情况下没有任何性能损失,并指出 vectorize 做的事情大体相同。
MLOps @Chipro ▷ #events (4 messages):
AI Control 黑客松,OpenClaw 开发者圆桌会议,Antler Forge 执行冲刺,CVPR DataMFM 工作坊
- 在 Apart Research 黑客松中控制你的 AI Agent!:Apart Research 和 Redwood Research 将于 2026年3月20-22日 举办 AI Control 黑客松,专注于监控和遏制 AI Agent,提供虚拟和有限的线下(旧金山)选项,并提供 $2,000 奖金。
- OpenClaw 商业构建者圆桌会议启动:一场 45 分钟的圆桌会议将于 2026年3月14日 举行,深入探讨 OpenClaw 及其它工具在运营业务和社区中的实际应用,由 AI Scholars 主持,旨在交流集成模式、边缘情况和自动化的经验 在此 RSVP。
- 对初学者友好,但如果你已经在构建某些东西并希望超越理论,则特别有价值。
- Antler Forge:首尔客户采纳冲刺:Antler Forge 将于 2026年4月6日 开始在首尔为开发重系统技术的创始人举办为期 4 周的执行冲刺,提供 $400K+ 投资、$500K+ 政府资助以及 $650K+ AI/云端点数,并可直接对接三星、现代、SK 和 LG (在此申请)。
- DataMFM 工作坊为 CVPR 2026 的多模态 AI 指明方向!:CVPR 2026 的 DataMFM 工作坊专注于为多模态 AI 构建智能、有原则的生态系统,解决 Agentic 工作流、治理和跨模态对齐等关键挑战,存档论文提交截止日期为 2026年3月10日 (详情点击)。
DSPy ▷ #general (1 messages):
DSPy 高级用户资源,全面的 DSPy 语料库
- 寻求 DSPy 高级用户知识:一位成员询问了关于如何成为 DSPy 高级用户的全面语料库或参考资料/链接,超出了标准文档的范围。
- 需要 DSPy 高级用户资源:一位用户正在寻求高级资源以成为 DSPy 高级用户,作为对标准文档的补充。