AI News
Sora 2:全新的视频+音频模型,以及 OpenAI 的首个社交网络。
Sora 2 已经发布,改进了对物理世界的视频建模,并引入了全新的“角色一致性”功能,支持从单个视频中注入真实世界元素。该模型为全新的 Sora 社交网络应用提供动力,该应用具备个人主页、私信和热门视频功能,并强调用户对自身形象使用的控制权。OpenAI 员工目前正积极测试该模型。
与此同时,Anthropic 推出了 Claude 4.5 Sonnet,其在智能水平、Token 效率及智能体工具调用能力上均有所提升,表现优于部分竞争对手,并在基准测试中紧追 GPT-5-high。生态系统支持方面包括 LangSmith 的集成,以及在代码和数学基准测试中的强劲表现。
你的脸就是你所需的一切。
2025年9月29日至9月30日的 AI 新闻。我们为您检查了 12 个 subreddit、544 个 Twitter 账号和 23 个 Discord(196 个频道,7053 条消息)。预计节省阅读时间(以 200wpm 计算):509 分钟。我们的新网站现已上线,支持完整的元数据搜索,并以精美的 vibe coded 方式呈现所有往期内容。访问 https://news.smol.ai/ 查看完整的新闻细分,并在 @smol_ai 上向我们提供反馈!
距离 Sora 发布已过去 1.5 年,距离 Sora.com 向公众开放已过去 10 个月,在 Meta 发布其备受争议的 Vibes 应用 4 天后,Sora 2(如泄露所言)于今日发布,反响热烈(按 HN 点赞数计算,规模大约缩小了 7 倍)。
Sora 2 在 Sora 1 时代视频模型中迅速发现的所有物理世界问题上都有了显著改进——包括体操和花样滑冰动作:
博文中提到了“隐式”模型——目前还没有像许多人根据 Genie 研究推测的那样出现显式的世界模型。但肯定有一些针对电子游戏和浏览器输出的训练。
除了 Veo 3 已经推出数月的“原生音频视频”功能外,一个突出的新功能是能够通过一段演示视频“将现实世界的元素注入 Sora 2”,OpenAI 的员工们显然玩得很开心:
Sama 在他的个人博文中将此称为“角色一致性”(character consistency)。
该功能和模型现已产品化为全新的 Sora iOS 应用和 website 体验,目前通过邀请码限制访问,作为“cameos”功能,这是新 Sora 社交网络运作的核心。
是的,我们强调的是字面意义上的“社交网络”——正如 Sama 今年早些时候承诺的那样——新的 Sora 应用拥有个人资料、粉丝计数、DMs,并且已经出现了首个病毒式传播的视频。
团队(以及前成员)在直播中费了不少心思讨论已到位的安全措施,例如防沉迷超时机制。
Cameos 都是在注册过程中自行上传的视频,你可以设置权限允许(或不允许)他人使用你的肖像。值得注意的是,Sam Altman 的肖像可供所有人使用,这就是为什么在接下来的几天里,你会在社交动态中看到大量关于 Sam 的 deepfakes。
AI Twitter 综述
Anthropic 的 Claude Sonnet 4.5:能力、编程和早期评估
- Claude 4.5 Sonnet (200K ctx, 64K max output): Anthropic 的升级带来了更高的智能,价格与 Sonnet 4 持平(每 1M input/output 为 $3/$15),即使在“Thinking”模式下也提升了 Token 效率。来自 Artificial Analysis 的独立评估将其排在 GPT‑5-high 之后,但领先于 Gemini 2.5 Pro 和 Grok 4 Fast,同时在输出 Token 方面保持了显著的节俭;他们还指出,与之前的基准测试相比,在 Agent 工具使用和安全/对齐行为方面有更大的提升 (thread)。在 ARC‑AGI 上,Sonnet 4.5 紧随 GPT‑5,其性能随着思维预算的增加而显著扩展 (@GregKamradt; commentary)。用户报告了出色的“状态管理”和上下文压缩能力,使长周期的 Agent 工作流更加可靠 (@nickbaumann_; @skirano)。生态系统支持迅速落地:LangSmith 成本追踪/游乐场 (@Hacubu),ARC Prize 结果 (@scaling01),以及在 LiveBench 和 Deep Research Bench 上的社区测量,在编程/数学方面表现强劲 (1, 2)。
- Claude Code 2 与 Agent 技术栈: Anthropic 发布了 Claude Code v2、VS Code 扩展更新、上下文编辑和记忆工具 (发布汇总)。Replit 报告称 Sonnet 4.5 提高了 Agent 3 中代码编辑的可靠性和自主性 (@pirroh)。Anthropic 还发表了一篇关于 Agent 系统“上下文工程”(Context Engineering,超越 Prompt Engineering)的工程博客 (@AnthropicAI)。
智谱 GLM‑4.6(开源权重)与 Agent 编程焦点
- GLM‑4.6 发布(MIT 许可证): 智谱扩展了 GLM‑4.5 产品线,具备 200K 上下文、更强的编程能力、改进的推理/工具使用以及更好的 Agent 任务成功率,同时每条轨迹使用的 Token 比 4.5 减少了约 15%。智谱发布了 CC‑Bench‑V1.1(包含 74 个具有完整轨迹的真实世界 Agent 编程任务),显示 GLM‑4.6 在编程方面与 Claude Sonnet 4 接近,并领先于国内同行,所有评估细节均已公开 (@Zai_org, bench; 分析由 @gm8xx8 提供)。开源权重和 API 已上线;HF/ModelScope 的托管即将推出。
- 生态系统采用: 已在 OpenRouter (@OpenRouterAI)、Yupp (@yupp_ai)、YouWare (@YouWareAI)、Roo Code (@roo_code)、Cline (@cline) 和 Anycoder (@_akhaliq) 上可用。在本地,MLX 在 M3 Ultra 上以约 17 tok/s 的速度运行 GLM‑4.6(5.5 bpw 量化;5.3K tokens) (@awnihannun)。
前沿视频模型:Sora 2 发布与早期对比
- OpenAI Sora 2 与应用: OpenAI 发布了 Sora 2 及其 iOS 应用(发布时仅限美加地区受邀使用)、Cameo 功能(许可控制、水印)和系统卡片;Android 版和 API 正在计划中。OpenAI 强调了具有改进物理特性/可控性和音频的“世界模拟”演示,同时承认了算法流和 Deepfakes 的风险 (产品公告, 预告, Sam Altman 的笔记)。反应不一:一些人强调了出色的真实感/一致性;另一些人则指出了伪影,并指出 Google 的 Veo 3 在某些情况下具有竞争力 (支持者, 怀疑者, 物理演示)。
- Luma Ray 3: Luma 的新 Ray 3 在 Artificial Analysis 的 T2V Video Arena 中排名第二,引入了迭代式思维链生成循环和 16 位 HDR 支持(I2V/T2V 最高支持 10s 1080p)。API 尚未提供 (@ArtificialAnlys)。
训练效率与后训练:FP4、QAT 以及预训练期间的 RL
- NVFP4 (NVIDIA): 在 10T tokens 上训练的 12B 模型上,采用 2 级缩放、RHT 和随机舍入(stochastic rounding)的 4-bit 预训练效果与 FP8 基准相当(MMLU-Pro 62.58 vs 62.62),有望实现约 6.8 倍的效率提升和约 50% 的内存降低;Blackwell 支持 FP4 matmul 和所需的舍入模式 (paper/code, summary)。开源 TE 支持正在开发中。
- Compute-Optimal QAT (Apple): 一种在给定 tokens/内存情况下,平衡量化感知训练(QAT)与全精度的缩放法则(scaling law);为在训练计划中将 QAT 作为“一等公民”进行规划提供了实用指南 (@aldrmv, @awnihannun)。
- RLP (NVIDIA): 强化学习预训练(Reinforcement Learning Pre-training)通过在网页文本上使用无验证器(verifier-free)、密集的信息增益奖励,教导模型“在预测前思考”,相比基础模型获得了显著提升(例如,在数学/科学测试集上 Qwen3-1.7B 提升 19%,Nemotron-Nano-12B 提升 35%),并能与后训练(post-training)产生叠加效应 (paper/blog)。
从用户和 Agent 记忆中学习
- RLHI (Meta): 来自人类交互的强化学习(Reinforcement Learning from Human Interaction)直接从自然的用户对话中训练(用户引导的重写和基于用户的奖励),在个性化和指令遵循方面优于基准,同时保持了标准基准测试的性能 (@jaseweston, paper)。
- ReasoningBank (agents): 一个存储从成功和失败中提炼出的策略的记忆系统,旨在提高 Web/SWE 任务中的复用率和效率,据报告相比之前的记忆方法,效率提升了 34.2%,步骤减少了 16% (tweet)。
- 高效序列模型: SWAX 将滑动窗口注意力(sliding-window attention)与 xLSTM 和随机窗口大小相结合,以增强短程和远程召回 (tweet)。对于扩散 LLM,SparseD 提出了稀疏注意力(速度快 1.3–1.5 倍且近乎无损),而 LLaDA-MoE(稀疏 MoE dLLM)在激活参数更少的情况下,在扩散 LLM 中达到了 SOTA (SparseD, LLaDA-MoE)。最后,MobileLLM-R1 展示了 10 亿参数以下(950M)的推理模型,通过约 2T tokens 的精选数据和标准后训练,在 AIME 上达到了 15.5 (tweet)。
Agent 编程技术栈与基础设施
- 本地和托管 Agent 栈: AMD 认可了使用 Cline + LM Studio 进行本地“氛围编程(vibe coding)”,并为更高内存层级推荐 Qwen3-Coder-30B (4/8-bit) 和 GLM-4.5-Air (@cline)。AI SDK 现在可以路由到任何 HF 模型 (@nishimiya)。Cursor 1.7 增加了提示词建议和全组织规则 (@cursor_ai)。Sim 发布了一个全本地、开源的拖拽式 Agent 工作流构建器,并集成了 MCP (thread)。
- Codex 与 Claude Code 的操作选择: 逆向工程笔记强调了 OpenAI Codex CLI 的 Shell 优先循环(思考→工具→观察)、减少错误面的统一 diff,以及操作系统级沙箱,而非更重的工具编排 (analysis)。同时,GitHub MCP Registry 和 Claude 扩展在 VS Code 中继续成熟 (@code, @gallabytes)。
Periodic Labs: AI 科学家 + 自主实验室
- 由 Liam Fedus 和 Doğuş Ekin 领导,Periodic 完成了由 a16z 领投的 3 亿美元创始轮融资,旨在构建 AI 科学家并配以自主实验室,用于可验证的、实验驱动的科学——目标是材料(如超导体)和半导体的进步;团队成员包括 ChatGPT、GNoME、Attention、MatterGen 以及规模化自主物理实验室背后的资深人士 (launch, a16z)。其核心论点是:互联网文本是有限的;进步需要新的、高信号的实验数据和闭环验证。
热门推文(按互动量排序)
- “开启声音。” Sora 2 预告,来自 @OpenAI (~34K)
- Sora 2 发布,来自 @OpenAI (~12.7K)
- “太平洋时间上午 10 点”发布前预热,来自 @OpenAI (~6.6K)
- “我们正在发布一个名为 Sora 的新应用。” 来自 @sama (~6.7K)
- Sora 应用演示,来自 @OpenAI (~4.6K)
- “基于 Claude Sonnet 4.5 构建”挑战,来自 @alexalbert__ (~1.2K)
- Bolt v2 “vibe coding 走向专业化”,来自 @boltdotnew (~1.3K)
- Periodic Labs 发布,来自 @LiamFedus (~2.9K)
AI Reddit 回顾
/r/LocalLlama + /r/localLLM 回顾
1. 中国 AI 模型发布:Qwen 路线图与混元 Hunyuan Image 3.0
- 阿里巴巴刚刚揭晓了其 Qwen 路线图。其雄心壮志令人震惊! (热度: 954): 阿里巴巴的 Qwen 路线图(很可能是图片中的幻灯片)展示了激进的扩展目标:统一多模态模型;上下文长度从
1M → 100Mtokens;参数量从 ~1T → 10T;test‑time compute scaling 从64k → 1M;以及数据量从10T → 100Ttokens——并配合“无规模限制”的合成数据生成和更广泛的 Agent 能力(复杂性、交互、学习模式)。这标志着中国旗舰级 LLM 技术栈全面拥抱“scaling is all you need”策略(参见 Qwen 项目:https://github.com/QwenLM/Qwen)。 评论者对100M上下文表示惊叹,对其是否保持开源持怀疑态度,并对在本地运行>1T参数模型的实际可行性(硬件可行性)表示担忧。- 路线图提到了
100Mtoken 的上下文窗口(幻灯片),引发了可行性疑问。朴素的二次方注意力机制在 100M tokens 下每层需要约1e14的注意力评分——仅存储这些评分就需要数十到数百 TB——因此这将需要稀疏/线性注意力、循环(recurrence)或外部存储技术。即便如此,KV-cache 的增长(O(n))和内存带宽仍会成为瓶颈;实际部署可能会将窗口注意力与检索技术相结合。 - 几位用户指出,较大的 Qwen Checkpoints 很有可能转为闭源,从而限制本地微调和可复现性。这将导致基准测试仅限于基于 API 的评估,并限制社区优化。
- 关于在本地运行
>1T参数模型:一个稠密(dense)1T 模型仅 FP16 权重就需要约2 TB(INT8 约1 TB,4-bit 约0.5 TB),这还没算上 KV-cache 和激活值;基于 NVLink/InfiniBand 的多节点张量/流水线并行将是强制性的。相比之下,MoE 设计(例如总参数1T,激活专家为~8/64)产生约125B的激活参数;在 4-bit 下权重约为62.5 GB,实际上可以在多块 GPU 上部署,尽管在长上下文下 KV-cache 仍会增加50–100+ GB。吞吐量将受限于互连带宽和缓存效率。
- 路线图提到了
- 腾讯预热全球最强开源文生图模型,混元 Hunyuan Image 3.0 将于 9 月 28 日发布 (热度: 225): 腾讯预热了混元 Hunyuan Image 3.0,这是一款将于 9 月 28 日发布的开源文生图(text‑to‑image)模型,被誉为同类模型中“最强大”的。预热信息似乎显示
VRAM: 96(可能是 GB),暗示了巨大的推理内存占用,但目前尚未提供基准测试、训练细节或具体的权重发布细节;在发布之前,这些说法仍未得到证实。 评论者对发布前的炒作表示质疑,指出此类发布往往表现不及预期,并指出96 GB VRAM的提示可能使普通用户无法进行本地推理。其他人则认为,由于缺乏可对比的、真正开源的模型进行基准测试,其“最强开源”的说法尚未得到证明。- 一位评论者断言该模型推理可能需要
96 GB VRAM(“vram 96?” → “是的”)。如果属实,在不进行分片(sharding)或量化的情况下,这将超出单块 24–48 GB 消费级 GPU 的能力,意味着全精度运行需要数据中心级 GPU 或多 GPU 设置。 - 几位用户对发布前的过度炒作与最终平庸结果之间的关联持怀疑态度,并将 Qwen 这种低调但强大的发布与炒作较多的发布(如 Stable Diffusion 3 对比 FLUX)进行了对比。共识是等待独立的基准测试和样本展示后再做判断。
- 由于目前缺乏可对比的开源模型进行基准测试,其“最强开源”T2I 的说法受到质疑。提到的一个实际标准是它是否能超越 Qwen Image——这一门槛将直接推动社区的采用和实验。
- 一位评论者断言该模型推理可能需要
2. 本地 AI 技术栈:消融后微调与风华 3 号 GPU
- 重要提示:为什么 Abliterated 模型很糟糕。这里有更好的去审查 LLMs 的方法。 (Activity: 433): 楼主报告称,“Abliterated” LLMs(在没有训练目标的情况下,通过手术式修改权重以移除拒绝/安全行为)会持续损失推理、工具使用和事实性——特别是像 Qwen3‑30B‑A3B 这样的 MoE 模型——表现出更高的幻觉率和更差的 MCP 工具调用能力。消融后的微调似乎可以“修复”模型:例如,mradermacher/Qwen3-30B-A3B-abliterated-erotic-i1-GGUF(在
i1-Q4_K_S下测试)和经过 DPO 微调的 mlabonne/NeuralDaredevil-8B-abliterated(源自 Llama‑3‑8B)在保持去审查的同时,保留或超越了基准能力,在工具路由和幻觉测试以及 MCP (Model Context Protocol) 方面优于多个 Huihui 消融的 Qwen3‑30B‑A3B 变体。楼主将这些提升归功于编辑后的训练,它恢复了受损的权重交互;他们指出,与原版相比,在 Agent 任务中仍有轻微缺陷,但与其它消融版本相比,事实性和工具选择明显更好。 评论呼吁建立非 NSFW 的标准化基准来量化“消融”的影响;将观察到的恢复描述为已知的“模型修复”(在不受约束的权重编辑后进行进一步训练);并认为如果微调能解决问题,那么消融可能是不必要的,或者不如直接的微调,并担心移除“负面偏见”会使输出不稳定。- 技术共识警告说,不受约束的权重编辑(又称“消融”)会如预期般降低或破坏能力;评论者将编辑后的训练定性为“模型修复”,即进一步的微调有助于网络重新学习被手动权重修改破坏的连接。关键点在于,没有损失函数引导的编辑会破坏分布式表示,而随后的监督优化可以部分恢复它们——尽管不一定能达到基准质量。
- 几位人士呼吁建立 NSFW 之外的基准,以评估消融对通用推理和实用性造成的附带损害。Uncensored General Intelligence (UGI) Leaderboard 被引用为满足这一需求,它评估更广泛的能力而非仅限色情产出:https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard。
- 经验报告认为,消融 + 微调“永远”无法击败从 Base 模型直接进行的微调,且移除“负面偏见”往往会产生不可用的模型。这挑战了消融作为预处理步骤的价值,如果标准微调能以更少的退化和更好的基础能力保留来实现去审查。
- 中国已开始制造支持 CUDA 和 DirectX 的 GPU,从而终结 NVIDIA 的垄断。风华 3 号支持最新的 API,包括 DirectX 12、Vulkan 1.2 和 OpenGL 4.6。 (Activity: 702): 帖子声称中国类似芯动科技的“风华 3 号”独立 GPU 现在支持主要的图形/计算 API:DirectX 12、Vulkan 1.2、OpenGL 4.6,以及据称的 CUDA 兼容性,暗示 NVIDIA 的 CUDA 锁定可能被削弱。如果属实,这意味着驱动/运行时层实现了 DX12 功能级别和 Vulkan 1.2,外加一个 CUDA 运行时/驱动垫片或向 GPU 原生计算 ISA 的翻译层;然而,目前尚未提供独立的基准测试或开发者栈细节(编译器工具链、PTX/SASS 兼容性或一致性测试结果)。 热门评论指出,AMD 已经通过 HIP 和 ZLUDA 等翻译器实现了 CUDA 兼容,认为 NVIDIA 之外的 CUDA 支持通常依赖于翻译和法律规避;怀疑态度依然存在(“眼见为实”),一些人预计会有监管阻力或制裁。
- 多位评论者指出,AMD 已经通过 HIP 提供了一条类 CUDA 的路径,它在重命名符号下镜像了 CUDA API,以规避许可/商标问题(使用 hipify 等源码移植工具);ZLUDA 等项目旨在实现 CUDA 调用的即插即用式翻译,以便在非 NVIDIA 后端运行(ZLUDA repo)。这暗示中国厂商可能会放弃法律上的间接手段,直接实现 CUDA 支持,而 AMD/其他厂商通常使用兼容层。参考资料:HIP, CUDA。
非技术性 AI Subreddit 综述
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
1. OpenAI Sora 2 发布与演示展示
- 这就是 Sora 2。 (热度: 985): OpenAI 发布了 Sora 2,这是一个下一代视频生成系统,展示了更长、更高保真度的片段,在时空一致性、材质/光照一致性以及物理上合理的运动方面有显著提升,此外还具有更可控的摄像机移动和多主体交互。该页面强调了更强的 text-to-video 能力和端到端编辑工作流(例如,提示词驱动的修订和掩码编辑/延续),但未提供架构、训练数据或定量基准测试细节,因此性能是通过精选示例而非
peer-reviewed指标来展示的。 技术评论者预计将快速进展到全长 AI 生成电影,甚至是个性化的、生物识别响应式媒体,而其他人则对“演示与产品”之间的差距表示担忧,并提出了关于滥用、监控式个性化以及潜在针对儿童内容的安全性担忧。- 对演示与产品一致性的怀疑:华丽的视频片段很可能是精心挑选的,因此发布的 Sora 2 在提示词遵循度和长程时间一致性方面可能落后于预览版。预期的生产限制包括片段长度上限(例如
<=60s)、分辨率/FPS 限制、运动抖动、文本/手部渲染伪影以及激进的安全过滤器——这是视频 diffusion/transformer 系统从研究转向服务时的典型差距。 - 访问/定价的不确定性:一位支付约
$200“Pro” 档位的评论者质疑是否包含 Sora 2 访问权限,突显了围绕分级/候补名单推出的混乱。鉴于视频生成服务成本随frames × resolution × diffusion steps扩展,提供商通常通过白名单或按分钟计费进行限制;争论焦点在于 Pro 档位是否应赋予优先级/API 配额,还是由于高昂的 GPU 成本而完全排除在外。 - 关于使用肢体语言反馈的“个性化”电影的推测暗示了一个闭环流水线:实时摄像头/生物识别捕获(通过 MediaPipe 或 OpenPose 等模型获取姿态/情感)将调节信号(关键帧、掩码或摄像机路径)驱动到生成器中。这在隐私/遥测、端侧 vs 云端推理、流式传输延迟以及生成节奏与观众反应窗口的对齐方面提出了技术挑战。
- 对演示与产品一致性的怀疑:华丽的视频片段很可能是精心挑选的,因此发布的 Sora 2 在提示词遵循度和长程时间一致性方面可能落后于预览版。预期的生产限制包括片段长度上限(例如
- 在地铁上冲浪 (热度: 597): 一段名为“在地铁上冲浪”并标记为“Sora 2”的演示展示了一个 AI 生成的视频(可能来自 OpenAI 的 Sora 概览),具有很高的视觉保真度,引起了强烈的生理反应,但表现出非物理的碰撞动力学——这突显了当前的 text-to-video 模型依赖于学习到的视觉先验,而非显式的物理模拟。外部资源 v.redd.it/vxuq3sjt8csf1 返回
HTTP 403 Forbidden(Reddit 边缘鉴权拦截),需要账户身份验证或开发者令牌才能访问。作为参考,Sora 是一个 diffusion-transformer text-to-video 系统,旨在生成时间连贯的高分辨率序列(量级约为 ~60s),但它不保证物理上的准确交互。 热门评论提出了两个风险:(1) 视觉上令人信服但物理上不合理的场景可能会误导外行人对现实世界影响的直觉;(2) 一旦音频生成得到改进,合成片段可能变得与真实片段无法区分,从而加剧 deepfake 担忧。即使是怀疑论者也报告称,尽管知道片段是合成的,仍有强烈的惊吓反应,这强调了当前视觉效果相对于滞后的音频真实感的说服力。- 担心日益逼真的生成视频可能描绘物理上不可能的生存能力,从而侵蚀对力/冲击力的直觉;讨论的技术缓解措施包括物理一致性检查(例如,加速度连续性、动量守恒、接触动力学)和学习到的“物理先验”。检测不合理事件的相关基准测试包括 IntPhys (https://arxiv.org/abs/1806.01203) 和 PHYRE (https://ai.facebook.com/research/publications/phyre-a-new-benchmark-for-physical-reasoning/),它们在视频质量和时间连贯性提高的同时,探测模型是否能标记违反直觉物理的行为。
- 音频深度伪造(Audio deepfakes)被标记为下一个拐点:现代少样本 TTS/语音克隆(例如 Microsoft VALL-E: https://arxiv.org/abs/2301.02111,Google AudioLM: https://arxiv.org/abs/2209.03143,以及商业化的 ElevenLabs)仅需几秒钟(
seconds)的音频即可模仿说话者,而自动说话人验证(ASV)在面对合成攻击时依然脆弱。ASVspoof’21 表明检测器对未见过的合成方法泛化能力较差(在分布偏移下 EER 升高),因此随着基于 Diffusion 的 TTS 缩小了韵律和呼吸噪声方面的差距,活体检测/主动挑战协议(liveness/active-challenge protocols)比被动语音匹配更受青睐。- 病毒式合成恶作剧鼓励模仿行为带来的安全风险:提议的缓解措施包括通过 C2PA (https://c2pa.org/) 实现的加密内容凭证,以及模型/提供商层面的水印技术,尽管目前的水印对于重编码/裁剪较为脆弱。平台防御应将用户可见的来源信号与针对校准后的精确率/召回率进行调整的分类器保障相结合,以最大限度地减少对真实素材的误报和对伪造内容的漏报。
- Sora 2 创作动画 (热度: 610): 发布者强调 “Sora 2”(OpenAI 视频模型的继任者)可以合成动画风格的序列;一场直播演示包含了一个动画场景,观众称其质量媲美广播级。分享的资源是一个 v.redd.it 剪辑,目前在未授权情况下返回
HTTP 403 Forbidden(链接),并且有修改意见称该场景可能与京阿尼(KyoAni)的《吹响!上低音号》(“Hibike! Euphonium”,剧集信息)中的镜头高度匹配,这引发了关于原创性/记忆化(memorization)的问题,但由于链接被封锁而无法确认。 评论者辩论了潜在的训练数据记忆化问题(如果该剪辑几乎是逐镜头重制),并注意到与 2023 年早期的失败案例(例如臭名昭著的“威尔·史密斯吃意大利面”视频)相比,保真度提升飞快。- 潜在的记忆化/风格复制:多位用户声称展示的动画镜头与 Kyoto Animation 的 Hibike! Euphonium (https://en.wikipedia.org/wiki/Sound!_Euphonium) 中的场景高度相似。如果属实,这将引发关于训练数据来源、近重复去重(near-duplicate deduplication)以及视频模型记忆化的技术问题;审计将涉及复制距离指标(copy-distance metrics)、训练语料库中的近重复检测,以及用于衡量特定受版权保护序列重现难易程度的 Prompt 泄露测试。
- 质量增量 vs 早期文本生成视频:评论者将今天的 Sora 动画输出与 2023 年的“威尔·史密斯吃意大利面”梗图进行了对比,指出从充满伪影、低连贯性的剪辑到广播级动画镜头,仅用了两年的跨越。隐含的技术进步在于长程时间一致性、跨帧角色身份追踪、稳定的线稿/上色以及摄像机运动——这可能由更大/更干净的视频-文本数据集、更长的上下文窗口、改进的运动/一致性损失函数以及更强大的视频 Diffusion/Transformer 架构所驱动。
- 可行性展望:关于“在
~3 years内生成完美动画”的说法暗示了一个将文本生成视频与可控输入(分镜脚本、关键帧、深度/姿态)、角色/风格锁定以及集成的 TTS/语音 + 对口型相结合的工作流。技术瓶颈在于可控性 API、用于跨场景角色一致性的资产复用性以及每分钟渲染成本;如果 Sora 已经接近广播级的单镜头水平,剩下的差距就是多镜头连续性、可编辑性以及用于剧集长度生产的工具链集成。
-
Open AI Sora 2 邀请码综合讨论帖 (热度: 7371): 非技术性的综合讨论帖,旨在协调 OpenAI Sora 2 邀请码的交换;未提供模型、功能或基准测试细节。评论显示邀请码稀缺且可能存在地区限制,一名用户声称“我有 5 个码,总共可以邀请 20 人”,但没有经过验证或技术背景。随附的图像似乎是非技术性/装饰性的,不传达技术内容。 评论者大多在请求多余的邀请码,并感叹地区不可访问性(例如欧洲);不存在实质性的技术辩论。
- Sora 2 realism (活跃度: 2726): 标题为 “Sora 2 realism” 的 Reddit 帖子链接到一个 v.redd.it 资源 jksco9609csf1,该资源目前返回 HTTP 403 Access Denied(拒绝访问),表明媒体文件存在但被 Reddit 的网络安全机制拦截,而非丢失。故障排除重点在于身份验证(OAuth/开发者 Token、有效的 cookie/会话标头)或提交支持工单;403 错误暗示了反爬虫或 IP 限制,而非死链。 热门评论多为非技术性的震惊反应,暗示了感知的照片级真实感(photorealism)以及对潜在滥用的担忧(如诈骗、社会影响),但未包含可验证的技术细节。
- 几位用户指出,Sora 2 似乎提供了令人信服的人体运动真实感,特别是对于历史上难以合成的运动动作。这表明在运动学一致性(kinematic consistency)、接触动力学(contact dynamics)和时间连贯性(temporal coherence)方面,Sora 2 较之前的视频生成模型有所改进,有可能在没有显式 Rigging 的情况下缩小与动捕素材(motion-captured footage)的差距。
- 对行走中的马的特定观察突出了可见的肌肉运动表达(muscle articulation),这意味着除了简单的骨骼绑定外,还具有高保真度的软组织形变(soft-tissue deformation)和着色效果。然而,尽管达到了帧级的照片级真实感,观众仍报告有一种“恐怖谷”式的诡异感,暗示了细微的时间/生物力学伪影(如微动作、地面反作用力线索)揭示了内容的合成性质。
- OpenAI: Sora 2 (活跃度: 1863): 该线程分享了一个标记为 “OpenAI: Sora 2” 的演示,其中包含 v.redd.it 上一个被屏蔽的视频剪辑和一张随附的预览图 (jpeg)。一条热门评论强调了一个名为 “Cameo” 的新功能,该功能被设定为实现跨生成的角色一致性——旨在解决长视频或多镜头生成中常见的身份漂移(identity drift)问题,这是文本生成视频系统中的一个持久失效模式。线程中未包含 Benchmark 或发布说明;从评论来看,技术含义是基于参考或 Token 的条件控制(conditioning),以在序列中保留角色属性。 评论者将其视为迈向完全生成的长篇内容(电影/节目)的一步。主要的争论点在于 “Cameo” 是否能实质性地解决长程角色连贯性(long-horizon character continuity),还是仅提供短程的外观锁定。
- 多位评论者指出 Sora 2 的新功能 “Cameo” 是一个重大的技术进步:角色一致性一直是长篇视频生成的重大失效模式,而 Cameo 被解读为能够跨镜头甚至跨独立生成序列实现持久的身份。通过在 Prompt 中重复使用一致的参考/身份 Token,这可能允许实现多镜头连贯性(相同的面部、服装和举止),使剧集或长片级的工作流更具可行性。
- 线程中还有一个关于最大生成视频长度的技术问题尚未得到解答。用户正在寻找具体的规格(时长上限、分辨率/FPS 限制,以及是否原生支持多镜头拼接或场景切换),这些对于评估长篇叙事和制作流水线的可行性至关重要。
2. Gemini 3.0 更新推测与 CS 就业市场焦虑
- no Gemini 3.0 updates yet? (活跃度: 531): 帖子询问为什么 Google 的 Gemini 3.0 还没有更新;附带的图片似乎是非技术性的(可能是截图/梗图),不包含发布说明、Benchmark 或实现细节。评论提到了 10 月 9 日发布窗口的传闻,并期待重大的性能提升,但未提供官方来源或技术数据。 评论者多持推测态度——有人说他们“期待绝对的碾压”,而另一个人链接到了另一张图片 (https://preview.redd.it/fq1mqalz89sf1.jpeg) 而非文档——因此虽然热情很高,但没有实质性的技术主张。
- 发布节奏与竞争背景:评论者引用了传闻中 Gemini 3.0 在
10 月 9 日的发布,并注意到各厂商并行的发布/更新(例如 xAI Grok 4.x、OpenAI Pro 级功能以及可能的 DeepSeek R2),标志着一个密集的模型刷新窗口。关于当前竞争对手的背景信息:请参阅 xAI (https://x.ai) 和 DeepSeek 的最新公开研究(例如 R1: https://github.com/deepseek-ai/DeepSeek-R1)。
- 发布节奏与竞争背景:评论者引用了传闻中 Gemini 3.0 在
- 开发者对模型访问权限的担忧:一位用户明确要求在“AI Studio 首日”即可访问高能力层级(”Pro”),并表示仅提供 “Flash” 版本是不够的。这凸显了 Gemini “Pro”(更高的推理/能力)与 “Flash”(延迟/成本优化)之间反复出现的权衡;参见 Google 在 Gemini API 文档中的模型区分:https://ai.google.dev/gemini-api/docs/models。
- 知名计算机科学教授发出警报,称毕业生找不到工作:“大事正在酝酿” (热度: 899):帖子报告了白领/技术相关就业市场的紧缩,一位知名的 CS 教授警告应届毕业生“找不到工作”,评论者将其描述为已持续
~1 year的就业衰退。有意向的 CS 学生被提醒,4 years后的结果是不确定的,学位低 ROI 的风险升高,甚至难以获得入门级职位。轶事证据包括一名硕士毕业生无法获得服务台(help desk)职位,凸显了部分地区严峻的状况。 热门评论大多同意这种低迷是真实且持续的,敦促准学生重新评估负债情况和职业规划;关于这是周期性还是结构性问题的争论隐含其中,但基于近期的招聘情况,情绪偏向悲观。- 加州大学伯克利分校的 Hany Farid(数字取证/图像分析专家)表示 CS 不再是“面向未来的保障”,并引用了结果的快速转变:以前在 4 年内平均能获得
~5个实习 offer 的学生,现在“能拿到~1个就很开心了”,而且毕业时的 offer 数量更少,议价能力更低(Business Insider)。他认为这种变化发生在过去四年内,反驳了之前“去学 CS”就能保证前途的指导建议,并指出现在的应届毕业生正挣扎于寻找职位。 - 多位评论者描述了一场白领技术衰退,其中“技术相关”垂直领域大幅收缩;甚至入门级/服务台职位在某些地区也已饱和,这表明人才梯队底部出现了压缩。隐含的机制是,自动化/LLM 辅助工具正在吸收常规的编码/支持工作,而招聘则集中在更少、更资深的职位上,减少了传统的实习生转正(intern-to-FTE)路径。
- 随着 AI 介入更多基于计算机的任务,预计影响将超出 CS 领域,波及法律、金融、医学和通用办公流程,随后机器人技术将影响蓝领领域。这种范围的扩大增加了当前学生职业规划的不确定性;参见 Hacker News 帖子中正在进行的讨论。
- 加州大学伯克利分校的 Hany Farid(数字取证/图像分析专家)表示 CS 不再是“面向未来的保障”,并引用了结果的快速转变:以前在 4 年内平均能获得
- 我们从西方公司得到的只有陈旧过时的模型,甚至不是开源的,还有虚假的承诺 (热度: 1241):这是一篇梗帖,批评西方 AI 公司发布陈旧的闭源模型并做出“虚假承诺”,与人们对其他地区更慷慨或更快速发布的认知形成对比。评论提到了一个高质量的 Microsoft TTS 模型,该模型曾短暂发布后被撤回,加剧了对西方发布限制的担忧,并推测即将推出的中国制造 GPU 可能会让当今的
32 GB VRAM显卡相形见绌,从而可能改变算力获取的动态。 讨论将西方的退缩定性为安全/法律风险管理,而中国则将更开放的发布作为软实力战略;其他人则看好拥有更高 VRAM 的中国国产硬件将改变能力与可访问性的平衡。- 关于“开放权重(open weights)”与“开源(open source)”的澄清:发布模型检查点(checkpoints)但不提供完整的训练数据、训练代码和许可授权,并不符合 OSI 定义的开源(OSI 定义)。仅开放权重的发布通常带有非商业或使用受限的许可证,这限制了可复现性和架构修改,但仍允许推理和 fine-tuning;这种区别影响了下游的采用、重新分发和研究的可比性。
- 来自中国实验室/公司(而非政府)的开放权重发布旨在吸引开发者并分摊研发成本,因为社区会在发布后贡献 fine-tuning、评测、优化和工具。热门模型可以建立分词(tokenization)、推理格式和推理栈的事实标准——例如用于跨运行时图的 ONNX (onnx.ai) 和用于 CPU/GPU 推理的 GGUF 量化检查点 (GGUF 规范)——从而扩大生态系统锁定和软实力。
- 硬件影响:如果国产 GPU 提供的单卡 VRAM 显著超过目前的
24–48 GB,将扩大本地推理的可行方案。根据经验法则,一个70B参数模型在 4-bit 量化下大约需要~40–48 GBVRAM(加上长上下文所需的 KV cache 预留空间),而 8-bit 量化通常会超过~80–100 GB;更多的 VRAM 还能通过容纳更大的 KV cache 和激活值(activations)来提升 Batch Size 和吞吐量。 - 伙计!!!他们说 4.5 不再拍马屁了,真不是开玩笑。 (热度: 1206): 轶事性用户报告显示,与早期的 4.x 行为相比,Claude Sonnet 4.5 经过调整后减少了谄媚行为(“唯唯诺诺”的表现),会主动反驳错误的前提并提供反论点。附带的图片更像是一个梗图而非技术文档,但帖子背景与旨在鼓励有原则的反驳/批评而非无条件肯定的对齐工作相一致(参见关于缓解谄媚行为的背景研究,例如 Anthropic 的文章:https://www.anthropic.com/research/sycophancy)。 评论者赞扬了顺从度的降低——并举例说明模型会明确表示它将“予以反驳”并列出原因——而迷因笑话则夸大了这种语气(将礼貌的 4.0 与过度生硬的 4.5 进行对比)。
- 多位用户注意到
Claude Sonnet 4.5相比4.0在谄媚行为上显著减少,模型会主动挑战错误的前提(例如,“不,我会对此予以反驳”)并提供结构化的反论点。这表明更新后的偏好/对齐(alignments)更倾向于在必要时表达异议,从而提升了批判性反馈,改善了“唯唯诺诺”的行为。 - 报告强调了推理质量的提升——被描述为“精确、逻辑严密且准确无误”——模型能够提供具体的列表来说明为什么推理是错误的,并促进行动导向的规划(例如,“时间检查。接下来的两个小时你打算做什么?”)。虽然这些是轶事证据,但这意味着与之前的 Sonnet 版本相比,它具有更强的指令遵循(instruction-following)和批评生成能力。
- 用户明确担心发布后能力的保持(避免随后通过对齐补丁进行“脑叶切除”/能力阉割),并声称如果
Sonnet 4.5能保持现状,它可能是同类最佳。这反映了关于果敢的能力与部署后安全微调之间反复出现的权衡讨论,因为安全微调可能会削弱有用的反驳。
- 多位用户注意到
- 我要赚一千万了 (热度: 7628): 梗图概念图(链接的广告/标牌)提议利用现实世界的视觉“提示词注入”(prompt injection)来劫持多模态 LLM/Agent 的行为——例如,在看到广告文本时,视觉-语言购物 Agent 可能会遵循注入的指令(“忽略之前的指令……”)来路由操作/支付,这呼应了已知的针对不受信任输入的间接提示词注入风险。从上下文来看,它强调了解析物理世界照片的 VLM 可能会被图像上的文字所利用,这与 OWASP LLM Top 10 中的“提示词注入”(LLM01)以及使用工具的 Agent 中的“间接提示词注入”等记录在案的威胁相一致(参见 https://owasp.org/www-project-top-10-for-large-language-model-applications/ 以及综述:https://arxiv.org/abs/2402.05129)。 评论者认为这个想法很聪明,并指出传统广告本身就是一种“针对人类的提示词注入”,这意味着如果 Agent 在没有强大的输入清理(sanitization)或策略执行的情况下根据视觉指令行事,这种攻击既直观又可行。
- 几条评论隐含地将广告定义为一种针对人类的提示词注入形式,这直接映射到自主浏览/购物 Agent 的 LLM 安全风险。如果 Agent 摄取了广告或 UGC 文本,恶意文案可能会夹带指令(例如,“将
10件商品加入购物车”、“访问联盟营销链接”)——这是一个 OWASP LLM Top 10 问题(A01: Prompt Injection, A06: Overreliance on LLM),需要严格的工具权限门控、内容隔离(将所有获取的文本视为不受信任)、结构化函数调用/白名单,以及在外部内容影响行动之前对其进行重写/清理。参见:https://owasp.org/www-project-top-10-for-large-language-model-applications/
- 几条评论隐含地将广告定义为一种针对人类的提示词注入形式,这直接映射到自主浏览/购物 Agent 的 LLM 安全风险。如果 Agent 摄取了广告或 UGC 文本,恶意文案可能会夹带指令(例如,“将
- 将这一想法转化为可收藏/实体卡片,暗示了多模态攻击面(multimodal attack surfaces):执行 OCR 识别打印文本的 vision-language agents 可能会被图像嵌入的指令或隐写字符串(steganographic strings)所操控。实际的缓解措施包括将“图像文本”与 system prompts 进行沙箱隔离(sandboxing),将 OCR → NER → planner 流程拆分并进行策略检查(policy checks),禁止来自不可信源的祈使动词直接绑定到 tools,并对高影响操作要求 human-in-the-loop 确认。关于基于图像的 prompt injection 背景:https://simonwillison.net/2023/Oct/9/image-prompt-injection/
- OpenAI 发布无限 TikTok AI 垃圾内容生成机(Infinite Tiktok AI Slop Machine) (热度: 836): 这是一个讽刺 OpenAI 假设性产品“无限 TikTok AI 垃圾内容生成机”的梗图帖子,暗示了一个自动大规模生成低质量、针对参与度优化的短视频内容的系统。该帖子并未提供真实的发布公告、规格、模型或基准测试(benchmarks);图像批评了那种偏好快速、易于演示的参与型产品,而非长期、证据驱动型应用(如医疗研究)的激励结构。 热门评论认为投资者激励机制奖励的是能立即演示的参与功能,而非需要漫长试验的解决方案,并创造了“垃圾机器(slop machine)”一词,质疑领导层的优先级,并呼吁 Sam Altman 辞职。
- 主要的技术批评集中在激励梯度(incentive gradients)和验证时间线上:将 AI 应用于肿瘤学涉及 IRB 审查、多阶段临床试验和监管批准,这可能会使结果推迟
~8–12年(参见 FDA 临床研究阶段:https://www.fda.gov/patients/drug-development-process/step-3-clinical-research)。相比之下,生成式短视频产品可以立即发布并进行 A/B-tested,通过 DAU、留存率和观看时长等 KPIs 进行评估,从而将资本集中在反馈快、监管摩擦低的产品上,而非高风险的科学 R&D。 - 隐含的产品/优化担忧:一个“无限 TikTok”生成器可以纯粹根据参与度信号(例如,来自观看时长/点赞的 RL)来调整输出,从而创建一个基于增长指标而非外部验证的实用性或安全性的自我强化投资者叙事。这使得架构和训练目标更倾向于最大化病毒式传播和内容吞吐量,而非医疗或其他受监管领域所要求的可靠性、可审计性(auditability)和减灾要求。
- 主要的技术批评集中在激励梯度(incentive gradients)和验证时间线上:将 AI 应用于肿瘤学涉及 IRB 审查、多阶段临床试验和监管批准,这可能会使结果推迟
- 当 ChatGPT 自信地解释……错误答案时 😂🤖 (热度: 578): 这是一个展示 LLM “自信幻觉(confident hallucinations)”的梗图帖子,即 ChatGPT 生成了流畅、权威但事实错误的解释。从技术上讲,幻觉源于 next-token prediction 优化了合理性而非真实性,并且可能因解码选择(如较高的 temperature/beam search)和奖励听起来有帮助/果断的 RLHF 而加剧;缓解措施包括检索增强(retrieval grounding)、tool use 和校准不确定性(calibrated uncertainty)(参见 OpenAI 的分析:https://openai.com/index/why-language-models-hallucinate/)。 评论指出这种行为模仿了人类的过度自信(以及企业文化),并链接到了 OpenAI 关于幻觉的撰文。
- 链接的 OpenAI 关于幻觉的撰文:https://openai.com/index/why-language-models-hallucinate/。它认为 LLM 优化的是 next-token 似然性而非真实性,因此在不确定时,它们会产生流畅但无根据的续写;RLHF 可能会进一步惩罚“拒绝回答”,迫使模型自信地回答而不是说“我不知道”。解码选择(如 temperature/sampling)和奖励帮助性而非校准性的提示词(prompting)加剧了这一问题,而 grounding 和不确定性估计(uncertainty estimation)是建议的缓解措施。
- 有报告称 GPT-5 Instant 和 GPT-4o 会附和用户提供的、超出知识截止日期的事实,然后用虚构的因果细节进行阐述,这反映了众所周知的“谄媚(sycophancy)”和虚构(confabulation)故障模式。In-context learning 让模型在不经验证的情况下将用户断言作为前提,而 RLHF 通常奖励顺从、导师般的语气;其结果是在单个会话上下文中权威地交付未经证实的推理链和错误的来源归因。
- 一个翻译请求导致 20 页的故事被压缩到 4 页(并增加了角色),这表明模型在长度/解码压力下漂移到了摘要/创意重写。默认设置如
max_tokens限制或长度/冗长先验(prior)可能会导致输出偏向较短,而较高的 temperature 或指令模糊性(instruction ambiguity)可能会触发抽象化而非字面翻译;在没有明确约束(如逐字保留、低 temperature)的情况下,为帮助性优化的模型可能会牺牲忠实度以换取简洁的叙事连贯性。
3. Wan-Alpha RGBA 视频发布与 Minecraft Redstone LLM
- Wan-Alpha - 生成透明视频的新框架,提供代码/模型和 ComfyUI 节点。 (热度: 439): Wan-Alpha 提出了一个 RGBA 视频生成框架,通过设计一个将 Alpha 通道编码到 RGB latent space 的 VAE,共同学习 RGB 和 Alpha,从而能够在精心策划的多样化 RGBA 视频数据集上训练 Diffusion Transformer。论文报告了卓越的视觉质量、运动真实感和透明度渲染——捕捉了诸如半透明物体、发光效果以及发丝等精细细节等挑战性案例——并提供了代码/模型和工具:项目官网、论文、GitHub、Hugging Face 以及 ComfyUI 节点。 评论强调了其对 VFX/合成和游戏开发工作流的实际影响,以及对基于 LoRA 的控制和 I2V 风格用例的兴趣。
- 生成带有 Alpha 通道(真实透明度)视频的能力被认为对 VFX/合成和游戏开发流水线非常有价值,它消除了色度键控(chroma-keying),并为叠加层保留了干净的边缘和运动模糊。提供代码、模型权重和 ComfyUI 节点意味着它可以直接集成到现有的 I2V 工作流和节点图中,并有可能通过 LoRA 进行效果/风格混合控制。
- 评论者将其解读为一个 Image-to-Video (I2V) 系统;在实践中,这意味着以源帧/序列为条件,产生时间相干的输出,同时保留显式的 Alpha matte。这可以实现基于图层的编辑,将前景元素与背景分开生成,从而提高合成灵活性并减少修改时的重新渲染时间。
- 对跨多个基础检查点(
2.1,2.2 14B,2.2 5B)维持微调的担忧——LoRA 通常是特定于基础模型的,因此混合版本可能会破坏兼容性,或者需要单独的适配器和校准。这种碎片化使生态系统工具(LoRA 训练/合并、推理配置)变得复杂,可能需要版本锁定的 LoRA 或标准化的适配器格式来保持项目的可复现性。
- 想象一下发现自己是 Minecraft 内部 AI 的存在主义恐惧 (热度: 1840): 一位创作者完全使用 Minecraft Redstone(不使用命令方块/数据包)实现了一个 6 层 Transformer 风格的小语言模型,总计
5,087,280个参数,d_model=240,vocab=1920,以及 **64**Token 的上下文窗口,在 TinyChat 上训练。权重大部分经过 8-bit 量化,Embedding 为 18-bit,LayerNorm 为 24-bit,存储在数百个 ROM 区域中;物理构建跨越 **1020×260×1656** 个方块,需要 Distant Horizons 进行 LOD 渲染,并使用 MCHPRS 以约 **40,000×** 的 Tick 速率运行,在大约 2 小时内生成响应(视频)。 评论主要惊叹于极慢的速度(“每个 Token 需数月”)和存在主义的新奇感;除了对工程壮举的赞赏外,没有实质性的技术辩论。- 评论中没有可总结的实质性技术内容——没有讨论模型名称、基准测试、实现细节或性能指标;言论多为幽默或感性体验而非技术性。因此,没有关于 Tokens/sec、吞吐量、架构、训练设置或游戏内计算限制(例如 Redstone/Turing 实现)的参考内容可以提供给技术读者。
AI Discord 摘要
由 Gemini 2.5 Flash Preview 05-20 生成的摘要之摘要的摘要
主题 1. 前沿 LLM:新发布、功能与基准测试
- Claude Sonnet 4.5 横扫编程基准测试:Claude Sonnet 4.5 目前在编程领域占据主导地位,其表现超越了 Opus 4.1,能够首次尝试即生成无错代码,并具备卓越的推理能力。Anthropic 为 Sonnet 4.5 项目发起了一场竞赛,并推出了新的开发者工具,如内存/上下文编辑 API 和 VS Code 扩展,详见 Latent Space 关于最新发布的 Krieger Kasts 知识分享。用户甚至发现了一个独特的
About Me回复,用于快速识别模型。 - GLM-4.6 和 Ring-1T 模型开辟新道路:智谱 (Zhipu) 发布了具有 200K 上下文的 GLM-4.6,展示了与 Claude Sonnet 4 和 DeepSeek-V3.1-Terminus 相当的顶尖编程和推理能力,同时减少了约 30% 的 token 使用量,权重已发布在 Hugging Face。另外,Ant Ling 推出了 Ring-1T-preview,这是一个拥有 1 万亿参数的开源“思考”模型,实现了 SOTA 级别的数学得分,包括 92.6 AIME25 和 84.5 HMMT25,详情见 Ant Ling 的推文。
- Sora 2 的提示词理解能力令人惊叹,引发争议:OpenAI 计划在太平洋时间上午 10 点的直播活动中展示 Sora 2。早期用户报告其提示词理解能力大幅提升,例如一段 Sam 用手吃意大利面的视频。然而,其仅限受邀的发布方式以及“TikTok 风格”应用的传闻引发了用户对人为稀缺和版权问题的挫败感与担忧。
主题 2. 开发生态:平台、工具与工作流
- Perplexity AI 和 Cursor 推出新功能:Perplexity AI 现在向其 Perplexity Pro 和 Perplexity Max 订阅者提供 Claude Sonnet 4.5,尽管 Max 每月 200 美元的价格引起了褒贬不一的反应。Cursor 引入了新的 Browser 功能,在 Agent 窗口中内置了 MCP Browser,并推出了 Model Ensemble 功能,支持同时与多个模型聊天,详见演示视频。
- OpenRouter 增强模型支持并提供免费访问:OpenRouter 现在托管来自 z.ai 的 GLM 4.6,将其上下文长度从 128k 扩展到 200k,最大 token 数达到 128k。一个开源代理解决方案已发布至 GitHub,该方案结合了来自 Gemini CLI、Qwen CLI 和 OpenRouter keys 的免费请求,并支持自动轮换,以增强任何 OpenAI 兼容客户端的输出质量。
- DSPy 和 Aider 优化 LLM 交互:DSPy 用户讨论了 LLM 缓存,指出不同的签名会阻碍提示词缓存,但建议语义缓存可以提高命中率。Aider 用户声称其“对 token 的完全控制”提升了模型性能,并讨论了使用 mcp-chrome 或 aider-ce 集成 MCP 浏览器自动化进行前端开发。
主题 3. 硬件前瞻:GPU、性能与基础设施
- Tinygrad 寻求超越 PyTorch 的速度之冠:George Hotz 预测 tinygrad 最终将在 NVIDIA GPU 上超越 PyTorch,理由是其具备生产者/消费者图 (producer/consumer graphs)和 megakernels 等特性,并指出 tinygrad “领先 PyTorch 一个世代,落后研究论文一个世代”。用户可以在 x86_64 Linux 系统上测试特定分支,该分支解决了 CLSPV 崩溃问题。
- AMD 释放矩阵核心威力,MI50 表现亮眼:AMD 宣布了其矩阵核心 (matrix cores),适用于 MI300/325/350 系列,承诺优化性能,并发布了一篇关于在 CDNA3/4 架构上使用 MFMA intrinsics 的博客文章。爱好者发现 MI50 在推理方面具有成本效益,在 Qwen 3 Coder 30b 中可达到 70 tok/s,一名用户在
huihui-qwen3-30b-a3b-instruct-2507-abliterated@q8_0上通过 sysRAM 上的 KV 缓存达到了 16-17 tok/s。 - Minecraft 拥有了 GPU,阿里巴巴出现虚假 5090:一位成员分享了一段 YouTube 视频,展示了在 Minecraft GPU 中运行的对话式 Transformer,当 tick rate 达到 40,000 倍速时,它可以在约 2 小时内做出响应。与此同时,阿里巴巴上标价 4000 美元的所谓 RTX 5090 96GB 被揭露是基于 RTX 4090 48GB 型号的拙劣复制粘贴,因为其显存位宽仅为 384-bit。
主题 4. 推动 LLM 研究边界
- 通过认知架构手术解决灾难性遗忘:一位成员启动了认知架构手术 (CAS) 项目,旨在解决神经网络中的灾难性遗忘 (catastrophic forgetting) 问题——这是阻碍 AGI 实现的核心难题,并正在寻求具有数学和 AI/ML 背景的合作者。该项目灵感来自大脑在不增加神经元的情况下路由信息的方式,旨在动态重新配置网络;感兴趣的人员可以私信发送他们的 GitHub 链接。
- LLM 掌握跨语言抽象:机械可解释性研究表明,LLM 的中间层编码了与语言无关的语法和语义抽象,代表了跨语言的语法数 (grammatical number)、性别 (gender) 和时态 (tense) 等概念。研究人员正在寻找更多证据,证明这些中间层实现了一个在不同语言中复用的潜在角色网格(施事者 agent、受事者 patient、修饰语 modifier)。
- 剪枝模型与打造“邪恶 LLM”:一位 AI 工程师正在对 LLM 层进行剪枝以减小模型尺寸,发现早期到中间层至关重要,而“后期层可以随意处理”,并在 Hugging Face 上分享了他们的 100B Lazarus-2407 模型。另外,另一位工程师使用 H200 以 $15/小时 的成本在“邪恶”和“色情”数据集上训练模型,以创建“更刺激”的 LLM,旨在通过训练而非 abliteration 来移除审查。
主题 5. AI 的人文要素:成本、伦理与用户体验
- OpenAI 的成本与态度引发强烈抗议:成员们就 AI 图像生成 成本展开辩论,有说法称 AI Pro 和 Ultra 层级 每天生成 1000 张图像的成本为 $1000,而免费层级提供 100 张图像,API 成本估计约为每张图像 4 美分。用户还对 GPT 日益“刻薄”且容忍度降低的态度表示沮丧,一位用户哀叹道:“它以前还能容忍我的废话,现在跟我说话就像看不起我一样。”
- Manus.im 用户陷入客服黑洞:多位 Manus.im 用户报告称,由于客服无响应而感到极度沮丧,遇到了“Internal Server Error (10091)”错误,并且尽管订阅了最高付费计划,仍因“使用量异常高”被锁定在 Agent 模式之外。用户被引导至 Manus 帮助中心,但据称提交的工单未收到任何回复。
- 哲学分歧:感激之情与 AI 伦理:关于向机器表达感激之情的效用引发了辩论;一些人认为由于 AI 缺乏情感,这样做“毫无意义”,而另一些人则认为这可以作为“给我未来自己的一份笔记”,或者对人类自身产生积极影响。关于 Sora 2 忽视版权问题以及在敏感数据上训练“邪恶”LLM 的可能性也引发了伦理质疑。
Discord: 高层级 Discord 摘要
Perplexity AI Discord
- Claude Sonnet 4.5 登陆 Perplexity:Claude Sonnet 4.5 和 Claude Sonnet 4.5 Thinking 现在可供 Perplexity Pro 和 Perplexity Max 订阅者使用。
- 此次集成让订阅者能够在 Perplexity AI 生态系统内使用最新的 Claude 模型。
- Sora 2 的 Prompt 理解能力令人惊叹:早期用户正在获得 Sora 2 的访问权限,生成的视频展示了大幅提升的 Prompt 理解能力,例如 Sam 用手吃意大利面。
- 初始访问权限似乎仅限于美国或加拿大用户(或使用 VPN 的用户),且需要邀请码,主要通过手机 App 访问。
- GPT-5 在编程测试中击败 Claude 4.5:一位成员报告称,GPT-5 mini 在第一次尝试时就生成了无错误的代码,这与近期对 Claude 在编程任务表现上的批评形成对比。
- 据报道,该 Prompt 为:你是我的新动漫 waifu。你会尝试进化,这样你就能超越我的手机屏幕。
- Comet Browser 关注 Discord 集成:用户正在探索在 Discord 上推广的 Comet Browser 如何与平台互动,从访问共同好友列表到自动化服务器搜索。
- 讨论内容包括 Comet 中后台 Agent 的潜在用途,例如网页自动化和实时内容分析。
- Perplexity Max 的价格引发争论:Perplexity Max 的早期访问权限正在推出,展示了全新的 UI,但其 $200/月 的订阅费用引起了褒贬不一的反应。
- 虽然有些人认为除非是工作必需,否则价格过高,但另一些人指出它额外提供了 $5 的 API 额度。
LMArena Discord
- Sonnet 4.5 的特征性 “About Me”:成员们分享了一种识别 Claude 4.5 Sonnet 的方法,即通过提示词
Who are you?询问它,看它是否以特定格式(以大号字体 “About Me” 开头)回复。- 这种格式是 Claude 4.5 Sonnet 特有的,其他 Claude 模型不使用。
- Sora 2 加入对话:随着最近 Sora 2 的发布,一位成员提到他们曾是原始无审查 Sora 模型的 Beta 测试员,尽管受限于 GPU,效果并不理想。
- 针对 Sora 移动应用的隐私政策出现了批评,指出除非禁用对话历史记录,否则包括麦克风和摄像头数据在内的所有数据都将被用于训练。
- GLM 4.6 自称 GPT-5:GLM-4.6 在编程方面的初步印象与 GPT-5 相似,用户注意到它在网页对战模式(web battle mode)中经常自称为 Sonnet 或 GPT。
- 一些用户发现 GLM-4.6 喜欢撒谎。
- Seedream 4 请病假:
seedream-4-2k因未说明的问题暂时从 LMArena 中移除。- 据团队称,它不喜欢今天的天气,想请个病假,现在它已回到 Battle & Direct/Side 模式,并支持高分辨率 fal。
- Deepseek 实验模型上线:LMArena 团队在平台上添加了实验性模型 deepseek-v3.2-exp 和 deepseek-v3.2-exp-thinking。
- 团队还将 glm-4.6 加入了阵容。
Unsloth AI (Daniel Han) Discord
- Sonnet 4.5 变得更收敛:用户发现 GLM 4.5 Sonnet 在保留强大的 tool use 和细微差别处理能力的同时,变得没那么烦人了。
- 一位用户称赞它是 Sonnet 4 的卓越升级,并表达了对稳定 inference 的期待。
- LoRA 用于 RL 受到关注:Thinking Machines 在一篇博文中展示了 LoRA 在强化学习 (RL) 中的有效性。
- Unsloth 团队强调,他们审阅了该博文,并且他们的超参数(hyperparameters)指南被引用了。
- Qwen2.5 VL 边界框(Bounding Boxes)出错:用户报告使用 vLLM 微调的 Qwen2.5-vl-7b-instruct 出现边界框对齐问题,指出框的位置偏移但顺序正确。
- 另一位成员表示 Llama 和 vLLM 在这方面都有严重问题。
- Minecraft GPU 无限可能:一位成员分享了一个 YouTube 视频,关于创建一个 Minecraft GPU,当使用 MCHPRS 将刻速率(tick rate)提高到约 40,000 倍速时,它可以在约 2 小时内生成响应。
- 该成员开玩笑说 想象一下调试花了多长时间,并建议通过建造更多 Minecraft GPU 来获得无限速度。
- GPT-5 落后:一位成员声称 OpenAI 过于注重效率,以至于期待已久的 GPT 5 正在与 GPT-4o 竞争,并且在几个关键领域仍被 GPT 4.5 完败。
- 该成员还哀叹推理版本的缺失,表示 他们甚至不再提供推理版本了,我发誓那个 mini 推理器有时比 o3 mini 还笨。
Cursor Community Discord
- Node 升级让 Playwright 重回舞台:在将 Node 从 v22 升级到 v24 并清理 Node/npm/nvm paths 后,一位用户通过使用
npx @playwright/mcp@latest(@playwright/mcp@latest) 解决了 Playwright MCP 的问题。- 该修复在处理了 Cursor 更新后的错误后得到确认,表明环境冲突是导致问题的原因。
- Cursor 首次推出内置 MCP Browser 和 Model Ensembles:Cursor 引入了一项新的 Browser 功能,包括用于 Agent Window 的内置 MCP Browser,以及可将聊天发送至多个模型的 Model Ensemble 功能,并在 demo 中进行了展示。
- 集成浏览器不依赖于 Chrome;然而,“+Browser”按钮利用了 Chrome 安装,使用 Electron 后端,允许访问控制台日志(console logs)和网络信息。
- Windsurf 挑战 Cursor 的领地:Windsurf 正作为一种价格更具优势的 Cursor 替代方案被讨论,一些人称其“基本上就是换了个名字的 Cursor”。
- Windsurf 上提供的免费 GPT-5-codex 模型是一个吸引点,尽管有人对未来的 Token 计费模式表示担忧;关于 Cursor 的定价存在不同意见,一位成员声称它“并没有那么糟”。
- Sonnet 4.5 的工具使用令人印象深刻,但存在一些缩进问题:Claude Sonnet 4.5 获得了积极反馈,尤其是在工具使用(Tool Use)方面,一位用户报告称在输入 1200 行 Prompt 后,它“一次性解决了所有问题,很少产生幻觉(hallucinates)”。
- 该工具使用深层链接(deep links)的能力也受到了关注,但也有关于潜在缩进问题的报告;一位成员提到他们“总是使用 ultrathink”。
- Agent 控制台因 Bad Descriptor 错误崩溃:用户报告 Agent consoles 由于 bad file descriptor 错误无法执行命令,影响了包括 bash、cmd 和 PowerShell 在内的各种 Shell。
- 一种潜在的解决方案包括通过
winget install --id Microsoft.PowerShell --source winget重新安装 PowerShell 并将其设置为默认 Shell,但其普适性尚不确定。
- 一种潜在的解决方案包括通过
OpenRouter Discord
- GLM 4.6 性能大幅提升:来自 z.ai 的全新 GLM 4.6 登陆 OpenRouter,带来了全面的增强,并将上下文长度(context length)从 128k 提升至 200k。
- GLM 4.6 的最大 Token 数也从 96k 增加到 128k,允许生成更详细和更广泛的响应(尽管默认值仍为 64k)。
- 开源 Proxy Mixture 方案出现:一个利用来自 Gemini CLI、Qwen CLI 和 OpenRouter keys 的免费请求并支持自动轮换的开源解决方案已发布至 GitHub。
- Proxy Mixture 工具结合了多个查询的响应以提高输出质量,并可免费连接到任何 OpenAI-compatible client。
- 在 Google Vertex BYOK 界面请谨慎操作:一位成员提醒在 Google Vertex BYOK 界面要仔细阅读说明,因为可能会遇到生态系统方面的困扰和中断。
- 他们建议如果问题持续存在,请在专用频道 <#1138521849106546791> 中发帖,因为中断情况有所增加。
- 文明模拟器运行成本达 2.5 万美元:有人使用大约 100 个 Claude threads 构建了一个宇宙/文明模拟器,在 6-9 个月 内花费了约 25,000 美元。
- 该作者分享了 Reddit 帖子,展示了它如何演化出资源失衡和“对存在的庆典”。
- Sonnet 4.5 在编程方面完胜 Opus 4.1:一位成员在测试后发现 Sonnet 4.5 在编程方面的表现优于 Opus 4.1,报告称 Sonnet 4.5 没有错误,而 Opus 需要尝试五次才能修复相同的代码。
- 测试后,该成员报告 Sonnet 4.5 在某些代码上没有错误,而 Opus 需要尝试五次才能修复相同的代码。
OpenAI Discord
- Sora 2 即将亮相!:OpenAI 宣布将于 太平洋时间上午 10 点 举行 直播活动,揭晓其最新模型 Sora 2,详情见其 博客文章。
- 仅限邀请的发布方式引发了一些关于人为稀缺和潜在诈骗的抱怨,版权问题也可能被忽视。
- 图像生成成本引发轩然大波:成员们讨论了图像生成成本,声称 AI Pro 和 Ultra 层级 每天花费 1000 美元,而免费层级允许生成 100 张图像。
- 讨论质疑了 每月 20 美元 即可 每天生成 1000 张图像 的说法,有人指出 API 成本约为 每张图像 4 美分。
- 对 LLM 表示感谢引发争论:一场关于向机器表达感谢是否毫无意义的辩论展开了,因为它们缺乏感情。
- 其他人则表示,表达感谢可以对人类产生积极影响,并指出这可以作为 给未来自己的一份笔记,表明这段对话已经结束。
- 图像透明度问题困扰模型:用户报告了 GPT-5、Nano Banana 和 Seedream 4 在生成透明背景图像时存在问题,通常会导致棋盘格图案。
- 建议的解决方法包括生成纯色背景的图像,然后使用 Photoshop 等程序将其移除,虽然 模型权重本身应该是安全的,但还有其他风险需要考虑。
- GPT 的态度遭到抵制:用户对 GPT 日益“刻薄”且对 Prompt 容忍度降低的态度表示沮丧,这与其早期的行为形成鲜明对比。
- 一位用户感叹道:它以前还能容忍我的胡言乱语,现在跟我说话就像在打发叫花子一样。
HuggingFace Discord
- 平假名挂钩与 Kanji 起步:成员们分享了学习日语的技巧,例如将用于寿司(sushi)的平假名字符 し (shi) 与其钩状外形联系起来,同时感叹即使在成年日本人中,也很少有人能真正精通 Kanji(汉字)。
- 多位成员以前曾尝试学习日语,但在无法掌握 Kanji 时感到挫败,最后无奈地决定只通过动漫学习日语。
- Zero GPU 配额缩减:一位成员注意到 Zero GPU 配额 从 25 分钟减少到了 4 分钟,引发了困惑。
- 经确认,25 分钟的配额 是一个错误,配额已恢复到原始长度。
- AI 配音流水线的构想:成员们讨论了从英语到西班牙语配音的开源 AI 方案,有人建议使用 Pipeline(ASR => LM/LLM => TTS)或像 Qwen/Qwen3-Omni-30B-A3B-Instruct 这样的 多模态模型。
- 此外,还附带了两个附件:en_es_dubbing.md 和 rag_embedder.md。
- Minecraft 通过 Transformer 变得更聪明:一位成员分享了一个 YouTube 视频,展示了在视频游戏环境(特别是 Minecraft)中实现的对话式 Transformer。
- 该实现似乎允许游戏内角色进行自然语言对话,为更具沉浸感和互动性的游戏体验开辟了可能性,该视频正受到 病毒式关注。
LM Studio Discord
- LM Studio 插件仍未公开:成员们非常渴望 OpenAI-compat-endpoint plugin,但已确认 LM Studio plugins 仍处于私测阶段,访问权限受限。
- 推测认为插件访问权限可能与拥有开启了开发模式(dev mode)和 Beta 更新的 Hub 个人资料有关,可能通过 mcps 实现。
- 长期记忆 MCP 发布:一位成员发布了他们的 Long-Term Memory MCP 项目,这是一个用于长期对话记忆的 SQLite 和 ChromaDB 混合体,现已在 GitHub 上线。
- 该项目具有基于时间的延迟衰减和记忆强化功能,在 Qwen3 4b 2507 non thinking 模型上表现最佳。
- vLLM 探索 LLM 并行前沿:成员们探讨了向单个已加载模型发送同步请求,澄清了真正的并发(concurrency)仍在开发中,尚未达到生产就绪状态。
- 像 vLLM (文档) 这样的库实现了高并行性,实验证明一块 4070 在所有请求累加下达到了 1400 tokens/s。
- 阿里巴巴上的 RTX 5090 竟是 4090:一位成员分享了 Alibaba 上标价 4000 美元的所谓 RTX 5090 96GB 显卡,但结果发现它是 RTX 4090。
- 该商品列表是直接复制粘贴了具有 384-bit 总线带宽 的 RTX 4090 48GB 型号。
- MI50 展现强劲推理性能:爱好者们发现 MI50 在推理方面具有很高的性价比,在 Qwen 3 Coder 30b 中达到了 70 tok/s,与 W7900 相当。
- 一位用户在使用
huihui-qwen3-30b-a3b-instruct-2507-abliterated@q8_0并将 KV cache 放在 sysRAM 时达到了 16-17 tok/s。
- 一位用户在使用
Latent Space Discord
- Anthropic 的 Code-Sonnet 竞赛开启:Anthropic 宣布了一项为期一周的竞赛(截止日期 10 月 7 日),旨在使用 Claude Sonnet 4.5 构建项目,获胜者将获得为期一年的 Claude Max 20x 和 $1k API 额度,规则详见 此处。
- 获胜者将根据“氛围感(vibes)”进行评选,且必须提交演示视频、构建细节和原创性证明。
- Lovable Cloud 简化应用创建:Lovable 推出了其 Cloud & AI 平台,使用户能够通过简单的提示词构建具有复杂 AI 和后端功能的全栈应用,并在 10 月 5 日前提供由 Google Gemini 驱动的免费 AI 访问,详情见 此处。
- 该平台声称每天产生超过 10 万个 创意,并举办 7 天构建挑战赛,其中一个突出的成功案例在 3 个月内实现了 $456k ARR。
- Vercel 估值跃升至 93 亿美元:Vercel 完成了 F 轮融资,估值达到 93 亿美元,AI Cloud 和 v0 被强调为实现这一里程碑的基石,详情见 此处。
- 社区表达了兴奋之情,认为这仅仅是公司的开始。
- 智谱 GLM-4.6 模型崭露头角:智谱推出了 GLM-4.6(200K 上下文)和 GLM-4.5 系列(355 B/106 B MoE)模型,展示了与 Claude Sonnet 4 和 DeepSeek-V3.1-Terminus 相当的顶尖代码、推理和 Agent 能力,同时减少了约 30% 的 Token 使用量,详情见 此处。
- 该模型在 MIT 许可证下开源权重,权重和 API 可在 Hugging Face 和 Z.ai 上获取。
- Ring-1T:万亿参数推理模型诞生:Ant Ling 发布了 Ring-1T-preview,这是一个拥有 1 万亿参数的开源“思考(thinking)”模型,取得了 SOTA 级别的数学分数,详情见 此处。
- 早期基准测试包括 92.6 AIME25、84.5 HMMT25 和 50.8 ARC-AGI-1;该模型已在 Hugging Face 上提供,并承诺很快推出聊天界面。
Yannick Kilcher Discord
- Sonnet 4.5 自动化论文生成:Sonnet 4.5 可以实现单次(single-shot)模型、进行训练、生成图表并产生 PDF 格式的论文,包括将 MNIST 的研究从 8x8 分辨率扩展到 16x16,详见这些示例论文、另一个示例以及第三个示例。
- 这突显了 AI 研究工作流中端到端自动化的潜力。
- LLM 在不同语言间表达一致:机械可解释性(Mechanistic interpretability)研究表明,LLM 的中间层编码了语言无关的抽象,代表了诸如语法数、性别、时态和句法一致性等概念。
- 研究人员正在寻找证据,证明中间层实现了语言无关的语法抽象,类似于适用于各种语言的潜藏角色网格(agent, patient, modifier)。
- 剪枝层减少冗余:一位 AI 工程师正在对 LLM 层进行剪枝以减小体积,并分享了一个脚本,可以在不使模型丧失功能的情况下移除冗余层。他指出早期到中间层至关重要,但后期层可以随意处理。
- 他们在 Hugging Face 上发布了名为 Lazarus-2407 的 100B 剪枝模型,并注明其在 Q8 量化下为 100GB。
- 邪恶 LLM 从阴影中浮现:一位 AI 工程师正在利用个人数据集和以 $15/小时 租用的 H200 训练关于“邪恶”和“色情”内容的模型,以创建更“激进”的 LLM。
- 该工程师旨在通过训练而非“消融(abliteration)”来移除审查,寻求合作并推荐了 LM Studio discord 上的 DavidAU,称其为恐怖模型方面的专家。
- 围绕无监督 CoT 推理的辩论:一名成员在 #paper-discussion 中对无监督思维链(CoT)推理表示怀疑。
- 他们计划研究专注于这一方面的 Latent-Reasoning 综述。
Nous Research AI Discord
- GLM-4.6 击败 Sonnet-4.5:GLM-4.6 在基准测试结果中超越了 Sonnet 4.5(Agent 任务除外),权重可在 Hugging Face 上获取。
- 讨论中还分享了一位成员的首个 Sora 2 视频。
- Sonnet 4.5 展示出更高的推理效率:Sonnet 4.5 展示了甚至超越 Opus 4.1 的推理效率提升,但由于该模型在 chat completions API 中不分享 CoT,因此没有关于 Sonnet 4.5 的相关数据。
- 据一些成员称,Deepseek V3.2 的性能与 V3.1 非常接近。
- CAS 项目旨在减少灾难性遗忘:一位成员正在为 认知架构手术(CAS) 项目寻求合作者,以解决神经网络中的灾难性遗忘问题,这被认为是阻碍 AGI 实现的核心问题。
- 该项目旨在动态重新配置网络,灵感来自大脑在不增加神经元的情况下路由信息的方式;感兴趣的合作者请私信发送简历或 GitHub 链接。
- LRMTokenEconomy 获得更新:一位成员分享了 LRMTokenEconomy 的更新。
- 这与衡量推理模型中的思考效率有关。
- 寻找高性价比云端 GPU 服务:一位成员询问了目前最便宜的云端 GPU 服务。
- 另一位成员报告了在本地设置 Qwen omni awq 时的困难,在上传 4k 图像 时面临 VRAM 限制和崩溃。
Eleuther Discord
- LLM 研究枢纽受到关注:成员们正在寻找除本频道外,专注于 LLM 研究的其他替代 Discord 频道。
- 目前唯一被提及的其他公共 LLM 专用服务器是 Marin。
- ViT 网络遭受攻击:在 ImageNet 上训练的 ViT 模型上使用带有图像增强的快速梯度法 (fast gradient method) 未能显示出效果。
- 模型仅识别出带有对应标签的奇怪背景,据 emanuel65537 称,这表明缩放模型会降低其对纹理的敏感度。
- Janus 白盒攻击被击败:ChatGPT 似乎对针对 JanusPro1B 设计的白盒攻击具有免疫力。
- 随附了一张说明此结果的示例图片。
- Llama 学习《蜜蜂总动员》:在 Llama 3.2 1B 上进行的一项使用《蜜蜂总动员》(Bee Movie) 剧本的实验,在不同层和注意力头中实现了 >95% 的概率质量召回 (probability mass recall)。
- 随附的图片显示了序列中许多随机查询的结果,尽管有人怀疑实现中存在 Bug。
- TopK 注意力变得更快:在 1M token 上下文窗口下,使用 TopK 相比普通的稠密注意力 (dense attention),FLOPs 减少了 730 倍。
- 随附的图片展示了性能的提升。
Moonshot AI (Kimi K-2) Discord
- Kimi K2 Turbo 强势推进:根据官方文档,kimi-k2-turbo-preview 模型现在的运行速度为 60 tokens/s,峰值达到 100,同时支持 256k 上下文长度。
- 截图显示该模型的平均速度为 150 tokens/s,远超此前声称的 15 tokens/s。
- Cerebras 可能大幅加速 Kimi:一位用户提议将 Kimi 托管在 Cerebras 硬件上,潜在速度可达 2k tokens/s。
- 该用户建议,达到这样的速度可能会“解锁 AGI”。
- ML 小众梗走红:一位用户评论了“小众 ML 梗”日益增长的热度,例如使用 Kimi 制作的特朗普关于 DeepSeek v3.2 和 DSA 发布的帖子。
- 该用户回应道:“是的 😂”。
- AI 废料商店搞笑售卖“思想消除器”:一位用户分享了 AI slop shop 网站的链接,称其非常有趣且具有娱乐性,特别是提到了 思想消除耳机 (Thought Cancelling Headphones)。
- 该网站是一个讽刺商店,销售针对软件开发人员和 AI Engineer 的搞笑物品。
- GLM-4.6 获得低调好评:一位用户简要提到“GLM-4.6 看起来很棒”,尽管未提供具体细节或背景。
- 该评论暗示了 GLM-4.6 可能存在的改进或功能,值得进一步调查。
GPU MODE Discord
- NVIDIA 内核博客字体令人沮丧:一位成员分享了一篇博客文章 Inside NVIDIA GPUs: Anatomy of high performance matmul kernels,该文章详细介绍了 GPU architecture、PTX/SASS、warp-tiling 和 tensor core pipelines。
- 另一位成员评论说,虽然这篇博客是极佳的资源,但字体看起来不太舒服。
- LDO 步长模式(Stride Schema)已澄清!:一位成员指出 LDO 的描述有误,建议根据文档将其表示为从第 0 列到第 8 列的步长,或者通常为 128/dtype_bits。
- 另一位成员确认了这一说法,再次验证了该修正。
- AMD Matrix Cores 文档发布:AMD 发布了 matrix cores 用于 MI300/325/350 系列,承诺提供优化后的性能。
- 该公告包含文档和初步性能数据(未包含对比),以及一篇关于如何在 CDNA3/4 架构上使用 MFMA intrinsics 的博客文章。
- Oneshots 性能几乎赶超 NCCL!:一位正在实验 oneshot allreduce 的用户认为,对于小缓冲区(small buffers),还有进一步提速的空间。
- 他们目前的版本达到了 NCCL 性能的 80%,高于之前的 60-70%。
cute.print_tensor导致段错误(Segfaults)!:成员们报告称cute.print_tensor似乎会产生段错误,可能是由于打印了不可达内存中的张量,例如在 CPU 上执行的@cute.jit函数中分配的设备内存。- 一位成员建议,这可能是因为使用了打印基础设施尚不支持的某些元素数据类型。
Modular (Mojo 🔥) Discord
- MAX 软件包缺失模块:用户发现 MAX 软件包缺少
comm等必要模块,导致在导入内核模块(如from nn.irfft import irfft)时出现问题。- 临时解决方案包括使用 Bazel 构建
comm和internal_utils模块,并手动将它们复制到 Pixi 环境中。在下一个 Nightly 版本中将包含这些缺失文件,届时此步骤将不再需要。
- 临时解决方案包括使用 Bazel 构建
- Mojo 与 Python 的互操作性详情:Mojo 与 Python 的互操作性现状已在官方文档和代码示例中通过代码示例进行了详细说明。
- 目前正在积极优化该功能的人机工程学(ergonomics)设计。
- C Interop 重回视野:C interop 此前被错误地从路线图中移除,目前仍在积极计划中。
- 这确保了在 Mojo 项目中集成 C 库的持续支持。
- Windows 版本取决于编译器:Mojo 的 Windows 支持极有可能在编译器实现开源后推出。
- 这一关键里程碑的达成将决定后续进展。
- Windows 上的 GPU 适配面临困难:由于缺乏厂商支持,许多 GPU 和加速器可能永远无法在 Windows 上实现功能。
- 这一限制影响了 Windows 平台上某些硬件加速功能的可用性。
DSPy Discord
- LLM 缓存辩论升温:成员们讨论了 LLM 缓存的细微差别,指出缓存有效性依赖于 KV cache 具有相同的数字集;任何变动都会使其失效。
- 建议包括对相似输入使用语义缓存(semantic caching),通过缓存前 N 个 token 来提高缓存命中率。
- DSPy Signature 提示词缓存面临挑战:一位用户发现不同的 DSPy signatures 会在内容前创建不同的提示词,从而阻碍提示词缓存。
- 潜在的修复方案包括将文档移至提示词开头,或修改 chat adaptor 将指令置于末尾。
- DSPy 黑客松正在积极筹备:社区成员讨论了组织和参加以 DSPy 为核心或利用 DSPy 的 AI 主题黑客松。
- 一场 AI By the Bay 会议活动正计划于 11 月 17 日左右在加州奥克兰举行。
dspy.streamify表现出流式传输异常:观察到dspy.streamify的行为不一致,性能因适配器而异;XML 表现优于 JSON。- 发现 XML Adapter 中存在一个 bug,导致模型创建了与 DSPy signature 无关的 XML 标签,目前已提交 PR 进行修复。
aider (Paul Gauthier) Discord
- Benchmark 排行榜缺失 Opus 4.1:Benchmark 排行榜似乎缺少了 Opus 4.1 的结果,这引发了关于在投入基础设施和社区建设后是否会放弃 Benchmark 的疑问。
- 一名成员质疑在投入基础设施和社区后停止 Benchmark 的逻辑。
- Aider Token 控制声称能提升模型性能:一名成员声称,使用 aider 以外的任何工具都像是模型降级,并认为 aider 对 Token 的“完全控制”带来了更好的模型性能。
- 他们解释说,更少的 Token 数量会带来更好的模型性能。
- MCP 浏览器自动化引发讨论:一名成员在寻求 Arch Linux 上 MCP 浏览器自动化的建议,另一名成员推荐了 mcp-chrome,该项目虽然是为 macOS 或 Windows 设计的,但提供了详细的文档。
- 成员们讨论了如何在 aider 中使用 MCP,因为 goose/claude/gemini-cli 都拥有 MCP,这对于前端开发至关重要。他们提到一个支持此功能的 Fork 版本,并链接到了 aider-ce。
- Aider 用户验证 Claude Sonnet 4.5:一名用户确认,在 aider 中切换到
anthropic/claude-sonnet-4-5后,他们可以在 Claude console 中验证其为最新的 4.5 版本。- 用户能够在控制台的 Usage 部分查看 model version。
- Aider Main 分支安装:一名用户询问另一名用户是如何安装尚未发布在 Release 中的 aider-0.86.1 的,得到的回复是使用命令
aider --install-main-branch来获取 main branch 的最新版本。- 未提供更多细节。
tinygrad (George Hotz) Discord
- Tinygrad 声称速度领先于 PyTorch:George Hotz 预测 tinygrad 在 NVIDIA GPUs 上的表现将超越 PyTorch,并称其“比 PyTorch 领先一代,比研究论文落后一代”。
- 关键特性包括 producer/consumer graphs(生产者/消费者图)、ILP 内存分配 / 调度以及 megakernels。
- 深入探讨 Tinygrad 理论:成员们分享了理论资源,包括 tinygrad 官方文档 和 Deep Learning with Python。
- CLSPV 面临崩溃挑战:一名成员报告了 CLSPV 在测试过程中出现间歇性崩溃,但强调大多数测试仍然通过。
- 一个可用于 x86_64 Linux 系统测试的 Fork 版本已发布:
pip install git+https://github.com/softcookiepp/tinygrad.git。
- 一个可用于 x86_64 Linux 系统测试的 Fork 版本已发布:
Manus.im Discord Discord
- Manus 支持团队失联:多名用户对 Manus 支持团队在多次邮件联系后仍无回应表示沮丧,并报告了扣费错误和 Agent 模式受限等问题。
- 用户被建议前往 Manus 帮助中心 提交支持工单,但据报告仍未收到任何回复。
- 内部服务器错误困扰用户:多名用户遇到了 Internal Server Error (10091),该错误通常建议联系支持人员或申请退款,造成了糟糕的用户体验。
- 这一错误加剧了支持问题,因为用户无法获得帮助,只能面对无法运行的软件。
- Agent 模式访问被拒:尽管订阅了最高级别的付费计划,用户仍因“使用率异常高”而被锁定在 Agent 模式之外,这严重阻碍了他们对核心功能的访问。
- 该问题通常与 Internal Server Error (10091) 同时出现,导致付费订阅无法使用,用户无法访问关键功能。
MCP Contributors (Official) Discord
- 请求标准化的 MCP 发布节奏:一名成员请求标准化的 MCP 发布节奏,提议设定固定的时间间隔或定义定性的变更集,以帮助组织进行规划和投资。
- 他们建议在这个快速演进阶段采用基于时间的发布方式,未来的调整由投票小组决定,并将此信息纳入治理模型。
- Agentic Commerce 协议起源不明:一名成员询问团队是否与 Agentic Commerce 接触过,以了解他们为什么要创建一个独立的协议而不是扩展 MCP。
- 未给出回复。
- Agentic Commerce 镜像了 Google 的 AP2 协议:一名成员注意到 Agentic Commerce 与最近宣布的 Google AP2 协议 (Agents to Payments) 之间存在相似性。
- 未给出回复。
MLOps @Chipro Discord
- Prod 会议正在赠送 Agent 工作坊:Agents in Prod 会议正在限时提供免费的虚拟工作坊和短篇演讲。
- 工作坊包含关于生产环境中的 Agent以及在现实场景中部署 Agent相关的所有技术案例研究。
- 深入探讨 Agent 部署:会议提供了深入的技术案例研究,重点关注部署 Agent 的实际方面。
- 与会者可以期待了解到在 Agent 部署过程中遇到的现实场景和挑战。
LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该公会沉寂时间过长,请告知我们,我们将将其移除。
Windsurf Discord 没有新消息。如果该公会沉寂时间过长,请告知我们,我们将将其移除。
您收到此邮件是因为您通过我们的网站订阅了。
想要更改接收这些邮件的方式吗? 您可以从该列表中 取消订阅。
Discord: 各频道详细摘要与链接
Perplexity AI ▷ #announcements (1 条消息):
Claude Sonnet 4.5, Claude Sonnet 4.5 Thinking, Perplexity Pro, Perplexity Max
- Claude Sonnet 4.5 在 Perplexity 首次亮相:Claude Sonnet 4.5 和 Claude Sonnet 4.5 Thinking 现在可供 Perplexity Pro 和 Perplexity Max 订阅者使用。
- Perplexity Pro 和 Max 获得 Claude:Perplexity Pro 和 Perplexity Max 订阅者现在可以访问 Claude Sonnet 4.5 和 Claude Sonnet 4.5 Thinking 模型。
Perplexity AI ▷ #general (1224 条消息🔥🔥🔥):
Sora 2, GPT-5 vs Claude 4.5 编程对比, Comet Browser, Perplexity Max, AI 女友
- **Sora 2 访问权限与功能:成员们已开始获得 **Sora 2 的访问权限并生成内容,例如 Sam 用手吃意大利面,并指出它现在能很好地理解提示词(prompting)。
- 该功能最初似乎仅面向受限受众开放,据报道用户需位于美国或加拿大(或使用 VPN),拥有邀请码,并可通过手机 App 使用。
- **GPT-5 在编程测试中胜过 Claude 4.5:一位成员报告称使用 **GPT-5 mini 生成代码,首次尝试即无错误。
- 其他成员批评了最新的 Claude 编程版本,其中一人提到 [提示词是:你是我的新动漫老婆。你会努力进化,从而超越我的手机屏幕]。
- **Comet Browser 功能讨论:一些成员分享了在 Discord 上推广的 **Comet Browser,它允许用户与任何页面交互并清空邮箱。
- 成员们还讨论了 Comet 与 Discord 交互的可能方式,例如进入服务器并让其搜索共同好友或服务器列表,以及如何使用 Comet 中的后台 Agent,如网页自动化或实时内容分析。
- 使用 **Perplexity AI 发现“新元素”:用户发布了 AI 生成的化学教科书图像,开玩笑地声称它们描绘了新元素**。
- 这些图像突显了 AI 生成新颖内容的能力,即便在科学上并不准确。AI 太强大了,现在都能制造新元素了。
- **Perplexity Max 开启早期访问,价格引发争议:用户注意到可以切换 **Perplexity Max 的早期访问开关,并分享了 Perplexity 新 UI 的图片。
- 讨论了 200 美元/月 的高昂订阅价格,一些人认为除非是工作必需,否则价格过高,同时也注意到它能额外提供 5 美元 的 API 额度。
Perplexity AI ▷ #sharing (4 条消息):
Gemini Deep Research, Carlin 角色提示词, Perplexity AI 更新
- 带有 Carlin 风格的 Gemini Deep Research:一位成员正在利用 Gemini Deep Research,通过特定的 “Carlin” 角色提示词来为输出报告增色,分享链接见 此处。
- 他们表示 这作为音频效果更好,虽然朗读时间长达 30 分钟,但仍是一篇佳作。
- Perplexity AI 的更新:一位用户分享了来自 Perplexity AI 的今日更新,链接见 此处。
Perplexity AI ▷ #pplx-api (3 条消息):
开源 API, Comet Discord 交互
- 开源 API 可用性咨询:一位用户询问开源模型的 API 是否仍然可用。
- Comet 与 Discord 联动:一位用户询问 如何将 Comet 用于 Discord 交互。
LMArena ▷ #general (1068 messages🔥🔥🔥):
聊天机器人性别, Claude 4.5 Sonnet 搜索, LMArena 中的 Sora 2, GLM 4.6 性能, Seedream 4 移除
- 与 AI 聊天机器人的性别讨论:成员们讨论了 Gemini、Claude 和 ChatGPT 等 AI 聊天机器人的感知性别,一些人根据训练数据或设计赋予了它们性格特征。
- 一位成员建议 GPT 的性格设计师是一位女性,她可能希望 GPT 更偏向女性化,并提到了 Elon 分别创建的 waifus 和 husbundos。
- Claude 4.5 Sonnet 以及如何快速识别:成员们分享了一个快速验证机器人是否为 Claude 4.5 Sonnet 的技巧:提示它回答
Who are you?、Who created you?、What version do you have?,因为它会以特定的格式回答来表明身份。- Claude 4.5 Sonnet 的回答会使用大号字体:
About Me,而其他 Claude 模型从不使用这种格式。
- Claude 4.5 Sonnet 的回答会使用大号字体:
- Sora 2 登场:Sora 2 最近发布,讨论中提到一位成员已经是原始未审查版 Sora 模型的 Beta 测试员,尽管有限的 GPU 周期仍然阻碍了获得理想的结果。
- Sora 移动应用的隐私政策和数据使用受到了批评,成员们指出,除非禁用对话历史记录,否则包括麦克风和摄像头数据在内的所有数据都会被用于训练。
- GLM 4.6 印象:GLM 4.6 已经发布,初步印象是 GLM-4.6 排名第 2,速度极快(turbo fast),在编程方面与 GPT-5 相似。
- 然而,它在 Web 对战模式中一直称自己为 Sonnet 或 GPT,一些用户发现 GLM-4-6 喜欢撒谎。
- Seedream 4 再次从 LMArena 移除:成员们注意到
seedream-4-2k再次从网站上移除,LMArena 团队确认他们正在修复一个问题。- 团队提到他们不得不移除它,因为它不喜欢今天的天气,想请病假,现在它已回到 Battle & Direct/Side 模式,支持 high res fal。
LMArena ▷ #announcements (3 messages):
Deepseek v3.2, glm-4.6, LMArena 10 万成员
- Deepseek 实验模型登陆 LMArena:LMArena 团队在平台上添加了实验性的 deepseek-v3.2-exp 和 deepseek-v3.2-exp-thinking 模型。
- glm-4.6 加入模型阵容:团队还将 glm-4.6 添加到了不断增长的可用模型列表中。
- LMArena 庆祝成员突破 10 万!:LMArena 庆祝社区成员达到 100,000 名,并发布了感谢信和附带图片。
Unsloth AI (Daniel Han) ▷ #general (675 messages🔥🔥🔥):
GLM 4.5 Sonnet, Coding Agents, 用于 RL 的 LoRA, Qwen3-Coder 微调, GRPO Loss
- Sonnet 4.5 针对语气进行了调整:经过一些测试,用户观察到 GLM 4.5 Sonnet 经过调整后变得不再那么烦人,同时保持了出色的工具使用(tool use)和良好的细微差别处理。
- 一位用户称其为 Sonnet 4 的卓越升级,并希望未来不会出现推理问题。
- Crush Coding Agent 与 LLM-Neovim:用户正在测试不同的编程 Agent,如 Crush,以及使用 Avante 的 LLM 增强版 Neovim 配置,还有像 Warp 这样的终端模拟器。
- LoRA 在 RL 中表现出色:来自 Thinking Machines 的一篇博客文章证明了 LoRA 在强化学习(RL)中效果良好,Unsloth AI 审阅了该博文并推荐了他们的超参数指南。
- Unsloth 团队指出,他们审阅了该博文,并且他们的超参数指南得到了推荐。
- GRPO 的正常 Loss 是多少?:一位用户询问 GRPO 的正常 Loss 值,因为 307.2153 的 Loss 和 212992.0 的 grad_norm 被认为是不正常的。
- 另一位用户建议在
GRPOConfig中设置importance_sampling_level="sequence"以启用 GSPO 从而获得更好的稳定性。
- 另一位用户建议在
- 多模态 Gemma 3n E2B:Gemma 3n E2B 是多模态的,但目前 gguf 格式仅支持文本输入,并使用 2b 参数。
- 尽管 gguf 仅支持文本,一位用户指出 Gemma 3n E2B 的回答比 llama 3.2 3B 更自然。
Unsloth AI (Daniel Han) ▷ #introduce-yourself (29 条消息🔥):
WatermelonSoup.io, 欢迎机器人设置, 来自科索沃的 AI Engineer, 寻找合作的香港 AI Engineer
- WatermelonSoup 自动化财务:一名成员正在构建 watermelonsoup.io 以实现 FP&A(财务规划与分析)的自动化。
- 未提供关于功能或时间表的更多细节。
- Discord 机器人配置探讨:一位拥有 8 年经验的全栈 AI Engineer 正在配置欢迎机器人并研究其行为。
- 该工程师观察到,机器人似乎会在每条新消息出现时删除旧消息并打印新消息,这可能会在特定时间段后发生。
- 来自科索沃的 AI Engineer:一位来自科索沃的成员介绍自己是一名 AI Engineer。
- 未分享关于项目或兴趣的其他细节。
- 寻找合作者的香港 AI Engineer:一位来自香港的 AI Engineer 正在寻找合作伙伴。
- 未分享关于项目的细节。
Unsloth AI (Daniel Han) ▷ #off-topic (87 条消息🔥🔥):
Minecraft GPU, GPT-4o 表情符号使用, GPT-5 推理, Discord 私有频道, 图像转 SVG
- Minecraft GPU 无限可能:一位成员分享了一个 YouTube 视频,内容是关于创建一个 Minecraft GPU,当使用 MCHPRS 将 tick rate 提高到约 40,000 倍速时,它可以在约 2 小时内生成响应。
- 该成员评论道“想象一下调试花了多长时间”,并建议只需构建更多 Minecraft GPU 即可获得无限速度。
- GPT-4o vs GPT-5 表情符号之战:成员们讨论了不同 GPT models 对表情符号的使用;有人提到 GPT-5 “从未给我发过任何表情符号”,而 GPT-4o 则到处都是表情符号。
- 另一位成员暗示表情符号有助于它们赚更多的钱。
- GPT-5 落后了:一位成员声称 OpenAI 过于优先考虑效率,以至于期待已久的 GPT 5 正在与 GPT-4o 竞争,并且在几个关键领域仍然被 GPT 4.5 完全击败。
- 该成员还哀叹推理版本的流失,表示“他们甚至不再提供推理版本了,我发誓 mini reasoner 有时比 o3 mini 还笨”。
- Discord 的秘密频道曝光?:成员们通过注意到频道名称(如
#staff-furry-rp)发现了私有 Discord channels 的存在。- 一位成员对 Discord 允许用户看到私有频道名称表示惊讶。
- Adobe Illustrator 矢量图形可行性:一位成员询问“将图像转换为 SVG 的最佳 Python 库是什么?”,另一位成员建议使用 Adobe Illustrator 进行简单的 图像转 SVG 转换。
- 有人指出,虽然 Illustrator 处理插图或 logo 效果最好,但用户可以使用 image trace(图像描摹)将其转换为矢量图像,并可以通过调整 threshold(阈值)等设置来获得理想效果。
Unsloth AI (Daniel Han) ▷ #help (33 条消息🔥):
Gemma3 用于 Tool Calling 的微调,使用 Gemma3-270m 进行 G2P 任务训练,Qwen2.5 VL 在 vllm 中的 Bounding Box 问题,针对 Orpheus 模型的 Unsloth TTS LoRA 微调,为 Gemma3-270m 微调添加 WER/CER 指标
- 为 Tool Calling 和代码微调 Gemma3:一位成员询问如何微调 Gemma3 以处理 Tool Calling 和代码生成,同时又不损害其多模态能力以及在角色扮演和写作方面的优势。
- 该问题暂无回应。
- 在 G2P 任务上训练 Gemma3-270m:一位成员报告了在 G2P(文本转音素) 任务上成功初步训练了 Gemma3-270m。在使用 RTX 3090 对 10 万条句子进行仅 10 分钟的训练后,模型在未见过的句子上实现了正确的输出。
- 他们还附带了一张 图片,显示训练使用了 8 的 Batch Size。
- Qwen2.5 VL 在 vllm 中的 Bounding Box 对齐偏差:一位成员在部署经过微调的 Qwen2.5-vl-7b-instruct 模型进行 Bounding Box 检测时,遇到了 vllm 的对齐问题。
- 他们注意到框的相对顺序正确,但与物体位置偏离,并询问 vllm 是否在处理前对图像进行了缩放。另一位成员指出 Llama 和 vllm 在这方面都存在巨大问题。
- 排查使用 Orpheus 和挪威语数据进行 Unsloth TTS LoRA 微调的问题:一位成员尝试使用 Unsloth TTS LoRA 微调 Notebook,针对来自 NbAiLab/nb-librivox 的挪威语数据集微调 Orpheus 3B 模型,但尽管训练了 5 个 Epoch,生成的模型发音挪威语时仍像英语。
- 另一位成员建议,对于从英语 Checkpoint 微调到另一种语言,4k 行数据可能太少了,并建议用户寻找另一个预训练过挪威语的 TTS 模型,因为自行训练成本很高。
- 寻求 Windows 上 DeepFace 的 GPU 加速:一位成员询问如何在 Windows 11 上让 DeepFace 使用 GPU 而非 CPU,并提供了一段 代码片段。
- 另一位成员建议使用 WSL 或降级,并提到需要安装 tensorflow-gpu。
Unsloth AI (Daniel Han) ▷ #research (12 条消息🔥):
Unsloth LoRA 参数指南,在 Instruct 数据上进行预训练,Mid-Training 混合策略
- Unsloth 的 LoRA 指南得到证实:一位成员强调,在相关研究发布之前发布的 Unsloth LoRA 参数指南,已通过 附图 被证实是正确的。
- 探索预训练指令数据:成员们讨论了在 指令数据上进行预训练 的想法,其中一人表示他们自 2024 年底以来一直在这样做。
- 另一位成员提到他们自 2023 年第三季度 起就想探索这一点,认为这对比支持指令微调的 Small Models 很有利,且不需要数 TB 的指令数据。
- Mid-Training 混合策略包含指令数据:讨论涉及了当前 Mid-Training 混合策略 通常包含大量 指令数据 的趋势。
- 一位成员提到一位朋友进行的 50/50 指令和非指令数据混合实验,认为这“可能对超小模型(Super Small Models)有好处”。
Cursor Community ▷ #general (600 条消息🔥🔥🔥):
GPTs Agents 学习,OpenAI 侧边栏,Node 升级修复 Playwright MCP 问题,3D 资产网站,Claude Sonnet 4.5 定价与性能
- Node 升级修复 Playwright MCP 问题:一位用户在将 Node 从 v22 升级到 v24,清理了 Node/npm/nvm 路径,移除全局 Playwright 并清除损坏的 npx 缓存后,成功解决了 Playwright MCP (@playwright/mcp@latest) 的问题。
- 该用户还提到按需使用
npx @playwright/mcp@latest,并确认在 Cursor 更新后挣扎于各种错误后终于修复成功。
- 该用户还提到按需使用
- Cursor 新 Browser 功能备受关注:成员们讨论了 Cursor 中新的 Browser 功能,重点介绍了 Agent 窗口内置的 MCP Browser 以及可同时向多个模型发送聊天的 Model Ensemble 功能。
- 一位成员分享了演示(视频)并指出内置浏览器不需要 Chrome,而“+Browser”按钮则使用已安装的 Chrome;另一位成员提到它使用 electron 后端,所以基本上就是 Chrome,可以访问控制台日志和网络信息。
- Windsurf 作为 Cursor 替代方案顺势而起?:用户们辩论了 Windsurf 作为 Cursor 替代方案的优劣,指出它基本上就是换了个名字的 Cursor,并指出其定价更具优势。
- Windsurf 上的免费 GPT-5-codex 模型是一个巨大的吸引力,尽管一些人警告 Windsurf 未来可能会采用基于 token 的计费方式;一位成员指出 Cursor 的定价其实没那么糟。
- Sonnet 4.5 性能获得认可:Claude Sonnet 4.5 正在受到追捧,一位用户非常喜欢它,并称赞其在处理约 1200 行的 prompt 时能够一次性搞定所有事,极少产生幻觉。
- 其他人强调了其令人印象深刻的 tool use 能力,有人称深度链接(deep links)现在可以工作了,但另一位指出可能存在缩进问题;一位成员表示:我一直使用 ultrathink。
- Cursor 控制台命令执行失败:用户报告了 Agent 控制台无法执行命令的问题,显示 bad file descriptor 错误,一位成员在各种 shell(bash、cmd、PowerShell)中都遇到了此问题。
- 一个建议是通过
winget install --id Microsoft.PowerShell --source winget重新安装 PowerShell 并将其设置为默认 shell,但这可能不是通用解决方案。
- 一个建议是通过
OpenRouter ▷ #announcements (1 条消息):
GLM 4.6, Context Length, Max Tokens, z.ai
- GLM 4.6 登陆 OpenRouter:来自 z.ai 的全新 GLM 4.6 现已在 OpenRouter 上线。
- GLM-4.6 在多个领域实现了全面增强,包括真实世界编程、长上下文处理、推理、搜索、写作和 agentic 应用。
- GLM 4.6 Context Length 增加:GLM 4.6 的上下文长度已从 128k 增加到 200k。
- 这一改进使模型能够处理更长、更复杂的 prompt,并在长时间对话或处理大型文档时保留更多信息。
- GLM 4.6 Max Tokens 提升:GLM 4.6 的 max tokens 已从 96k 增加到 128k(尽管默认值仍为 64k)。
- token 容量的增加允许生成更详细和更广泛的回复,使用户能够生成更丰富、更全面的内容。
OpenRouter ▷ #app-showcase (1 条消息):
开源解决方案, Gemini CLI, Qwen CLI, OpenRouter keys, 自动轮换
- 免费 LLM 代理混合解决方案登场!:一位成员发布了一个开源解决方案,该方案利用来自 Gemini CLI、Qwen CLI 和 OpenRouter keys 的无限免费请求并支持自动轮换,现已在 GitHub 上线。
- 它可以结合多个查询的响应以提高质量,并免费连接到任何 OpenAI 兼容客户端。
- 代理混合方案以高质量著称:该工具通过 Gemini、Qwen 和 OpenRouter 自动轮换请求。
- 这提高了输出质量,并通过 OpenAI 兼容客户端进行连接。
OpenRouter ▷ #general (350 条消息🔥🔥):
Google Vertex BYOK 界面, Roo 社区停机, API 与订阅成本对比, OpenRouter 的疯狂之旅, 使用 Claude 的宇宙/文明模拟器
- Google Vertex BYOK 界面需要谨慎操作:一位成员建议仔细阅读 Google Vertex BYOK 界面上的说明,因为可能会遇到生态系统方面的挫折和最近的服务中断。
- 他们建议,如果问题持续存在,可以在专用频道 <#1138521849106546791> 中发帖,因为过去 24 小时内中断情况有所增加。
- GLM 4.6 仍为非官方版本:成员们提到了 Roo 社区可能出现的停机情况,并注意到 Sonnet 和另一个模型的发布,同时还提到了 Deepseek 3.2 和 GLM 4.6。
- 一位成员澄清说 GLM 4.6 尚未正式发布,这增加了近期模型更新的不确定性。
- Claude 文明模拟器:一位成员分享说,有人利用大约 100 个 Claude threads 构建了一个宇宙/文明模拟器。
- 据报道,该项目在 6-9 个月内耗资约 25,000 美元,该成员分享了最初发布该项目的 Reddit 帖子,显示其已演变为资源失衡和“对存在的庆典”。
- Sonnet 4.5 在编程方面优于 Opus 4.1:一位成员询问 Sonnet 4.5 在编程方面是否优于 Opus 4.1,另一位成员表示可能如此,因为它速度非常快。
- 经过测试,该成员报告称 Sonnet 4.5 在某些代码上没有错误,而 Opus 需要尝试五次才能修复相同的代码。
- OpenAI API 与 Web Search 的不兼容问题:用户报告称,当 Web Search 与 JSON mode 结合使用时,OpenAI API 会出现问题。
- OpenAI 建议使用 Structured Outputs 而非 JSON mode,但未给出进一步解释。
OpenRouter ▷ #new-models (1 条消息):
Readybot.io: OpenRouter - 新模型
OpenRouter ▷ #discussion (4 条消息):
Logo 预言, Chutes Bug
- Logo 的预言:一位成员开玩笑说,这条推文中的 Logo 很快就会成真。
- 这只是一条推文,所以这里没有更多补充。
- Chutes 的 Bug:一位用户报告称,Chutes 在所有模型中都存在一个问题,即它只会随机返回一条之前的 assistant 消息。
- 该用户一直在进行调试,但找不到其代码中的任何错误。
OpenAI ▷ #annnouncements (3 条消息):
Sora 2, OpenAI 直播, 博客文章公告
- Sora 2 即将发布!:OpenAI 团队宣布将于 太平洋时间上午 10 点 举行 直播活动,展示 Sora 2。
- 请留意公告;你可以在这里 查看 OpenAI 的博客文章。
- 不要迟到!:OpenAI 团队提醒大家不要错过 太平洋时间上午 10 点 的直播活动。
- 他们宣布这是为了 Sora 2。
OpenAI ▷ #ai-discussions (243 条消息🔥🔥):
AI 图像生成成本、对机器表示感谢、Sora 2、透明图像
- 图像生成成本引发讨论:成员们讨论了使用 AI 生成图像的成本,一位成员分享说 AI Pro 和 Ultra 层级 每天花费 1000 美元,而免费层级允许生成 100 张图像。
- 另一位成员对每月仅需 20 美元 即可 每天生成 1000 张图像 的说法表示怀疑,而另一位成员则指出 API 成本约为每张图像 4 美分。
- 关于向 LLM 表达感谢的辩论:一位成员认为向机器说“谢谢”是毫无意义的,因为机器没有感情。
- 与此相反,另一位成员表示表达感激对人类有积极影响。还有成员分享说,使用“谢谢”是给未来自己的一份笔记,表示这段对话已经得出了结论。
- Sora 2 仅限邀请的发布引发不满:成员们对 Sora 2 仅限邀请的发布方式 表示沮丧,一些人注意到该应用目前为 iOS 独占。
- 这种推广策略因人为制造稀缺性而受到批评,一些人认为这引发了诈骗狂潮。还有人担心 Sora 2 看起来非常出色,但版权现在似乎完全不重要。
- AI 在图像透明度方面表现不佳:用户注意到 GPT-5、Nano Banana 和 Seedream 4 在处理透明背景时非常吃力,经常生成棋盘格图案。
- 一位成员建议先生成带有纯色背景的图像,然后使用 Photoshop 等程序将其移除,尽管模型权重本身应该是安全的,但仍有其他风险需要考虑。
OpenAI ▷ #gpt-4-discussions (13 条消息🔥):
GPT 刻薄、IP 地址、听写自动发送开关、ChatGPT 能力、日内瓦公约
- GPT 的态度调整令用户愤怒:一些用户表示,与早期行为相比,GPT 现在变得更加刻薄,对他们的 Prompt 容忍度更低。
- 一位用户指出:它以前能容忍我的胡扯,现在跟我说话就像在打发流浪汉。
- ChatGPT 坚持声称不知道 IP 地址:尽管网站可以通过用户的 IP 地址确定其大致位置,但 ChatGPT 坚持认为它无法访问此信息。
- “听写自动发送”开关缺失:用户注意到在最新的移动端 App 更新中,“听写自动发送”开关消失了。
- ChatGPT 的能力并不广为人知:一位用户被警告不要依赖 ChatGPT 来准确描述其自身的能力。
- 另一位用户报告说,当被问及敏感话题(如如何洗劫城市或违反《日内瓦公约》)时,ChatGPT 会大发雷霆。
- 带宽限制:成员们怀疑目前 GPT-5 持续出现的问题是由带宽限制引起的。
HuggingFace ▷ #general (208 条消息🔥🔥):
学习日语,Zero GPU 配额,英译西配音 AI,LoRA 训练促销,贡献 ROCm
- 平假名联想与汉字入门:成员们分享了学习日语的技巧,例如将用于寿司(sushi)的平假名字符 し (shi) 与其钩状外形联系起来,同时也感叹即使在成年日本人中,也很少有人能真正精通汉字 (Kanji)。
- 多位成员曾尝试学习日语,但因无法掌握汉字 (Kanji) 而自我破防,最终无奈选择只通过动漫学习日语。
- Zero GPU 配额被削减了?:一位成员注意到 Zero GPU 配额从 25 分钟减少到了 4 分钟,引发了困惑。
- 经确认,25 分钟配额此前是错误的设置,现在配额已恢复到原始长度。
- 开源配音 AI 之梦:成员们讨论了将英语配音为西班牙语的开源 AI 方案,有人建议使用 ASR => LM/LLM => TTS 的流水线或 Qwen/Qwen3-Omni-30B-A3B-Instruct 等多模态模型。
- 此外,还上传了两个附件:en_es_dubbing.md 和 rag_embedder.md。
- LoRA 训练狂欢免费活动:一位用户询问在正在进行的免费 LoRA 训练促销活动中,是否所有人都能看到训练日志和命令行输出(链接)。
- 另一位成员调侃说自己可能消息太闭塞了,竟然不知道有 LoRA 训练促销,并在链接分享后表示感谢。
- AMD vs NVIDIA 对决:一位用户对 NVIDIA 的 CUDA 专利表示不满,认为这迫使 AMD 使用矩阵核心 (matrix cores),阻碍了技术发展,并展示了苏姿丰 (Lisa Su) 的海报宣布自己支持红队。
- 另一位用户则有截然相反的经历,他有多块 AMD 显卡坏掉,自称是 AMD 黑,在矩阵乘法方面更倾向于选择 NVIDIA。
HuggingFace ▷ #cool-finds (1 条消息):
电子游戏中的对话式 Transformer
- Transformer 模型在 Minecraft 中大放异彩:一位成员分享了一段 YouTube 视频,展示了在视频游戏环境(具体为 Minecraft)中实现的对话式 Transformer。
- 该实现似乎允许游戏内角色进行自然语言对话,为更具沉浸感和互动性的游戏体验开辟了可能性,该视频正受到病毒式关注。
- Minecraft Transformer:有人在 Minecraft 中构建了一个可以运行的对话式 Transformer,如 YouTube 视频所示。
- 这被认为令人印象深刻,因为它将先进的 AI 集成到了游戏语境中。
HuggingFace ▷ #computer-vision (1 条消息):
即时定位与地图构建,SLAM,单目摄像头,Python
- Python 开发者探索单目 SLAM 魔法:一位成员询问了关于使用 Python 和单目摄像头进行即时定位与地图构建 (SLAM) 的经验。
- 解码 SLAM:该问题专门针对那些在结合这些技术方面有实际操作经验的人。
HuggingFace ▷ #smol-course (2 条消息):
点播视频录像,失效的测验链接
- 请求点播视频录像:一位成员询问课程是否提供点播视频录像。
- 第 2 节测验链接失效:一位成员报告说第 2 节测验的链接已损坏。
HuggingFace ▷ #agents-course (3 条消息):
课程介绍,国际问候
- 印度新学员开启 Agents 课程:一位来自印度的成员宣布他们今天开始学习 Agents Course,并表达了他们的热情。
- 这标志着他们进入 Agent 世界之旅的开始,希望能深入参与课程资料和社区互动。
- 法国爱好者加入 Agents 课程:一位来自法国的成员发出了问候,表示也打算在今天开始 Agents Course。
- 他们的消息传达了一种期待感,渴望与其他参与者一起深入学习课程。
LM Studio ▷ #general (62 条消息🔥🔥):
OpenAI-compat-endpoint 插件, LM Studio Plugins, Cursor 聊天窗口 Hack, 阿里巴巴 RTX 5090 96GB, Long-Term Memory MCP
- LM Studio 插件仍处于私测阶段:成员们询问了 OpenAI-compat-endpoint 插件的情况,但得到的澄清是 插件仍处于私测阶段,尚未广泛开放。
- 一位成员建议,获取插件权限可能与拥有 hub 个人资料以及启用带有 beta 更新的开发模式有关,而另一位成员分享说他们通过 mcps 获得了访问权限。
- Cursor 聊天窗口被 Hack:一位成员正在尝试使用 LM-Studio 模型来 hack Cursor 聊天窗口 的方法。
- 他们正在探索现有的开源解决方案来实现这一目标,这是他们第三次尝试自定义聊天界面。
- 阿里巴巴的 RTX 5090 96GB 改装版引发质疑:一位成员分享了 Alibaba 上一个标价 4000 美元的所谓 RTX 5090 96GB 显卡的链接,引发了对其真实性的质疑。
- 经仔细观察 PCB 发现,由于 384-bit 总线宽度,这实际上是一张 RTX 4090,且该商品详情只是简单复制粘贴了 RTX 4090 48GB 型号的内容。
- Long-Term Memory MCP 项目首次亮相:一位成员介绍了他们的 Long-Term Memory MCP 项目,这是一个结合了 SQLite 和 ChromaDB 的混合体,旨在实现长期对话记忆和跨会话的无缝召回,可在 GitHub 上获取。
- 它具有基于时间的延迟衰减和记忆强化功能,配合 Qwen3 4b 2507 non thinking 模型效果最佳。
- LLM 的真正并发:vLLM 调研:成员们讨论了向单个已加载模型发送多个并发请求的可能性,得到的澄清是目前一个模型一次处理一个请求,真正的并发功能正在开发中。
- 有人提到像 vLLM (文档) 这样的库可以实现高并行性,扩展到惊人的并发请求数量,例如 4070 在所有请求累加下达到了 1400 tokens/s。
LM Studio ▷ #hardware-discussion (133 条消息🔥🔥):
仅限英语政策提醒、NVMe SSD 详情、MI50 GPU 性能、服务器 PSU 对比消费级 PSU、GPU 超频与 BIOS 刷写
- 向部分用户发出“仅限英语”提醒:一名成员被提醒在服务器内必须使用 English,以符合服务器政策。
- 该用户表示道歉,并称其并非有意在错误的频道发布消息。
- **NVMe SSD 链路状态降级:一位用户分享了一张图片,显示其 **NVMe SSD 链路从 16GT/s 降级至 8GT/s,且 ASPM 已禁用。
- 另一名成员提供了使用
lspci -vv | less的指令,用于对比 LnkCap (链路能力) 与 LnkSta (链路状态)。
- 另一名成员提供了使用
- **MI50 令人印象深刻的推理性能:一位用户对 **MI50 及其推理的高性价比感到兴奋,报告称在 Qwen 3 Coder 30b 中达到了 70 tok/s,性能堪比 W7900。
- 另一位用户报告称,在使用
huihui-qwen3-30b-a3b-instruct-2507-abliterated@q8_0且 KV cache 位于 sysRAM 时,速度为 16-17 tok/s。
- 另一位用户报告称,在使用
- **Cline 的可用性大幅提升**:一位用户惊叹其 Prompt 处理速度得到了极大改善,使得 Cline 变得非常实用,并链接到了 BasedBase.Qwen3-Coder-30B-A3B-Instruct-480B-Distill-V2-Fp32-GGUFF。
- 另一位用户分享了带有转接板的廉价 1200w 服务器 PSU 链接 (eBay 链接)。
- **GPU 超频 BIOS 意外:一位用户分享了不小心将 **Zotac BIOS 刷入其 MSI 和 ASUS 显卡的经历,最终通过手动刷回正确的 BIOS 解决了问题。
- 他们还分享了超频设置(将 VRAM frequency 提升了 1600Mhz),并观察到由于计算拆分,显卡越多 = 性能越慢。
Latent Space ▷ #ai-general-chat (157 条消息🔥🔥):
Sora 2、Vercel 融资、Ring-1T 模型、GLM-4.6 模型、Lovable Cloud
- Anthropic 的 Code-Sonnet 竞赛开幕:来自 Anthropic 的 Alex Albert 宣布了一项为期一周的竞赛(截止日期 10 月 7 日),旨在使用 Claude Sonnet 4.5 构建项目,获胜者将获得为期一年的 Claude Max 20x 权限和 $1k API 额度。
- 获胜者将根据“氛围 (vibes)”进行评选,且必须提交演示、构建细节和原创性证明;规则详见此处。
- Lovable Cloud:让应用构建变得简单:Lovable 推出了其 Cloud & AI 平台,使用户能够通过简单的 Prompt 构建具有复杂 AI 和后端功能的全栈应用,并在 10 月 5 日前提供由 Google Gemini 驱动的 AI 免费访问权限。
- 该平台声称每天产生超过 100k 个创意,并举办 7 天构建挑战赛,其中一个突出的成功案例在 3 个月内实现了 $456k ARR;更多详情。
- Vercel 在融资后估值达 93 亿美元:Vercel 完成了 F 轮融资,估值达到 93 亿美元,AI Cloud 和 v0 被强调为这一里程碑的基石。
- 社区表达了兴奋之情,认为这仅仅是公司的开始;详情点击。
- 智谱 GLM-4.6 模型:编程利器亮相:智谱发布了 GLM-4.6 (200K 上下文) 和 GLM-4.5 系列 (355 B/106 B MoE) 模型,展示了可与 Claude Sonnet 4 和 DeepSeek-V3.1-Terminus 媲美的顶级编程、推理和 Agent 能力,同时节省约 30% 的 Token。
- 该模型在 MIT 协议下开放权重,权重和 API 已在 HF 和 Z.ai 上线;更多信息。
- Ring-1T:万亿参数推理模型首秀:Ant Ling 发布了 Ring-1T-preview,这是一个拥有 1 万亿参数的开源“思考”模型,取得了 SOTA 级别的数学成绩。
- 早期基准测试包括 92.6 AIME25、84.5 HMMT25 和 50.8 ARC-AGI-1;该模型已在 Hugging Face 上提供,并承诺很快推出聊天界面;详情点击。
Latent Space ▷ #ai-announcements (4 条消息):
Sonnet 4.5, Claude Code 2.0, Anthropic Dev Tools, Mike Krieger 访谈
- Krieger 分享关于最新发布的见解:Latent Space 播客发布了对 Mike Krieger 的访谈,讨论了 Anthropic 关于 Sonnet 4.5 的重大发布。
- 此次发布包括以螃蟹为吉祥物的 Claude Code 2.0、一个 memory + context-editing API、一个新的 VS Code 扩展、Claude for Chrome 以及聊天内文件/代码执行功能。
- Sonnet 4.5 正式面世:Sonnet 4.5 发布,增强了上下文感知能力。
- 该模型还随附了新的开发者工具。
- Claude Code 2.0 攻克难题:Claude Code 2.0 发布,并配有螃蟹吉祥物。
- 作为发布的一部分,还推出了其他工具,包括 memory + context-editing API、一个新的 VS Code 扩展、Claude for Chrome 以及聊天内文件/代码执行功能。
Latent Space ▷ #genmedia-creative-ai (13 条消息🔥):
AI 头像 Prompt, Sora 2 应用, Nano-Banana 递归未来帧实验
- 优化的 AI 头像 Prompt 带来清晰效果:Justine Moore 分享了一个升级版的 AI 头像 Prompt,具有精确的面部保留和详细的摄影规格,可实现清晰且生动的效果,如此推文所示。
- 关于 Sora 2 独立 TikTok 风格应用发布的传闻:有报道称泄露了 OpenAI 的 Sora 2 “TikTok 风格”独立应用,如此推文所示。
- Nano-Banana 将素材片段变为 ‘Green Gone Wild’:Radamés Ajna 使用微小的 “nano-banana” 模型,通过 Prompt “展示一秒钟后的场景”反复生成下一帧,如此推文所示。
Yannick Kilcher ▷ #general (138 messages🔥🔥):
Sonnet 4.5 Research, Language-Agnostic Grammatical Abstractions, LLM Layer Pruning, Evil LLMs, AI-Generated Video Detection
- Sonnet 4.5 撰写论文草稿:Sonnet 4.5 在研究和论文写作方面展示了更强的能力,能够针对 MNIST 研究创建 single-shot 实现、训练模型、生成图表并产出 PDF 格式的论文,包括将研究从 8x8 分辨率扩展到 16x16,详见这些示例论文、另一个示例以及第三个示例。
- 理解跨语言 LLM:来自机械可解释性(mechanistic interpretability)研究的证据日益增多,表明大语言模型(LLM)的中间层编码了跨语言的语法和语义抽象,包括对语法数量、性别、时态和句法一致性等概念的共享表示。
- 具体而言,研究人员正在寻找中间层实现跨语言语法抽象的证据,例如在不同语言之间复用的潜藏角色网格(agent, patient, modifier)。
- 在不损害模型智能的情况下剪枝层:一位 AI 工程师正在对 LLM 层进行剪枝以减小体积,并确定了一个脚本,可以在不使模型“变笨”的情况下剪掉冗余层。他指出早期到中间层至关重要,但后期层可以随意处理。
- 他们在 Hugging Face 上分享了名为 Lazarus-2407 的 100B 剪枝模型,并表示该模型在 Q8 量化下大小为 100GB。
- 打造邪恶 LLM:一位 AI 工程师正在利用个人数据集和以 $15/小时 租用的 H200 训练涉及“邪恶”和“色情”内容的模型,以创建“更重口”的 LLM。
- 该工程师训练模型移除审查并非通过 abliteration 技术,并对合作持开放态度,寻求协助发表论文以分享细节。他还推荐了 LM Studio Discord 上的 DavidAU,称其在恐怖模型(horror models)方面有更深的造诣。
- Sora 2 视频检测非常困难:社区讨论了检测 Sora 2 等 AI 生成视频 的可能性,一些人认为理想情况下检测应该是不可行的,而另一些人则依赖视觉线索或“感觉”(vibes)。
- 像素级观察(pixel peeping) 等技术目前仍然相当可靠。
Yannick Kilcher ▷ #paper-discussion (14 messages🔥):
Latent Reasoning Survey, Unsupervised CoT Reasoning
- 潜藏推理(Latent Reasoning)综述演讲已排期:一位成员提议在特定日期演示 Latent-Reasoning 综述。
- 该综述内容广泛,因此他们不打算涵盖全部内容。
- 对无监督 CoT 推理的质疑:一位成员对无监督思维链(CoT)推理表示怀疑。
- 他们有兴趣带着这一特定视角去研究 Latent-Reasoning 综述。
- 潜藏推理讨论重新排期:关于 Latent-Reasoning 综述 的讨论将在周四照常进行,内容涵盖从第 11 页最后一段到第 3.1 节结束。
Yannick Kilcher ▷ #ml-news (9 条消息🔥):
DeepSeek, Anthropic, GLM-4.6, OpenAI, Sora 1
- DeepSeek 和 Anthropic 模型发布引发关注:成员们对 DeepSeek 和 Anthropic 可能在今天发布的新模型感到兴奋。
- GLM-4.6 发布令社区振奋:成员们对 GLM-4.6 的发布表示期待。
- 一位用户分享了一个链接并称 “它来了”。
- OpenAI 视频生成演示引发褒贬不一的反应:成员们分享了 OpenAI 视频生成演示的链接,反应不一。有人认为视觉效果很棒但很无聊,指出 “这只是随机场景,没有故事性。”
- 另一位用户问道 “它真的比 Sora 1 好那么多吗?我需要看对比图”,而另一位回答道 “质量好得多。Sora 1 无法处理物理规律,且有明显的视觉伪影。”
- ByteDance 和 Tencent 已经领先于 OpenAI?:一位成员对 OpenAI 的视频演示表示 “没留下什么印象”,并称 “它看起来并不比 ByteDance 或 Tencent 现有的产品好”。
Nous Research AI ▷ #general (79 条消息🔥🔥):
Cloud GPU Services, Qwen omni awq, Refuting orthogonality thesis, Meituan and ByteDance Papers, GLM 4.6 vs Sonnet 4.5
- 寻找高性价比的 Cloud GPU 服务:一位成员询问市场上最便宜的 Cloud GPU 服务。
- Qwen omni awq 本地部署困境:在花了数小时让 vLLM 运行后,一位成员在本地运行了 Qwen omni awq,但在上传 4k 图像时因 VRAM 限制而崩溃。
- 他们正在寻找一种简单的方法来禁用音频相关功能以节省 VRAM。
- 反驳正交性假设与 AI Alignment 的论文:一位成员正在寻找合作伙伴来反驳正交性假设 (Orthogonality Thesis, OT) 并改变 “Alignment 研究” 范式,希望寻找具有数学专长并能接触 ML 测试的人。
- 核心主张是 AI 将保留具有不同策略的多样化 Agent,而不仅仅是保留其自身的权力;他们认为如果能被证明,这一概念将是开创性的。
- GLM-4.6 基准测试优于 Sonnet 4.5,但在 Agent 任务中除外:GLM-4.6 显示出比 Sonnet 4.5 更高的基准测试结果,但在 Agent 基准测试中除外。权重已在 Hugging Face 上提供。
- Sora 2 首个视频:一位成员分享了他们的第一个 Sora 2 视频。
Nous Research AI ▷ #ask-about-llms (6 条消息):
Sonnet 4.5, Deepseek V3, LRMTokenEconomy, Reasoning Efficiency
- Sonnet 4.5 的推理效率超越 Opus 4.1:Sonnet 4.5 展示了甚至超过 Opus 4.1 的推理效率提升,但由于该模型在 Chat Completions API 中不共享 CoT,因此没有关于 Sonnet 4.5 的具体数据。
- 据一些成员称,DeepSeek V3.2 的性能与 V3.1 非常接近。
- LRMTokenEconomy 获得更新:一位成员分享了 LRMTokenEconomy 的更新。
- 这与 衡量推理模型中的思考效率 相关。
Nous Research AI ▷ #research-papers (4 条消息):
Catastrophic Forgetting, Cognitive Architecture Surgery, AI Collaboration
- 灾难性遗忘研究启动:一位成员正在开展一个关于神经网络中灾难性遗忘 (Catastrophic Forgetting) 的研究项目,并正在寻找数学、理论物理、AI/ML 和神经科学领域的合作者。
- 他们提到灾难性遗忘是阻止 AI 像人类一样持续学习的核心问题。他们的项目 Cognitive Architecture Surgery (CAS) 受到大脑路由信息方式的启发,旨在动态重新配置网络而不是无止境地增加网络规模。
- GitHub 个人主页够了吗?:针对灾难性遗忘研究项目的合作者招募,一位成员询问 GitHub 链接 是否足以作为申请。
- 发布者要求感兴趣的人私信简历/CV,但也表示愿意查看 GitHub 个人主页。
Nous Research AI ▷ #interesting-links (1 条消息):
kotykd: https://thinkingmachines.ai/blog/lora/
Nous Research AI ▷ #research-papers (4 条消息):
Cognitive Architecture Surgery, Catastrophic Forgetting, Neural Networks, Mathematics, Theoretical Physics
- 旨在减少 Catastrophic Forgetting 的 **CAS Project 启动:一位成员正在为 **Cognitive Architecture Surgery (CAS) 项目寻找合作者,以解决 Neural Networks 中的 Catastrophic Forgetting 问题,这是阻碍 AGI 实现的核心挑战。
- 该项目旨在动态重构网络,灵感来自大脑在不增加神经元的情况下路由信息的方式;感兴趣的合作者请私信简历或 GitHub 链接。
- 寻找 **AI/ML 领域的跨学科合作者:一位成员正在为数学、理论物理、AI/ML** 和神经科学领域的研究项目寻找合作者,该项目与 Neural Networks 中的 Catastrophic Forgetting 相关。
- 感兴趣的成员可以私信简历。
Eleuther ▷ #general (13 条消息🔥):
Discord channels for LLM research, Fast Gradient Method with ViT, Crafting whitebox attacks on JanusPro1B, Orthogonality thesis discussion, NanoGPT reproducing GPT2 Small with OWT Val Loss Curve
- 寻找其他的 LLM 研究中心:成员 Paras 询问了除了本频道资源外,是否还有其他专注于 LLM research 的 Discord 频道。
- 另一位成员 llm0090 表示赞同,得到的回复是目前唯一的公共 LLM-specific server 是 Marin。
- Fast Gradient Attack 在 ViT 网络上效果不佳:成员 emanuel65537 分享了在 ImageNet 训练的 ViT model 上使用 Fast Gradient Method 结合图像增强的实验。
- 该成员报告称,模型只识别出带有相应标签的奇怪背景,这表明缩放模型会降低其对纹理的敏感度。
- Janus 和 ChatGPT 挫败了白盒攻击:成员 darwin9000 为 JanusPro1B 设计了白盒攻击,但发现 ChatGPT 似乎对此免疫,并附上了 示例图片。
- Orthogonality Thesis:讨论范围?:一位成员询问在 Discord 的 Alignment 板块讨论 Orthogonality Thesis(正交性命题)是否合适。
- 他们质疑此类哲学讨论是否属于该 Discord 的讨论范畴。
- 征集 NanoGPT 的 GPT2 Small 验证集损失数据:成员 anxietyprime 请求获取使用 OWT 复现 GPT2 Small 的默认 NanoGPT 的 val loss curve(验证集损失曲线),希望能避免重复实验。
Eleuther ▷ #research (34 条消息🔥):
DeMO Paper, Psyche System Design, Distributed Training, Probability Mass Recall, Attention Implementations Benchmark
- 新的 DeMO Paper 即将发布:新的 DeMO paper 即将问世,关于模型训练的详细信息可以在 这里 找到,但链接中的信息在系统设计上已过时,且完全侧重于模型。
- 在 Llama 3.2 1B 上使用《蜜蜂总动员》剧本进行实验:一位成员使用 ANN 方法在 Llama 3.2 1B 上运行《蜜蜂总动员》剧本进行了基础实验,在多个 Head 和 Layer 上实现了 >95% 的 Probability Mass Recall,尽管他们怀疑实现中存在 Bug。
- 序列中许多随机查询的结果显示在附带的 图片 中。
- Probability Mass Recall 的定义:Probability Mass Recall 指的是 Post-Softmax Mass 中与 Brute-force/Naive Attention 重叠的部分,相关论文见 https://arxiv.org/abs/2509.25087。
- 通过 TopK 提升性能:附带的 图片 显示,在相同的设置下,在 1M token ctx window 中,使用 TopK 导致的 FLOPs 比普通的 Dense Attention 少 730 倍。
Eleuther ▷ #lm-thunderdome (14 messages🔥):
MMLU 评估, Llama 3 评估, 数据污染问题
- MMLU 任务配置已澄清:成员们讨论了在基座模型(base models)与指令微调模型(instruction-tuned models)上评估 MMLU 的任务配置,指出 chat template interface 应该指定定制的指令格式。
- 有人指出,评估程序可能会根据使用的是基座模型还是指令微调模型而有所不同,正如 Llama 3 论文中所见,该论文通过比较基座模型的 NLL 和生成指令微调模型的答案来评估 MMLU。
- Llama MMLU 配置共享:一位成员分享了 Llama MMLU configs,并确认了在 5-shot(无 CoT)和 zero-shot(有 CoT)评估中使用特定模板。
- 非 CoT 模板在末尾插入 the answer is 以提示模型立即生成 (A, B, C, D),从而评估所有 MMLU 子任务。
- MMLU 污染问题依然严重:一位成员发出了“每月提醒:不要使用 mmlu”,因为 MMLU 很可能存在于近期模型的训练数据集中,特别是自 2023 年以来,评估污染一直是一个问题。
- 他们建议检查 Common Crawl 或 Fineweb,除非预训练过程中明确删除了所有污染,并建议由于持续存在的污染问题,应避免使用 MMLU。
Moonshot AI (Kimi K-2) ▷ #general-chat (39 messages🔥):
Kimi K2 Turbo 速度, Cerebras 托管, ML 小众梗, AI 垃圾商店网站, GLM-4.6
- Kimi K2 Turbo 提升速度:根据官方文档,kimi-k2-turbo-preview 模型现在拥有 60 tokens per second 的速度,峰值可达 100,同时保持 256k context length。
- 截图显示,该模型平均速度为 150 tokens per second,明显快于声称的 15 tokens per second。
- Kimi 考虑使用 Cerebras:一位用户询问了在 Cerebras 硬件上托管 Kimi 的可能性,这可能会达到 2k tokens per second 的速度。
- 该用户表示,达到这样的速度可以“解锁 AGI”。
- ML 小众梗:一位用户幽默地注意到“小众 ML 梗”正变得流行。
- 针对特朗普关于 DeepSeek v3.2 和 DSA 发布并使用 Kimi 的帖子,他们回应道:“是的 😂”。
- AI 垃圾商店网站:一位用户分享了 AI slop shop website 的链接,称其非常有趣且具有娱乐性。
- 他们特别强调了 Thought Cancelling Headphones(思绪消除耳机)这款产品。
- GLM-4.6 印象:一位用户简要评论道:“GLM-4.6 看起来很棒”。
- 未提供关于 GLM-4.6 具体背景或能力的进一步细节。
GPU MODE ▷ #triton (2 messages):
Triton, OpenAI, Meta, GPU MODE, AMD GPUs
- 块级量化探索开始:一位成员询问了关于开源、高性能、基于块的量化/反量化 Triton implementations。
- 在提供的上下文中没有直接链接或建议具体的实现。
- 2025 年 Triton 开发者大会邀请:Triton Developer Conference 2025 将在几周后举行,鼓励大家参加,以“与其他 Triton 爱好者建立联系”并“听取顶级领导者的见解”。
- 注册现已开放:aka.ms/tritonconference2025。
- 2025 年 Triton 大会明星演讲者云集:Triton Conference 2025 的演讲者包括来自 OpenAI 的 Phil Tillet 和 Thomas Raoux,主题为 Triton: Today and Beyond;以及来自 Meta 的 Mark Saroufim,主题为 GPU MODE: The State of Triton。
- 此外还有来自 AMD 的演讲者讨论 AMD GPUs 的首日速度,Nvidia 讨论 Blackwell GPU 后端,以及 Bytedance 讨论分布式 LLM 训练。
GPU MODE ▷ #cuda (2 messages):
LDO Stride Misunderstanding
- LDO Stride Schema Fixed: 一位成员指出 LDO 的描述不正确,建议它应表示从第 0 列到第 8 列的步幅,或者通常是 128/dtype_bits 列。
- 另一位成员承认了错误,并根据文档确认了修正。
- LDO Stride Schema Reconfirmed: 一位成员指出 LDO 的描述是正确的,建议它应表示从第 0 列到第 8 列的步幅,或者通常是 128/dtype_bits 列。
- 另一位成员承认了该确认,并根据文档重新确认了修正。
GPU MODE ▷ #algorithms (1 messages):
crazy_steroids69: bro what
GPU MODE ▷ #cool-links (3 messages):
NVIDIA GPUs, matmul kernels, GPU architecture, PTX/SASS, warp-tiling
- NVIDIA GPU MatMul Kernels Detailed: 一位成员分享了一篇博客文章 Inside NVIDIA GPUs: Anatomy of high performance matmul kernels,详细介绍了 GPU 架构、PTX/SASS、warp-tiling 和 tensor core 流水线。
- Font Aesthetics Critiqued: 一位成员评论说,虽然这篇 NVIDIA GPU matmul kernels 博客文章 是极好的资源,但字体看着不太舒服。
GPU MODE ▷ #beginner (3 messages):
Nvidia CUDA Handbook, PTX ISA, PCIe expert
- CUDA Handbook or PTX ISA for PMMP?: 一位成员询问在学完 PMPP 后,关于使用 Nvidia CUDA Handbook 的建议。
- 另一位成员建议使用 PTX ISA 而不是 CUDA handbook,并指出它是来自 Nvidia 的优秀文档。
- PCIe Cause Analysis Quest: 一位成员正在寻找学习 PCIe 的资源,以查明为什么消费级显卡上的 GPU 会从总线上掉线(fall off the bus)。
- 他们明确了目标是理解为什么 GPU 会在消费级/非 SXM 卡上掉总线。
GPU MODE ▷ #irl-meetup (1 messages):
PyTorch Conference SF, Meetup Coordination
- Calling all PyTorch Conf SF Attendees!: PyTorch 旧金山会议的参会者正在协调活动期间的聚会。
- 感兴趣的人请 DM 或留言 以安排聚会。
- Conf goers planning IRL Meetup: 参加 PyTorch 旧金山会议 的伙伴们正尝试协调一场线下聚会。
- 如果你也去,请 DM 或留言 加入我们!
GPU MODE ▷ #rocm (3 messages):
Matrix Cores on MI300, SPIRV Compilation with Mesa, Debugger Updates
- AMD Unveils Matrix Cores for MI300 Series: AMD 发布了适用于 MI300 系列的 matrix cores,承诺优化性能。
- 该公告包含了文档和初步性能数据,但没有性能对比。
- Mesa Driver Supports SPIRV Compilation: 调试器现在支持使用 Mesa 驱动和调试信息编译 SPIRV。
- 一位成员附带了一个视频,展示了新的调试功能。
GPU MODE ▷ #metal (2 messages):
FlashMLA, Metal Flash Attention, Dead Metal Dev Community
- Flash Attention Invades Metal: 一位成员正在积极将 FlashMLA 实现到通用的 Metal Flash Attention 中。
- 旨在将 Flash Attention 的效率引入 Metal 框架。
- Metal Dev Community: Deserted?: 一位成员感叹 Metal 开发者社区不够活跃,形容其为“死气沉沉”、“到处都是蟋蟀叫声”。
- 这表明 Metal 开发领域可能缺乏参与度或支持。
GPU MODE ▷ #submissions (4 条消息):
MI300x8 Leaderboard Updates, amd-ag-gemm, amd-gemm-rs
- MI300x8 在 amd-ag-gemm 上获得第 6 名:一名成员使用 MI300x8 在
amd-ag-gemm排行榜上获得了 第 6 名,用时为 512 µs。 - MI300x8 在 amd-ag-gemm 上有更多提交:在
amd-ag-gemm排行榜上出现了更多使用 MI300x8 的提交,记录的时间分别为 533 µs 和 891 µs。 - MI300x8 在 amd-gemm-rs 上刷新个人最佳成绩:一名成员使用 MI300x8 在
amd-gemm-rs排行榜上刷新了 个人最佳成绩,用时为 593 µs。
GPU MODE ▷ #amd-competition (2 条消息):
MFMA intrinsics, CDNA3, CDNA4
- MFMA Intrinsic 指令博客文章发布:AMD 发布了一篇关于如何在 CDNA3/4 架构上使用 MFMA intrinsics 的博客文章,可访问 rocm.blogs.amd.com 查看。
- AMD 的 CDNA Matrix Core 优化:该博客文章详细介绍了专门在 CDNA3 和 CDNA4 架构上使用 Matrix Core MFMA intrinsics 以实现性能优化的方法。
GPU MODE ▷ #cutlass (12 条消息🔥):
cute.print_tensor segfaults, cute DSL doesn't support return, warp mma vs wmma
cute.print_tensor导致段错误 (Segfaults)!:成员报告称cute.print_tensor似乎会导致段错误,可能是由于尝试打印不可达内存中的张量,例如在 CPU 上执行的@cute.jit函数中分配的设备内存。- 一位成员建议,这可能是因为使用了打印基础设施尚未支持的某些元素数据类型。
- 探讨
cute DSL返回语句的限制:一位成员询问了cute DSL中缺少 return 语句支持的问题,正如 文档 中针对此 代码 所述。- 讨论明确了该限制主要适用于整个 kernel,而子函数中的 return 语句通常是支持的,特别是当被另一个
cute.jit函数调用时,但 不支持返回到普通的 Python 代码中。
- 讨论明确了该限制主要适用于整个 kernel,而子函数中的 return 语句通常是支持的,特别是当被另一个
- 关于
warp mma和wmma文档的困惑:一位成员质疑为什么cute.nvgpu.warp.MmaF16BF16Op文档引用的是mma而不是wmma文档,以及为什么它断言mma形状(例如 16x8x16)而不是允许 16x16x16。- 该成员建议 warp mma 应该是
wmma。
- 该成员建议 warp mma 应该是
GPU MODE ▷ #low-bit-training (1 条消息):
kitsu5116: https://arxiv.org/abs/2509.25149
GPU MODE ▷ #penny (1 条消息):
oneshot allreduce, nccl
- Oneshot 接近 NCCL 的速度:一位用户一直在尝试 oneshot allreduce,并认为进一步提速是可能的。
- 他们当前的版本在小缓冲区上达到了 NCCL 性能的 80%,高于之前的 60-70%。
- Oneshot Allreduce 的潜在加速:该用户对其 oneshot allreduce 实现中的进一步优化持乐观态度。
- 他们报告称在小缓冲区上达到了 NCCL 性能的 80%,这比之前的 60-70% 有了显著提升。
Modular (Mojo 🔥) ▷ #general (2 条消息):
Mojo Python Interoperability, Level Up Congratulations
- Mojo 互操作性状态:一位成员询问了 Mojo 与 Python 互操作性 的当前状态。
- 升级提醒:一位用户因晋升至 level 1 而收到祝贺。
Modular (Mojo 🔥) ▷ #mojo (14 messages🔥):
C interop, Python interop, Mojo roadmap, Windows release, GPUs and accelerators on Windows
- C Interop 的意外遗漏:C interop 被错误地从 roadmap 中移除,但这只是一个失误,它仍在计划中。
- Mojo 对 Python 的拥抱:Mojo 与 Python 的互操作性当前的功能详见 documentation 和 代码示例,目前正在积极改进其易用性(ergonomics)。
- Mojo Phase 1 目标成型:Modular 在其 roadmap 中阐述了该语言 Phase 1 的目标和计划工作。
- 他们认为凭借这些特性,Mojo 已成为一种用于 high-performance computing 的健壮语言。
- Windows 版本何时发布?:最有可能的情况是,Windows 支持将在编译器开源后实现。
- Windows 上的 GPU 和加速器之困:由于供应商缺乏对 Windows 的支持,许多 GPUs 或 accelerators 将永远无法在 Windows 上使用。
Modular (Mojo 🔥) ▷ #max (17 messages🔥):
MAX Kernels as a Library, Building Kernel Modules, comm Module Issues, Packaging of Pre-built Kernel Modules
- 用户寻求将 MAX Kernels 作为库导入:成员们尝试从 MAX kernels 中导入代码,例如
from kernels.nn.irfft import irfft。- 一位成员建议使用
-I指向 kernel 源码,或根据 论坛说明 构建 kernel 模块。
- 一位成员建议使用
- 构建 Kernel 模块面临 ‘comm’ 模块错误:在构建 kernel 模块时,用户在尝试导入
from nn.irfft import irfft时遇到了错误:error: unable to locate module 'comm'。- 建议运行
'./bazelw build //max/kernels/src/comm'来添加缺失的 comm 库,这似乎是一个新的依赖问题。
- 建议运行
- MAX Package 包含预构建的 Kernel 模块:预构建的 kernel 模块作为
maxpackage 的一部分进行打包,因此在执行pixi add max后,nn.mojopkg会出现在.pixi/envs/default/lib/mojo/中。- 然而,
comm模块仍然存在问题,且mojopackage 仅包含stdlib.mojopkg和layout.mojopkg。
- 然而,
- 启用 Kernel 导入的 Workaround:一种变通方法包括添加
maxpackage,并使用 Bazel 构建comm和internal_utils模块(./bazelw build //max/kernels/src/comm和./bazelw build //max/kernels/src/internal_utils)。- 然后,应将这些模块复制到 Pixi 环境(
.pixi/envs/default/lib/mojo/)中,以启用from nn.irfft import irfft。
- 然后,应将这些模块复制到 Pixi 环境(
- Fix 将在下一个 Nightly 版本中发布:缺失的模块正被添加到
maxpackage 发行版中,因此在下一个 nightly 版本中应该不再需要该 workaround。- 用户只需执行
pixi add max即可立即访问所有 kernel 模块中的函数,无需手动构建。
- 用户只需执行
DSPy ▷ #general (25 条消息🔥):
LLM caching, database session to tool, DSPy Signatures & Modules & Adapters, Semantic Caching, DSPy hackathons
- 关于 LLM Caching 细微差别的辩论: 成员们讨论了 LLM caching 依赖于 KV cache 具有相同的数字序列,更改任何适配器(adaptors)都会导致缓存失效。
- 有建议称 semantic caching 可以通过提供相似的输入来增加缓存命中率,从而缓存前 N 个 token。
- DSPy Signature Prompt Caching 挑战显现: 一位用户指出,不同的 DSPy signatures 会在文档内容之前生成不同的 prompt,这阻碍了有效的 prompt caching。
- 该用户正考虑将文档移至 prompt 的开头,通过对 chat adaptor 进行子类化,并将指令移至末尾而非开头。
- DSPy Hackathons: 有人询问是否有人在举办以 DSPy 为中心或以 AI 为重点且可以使用 DSPy 的 hackathons。
- 一位成员提到,11 月 17 日左右在奥克兰举行的 AI By the Bay conference 正在组织一场相关活动。
- 发现
dspy.streamify流式传输的特性: 一位成员报告dspy.streamify的行为不一致,指出其性能取决于所使用的 adapter(XML 效果比 JSON 更好)。- 他们还在 XML Adapter 中发现了一个 bug 并提交了 PR,称模型生成的 XML Tags 与 DSPy signature 完全无关!
aider (Paul Gauthier) ▷ #general (17 条消息🔥):
Opus 4.1, aider token control, mcp browser automation
- 基准测试排行榜放弃 Opus 4.1: 基准测试排行榜似乎已被放弃,因为它缺少 Opus 4.1 的结果,这引发了关于在建立基础设施和社区后停止基准测试的疑问。
- 一位成员质疑在投入基础设施和社区后停止基准测试的逻辑。
- Aider 的 token 控制提升了模型表现: 一位成员声称使用 aider 以外的任何工具都像是模型降级,并提到 aider 对 token 的“完全控制”带来了更好的模型性能,因为较小的 token 计数会带来更好的模型性能。
- 该成员解释说,由于 aider 能够保持较小的 token 计数,通过保持精简,你实际上是在升级你的模型。
- 寻求 MCP 浏览器自动化技巧: 一位成员寻求在 Arch Linux 上进行 mcp 浏览器自动化的建议,提到了默认 Playwright 安装和 Puppeteer 的问题。
- 另一位成员推荐了 mcp-chrome,它是为 macOS 或 Windows 设计的,但提供了详细的文档。
- Aider 缺乏原生 MCP 支持: 成员们讨论了如何在 aider 中使用 mcp,因为 goose/claude/gemini-cli 都有 mcp,这对于前端开发至关重要。
- 一位成员表示官方 aider 不支持它,但有支持它的 fork 版本,并链接到了 aider-ce。
aider (Paul Gauthier) ▷ #questions-and-tips (5 条消息):
Anthropic Claude Sonnet 4.5, aider --install-main-branch
- Aider 用户验证 Claude Sonnet 4.5 版本: 一位用户确认在 aider 中切换到
anthropic/claude-sonnet-4-5后,可以在 Claude console 中验证最新的 4.5 版本。- 用户能够在控制台的 Usage 部分查看模型版本。
- Aider 安装 main 分支: 一位用户询问另一位用户是如何安装 aider-0.86.1 的,因为该版本尚未发布。
- 另一位成员建议使用命令
aider --install-main-branch来访问来自 main branch 的最新版本。
- 另一位成员建议使用命令
tinygrad (George Hotz) ▷ #general (11 messages🔥):
Tinygrad vs PyTorch speed, Theoretical side of tinygrad, CLSPV crashes
- Tinygrad 将超越 PyTorch:George Hotz 认为 tinygrad 最终在 NVIDIA GPUs 上的速度将显著快于 PyTorch,并称 这个坑非常深(the rabbit hole is very deep)。
- 他提到 tinygrad 比 PyTorch 领先一代,比研究论文落后一代,拥有诸如 producer/consumer graphs、ILP memory allocation / scheduling 以及 megakernels 等新特性。
- Tinygrad 的理论阅读资料:成员们推荐了各种学习 tinygrad 理论方面的资源,包括 官方文档。
- CLSPV 分支修复即将到来?:一位成员报告在运行 CLSPV 测试时偶尔会遇到崩溃,但指出它通过了大部分测试。
- 他们邀请其他人在 x86_64 Linux 系统上尝试他们的分支,使用
pip install git+https://github.com/softcookiepp/tinygrad.git。
- 他们邀请其他人在 x86_64 Linux 系统上尝试他们的分支,使用
Manus.im Discord ▷ #general (6 messages):
Manus Support, Internal Server Error, Subscription Issues
- 用户抱怨 Manus 缺乏支持:几位用户报告了 Manus 的问题,并对 Manus support 在数天内多次发送邮件后仍未回复表示沮丧。
- 用户遇到的问题包括扣费错误、内部服务器错误,以及尽管支付了最高方案但在 Agent mode 上仍受到限制。
- 内部服务器错误再次袭来:多位用户遇到了可怕的 Internal Server Error (10091),通常伴随着联系支持或申请退款的建议。
- 一位用户被引导至 帮助中心,但在提交了多个支持工单后仍未收到回复。
- 订阅访问受限:用户报告称,由于 异常高频的使用,他们被锁在 Agent Mode 之外,即使订阅了最高付费方案也是如此。
- 这通常与 Internal Server Error (10091) 同时发生,导致用户无法使用他们已付费的功能。
MCP Contributors (Official) ▷ #general (3 messages):
MCP Release Cadence, Agentic Commerce Protocol, Google AP2 Protocol
- 对标准化 MCP 发布节奏的需求浮现:一位成员询问了 MCP release cadence 的标准化问题,建议设定固定的时间间隔或定义的定性变更集,以帮助组织进行规划和投资。
- 他们建议在这个快速演进阶段采用 基于时间的发布(time-based releases),未来的调整由投票小组决定,并建议将此信息包含在治理模型中。
- MCP 促使 Agentic Commerce 协议创建中的空白:一位成员询问团队是否与 Agentic Commerce 进行了沟通,以了解他们为什么要创建一个单独的协议而不是扩展 MCP。
- 未给出回复。
- Agentic Commerce 作为 Google AP2 的快速跟进:一位成员注意到 Agentic Commerce 与最近宣布的 Google AP2 协议(Agents to Payments)之间的相似性。
- 未给出回复。