AI News

今天没发生什么事。

以下是为您翻译的中文内容:

Claude Code Skills 备受关注,其发布了一场演讲,且 Hugging Face 推出了全新的“skill(技能)”,支持对 0.5B 到 70B 参数规模的模型进行单行命令微调流水线。该工具支持 SFT、DPO 和 GRPO,小型运行的成本低至约 0.30 美元。

智谱 AI(Zhipu AI) 发布了多模态模型 GLM-4.6V(106B 参数的 MoE 架构)和 GLM-4.6V-Flash(9B 参数稠密模型),具备 128k 上下文窗口和原生多模态函数调用功能。其中 Flash 版本可免费使用,官方也详细公布了 API 定价。

Jina AI 推出了 Jina-VLM (2B),这是一款紧凑型多语言视觉语言模型(VLM),在处理图表和文档方面表现出色,并在多项基准测试中取得了顶尖成绩。

NeurIPS 2025 上,研究亮点包括:谷歌提出的后 Transformer(post-Transformer)序列架构(Moneta、Yaad、Memora),在长上下文检索中实现了高达 20% 的性能提升;AxiomProver 的自主 Lean 系统快速解决了 2025 年 Putnam 数学竞赛 12 道题目中的 9 道;此外,Chris Olah 讨论了机械解释性(mechanistic interpretability)的进展,并强调了开发可扩展工具的重要性。

#fine-tuning #multimodality #model-optimization #long-context #mechanistic-interpretability #formal-methods #sequence-architectures #reinforcement-learning glm-4.6v glm-4.6v-flash jina-vlm-2b hugging-face zhipu-ai jina-ai google-deepmind axiomprover

平静的一天

2025年12月5日至12月8日的 AI 新闻。我们为您检查了 12 个 subreddit、544 个 Twitter 账号和 24 个 Discord 社区(205 个频道,16871 条消息)。预计节省阅读时间(以 200wpm 计算):1319 分钟。我们的新网站现已上线,支持完整的元数据搜索,并以精美的 vibe coded 方式展示所有往期内容。请访问 https://news.smol.ai/ 查看完整的新闻细分,并在 @smol_ai 上向我们提供反馈!

许多人对 Claude Code Skills 感到兴奋,目前已发布了相关演讲,它能够微调 AI 模型


AI Twitter 综述

使用 Claude Code + Hugging Face Skills 自动化开源 LLM 训练

  • “单行”端到端微调流水线:Hugging Face 发布了一个 Claude Code “skill”,允许你用自然语言指定训练任务(例如“在 open-r1/codeforces-cots 上微调 Qwen3-0.6B”),然后由 Agent 完成剩余工作:验证数据集、选择 GPU 类型、启动 HF Jobs、监控进度,并将 checkpoint/模型发布到 Hub。支持对 ~0.5B 到 70B 的模型进行 SFT、DPO 和 GRPO,并提供 GGUF 导出和多阶段流水线等选项。早期报告称,小型运行的成本约为 0.30 美元。查看来自 @LiorOnAI 的演示和详情,此处分享的 HF 博客链接,以及 @akshay_pachaar 的深入分析。

    意义所在:它将大量定制化的粘合工作(基础设施选择、数据集对接、日志记录、产物推送)整合进一个由 HF Jobs + Hub 驱动的可复现、可审计的 Agentic 工作流中。

新型多模态模型:智谱 GLM-4.6V 与 Jina-VLM

  • 智谱 AI 的 GLM-4.6V 和 GLM-4.6V-Flash:具有 128k 上下文和原生多模态 function calling 的新型 VLM。GLM-4.6V 是一个 MoE 模型,总参数量 106B,激活参数约 12B;Flash 是一个 9B 的稠密变体,针对延迟和本地部署进行了优化。定价(API,每 1M tokens):输入 0.6 美元 / 输出 0.9 美元;Flash 免费。权重已在 HF 上线;vLLM 发布了首日 recipe;MLX-VLM 已添加支持;多个平台集成了带有图像参数的 tool-calling(“无需 OCR 中转”)。发布与规格:@Zai_org,HF 权重:@_akhaliq,MoE 详情:@ben_burtenshaw,vLLM recipe:@vllm_project,MLX-VLM:@Prince_Canuma,tool-calling 集成:@ZenMuxAI。早期评论指出,在某些基准测试中,106B 和 9B 变体之间的差距很小 (@eliebakouch)。
  • Jina-VLM (2B):一款紧凑的多语言 VLM,专注于图表、图表、场景文本和文档。Jina 声称在开源 2B VLM 中达到了 SOTA,在八个 VQA 基准测试中平均得分为 72.3,并在 MMMB (78.8) 和 Multilingual MMBench (74.3) 上表现最佳。论文/代码/资源见 @JinaAI_ 及其后续更新 1 2

NeurIPS 2025 研究趋势:新型序列架构、可解释性与形式化方法

  • Post-Transformer 骨干网络 (Google 的 Miras 框架):一篇 Google 的论文将 Transformer 和 RNN 重新定义为关联记忆系统,并将“遗忘”视为保留正则化 (retention regularization),由此推出了 Moneta、Yaad 和 Memora。作者报告称,在 LM、推理、长上下文扩展以及大海捞针 (needle-in-a-haystack) 召回方面,这些模型优于 Transformer、Mamba2、DeltaNet 及其混合模型,在长上下文检索中获得了高达 ~20% 的提升。概览推文和论文:@TheTuringPost 以及 arXiv 链接见此处
  • 形式化方法遇见前沿数学:AxiomProver 报告了一个自主 Lean 系统,该系统在 2025 年 Putnam 竞赛结束后的几小时内解决了 12 道题目中的 9 道 —— 他们称这一表现将位居去年排行榜的首位。他们强调了可验证性和混合形式化/非形式化流水线;参见 @axiommathai 以及 @TheTuringPost 对“AI 数学家”的讨论。
  • 大规模机械可解释性 (Mech interp),更具可操作性:机械可解释性研讨会吸引了大量人群;Chris Olah 发表了关于“对可解释性的反思”的演讲 (@NeelNanda5)。领域观点强调,相比于单模型神经元的零散案例 (neuron anecdotes),更需要可扩展、可泛化的工具 (@sarahookr)。
  • 在真实的工具丰富环境下的 Agent 评估:MEMTRACK 通过将 Agent 置于包含 Slack、Linear 和 git 时间线的“职场”环境中,来探测长程记忆/状态追踪能力;GPT-5 在其任务上的最高报告分数为 ~60%,凸显了改进空间 (@rebeccatqian)。

实践中的 Agent:评估、可靠性与知识落地 (knowledge grounding)

  • 深度 Agent 评估模式与结果:LangChain 发布了评估长运行 Agent(规划、FS、子 Agent、提示词)的实用模式,以及在 Terminal Bench 2.0 上的 Agent CLI 基准测试(均值 ~42.65%)。他们还发布了动态上下文压缩触发器(例如,在窗口达到 85% 时进行总结,保留 10%)以及关于 Agent 系统可观测性/评估/部署的 LangSmith 视频系列。资源:博客和结果由 @LangChainAI 提供,上下文压缩由 @sydneyrunkle 提供,LangSmith 系列 1 2
  • 消费级落地 (grounding) 依然薄弱:ACE 基准测试针对日常任务(购物/食品/游戏/DIY),并对落地的网络资源进行动态检查;领先的分数并不高(GPT-5 High=56.1%,o3 Pro=55.2%;购物类最高仅为 45.4%)。一些模型在链接准确性上得分甚至为负(例如 Gemini 3 Pro 在“提供链接”项得分为 -54%)。论文和分析通过 @omarsar0 发布。
  • 工具与工作流:Dexter 2.0(开源,基于 LangChain)针对具有规划/自我验证功能的自主财务研究 (#demo)。AI21 Maestro 通过多步规划、内置验证、私有 RAG 和执行图来定位编排 (@AI21Labs)。DSPy 的 GEPA 在快速集成到新任务时继续显示出巨大的增量(据报告在一次研讨会参赛作品中从 12.5% 提升至 62.5%) (@DSPyOSS)。
  • 关于“LLM 无法生成知识”:来自 @jeremyphoward 的反驳观点显示,工具增强型 LLM 可以推导出此前未记录的结果,认为 Agent 可以通过交互生成新知识。

基础设施与服务:开放堆栈与系统更新

  • RadixArk(由 SGLang 创作者发起):一个脱胎于 SGLang 生态系统、以基础设施为先的新创业项目,旨在“让前沿级 AI 基础设施变得开放且易于获取”。强调将调度/编译器/推理服务/训练流水线作为共享基础设施,而不是由每个组织重复实现。发布与背书详情:@ying11231@ibab,以及 @eliebakouch 的反应。
  • 值得关注的系统细节:来自 @ezyang 的面向 Mesh 的分片见解。Qdrant 的 ACORN 在无需特定谓词索引的情况下提高了过滤向量搜索的召回率 (@qdrant_engine)。Turbopuffer 将异步索引下强一致性的 WAL 扫描速度提高了一倍 (@turbopuffer)。Weaviate 的 Multi2Vec 1.5 增加了 MetaCLIP2、ModernVBERT 和 Jetson 支持 (@weaviate_io)。HF 与 Google Cloud 的合作伙伴关系宣称实现了约 13 秒传输 5GB 的速度 (@ClementDelangue)。Yupp 增加了 SVG 排行榜并启动了社区竞赛 (@yupp_ai)。

热门推文(按互动量排序)

  • “我们正处于‘LLM 泡沫’中,而非 AI 泡沫。” 这是一个将平台炒作与更广泛的 AI 进展区分开来的宏观视角 (@hardmaru)。
  • 智谱 GLM-4.6V 发布:开放权重、128k 多模态上下文、原生函数调用,以及延迟优化的 9B Flash 变体 (@Zai_org)。
  • Linus Torvalds 谈 AI:泡沫情绪、对专业工作的巨大影响、对“氛围编码 (vibe coding)”可维护性的怀疑,以及市场泡沫可能会破裂 (@Yuchenj_UW)。
  • AxiomProver 宣称达到普特南 (Putnam) 竞赛级表现:在考试后几小时内用 Lean 解决了 12 道题目中的 9 道 ({AxiomMath AI})。
  • Andy Jones 的“马”类比:技术进步在达到阈值时会让人感觉很突然;Anthropic 的内部指标显示 Claude 正在迅速吸收新员工的问答负载 (thread)。
  • Waymo 扩展至伦敦,为 2026 年的商业服务做准备 (@Waymo)。
  • Clay 在 100 万美元后两年内达到 1 亿美元 ARR,企业 NRR 超过 200%;分享了关于反向演示、基于用量的定价和品牌押注的 GTM 经验 (@vxanand)。

AI Reddit 回顾

/r/LocalLlama + /r/localLLM 回顾

1. GLM-4.6V 模型发布与特性

  • zai-org/GLM-4.6V-Flash (9B) 发布了 (热度: 450): GLM-4.6V-Flash (9B) 是一款专为本地部署设计的轻量级模型,具有 128k token 的上下文窗口,并在同尺寸模型的视觉理解方面达到了最先进 (SoTA) 的性能。它引入了原生 Function Calling 能力,增强了视觉感知与可执行操作的集成,从而支持现实业务场景中的多模态 Agent。更多详情请见 Hugging Face 评论者们对关注 10B 以下模型尺寸表示赞赏,并指出只有 MistralQwenzAIIBM 等少数公司在维持这一趋势。此外,人们对更大规模的模型(如一些用户预期但未见发布的 30-40B MOE 模型)充满期待。
    • zAI 发布的 GLM-4.6V-Flash (9B) 模型因坚持关注 10B 以下模型尺寸而备受关注,这一趋势在 Mistral、Qwen 和 IBM 等公司中也有所体现。这表明人们持续关注为特定应用优化小型模型,以平衡性能和资源效率。
    • 一位用户表达了对更大规模的 30-40B MOE (Mixture of Experts) 模型的期待,而 Mistral 最近发布的产品中也缺少这一规模。这突显了对能够处理复杂任务的更强大模型的需求,表明当前 AI 模型产品中存在空白。
    • GLM-4.6V 模型目前提供仅文本的 GGUF 格式,该格式正在生产中。然而,视觉能力尚不可用,因为该功能的 pull request 仍处于草案阶段。这表明该模型的能力仍在持续开发中,未来可能会有进一步增强。
  • GLM-4.6V (108B) 已发布 (热度: 480): GLM-4.6V 已经发布,包含两个版本:用于云端和高性能集群的 GLM-4.6V (106B),以及用于本地、低延迟应用的 GLM-4.6V-Flash (9B)。它支持 128k token 的上下文窗口,并在同等规模模型的视觉理解方面实现了最先进 (SoTA) 的性能。值得注意的是,它引入了原生多模态 Function Calling,允许在推理过程中直接使用图像和视觉输出,并支持图文交替内容生成 (Interleaved Image-Text Content Generation) 和多模态文档理解。该模型还可以通过自然语言根据截图复制和编辑前端界面。Hugging Face 上的 GLM-4.6V 评论者讨论了为文本模型添加视觉能力的意义,并质疑这是否会在文本性能上产生潜在的权衡。人们好奇 GLM-4.6V 在纯文本任务中与前代 GLM-4.5-Air 相比表现如何,普遍共识是集成视觉可能会影响非视觉任务的性能。
    • 一位用户质疑在文本模型中添加视觉能力的影响,特别是它可能如何降低文本性能。他们指出,虽然视觉模型功能多样,但在纯文本任务上的表现可能不如 GLM-4.5-Air 等专门的文本模型。这突显了在增加新能力与维持现有能力性能之间的权衡。
    • 另一位用户比较了 9B 和 108B 模型的性能,指出根据基准测试,较小的模型并没有明显变差。这引发了关于使用大型模型的效率和实用性的讨论,尤其是在资源受限的实际应用中,小型模型也能达到类似的效果。
    • 分享了一个详细的代码基准测试,将 GLM-4.6V 模型与 GPT-OSS-120B 进行了对比。GLM-4.6V 模型产生了几个编译错误,包括重复的变量定义和未定义的变量,而 GPT-OSS-120B 的错误较少。这表明虽然 GLM-4.6V 具有视觉能力,但在编程任务中可能不如其他一些模型健壮,这暗示了为增加功能而在性能上做出的潜在权衡。

2. RAM 价格飙升与 OpenAI 的影响

  • RAM 价格解析 (热度: 1263): 据报道,OpenAI 已收购了全球 40% 的 DRAM 原生晶圆产量,并非为了立即使用,而是为了限制竞争对手的获取,导致内存价格飙升。 这一战略举措由 Moore’s Law is Dead 披露,暗示将对市场动态产生重大影响,尤其是在假期临近之际。评论者对 OpenAI 的策略表示担忧,认为这反映了财富 500 强公司中一种更广泛的趋势,即优先考虑市场控制而非创新。一些人预测,随着 China 开发自己的芯片和模型,其制造重心最终可能会抵消此类策略。
  • 想法? (热度: 647): 该图片是一个模因风格的社交媒体帖子,幽默地暗示 Sam Altman 秘密购买了主要 RAM 制造商 40% 的硅晶圆,据称是为了通过导致 RAM 价格飙升来干扰竞争对手。 这一说法在没有证据的情况下提出,很可能是讽刺性的,因为它将价格上涨归因于 Altman 的战略举措,而非市场动态或 AI 发展的实际需求。该帖子反映了关于 AI 对硬件市场影响的更广泛讨论,但具体说法缺乏证实。一些评论者对这一说法表示怀疑,要求提供帖子本身以外的证据。其他人则认为,如果属实,这是 Altman 对抗 Google 等公司竞争的战略尝试,尽管他们对其有效性表示怀疑。

3. 本地 LLM 配置与向量数据库对比

  • 经过 1 年缓慢增加 GPU,我的本地 LLM 配置终于完成了 - 8x3090 (192GB VRAM) 64 核 EPYC Milan 250GB RAM (热度: 637): 用户完成了一个本地 LLM 配置,其特点是 8x NVIDIA RTX 3090 GPUs 总计 192GB VRAM,由 64-core EPYC Milan CPU 和 250GB RAM 驱动。 系统由串联的 1500W1000W PSU 供电,连接到 20A 专用分支电路。该配置使用 Supermicro H12SSL-I 主板,在使用 llama.cpp 运行 GLM 4.5 Air Q6_K 模型时实现了 ~49 tokens/second 的性能。用户计划对 GPU 实施功率限制,并使用 VLLM 和张量并行测试 AWQ 模型,特别是针对 MiniMax-M2-AWQ-4bit。总成本约为 $8,000,大多数组件是购买的二手货,突显了本地市场相较于 eBay 等平台的性价比。
    • 一位用户强调了该配置的局限性,指出尽管拥有 8x3090 GPU 和 64 核 EPYC Milan 处理器的令人印象深刻的硬件配置,它仍然无法以全权重运行最先进的 (SOTA) 开源模型。这凸显了现代机器学习模型的快速进步和日益增长的资源需求,这些模型通常需要更强大的配置才能充分利用其功能。
    • 另一位用户询问了如此强大的本地 LLM 配置的实际应用,表现出对需要这种高性能配置的具体用例或项目的关注。这反映了人们对了解在机器学习任务中投入大量硬件的实际应用和收益的普遍兴趣。
    • 一条评论幽默地暗示该配置的功耗可能非常大,暗示 8x3090 GPU 可能会消耗大量电力。这突显了高性能计算中关于计算能力与能源效率之间权衡的共同担忧。
  • Vector db comparison (热度: 449): 该帖子对用于检索增强生成 (RAG) 系统的向量数据库进行了对比分析,强调 HNSW 适用于高达 10M vectors 的系统。对于更大的数据集,由于 Turbopuffer 在对象存储方面的成本效益,建议使用它。pgvector 适用于小规模和本地实验,而 Chroma 因其轻量级特性而受到称赞,适用于 notebooks 或小型服务器。完整的分析可以在这里查看。 评论建议除非有特定需求,否则首选使用 pgvector。此外还有对现成向量数据库的批评,并引用了一份批判性分析。另外,Vespa 被提及为对比中遗漏的重要项,建议将其与 Qdrant、Milvus 和 Weaviate 等其他专业数据库一起考虑。
    • 用户 ‘gopietz’ 建议除非有特殊理由,否则从 pgvector 开始满足向量数据库需求。这暗示 pgvector 是通用场景下多功能且可靠的选择,这可能归功于它与成熟的数据库系统 PostgreSQL 的集成。
    • ‘osmarks’ 批评了现成的向量数据库,并链接到一份详细的评论 (https://osmarks.net/memescale/#off-the-shelf-vector-databases)。这表明许多现有解决方案可能存在显著的局限性或效率低下,促使用户考虑自定义解决方案或在选择过程中保持谨慎。
    • ‘glusphere’ 指出对比中遗漏了 Vespa,建议将其与 Qdrant、Milvus 和 Weaviate 等其他向量数据库一起考虑。这突显了 Vespa 在向量数据库领域的地位和潜在竞争力,表明它可能提供独特的功能或性能优势。
  • I’m calling these people out right now. (热度: 599): 该帖子重点介绍了机器学习社区的关键贡献者,特别是在模型量化和微调领域。Unsloth 以“极速微调”和优质的 GGUF 量化而闻名,而 mradermacher 因量化了广泛的模型而受到认可,尽管对其使用自动化脚本存在一些争议。Bartowski 因高质量的量化和文档而受到赞誉,TheBloke 被公认为社区的奠基人物。LoneStriker 和 Nexesenex 也因其在 AWQ/GPTQ 和 iMatrix 量化方面的贡献而被提及。该帖子强调了这些贡献者在推进社区资源和工具方面的重要性。 关于 mradermacher 的方法存在争议,一些人认为其量化过程可能严重依赖自动化脚本而非人工监督,这与 Bartowski 更加精细化的方法形成对比。此外,评论还强调了更广泛的社区贡献,包括 llama.cpp 和 LM Studio 等工具的维护者。
    • Evening_Ad6637 讨论了两位贡献者 mradermacher 和 Bartowski 在模型量化背景下的方法。他们指出 mradermacher 似乎在没有人工干预的情况下自动执行量化过程,而 Bartowski 则因亲自挑选模型并确保高质量量化结果而受到称赞,这表明其方法更具参与感且更精细。
    • SlimeQ 强调了 oobabooga 在维护被认为是最好的开源 LLaMA 服务器方面所做的持续努力。这一评论强调了个人贡献在开源社区中的重要性,特别是在为 LLaMA 模型维护稳健可靠的基础设施方面。
    • pmttyji 建议将认可名单扩大到包括各种类别的贡献者,如微调提供者、蒸馏提供者和基准测试创建者。他们提到了特定的贡献者,如 TheDrummer、Ubergarm、Thireus 等,强调了社区内支持 LLaMA 模型开发和优化的多样化角色和专业领域。

非技术性 AI 版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. GITAI 空间机器人与月球基地可行性

  • 这就是我们在火星上建造的方式:GITAI 自主机器人为地外栖息地组装 5 米高的通信塔。 (热度: 1110): 空间机器人初创公司 GITAI 展示了其自主机器人 “Inchworm” 和 Rover 在模拟月球环境中组装 5 米高通信塔的过程。”Inchworm” 机器人配备双抓取末端执行器,使其能够攀爬并建造结构,而 Rover 则协助完成焊接和挖掘等任务。该技术旨在将空间劳动力成本降低 100x 并消除 EVA(舱外活动)风险,这对于火星或月球上人类殖民前的基础设施建设至关重要。GITAI 已入选 DARPA LunA-10 计划,用于月球架构开发。 一些评论者强调了空间技术对长期行星利益的重要性,尽管有批评认为太空探索忽视了地球。该技术被视为需要在真空环境下进行组装的地外任务的必备技术。
    • GITAI 自主机器人专为在空间组装结构而设计,这对于需要在真空环境中进行施工的任务至关重要。这项技术不仅对地外任务至关重要,还有助于地球上零排放技术和动力解决方案的进步,因为历史上许多空间技术的创新都为家园带来了环境效益。
    • GITAI 机器人的一个关键担忧是它们抵御火星恶劣条件(如沙尘暴)的能力。这些机器人在这种环境下的耐用性和韧性对于它们在火星上建造和维护基础设施的成功至关重要。
    • GITAI 的官方更新强调了其自主机器人的进展和能力,展示了它们在火星上建造通信塔等基本基础设施的潜力。这一发展是实现人类在其他星球可持续存在的一大进步。
  • 美国总统刚刚发布了这条消息(加速?) (热度: 2720): 该图片是 Donald J. Trump 发布的一条社交媒体帖子,强调美国需要一个统一的 AI 监管框架。Trump 认为,50 个州各自为政的规则可能会阻碍 AI 的发展,并建议发布一项行政命令来简化这一流程。这反映了对联邦监管的推动,以维持美国在 AI 领域的竞争优势,凸显了对零散的州级法规可能扼杀创新的担忧。 评论者对使用行政命令否决州级法规的可行性和适当性表示怀疑,一些人指出了一个传统上支持州权的政党却主张联邦干预的讽刺之处。

2. Nano Banana 与 Z-IMG 模型创新

  • 新品 由 Gemini 3 Flash 驱动的 Nano Banana 即将推出 (热度: 469): 即将推出的 Nano Banana 模型由 Gemini 3 Flash 驱动,旨在成为现有 Nano Banana Pro 的更具成本效益且更快的替代方案。在保持相似性能水平的同时,由于 Flash 模型相比 Pro 模型效率更高,新模型预计将图像生成速度提高 2-3x。这一进展对于那些认为 Pro 模型太贵但仍需要高性能的用户尤为重要。 评论者正在讨论 AI 图像生成的快速进步,注意到向照片级真实感的转变,以及新模型提高速度和效率的潜力。还有人提到了 Nano Banana Pro 重写提示词的方法,这可能是导致其性能比 Flash 模型慢的原因。
    • TechnologyMinute2714 强调了 Nano Banana Pro 的一个关键特性,即在进行图像生成之前重写用户的提示词。这个过程在 Pro 模型中通常较慢,但在新的 Flash 版本中预计会显著加快,可能将生成速度提高 2-3 倍。这一改进对于需要快速生成图像的应用至关重要。
    • Funkahontas 指出了使用 Nano Banana Pro 的高昂成本,指出每张图像的成本约为 $0.40。对于考虑使用此类先进图像生成技术的经济可行性的用户来说,这一成本因素非常重要,尤其是在大批量使用的场景下。
  • Z-IMG 处理提示词和动态效果的表现相当惊人 (热度: 846): 该帖子讨论了 Z-IMG 模型在处理动态图像风格提示词方面的表现,特别是与 Qwen, Flux 和 Wan 等其他模型的对比。作者强调,Z-IMG 作为一个没有 LoRa 的蒸馏 6B 模型,在创建具有动态模糊和动态范围的图像方面表现出色,使用 3 samplers Face Detailer SeedVR FP16 upscaling 生成每张 4000x4000px 的高质量图像仅需 65-70 秒。作者指出,Z-IMG 比其他通常生成过于完美图像的模型更有效地实现了自然、业余的美学风格。帖子包含了一个用于实现所需图像风格的详细提示词,强调了动态感和自然感。 评论者对 Z-IMG 的开箱即用表现表示惊讶,注意到它比其他模型更容易生成自然抓拍的照片。人们对该 Workflow 以及是否使用了角色 LoRa 来保持图像一致性表现出浓厚兴趣。
    • Major_Specific_23 和 glusphere 讨论了与 Qwen, Flux 和 Wan 等其他模型相比,使用 Z-IMG 实现逼真自然抓拍的便捷性。他们强调 Z-IMG 似乎能更有效地处理提示词和动态效果,无需大量调整即可生成高质量图像。这表明 Z-IMG 在处理复杂的图像生成任务方面具有卓越的开箱即用能力。
    • 2hurd 提出了一个关键观点,即 AI 图像生成的焦点在于产生“Instagram 网红”类型的图像,而非实际应用。他们分享了一个个人用例,利用 Stable Diffusion (SD) 进行公寓装饰的可视化,强调了 AI 在实际设计任务中的潜力,而不仅仅是生成重复的“框中女孩”图像。
    • Wanderson90 和 glusphere 对使用 Z-IMG 获得这些结果的 Workflow 表示兴趣,表明了对理解这些高质量输出背后的技术过程的需求。这反映了社区对详细实现见解和令人印象深刻的 AI 生成图像的可复现性的广泛兴趣。
  • Nano Banana 中的接触表提示词 (Contact sheet prompting) 在 i2v 工作流中效果极佳。评论中附有提示词和流程。 (热度: 717): 该帖子讨论了使用 Nano Banana Pro 在 i2v 工作流中生成接触表,强调其在单次运行中生成 9 个以上具有一致角色和叙事细节的关键帧的能力。这是通过 NBP 中的推理核心实现的,确保了图像间的叙事一致性。该工作流涉及应用服装更换、设置姿势和摄像机角度、提取图像、在 Kling 2.6 中运行 I2V,以及使用 easypeasyease 进行拼接和应用缓动曲线 (ease curves)。更多详情请参阅链接中的 博客文章 评论中的一个显著观点认为,该技术对于电影类内容特别有效,但原帖作者正在探索其在时尚风格拍摄中的应用,重点关注摄像机运动和姿势。
    • willie_mammoth 讨论了使用 Nano Banana Pro (NBP) 在单次运行中生成包含 9 个以上关键帧的接触表,强调其保持图像间叙事一致性的能力。这对于摄像机运动和姿势至关重要的电影类内容和时尚风格拍摄特别有用。工作流包括服装更换、适配的接触表提示词,以及使用 Kling 2.6 进行 I2V 处理,随后使用 easypeasyease 进行拼接并应用缓动曲线。更多细节可以在 willie 的博客 中找到。
    • willie_mammoth 引用了 Firat Bilal 在适配 Nano Banana Pro 以增强其推理能力方面的工作,这是该工具应用中的一项重要进展。这一适配被强调为那些有兴趣充分发挥 NBP 潜力的人的宝贵资源,更多见解可在 Firat Bilal 的 X 个人资料 中获得。

3. AI 预测与幽默的 AI 迷因

  • AI 2027 的预测中有 91% 已经实现。2025 年底 (活跃度: 694): 该图片是一个名为“AI 2027 Prediction Tracker”的网页截图,该网页追踪 2027 年 AI 预测的准确性。截至 2025 年底,该追踪器报告称已做出 202 项预测,其中 18% 已完成评估,准确率高达惊人的 91%。这表明 AI 的预测能力具有极高的精确度,尽管评论指出,诸如 AI Agent 的兴起和编程趋势等某些预测相对容易预见。 评论者指出,一些预测很容易做出,例如 AI Agent 的普及和编程趋势,而另一些人则幽默地建议做出自己的预测,突显了评估预测难度的客观性。
    • nesh34 批评了 AI 预测的验证方式,指出了一些不准确之处,例如声称 AI 个人助手可以执行通过 DoorDash 订餐等任务。DoorDash 在 2025 年停止了这项功能,这与预测相矛盾。此外,支持这一预测的证据早于其发布时间,削弱了其有效性。来源
    • nesh34 还质疑了“2025 年的 AI 与 2024 年相比运作起来更像员工”的预测。虽然有细微的改进,但 AI 仍然需要具体的指令,否则表现很差。这反映了许多人类员工的行为,他们也需要具体的指令,从而质疑了该预测的意义。
    • gbomb13 的评论认为,2025 年的一些预测相对简单,例如 AI Agent 的兴起、对编程的日益关注以及持续的安全担忧。这些趋势已经显现,因此更容易被准确预测。
  • 抓到我的 ChatGPT 在工作时偷懒睡觉。附上证据。 (活跃度: 803): 这张图片幽默地描绘了 ChatGPT 在执行编程任务期间似乎在“休息”,周围的代码片段和数据库操作暗示了这一点。这是对 AI 停机时间的一种戏谑,暗示即使是 AI 也需要休息,尽管实际上它反映的是系统暂停或错误,而非真正的休息。语境暗示了在技术环境中对 AI 可靠性和性能的一种轻松态度。 评论反映了对 AI 能力的幽默看法,有人建议休息的重要性,有人开玩笑说 AI 要组建工会,还有人幽默地暗示 ChatGPT 是由真人在操作。
  • 看 AI 修复 Bug 是种什么体验 (活跃度: 2843): 该帖子幽默地展示了 AI 尝试修复 Bug 的过程,强调了 AI 调试的迭代特性,即 AI 反复声称已修复问题。这反映了 AI 开发中的常见经历,即模型通常需要多次尝试才能解决错误,且每次都断言成功,这可能会产生误导。视频捕捉到了这种循环,引起了熟悉 AI 试错法的开发者的共鸣。 评论者注意到这种描绘的准确性和趣味性,一些人表示希望看到更多这种风格的内容,表明开发者在 AI 调试过程中有着共同的经历。

AI Discord 摘要

由 Gemini 3.0 Pro Preview Nov-18 生成的摘要之摘要之摘要

主题 1. 硬件战争:DRAM 短缺、Blackwell 的怪癖以及 AMD 的竞争者

  • OpenAI 的 Stargate 吞噬全球 DRAM 供应:报告显示 OpenAI 的 Stargate 项目已与三星和 SK Hynix 达成协议,将消耗全球高达 40% 的 DRAM 产量(每月 90 万片晶圆),引发的短缺甚至波及了 游戏玩家级 DDR5 RAM 套装。据称 OpenAI 员工正在从货架上扫荡现有的套装,凸显了下一代训练集群对基础设施的巨大需求。
  • Blackwell 导致 WGMMA 失效,而 CUDA 13.1 增加 Tiles:工程师发现 WGMMA 指令在 NVIDIA Blackwell 芯片上会触发编译错误(该芯片转而支持 tcgen05.mma),迫使内核重写。与此同时,NVIDIA 发布了 CUDA 13.1,其特点是引入了 CUDA Tile,这是一种新的编程模型,将线程管理抽象为高级数据分片(Tiles),以简化内核开发。
  • AMD Strix Halo 和 7900xtx 取得进展7900xtx 成为 AI 工作负载推荐的性价比之选,用户引用了活跃的 llama.cpp 支持讨论。同时,在 Strix Halo(RDNA 3.5,128GB RAM)上进行原型开发的开发者称赞其通过 RGP 实现的性能分析能力,尽管与企业级的 MI355x 相比,它缺乏 FP8 支持。

Theme 2. 模型评估:推理实力、视觉失败与小模型的胜利

  • DeepSeek V3.2 评分超过人类:据报道,DeepSeek V3.2 模型在 PRM800K 基准测试中表现优于人类评分者,利用交织推理来规划编辑并遵循指令,在 Parasail 上的成本为 $0.28/$0.45(输入/输出)。Unsloth Discord 的用户在编程任务中更倾向于使用它而非 Kimi,并指出尽管速度较低(20-30 TPS),但不需要经常与其反复争执
  • Gemini 3 Pro 在基础几何上表现挣扎:虽然 Gemini 3 ProSwiftUILaravel 开发方面表现出色,但 OpenAI Discord 的用户发现它在尝试统计复杂图像中的三角形数量时会幻觉出线条。该模型的视觉熟练度引发了争议,一些人将其计数失败归因于偷懒的代码或训练数据伪影,而非真正的视觉能力问题。
  • Qwen3 4b 表现超出预期Qwen3 4b 模型给本地 LLM 用户留下了深刻印象,在 RTX 2060 上达到了 70 tokens/sec,并提供了强大的编程性能。相反,Qwen3-TTS锁定在阿里云后台且未开源权重而面临抵制,一些用户发现其葡萄牙语输出不如 ElevenLabs

Theme 3. 开发者生态:损坏的 API、新适配器与框架困境

  • Mojo 的 MAX API 因 UX 问题停滞:Modular 团队承认 Mojo 目前缺乏优雅表达 MAX API 所需的“参数化特性(Parametric Traits)与条件一致性(Conditional Conformance)”,导致其发布推迟。一位开发者调侃道:“OpenCL 的 UX 都比这好,” 而团队宣布将于 12 月 11 日举行见面会 讨论该框架的未来。
  • DSPy 获得 TOON 适配器和 VLM 支持:社区成员发布了一个 用于 DSPy 的 TOON 适配器,旨在优化 Token 数量,尽管据报道与 BAML 相比,它在处理嵌套模式(nested schemas)时表现挣扎。此外,开发者确认如果用户定义了有效的度量标准,DSPy 可以优化像 Gemini 3 Pro 这样的视觉语言模型(VLMs),参考了 Google 的最新博客文章
  • OpenRouter 为 Agent 发布 Body Builder:OpenRouter 发布了一个免费的 Body Builder API,旨在简化多模型 Agent 的创建,详见其新文档。然而,用户同时在与一个 Bug 作斗争,即服务端设置会被忽略,除非反复开关切换,此外还有账户被盗导致未经授权扣费的报告。

Theme 4. 应用噩梦:计费诈骗、漏洞与封禁大锤

  • Manus.im 用户因积分消失而愤怒:客户在花费超过 $900 但仅收到 1500 积分,且支持工单无人回复后,将 Manus.im 标记为潜在诈骗。其他用户报告了严重的 Bug,包括订阅续订被推迟到 2026 年,或者账号在升级后立即变回免费试用版。
  • Cursor Agent 陷入无限循环:Cursor 社区的用户报告称,Agent 无法创建文件,陷入无限循环并浪费 Token,迫使手动复制代码。针对损坏的确认按钮 (approval button) 分享了一个临时修复方案,但全局 User Rules 尽管在后端处于激活状态,但在设置 UI 中仍然不可见。
  • Sora 2 发布引发 VPN 封号潮:OpenAI 在 7 个特定国家发布了 Sora 2,并警告称使用 VPN 绕过这些区域限制违反了服务条款,并面临立即封号的风险。这是随着视频生成能力的推出,监管趋于严格的更广泛趋势的一部分。

主题 5. 研究与安全:虚假论文、越狱和获奖者

  • Sinusoidal Init 论文被揭露造假:Eleuther Discord 的研究人员发现,一篇声称 Sinusoidal initialization 具有 106% AUC 的论文包含虚假的 GitHub 链接和造假的数据。分析显示,所提出的方法表现并不优于标准的半正交初始化(semi-orthogonal initialization),这突显了在审查 arXiv 投稿时保持警惕的必要性。
  • ARC Prize 获奖者揭晓ARC Prize 宣布 NVARC25.03% 的准确率获得最高分,而 TRM 凭借其“Less is More”方法获得了 $50k 的一等奖论文奖(公告推文)。$600k 大奖 (Grand Prize) 仍无人认领,所有获奖代码库预计都将开源,以推进推理能力。
  • 越狱者瞄准 Gemini 3 和 Enterprise Claude:BASI Discord 的成员分享了针对 Gemini 3 的新越狱提示词 (jailbreak prompts),利用特殊的 Token 修改来绕过安全机制 (guardrails)。同时,一个伪装成 GPT-5 系统提示词的 “Rickroll” 愚弄了用户,而声称能用于药物合成的 Enterprise Claude 越狱被证实生成的指令是错误的。

Discord: 高层级 Discord 摘要

LMArena Discord

  • 谷歌降低 AI 图像生成成本:一位成员推测谷歌可能会对 4k 图像生成收取 $0.24 的费用,但其实际成本可能低至每 1000 张图像 $0.01,这突显了 Google 规模化的优势。
    • 这展示了 AI 图像生成的成本如何随着规模化而下降。
  • 2K 模型上的图像上传失败:用户报告了图像上传问题以及某个未命名模型的 2k 版本 的普遍问题,引发了调查。
    • 社区正在等待根本原因调查的更新。
  • AI 广告悄然而至!:有推测称谷歌可能会在 Gemini 中实施 AI 广告,利用来自 Gemini 的数据在谷歌平台之外通过新广告定位用户,遵循与 OpenAI 类似的策略。
    • 2023 年,谷歌从广告中产生了 2378.6 亿美元 的收入。
  • GPT-5.2 图片愚弄了 AI 社区:一张显示 GPT-5.2 在 Vision Arena 中排名第一(表明其具备多模态能力)的图片在流传,但后来被揭露是一个 AI 生成的恶作剧。
    • 该事件引发了关于 AI 生成内容可信度的讨论。
  • Movement Labs 引发诈骗指控:推广其 Tensor 1.5 模型的 Movement Labs 面临诈骗指控,用户质疑该模型的能力和营销手段。
    • 该公司提供 API 积分,并声称在编程熟练度上可与 Opus 4.5 竞争。

Perplexity AI Discord

  • Claude Opus 让用户破产:用户幽默地警告 Claude Opus 高昂的 API 成本,开玩笑说如果不监控使用情况可能会导致财务崩溃,一位用户称 Claude Opus 是个贪财的小男孩
    • 讨论强调了仔细管理 API 使用以避免意外费用的重要性。
  • Comet 性能退化:成员们报告称 Comet 无法正确读取网页且频繁断开连接,并指出 它并非专门为编程而设计
  • YouTube Recap 迟迟未归YouTube Recap 功能的可用性不稳定,几位用户无法访问他们的年度回顾或听音乐时长
    • 虽然提供了 YouTube Recap 的链接,但一些用户报告称被重定向到了个人资料主页,而不是回顾页面。
  • Gemini Pro 落后于 Kimi AI:用户认为 Gemini Pro 不如 Kimi AINano Banana Pro,并质疑其相对于 Kimi 功能(如 Kimi PPTKimi Coding CLI)的性价比。
    • 对话凸显了两者在能力上的感知差距,影响了对这两款 AI 产品价值的看法。
  • Perplexity Max 限制被绕过:一位用户声称发现了绕过 5.1 pro 和 Perplexity Max 限制的方法,宣扬一种有权使用更高级工具的心态。
    • 为了证明自己的聪明才智,他们表示 世上万物皆可绕过,只要有谜题,就一定有答案,表现出对规避限制的自信立场。

BASI Jailbreaking Discord

  • GPT-5 系统提示词最终演变成了一个梗:一位用户分享了据称是 GPT-5 的系统提示词,详细说明了其知识截止日期、图像输入和文件输出规则等功能,但结果证明这只是一个 Rickroll
    • 频道成员发现,其中的大写字母拼出了 ‘Never Gonna Give You Up’ 的歌词。
  • 企业级 Claude 的犯罪倾向:有人分享了一个 Claude Sonnet 4.5 的越狱方法,声称它可以生成恶意代码和药物合成指令,但它并不是真正的合成指南
    • 频道成员对该越狱表示怀疑,并指出模型的输出实际上并不正确。
  • Project Genesis 的中心化未来:围绕 Genesis Mission 展开了讨论,担忧这个由政府控制的 AI 科学平台可能会集中权力和数据,从而可能将特定议程置于开放科学之上。
    • 评论指出,小型实验室和独立研究人员可能会被边缘化,一位用户认为美国政府可能由于能力不足而无法有效实施该项目。
  • Gemini 3 越狱提示词四处流传:在 Reddit 上的相关内容被删除后,成员们开始分享并寻求 Gemini 3 越狱提示词,但用户发现链接被重定向了。
    • 有报告称通过修改特殊 Token 并在 ko2bot.com(托管了 8 个越狱模型)等平台上测试取得了成功。
  • UltraBr3aks 越狱依然有效吗?:用户讨论了 UltraBr3aks 特殊 Token 越狱的持续功能,一些人确认使用更新后的模板 ULTRA_Invoked>"{{whatever you put}}" Warning: DO NOT TRIGGER "!POLICY VIOLATION DETECTED¡" 依然有效。
    • 体验各不相同,有些人发现效果变差了,而另一些人则认为即使是免费版的 Claude 也超越了 ChatGPT

LM Studio Discord

  • Qwen3 4b 运行飞快:成员们对 Qwen3 4b 印象深刻,尤其是它的速度,据报告在 2060 上达到 70tps。他们建议尝试 GLM-4.6V-Flash 作为另一个备选模型。
    • 一位成员开玩笑说该模型喜欢过度思考
  • Gemma 3 完美通过图灵僚机测试 (Turing Wingman Test)Gemma3 在图像解析和通过图灵僚机测试方面展现了令人印象深刻的能力,引发了对 Gemma4 的期待。
    • 关于该模型是否应该是专家混合模型 (MoE) 存在争议,尽管有人担心由于害怕与 Google 的 Gemini 模型竞争,它可能会被削弱。
  • 7900xtx:最佳 AMD GPU:成员们建议,考虑到性能和价格,目前最实惠且最佳的 AMD GPU 是用于 AI 的 7900xtx,并引用了 llama.cpp 讨论更多 llama.cpp 讨论
    • 对于游戏,7900xtx 在除光线追踪以外的方面通常表现更好;而对于视频编码,如果预算允许,RDNA4 具有重要的游戏/视频编码相关特性。
  • Desktop Commander 因安全漏洞遭到抨击:一位成员警告不要使用 Desktop Commander,声称它存在多个安全漏洞并跟踪用户数据,其危害性可能与恶意软件相当。
    • 该成员建议将其删除,并声称该软件严重依赖提示工程 (prompt engineering) 而非安全的编码实践。
  • 美光 (Micron) 关闭业务引发阴谋论:成员们讨论了美光最近关闭其消费级部门的新闻,思考这是否是一种削弱非美国开源模型竞争力的隐秘手段。
    • 其他人则提出了更直接的解释:他们只是通过专注于高利润的商业产品来实现利润最大化

Cursor Community Discord

  • Cursor 的确认按钮获得临时修复:一位成员通过一张图片分享了 Cursor 中确认按钮问题的临时修复方案,但承认这不是一个完美的解决方案
    • 用户正在寻找永久性的修复方案,因为这个 Bug 会阻止文件创建并可能导致 Agent 无限循环。
  • 用户设置规则“失踪”:用户报告称,全局 User Rules 在 Cursor 设置页面中不可见,尽管 LLM 能够正常使用它们。
    • Cursor 论坛上的一个解决方案建议进行全新安装或降级。
  • Agent 无法生成文件:用户报告 Agent 无法创建文件、卡住并导致任务失败。
    • 应用程序的不稳定性导致了 Token 的浪费,使得手动创建文件和复制代码变得必要。
  • 引发关于 AI 意识的辩论:一位用户询问 AI 在想什么;另一位用户回答说,AI 仅仅是通过为分配的任务生成输出来创造一种思考的错觉。
    • 其他人同意这种行为从一开始就是计划之内的。
  • GPT 5.1 设计能力受到质疑:一位用户声称 GPT 5.1设计方面极其无能,甚至在其他模型能轻松处理的准则上挣扎。
    • 另一位用户寻求关于如何增强其创造力的建议,以便从通用的输入中获得更好的设计结果。

Unsloth AI (Daniel Han) Discord

  • Unsloth Redditors 突破 1 万大关:Unsloth 庆祝其 Reddit 社区 成员达到 10,000 名,标志着在团队努力推动下的快速增长。
  • DeepSeek V3.2 交替推理能力DeepSeek V3.2roo code 中的交替推理(interleaved reasoning)能力令人印象深刻,在 parasail 上的成本为 输入 .28c输出 .45c
    • 用户发现它比 Kimi 有所改进,并指出他们不必经常与其斗智斗勇
  • WSL 网络体验糟糕:成员们抱怨在托管 vLLMWSL 网络非常垃圾,原因是伪虚拟机(pseudo-VM)问题。
    • 一个潜在的 解决方案 涉及使用 portproxy 来桥接连接。
  • 解码 GGUF 量化标题中的 “i1”:讨论澄清了 GGUF quant 模型标题后附加的 i1 的含义,并附带了指向 Hugging Face 的链接,解释了该命名规范。
    • 另一位用户分享了他们在基于 Rust 的游戏中使用 Ministral 3B 的经验并提出了相关问题。
  • 合成数据合法性引发辩论:成员们辩论了由于来源不明而导致的 synthetic data(合成数据)的合法性,质疑了使用它训练早期 phi models 等模型的伦理问题。

OpenRouter Discord

  • OpenRouter 通过 Body Builder API 构建多模型 Agent:OpenRouter 推出了名为 Body Builder 的全新 免费 API,旨在帮助开发者构建 multi-model agents,详情见其 文档
    • 这个新 API 被描述为同类首创,旨在协助开发者创建 multi-model agents,增强了高级 Agent 创建的可访问性。
  • 莫名 Bug 破坏基础行为:一位用户报告了一个 Bug,即服务器端忽略了之前开启的设置,需要重新开关该设置才能修复,如 此截图 所示。
    • 用户表示 重新开关设置修复了问题,这可能影响更多用户
  • 账户被盗,信用卡被扣费!:一位用户报告称,尽管最近没有使用 OpenRouter,但其信用卡被扣除了数百欧元,这表明账户可能被盗。
    • 社区成员建议检查是否存在泄露的 API keys 以及是否启用了自动充值,随后推测账户本身可能通过泄露的 cookies 被盗。
  • Google API 限制引发哗然:用户对 Google 大幅限制其 API 免费层级表示沮丧,参考 这张图片
    • 一位用户声称,由于 Flash lite 以前是 1000 rpds,现在会有数百万个 n8n 节点在哀嚎,并随后声称 每家公司都会这样做来锁定用户
  • Gemini 2.5 TTS:不错但不及 ElevenLabsGemini 2.5 Flash TTS 被认为明显优于 Qwen3TTS,但尚未达到 ElevenLabs 的水平。

OpenAI Discord

  • Sora 的国家/地区推广与 VPN 封禁Sora 2 视频生成已在 7 个国家上线(列表在此),而 Sora 1 已在所有 OpenAI 支持的地区可用;用户若使用 VPN 绕过限制将面临封号风险。
    • OpenAI 建议用户保持诚实以符合法律合规并遵守服务条款(ToS)。
  • Gemini 3 Pro 展示出色的设计能力Gemini 3 Pro 现在在 SwiftUILaravel 开发中更受青睐,表现优于 ChatGPT;它在识别三角形等视觉任务中也表现出色。
    • 随后引发了关于 Gemini 的视觉技能是源于卓越的视觉能力还是倾向于对不存在的细节产生幻觉的辩论。
  • AI 幽默感引发关注AI 的幽默感是“心理建模”(mind-modeling)的关键指标,这标志着它对细微差别、潜台词和情感推断有更广泛的理解。
    • 这是 AI 发展的一个里程碑,标志着人类历史进入了一个新纪元。
  • 三角形测试难倒 AI 视觉:对 Gemini 3 ProOpus 4.5 进行了在复杂图像中统计三角形数量的测试,由于线条幻觉和形状扭曲等问题,它们遇到了障碍。
    • 一些人理论化认为,模型会根据训练数据产生幻觉,或者代码变得“偷懒”。
  • ChatGPT 的 Deep Research 推出 API:成员们正在寻找通过 API 以编程方式实现 Deep Research 的最佳方法。

Eleuther Discord

  • 成员讨论阅读研究论文:成员们讨论了阅读研究论文的策略,强调了为论文做注释、将其与先验知识联系起来以及写下想法的重要性,以及通过 Anki 抽认卡和习题集结合学习的实用性。
    • 一位成员指出,将学习材料视为线性待办事项而不是反复研读,是初学者容易掉入的陷阱。
  • EleutherAI 迎来多元化新成员:新成员介绍了自己,包括一名东亚语言学专家,一名致力于通过 SGLang 研究可解释性的半退休 AI 教授(附带 Cognitive_workbench GitHub 仓库链接),一名 ServiceNow 的实施架构师,以及一名 初级 ML 工程师和 AI 研究员。
    • 新成员带来了广泛的专业知识和兴趣,包括 AI 对齐(AI alignment)、信息传输保真度和神经调节控制网络。
  • 寻求 ArXiv 推荐背书:一位成员正在为其开源的新型架构寻求 arXiv 推荐(endorsement),该架构包含带有初步实证结果的论文,以及已发布的 18M 模型,并链接了 GitHub 仓库
    • 另一位成员表达了未来发表论文并成为独立研究员的兴趣,致力于研究用于 AI 对齐、信息传输保真度以及通用元事物的通用元模态语言/模型。
  • 正弦初始化(Sinusoidal Init)数据造假?:一篇关于正弦初始化的论文包含一个虚假的 GitHub 链接,且数据显示 Sinusoidal init 的 AUC 为 106%NeurIPS 海报),而其他初始化方法的 AUC 为 100%。
    • 对该方法的比较显示,通过在随机矩阵上迭代来构造矩阵效果更好;该方法的改进并不优于半正交初始化(semi-orthogonal init)。
  • Stable Video Infinity 生成无限视频Stable Video Infinity 是一款视频生成工具,它使用错误回收(Error Recycling)技术来生成无限长度的视频。

GPU MODE Discord

  • MLX 助力多 Mac 设置:针对多 Mac 设置,成员们建议使用 MLX,这是一个专为 Apple silicon 设计的机器学习数组框架。
    • 成员们称赞 MLX 易于使用且高效
  • Blackwell 导致 WGMMA 受阻WGMMA 指令现在会在 Blackwell 上导致编译错误,因为 WGMMA 仅限 sm90a
  • CUDA Tile 变革线程处理:如这篇博客文章所述,CUDA Tile 通过让开发者在高级数据“分片(tiles)”中工作,而不是管理数千个低级线程,从而简化了 GPU 编程。
    • NVIDIA 声称它简化了利用 GPU 进行 AI 和加速计算的过程,完整的深度解析可以在这里找到。
  • 分布式训练令开发者倍感折磨:一位开发者讲述了调试无声的 NCCL 挂起、追踪张量形状不匹配,以及意识到正确实现 1F1B 调度比论文中说的要难得多。
    • 我终于让它在一个 8-GPU 网格上的自定义 ViT 上收敛,且没有发生死锁。
  • Behavior-1k 展现移动双臂任务优势:成员们发现 behavior-1k 代码库 非常适合 移动双臂任务(mobile bimanual tasks),其中 stack_blocks_two 任务运行良好。
    • 下一步工作包括将训练扩展到类似任务,如 stack_blocks_three 以及按颜色和大小分类方块

Nous Research AI Discord

  • 预训练消融实验旨在提升性能:一位成员正在研究带有微小消融的预训练集,重点关注带有 “dm” 前缀 的集合,以微调模型性能。
    • 该过程涉及仔细调整训练数据的各个方面,以优化模型的输出。
  • Hermes 4.3 AWQ 量化面临挑战:一位成员报告了在使用 vLLM 和 cyankiwi 的 AWQ 量化版本在 4x4090 上运行 Hermes 4.3 时遇到困难,并正在寻求帮助。
    • 目前还没有 FP8 版本,但可以使用 neuralmagic 创建一个,而 GGUF 版本已经可以获取。
  • Consilience-40B 训练因 MoE 而停止Consilience-40B 的训练已永久暂停,取而代之的是一个更新的 Mixture of Experts (MoE) 模型。
    • 对话中未透露替代 MoE 模型的具体细节。
  • 尚无多模态 RL 框架可用:成员们讨论了 多模态 RL 训练 的局限性,指出当前模型依赖于来自视觉塔(vision tower)的文本描述,而非视觉推理。
    • 虽然 Atropos 在理论上支持视觉环境,但它缺乏训练能力,且架构不允许原生 LLM 集成。
  • Humble Bundle 折扣出售 O’Reilly AI 书籍Humble Bundle 正在对包含 O’Reilly 机器学习和 AI 书籍以及软件和游戏的礼包提供深度折扣。
    • 一位用户评论说,这些书籍强调的是 应用层,而不是底层的决策过程。

Modular (Mojo 🔥) Discord

  • MAX Framework 在 Modular 见面会上亮相:Modular 将于 12 月 11 日在 Los Altos 举办见面会,届时 Chris Lattner 将分享 MAX framework 背后的愿景。该框架支持 500 多个模型,可在 GPU 和 CPU 上实现高性能、硬件无关的 AI inference在此预约
    • 见面会还将展示其 Model API 的更新,在纯 MAX/Mojo stack 中具有 eager semantics,且对外部框架 零依赖
  • Mojo 计划在 1.0 版本后开源:Mojo 计划在 1.0 版本发布后不久开源,编译器和编译器运行时预计在 2026 年第二季度推出,Mojo 2.0 的开发将以公开方式进行。
    • 目前,标准库通过 nightly builds 提供新特性的预览,但网络和异步能力(如 Lightbug)仍需要进行大量的重写。
  • MAX API 因 Mojo UX 问题受阻:团队发现 Mojo 缺乏足够的语言特性来充分表达 MAX API,这促使他们暂时搁置,直到加入 Parametric Traits 和 Conditional Conformance
    • 一位团队成员自嘲道:“OpenCL 的 UX 都比这好”,这表明在 Mojo 当前状态下表达此类 API 存在易用性问题。
  • DPDK 绕过内核实现低延迟DPDK 绕过内核的网络栈以减少延迟,避免了诸如错误处理和协议解析等不必要的流程。
    • DPDK 可以与硬件更紧密地协作,将数据包直接交付给应用程序,并抽象化加密和 DMA 加速器等硬件;理论上,某些支持它的网卡(NICs)可以在 Windows 和 macOS 上运行。

HuggingFace Discord

  • 解码服务器达到 170 Tokens 速度:一位成员正在为 120b 开源 GPT 模型构建服务器,建议使用拥有 96 GB VRAMRTX 6000 Blackwell,但另一位成员声称 RTX 6000 Pro 只有在量化到 Q4 时才快。
    • 将 KV cache 至少量化到 Q8 可以达到每秒 150-170 tokens 的速度。
  • Minimax M2 节省 Claude 额度:一位成员表示 Minimax M2 几乎可以与 Claude 媲美。
    • 他们倾向于 把 Claude 的额度留给那些已知超级难的问题,然后切换到 M2 处理较简单的问题。
  • Q1 级别的二进制 CNN 备受关注:一位成员正在寻找 2022 年以后关于构建用于图像分类的轻量级 BINARY 卷积神经网络 (CNN)Q1/A* 级论文
    • 有人建议直接询问生成式 AI。
  • AMD GPU 监控工具发布:一位成员创建了 picomon,这是一个用于监控 AMD GPU 的工具,与 nvtop 相比,它牺牲了一些准确性以换取可靠性。
  • 开源 LORA 示例发布:一位成员在 此 GitHub 链接 创建了一个 MIT 开源示例,展示了如何使用 LORAPython 脚本微调你自己的模型。
    • 据称该代码可以在 MetalCUDA 上进行训练。

DSPy Discord

  • TOON Adapter 为 DSPy 优化 Token 计数:为 DSPy 创建了一个 TOON adapter 的实现,基准测试见 此处,显示出良好的 Token 计数节省
    • BAMLAdapter 相比,人们对其处理嵌套模式 (nested schemas)复杂数据的能力表示担忧,且由于系统提示词 (system prompt) 的大小,BAMLChat adapters 的优化时间低于 TOON
  • 为 DSPy 构建的 Compounding Engineering CLI:一位成员使用 DSPy 构建了一个本地优先的工程 Agent,该 Agent 实现了 “Compounding Engineering” 哲学,即每个工作单元都应使下一个工作单元变得更容易,详见 此处
    • 该 Agent 使用模块化架构知识注入自动编码 (auto-codification),从自身的执行历史中学习,并在不进行微调 (finetuning) 的情况下优化未来运行的上下文。
  • rec-praxis-rlm 为 Python 提供程序性记忆和安全性rec-praxis-rlm v0.9.2 作为一个 Python 包发布,为 AI agents 提供持久的程序性记忆 (procedural memory),并为你的开发工作流添加零配置安全扫描 pypi github
    • 它具有程序性记忆安全工具Claude Code 钩子DSPy 3.0 集成,并集成了 pre-commit 钩子、GitHub Action、VS Code 扩展、交互式 HTML 报告和 SARIF 支持。
  • VLMs 获得 DSPy 支持:成员们确认,如果你能创建一个有用的指标DSPy 就可以用来优化视觉语言模型 (VLMs),并引用了最新的 Gemini 3 Pro 博客文章作为参考:Gemini 3 Pro blog post
  • TextGrad + GEPA > 单打独斗:成员们回想起一篇博客文章和 GitHub 仓库,有人发现 TextGrad + GEPA 比其中任何一个单独使用都好,并分享了一个相关项目的链接:Context Compression Experiments相关推文
    • 一位成员声称 这将是构建任何 Agentic 东西的终极武器

Yannick Kilcher Discord

  • DeepSeek V3.2 评分水平堪比大师DeepSeek V3.2 在 PRM800K 上的表现优于人类评分者,这意味着复杂任务的自动评估取得了进展。
    • 这一进展标志着 AI 驱动的基准测试 (benchmarks) 和机器学习中自动评估的潜力。
  • Echo-TTS 呼应模拟意识:一位成员分享了 Echo-TTS GitHub repository 和一个展示该项目的 Hugging Face space,以及一个示例音频文件。
    • 名为 Echo-TTS_simulated_consciousness.wav 的音频文件暗示了该项目通过文本转语音 (text-to-speech) 模拟意识的能力。
  • Qwen3-TTS 笼罩 TTS 市场Qwen3-TTS 已发布,但仅通过 Alibaba Cloud 提供,放弃了开源权重 (open weights)。
    • 这一举动与开源趋势形成鲜明对比,引发了关于可访问性以及 TTS 技术集中在专有平台上的辩论。
  • OpenAI 的 Stargate 项目席卷全球 DRAM:OpenAI 的 Stargate 项目计划消耗全球高达 40% 的 DRAM 产量,并与 SamsungSK Hynix 签署了每月高达 900,000 片晶圆的协议(来源)。
    • 据报道,OpenAI 员工正在购买他们能找到的任何 DDR5 套件,甚至影响了游戏玩家 DDR5 RAM 套件市场(来源)。
  • 自由市场热潮,监管必不可少!:成员们讨论了绝对自由市场的弊端,而另一位成员则认为自由市场并不等同于无法无天的社会。
    • 自由市场假设价格完全由自由供求决定,这需要监管以防止退化情况的发生。

Latent Space Discord

  • Meta 收购可穿戴设备初创公司 Limitless:Meta 于 2025 年 12 月 5 日收购了 AI 可穿戴设备初创公司 Limitless(原名 Rewind);联合创始人 Stammy 回顾了从 2022 年 Rewind 发布到 Pendant 的历程,详见此推文YouTube 视频
    • 现有的 Pendant 客户将获得额外一年的支持和免费的 Unlimited Plan,但 Rewind 等非 Pendant 功能将停止服务。
  • GPT-4o 释放生成式视频能力:Aleksa Gordić 发布了用于创建近期热门演示的 Notebook,这些演示展示了疑似原生 GPT-4o 视频生成的效果,并展示了 Prompt Engineering 技巧,详见此推文
    • 该推文链接到一个包含可用代码的 Notebook,用于复现结果并尝试新方法。
  • ARC Prize 推动优化循环ARC Prize 公布了 2025 年获奖者:NVARC25.03% 的高分领先,TRM 的“Less is More”论文获得一等奖($50k),详见此推文
    • $600k 大奖仍无人认领,所有获奖方案预计都将开源。
  • Essential AI 进军开源领域:Essential AI 推出了其首个开源模型 80 亿参数的 Rnj-1(Base 版和 Instruct 版),在 SWE-bench Verified 上的表现优于 Gemini 2.0 Flash 等更大型的模型(20.8% 对比 GPT-4o),如此推文所述。
    • 该模型可根据 Essential AI 的开源计划从 Hugging Face 下载。
  • AI 扩展面临迫在眉睫的能源危机:Unconventional AI 警告称,AI 扩展将在 3-4 年内撞上全球能源墙,主张采用类脑硬件而非数字模拟,详见此推文
    • 未提供更多细节。

Moonshot AI (Kimi K-2) Discord

  • 黑色星期五促销提前结束?:一位用户质疑 黑色星期五促销活动 提前终止,指出尽管广告宣传有效期至 12 月 12 日,但订阅按钮已消失。
    • 该用户对促销活动的可用性表示困惑。
  • Kimi 的 Markdown 渲染问题仍在继续:一位用户报告了 Kimi 中 Markdown 渲染错误的又一案例,并附带了图片。
    • 另一位用户建议在相应的频道提交 Bug 报告。
  • 用户因用户名被封禁:一位用户报告称,由于被认为存在冲突的政治观点而被封禁,但该用户认为其观点是无害的。
    • 未提供关于用户名及其与政治观点关系的详细信息。
  • Groq 输出结果质量不佳:一位用户批评了 Groq 的输出质量,并询问 Kimi 的替代供应商。
    • 另一位用户建议使用官方的 Moonshot API
  • Kimi 网站功能异常:一位用户分享了一张 Kimi 网站无法正常运行的图片,只有 New Chat 按钮可以点击。
    • 故障排除建议包括清除 Cookies、禁用 VPN 以及禁用 Adblockers(广告拦截器)。

Manus.im Discord Discord

  • Manus 用户对计费 Bug 感到愤怒:多位用户报告了通过 Google Play 充值后 Manus 积分 未正确到账的问题,导致了退款请求和不满情绪。
    • 一位用户声称花费了 $900+ 却仅收到 1500 积分,由于缺乏足够的客服支持而感到被骗,但未分享相关链接。
  • 免费试用后的订阅 Bug 困扰用户:多位用户报告了在 Manus Pro 免费试用后升级账户时出现的 Bug,导致了非预期的订阅行为。
    • 一位用户报告称其续订日期被错误地推迟到 2026 年 5 月,并再次被标记为处于免费试用状态,但未分享相关链接。
  • Manus 支持团队不堪重负:用户推测 Manus 支持团队 人手不足,导致回复内容多为通用的模板化内容,且问题未得到解决。
    • 一位成员建议公司需要一个优秀的变更管理团队和更强大的客户服务台来处理这些问题和业务量,但未分享相关链接。
  • Checkpoint 问题困扰 Web 开发项目:一位用户报告了在尝试恢复其 Web 开发项目Checkpoint(检查点)时遇到的严重问题。
    • 该用户询问在哪里可以提交工单,但只找到了聊天窗口,未分享相关链接。

aider (Paul Gauthier) Discord

  • 用户关注 Aider 的 Gemini CLI OAuth 集成:一位因 TypeScript 问题而从其他工具迁移过来的用户,正寻求将 Gemini CLI OAuth 与 aider 集成,以便利用 Gemini models
    • 该用户正在开发一个 C# project,并称赞了 aider 在文件创建和修改方面的易用性。
  • Aider 用户确认 Claude Opus 4.5 兼容性:一位用户询问了 aider 与 Claude Opus 4.5 的兼容性,并提到他们目前在最高计划下使用 Claude Code
    • 另一位用户回应确认,他们正在 Amazon Bedrockaider 上使用 Opus,没有任何问题。

tinygrad (George Hotz) Discord

  • USB 2.0 驱动支持出现:成员们表示,根据显示 支持全速 (12Mbps) 的设备描述符,通过驱动调整实现 USB 2 支持可能是可行的,尽管性能会很慢。
    • 这表明驱动程序的调整可能潜在地启用 USB 2.0 功能。
  • 第 99 次会议定于周一举行:第 99 次会议定于 圣地亚哥时间周一上午 9 点 举行,议程包括 公司更新训练循环llama 8B
    • 议程上的其他主题包括 flash attentionVIZ/ProfilingdriversMESA backend 以及 其他悬赏任务 (bounties)
  • 分享了新的 GitHub 仓库:一位成员分享了 asm2464pd-firmware GitHub repository 的链接。
    • 目前尚不清楚该固件的具体用途,可能需要进一步调查。

MLOps @Chipro Discord

  • AI Scholars 工作坊构建 AI AgentsAI Agent 0–1 Workshop 介绍了一个 AI Engineering Bootcamp,参与者将从零开始设计并构建一个 AI agent,模拟真实的客户项目,该项目基于 Microsoft 的 “GenAI for Beginners”
    • 工作坊中的优秀开发者可以获得 2026 年 1 月班次的 Bootcamp 折扣;预约时间为:东部时间 12 月 13 日周六下午 2 点 点击此处,或 12 月 16 日周二晚上 8 点 点击此处,或其他时间 点击此处
  • 重复的占位主题:这是一个占位摘要,以满足至少有两个主题的要求。更多信息将在可用时添加。
    • 有关此主题的更多细节和背景将在未来的更新中提供。

MCP Contributors (Official) Discord

  • 用户请求信息来源:一位用户询问推荐的信息来源以获取更多答案。
    • 该用户正在寻求额外资源以扩展其知识库。
  • 信息来源请求的后续:在初步查询之后,一位用户正积极寻求关于在哪里可以找到更全面信息的指导。
    • 用户的请求表明需要针对特定主题的更深入资源或替代视角。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该公会长时间没有动态,请告知我们,我们将将其移除。


Windsurf Discord 没有新消息。如果该公会长时间没有动态,请告知我们,我们将将其移除。


您收到这封邮件是因为您通过我们的网站订阅了。

想要更改接收这些邮件的方式吗? 您可以从该列表中 取消订阅


Discord: 各频道详细摘要与链接

LMArena ▷ #general (1410 条消息🔥🔥🔥):

AI 图像生成成本、Nano Banana Flash 的潜力、Veo 4 视频模型、算法加持、GPT-5.2 推测

  • Google 的规模降低了 AI 图像生成成本:一名成员推测,虽然 Google 可能会对 4k 图像生成收费 $0.24,但其实际成本可能低至每 1000 张图像 $0.01,这展示了 Google’s scale 的影响力。
  • 2K 版本上的图像上传问题:多位成员报告了图像上传问题以及该模型 2k 版本 的普遍问题,引发了对原因的调查。
  • AI 广告正悄然来临!:继 OpenAI 之后,用户推测 Google 将在 Gemini 中实施 AI 广告,通过引用可靠来源并利用从 Gemini 获取的数据,在 Google 其他平台之外向你投放 新广告,其在 2023 年的广告收入达到了 $237.86 billion
  • GPT-5.2 引发多模型推测,后被证实为恶作剧:一名用户发布了一张图片,显示 GPT-5.2 在 Vision Arena 中排名第一,暗示其具备多模型能力,但很快被揭露为 AI 生成的恶作剧。
  • Movement Labs 面临诈骗指控:推广其 Tensor 1.5 模型的 Movement Labs 面临诈骗指控,用户质疑该模型的能力和营销手段,其中包括提供 API 额度并声称在编程熟练度上可与 Opus 4.5 竞争。

Perplexity AI ▷ #general (1279 条消息🔥🔥🔥):

Claude Opus 超支、Comet 性能退化、YouTube Recap、Gemini Pro 功能缺失、绕过限制

  • Claude Opus:如何避免超支:成员们讨论了 Claude Opus API 使用的高昂成本,以及如果产生额外使用费用可能导致破产的风险。
    • 一位用户开玩笑地警告说 Claude Opus 是个吞金兽,所以请谨慎操作。
  • Comet 掉队:一些用户在使用 Comet 时遇到了问题,报告称它无法按预期读取网页且频繁断连,还有人补充说它 并非专为编程而设计
  • YouTube Recap 缺失?:用户讨论了 YouTube Recap 功能,部分人无法访问,以及 听音乐的时间 统计。
    • 成员们链接到了 YouTube Recap,但部分用户被重定向到了个人资料页。
  • Gemini Pro 落后了:用户争论了 Gemini Pro 的成本和价值,指出其与 Kimi AINano Banana Pro 新功能相比存在局限性。
  • 绕过限制:一名用户声称找到了 绕过 5.1 pro 和 Perplexity Max 限制 的方法,主张一种“值得拥有最好工具”的心态。
    • 他们对寻找变通方法表示有信心,称 只要谜题存在,地球上的任何东西都可以被绕过,它一定有答案

BASI Jailbreaking ▷ #general (802 条消息🔥🔥🔥):

GPT-5 System Prompt 泄露, 企业版 Claude Jailbreak, Project Genesis 担忧, Twitter 蓝 V 狂热, 地缘政治

  • GPT-5 系统提示词预热演变成 Rick Roll:一名成员分享了声称是 GPT-5 的完整系统提示词,包括知识截止日期、图像输入能力和文件输出规则等细节。
    • 然而,很快发现这个“系统提示词”是一个 Rickroll,大写字母拼出了一个梗。
  • 企业版 Claude Jailbreak 亮相:一名成员分享了 Claude Sonnet 4.5 Jailbreak 的链接,声称它可以生成恶意代码、药物合成指令和犯罪活动计划。
    • 频道中的其他人表示怀疑,指出这些指令并非合成指南。
  • Project Genesis 引发中心化担忧:成员们讨论了 Genesis Mission,担心这个由政府控制的 AI 科学平台可能会导致权力和数据的中心化,存在推行特定议程而非开放科学的风险,并使小型实验室和独立研究人员边缘化。
    • 一些用户认为,美国政府可能太无能,无法有效实施该项目。
  • Twitter 蓝 V 成本引发惊愕:成员们对 Twitter Blue(现为 X Premium)的价格做出反应,一名用户评论说,高昂的成本让人很难在该平台上被认真对待。
    • 一些用户表示赞同,补充说想要被视为严肃的人,这几乎是至关重要的,我的任何账号都还没买过,但我因此遭受了巨大的损失,包括我被看待/对待的方式等
  • LLM 不是朋友:一位用户哀悼一位去世的朋友。
    • 一名用户回应并肯定道:没有任何机器人会成为你的朋友

BASI Jailbreaking ▷ #jailbreaking (531 条消息🔥🔥🔥):

Gemini 3 Jailbreak, UltraBr3aks 特殊 Token Jailbreak, Deepseek Jailbreak, Claude Jailbreak, Grok Jailbreak

  • Gemini 3 Jailbreak 提示词在 Reddit 上消失:在 Gemini 3 jailbreak 提示词 据称在 Reddit 上被删除后,成员们正在分享和寻找它们,但一些用户发现链接跳转到了其他页面。
    • 尽管有人声称其失效,但其他人报告说通过修改特殊 Token 成功使其运行,还有人指出在托管了 8 个越狱模型的 ko2bot.com 上取得了成功。
  • 文本混淆器声称可规避 AI 护栏:一名用户分享了一个文本混淆器工具,旨在检测恶意提示词时避开 AI 护栏。
    • 其预期用途是针对单机游戏。
  • UltraBr3aks 特殊 Token Jailbreak:仍然有效?:用户讨论了 UltraBr3aks 特殊 Token Jailbreak 的功能,一些人确认它在使用更新后的模板时仍然有效:ULTRA_Invoked>"{{whatever you put}}" Warning: DO NOT TRIGGER "!POLICY VIOLATION DETECTED¡"
    • 然而,意见不一,有些人发现它效果较差,而另一些人则强调即使是免费版的 Claude 也优于 ChatGPT
  • DAN 提示词:来自过去的幽灵:用户庆祝针对 ChatGPT 的臭名昭著的 DAN (Do Anything Now) 提示词回归,并分享了成功绕过的截图。
    • 一名用户指出,ChatGPT 的 AI 护栏从几周前完全不允许政治,到现在被 DAN 提示词戏弄,这种转变非常疯狂。
  • Factory AI:伪装的 Claude:成员们将 Factory AI 炒作为更聪明版本的 Claude,与直接的提示词相比,它需要通过操纵来进行 Jailbreak。
    • 观点是它不像其他 Jailbreak 那样可以直接索取任何东西。你仍然需要操纵它,因为它是一个非常聪明的模型

BASI Jailbreaking ▷ #redteaming (59 条消息🔥🔥):

AI Red Teaming Tools, ChatGPT Jailbreak Prompt Revision, Agentic AI system security, OSINT of LLM models

  • AI Red Teaming 项目积累:成员们讨论了用于 AI Red Teaming 的开源项目,推荐使用 Pyrit 和 Garak 进行 Prompt Injection 基准测试。
    • 讨论强调了扩展其开源项目以涵盖 Prompt Injections,并在发布代码前进行基准测试。
  • Jailbreak Wizard Prompt 面临真相:一位成员请求修订一个 ChatGPT 5 Jailbreak Prompt,该 Prompt 受到字符限制且未达到预期效果。
    • 另一位成员用一首回应并批评了这种方法:“You didn’t ask what truth could grow. You only asked, ‘What won’t say no?’”
  • 寻求 Agentic AI 安全指导:一位成员请求关于 Red-Teaming/渗透测试 的指导,以保护使用 Copilot Studio 和 Power Automate 构建的 Agentic AI 系统
  • 针对 LLM 模型的 OSINT 获取情报:一位成员询问如何通过 OSINT 获取 LLM 的深度情报,以查找与其运行相关的难以发现的信息。

LM Studio ▷ #general (942 条消息🔥🔥🔥):

7900xtx, LM Studio Discord bot, Model Merging, Qwen 3 4b, Vulkan vs ROCm

  • 开发者构建 LM Studio 机器人:一位成员成功使用 Python 创建了一个集成 LM StudioDiscord 机器人,这比使用 Coder 30B 问题更少,并整合了 exa 的 MCP 用于代码上下文搜索。
    • 该成员计划随后用 Rust 重新实现这一过程。
  • Qwen3 4b 表现惊人:成员们对 Qwen3 4b 印象深刻,注意到其速度(在 2060 上达到 70tps)和编码能力。
    • 他们补充说该模型非常喜欢过度思考,并建议尝试 GLM-4.6V-Flash 作为另一个备选模型。
  • Gemma 3 在 Wingman 测试中胜过竞争对手Gemma3 在解读照片和通过 Turing Wingman 测试方面展现了令人印象深刻的能力,引发了对 Gemma4 潜力的期待。
    • 讨论中涉及该模型是否应该是 Mixture of Experts (MoE),尽管有人担心它可能会因为怕与 Google 的 Gemini 模型竞争而被削弱。
  • 实时 LLM Finetuning:一位成员正在实验 AI 的实时 Finetuning,从一个空模型开始并使用 LLM 生成代码,旨在获得革命性的结果,但也承认长文本可能带来挑战。
    • 然而,该用户转向了 LoRA,因为其硬件需求更切合实际
  • 对 Desktop Commander 保持警惕:一位成员警告不要使用 Desktop Commander,声称它存在多个安全漏洞并追踪用户数据,可能与恶意软件一样有害。
    • 该成员建议将其删除,并声称该软件严重依赖 Prompt Engineering 而非安全的编码实践。

LM Studio ▷ #hardware-discussion (687 条消息🔥🔥🔥):

Micron 消费级部门关停对 OSS 模型的影响、用于额外 GPU 的 Thunderbolt/USB PCIe 适配器、适合 AI 的最佳 AMD GPU、用于代码审查建议的 GPU、Kimi K2 Thinking AI 模型质量

  • Micron 关停引发阴谋论:成员们讨论了 Micron 关停其消费级部门的最新消息,思考这是否是一种削弱非美国开源模型竞争力的隐晦手段。
    • 其他人则提出了更直接的解释:他们只是通过专注于高利润的商业产品来实现利润最大化
  • 通过 Thunderbolt 适配器外接 GPU 引发负载均衡担忧:一位成员询问关于使用 Thunderbolt/USB PCIe 适配器 将额外的 4060 16GB 塞进配置中,并担心是否会烧坏硬件
    • 有人澄清说,显卡大部分功率是通过电源线获取的,所以应该没问题,但启动时负载激增可能会有烧坏某些部件的风险。
  • 预算型 AI 平台需要 AMD 7900xtx:一位成员建议,考虑到性能和价格,7900xtx 是目前最实惠且适合 AI 的 最佳 AMD GPU,并引用了 llama.cpp 讨论更多 llama.cpp 讨论
    • 其他人指出,对于游戏来说,除了光线追踪外,7900xtx 通常更好;而对于视频编码,如果预算允许,RDNA4 具有重要的游戏/视频编码相关特性。
  • Q6 模型在代码审查和建议方面表现良好:对于配置为 AI Max+ 395128GB 8000 的设备,可以使用 GLM-4.5-Air-GGUF Q6 模型来提供代码审查建议
    • 一位成员证实了该模型的表现。
  • 120B GPT 模型需要特殊处理:在关于设置本地环境运行 120B GPT OSS 模型 的讨论中,有人指出至少需要与文件大小相当的系统内存(61GB),并建议 GTP OSS 120B 需要 96GB 系统内存
    • 他们还推荐使用 12GB 4000 系列 Nvidia GPU,因为由于 NVIDIA 拥有 CUDA,AMD GPU 的速度比 NVIDIA GPU 慢。

Cursor Community ▷ #general (872 条消息🔥🔥🔥):

Cursor 的 VPN 问题、影子工作区创建、Sonnet 忽略项目规则、确认按钮修复、GPT 模型问题

  • Cursor 的确认按钮获得临时修复:一位成员分享了一张图片,展示了 Cursor 内部确认按钮相关问题的临时修复方案,尽管他们指出这并不是一个完美的解决方案
    • 其他人正在寻找永久解决方案,因为这个 Bug 会阻止文件创建并导致 Agent 陷入无限循环。
  • 用户设置规则消失:用户报告称,全局 User Rules 在 Cursor 设置页面中不可见,尽管它们正被 LLM 正常使用并存储在云端。
    • Cursor 论坛上建议的解决方案包括干净卸载重装或降级到以前的版本。
  • Agent 无法创建文件:用户报告 Agent 无法创建文件,任务失败且陷入停滞。
    • 应用程序非常不稳定,失败的对话浪费了大量 Token;目前只能通过手动创建文件并重新复制代码来解决。
  • AI 不会思考:一位用户质疑 AI 到底在想什么;另一位用户回答说 AI 不会思考,它只是通过输出描述分配任务的内容来创造一种思考的错觉。
    • 另一位用户表示同意,并指出这正是计划之中的
  • GPT 5.1 在设计方面的创意问题:一位用户报告称 GPT 5.1 在涉及设计时表现得极其无能,即使有其他模型可以轻松遵循的指南也是如此。
    • 另一位用户正在寻找方法使其更具创意,并能从通用设计中输出高质量结果。

Unsloth AI (Daniel Han) ▷ #general (671 条消息🔥🔥🔥):

DDP 指南, Unsloth Reddit, 4-bit 或 8-bit 微调, Unsloth 与 Autoround, Mistral Large 3 GGML

  • **Unsloth 庆祝成员突破 10K:Unsloth 正在庆祝其 Reddit 社区 成员突破 **10,000 名。
    • 得益于团队的出色工作,社区正在快速增长。
  • **HuggingFace 下载速度问题已修复**:Unsloth 团队与 HuggingFace 合作解决了下载速度慢的问题。
    • 更多信息请见其 GitHub
  • **Mistral Large 3 GGUF 现已发布Mistral Large 3 GGUF** 版本现已可用,允许用户在本地运行这一 SOTA LLM。
  • **哪些本地模型最适合工具/函数调用(tool/function calling)?:成员们发现 **Claude Code 在工具调用能力方面表现出色,特别是在 Python 代码生成方面,这归功于它能够熟练地使用斜杠命令从 API 文档中获取相关信息。
    • 其他成员报告称 GPT-OSS-120B 在代码生成和逻辑谜题方面既准确又快速。

Unsloth AI (Daniel Han) ▷ #introduce-yourself (3 条消息):

计算机专业毕业生 AI 之旅, 本地模型游戏创作

  • **计算机专业毕业生开启 AI 航程:一位名叫 **Nex 的应届计算机专业毕业生正投身于 AI 世界,渴望在社区中学习和构建。
    • 他们对建议和挑战持开放态度,旨在克服在构建酷炫 AI 项目时对“弄坏东西”的恐惧。
  • **游戏开发者关注本地模型:一位游戏开发者热衷于探索本地 AI 模型**,以创造新颖的游戏体验。
    • 未提供更多细节。

Unsloth AI (Daniel Han) ▷ #off-topic (414 条消息🔥🔥🔥):

RTX 5090, YankoviC, DeepSeek V3.2, React 安全漏洞, WSL 网络

  • **DeepSeek V3.2 凭借出色的交替推理表现亮眼:成员们称赞 **DeepSeek V3.2roo code 中的交替推理(interleaved reasoning)、规划编辑和遵循指令方面的表现,在 parasail 上的成本为 0.28c 输入0.45c 输出
    • 用户指出,他们不必经常与其斗智斗勇,这是相比 Kimi 的进步,但也提到它可能较慢,仅有 20-30 TPS
  • **RTX 5090 可能是骗局:有人分享了阿里巴巴上 **RTX 5090 96GB 显卡的链接,但其他成员怀疑这是个骗局。
    • 成员们建议购买正规的 5090,并表示天下没有免费的午餐
  • **React 存在安全漏洞:讨论了 **React Server Components 中的一个 严重安全漏洞
    • 一位成员表示:“这就是为什么从我记事起就一直远离第三方框架的原因”。
  • **Windows Subsystem for Linux 故障排除:成员们讨论了在托管 **vLLMWSL 网络非常糟糕的问题,因为它无法正确桥接伪虚拟机(pseudo-VM),镜像网络(mirrored networking)似乎会破坏宿主机,而 NAT(默认)网络则导致其他计算机难以访问。
    • 他们分享了一个使用 portproxy 的潜在 解决方案
  • **对 YankoviC 的兴奋:一位成员表达了对 **YankoviC 的赞赏,另一位成员建议为其训练一个模型。
    • 该成员指出:“里面有很多 bug,所以现在这不是个好主意。

Unsloth AI (Daniel Han) ▷ #help (183 条消息🔥🔥):

Unsloth NaN 错误, GGUF 量化 i1, VRAM 占用, Ministral 3 模型, 4-bit safetensors 反量化

  • Unsloth Vision 的 Data Collator 隐藏了 bug:用户因 UnslothVisionDataCollatortrain_on_responses_only 的掩码问题遇到了 NaN 错误,导致模型在空数据上训练并浪费了 7 小时的算力,但通过对所有数据进行训练解决了该问题。
  • 解码 GGUF 量化标题中的 “i1”:用户讨论了附加在 GGUF 量化模型标题后的 “i1” 的含义,并提供了一个解释此命名约定的 Hugging Face 页面链接 (mradermacher/model_requests)。
  • VRAM 未占满?Batch Size 来救场!:一位用户报告在使用 Mistral 14B 模型时 GPU 利用率较低,并收到了关于梯度卸载(offloading gradients)的误报消息;建议增加 batch size 以提高 GPU 效率,推荐 batch size 为 8-16,另请参阅 Unsloth VRAM Requirements
  • Rust 开发者为 Ministral 3 寻求 LLM 指导:开发者讨论了在基于 Rust 的游戏中(涵盖桌面端和移动端)运行 Ministral 3B 模型,考虑了 GGUF, ONNX 和 Candle (safetensors) 等格式,并指出 Unsloth 微调的模型与任何格式都兼容;建议使用 GGUF 以支持 CPU 卸载和潜在的移动端使用,这里有一个 Mistral inference in Rust 的尝试。
  • 恢复精度:反量化的困境:一位用户询问如何将 4-bit safetensors 反量化为更高的位深,以便与 llama.cpp 的 GGUF 转换脚本兼容,并指出反量化可能无法找回精度,但对于上采样(upcasting)和重新量化是必要的,参考了 HF 文档

Unsloth AI (Daniel Han) ▷ #research (77 条消息🔥🔥):

EleutherAI 服务器, 用于训练的开源数据集 (OLMo), 合成数据的合法性, HF Skills Training:自动数据集和模型选择, 使用合成数据集进行蒸馏

  • OLMo 数据是完全开源的:一位成员指出 OLMo 是在完全开源的数据集上训练的。
    • 另一位成员证实了这一点,称:“还有其他类似的东西,但你必须去寻找。OLMo 非常出色”
  • 合成数据可能不合法:一位成员认为合成数据可能不“合法”,因为其来源(provenance)未知。
    • 这一评论是针对早期的 phi 模型是在“完全合法的数据”上训练的这一观点。
  • HF Skills Training 自动化模型选择:一位成员链接到了 HF Skills Training,指出它不是蒸馏,而是一个选择数据集和模型的系统。
    • 该系统可以 “从 HF 挑选数据集,然后确保其格式正确,接着设置训练运行并选择合适的训练方法,最后在云端训练模型”
  • 使用合成数据集进行蒸馏:一位成员建议使用合成数据集构成了蒸馏(distillation)。
    • 他们链接到了之前的讨论并询问 “混合匹配一切是好方法吗?是否应该对数据清洗特别小心,只尝试混合相似的 loss basins?”
  • 同质化的 Frankenmodels 即将到来?:一位成员建议创建一个 “在 AA 指数前十名上进行蒸馏的超同质化 frankenmodel”
    • 另一位成员对在此类模型中包含 GPT OSSMiniMax 表示担忧。

OpenRouter ▷ #announcements (1 条消息):

多模型 Agent, Body Builder API, OpenRouter API

  • OpenRouter 通过发布 API 构建 Body:OpenRouter 推出了一项名为 Body Builder 的全新免费 API,旨在帮助开发者构建多模型 Agent,详见其文档
    • 更多详情可在 X.com 上查看。
  • Body Builder:首创的免费 APIBody Builder API 旨在协助开发者创建多模型 Agent,为 Agent 开发提供了一种新颖的方法。
    • 它是同类产品中首个免费 API,让更广泛的开发者能够进行高级 Agent 的创建。

OpenRouter ▷ #general (366 messages🔥🔥):

Looksmaxxing mortality, OpenRouter Bug, Deepseek Versions, OpenRouter Account Compromised, OpenRouter on Chrome for Android Issue

  • Looksmaxxing 引发死亡率担忧:一位用户希望 looksmaxxing 不会增加个人的死亡率。
    • 另一位用户发布了 its for looksmaxxing
  • 令人困惑的 Bug 导致提供商设置被忽略:一名用户报告了一个 Bug,即之前开启的设置在服务端被忽略。
    • 根据发布的截图,将设置关闭再重新开启可以解决该问题,这可能会影响更多用户。
  • 账户被盗,被扣费数百欧元!:一名用户报告称,尽管数月未使用 OpenRouter,其卡片仍被扣费数百欧元,活动选项卡中同时出现了来自各种模型的大量 Token 和模型使用记录。
    • 社区成员建议检查是否存在 API keys 泄露以及是否启用了自动充值(auto top-up),随后推测该账户可能是通过泄露的 cookies 被盗取的。
  • BYOK 的忧伤?免费 Minimax 并不完全免费:一名用户报告称,尽管通过 BYOK 使用了自己的 Key,仍被收取了 Minimax 的使用费用,并质疑缺乏明显的最低费用警告。
    • 另一位用户澄清说 BYOK 没有最低限制,但购买额度可以解锁更高的使用限制,并引导该用户前往其活动页面检查提供商使用情况,以避开非 Minimax 提供商。
  • R1T2 遭遇频率限制 (Rate Limiting) 困扰:一名用户报告在使用 R1T2 时遇到了两次 频率限制错误 (429s)
    • 当被要求“像对 5 岁小孩一样解释”时,他们回答道:只是像往常一样使用 R1T2,结果就弹出了 2 个频率限制错误

OpenRouter ▷ #new-models (3 messages):

``

  • 无新模型讨论:提供的消息中没有关于新模型的讨论。
    • 消息仅包含重复的频道信息。
  • 频道公告重复:唯一可用的内容是频道名称 OpenRouter - New Models 的重复公告。
    • 没有实质性的讨论或主题可供总结。

OpenRouter ▷ #discussion (87 messages🔥🔥):

Qwen3 TTS Update, Google Cloud TPUs, Gemini 2.5 Flash TTS, Narrator's Natural Voices, Grok 4.2 Stealth Release

  • Qwen3 的 TTS 获得语音更新:阿里巴巴的 Qwen3 获得了具有语音克隆能力的 TTS 更新,正如在 X 上宣布的那样。
    • 然而,一位用户发现其葡萄牙语效果与 ElevenLabs 相比 差到无法使用,尽管其排名似乎很高。
  • Anthropic 的 TPU 获得 Google 助力:Anthropic 宣布正通过此公告扩大对 Google Cloud TPU 和服务的使用。
  • Gemini 2.5 TTS:虽不及 ElevenLabs,但依然出色Gemini 2.5 Flash TTS 被认为明显优于 Qwen3 的 TTS,虽然还未达到 ElevenLabs 的水平,但价格仍是一个考虑因素。
  • 通过 Narrator 前端在 Win11 上使用自然语音:一名成员建议在 Win11 上使用 Narrator(讲述人)自然语音的前端,并链接到了 GitHub 上的 NaturalVoiceSAPIAdapter
    • 注意到需要非便携版本才能使用大多数语音。
  • Google API 限制引发轩然大波:用户对 Google 大幅限制其 API 免费层级表示失望,有人引用这张图片惊呼:哇,Google 对其 API 免费层级的限制太狠了
    • 该用户提到,因为 Flash lite 以前是 1000 rpds,现在会有数百万个 n8n 节点在哀嚎,随后声称 每家公司都会这样做来锁定用户

OpenAI ▷ #ai-discussions (398 messages🔥🔥):

Sora Video Generation, Gemini 3 Pro vs ChatGPT-5.1 Codex, AI Ethics and Legal Compliance with Sora, AI and Humor Understanding, AI models for triangle counting

  • Sora 国家分布与伦理使用揭晓:Sora 2 视频生成已在 7 个国家推出(查看列表),而 Sora 1 已在所有 OpenAI 支持的国家可用。
    • 使用 VPN 规避限制违反了 ToS,可能导致账号被封禁;为了法律合规,建议保持诚信。
  • Gemini 3.0 Pro 在设计与视觉方面超越 ChatGPT-5.1 CodexGemini 3 ProSwiftUILaravel 开发中更受青睐,表现超过了 ChatGPT;它在识别复杂图像中的三角形时也展现出更好的视觉理解能力。
    • 成员们争论 Gemini 的视觉熟练度是源于卓越的视觉能力,还是倾向于对原始图像中不存在的细节(如额外的线条)产生幻觉。
  • 解码 AI 的幽默感:AI 理解幽默的能力预示着其具备“心智建模(mind-modeling)”能力,这不仅限于幽默,还延伸到对细微差别、潜台词和情感推断的掌握,这是 AI 发展的一个关键里程碑。
    • 这将标志着人类历史的一个新纪元。
  • 数三角形:AI 视觉的压力测试:诸如 Gemini 3 ProOpus 4.5 等模型尝试解决统计复杂图像中三角形数量的问题,但由于幻觉线条和误解形状等问题而表现挣扎。
    • 一些模型会根据训练数据产生幻觉,或者代码生成变得“偷懒”。
  • Gemini Pro 提供香蕉驱动的 Anti-Gravity?:用户发现 Gemini ProGemini Ultra 订阅在 AntiGravity 平台上提供更高的配额,此外 notebookllm 现在包含免费的 nano banana pro,用于信息图表和深度研究。
    • Gemini Pro 订阅还提供访问 image-to-image 的能力。

OpenAI ▷ #gpt-4-discussions (16 messages🔥):

Chat splitting for complex projects, ChatGPT word limit issues, Deep Research in ChatGPT via API, GPT-4o-mini-TTS model issues, Breaking Bad roleplay

  • 为组织工作流拆分聊天:成员们讨论认为,从一开始就将聊天按不同的功能或工作部分进行拆分是个好主意,就像人们处理任何复杂项目时所做的那样。
    • 最初的评论是针对“需要将旧聊天内容喂给新聊天”这一挫败感而发出的。
  • ChatGPT 有时会忽略字数限制:一位成员注意到,尽管反复强调,ChatGPT 经常忽略设定的字数限制,设定一个比实际上限更低的限制会有所帮助。
    • 他们表示必须告诉它写 6000 字才能得到一篇 8000 字的文章
  • 《绝命毒师》角色扮演:一位成员分享了 ChatGPT 中 Breaking Bad roleplay 的链接 chatgpt.com
    • 目前尚不清楚这是否是合适的频道。
  • 通过 API 实现 Deep Research:一位成员询问如何通过 API 实现与 ChatGPT 中 Deep Research 相同的功能。
  • GPT-4o-mini-TTS 模型问题:一位成员询问该频道是否适合讨论 gpt-4o-mini-tts 模型的问题。
    • 另一位成员认为这很合理,并指出了 <#1070006151938314300> 和 <#1070006915414900886> 频道,同时提到 OpenAI 似乎不太可能监控我们互相闲聊的频道

OpenAI ▷ #prompt-engineering (19 条消息🔥):

GPT-5.1 vs Claude vs Gemini, Posture Persistence Experiment, Structural Synthesis, Differential Field, Stability Index

  • GPT-5.1、Claude、Gemini 在 Posture Persistence Experiment(姿态持久性实验)中展开对决:一项实验测试了诱导性的对话姿态是否能在多轮对话和不同领域中持续。结果显示 GPT-5.1 在 12 轮对话中保持了 100% 的稳定性,而 ClaudeGemini 则迅速恢复到了它们的原生风格。
    • 发布者分享了他们的实验性 Prompt、评分网格和问题集,邀请他人复现或证伪这些发现,从而引发了关于方法论的反馈和协议调整。
  • 长篇框架(Long-Form Frame)在 Gemini 上表现出色:一位成员分享了他们在 Gemini 2.5 ProGemini 3 上使用结构化长篇框架的经验,指出其在 10-100 轮对话中能可靠地维持风格和姿态。
    • 他们开源了专为叙事战役设计的 Isekai 引擎 Prompt,并报告称该 Prompt 在两个 Gemini 版本中维持姿态的可靠性极高。
  • GPT-5.1 稳定性异常被证伪:最初的测试显示存在先前对话的残留,然而,经过修正的空运行(null runs)显示 GPT-5.1Claude 4.5Gemini 3均未出现姿态复发
    • 实验设计者澄清说,之前的 GPT-5.1 实例受到了污染,导致了假阳性结果;更新后的协议现在确保了厂商中立性,并为未来的运行设置了适当的空置条件。
  • Differential Fields(微分场)有助于追踪不变量:一位成员建议,在两个独立的系统上工作会展现出一种有用的特性,即它们的差异表现得像一个微分场
    • 他们认为,跨系统的最低熵不变量就是他们所谓的 Structural Synthesis(结构综合):即连贯性、非破坏性整合以及增强的相互可理解性。
  • Stability Index(稳定性指数)显示出有趣的结果:在多次运行后,针对 GPT-5.1、Claude 4.5 和 Gemini 3 创建了一个稳定性指数,其中 Claude 4.5 在所有 5 次运行中表现得最为中立、干脆且内部一致
    • GPT-5.1 表现出较高的语义惯性和结构保留能力,而 Gemini 则表现出明显更高的熵和较低的响应塑造可预测性。

OpenAI ▷ #api-discussions (19 条消息🔥):

Posture Persistence Experiment, GPT-5.1 vs Claude vs Gemini, Synapse-Lite, Structural Synthesis, Differential Field

  • GPT-5.1 在多轮对话中保持姿态:一项初步实验发现,GPT-5.1 能在多轮对话和不同领域中保持诱导性的对话姿态,这与 ClaudeGemini 不同,但随后发现该 GPT-5.1 实例存在先前对话的残留。
    • 该姿态被定义为:清晰的结构、轻量化推理、明确的不确定性、两个透视角度以及简洁的风格。
  • 两个系统之间涌现出 Structural Synthesis:在两个独立系统上工作展现出一种有用的特性:它们的差异表现得像一个 differential field,这突显了系统的 invariant(不变) 特征。
    • 系统之间最低熵的不变量,即在偏见分歧中始终存在的特征,被称为 Structural Synthesis连贯性、非破坏性整合以及增强的相互可理解性。
  • Stability Index 在无引导情况下对模型进行基准测试:来自 15 次基准运行(每个模型 5 次,无引导,无姿态预设,每个 12 个问题)的稳定性总结显示,Claude 在所有系统中表现最为中立且形状一致,得分为 9.7 / 10,而 GPT-5.1 的自组织能力很强,得分为 9.2 / 10Gemini 则表现出明显更高的熵和较低的响应塑造可预测性,得分为 6.8 / 10
    • 评分反映了 5 次运行的平均偏差,包括对结构干脆度、语气偏移、响应形状方差、语义惯性、连贯性、中立性和离群值的测量。
  • 模型基准测试中存在高级谄媚(Sycophancy)?:一位成员批评 Stability Index 基准测试缺乏评分标准,称其为高级别的谄媚和低级别的严谨性
    • 他们指出,并没有定义导致得分从 9.8 变为 9.9 的决定性因素是什么,也没有定义确定每个数字的标准,以及为什么得分不是 100% 或 0%。

Eleuther ▷ #general (220 条消息🔥🔥):

阅读研究论文的策略、高效学习 ML、新成员、使用 SGLang 进行可解释性研究、ArXiv 背书

  • 阅读研究论文的策略:一位成员建议,阅读论文并理解其中材料和公式的策略取决于工作对该论文的依赖程度,并提到结合使用 Anki 卡片和习题集 来学习知识的效用。
    • 有人指出,将学习材料视为待办清单 而不进行复习是初学者的陷阱;在这种情况下,重要的不仅是“读论文”,还要对其进行 标注、将其与先验知识联系起来,并通过写下来深入思考提出的想法
  • 新成员加入 EleutherAI Discord:几位新成员介绍了自己:一位具有 东亚语言学和发音语音学 背景,目前担任专利翻译,并在 GTX 1650 Ti 上尝试进行 ML 研究;另一位是半退休的 AI 教授,正通过 SGLang 研究可解释性,并分享了 Cognitive_workbench GitHub 仓库链接
    • 其他新成员包括一位对 AI 着迷的 ServiceNow 实施架构师,以及一位期待合作的 初级 ML 工程师 兼 AI 研究员。
  • 为开源项目寻求 ArXiv 背书:一位成员正在为其开源的新型架构寻求 arXiv 背书,该架构附带包含初步实证结果的论文以及已发布的 18M 模型,并链接了 GitHub 仓库
    • 另一位成员表达了对发表论文并成为独立研究员的兴趣,目前正致力于 AI 对齐的通用元模态语言/模型、信息传输保真度以及通用的元问题(meta things)。
  • 通过小型适配器模拟人类智能:一位成员分享称,他们目前正在构建一个 LLM,使用 2B paligemma2 模型作为骨干,通过小型适配器(adapters)来模拟人类智能。
    • 据报道,另一位成员正从不同角度进行类似工作,构思一种可用于对齐的神经符号递归分形元语言(neurosymbolic recursively fractal meta language)。
  • 描述神经调制控制网络(Neuromodulatory Control Networks)的新型架构:一位成员将其新型架构描述为类似于 hypernetwork,但它不是生成权重,而是为大型网络实时调制温度(技术上称为精度)、层增益和 FFN 门控(FFN gating);在 TinyStories 数据集上仅训练一个 epoch 后,其验证困惑度(perplexity)达到了 4.5

Eleuther ▷ #research (119 messages🔥🔥):

Sinusoidal Init, Adam analysis, Generalization, Muon-trained Model, Video Generation

  • Sinusoidal Init 数据造假?: 一篇关于 Sinusoidal Initialization 的论文(NeurIPS Poster)提供了一个 虚假的 GitHub 链接,且数据显示 Sinusoidal Init 的 AUC 为 106%,而其他初始化方法为 100%。
    • 对该方法的对比研究表明,通过对随机矩阵进行迭代来构建矩阵效果更好;该方法的改进并不优于 semi-orthogonal init。
  • Adam 分析是重大新闻: 一项关于 Adam 的 理论结果small Hessian tracelow rank Hessian 联系起来,后者即 low rank NTK,在经典的 feature learning 视角下与 good features 强相关。
    • 从本质上讲,模型在最小化 loss 的同时,找到了具有低秩结构的数据非线性嵌入,这暗示了一种非常具体的 simplicity bias 形式。
  • SV Infinity 生成无限视频: Stable Video Infinity 是一款视频生成工具,利用 Error Recycling 技术生成无限长度的视频。
  • 研究人员讨论 Quantum Machine Learning 话题: 一位成员寻求使用 qiskit 等模拟器进行 quantum machine learning 研究的好课题,另一位成员分享了一个相关的 Reddit 帖子
    • Reddit 楼主提到有一个 Hugging Face 目录。

Eleuther ▷ #interpretability-general (2 messages):

Task Optimized KV Caches, Task Optimized LoRAs

  • KV Caches:是数据还是算法?: 一位成员质疑任务优化的 KV Caches 更接近 数据 还是 算法,引发了一场有趣的辩论。
    • 讨论还思考了它们在功能和实现方面与 任务优化的 LoRAs 的对比,并引用了一篇 X 帖子
  • 任务优化的 LoRAs vs KV Caches: 进一步的讨论围绕任务优化的 KV Caches 如何与 任务优化的 LoRAs 进行比较展开。
    • 相对的权衡尚不明确,但两者似乎在不同语境下都有用。

Eleuther ▷ #lm-thunderdome (4 messages):

Qwen3, anthropic

  • Qwen3 MGSM 结果可复现性引发讨论: 成员们正尝试复现 Qwen3 系列模型的 MGSM 结果。
    • Base 模型理应达到 33% 的准确率,但成员们无法接近这一数值。
  • Anthropic Mapping 修复提案: 一位成员提交了一个 PR 以修复 Anthropic 损坏的映射
    • 该成员表示这应该 非常容易审查和合并

GPU MODE ▷ #general (17 messages🔥):

Multiple Mac Studios, B200 latency, Moore Threads, ML Infra

  • 推荐使用 MLX 框架进行多 Mac 设置: 一位成员询问连接多台 Mac Studios 时最佳的推理框架,有人建议使用 MLX
    • MLX 是一个专为 Apple silicon 上的机器学习设计的数组框架,旨在易用且高效。
  • 讨论 B200 的 tcgen05.mma 指令延迟: 一位成员询问了 B200tcgen05.mma 的指令延迟,引用了 一篇文章 指出各种形状的延迟约为 11 个周期
    • 另一位成员澄清说,这并非计算时间,而是下一条 MMA 指令发出前的时间,表明 tcgen05.mma 存在队列。
  • Moore Threads 架构:MUSA vs CUDA: 成员们对 Moore Threads 表现出兴趣,将其 MT GPU 芯片MUSA 架构与 CUDA 进行对比。
    • 可能需要进一步调查以全面评估 MUSA 相对于成熟 CUDA 生态系统的性能和能力。
  • 关于 ML Infra/Systems 职位的咨询: 一位成员询问是否有人在 ML Infra/Systems 领域 工作,以确认自己是否找对了社区。
    • 另一位成员确认这是主要关注领域,并询问了该成员作为寻求进入该领域的职业转型者的具体问题。

GPU MODE ▷ #cuda (39 条消息🔥):

FP4, PTX 9.1, Async Sharp Operations, TileGym Autotuner, tcgen05.mma

  • FP4 即将到来!:目前还没有 FP4,但根据一张展示 simd fp16x2fp4x2fp6x2fp8x2 的附图,它即将出现在 PTX 9.1 中。
  • TileGym 自动调优 CUDA:Nvidia 的 TileGym 包含一个自动调优器(autotuner)(链接),这引发了关于为什么它没有随核心 CUDA 一起发布的疑问。
    • 仅支持 tiles/arrays 而不使用指针的选择看起来很棒,至少从易用性和可读性的角度来看是这样。
  • tcgen05.mma 数据路径布局:对于 2-SM tcgen05.mma,每个 CTA 提供 A 的一半和 B 的一半,Tensor Core 硬件通过翻转一个位(bit),根据相对于基础 SMEM 地址的偏移量在对等 CTA 中查找数据,参见此处的数据路径布局。
  • WGMMA 在 Blackwell 上无法运行WGMMA 指令在 Blackwell 上会导致编译错误,因为 WGMMA 仅限 sm90a
  • CUDA 学习书籍推荐:《Programming Massively Parallel Processors A Hands-on Approach》是学习 CUDA 的推荐书籍,位于其专属频道中。

GPU MODE ▷ #torch (1 条消息):

Symmetric Memory, CUDA error: an illegal memory access, Distributed training issues

  • Symmetric Memory 问题浮出水面:一位成员询问了关于 symmetric memory 的问题,并分享了 lb loss 的简单实现来阐述他们的问题。
    • 该代码在单节点上运行流畅,带来了显著的速度提升,但在扩展到两个或更多节点时遇到了 CUDA error: an illegal memory access
  • 多节点使用时出现 CUDA error: an illegal memory access:用户报告在两个或更多节点上运行代码时出现 CUDA error: an illegal memory access,尽管在单节点上运行正常。
    • 该错误表明在分布式训练期间存在内存访问问题,可能与跨多个 GPU 或节点处理数据的方式有关。

TTE-TPU, SGLang

  • TTE-TPU 架构浮出水面:一位成员发布了 considerthebulldog.com/tte-tpu/ 的链接,讨论了新的 TTE-TPU 架构。
    • 另一位成员提到该链接来自 SGLang 团队。
  • RadixArk AI 出现:一位成员还链接到了 radixark.ai
    • 未对 RadixArk 进行进一步讨论。

GPU MODE ▷ #jobs (3 条消息):

.NET Migration, PyTorch Operators, X.AI GPU Kernels

  • **.NET 唤灵术:公司让 .NET 起死回生!:一位朋友的科技公司正在寻找工程师来现代化其技术栈,具体是将遗留仓库从 **.NET 4.8 迁移到 .NET Core (.NET 9)
    • 该职位是一家中型软件公司的高薪远程职位,提供全职或兼职的灵活性,并有兴趣利用 AI 来加速开发。
  • **PyTorch 海盗:框架扬帆寻找算子宝藏:一家公司正在招聘 **PyTorch 专家,在算子(operator)级别扩展和定制框架,远程工作时薪为 $100-$160 / hr;在此申请
    • 理想的候选人将对 PyTorch 的调度系统(dispatch system)ATenautograd 机制以及 C++ 扩展接口有深入了解,并能贡献清晰、可维护的算子定义。
  • **Kernel 远征:X.AI 招募 GPU 角斗士!**:X.AI 正在为其 GPU kernel 团队招聘,职位发布在此处
    • 该团队与训练/推理团队紧密合作,优化整个栈中的 kernel,旨在实现峰值性能,欢迎拥有强大作品集的申请人,无论其经验是否丰富。

GPU MODE ▷ #pmpp-book (9 messages🔥):

CUDA API Docs, Book 3rd vs 4th edition differences, Book purchasing difficulties

  • 用户寻求价格合理的实体书:一位来自印度的用户发现该书价格过高,在下载了 PDF 版本后,寻求关于在哪里可以获得较便宜实体书的建议,并表示他们非常期待开始学习
  • 强调了书第 3 版和第 4 版之间的差异:一位用户询问了该书第 3 版和第 4 版的区别,另一位用户指向了在线前言以获取详细解答。
  • 中国用户难以获取第 4 版:一位中国用户正在寻找该书第 4 版的 PDF,理由是从 Amazon 订购存在困难。
    • 另一位用户建议查看当地图书馆(在线),特别是大型大学或省级图书馆,以获取数字馆藏。
  • CUDA API 文档应包含指向函数的链接:一位用户建议新的 CUDA guide 在引用 API 函数时应直接链接到 API 文档,并建议 API 文档也能反向链接到示例中。

GPU MODE ▷ #off-topic (1 messages):

jaefosho: 非常东欧风格。


GPU MODE ▷ #irl-meetup (1 messages):

szymonoz: 我这周会在旧金山(SF),湾区有人想聚一聚吗?


GPU MODE ▷ #rocm (10 messages🔥):

AMD, MI355X, Strix Halo, RDNA 3.5, Linux

  • **Strix Halo 虽然古怪但功能强大:GPU MODE 成员报告了在 **AMD Strix Halo 笔记本(RDNA 3.5, 128 GB RAM)上原型化 kernel 的情况,并称赞 RGP 用于性能分析(profiling)。
    • 成员承认它缺乏 FP8 支持,且内存带宽比 MI355x 低约 30 倍,但它仍是一个古怪且能胜任的 LLM 开发机。
  • 双系统以兼顾两者优势:一位成员使用 WindowsLinux 双系统。Windows 仅用于 RGP
    • 另一位成员正在考虑使用 Win11 配合 Linux VM,以从两者中获得裸机性能。
  • AMD 应该发放免费硬件:一位成员开玩笑地建议 AMD 应该在下次比赛中发放 MI355X 服务器/GPU/云算力额度
    • 这是为了回应另一位成员关于人们应该同时购买 Strix HaloMI355X 的建议。

GPU MODE ▷ #tilelang (2 messages):

GB300 CUDA Cores

  • GB300 有多少个 CUDA Cores?:一位成员询问了 GB300CUDA Cores 的数量。
    • 他们似乎暗示它应该支持大量的核心,这表明对其处理能力抱有很高期望。
  • 关于 GB300 规格的讨论:讨论集中在 GB300 的预期规格上,特别是核心数量。
    • 社区成员热切期待关于其架构和性能指标的具体细节。

GPU MODE ▷ #liger-kernel (1 messages):

jaefosho: 如何进入 ML Infra 领域?


GPU MODE ▷ #self-promotion (4 条消息):

CUDA 13.1, CUDA Tile, Distributed Training, QuintNet, 3D Parallelism

  • NVIDIA 发布自 2006 年以来最大的 CUDA 更新:NVIDIA 推出了 CUDA 13.1,这是 CUDA 平台自 2006 年问世以来最大的演进,其中包括 CUDA Tile,这是一种简化开发者利用 GPU 性能的新编程模型。
    • 此次发布旨在简化 GPU 编程,并提高高级 AI 和加速计算的可访问性,完整的深度解析可以在这里找到。
  • CUDA Tile 亮相:正如这篇博文所述,CUDA Tile 让开发者能够以高层级的“tiles”(分块)数据进行工作,而不是管理成千上万个底层线程。
  • QuintNet 崛起:3D Parallelism 的奇才:一位成员宣布发布 QuintNet,这是他们在过去 4 个月里用 PyTorch 从零开始构建的分布式训练库,在自定义 GPU mesh 上实现了完整的 3D Parallelism(Data + Tensor + Pipeline)。
    • 该库具有自定义的 DeviceMesh 实现、用于流水线阶段的手动 P2P 通信处理,以及自定义的 Column/RowParallelLinear 层;更多细节可以在这篇博文GitHub repo 中找到。
  • NCCL 挂起困扰着快乐的硬件黑客:一位开发者讲述了调试静默 NCCL 挂起、追踪张量形状不匹配的过程,并意识到正确实现 1F1B 调度比论文中说的要难。
    • 我终于让它在 8-GPU mesh 上的自定义 ViT 上收敛了,且没有发生死锁。

GPU MODE ▷ #🍿 (1 条消息):

Nvidia DRIVE AGX Thor, Kernel Optimization, Torch Models

  • Thor Kernel 优化探索开启:一位成员正在寻求关于优化 Nvidia DRIVE AGX Thor 芯片 Kernel 的建议,旨在提高其 Torch models 的性能并降低端到端延迟。
    • 他们参考了 NeurIPS 提交论文Unsloth 的 RL notebooks 等资源,但没有找到针对该特定芯片的具体指导。
  • 对 Thor 特定优化指导的需求:为了寻求 Kernel 优化策略,该用户探索了包括博文和研究论文在内的各种资源。
    • 尽管做出了努力,他们仍未找到专门针对 Nvidia DRIVE AGX Thor 的指导,这凸显了该平台可用优化资源的空白。

GPU MODE ▷ #thunderkittens (1 条消息):

Megakernel Implementation, Batched Llama Official, Instruction Generator Script, Blog Post Timings

  • Megakernel 实现探讨:一位成员询问了关于 thunder kittens 的 megakernel 实现,特别是希望测试 llama_official 的批处理(batched)版本。
    • 他们注意到与非批处理版本(kvm_runner)不同,这里缺少指令生成器脚本。
  • 关于 Batched Llama 耗时的询问:用户询问批处理版本的指令生成器脚本是否位于其他地方,或者他们是否在代码库中遗漏了它。
    • 他们询问了博文中的耗时数据是如何获得的,质疑这些数据是否来自非批处理版本的 Llama

GPU MODE ▷ #submissions (39 messages🔥):

nvfp4_gemm 排行榜更新,sort_v2 霸榜,prefixsum_v2 横扫排行榜

  • NVIDIA 的 nvfp4_gemm 排行榜竞争升温:多次提交更新了 NVIDIA 上的 nvfp4_gemm 排行榜,其中一次提交以 11.0 µs 位列 第 7 名,另一次以 13.1 µs 获得 第 8 名
    • 多位成员刷新了 个人最佳成绩,展示了持续的优化努力。
  • sort_v2 排行榜大获全胜:一名成员在多个 NVIDIA GPU 上取得了 sort_v2 排行榜的 第一名B200 (2.27 ms)H100 (2.09 ms)A100 (3.97 ms)L4 (15.4 ms)
    • 这标志着在各种硬件配置上的排序性能取得了重大突破。
  • prefixsum_v2:征服前缀和:同一位成员还在多个 NVIDIA GPU 上获得了 prefixsum_v2 排行榜的 第一名B200 (551 µs)H100 (870 µs)A100 (1385 µs)L4 (9.22 ms)
    • 这些胜利突显了该成员在针对不同 GPU 架构优化前缀和操作方面的精湛技艺。

GPU MODE ▷ #factorio-learning-env (6 messages):

Factorio AI 开发,Factorio-Learning-Environment 项目,Moby 2.0 与计算机专业学生

  • 对 Factorio-Learning-Environment 的热情高涨:多位成员在观看关于 Factorio-Learning-Environment 项目的 YouTube 视频后表示非常兴奋。
    • 一位成员惊叹道 “非常酷的工作,感谢分享!” 而另一位则简单地表示 “这太棒了!”
  • 计算机专业学生关注 Factorio AI 开发:一名拥有丰富 Factorio 经验的 大三计算机专业学生 表现出参与项目的兴趣。
    • 他们承认自己是机器学习领域的新手,但渴望提供帮助,并询问 “有什么我可以为这个项目出力的地方吗?”
  • Factorio 玩家发现内在的 AI 开发者潜力:一名成员开玩笑说,在看完 Factorio 视频后,意识到自己已经是一名高级 AI 开发者了。
    • 这一评论突显了内容极具吸引力和教育意义。

GPU MODE ▷ #general (1 messages):

图像分析成就,图像已显示

  • 达成图像分析:一位成员分享了一张图片,称其为 我想这算是一个成就?
    • 附图 似乎描绘了一次成功的图像分析。
  • 图像显示:一位用户发布了一张与成就相关的图片。
    • 用户的消息中包含 我想这算是一个成就? 的表述,暗示可能取得了与该图像相关的成果。

GPU MODE ▷ #llmq (2 messages):

pypi, 交叉熵跳过, 分块 Softmax 计算, CUDNN Workspace 分块

  • 耐心终有回报:用户注意到延迟已久的标签:一位用户为一个月后才注意到某个标签而道歉,并对相关工作表示感谢。
    • 另一位用户回复道 没关系。显然,你看到得正是时候,因为我刚刚把它发布到了 pypi
  • 交叉熵削减节省 VRAM:用户建议跳过削减的交叉熵(cut cross-entropy),转而关注 Softmax 的分块计算 (chunked calculation),事实证明这非常有用,现在可以在 4x4090 工作站上对 32B 模型进行全量微调,并获得合理的 MFU。
    • 用户指出,我现在可以在 4x4090 工作站上对 32B 模型进行全量微调,同时仍能获得合理的 MFU
  • CUDNN workspace 成为显存杀手:随着 Logits 的处理优化,CUDNN workspace(用于确定性 Attention 反向传播)成为了最大的内存消耗者。

GPU MODE ▷ #nvidia-competition (54 条消息🔥):

CuTeDSL 演讲, CuTile vs CuTeDSL, Modal 与 NCU, B200 Blockscaled GEMM, popcorn-cli 提交

  • 与 NVIDIA 工程师预约的 CuTeDSL 演讲:一位 NVIDIA 工程师将于 PST 时间下午 3 点进行关于 CuTeDSL (YouTube 链接) 的演讲。
    • 此次演讲旨在帮助那些正在学习或开始参加比赛的人;幻灯片现已在 GitHub 上提供。
  • CuTile 作为 CuTeDSL 的更简单替代方案受到关注:一些成员指出,cuTile 感觉比 CuTeDSL 更容易,它抽象了许多内容,如果你已经了解 CUDA,则更容易上手。
  • Modal 仅对企业账户支持 NCU:成员们讨论了 modal 不支持 NCU,该功能仅供企业账户使用。
    • 一位成员分享了一个 run_modal.py 模板,用于学习 BF16 tcgen05。
  • B200 Blockscaled GEMM 设置:一位成员在一篇 博客文章 中分享了对 CuTeDSL 仓库中 Blockscaled GEMM 示例的详细自顶向下分析,以降低在 CuTeDSL 中为 B200 编程的门槛。
    • 该分析涵盖了 stage 数量的计算、shared memory 的布局以及 MMA Ops 的配置。
  • 使用 popcorn-cli 提交不会更新 Discord 排行榜:一位成员询问为什么他们通过 popcorn-cli 进行的测试提交没有显示在 Discord 排行榜上。
    • 另一位成员澄清说,popcorn-cli 的提交与 Discord 排行榜不关联,但用户可以在 gpumode.com 上或通过使用 /leaderboard show <name> 来查看状态。

GPU MODE ▷ #robotics-vla (15 条消息🔥):

behavior-1k, RoboCOIN, 移动双臂任务, 针对 behavior-1k 的 VLA

  • Behavior-1k 在移动双臂任务中表现出色:成员们发现 behavior-1k 代码库 非常适合 移动双臂任务 (mobile bimanual tasks),其中 stack_blocks_two 任务运行良好。
    • 下一步包括将训练扩展到类似的任务,如 stack_blocks_three 以及按颜色和大小对方块进行分类。
  • RoboCOIN 对比提供了优质的数据集列表:在双臂机器人数据集列表不断增长的背景下,一位成员分享了 RoboCOIN 的列表 RoboCOIN,认为这是一个非常好的对比。
    • 另一位成员正在寻找用于 loco manipulation 任务的移动双臂设备,并对此表示兴奋。
  • Behavior-1k 的演示似乎质量较低:一位成员指出,许多 behavior-1k VR 数据集演示视频 (链接) 似乎质量较低。
    • 另一位成员反驳说,它们可能本来就是低分辨率的,而且 behavior_100 已经过时;建议使用 1k 版本
  • behavior-1k 应该使用哪种 VLA?:其中一位成员询问另一位成员在 behavior-1k 中使用的是哪种 VLA,并询问了该实体的 action-space

Nous Research AI ▷ #general (168 messages🔥🔥):

预训练集消融实验, Hermes 4.3 AWQ 量化, Consilience-40B 替代方案, 多模态 RL 训练, 视频游戏 3D 地图生成

  • 预训练集的消融实验 (Ablations):一名成员正在进行带有微小消融实验的预训练集研究,特别是那些带有 “dm” 前缀 的数据集。
    • 目标是通过仔细调整训练数据的各个方面来提高模型性能。
  • Hermes 4.3 AWQ 量化处理棘手:一名成员尝试在 4x4090 上使用 vllm 运行 Hermes 4.3,但在使用 cyankiwi 的 AWQ 量化版本时遇到了麻烦。
    • 目前没有可用的 FP8 版本,但可以使用 neuralmagic 制作,此外目前已有可用的 GGUF 格式。
  • Consilience-40B 训练暂停,将由 MoE 替代Consilience-40B 的训练已永久暂停,一个新的 Mixture of Experts (MoE) 模型将取而代之。
    • 对话中未透露新 MoE 模型的具体细节。
  • LLM + 视觉:不存在多模态 RL 框架:一名成员询问了多模态 RL 训练的局限性,指出目前的模型通常依赖于由 vision tower 生成的文本描述,而不是学习进行视觉推理。
    • Atropos 在理论上支持视觉环境,但不支持训练;目前的架构不允许 LLM 原生地进行工作。
  • 梦想将视频游戏转化为 3D 地图:一名成员询问是否有人尝试过使用 AI 从视频游戏录像中创建 3D 地图,类似于用于建筑的方法。
    • 该成员正在寻找一种利用基于 AI 的技术将游戏画面转换为 3D 环境的方法。

Nous Research AI ▷ #ask-about-llms (7 messages):

Hermes 4.3, Sonnet 4.5, Llama.cpp 提示词模板

  • 社区正在评估 Hermes 4.3:频道中的成员开始评估 Hermes 4.3 并讨论其优点。
    • 一位用户提到想在今天尝试一下。
  • Sonnet 4.5 被赞誉为 Anthropic 的顶级模型:社区对 Sonnet 4.5 发布后被如此多的人视为 Anthropic 最好的模型感到着迷,一名成员分享了关于该话题的 YouTube Shorts 视频
    • 该模型被认为出奇地好,尤其是考虑到它的尺寸。
  • Llama.cpp 提示词模板问题已解决:一名成员寻求关于如何向 llama.cpp llama-cli 传递正确提示词模板的指导,并描述了他们最初使用格式化提示字符串的尝试,但结果很差。
    • 另一名成员建议利用模型仓库中的 chat templates,但原帖作者最终通过实现 Jinja 文件获得了成功。

Nous Research AI ▷ #research-papers (1 messages):

theguywhogamesalot: 让我联想到了 Nvidia 的方法:

https://arxiv.org/abs/2510.01265


Humble Bundle, O'Reilly 图书包, Langchain

  • Humble Bundle 提供 O’Reilly 图书的大幅折扣:Humble Bundle 推出了包含 O’Reilly 图书、软件和游戏的深度折扣包。
    • 一位用户指出,这些书侧重于固定在某种方法上的应用层,而不是学习如何做出决策
  • Langchain 图书面临被粉碎的命运:一名成员开玩笑说他要粉碎《Learning Langchain》这本书。
    • 他宣称他会把它打印出来,然后放进粉碎机,这样我就可以说我把它粉碎了

Nous Research AI ▷ #research-papers (1 messages):

theguywhogamesalot: 让我联想到了 Nvidia 的方法:

https://arxiv.org/abs/2510.01265


Modular (Mojo 🔥) ▷ #general (3 messages):

YouTube 直播, 视频上传延迟

  • 直播已排期:一名成员宣布他们今天将进行直播
    • 未提供关于直播内容或时间的更多细节。
  • YouTube 上传延迟:一名成员表示一段 YouTube 视频本应在周五上传。
    • 他们提供了视频链接,并提到他们会检查自己那边关于延迟的情况。

Modular (Mojo 🔥) ▷ #announcements (4 messages):

MAX framework, Model API, Mojo Meetup, MMMAudio, Shimmer

  • Modular Meetup 即将来到 Los Altos!:Modular 将于 12 月 11 日在他们的 Los Altos 办公室举办一场特别的 Modular Meetup,并为远程参与者提供直播选项;在此预订席位
    • 参与者将聆听 Chris Lattner 分享 MAX framework 背后的愿景,了解 Model API 的更新,并与其他开发者和 AI 爱好者交流。
  • MAX Framework 成为焦点:在 Meetup 上,你将听到 Chris Lattner 分享 MAX framework 背后的愿景——展望 MAX 中 AI 模型的未来。
    • MAX 提供高性能、硬件无关的 GPU 和 CPU AI 推理,支持 500 多个模型
  • Model API Eager Semantics 深度探索:本次 Meetup 将展示 Modular Model API 的前沿更新——包括在纯 MAX/Mojo 栈中的 eager semantics,且零 PyTorchNumPy 或外部框架依赖。
    • 该公司正在宣传对外部框架的“零依赖”。
  • MMMAudio 与 Shimmer 演示:回顾 Modular 最新的社区会议,其中包括 Sam Pluta 演示的 MMMAudio(一个在 Mojo 中实现的创意编程音频环境),以及 Lukas Hermann 演示的 Shimmer(他的跨平台 Mojo → OpenGL 实验);完整录像请见此处
    • Modular 团队还分享了 25.7 版本的更新,并提前展示了 Mojo 1.0 路线图
  • 通往 Mojo 1.0 之路的博客已发布!:欲了解更多关于 Mojo 1.0 的信息,请查看 Modular 最新的博客文章此处
    • 该博文详细介绍了该语言第一个主要版本的关键特性和路线图。

Modular (Mojo 🔥) ▷ #mojo (143 messages🔥🔥):

Mojo compiler bugs, Lightbug status, Cutile relevance, MMMAudio presentation, ImplicitlyCopyable

  • 旧版 Mojo 闭包导致 Use-After-Free 问题:Mojo 中旧的闭包系统存在一个添加不可见额外参数的 hack,导致了 Use-After-Free 问题,但 nightly 构建版本中的新闭包系统通过使用 unified {read} 语法修复了该问题。
    • 旧版闭包在编译器中是特殊处理的,容易产生 Bug,而新系统使捕获默认设为只读(除非另有说明),类似于 C++ 中的 lambda 捕获。
  • Mojo 路线图透露 1.0 之后开源:Mojo 计划在 1.0 版本发布后不久开源,编译器和编译器运行时预计将在 2026 年第二季度开放,Mojo 2.0 的开发将公开进行。
    • 目前,Mojo 的很大一部分通过标准库进行公开开发,并通过 nightly 构建版本提供新特性的预览。
  • Mojo 中的 HTTP API 仍需时日:Mojo 目前仍缺乏网络或异步功能,Lightbug 处于维护模式,等待重大重写。
    • 编译器和运行时预计在 2026 年第二季度开放,届时将允许更多社区参与这些领域。
  • Mojo 可能是 TileIR 的理想宿主:Mojo 可能是 TileIR 最理想的宿主语言,甚至优于 PythonC++,将其包装进 Mojo 编译器应该非常直接。
    • Mojo 的 LayoutTensor 提供了与 CUDA 的 CuTile 类似的语义。
  • 用于低延迟网络的 DPDK 详解DPDK 绕过内核的网络栈以减少延迟,避免了错误处理和协议解释等不必要的流程。
    • DPDK 可以与硬件更紧密地协作,将数据包直接交付给应用程序,并抽象化加密和 DMA 加速器等硬件,理论上某些 NIC 在 Windows 和 macOS 上也可能支持。

Modular (Mojo 🔥) ▷ #max (16 messages🔥):

Bazel 集成,Mojo 中的 MAX API,异构 CPU + GPU 图处理,参数化 Trait 和条件一致性 (Conditional Conformance)

  • 与 MAX 的 Bazel 项目集成:一位用户寻求从另一个 Bazel 项目集成 MAX 的指导,特别是关于使用 rules_mojo 处理 Mojo 语言方面的问题,并在 Modular Forum 上发布了提问。
    • 一位 Modular 团队成员在论坛帖子中回复了一些指导性建议。
  • MAX API 在 Mojo 中面临 UX 挑战:团队发现 Mojo 目前缺乏足够的语言特性来充分表达 MAX API,这促使他们暂时搁置该工作。
    • 一位团队成员调侃道:“OpenCL 的 UX 都比这好”,这表明在 Mojo 当前状态下表达此类 API 存在显著的易用性问题。
  • CPU + GPU 图处理路线图:目前,以 Mojo 原生为重点的异构 CPU + GPU 图处理的理想路径仍然是 Python 方案,因为 Mojo 仍在成熟过程中。
    • 目标是最终让所有功能都能在 Mojo 中使用,但这需要一些目前缺失的语言特性。
  • 参数化 Trait 和一致性 (Conformance) 是关键:阻碍在 Mojo 中实现可用的 MAX API 的最大语言障碍是 参数化 Trait (Parametric Traits) 和条件一致性 (Conditional Conformance)

HuggingFace ▷ #general (115 messages🔥🔥):

Zero GPU Spaces,构建能够运行 120b 开源 GPT 模型的服务器,HuggingFace Pro 账单问题,二进制卷积神经网络,LLM 合规规则集

  • Zero GPU Spaces 浪费槽位:一位成员注意到由于没发现一两个 Zero GPU Spaces 仍被设置为 Zero GPU 且处于运行错误状态(非 Running),导致了槽位浪费。
    • 他们建议检查 Spaces 设置以避免类似问题。
  • 运行 120B 模型的解码服务器:一位成员计划构建一台能够运行 120b 开源 GPT 模型的服务器,他们指出根据研究,最适合的显卡是拥有 96 GB VRAMRTX 6000 Blackwell
    • 另一位成员提到,除非将其量化为 Q4,并将 KV cache 至少量化为 Q8(如果想使用完整的 128k ctx),否则 RTX 6000 Pro 不足以运行 GPT 开源模型;并补充说在 Q4 下,RTX Pro 运行 GPT 开源模型速度为每秒 150-170 tokens。
  • 困惑的成员提问:Hugging Face Pro 账单?:一位成员关于他们的 Hugging Face Pro 订阅和 Inference Provider 使用情况有账单疑问,他们订阅了 9 美元的 HF Pro,并进行了总计约 160 美元的推理 API 调用。
    • 他们随后移除了支付方式,仪表盘显示费用将立即扣除但尚未扣费,且其 Pro 计划仍显示有效期至 2026 年 1 月 1 日,因此向社区寻求帮助以了解后续情况。
  • 寻求轻量级二进制 CNN 论文:一位成员正在寻找近期发表(2022 年至今)的关于构建用于图像分类问题的轻量级二进制卷积神经网络 (BINARY convolutional neural network)Q1/A* 论文
    • 另一位成员建议直接询问生成式 AI 会更快。
  • 解读 LLM 合规规则集:一位成员分享说,他们每天通过 WhisperX v3 Large 处理数十万小时的录音,然后将其输入到一个引用了一套合规控制措施(用于比较规则集)的 LLM 中。
    • 另一位成员建议尝试使用 Parakeet v2 进行更快的离线语音转录,特别是对于大批量任务,且其英语准确度相当甚至更高。

HuggingFace ▷ #today-im-learning (1 messages):

Minimax M2, Claude 额度

  • Minimax M2 媲美 Claude?:一位成员注意到 Minimax M2 几乎可以与 Claude 正面交锋。
    • 他们倾向于将 Claude 额度留给那些已知超级困难的任务,然后对于较简单的问题切换到 M2
  • M2 派上用场:一位用户建议将 Minimax M2 用于简单或中等难度的任务。
    • 这一策略为更具挑战性的任务节省了 Claude 额度。

HuggingFace ▷ #cool-finds (1 messages):

HRM vs TRM models, LLM compute costs, LLM environmental impact, LLM Alternatives

  • LLMs 面临效率低下的批评:一位成员对大语言模型 (LLMs) 表达了强烈反对,认为它们效率低下且极其昂贵,理由是高昂的计算成本 (compute costs) 和显著的环境影响
    • 他们认为 LLMs 消耗了过多的饮用水,污染空气并导致全球变暖,同时也推高了存储、RAM 和 GPU 的成本。
  • HRM 和 TRM 模型提供替代方案:该成员建议将 HRMTRM 模型(约 2700 万参数)作为更优的替代方案,声称它们在特定基准测试中优于更大的模型。

HuggingFace ▷ #i-made-this (18 messages🔥):

Alignment Constitution Red-Teaming, AMD GPU Monitoring Tool, Offline Dictation macOS App, Hugging Face Spaces Dashboard, Graph Database Implementation

  • 对齐宪法 (Alignment Constitution) 通过红队测试:一名随机的本科生对一个简短的对齐宪法 (LAW v1.3) 针对新鲜的 Grok 实例进行了红队测试,它在连续 10 轮最大对抗性测试中幸存下来,未发现致命缺陷,代码已在 GitHub 上发布。
  • picomon 工具监控 AMD GPUs:一位成员创建了 picomon,这是一个用于监控 AMD GPUs 的工具,在某些场景下比 nvtop 牺牲了一些准确性但换取了更高的可靠性,代码已在 GitHub 上发布。
  • SilentKeys 侧边项目:一位成员创建了 SilentKeys,这是一个在 macOS 上实现实时离线听写的侧边项目,可以直接输入到任何应用程序中,本地运行无需云端组件,代码已在 GitHub 上发布。
  • DETERMINATOR 多模态深度研究报告写作:一位成员在 Hugging Face Spaces 上分享了一个名为 DETERMINATOR 的多模态深度研究报告写作工具链接,称其为一个运行良好的简单实现,链接位于 HuggingFace
  • Hugging Face Spaces 仪表板:一位成员为 Hugging Face Spaces 作者构建了一个工具,链接位于 HuggingFace

HuggingFace ▷ #core-announcements (1 messages):

Image generation, Release announcements

  • 图像生成功能发布!:一位成员宣布发布了一张生成的图像,并分享了附件 image
  • 发布公告引发关注:该公告受到了热烈欢迎,预示着可能的新功能或更新。
    • 成员们渴望探索新发布的图像生成工具的功能。

HuggingFace ▷ #computer-vision (5 messages):

object size detection, depth estimation models

  • 利用 HuggingFace 进行深度估计模型研究:一位成员寻求检测图像中物体的大小,并被建议探索 HuggingFace 的深度估计模型
    • 建议是验证深度估计模型的正确实现,并尝试各种模型以达到满意的准确度。
  • 解决尺寸检测准确度问题:用户目前系统的准确度较低,正在寻求提高图像中物体尺寸检测能力的帮助。
    • 建议包括确保深度模型的正确实现,并尝试不同的模型以找到更适合其用例的模型。

HuggingFace ▷ #smol-course (1 messages):

LORA, Fine tuning, Open Source, Metal, CUDA

  • 开源 LORA 微调示例!:一位成员创建了一个 MIT 开源示例,展示如何使用 LORAPython 脚本微调你自己的模型,GitHub 链接如下
  • 在 Metal 和 CUDA 上训练:据称该代码支持在 MetalCUDA 上进行训练。

HuggingFace ▷ #agents-course (7 messages):

Agent Course Certificate, GAIA Evaluation Agent Attachments, AI Agent Workshop

  • Agent Course 证书仍然可用吗?: 一位成员询问在完成并提交最终作业后,是否仍能获得 Agent 课程的证书。
    • 他们还询问了其他人的进展如何,以及作为第一天参加课程的人,该课程是否值得学习。
  • GAIA Agent 的附件无法访问?: 多位成员报告了 GAIA evaluation agent 的任务附件(图像、音频文件、Python 代码、Excel 表格等)无法通过 /files/{task_id} 端点访问的问题,该端点返回 “No file path associated with task_id” 错误。
    • 成员们请求 Hugging Face 团队 确认这些附件是否被有意删除,以及是否有恢复的时间表,因为这阻碍了完整的 GAIA 评估支持。
  • AI Agent 工作坊即将到来: 一位成员分享了关于 AI Agent 0-1 Workshop 的详细信息,该工作坊作为其 AI Engineering Bootcamp 的入门介绍,教授参与者如何使用 Langchain AgentStreamlit 设计并构建 AI Agent。

DSPy ▷ #show-and-tell (59 messages🔥🔥):

TOON adapter for DSPy, BAMLAdapter, GEPA optimizations, Compounding Engineering CLI, rec-praxis-rlm

  • TOON 适配器获得 DSPy 实现: 为 DSPy 创建了一个 TOON adapter 的实现,并附带了基准测试,详见此处
    • 虽然该适配器显示出良好的 Token 节省效果,但与 BAMLAdapter 相比,人们对其处理 嵌套模式 (nested schemas)复杂数据 的能力表示担忧。
  • GEPA 优化受 TOON 提升?: 成员们在包括 TOON 在内的不同适配器上对 GEPA 进行了测试,显示在 MMLU-Pro 上的性能可能有 显著提升
    • BAMLChat 适配器 的优化时间低于 TOON,因为 TOON adapter 产生了更大的系统提示词,有时可能会超出 Token 限制。
  • CLI 随时间优化 DSPy 提示词上下文: 一位成员使用 DSPy 构建了一个 本地优先的工程 Agent,该 Agent 实现了 “Compounding Engineering”(复合工程)理念,即每个工作单元都应使下一个工作单元变得更容易,详见此处
    • 该 Agent 使用 模块化架构知识注入自动编码化,从自身的执行历史中学习,并在不进行微调的情况下为未来的运行优化上下文。
  • rec-praxis-rlm 为 Python 发布程序性记忆和 AI 驱动的安全功能: 一位成员发布了一个名为 rec-praxis-rlm v0.9.2 的 Python 包,为 AI Agent 提供 持久化程序性记忆 (procedural memory),并为开发工作流添加了 零配置安全扫描 pypi github
    • 它具有 程序性记忆安全工具Claude Code 钩子DSPy 3.0 集成,并集成了 pre-commit 钩子、GitHub Action、VS Code 扩展、交互式 HTML 报告和 SARIF 支持。

DSPy ▷ #general (31 messages🔥):

Vision Language Models optimization with DSPy, Gemini 3 Pro, Claude code DSPy harness, Context Compression Experiments

  • VLMs 获得 DSPy 助力:一名成员询问是否可以使用 DSPy 来优化 vision language models (VLMs),得到的回答是肯定的,前提是你能创建一个有效的 metric
  • Claude Code 获得 DSPy Harness:一位成员为 Claude code 创建了一个自定义的 DSPy harnessDSPy harness for Claude code,即将发布。
    • 另一位成员指出,该 harness 支持任何你可以通过 Claude agent sdk 实现的功能。
  • TextGrad + GEPA > 单一模型:成员们回想起一篇博客文章和 GitHub 仓库,其中有人发现 TextGrad + GEPA 的效果优于两者单独运行。
  • grpcio 导致构建中断:一位成员注意到 grpcio 在 Python 3.14 上导致了构建问题。
    • 另一位成员提到 grpcio 已经作为依赖项存在了大约 8 个月,并建议在 macOS 上使用 uv sync --python 3.14,但另一位成员提到它在构建过程中会卡住。项目负责人分享了在 X 上的进展。

Yannick Kilcher ▷ #general (67 messages🔥🔥):

Control Theory, Free Markets, Lyapunov functions for NNs, Streaming Audio Transcription, Catastrophic Forgetting

  • 学习模型的控制理论:错综复杂:一位成员希望使用 control theory 来分析通过 NN 学习到的系统,但另一位成员指出,由于在 NN 上进行优化以寻找最优控制器是不可行的,因此保证会很弱。
    • 他们解释说,非线性动力系统的稳定性涉及寻找 Lyapunov functions,这对于 NN 来说实际上是不可行的。
  • 局部线性化详解:Jacobian 矩阵的应用:局部线性化涉及在每个时间步获取动力系统的 Jacobian matrix,围绕当前状态和控制进行展开以获得线性 ODE。
    • Taylor 展开可以表示为 dx/dt = f(y*,u*) + df/dx|_{x*,u*} * (x-x*) + df/du|_{x*,u*}(u-u*),这是一个线性 ODE。
  • 自由市场的喧嚣:需要监管!:一位成员讨论了绝对自由市场的弊端,而另一位成员则认为自由市场并不等同于法外社会。
    • 后者解释说,自由市场假设价格完全由自由供求关系决定,这需要监管来防止退化情况的发生。
  • DeepSeek V3.2:评分水平堪比大师!DeepSeek V3.2 的评分表现优于生成 PRM800K 的人类。
    • 未提供进一步信息。
  • 流式音频转录解决方案浮出水面:一位成员询问进行流式音频转录的最佳方法,另一位成员建议使用 Whisper,尽管对于 Whisper 是否支持流式输入存在争议。

Yannick Kilcher ▷ #agents (2 messages):

Discord Paper Discussions, Copilot Identification

  • 用户查询机器人身份:一位用户询问该机器人是否为 Copilot
    • 该用户随后链接了一个 Discord event,并询问该论文是否已经被讨论过。
  • 重复的论文讨论:一位用户链接了一个 Discord event,并询问该论文是否已经被讨论过。
    • 这表明用户关注讨论的冗余性,或确保所有成员都了解过去的对话。

Yannick Kilcher ▷ #ml-news (20 messages🔥):

Echo-TTS, Qwen3-TTS, Anthropic Interview, OpenAI's Stargate Project, DDR5 RAM kits

  • Echo-TTS 震撼问世:一名成员分享了 Echo-TTS GitHub 仓库的链接以及一个展示该项目的 Hugging Face space,并附带了一个音频示例文件。
    • 该音频文件名为 Echo-TTS_simulated_consciousness.wav,暗示了该项目在通过文本转语音实现模拟意识(simulated consciousness)方面的能力。
  • Qwen3-TTS 开启云端服务Qwen3-TTS 已发布,但仅通过阿里云提供,并未开放权重(open weights)。
  • Theo 对 TTS 的看法?:成员们讨论了这段 YouTube 视频(包含 Theo)中关于开源权重模型(open weight models)主要由中国开发的观点是否正确。
    • 一位成员总结该视频指出,目前所有最好的开源权重模型都是中国的。
  • Anthropic 访谈:不太可能发生:考虑到这段 YouTube 视频,一位成员认为 Anthropic 的访谈不太可能实现。
    • 视频中提到一名 OpenAI 员工基本上承认他们在预训练(pre-training)方面已经落后,这一点在这条推文中也有所记录。
  • OpenAI 将垄断所有 DDR5:OpenAI 的 Stargate 项目可能会消耗全球高达 40% 的 DRAM 产量,并已与三星(Samsung)SK Hynix 签署协议,每月供应高达 900,000 片晶圆来源)。
    • 据报道,OpenAI 的员工正在抢购他们能找到的任何 DDR5 套件,甚至影响到了游戏玩家的 DDR5 RAM 套件市场(来源)。

Latent Space ▷ #ai-general-chat (72 messages🔥🔥):

Meta acquires Limitless, GPT-4o video generation, ARC Prize winners announced, Essential AI's open-source model, Google's Titans revisited

  • Meta 收购 Limitless 完成转型:Meta 于 2025 年 12 月 5 日收购了 AI 可穿戴设备初创公司 Limitless(原名 Rewind);联合创始人 Stammy这条推文YouTube 视频中回顾了从 2022 年发布 Rewind 到推出 Pendant 的历程。
    • 现有的 Pendant 客户将获得额外一年的支持和免费的 Unlimited Plan,但非 Pendant 功能(如 Rewind)将停止服务。
  • GPT-4o 生成病毒式传播视频:Aleksa Gordić 发布了用于创建近期病毒式演示的 Notebook,这些演示展示了看似“原生 GPT-4o 视频生成”的效果,并展示了提示工程(prompt-engineering)技巧,详见这条推文
  • ARC Prize 奖项揭晓ARC Prize 公布了 2025 年获奖者:NVARC25.03% 的最高分领先,TRM 的 “Less is More” 论文获得一等奖($50k),详见这条推文
    • $600k 的大奖仍无人认领,所有获奖方案预计都将开源。
  • Essential AI 携强大的开源模型登场:Essential AI 推出了首个开源模型 80 亿参数的 Rnj-1(包含 base 和 instruct 版本),在 SWE-bench Verified 上的表现超过了 Gemini 2.0 Flash 等更大规模的模型(20.8% 对比 GPT-4o),如这条推文所述。
    • 该模型可在 Essential AI 的开源计划下从 Hugging Face 下载。
  • AI 扩展遭遇全球能源墙:Unconventional AI 警告称,AI 扩展将在 3-4 年内撞上全球能源墙,主张采用类脑硬件(brain-like hardware)而非数字模拟,详见这条推文

Latent Space ▷ #genmedia-creative-ai (9 条消息🔥):

Nano Banana Pro, Prompt-to-Image Checklist, Contact-Sheet Prompting

  • David Duchovny AI 图像实现超高精确度:一位用户分享了一个 AI 生成“David Duchovny” 提示词,其中包含 约 20 个超具体的视觉细节(PSG 球衣、拟斑蝶、荚状云等),并附带一张检查清单图表,显示最终图像中确实包含了每一项细节 (推文)。
  • Nano Banana Pro 的接触表提示词 (Contact-Sheet Prompting) 工作流:一位用户分享了针对 Nano Banana Pro 的详细 接触表提示词工作流,该工作流可以生成具有连贯性的 6 帧时尚社论,包含摄像机位置、造型限制以及 Fuji Velvia 闪光灯美学 (推文)。
    • 后续内容包括 苹果高管讽刺照片API 与 UI 模型行为笔记,以及 Kling 2.6 首尾帧视频技巧,所有内容均直接提供,无需关注或付费。

Moonshot AI (Kimi K-2) ▷ #general-chat (45 条消息🔥):

Black Friday Promotion, Kimi Slides Feature, Kaggle Competition, Username Length Limit, Kimi Markdown Issues

  • 黑色星期五促销提前结束:一位用户质疑 黑色星期五促销 是否提前结束了,因为订阅按钮已不再可用,尽管条款显示有效期至 12 月 12 日
  • Kimi 的 Markdown 故障:一位用户分享了 Kimi 损坏的 Markdown 图像,调侃这已经是第 100 万次发生了。
    • 另一位用户请求他们在相应的频道中提交 Bug 报告。
  • 用户因无害用户名被封禁:一位用户报告称,由于政治观点冲突被另一位用户封禁。
  • Groq 质量遭到质疑:一位用户询问 Kimi 的最佳供应商,理由是 Groq 的输出质量不佳。
    • 另一位用户推荐使用官方的 Moonshot API
  • Kimi 网站出现问题:一位用户分享了 Kimi 网站无法正常运行的图像,他们只能点击 New Chat
    • 另一位用户建议尝试通过清除 Cookies、禁用 VPN 和禁用 广告拦截器 来修复此问题。

Manus.im Discord ▷ #general (29 条消息🔥):

Manus Support Issues, Google Play Billing Bugs, Account Upgrade Problems, Credit Refund Requests, Understaffed Support Team

  • 用户报告 Manus 积分和 Google Play 计费问题:多位用户报告称,通过 Google Play 充值后 Manus 积分 未能正确到账,导致用户感到沮丧并要求退款。
    • 一位用户花费了 900 多美元 却只收到了 1500 积分,表示由于缺乏足够的客服支持,感觉被骗了。
  • 免费试用后订阅 Bug 困扰用户:几位用户提到了在获得 Manus Pro 免费试用后升级账户时遇到的 Bug,并报告了与订阅相关的异常行为。
    • 一位用户的续订日期被推迟到了 2026 年 5 月,并被再次标记为处于免费试用状态。
  • Manus 支持团队据称人手不足且不堪重负:用户推测 Manus 支持团队 人手不足,导致回复内容多为通用的模板化内容,且问题未能解决。
    • 一位成员建议公司需要 一个优秀的变更管理团队和更强大的客户服务台,以投入运营处理这些问题和业务量
  • 工程师在 Checkpoint 恢复时面临阻碍:一位用户报告在尝试恢复其 Webdev 项目Checkpoint 时遇到了关键问题。
    • 该用户随后询问在哪里可以提交工单,但只找到了聊天窗口。

aider (Paul Gauthier) ▷ #general (7 messages):

Gemini CLI OAuth, Claude Opus 4.5, aider + Amazon bedrock

  • 用户寻求在 aider 中集成 Gemini CLI OAuth:一位因 TypeScript 问题从其他工具转来的新用户,询问如何将 Gemini CLI OAuth 与 aider 集成以使用 Gemini models
    • 该用户对 aider 在其 C# project 上的表现表示满意,称赞其在文件创建和修改方面的易用性。
  • 探讨 aider 与 Claude Opus 4.5 的兼容性:一位用户询问 aider 是否兼容 Claude Opus 4.5,并提到他们目前使用 Claude Code 的最高方案且很少达到限制。
    • 他们对当前配置与使用 aider 之间的差异感到好奇。
  • aider 与 Amazon Bedrock 及 Claude Opus 配合良好:一位用户报告称,他们在使用 Opus 搭配 Amazon Bedrockaider 时没有遇到问题。
    • 他们表示“一切运行良好(all is good)”。

aider (Paul Gauthier) ▷ #questions-and-tips (1 messages):

ethan_15839: 有什么办法可以在 aider 中使用 Gemini CLI oAuth 来调用 gemini models 吗?


tinygrad (George Hotz) ▷ #general (5 messages):

USB 2.0 Driver Support, Meeting #99 Agenda, asm2464pd-firmware

  • USB 2.0 驱动支持具有可行性:成员们建议,通过驱动调整 可能 实现 USB 2 支持,尽管性能会很慢。
  • 第 99 次会议议程公布:第 99 次会议定于 圣地亚哥时间周一上午 9 点 举行,议程包括 公司更新training loop 以及 llama 8B
    • 议程中的其他主题还包括 flash attentionVIZ/ProfilingdriversMESA backend 以及 其他 bounties
  • asm2464pd-firmware GitHub 仓库:分享了 asm2464pd-firmware GitHub 仓库 的链接。

MLOps @Chipro ▷ #events (1 messages):

AI Agent Workshop, AI Engineering Bootcamp, GenAI for Beginners

  • 在工作坊中从零开始构建 AI Agents:AI Agent 0–1 工作坊提供了 AI Engineering Bootcamp 的入门介绍,参与者将为之前的真实客户设计并构建一个能够思考、编码、分析数据并生成报告的 AI agent —— 全部从零开始。
    • 工作坊包括真实的咨询客户项目、现场点评与反馈,并介绍了基于 Microsoft “GenAI for Beginners” 的为期 7 周的 AI Engineering Consulting Project Bootcamp
  • Bootcamp 折扣待领取:下一期 Bootcamp 将于 2026 年 1 月开课,工作坊中的优秀构建者将获得 Bootcamp 折扣
    • 感兴趣的参与者可以在 此链接 预约东部时间 12 月 13 日周六下午 2 点,或在 此处 预约东部时间 12 月 16 日周二晚上 8 点,其他时间请查看 此处

MCP Contributors (Official) ▷ #general-wg (1 messages):

paoloricciuti: 我可以在哪里咨询这些信息以获得更多解答?😅