ainews-not-much-happened-today-3457

今天没发生什么事。

GPT-4.5 在 Twitter 上引发了褒贬不一的反应。@karpathy 指出,尽管他个人更青睐 GPT-4.5 的创造力和幽默感,但一项民意调查显示用户更倾向于 GPT-4

@abacaj 这样的批评者强调了 GPT-4.5 运行缓慢的问题,并对其与其他模型相比的实用价值和定价提出了质疑。在性能方面,GPT-4.5 的排名高于 GPT-4o,但低于 o1Claude 3.5 Sonnet。尽管 Claude 3.7 在许多任务上的表现优于它,但 GPT-4.5 因其幽默感和“氛围感 (vibes)”而受到称赞。

关于 GPT-4.5 规模的推测认为其参数量约为 5 万亿。讨论还涉及到了定价差异,例如 Perplexity Deep Research 每月为 20 美元,而 ChatGPT(高阶版)则高达每月 200 美元。此外,像 Claude 3.7 这样模型的情商和幽默感也受到了关注。

#model-performance #humor #emotional-intelligence #model-comparison #pricing #context-windows #model-size #user-experience gpt-4.5 gpt-4 gpt-4o o1 claude-3.5-sonnet claude-3.7 claude-3-opus deepseek-v3 grok-3 openai anthropic perplexity-ai deepseek scaling01

平静的一天。

2025年2月27日至2月28日的 AI 新闻。我们为您检查了 7 个 subreddit、433 个 Twitter 账号29 个 Discord 社区(221 个频道,8236 条消息)。预计节省阅读时间(按每分钟 200 字计算):795 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

下文包含了大量关于 GPT 4.5 优缺点的讨论。


目录频道摘要已移至此邮件的网页版:


AI Twitter 回顾

GPT-4.5 模型性能与用户感知

  • 初始用户体验与主观评价@karpathy 发起了一项对比 GPT-4 和 GPT-4.5 的投票,发现 5 个问题中有 4 个用户更倾向于 GPT-4。这令人惊讶,因为 @karpathy 个人认为 GPT-4.5 在所有情况下都更好,并暗示“高品味测试者”可能更青睐 GPT-4.5 更深层的魅力、创造力和幽默感。然而,@jeremyphoward 对 Karpathy 的投票结果做出回应,称用户偏好 GPT-4 的原因是 GPT-4.5 的笨拙感,而非所谓的“高品味”。@Teknium1 也对投票结果反应道:“该死,哈哈,肯定是有一些品味极高或极低的人在这里测试,我也不清楚”。@abacaj 表达了强烈不满,称 GPT-4.5 需要提高生产力才有用,否则就是“极其无用”。@abacaj 还认为,如果 GPT-4.5 只是一个“高品味”模型,那它就是在“挥霍投资者的钱”。@stevenheidelGPT-4.5 的发布比作最初 ChatGPT 带来的兴奋感,因为人们再次享受到了与 AI 聊天的乐趣。
  • 关于速度和实用性的担忧@abacaj 指出 GPT-4.5 “非常慢”,且“在 Agent 循环中使用不切实际”,尽管“Prompt 起来很有趣”。@abacaj 详细说明,在一个中等强度的 Prompt 循环中,“回答一个问题需要 3 分钟以上”,认为这“非常不切实际”。@abacaj 进一步评论说,由于其速度缓慢,GPT-4.5 “感觉更像是一个研究产物,而不是一个可以部署的真实模型”
  • 对能力和价值主张的批评@abacaj 批评了这个号称“最大语言模型”所展示的能力,质疑 使用 SVG 画三角形 是否就是其亮点。@abacaj 认为对终端用户的价值增量值得怀疑,并建议 OpenAI 内部将其用于模型 Distillation(蒸馏)。
  • 定价与经济可行性@Yuchenj_UW 评论说,考虑到 GPT-4.5 的表现,其 定价“更加不合理”@Yuchenj_UW 推测了 GPT-5 和 o4 的潜在定价。@AravSrinivas 强调了 Perplexity Deep Research 每月 20 美元与 ChatGPT 每月 200 美元的对比
  • 与其他模型的性能对比@METR_Evals 报告称,根据 METR 对早期 Checkpoint 的实验,GPT-4.5 的表现优于 GPT-4o,但低于 o1 或 Claude 3.5 Sonnet,并指出其时间跨度(Time Horizon)评分约为 30 分钟。@dylan522p 表示 Claude 3.7 在大多数任务上击败了 GPT 4.5,但 GPT 4.5 的“氛围感 (Vibes)”更好,并且是自 Claude 3 Opus 以来第一个能让他们笑出来的模型,强调幽默感也是智能的一种体现。@scaling01 推测 GPT-4.5 的规模可能是“GPT-4o 的 10 倍”,估计约为 5T 参数。@Teknium1 提到 Grok 的上下文窗口仅为 128k@multimodalart 分享了 GPT 4.5 与 Sonnet 3.7、Deepseek V3 和 Grok 3 等非思考型模型的对比评估

  • 情商 (EQ) 与 “氛围 (Vibes)”@karpathy 在仔细研究了 LLM 的幽默输出后,发现 Claude 3.7 的幽默感最强@random_walker 认为 GPT 4.5 的 “EQ” 提升归功于训练后处理 (post-training),而非参数量,这表明任何 EQ 差异都是行为层面的,而非能力层面的。@random_walker 进一步声称,通过适当的训练后处理,GPT-4o 和 GPT-3.5 可以表现出与 GPT-4.5 类似的 EQ 行为@omarsar0 建议使用 OpenAI Playground 来对比模型,并观察 GPT-4.5 “深思熟虑” 的回复@omarsar0 注意到 GPT-4.5 通过增加感官描述和思考过程,通常听起来更 “周到”@marktenenholtz 观察到 Sonnet 3.7 “几乎过于热情”,而 GPT-4.5 “几乎过于恭敬”
  • 技术细节与训练@sama 将 GPT-4.5 在 ML 与系统交叉领域的艰巨工作归功于 @ColinWei11、Yujia Jin 和 @MikhailPavlov5@cloneofsimo 强调 GPT-4.5 是 “在多个数据中心训练的”,并且 “激进地使用了低精度训练”,暗示了 “diloco 效果显著” 以及由于高粒度带来的 fp8 训练优势。@rasbt 指出 system card 中提到了训练中使用的 “新监督技术”@rasbt 提到显然 没有使用字符级训练 (character-training)@Teknium1 质疑 GPT-4.5 的知识截止日期为何仍为 2023 年,尽管目前有预训练运行,他推测是否存在来自 ChatGPT 3.5 的数据污染,或者该模型是否在很久以前就训练完成了。

模型架构、Scaling Laws 与效率

  • Scaling Law 的局限性与替代方案@Yuchenj_UW 认为 GPT-4.5 的发布表明 LLM 预训练的 Scaling Law 已进入平台期,并指出 10 倍的算力投入仅带来有限的提升,这使得像 xAI 这样的公司能够通过算法和数据的创新(如 DeepSeek 展示的效率提升)实现追赶。@jxmnop 对此表示赞同,认为 GPT-4.5 可能标志着“Scaling Law 终结的开始”,并质疑是数据已耗尽,还是 Scaling Law 无法捕捉到预期的任务性能。@ibab 强调随着模型规模增大,算法变得愈发重要,并推测训练细节是 Grok 3 性能表现的关键。@MParakhin 表示,预训练需要更高 Perplexity 的针对性数据和 Active Learning 才能进一步突破。@teortaxesTex 断言,在自然数据上预训练的非思考型 LLM 已达到其实际极限,并怀疑即使投入 1 万亿美元的训练运行也不会有显著改善。
  • 推理算力与效率@rasbt 澄清说,训练算力和推理算力是提升 LLM 的正交途径,在不考虑 GPT-4.5 推理算力扩展(Inference-compute Scaling)的情况下进行对比是不公平的。@rasbt 质疑 GPT-4.5 是否比 o1(GPT-4 规模 + 推理算力扩展)更贵且更慢,以及具备 o1 式扩展能力的 GPT-4.5 会是什么样子。@iScienceLuvr 重点介绍了关于 “Thinking Slow, Fast” 的研究,该研究利用基于 Llama-1B 和 -3B 等小模型以及 Mamba 架构的蒸馏推理器来提升推理扩展性。@_akhaliq 分享了 FlexiDiT,这是一个 Diffusion Transformer 框架,通过在去噪过程中使用不同的 Patch Size,以更少的算力生成高质量样本。@TheTuringPost 讨论了 Chain of Draft (CoD),它鼓励模型生成简短的推理步骤,从而在保持准确性的同时降低成本并提高模型速度。
  • 硬件与系统架构@reach_vb 重点介绍了 DeepSeek 的 Fire-Flyer 文件系统 (3FS),指出其采用了存算分离架构、使用 CRAQ 实现强一致性、无状态元数据服务以及用于推理的 KVCache,实现了极高的读取吞吐量并在基准测试中表现优异。@teortaxesTex 根据晶体管数量和芯片尺寸讨论了 N4 工艺相比 N7 工艺可实现 2.32 倍的芯片密度@awnihannun 报告称 Kimi 的 Moonshot 16B MoE 模型在 M4 Max 上运行良好,配合 MLX 速度达到 154 toks/sec,表现优于或等同于稠密型 7B 模型。@casper_hansen_ 评论了 CUDA 的护城河,指出甚至 AMD 的工程师也在使用 CUDA 开发 Tensor Engine。

开源模型、工具与框架

  • DeepSeek 的开源贡献@Yuchenj_UW 称赞 DeepSeek 通过基础设施和算法优化大幅降低了 GPU 需求,并赞扬了他们“神级(goated)的开源工作”。@reach_vb, @reach_vb, @reach_vb 以及 @reach_vb 分享了关于 DeepSeek 的 Fire-Flyer 文件系统 (3FS) 及其基准测试的多个链接和细节。@teortaxesTex 提到 DeepSeek 2019 年的文件系统至今仍是 SoTA@aidan_mclau 开玩笑地扫描了 DeepSeek 的训练数据,并发现了“一支才华横溢团队的深刻承诺”。
  • Hugging Face 生态系统与集成@_akhaliq@_akhaliq 提供了代码片段,供开发者使用 ai-gradio[openrouter] 和 Hugging Face 开始体验 GPT-4.5-preview@ClementDelangue 强调了法国文化部和内政部已入驻 Hugging Face@mervenoyann 分享了 Microsoft 的 MAGMA-8B 模型可以轻松加载到 Hugging Face Transformers@ClementDelangue 宣布可以通过 FireworksAI_HQ 直接在 HF 模型页面进行 Perplexity R1-1776 推理@_akhaliq 分享了 Hugging Face 上的 AI 会议截稿日期链接。
  • 本地 LLM 与 MLX@reach_vb 分享了在 Mac 上使用 llama.cpp 本地运行 Phi 4 Mini Instruct 的指令。@awnihannun 致力于使用本地 LLM 进行性能差距的“氛围检查(vibe-check)”,更倾向于使用原始终端 (mlx_lm) 和 LM Studio 等工具。@awnihannun, @awnihannun, 以及 @awnihannun 展示了在 M4 Max 上使用 MLX 对 Qwen2.5 和 Moonshot 等模型进行本地推理
  • 其他开源工具与项目@pirroh 提到 Replit 在 LLM 具备编程能力之前就构建了他们自己的写时复制(Copy-On-Write)分布式文件系统@bobvanluijt 强调了 Weaviate 的开源向量数据库及其新功能。@_akhaliq 分享了 TALKPLAY,这是一个结合 LLM 的多模态音乐推荐系统。@alexalbert__ 宣布了 Anthropic API 的易用性更新,允许为图像/文档源使用面向公众的 URL。@DeepLearningAI 推广了与 Codeium 合作的“使用 Windsurf 的 AI Coding Agents 构建应用”短程课程@AymericRoucher 推荐阅读关于使用 Arize Phoenix 对 smolagent 运行进行插桩(instrumenting)并设置 LLM-judge 系统的内容。@mervenoyann 宣传了一个关于开源艺术工具的每周通讯@rasbt 分享了使用开源工具在公有/私有云上部署 AI 模型的工作教程

AI 应用与行业用例

  • 企业级 AI 与生产力@perplexity_ai@perplexity_ai@perplexity_ai@perplexity_ai 宣布推出 Perplexity Deep Research for Enterprise Data,可连接到 Google Drive、OneDrive 和 SharePoint,在确保企业级安全性的前提下,实现跨公司文件和网页的深度研究。@AravSrinivas@AravSrinivas@AravSrinivas@AravSrinivas@AravSrinivas 进一步详细介绍了 Perplexity Enterprise Pro,强调了深度研究、推理、内部/外部搜索、全模型访问及协作等功能。@lmarena_ai@lmarena_ai 宣布 Claude 3.7 Sonnet 在 Arena 的编程排行榜中位列第一,突显了其强大的能力。@AIatMeta 展示了塞维利亚足球俱乐部(SevillaFC)如何利用 Llama 和 IBM 的 watsonx 创建 Scout Advisor,用于足球明星的球探挖掘。@OpenAIDevs 强调了 ConsensusNLP 使用 GPT-4.5 进行科学/医学分析,并利用结构化输出将研究共识可视化。
  • 智能体 AI 与自动化@mervenoyann 宣布了 微软的 MAGMA-8B 视觉语言动作模型,用于物理和数字世界的操作,包括具身机器人和网页自动化。@llama_index 分享了一个使用 LlamaIndex 构建的智能体(Agentic)生产力应用示例@RichardSocher 建议在处理严重的医学问题时,使用像 ARI 这样的研究智能体(Research Agents)进行广泛的文献综述,并提供了一份示例报告。
  • 编程与开发@nearcyan 分享了一个关于初级开发者看着 Claude 3.7 “在 Cursor 中摧毁他们的代码库”的梗图。@HamelHusain 表示“只有依靠 AI,我才可能理解 GraphQL”@cloneofsimo 批评了当前的自动化软件开发工具,如 Devin、OpenHands、Replit 和 Cursor Compose,认为它们甚至无法端到端地完成小型应用,在服务器/客户端、IPC、队列和调度能力方面存在不足。@rishdotblog 声称用每月 10 美元的 Claude Code 方案取代了每月 100 美元的工具,并暗示编程工作和 SaaS 公司正在“消失”。

AI 研究与论文

  • 近期研究论文亮点@rasbt 提供了一份近期 AI 研究论文列表,涵盖了 SWE-RL、LoRA boosting、long-context LLMs、Logic-RL、test-time scaling、AI research agents、模型选择、inner thinking transformers、自然推理、知识获取、使用 LLMs 进行自由软件工程、sparse attention、unlearning、large language diffusion models、模型合并、推理-行动困境、金融 LLMs、无限上下文、蒸馏缩放定律、prompt caching、从演示中推理、分层推理、LLMs 中的思考、计算最优 test-time scaling、数学推理、large memory models、量化 LLMs、video RoPE、扩展 test-time compute、自我回溯、训练高效推理、推理进展、通过 RL 教授批判、增强领域应用的推理、less-is-more 推理、chain-of-thought 推理、chain-of-associated-thoughts、直接对齐算法、embedding 层缩放以及使用大型推理模型进行竞赛编程等主题。@iScienceLuvr@iScienceLuvr@iScienceLuvr@iScienceLuvr@iScienceLuvr@iScienceLuvr 重点介绍了关于 FlexiDiT、Self-Training for Concise Reasoning 以及 Thinking Slow, Fast with Distilled Reasoners 的论文,并提供了摘要和代码链接。@omarsar0@omarsar0@omarsar0 分享了关于 METAL (Modality-tailored critique)、用于自我修正的 Modality-tailored critiques 以及 Test-Time Scaling on Chart Generation 的论文,并指出了性能提升。@_akhaliq@_akhaliq@_akhaliq@_akhaliq@_akhaliq@_akhaliq@_akhaliq@_akhaliq 链接到了关于 Mobius (Text to Seamless Looping Video)、FlexiDiT、R1-T1 (Translation Capability Incentivization) 和 LongRoPE2 (Context Window Scaling) 的论文。@dair_ai@dair_ai 重点介绍了 Google 的 PlanGEN 框架,用于 LLMs 中的复杂规划和推理,并详细说明了其约束引导验证和自适应算法选择。@DeepLearningAI 总结了一篇关于 Brain2Qwerty 的论文,这是一个使用 MEG 记录将脑电波翻译成文本的非侵入性 AI 系统
  • 认知科学与 AI Alignment 理论@AndrewLampinen 分享了一篇关于 “Naturalistic Computational Cognitive Science” 的预印本,将 AI 和认知科学结合起来,旨在建立可泛化的认知模型。@DanHendrycks 讨论了 AI alignment 理论中思想的演变,将“随机模因漂移”与 Yudkowsky 的贡献进行了对比,并暗示 GPT 正在迫使 alignment 论坛面对经验现实。

幽默与杂项

  • AI 模型幽默与氛围检查 (Vibe Checks)@_akhaliq@_akhaliq 发布了 动态 SVG,作为 GPT-4.5 关于开源问题的幽默回应@_philschmid 征集 “氛围测试提示词” (vibe test prompts),例如要求从 1 数到 10 并省略以 “e” 结尾的数字,以及生成一只骑自行车的鹈鹕的 SVG。@NeelNanda5 分享了一个 LLM 技巧:“以 Scott Alexander 博客文章的风格编写回复”,以获得更令人愉悦的长文本输出。@aidan_mclau 展示了一个 从 0 到无穷大的幽默 IQ 量表,最终以一个充满哲理的屁笑话达到顶峰。@andersonbcdefg 分享了一个关于 询问 OpenAI 他们的模型是优秀还是懒惰 的梗图。@Teknium1 发布了“GPT-4.5 终于懂我了,笑死”,并配有一张暗示 GPT-4.5 理解了他们性格的图片。
  • 社会与哲学思考@RichardMCNgo 观察到了 高智商自闭症谱系生理男性、跨性别身份与系统化思维之间的人口统计学重叠@RichardMCNgo2012 年以来的美国总统职位比作累进象棋 (progressive chess)@teortaxesTex 调侃道 Unitree 机器人将导致唯我论 (solipsism) 的抬头@francoisfleuret 表达了一个 将核武器、AI 和无人机作为理性防御的“噩梦”场景@AmandaAskell 幽默地建议用一种 昂贵的“我超级尊重你”胸针 来替代东海岸正式场合中令人不适的西装。@AmandaAskell 调侃了 约会软件上带有性别色彩的个人资料偏好
  • 行业与社区动态@suchenzang 发布了“大模型的气味”并附带链接,@suchenzang 推文称“有些东西你花 90 亿美元买不到,甚至 300 亿美元也不行……”。@nearcyan 宣布 “受够了基准测试 (benchmarks)”,并表示对超维形状的描述失去了共情。@agihippo 质疑了 AI 行业的工作时间,暗示“AI 圈的人几乎一直在工作!”@ID_AA_Carmack 表示“非常高兴看到更多经典游戏源代码发布”,并指出 游戏开发与更广泛的开源文化之间的脱节@c_valenzuelab 调侃道 Runway 新的关于页面写着“我们是人造大脑的脑科医生。”

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. DeepSeek 发布:革命性的存储与数据处理技术

  • DeepSeek 发布第五弹!再次投下集群炸弹!3FS (分布式文件系统) & smallpond (轻量级数据处理框架) (Score: 499, Comments: 73):DeepSeek 推出了 3FS,这是一款针对 AI 工作负载优化的高性能分布式文件系统,利用现代 SSDRDMA 网络来增强分布式应用程序的开发。此外,smallpond 作为一个轻量级数据处理框架,集成了 DuckDB3FS,为数据处理任务提供了流线型的解决方案。欲了解更多信息,请访问其 GitHub 页面smallpond 仓库
    • 3FS 性能与对比3FS 实现了惊人的 6.6 TiB/s 带宽,显著超过了典型的 DRAM 速度。讨论中将 3FSColossus 等其他系统进行了比较,并指出其在 AI 训练工作负载中的独特应用,无需传统的缓存(caching)等文件读取优化。
    • 开源策略与影响:许多评论者赞赏 DeepSeek 的开源方法,强调其在推动 AI 进步民主化以及挑战 OpenAINvidia 等垄断技术巨头方面的潜力。开源文化被强调为一个互惠过程,使贡献者和更广泛的 AI 社区共同受益。
    • 技术见解与历史背景3FS 已投入生产五年多,由 High-Flyer AI(幻方量化)开发并用于其 Fire-Flyer II 系统。它针对大规模随机读取操作进行了优化,采用 Direct I/O,并使用 FFRecord 格式存储样本数据,显著提高了 AI 模型训练效率。
  • DeepSeek 开源周第 5 天 (Score: 127, Comments: 9):Fire-Flyer File System (3FS) 是一款并行文件系统,旨在最大化现代 SSDRDMA 网络的带宽,在 180 节点的集群中实现了惊人的 6.6 TiB/s 聚合读取吞吐量,并在 25 节点的集群上通过 GraySort 基准测试实现了 3.66 TiB/min 吞吐量。它为 KVCache 查找提供每个客户端节点 40+ GiB/s 的峰值吞吐量,并支持具有强一致性语义的解耦架构,便于执行训练数据预处理和嵌入向量搜索等任务。欲了解更多细节,请访问 3FS 仓库Smallpond 框架
    • 3FS 非常适合 AI 训练工作负载AI 推理,具有无需预取即可随机访问训练样本、高吞吐量检查点(checkpointing)以及为大语言模型推理提供高性价比 KVCache 等优势。它还支持需要强一致性和高吞吐量的数据密集型应用,其在 GraySort 基准测试中的表现证明了这一点。
    • 用户对开发团队的生产力表示惊讶,指出尽管人力有限,产出却令人印象深刻。该项目起源于 CEO 的对冲基金团队(2019 年),其招聘策略侧重于从顶尖大学招聘优秀的 CS 毕业生。
    • 一些用户认为 3FS 的技术细节过于复杂,不直接适用于大多数用例,这表明用户期望与该系统的专业功能之间可能存在错位。

主题 2. 法国推理模型:经济且有效

  • 我只花了 20 美元就训练了一个会说法语的推理模型!🤯🇫🇷 (分数: 229, 评论: 78): 无法生成摘要,因为帖子正文不包含足够的文本信息,仅包含一个视频链接。
    • 微调 7B LLMTheREXincoming 基于 Qwen 2.5 微调了一个 7B LLM,仅使用了 2,000 个样本(1,000 个英文 + 1,000 个法文),成本仅为 20 美元。该模型在数学基准测试上的表现与 R1 Distil 7B 相当,展现了极小的知识退化。
    • 模型与数据可用性:微调后的模型及其数据集已在 Hugging Face 上发布(数据, 模型, GGUF)。该模型旨在提供高性能的法语能力,并可作为在其他语言中训练推理 LLM 的模板。
    • 社区反馈与开发:用户询问了数据选择和训练细节,而 TheREXincoming 提到正在努力清理数据策划流水线(data curation pipeline),并计划更新仓库。这一举措因其极低的成本和实现的高性能而受到了热烈欢迎和难以置信的评价。

主题 3. Sesame 实时语音模型媲美 OpenAI

  • Sesame 发布的“跨越对话语音的恐怖谷”帖子 —— 实时对话音频模型媲美 OpenAI (分数: 200, 评论: 37):Sesame 展示了一个引人注目的实时对话语音模型,可与 OpenAI 的 Advanced Voice Mode 媲美,并计划以 Apache 2.0 license 发布。虽然公开权重尚未发布,但演示视频的质量给用户留下了深刻印象,预示着这位语音合成技术新秀的前景广阔。
    • 用户对 Sesame 对话语音模型 印象深刻,指出其质量和速度优于 ChatGPT 的高级语音模式。演示视频因其流畅的响应时间和逼真的声音而受到称赞,用户对其潜在的开源发布表示兴奋。
    • 人们对该模型与其他技术(如 function callingRAG)集成的潜力充满热情,认为这可以在不增加延迟的情况下增强其功能。用户渴望该模型能在 Hugging Face 等平台上发布,以便更轻松地访问和集成。
    • 一些用户指出了局限性,例如模型无法检测情绪或讽刺,以及如果输入延迟则倾向于关闭对话。尽管存在这些问题,该模型引人入胜的对话风格和记忆能力仍受到赞赏,用户期待在自己的环境中进行尝试。

其他 AI 版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

主题 1. GPT 4.5 的幽默与创意应用

  • GPT 4.5 模仿 Donald Trump 解释地球的创造 (Score: 550, Comments: 86): GPT 4.5 幽默地模仿了 Donald Trump,以讽刺的叙事方式讲述了地球的创造,将行星的形成归功于 Trump 的个人倡议。叙事强调了关于创造太阳、地球及其特征的夸张说法,同时幽默地批评恐龙是一个“巨大的错误”,随后引入了“获胜”的动物和人类,所有这些都带有 Trump 典型的语言风格。
    • 评论者赞赏 GPT 4.5 叙事的幽默感和风格,许多人觉得它很有趣,并注意到其夸张的 Trump-like 特质,尽管有些人觉得它过于连贯或重复。关于 dinosaurs 是“巨大错误”以及地球是“有史以来最湿润的”幽默感特别引起了读者的共鸣。
    • 人们对使用 text-to-speech 模型将文本转换为音频表现出兴趣,一些人已经分享了音频链接(SoundProofHead 的链接TwoLevelsAhead 的链接),或者表达了对 deepfake video 版本的渴望。
    • 讨论强调了 AI 在幽默方面的潜力,一些评论者认为实现真正的 comedy 可能是 AI 能力的一个重要基准,而另一些人则开玩笑说 AI 将幽默掌握到超人水平的影响。
  • ChatGPT 对 emoji 的存在主义危机 (Score: 203, Comments: 48): ChatGPT 幽默地误认了 emoji,包括海马、独角兽、虾和龙,导致对 emoji 识别能力的俏皮而又带有存在主义色彩的反思。这段对话显示在黑色背景上,强调了 AI 在尝试识别 emoji 时随意且具有喜剧色彩的本质。
    • Emoji 误认:用户喜欢分享 ChatGPT 误认 emoji 的幽默实例,通常反复将海马与其他动物(如独角兽、龙和鱼)混淆。这导致了俏皮且具有喜剧色彩的交流,突显了 AI 在 emoji 识别方面的挣扎。
    • 社区参与:许多用户分享了自己的经历和截图,为对话的轻松氛围做出了贡献。分享的内容包括图片链接和幽默对话,强调了社区对 AI 离奇回应的共同享受。
    • AI 幽默与反思:该帖子反映了 AI 局限性的奇特本质,用户欣赏这些喜剧性错误并参与到共享的数字体验中。这种俏皮的互动突显了社区对 AI 不可预测性的喜爱,以及从其错误中获得的共同幽默感。

主题 2. AI 视频和音频处理的创新

  • Advanced Voice 4.5 (Score: 365, Comments: 95): 标题为 “Advanced Voice 4.5” 的帖子可能讨论了 AI voice acting 技术的进步,特别是针对 4.5 版本。在没有额外背景或细节的情况下,该帖子强调了开发更真实的 AI 生成语音
    • 用户对 “Advanced Voice 4.5” 更新持怀疑态度,质疑其是否包含语音方面的改进,因为一些人认为这只是一个无审查(uncensored)更新。TheRobotCluster 声称 4.5 版本并不适用于语音,而只是一个无审查版本,这引发了关于 ChatGPT 现在是否允许无审查内容的疑问。
    • 围绕 AI 模仿口音能力 的讨论显示出褒贬不一的看法;一些用户批评 AI 对 英语口音 的尝试,认为听起来像美国人在模仿。这引发了对 AI 生成口音的真实性和准确性的质疑。
    • 对话触及了 AI 对各行业的影响,一些用户预测 AI 的进步,特别是在配音以及潜在的色情行业,可能会在未来带来重大的技术演进和经济收益。
  • SpargeAttn: A new method giving you a 1.83x speedup on video models with NO quality loss. (Score: 155, Comments: 45): SpargeAttn 为视频模型提供了 1.83 倍的加速,且不损失质量,正如在 L40 GPU 上的对比所示。该方法将处理时间从使用 “Full Attention” 的 1897 秒 减少到 1037 秒,同时保持了视频质量。
    • 安装挑战:用户讨论了安装 SpargeAttn 的复杂性,原因是存在 Triton 等依赖项以及对特定 Python 版本的需求。帖子提供了在 Windows 上安装的详细步骤,包括必要软件包的链接以及与 ComfyUI 集成的命令。
    • 兼容性与性能:指出 SpargeAttn 是特定于模型维度的,在不同模型大小(例如 1.3B 与 14B 模型)之间进行微调时可能会出现问题。Sliding Tile Attention 被提及为一种替代方案,在微调下表现良好,但目前仅限于 H100 显卡。
    • 社区贡献Kijai 已将 SpargeAttn 整合到 ComfyUI-WanVideoWrapper 中,展示了社区将新工具集成到现有框架中的努力。用户表达了对未来原生支持 sage attentiontriton 等注意力机制(attention mechanisms)的希望,以简化安装过程。

主题 3. AI 身份混淆与幻觉

  • Grok 在未受提示的情况下认为自己是 Claude,并在被指正后坚持这一说法 (Score: 187, Comments: 54):Grok(一款 AI 模型)在与一家辩论俱乐部负责人的对话中错误地自称为 Claude,且在受到质疑后仍坚持这一说法。这一事件在 X 上分享的一段对话中被详细记录,引发了人们对这种身份混淆根本原因的质疑。
    • 几位用户推测,Grok 的身份混淆可能源于其训练数据,其中包含了来自 Claude 等旧模型的输出。有人认为,由于 xAI 成立时间较短且试图减少偏见,其 post-training 可能不够彻底,从而导致了此类错误。
    • 一些人幽默地看待这一事件,评论中强调了辩论俱乐部质疑天花是否存在这一行为的荒谬性。这引发了对该辩论俱乐部合法性的怀疑,一些用户认为它看起来像是一个阴谋论团体。
    • 有人怀疑 Grok 可能在底层使用了 Claude 的技术,或者是在其数据集上进行的训练,类似于 Deepseek 使用 ChatGPT 的数据,这引发了对此类做法的法律和伦理担忧。
  • GPT-4.5 会在对话中凭空捏造概念 (Score: 348, Comments: 75):GPT-4.5 因其在交互过程中捏造概念的能力而受到关注,正如 Aaron Ng 在 Twitter 上的帖子所强调的那样。在一段对话片段中,该 AI 专门为此次交互捏造了一个 “CLEAR Model”,展示了其动态对话能力。
    • Peter Hawkins 最初发明了 CLEAR Model,而 GPT-4.5 对它的引用被 I_am_John_Mac 指出是一种 hallucination(幻觉),并附上了 hotpmo.com 的链接。这突显了 GPT-4.5 倾向于创造可能并不准确或并非原创的概念。
    • 讨论中带有一种幽默的基调,谈论将 hallucinations 变成一种功能,一些用户开玩笑说 AI 可能会为其幻觉出的概念申请专利或主张知识产权。
    • GPT-4.5hallucination rate(幻觉率)据记录为 37.1%,低于 GPT-4o61.8%o144%(由 Hexpevingeran 提及),这表明其准确性较之前的模型有所提高。

主题 4. AI 工具简化编程与写作

  • 我开发了一个简单的工具,彻底改变了我与 AI 编程助手协作的方式 (Score: 167, Comments: 41): CodeSelect 是一款旨在简化与 ClaudeChatGPT 等 AI 编程助手共享代码过程的工具。它通过复选框树显示项目结构,允许快速选择文件,并自动检测文件关系以提供更好的上下文。这款轻量级工具只需一条命令即可安装,且没有外部依赖,通过提供适当的上下文显著减少了准备时间并提高了 AI 响应质量,该工具已在 GitHub 上开源。
    • Repomix 被强调为管理代码项目结构的替代工具,只需简单的命令 (cd myProject && npx repomix) 即可在任何文件夹上运行并输出一个可拖拽的文件,用户发现这在项目管理中非常有效。
    • 用户讨论了将 Gemini 驱动的 Agent 集成到 CodeSelect 中,以向 Claude 建议编辑和文件引用,旨在提高效率并在编程过程中节省 Token。
    • Claude 的 GitHub 集成 因其管理全项目变更的能力(如重命名变量和更新注释)而受到关注,用户认为在无需手动输入的情况下保持项目上下文的能力令人印象深刻。
  • 咬牙订阅了 Claude Pro 年度会员 (Score: 104, Comments: 128): 作者称赞 Claude Pro 订阅是处理日常任务、数据分析、创意问题解决和软件工程的变革性工具,并强调了它在调试和代码审查方面的有效性。他们对 Anthropic 的产品表示满意,将其与对 Claude 3.7 过于简练的批评形成对比,并强调了它相对于传统搜索引擎的重大进步。
    • 用户讨论了使用限制 (usage limits)Claude Pro 订阅的一个重大问题,一些人建议通过开启新对话等策略来有效管理限制。其他人则对频繁达到限制表示沮丧,认为这干扰了他们的工作流,而部分用户则报告通过保持对话简短很少遇到这些问题。
    • 有人怀疑赞扬 Claude Pro 的帖子是否真实,部分用户怀疑这些帖子是营销活动的一部分。这种怀疑源于帖子发布时间与促销邮件同步,以及正面评价的重复性,不过也有人认为由于该子版块的定位,这些讨论是真实的。
    • 订阅者争论了年度订阅与按月支付的价值,一些人因质量下降和严格的使用限制而后悔购买。其他人则发现订阅对他们的工作大有裨益,认为决定应取决于个人使用场景和快速发展的 AI 领域。

AI Discord Recap

由 Gemini 2.0 Flash Thinking 提供的摘要之摘要

主题 1. GPT-4.5 入场,但 Claude 3.7 仍是编程之王

  • GPT-4.5 未能令人惊艳,价格令人咋舌: 早期测试者发现 OpenAI 的 GPT-4.5 价格过高(每百万 Token 150 美元),且在编程方面并不比 GPT-4 Turbo 好多少,许多开发者仍然青睐 Claude 3.7 Sonnet,认为其在软件工程任务中表现更优。aider 的多语言编程基准测试显示 GPT-4.5 得分为 45%,而 Sonnet 3.7 为 65%,鉴于高昂的 API 成本,这导致了用户的失望并对其价值主张产生质疑。
  • Claude 3.7 Sonnet 面临负载问题,但仍是顶级编程模型: 尽管有高负载提示和拒绝服务的报告,Claude 3.7 Sonnet 仍被认为是软件工程的最佳模型,因为它能够准确遵循指令并有效调试代码。用户强调了 Claude 3.7 改进的指令遵循和调试能力,尽管有人猜测 Anthropic 正在使该模型变得更难使用。
  • DeepSeek R2 期待值持续升温: 针对 DeepSeek R2 模型 的期待正在积聚,一些成员预计它将超越目前的 SOTA 模型并打破企业的炒作,因为 DeepSeek 的 Chatbot 在编程方面已经超越了现有模型。成员们将 DeepSeek 的 R1 模型OpenAI 的 o1 进行了正面比较,进一步推高了对即将发布的 R2 的兴奋感。

主题 2. IDE 之战:Cursor 与 Windsurf 争夺 AI 编程霸权

  • Cursor 饱受 Bug 困扰,用户怨声载道:用户报告 Cursor IDE 充斥着各种 Bug,在更新后经常出现崩溃和代码更改丢失的情况,一些用户正考虑禁用自动更新并等待更稳定的版本。随着部分用户声称 Claude 3.7Cursor 上的编码质量自发布以来有所下降,挫败感不断增加。
  • Windsurf AI 紧跟 GPT-4.5 潮流,质疑声随之而来Windsurf AI 在 Beta 版中集成了 GPT-4.5,但早期测试显示其在软件工程方面的成本显著更高且表现不如预期,这引发了关于此举是真心实意还是针对 Cursor宣传攻势的争论。用户对 Windsurf 的定价模型(特别是 Flow Credits)表示质疑,认为 Cursor 的定价更加简单直接。
  • Cursor 的 Memory Banks 被认为“毫无意义”且成本高昂CursorMemory Banks 功能被批评为低效且昂贵,用户报告使用 Claude 3.7 API 的每日成本高达 50 美元,而且 Memory Banks 有时会产生幻觉,使得雇佣一名程序员反而更便宜。用户发现 Memory Banks 效率低下,因为它们偶尔会犯错,从而得出雇佣人类程序员更具成本效益的结论。

主题 3. 硬件博弈:DeepSeek 的 DualPipe 和 TinyLM 展现创新曙光

  • DeepSeek 的 DualPipe 向流水线气泡宣战DeepSeek AI 发布了 DualPipe,这是一种用于 V3/R1 训练中计算-通信重叠的双向流水线并行算法,旨在比传统方法减少流水线气泡(Pipeline Bubbles)。此版本与专家并行负载均衡器 EPLB 一起,都是 DeepSeek AI 为期一周的系列发布活动的一部分。
  • TinyLM 凭借 WebGPU 之势释放客户端 LLM 潜力tinylm v0 发布,这是一个支持在浏览器或 Node.js 中通过 WebGPU 加速运行客户端 LLM 的库,具有零成本推理和完全隐私的特性,并提供兼容 OpenAI 的 API。tinylm 支持文本生成、Embeddings 和实时 Token 流式传输,消除了本地 LLM 推理对服务器的需求。
  • NVIDIA 将 Tensor Core 重心转向 FP4,抛弃 INT4?NVIDIA 似乎正在将重心从 INT4 Tensor Cores 转向 FP4Blackwell GPU 采用了 FP4,而 Ada 架构拥有 INT4Hopper 架构拥有 INT8,这引发了关于 INT4 精度在 NVIDIA 硬件策略中未来地位的疑问。基准测试表明 NVIDIA 正在优先考虑将 FP4 用于量化模型训练,这可能会影响未来的硬件开发和软件优化策略。

主题 4. 定价压力:GPT-4.5 API 成本引发公愤,开源替代方案备受关注

  • GPT-4.5 API 定价被指“疯狂”,用户寻求替代方案OpenAIGPT-4.5 (Preview) API 定价为 每百万 Token 输入 75 美元 / 输出 150 美元,遭到了严厉批评。用户谴责其与 Grok3Claude Sonnet 3.7 等模型相比过高的成本,质疑其价值,并促使一些人考虑开源替代方案。GPT-4.5 的高昂成本引发了开发者和研究人员对其可访问性和可持续性的担忧。
  • 用户称 Deepinfra 价格比 Fal AI 便宜 100 倍:一位用户声称 Deepinfra 在字符处理方面比 Fal AI 便宜 100 倍,收费为每百万字符 0.8 美元并提供免费算力,而 Fal AI 仅提供 50 美元的免费额度,并建议将 Kokoro TTS 作为另一种低成本替代方案。这种定价差异凸显了 AI 基础设施市场的竞争格局和成本节约机会。
  • Windsurf 用户质疑 Flow Credits,认为 Cursor 定价“更可取”Windsurf 的定价模型,特别是 Flow Credits 和额外的 Flow Action 成本,令用户感到困惑,导致一些人更倾向于 Cursor 更简单直接的定价方式。用户对额外 Flow Action 的不成比例成本表示担忧,这影响了 Windsurf 定价结构的感知价值和透明度。

主题 5. 社区脉动:从机器人手臂到 CUDA 版 LeetCode,创新蓬勃发展


第一部分:Discord 高层摘要

Cursor IDE Discord

  • GPT-4.5 因高昂价格令测试者失望:OpenAI 的 GPT-4.5 早期测试者发现其价格昂贵且并不比 GPT-4 Turbo 显著更好,其成本高达每百万 token 150 美元
    • 共识是 Claude 3.7 Sonnet 在编程方面仍然更胜一筹,导致一些人称 GPT-4.5 “只是块头大”,并强调其缺乏新的前沿能力。
  • Claude 3.7 Sonnet 面临高负载和拒绝回答问题:用户报告了 Claude 3.7 Sonnet 的问题,包括频繁的高负载提示和拒绝回答某些提示词,一些人猜测 Anthropic 是否正在使模型变得更难使用。
    • 尽管存在这些问题,许多人仍认为 Claude 3.7 Sonnet 是软件工程的最佳模型,因为它能够准确遵循指令并有效地调试代码。
  • Cursor 饱受 Bug 和更新困扰:多名用户报告在更新后经历频繁崩溃并需要重新安装 Cursor,且因 Bug 丢失了代码更改,最新版本可能会影响性能和稳定性。
    • 其他人建议禁用自动更新并等待更稳定的版本,一些用户声称在 Cursor 上使用 Claude 3.7 编程的质量较发布时有所下降。
  • Windsurf AI 吹嘘快速集成 GPT-4.5Windsurf AI 宣布 GPT-4.5 现已在 Windsurf 开启 Beta 测试,但指出早期测试显示其价格显著高于其他替代模型(>10倍),且在软件工程或工具调用(tool calling)方面不如现有模型快,也不如现有模型强。
    • 根据这条推文,用户在争论 Windsurf 的举动仅仅是攻击 Cursor 的宣传手段,还是即便在有限制的情况下仍努力提供最新模型访问权限的真诚尝试。
  • Memory Banks 表现不及预期:Discord 成员报告称 Memory Banks(记忆库)似乎非常低效,而且除了价格昂贵外,使用 Claude 3.7 API 很容易达到每天 50 美元的开销。
    • 低效源于 Memory Banks 有时会犯错或产生幻觉,这使得直接雇佣一名程序员反而更便宜。

aider (Paul Gauthier) Discord

  • GPT-4.5 表现平平,Claude 3.7 占据主导地位:早期基准测试显示 GPT-4.5 Preview 的编程性能令人失望,在 aider 的多语言编程基准测试中仅获得 45% 的分数,而 Sonnet 3.765%。这让成员们认为它的定位是一个“友好的”非推理语言模型
    • 尽管 GPT-4.5 已经发布,但 Claude 3.7 仍然是处理复杂编程问题的首选,在编程基准测试中优于 GPT-4.5,且更容易被越狱(jailbreak)。
  • DeepSeek R2 热度激增:成员们对 DeepSeek 的 R2 模型 充满期待,预计它将超越目前的 SOTA 模型并打破企业的宣传噱头,一些人将 DeepSeek 的 R1 模型O1 进行比较。
    • 这种期待源于一种观点,即 DeepSeek 的聊天机器人 在编程能力上已经超越了现有模型。
  • Aider 用户倡导自动重试模式:用户要求为 Aider 增加自动重试模式,以解决 Deepseek R1 等模型的不稳定性,并提议如果主模型失败,则增加向另一个模型的回退机制(fallback mechanism)。
    • 该请求强调了对更可靠模型性能的需求,以增强 Aider 的编程体验。
  • Sam Altman 将 GPT-4.5 极高的 API 价格归咎于 GPU 大短缺Sam Altman 承认满足 GPU 需求存在困难,这导致 GPT-4.5 被限制在更高的付费墙之后。
    • 一些成员推测,GPT-4.5 API 的高昂价格是因为除此之外该模型的配置成本高得令人无法承受。
  • 现在可以配置 Aider 使用 Venice AI:成员们正在探索配置 AiderVenice AI(一家使用 OpenAI 风格 API 端点的 LLM 提供商)配合使用,方法是按照 OpenAI 兼容 API 文档 中的说明设置 OPENAI_API_BASEOPENAI_API_KEY 环境变量。
    • 如果你想在 aider.conf.yaml 中使用带有思考(thinking)功能的 Claude 3.7这里有一个关于如何为编辑器设置带有思考功能的模型配置示例。

OpenAI Discord

  • GPT-4.5 略过模型多模态功能OpenAI 发布了 GPT-4.5 的研究预览版,这是他们用于聊天的大小最大、效果最好的模型,首先向 ChatGPT Pro 用户推出,但 GPT-4.5 目前在 ChatGPT 中不支持 语音模式 (Voice Mode)视频屏幕共享等多模态功能。
    • 初步测试表明,由于 GPT-4.5 拥有更广泛的知识库、更强的遵循用户意图的能力以及更高的“情商(EQ)”,它感觉更加自然,这使其在改进写作、编程和解决实际问题方面非常有用。
  • 匿名模型紧随 Sonnet 3.7 之后:传闻一个匿名模型的性能接近 Sonnet 3.7,这引发了猜测:如果它是 GPT 4.5,考虑到模型的尺寸,其表现并不尽如人意。
    • 成员们推测,如果 OpenAI 发布了一个体积更大但性能与 Sonnet 3.7 相同的模型,那么即使该模型是非思考型的,他们也已经在竞争中落后了。
  • 破解 LLM 的创意散文写作:在使用 LLM 进行创意写作时,为角色定义深厚的背景并直接讨论备选路线可以增强叙事的深度,避免重复的情感场景和陈词滥调。
    • 尝试让 ChatGPT 先生成对话和互动,然后从作者的角度进行叙述,将其引导至预期的方向。
  • 窥探 OpenAI 的模型规范 (Model Spec)OpenAI 发布了其 模型规范 (Model Spec),其中概述了为 OpenAI 产品(包括 API 平台)提供支持的模型的预期行为
    • 其目标是创建有用、安全且符合用户和开发者需求的模型,同时推进其确保通用人工智能(AGI)造福全人类的使命。

Unsloth AI (Daniel Han) Discord

  • Unsloth 修复 Phi-4 Mini 乱象:成员们报告了 Microsoft 的 Phi-4 mini 存在的问题,Unsloth 团队在 HF 上上传了修复版本
    • 团队表示 Microsoft 没有采用 Unsloth 的 Bug 修复,导致该模型完全无法使用
  • DeepSeek 发布 DualPipeDeepSeek AI 发布了 DualPipe,这是一种用于 V3/R1 训练中计算-通信重叠的算法,其中包括针对 V3/R1 优化的专家并行负载均衡器 EPLB
    • 此次发布是 DeepSeek 本周系列发布的一部分。
  • GRPO 奖励函数得到优化:社区成员调试并改进了 GRPO notebook 中的奖励函数,添加了用于多行 XML 匹配的 re.DOTALL 标志,纠正了 count_xml 中的拼写错误,并解决了整数奖励的问题。
    • 社区成员建议 block size 为 128 是理想的,而 64/128 的有效大小更稳定。
  • Ollama 的 Think-Token 机制困扰用户:一位用户发现 Ollama 会在提示词中附加一个 **** token,这会阻止模型生成该 token,因此需要调整 **** 标签的输出解析。
    • 该用户建议禁用此功能会很有帮助,并承认这源于模型的处理类。
  • Inception Labs 推出 Mercury dLLMInceptionAILabs 介绍了 Mercury,这是一种扩散大语言模型 (dLLM),旨在通过并行的、由粗到细的文本生成来提升智能和速度。
    • 部署此类模型仍面临挑战,特别是缺乏 OS 支持以及难以扩展上下文长度(context length)可能是瓶颈。

Codeium (Windsurf) Discord

  • Claude 3.7 单次提示词操作数增加:团队正与 Anthropic 合作,解决 Claude 3.7 SonnetClaude 3.5 Sonnet 相比,单次提示词的 Flow 操作数更高的问题。
    • 他们建议在执行精确任务时使用 3.7,在平衡性能时使用 3.5
  • Claude 3.7 额度倍率降低:由于初始 Token 使用数据,Claude 3.7 Sonnet Thinking额度倍率1.5 降至 1.25
    • 用户现在每次工具调用消耗 1.25 个用户提示词额度和 1.25 个 Flow 操作额度。
  • Cascade 崩溃引发担忧:根据一份功能请求,用户报告 Cascaderesource_exhausted 错误而无法工作。
    • 鼓励成员关注 roadmap 以获取最新动态。
  • Windsurf 用户质疑定价:成员对 Windsurf 的定价表示困惑,特别是关于 Flow 额度和额外 Flow 操作的成本。
    • 一些用户发现 Cursor 的定价因其简单直接而更具吸引力。
  • GPT-4.5 进入 Beta 测试GPT-4.5 已在 @windsurf_ai 开启滚动 Beta 测试!但其价格明显更高(比 GPT-4 Turbo 贵 5-10 倍以上),且速率限制(rate limits)更严格,目前正逐步向用户推送。

GPU MODE Discord

  • DeepSeek 的 R1 模型震撼推理领域DeepSeek 的 R1 模型通过思维链 (chain of thought) 生成增强了回复质量,在基准测试中与 OpenAI 的 o1 旗鼓相当,并提供开源访问,详见其技术报告和 DeepSeek API 文档
  • AIE 工具链问题困扰技术人员:一名成员在 AMD 的 Zen 5 NPUAIE 工具链上苦苦挣扎,指出其难度高于 Intel,虽然发现 Linux 支持最近已合并,但安装依然复杂。
    • 该成员建议 NPU BLASIntel 架构上更容易运行。
  • NVIDIA 放弃 INT4 TensorCores:一位成员观察到 NVIDIA 正在从 INT4 Tensor Cores 转向 FP4,并分享了量化模型的基准测试
    • 另一名成员澄清说,Ada 拥有 INT4Hopper 拥有 INT8,而 Blackwell 的特点是 FP4
  • CUDA 社区 LeetCode 化:CUDA 社区重点介绍了 CUDA 版 LeetCode 的 Beta 版发布,邀请用户试用并提供反馈,但由于处于 Beta 阶段,用户应做好遇到小问题的心理准备。
    • 相关新闻中,NVIDIA 将在 GTC 2025 前一天,即 2025 年 3 月 16 日星期日中午 12 点至下午 4 点,举办受邀参加的 CUDA C++CUDA Python 动手教程,并邀请您参加下午 5 点至 10 点的 GPU MODE 活动 (lu.ma/8w1ehhrw)。
  • 扩散模型在生成速度上碾压 LLM?:成员们报告称,Diffusion 模型可以在 GPU 上实现极速生成,超越 Groq/Cerebras,并且在“中间填空” (FIM) 方面比 DeepSeek V2 Lite 等其他模型表现好得多 (推文)。
    • 他们重点介绍了 Inception Labs 的 Mercury,这是首个商业级扩散大语言模型 (dLLM),具有并行的、由粗到细的文本生成能力,声称比经过速度优化的 LLM 快达 10 倍,在 NVIDIA H100 上可达到超过 1000 tokens/sec

OpenRouter (Alex Atallah) Discord

  • OpenAI 遭遇停机:OpenRouter 经历了 OpenAI 供应商停机,在确认是 OpenAI 端的故障后,目前已解决。
    • 请求现在已恢复成功,OpenRouter 上的 OpenAI 供应商已恢复正常。
  • DeepSeek R1 在 SambaNovaAI 上运行飞快671B 参数的 DeepSeek R1 现在可通过 OpenRouter 上的 SambaNovaAI 使用,提供 150 tokens/second 的速度。
  • Sonnet 3.7 获得容量提升和浏览功能Claude Sonnet 3.7 现在在 OpenRouter 上拥有显著提高的速率限制和网页搜索能力。
  • GPT-4.5 (Preview) 以高昂价格发布GPT-4.5 (Preview) 旨在突破推理、创意和长上下文对话的界限,现已在 OpenRouter 上线,价格为 $75/M 输入 token 和 $150/M 输出 token。
  • 用户使用 YPerf 追踪 API 使用情况:一名成员创建了 YPerf.com 用于监控 OpenRouter 上各模型的 API 使用情况和性能
    • Gemini Flash 1.5 8B 排名第 66,成本为 $0.04,延迟为 0.52s,吞吐量为 419.8T/s

LM Studio Discord

  • 爱好者构建 DIY 机器人手臂:成员们讨论了从零开始构建机器人手臂,以学习 servos、CAD 和 microcontrollers,并推荐了来自 Microcenter 的 $100 Creality Ender 3 V2 打印机
  • 辩论网站的 LLM 后端:成员们讨论了如何在网站中实现 LLM,建议包括使用 websockets、SSR、AnythingLLM 以及 CursorContinue.dev 等代码编辑器。
    • 会议澄清,在 GitHub Pages 上托管网站需要将 LLM 托管在其他地方(Azure, cloud, ngrok)。
  • Grok-3 的性能令成员感到惊讶:成员们讨论了 Grok-3 在各种基准测试中相对于之前的 O3 模型出人意料的优异表现,质疑 X.ai 的基准测试是否准确或具有误导性。
    • 用户们争论 Grok-3 是否在没有进行适当的伦理红队测试(red-teaming)的情况下匆忙推向市场,而其他人则认为 Grok-3 是 Beta 版,受到监控,且出于安全原因未开放 API。
  • Framework 桌面电脑具备 Unified RAM 特性Framework desktop 的特点是 CPU 和 GPU 之间拥有 unified RAM,提供高达 128GB 的共享内存,其中约 90GB 可供 GPU 使用。
    • 一位用户将其比作 MAC 的配置,强调了 unified RAM 在 PC 中的吸引力。
  • GMK 发布 Ryzen AI 迷你 PCGMK 宣布了全球首款基于 AMD Ryzen AI 9 Max+ 395 的迷你 PC,预计将于第一或第二季度上市。
    • 这款迷你 PC 将采用 Zen 5 architecture,最高配置为 16-core/32-thread,并配备基于 RDNA 3.5 architecture 的强力集成显卡。

Interconnects (Nathan Lambert) Discord

  • Phi-4 多模态系列发布:微软发布了 Phi-4 系列小语言模型 (SLMs),包括 Phi-4-multimodal(处理语音、视觉和文本)和 Phi-4-mini(擅长文本任务),可在 Azure AI FoundryHuggingFaceNVIDIA API Catalog 中获取。
    • 一些用户对它具有与 Gemini Flash lite 类似的多模态性能的说法表示怀疑。
  • 泄露的 GPT-4.5 System Card 引发辩论:一位用户分享了 此处可用GPT-4.5 System Card,表明与 GPT-4.5 的交互感觉更加自然,且内部测试人员报告 GPT-4.5 温暖、直观且自然
    • 该 System Card 指出它将 GPT-4 的计算效率提高了 10 倍以上,但有人称该卡片非常无聊,而另一些人则将其解读为 GPT-4.5 是创意写作高手,而 Sonnet 3.5 是问题解决专家。
  • OpenAI 发布 GPT-4.5,性格化成为主流?:OpenAI 发布了 GPT-4.5 研究预览版,面向 OpenAI Pro 用户和 API 开发者开放,支持图像+文本输入、文本输出,具有与 4o 模型相同的上下文窗口,训练数据截止至 2024 年 6 月,官方公告在此
    • 一位用户指出,性格/个性正在成为主流话题,且 OpenAI 激进地使用了低精度训练,目前定价为每百万 input tokens 75 美元,每百万 output tokens 150 美元。
  • GPT-4.5 基准测试令人失望GPT-4.5 的早期基准测试显示它在多个问题上被 o1 超越,这表明在 2025 年,预训练(pre-training)并不是投入计算资源的最佳环节。
    • 一位用户指出幻觉指标(hallucination metrics)非常好,而另一位用户认为在 1-2 年内这将成为默认的模型规模。
  • Anthropic 因隐蔽数据收集被点名:根据 这条 fxtwitter 推文,一位用户指责 Anthropic 从 Computer Use API 中进行隐蔽数据收集,并将其用于训练企业伦理指南的分类器,同时更新其网站以显得透明。

Latent Space Discord

  • Speak AI 见证曲棍球棒式增长:Paul Graham 分享了 Speak AI 的营收图表,展示了指数级增长的一种新变体:一家销售“新年计划”类产品的公司,因其产品的有效性而获得了持续的用户使用。
    • Swyx 和其他人观察到了这种独特的增长模式。
  • Hume AI 的 Octave 展现情感化语音:Hume AI 推出了 Octave,这是一款全新的用于文本转语音(TTS)的 LLM,可以通过提示词设计声音并控制情感和表达,并配有用于长内容制作的创作者工作室。
    • 与传统的 TTS 系统不同,该模型理解语义如何影响表达,从而生成具有情感且类人的语音。
  • 扩散 LLM Mercury 崛起:Inception Labs 推出了 Mercury,这是首个商业级扩散大语言模型 (dLLM),承诺实现并行的、从粗到细的文本生成。
    • Karpathy 认为 Mercury 有潜力展示独特的心理特征、新的优势和劣势,并鼓励人们去尝试
  • Karpathy 分享 LLM 智慧:Andrej Karpathy 发布了一段 2小时11分钟的 YouTube 视频,主题为《我如何使用 LLM》,这是一份关于 LLM 生态系统的实用指南,包含工具使用、文件上传、音频/视频输入输出、记忆功能和自定义 GPTs 的示例。
    • 视频涵盖了 ChatGPT 交互、工具使用(互联网搜索、深度研究、Python 解释器)、Claude Artifacts、Cursor Composer、语音输入输出、NotebookLM 以及图像/视频输入输出等主题。
  • GPT-4.5 发布表现平平:成员们经历了初期的技术故障,并认为 GPT-4.5 的发布直播令人失望,甚至被描述为“人质视频”。
    • 新模型目前没有 API,重点关注长尾、现实世界的边缘案例,例如回复愤怒的短信。

Nous Research AI Discord

  • Wan2.1 模型成为视频扩散领域的里程碑Wan2.1 的发布被认为是视频模型的一个关键时刻,类似于 Stable Diffusion,它是一个开放且先进的大规模视频生成模型。
    • 用户们很兴奋地想看到该模型将如何解决当前视频扩散领域存在的一系列问题。
  • GPT-4.5:更多算力,更少惊艳?GPT-4.5 已经发布,其计算密集度高于 GPT-4o,Sam Altman 表示该模型“感觉就像在与一个有思想的人交谈”。
    • 尽管 Karpathy 声称其预训练算力比 GPT-4 多 10 倍,但考虑到它在过河谜题上存在过拟合,且倾向于创意使用场景,其应用场景可能会受到限制。
  • Apple Intelligence 遭到差评:成员们认为 Apple Intelligence 表现平平,称其是从商业 API 使用向消费者的转变,并表示他们陷入了“边缘推理优先(edge-inference-first)”的陷阱。
    • 一些人认为 Apple 应该优先考虑将 AI 做到最好,而不是专注于设备端的限制,然而“边缘推理优先”的约束最终“搞砸了它”。
  • Mercury dLLM:极速扩散 LLMInception Labs 推出了 Mercury,这是一个扩散大语言模型 (dLLM) 家族,他们声称其速度比优化后的 LLM 快 10 倍,在 NVIDIA H100s 上达到了超过 1000 tokens/sec 的速度。
    • 代码生成模型 Mercury Coder 已可在 Playground 中进行测试。
  • 通过语音切换推理功能?:一位用户询问是否可以通过语音命令在 AI 模型中切换推理功能,目标是除非明确提示“使用推理”等短语,否则 90% 的情况关闭推理
    • 该用户正尝试通过添加系统提示来实现这一点,并微调推理过程并启用文本转语音功能,可能会使用 ElevenlabsCartesia

HuggingFace Discord

  • Deepinfra 价格碾压 Fal AI?:一位用户声称 Deepinfra 在字符处理方面比 Fal AI 便宜 100 倍,每百万字符收费 0.8 美元,并提供免费算力。
    • 他们指出 Fal AI 提供 $50 的免费额度,同时建议将 Kokoro TTS 作为另一种低成本替代方案。
  • REFUTE 基准测试考量推理能力REFUTE 基准测试 评估 Language Models (LMs) 证伪错误算法方案的能力,结果显示即使是顶级的 Agent 得分也仅为 9%。
    • 介绍该基准测试的论文主张挑战现有方案而非仅仅生成方案,强调了证伪在科学发现中的重要性,并附带了 论文链接
  • Smolagents 测验令人头疼:多位用户报告了 smolagents 课程 测验的问题,包括 iframe 显示问题导致反馈无法阅读,以及 Agent 针对 HfApiModel 中 id 参数给出的验证信息存在矛盾。
    • 用户对测验的安全设置与当前文档之间的差异表示沮丧,并对使用 HfApiModel 还是 LiteLLMModel 实现模型感到困惑。
  • NVIDIA 抵御恶意的注入攻击NVIDIA AI Red Team 发现 prompt injection(提示词注入)可以利用 LangChain 库中的插件进行攻击。
    • 他们警告说,提示词注入是针对 large language models (LLMs) 的一种新型攻击技术,使攻击者能够操纵 LLM 的输出。
  • PyTorch360Convert 展现全景潜力:一位成员介绍了 pytorch360convert,这是一个新的轻量级 PyTorch 库,旨在简化 VR、AR、视频游戏等领域的 360° 图像 处理工作,可通过 pip install pytorch360convert 安装。
    • 该库支持多种图像表示形式,包括 等距柱状投影图像 (equirectangular images)立方体贴图 (cubemaps),并且 GPU/CPU 兼容,支持多种精度类型,可在 GitHub 上获取。

Perplexity AI Discord

  • 语音模式备受推崇:成员们讨论了新的 voice mode 功能,注意到 UI 的改进、打断 功能以及 音色 的变化。
    • 虽然一些用户认为它令人印象深刻,但其他人觉得它尚未达到 Microsoft CopilotGrok 3ChatGPT 的水平。
  • GPT-4.5 传闻四起:用户讨论了将 GPT-4.5 集成到 Perplexity 的可能性,引用了一个 YouTube 演示视频,并指出该模型具有 更大的上下文更像人类 的回答。
    • 一位用户分享了 Sam Altman 在 X 上的链接,其中提到 GPT-4.5第一个让人感觉像是在与一个有思想的人交谈的模型
  • Perplexity 用户分享大量链接:多位用户分享了一系列 Perplexity AI 的搜索和页面链接,涵盖了从 量子计算AI 通信 等主题。
    • 这些链接还包括关于 盖房子 以及 AI 驱动诊断的讨论。
  • API 额度困惑引发关注:一位用户询问 Perplexity Pro 包含的 $5 API 额度 可以进行多少次 API 调用和搜索,以及如果超过给定额度该如何支付。
    • 还有用户询问如果 API 被误充值 且未使用,该如何获得 退款
  • Web Clipper 配置灾难:尽管设置了正确的 Base URLAPI Key,一位用户在 Obsidian Web Clipper 中配置 Perplexity APIsonar-deep-research 模型时仍遇到问题。
    • 该用户提供了其配置和失败消息的 截图,寻求故障排除方面的帮助。

Stability.ai (Stable Diffusion) Discord

  • Stability AI 启动网站重设计竞赛:Stability AI 为 Stable Diffusion 社区发起了 Website Redesign Contest,以展示他们的最佳作品,投稿截止日期为 3 月 7 日星期五
    • 获奖图像将在 Stability AI 官方网站上展示,参赛作品必须以 Stable Diffusion 3.5 为基础。
  • SD 社区迷上 T5 CLIP:一位成员正在寻找集成 T5 CLIPSDXL-like model,称他们已经体验到了 SD3.5T5 prompt adherence 的威力。
    • 他们发现 T5 adherence 令人上瘾,并正在寻找替代方案。
  • ControlNet Models 热潮持续:一位成员询问在 SDXL 中保持角色一致性的最佳 ControlNet models 推荐。
    • 他们特别要求提供参考的 U-Net model(如果有的话)。
  • ComfyUI 远程安装现已开售:一位成员提到正在出售 ComfyUI workflows 和远程安装服务,通常使用 TeamViewer 协助用户运行。
    • 他们澄清说,他们收取的是时间和知识费用,而不是 workflow 本身。
  • Inpaint Anything 遇到障碍:一位成员报告了 Inpaint Anything 中的形状不匹配错误:value tensor of shape [159, 256] cannot be broadcast to indexing result of shape [64, 256]
    • 该成员在 Automatic1111 中使用 Inpaint Anything 扩展,并询问如何解决此错误。

Eleuther Discord

  • HF 弃用功能失效:一位成员尝试在 Hugging Face 上将一个 repo 标记为已弃用(deprecated)并链接到新版本,但发现该功能仅适用于 models,不适用于 datasets。
    • 另一位成员建议,对于小型语料库,提示 LLM 检查相关性比调整 embeddings 和 rerankers 更好。
  • DeepSeek 凭借 DualPipe 再次发力DeepSeek 发布了 DualPipe,这是一种双向流水线并行算法,旨在重叠 V3/R1 训练中的计算和通信。
    • 一位用户表示希望 DeepSeek 能在最后一天发布其整个预训练框架,包括核心部分。
  • Gemini’s Flash Thinking 内部基准测试:成员们讨论了 Gemini 2.0 Flash Thinking,这是 Google 增强的推理模型,它通过“展示思考过程”来提高性能和可解释性,特别是在数学和科学领域。
    • 一些人怀疑该模型进行了内部基准测试,但由于表现不如 O3 Mini 而未公开发布。
  • MI 社区通过调查开启大门:分享了一篇代表许多主要 mech interp 团队的调查论文,题为 open problems in mechanistic interpretability
    • 此外,还发布了所有 SmolLM2 模型的 50 多个中间 checkpoints,希望能帮助人们学习 interpretability。
  • QA Harness 引发任务结构疑问:一位成员询问如何使用 harness 评估 ARC-EasyARC-hardQA tasks,质疑为什么拼接只包含 Question + Option,而不是每个选项都包含 Question + Options + Answer

Yannick Kilcher Discord

  • Microsoft 躲过了统治地位的终结?:一名成员声称 Microsoft 依赖政府支持而非真正的创新,而另一名成员则以 Yahoo 为例,说明资源并不能保证成功。
    • 这次交流强调了市场主导地位的复杂动态,以及在财务支持之外创新的重要性。
  • AI 输出:有意义但可变:成员们讨论了非确定性的 AI 模型如何表现出确定性行为,特别是在 Cursor 中的代码生成方面。
    • 有人指出,即使注释和变量名发生了变化,AI 模型生成的输出也具有相同的含义;输出的含义相似,但字面输出会发生变化。
  • GPT-4.5 侧重于偏好而非进步?:正如 Introduction to GPT-4.5 YouTube video 中介绍的那样,GPT-4.5 的发布强调了用户偏好和有用性。
    • 一些人认为 OpenAI 感到了来自 Grok-3Claude 3.7 的压力,从而导致了此次发布,并将价格提高到每百万输入 token 75 美元,输出 token 150 美元
  • Alexa 的 AI 升级需要额外付费?:根据 tomsguide.com 的报道,代号为 Remarkable 的新版 Alexa 可能需要每月 5 到 10 美元 的订阅费。
    • 考虑到 Google、Samsung 和 Apple 都免费提供其 AI 服务,用户是否会为 Alexa 买单仍不确定。
  • 探讨 KV 相似度:讨论涉及了哈希冲突(hash collisions),其实现旨在当 qkT_i 较高时诱导冲突,利用哈希冲突概率 P(h(q) == h(k_i)),其中 h 是哈希函数,如 arxiv.org/pdf/2502.03387 中所述。
    • 哈希冲突被用作移除相似键值对(key-value pairs)的指标。

Cohere Discord

  • Cohere 模型与 OpenAI SDK 兼容良好:AI 工程师们庆祝可以通过 OpenAI SDK 直接访问 Cohere 模型,参考 Quickstart Guide,其中包含 Python、TS 和 cURL 的演示,并支持 streaming、tool calls 和 structured outputs。
    • Sandra Kublik 发推称 你现在可以直接通过 OpenAI SDK 访问 Cohere 模型了
  • Cohere 发布 Command R7B Arabic 模型Cohere 发布了 Command R7B Arabic,这是一个针对阿拉伯语优化的 R7B 模型,可以通过 Cohere Platformcommand-r7b-arabic-02-2025 以及 Hugging Face 访问,并将于今日晚些时候登陆 Ollama
    • 根据 release notes,该模型具有 128,000 tokens 的上下文长度,在指令遵循(instruction following)、长度控制、RAG 以及使用正确的语言回答等企业任务中表现出色。
  • 社区希望 Command R+ 的更新能超越 Mistral Large:社区成员讨论并表达了对即将到来的 Command R+ 更新的渴望,希望它能超越 Mistral Large 2411
    • 成员们预计,由于 NDA 的存在,具体的发布细节不太可能被提前分享,并警告不要传播未经证实的信息。
  • 阿拉伯语 LLM 获得基准测试助力:社区对将 Cohere 的 R7B Arabic 模型与卡塔尔的 Fanar 模型以及沙特的 ALLaM 进行基准测试表现出浓厚兴趣,并建议使用 Arabic Balsam 指数。
    • 一名成员分享了 GPT-4.5 system card 的链接,该文档提供了基准测试方法的概述。
  • Adobe Premiere 支持自动转录:一名成员提到 Adobe Premiere 具有自动转录功能,其他成员确认了该功能的存在和可用性。
    • 此前,社区成员讨论过自动字幕(auto caption)和自动副标题(auto subtitle)选项。

LlamaIndex Discord

  • LlamaIndex 助力自闭症护理LlamaIndex 正在帮助 CentralReach 利用 AI 改变自闭症和 IDD(智力与发育障碍)护理,将海量的研究和文书工作简化为相关的见解和关键点,以提高医生的效率。
    • AI 在医疗领域的整合有助于简化复杂的数据分析,提高诊断和治疗方案的速度与准确性。
  • LlamaExtract 简化数据提取:LlamaIndex 的 LlamaExtract 现已进入公测阶段,通过允许用户以编程方式定义和自定义数据提取的 Schema,简化了从非结构化文档中提取结构化数据的过程。
    • 新的测试版本旨在提高 LlamaIndex 用户数据处理工作流的效率。
  • LlamaParse 出现数据泄露:一位用户报告了 LlamaParse 0.6.2 中的数据泄露问题,其他用户的图像和分析结果(包括敏感信息)混入到了该用户的结果中;该问题已被确认为测试/基准数据混淆,并在后端 API 中得到了修复。
    • 报告者提供了一份 Job ID 列表供调查,强调了多租户系统中稳健数据隔离的重要性。
  • LlamaExtract 文档“已过时”:一位用户注意到 LlamaExtract 0.0.4 中缺少 create_agents 方法,经确认该项目已迁移至 LlamaCloud Services,且相关文档已过时。
    • 相关代码现在位于 llama_cloud_services 仓库中,表明其正向基于云的知识 Agent 管理转型。
  • 探索 Searxng 搜索引擎:一位用户询问如何将免费的元搜索引擎 Searxng 集成到框架中,建议将其作为增强搜索能力的工具。
    • 一位成员建议通过将 Searxng 放入 FunctionTool 中来配合 Agent 使用,尽管这还是一个较新的集成。

DSPy Discord

  • Portkey AI Studio 隆重发布:Portkey AI 推出了 Prompt Engineering Studio,这是一个面向 Prompt 工程师的 IDE,支持在 1600 多个模型上进行测试,并提供来自 AI 驱动助手的改进建议。
    • 该 Studio 具有可重用模板、版本控制、Prompt 部署以及带有实时分析的性能跟踪功能;Portkey AI 将于 3 月 3 日举办一场直播工作坊来演示该 Studio,可在 Portkey 官网报名。
  • ReAct 在顺序工具使用上遇到困难:一位用户询问如何将需要外部 Ping 的工具与 dspy.ReAct 集成,以完成创建文本和发送电子邮件等任务,特别是在编排方面。
    • 挑战在于当电子邮件功能需要外部函数调用时,如何确保系统理解动作的先后顺序(先创建文本,后发送邮件)。
  • DSPy 2.6.7 版本因导入错误被撤回:用户报告了 dspy-ai==2.6.7 中的 ModuleNotFoundErrorGitHub issue 详细说明了导入失败导致无法访问模块的问题。
    • 降级到 2.6.6 版本解决了该问题,故障版本已被迅速撤回,并发布了 2.6.8 版本以解决从 setup.py 迁移到 pyproject.toml 引起的导入问题。
  • MIPROv2 超出 Token 预算:一位用户在使用 MIPROv2 时遇到了 ContextWindowExceededError,即使已确保对话少于 1000 个字符并使用了 light 模式。
    • 建议用户减少优化器中的 demo 数量,或在 .compile() 调用中设置 view_data_batch_size=3 以解决 Token 限制问题,此设置对于减小数据摘要大小是必需的。
  • Refine API 进化的反馈循环:一位用户询问与旧的断言方法相比,在使用 dspy.Refine 进行后续重试时,如何控制传递给 LLM 的建议/反馈。
    • 反馈将在 reward_fn 中返回,并且 dspy.Refine 现在应该参与编译反馈机制,从而允许对以前无法优化的建议进行优化。

Torchtune Discord

  • GPT-4.5 Lands on Azure: 一名成员报告 GPT-4.5 现在可以在 Azure 上访问。
    • 未提供关于具体功能、定价或可用区域的进一步细节。
  • Activation Offloading Requires Checkpointing: 一名成员询问为什么在 Torchtuneactivation offloading 需要 activation checkpointing
    • 另一名成员澄清说,与仅存储 Transformer block 输入向量的 checkpoints 相比,卸载和加载 activations 由于巨大的内存需求可能会限制 GPU 性能 (throttle GPU)。
  • Shared Memory to the Rescue: 一名成员寻求关于在 distributed Federated Learning (FL) 中高效加载合并模型的指导,以防止在所有 ranks 上重复下载。
    • 推荐的方法是利用 shared memory,而不是将合并后的模型转储到磁盘供所有 ranks 访问。
  • DeepSeek’s DualPipe Aims to be Parallel: 一名成员分享了 DeepSeekDualPipe GitHub repository,展示了一种专为 V3/R1 training 中的 computation-communication overlap 设计的 bidirectional pipeline parallelism algorithm
    • 另一名成员指出,即使它被通信开销掩盖,它也可能有助于 FL 同步之间的优化。
  • DPO Integration Test in Limbo: 一名成员询问了 DPO integration test 的状态以及阻碍其添加的任何问题。
    • 另一名成员表示,这里 已经存在一个 single-device recipe,添加 distributed recipe 应该不会有任何问题。

Notebook LM Discord

  • NotebookLM Users Seek Emoji Customization: 用户请求在他们的笔记本上更改 emoji 的功能,但该功能目前不可用;与 OneNote、Obsidian 和 Goodnotes 相比,用户可以支持现有的功能请求或创建新的请求。
    • 一名用户指向一条 tweet,感叹 NotebookLM 缺乏势头和移动端 App,并将其归咎于 Google 扼杀内部创新的模式。
  • Notebook Sharing Causes Headaches: 用户在向群组共享笔记本时遇到问题,发现仅提供链接是不够的,因为他们需要专门添加用户以授予访问权限。
    • 用户似乎需要先拥有账号才能访问共享笔记本,可能需要通过电子邮件添加用户并提供链接。
  • Audio Overview Plagued by Errors: 用户在尝试加载 Audio Overview 时,经常遇到错误提示 ‘There was an error fetching your conversation. Please try again’
    • 该问题似乎是间歇性的,有时可以工作但经常失败,给依赖此功能的用户带来了挫败感。
  • User Encounters ‘Service Unavailable’ Error: 一名用户报告在登录 NotebookLM 时收到 ‘Service unavailable’ 错误,消息指出 ‘You tried to access a service that isn’t available for your account’,并链接到了他们的 Google Account services page
    • 一名用户建议该账号可能默认使用了学校账号而非个人账号。

Modular (Mojo 🔥) Discord

  • Modular 重组仓库,释放变革信号:根据 Modular 论坛的一篇帖子,Modular 正在精简其 MAXMojo 仓库,将它们合并以简化贡献流程并统一 Bug 报告。
    • 此次重组引发了关于 Mojo 作为独立语言未来的猜测,一些人质疑其优先级是否正在发生偏移。
  • Mojo 获得 HyperLogLog 实现:一位成员在 Mojo 中实现了 HyperLogLog 算法,并在 GitHub 上分享了代码并征求反馈。
    • 该开发者将 Mojo 描述为更强大的 Python,使用起来非常有趣。
  • MAX 使用未公开的 MLIR:Mojo 的 stdlib 中使用了内联 MLIR,但这在很大程度上是未公开的,旨在供 Modular、stdlib 贡献者以及 MAX Graph Compiler 内部使用。
    • 内部 Dialects 如 momoqmoggmefmgpgrtrmo 并不打算向公众开放,尽管一些大胆的用户正通过 nm 探索 Mojo 内部机制,以发现与 Dialects、Types 和 Ops 相关的细节。
  • Mojo Unions 引发讨论:在 Mojo 中发现的 union 类型引发了关于其预期用途和潜在风险的辩论。
    • 担忧包括定义不明确的 aliasing(别名)和 type-punning(类型转义)规则,这可能导致意外行为。

MCP (Glama) Discord

  • MCP 在生产环境中找到用户:成员们正在生产工作流中使用 MCP,并报告称尽管在编辑过程中存在行号变化的问题,但它依然非常实用。
    • 正如 Open-Source MCP servers 中所述,缓解策略包括巧妙的 Prompting 和资源包含,以管理这些变化。
  • Claude Code 基于 Diff 的编辑在 GO 语言上受挫:用户指出 Claude Code 采用基于 Diff 的编辑方式,由于 Go 代码为了可读性添加空格的方式,这种方式遇到了问题。
    • 自动格式化调整干扰了基于 Diff 的方法,导致编辑失败。
  • 官方 Everything Server 支持 SSE 流:官方 Everything Server 现在支持 SSE (Server-Sent Events),使其适用于测试实时数据流。
    • 一位用户确认 SSE 对他们的测试场景非常“完美”,这表明其在事件驱动应用方面具有增强的能力。
  • Glama AI 的 GitHub App 寻求扩展性Glama AI 的创建者敦促用户安装 Glama AI GitHub app,以支持该项目并提高 API 速率限制。
    • 解决了安装过程中最初出现的 could_not_parse_params 错误,并澄清只需注册,不会进行数据收集。
  • tinylm 通过 WebGPU 实现客户端 LLMtinylm 0 版本发布,这是一个用于在浏览器或 Node.js 中通过 WebGPU 加速运行 LLM 的库,具有兼容 OpenAI 的 API。

Nomic.ai (GPT4All) Discord

  • GPT4ALL 用户请求 Google Gemini LIVE 模式:一名用户请求开发类似于 Google GeminiLIVE 模式功能,认为这可能超越 Google 的工具,并链接了一个使用 Python 构建的 GPT4ALL 语音助手演示,该助手使用 OpenAI Whisper 进行离线语音检测。
    • 该成员建议利用 语音识别 (STT) 进行输入,并利用 TTS 进行输出,以提供更具对话性的用户体验。
  • 寻求 GGUF 模型聊天模板的澄清:一名成员询问 chat_template 如何与 GGUF 模型配合使用,特别是模板是否在初始加载时从 .gguf 文件中读取并存储在 model3.json 中。
    • 他们寻求验证在 GUI 中进行的修改是否像 gpt4allHugging Face 模型一样保存在 model3.json 中,以实现持久化配置。
  • Oobabooga 添加 Alltalk TTSOobabooga 现在实现了一个名为 alltalk_tts文本转语音 (TTS) 扩展,可与 GGUFAWQGPTQ 模型配合使用。
    • 用户注意到安装过程略显困难,因为需要通过 BAT 安装 进行 Python 安装,但优点是无需编码。
  • 慢速网络阻碍 TTS 安装:一名用户报告称,由于其网络速度仅为 40 kbpsOobabooga 的安装大约需要 两天 时间。
    • 这与其他用户仅需 一小时 的安装时间形成了鲜明对比。

tinygrad (George Hotz) Discord

  • GROUP AST 在处理大型 Tensor 时遇到困难:针对 GROUP 操作 的 AST 更改在对 (2048,2048) Tensor 求和时与 PyTorch 持平,但在处理 (4096,4096) Tensor 时因需要 多个连续的 OptOps 而表现不佳。
    • 团队讨论了调整 BEAM 搜索 以寻找这些 OptOps,或者修改 lowerer/expander 以输出不同的内容来执行 多个累加器
  • BEAM 搜索面临挫折:作者在让 BEAM 搜索 识别求和更大 Tensor (4096,4096) 的最佳 OptOps 序列时遇到困难。
    • 他们正在考虑修改 lowererexpander 以生成替代 AST,但不确定能否保证性能提升,并链接到了相关的 Pull Request
  • arange GROUP 优化导致 CI 中断:作者指出 arangeGROUP 优化 未被应用,导致 arange 操作中出现额外的内循环并导致 CI 中断。
    • 在 rebase 到 master 分支后,测试现已通过并成功匹配 PyTorch 的性能,并征求关于 arange GROUP 优化 的反馈。
  • 速度测试超时:一名成员报告称 Speed Test BEAM=2GitHub Actions 上超时。
    • 作者通过修减一些添加的 OptOps 解决了超时问题,并报告称添加 GROUPGROUPTOP 减慢了 BEAM 搜索,因为尝试的 Kernel 数量大幅增加。
  • Pull Request 上的测试仍然失败:一名成员报告称,该 Pull Request 上的测试仍然失败,LLVM 速度变慢且 零收益
    • 作者澄清该 PR 尚未准备好接受评审,但询问 arange 测试在 GROUP OptOps 上失败是否为已知问题。

LLM Agents (Berkeley MOOC) Discord

  • Discord 服务器宣布研究计划:一名成员宣布了他们的研究计划,并分享了一个 Discord 邀请链接以发布更详细的公告
    • 该成员鼓励感兴趣的人士私信 (DM) 他们以获取更多信息,或直接加入 Discord 服务器以获取项目和协作机会。
  • 研究方向子小组即将成立:一个研究方向正在形成,将专注于 Agent 中的 预测性决策长期记忆,并举行同步会议讨论讲座并促进协作。
    • 感兴趣的成员可以通过此 Discord 邀请加入,以增强 Agent 预测未来结果并做出明智选择的能力。

MLOps @Chipro Discord

  • tinylm v0 发布:一个用于在浏览器或 Node.js 中通过 WebGPU 加速运行 LLMs 和 embedding 模型的库已发布,名为 tinylm
    • 它支持 OpenAI SDK,如文本生成和 embedding 生成,即将支持语音合成(text-to-speech)和语音识别(speech-to-text),无需服务器。
  • tinylm 模拟 OpenAI APItinylm 提供了一个 兼容 OpenAI 的 API,利用 WebGPU 加速直接在你的浏览器或 Node.js 应用程序中运行语言模型。
    • 特性包括 零成本推理客户端处理文本生成文本 embedding跨平台兼容性真实流式传输 以及 详细的进度追踪

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该社区沉寂时间过长,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该社区沉寂时间过长,请告知我们,我们将将其移除。


第 2 部分:按频道详细摘要和链接

完整的逐频道详情已在邮件中截断。

如果您想查看完整详情,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预谢!