ainews-not-much-happened-today-2943
今天没发生什么。
以下是为您翻译的中文内容:
OpenAI 计划在未来几个月内发布自 GPT-2 以来首个权重开放(open-weight)的语言模型,标志着其正向更开放的 AI 开发模式迈进。DeepSeek 在今年早些时候发布了开源的 R1 模型,挑战了外界对中国 AI 进展的固有认知。Gemma 3 已具备函数调用(function calling)能力,并在 Berkeley 函数调用排行榜上占有一席之地;同时,GemmaCoder3-12b 提升了在 LiveCodeBench 上的代码推理性能。阿里巴巴 Qwen 团队的 Qwen2.5-Omni 引入了创新的“思考者-交谈者”(Thinker-Talker)系统,并采用 TMRoPE 技术来增强多模态输入理解。TogetherCompute 团队在 671B 参数模型上实现了 140 TPS 的推理速度,在 Nvidia GPU 上的表现优于 Azure 和 DeepSeek 官方 API。此外,OpenAI 扩展了 ChatGPT 的功能,向所有免费用户开放了图像生成功能,并发布了新的语音版本。Runway Gen-4 增强了微缩景观的动画效果,LangChain 则推出了基于聊天的生成式 UI 智能体。Figure 03 人形机器人在宝马(BMW)的商业部署,突显了机器人在自主性和制造规模化方面的进展。新工具还包括支持 WebRTC 的 OpenAI 实时转录 API,以及亚马逊的 Nova Act AI 浏览器智能体。
宁静的一天正是你所需要的。
2025年3月31日至4月1日的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号 和 30 个 Discord 服务(230 个频道,7148 条消息)。预计节省阅读时间(以 200wpm 计算):719 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!
大家大多足够聪明,没有在愚人节发布新东西。
AI Twitter 综述
开源模型与发布
- OpenAI 即将推出的开源权重语言模型:@sama 表示 OpenAI 不会施加诸如“如果服务超过 7 亿月活跃用户则禁止使用”之类的限制。@LiorOnAI 指出,OpenAI 计划在未来几个月内发布自 GPT-2 以来的首个开源权重模型。@ClementDelangue 对 OpenAI 分享开源权重的意愿表示欢迎,希望这能引领 AI 进步的黄金时代。@snsf 提到了未来几个月内将推出的开源权重模型。
- DeepSeek 的开源 R1 模型:@scaling01 报告称,OpenAI 承诺发布开源权重语言模型是对 2025 年 1 月 20 日发布的 DeepSeek R1 模型的回应,该模型挑战了中国在 AI 发展方面落后的观念。
- 开源模型的许可证与使用:@cognitivecompai 辩护称,有人只是说某个许可证很愚蠢,他并不打算那样做。
模型性能与基准测试
- Gemma 模型性能:@osanseviero 宣布 Gemma 3 可以进行 function calling,并已登上 Berkeley Function-Calling Leaderboard。@jack_w_rae 指出 Gemini 在数学方面的进步速度惊人,这由优秀的研究人员推动,并观察到了在 HMMT 上的提升。
- GemmaCoder3-12b:@ben_burtenshaw 介绍了 GemmaCoder3-12b,这是一款代码推理模型,在 LiveCodeBench 基准测试中性能提升了 11 分,其亮点包括可在 32GB RAM 上运行、128k 上下文长度,以及通过 chat template 激活 thinking 的选项。
- Qwen 2.5 模型:@TheTuringPost 重点介绍了 Alibaba_Qwen 的 Qwen2.5-Omni,它可以理解任何类型的输入,并引入了由两部分组成的 Thinker-Talker 系统和 TMRoPE 功能,以文本和自然语音生成响应。
- @vipulved 报告称,TogetherCompute 推理团队在 671B 参数的 R1 模型上实现了 140 TPS,在 Nvidia GPU 上比 Azure 快约 3 倍,比 DeepSeek API 快约 5.5 倍。
AI 产品与工具发布及更新
- ChatGPT 与 OpenAI:@kevinweil 宣布 ChatGPT 中新的图像生成功能现已向 100% 的免费用户开放。@OpenAI 宣布在 ChatGPT 中发布了新语音。
- Runway Gen-4:@TomLikesRobots 对 Gen-4 在动画化微缩模型风格生成方面的表现感到兴奋,赞扬了其动作解释和风格保持能力。
- LangChain:@LangChainAI 介绍了通过基于聊天的生成式 UI 使用 LangGraph 预构建的 computer use agent。
- Figure 03 人形机器人:@adcock_brett 讨论了首批商业部署的人形机器人,重点介绍了全自主性、在 BMW 的真实世界集成、用于更好预训练的车队数据以及 BotQ 制造规模化。
- 其他工具:@juberti 指出新的 OpenAI realtime transcription API 现在支持 WebRTC 连接。@TheRundownAI 提到了 Amazon 的 Nova Act AI 浏览器 agent。
AI 研究与学习
- LLM 高效推理:@omarsar0 分享了一项专注于 LLM 推理经济性的综述,分析了如何在深度推理性能与计算成本之间取得平衡。
- 斯坦福的 Tutor CoPilot:@DeepLearningAI 报道称,斯坦福大学的研究人员开发了 Tutor CoPilot,这是一个由 GPT-4 驱动的工具,旨在辅助在线导师。
- AI 驱动的自动化及其经济影响:@EpochAIResearch 讨论指出,AI 投资看似巨大,但全球薪资总额已超过 70 万亿美元。
Hugging Face 和 Gradio
- Gradio 使用情况:@ClementDelangue 宣布,Gradio 在 3 月份的月度活跃开发者人数刚刚突破了 1,000,000 名。
幽默/梗图
- 讽刺与愚人节玩笑:@sama 开玩笑说 “-restart-0331-final-final2-restart-forreal-omfg3” 即将上线,我深信不疑。@vladquant 戏称经过战略评估,Kagi 现已更名为 Kagibara。
AI Reddit 回顾
/r/LocalLlama 回顾
1. LLM 数学推理的局限性
- 奥数障碍:顶尖模型败北:一份研究论文显示,尽管在包括往届奥数题在内的大量数学数据上进行了训练,但像 O3-MINI 和 Claude 3.7 这样最先进的 LLM 在 2025 年美国数学奥林匹克 (USAMO) 中的得分仍不足 5%。
- 该研究强调了模型在逻辑推理、创造力和自我评估能力方面的重大问题,LLM 对自己得分的估算比人类评分员高出多达 20 倍。社区讨论指出,需要专门针对证明的基准测试,并将其与 Lean 或 Coq 等形式化证明工具相结合。
- 形式化证明进展:开辟前进之路:Reddit 用户讨论了自动定理证明领域正在进行的研究工作,分享了 Google 的 AlphaProof 以及普林斯顿、斯坦福和华为专注于形式化数学证明的几个开源项目链接。
- 讨论强调了数学形式化的挑战,用户建议未来的 AI 系统可能会将严格的形式化符号逻辑与类扩散过程相结合,以进行概念发现。许多人一致认为,目前的 LLM 需要专门的工具和训练来擅长数学推理,而不仅仅是预测答案。
2. DeepMind 研究发布策略
- 六个月保密期:DeepMind 的防御性延迟:根据《金融时报》的一篇报道,Google 的 DeepMind 将对战略性生成式 AI 研究论文实施为期六个月的禁发政策,以维持竞争优势。一位研究人员表示,“无法想象我们现在还会把 Transformer 论文公开发布供大家使用。”
- 社区对此反应不一,一些用户认为考虑到像 OpenAI 这样的公司是如何建立在 DeepMind 免费分享的研究之上的,这种延迟是合理的;而另一些人则担心这可能引发“逐底竞争”,最终导致更长时间的延迟或永久保密。
- 开放研究的影响:进步 vs 利润:Reddit 用户辩论了 DeepMind 新发布政策对 AI 进步的影响,许多人指出 2017 年的 Transformer 架构研究为其他公司创造了数千亿美元的价值,而 Google 却未能将其自身的创新转化为资本。
- 一些评论者认为开放协作加速了所有人的进步,并指出“如果不是公开发享,我们目前在这一领域可能无法达到现在的高度”,而另一些人则为 DeepMind 保护其知识产权和竞争地位的权利辩护。
3. 本地 LLM 用户的新工具与功能
- Hugging Face 的硬件助手:Hugging Face 推出了一项新功能,允许用户通过在 https://huggingface.co/settings/local-apps 输入硬件规格,直接从模型页面检查其硬件是否可以运行特定的 GGUF 模型。
- 用户对这一易用性改进表示欢迎,同时建议增加更多功能,如按硬件兼容性过滤模型、估算最大上下文长度,以及为 CPU+GPU 配置提供层卸载(layer offload)建议。Hugging Face 团队表示他们将在未来的更新中对这些建议进行迭代。
- 移动端模型势头:iPhone 推理创新:一位开发者展示了通过完全重写推理引擎,在 iPhone 上以 float16 精度运行 Llama 3.2 1B 达到每秒 90 个 token 的速度,展示了相比 MLX 等现有解决方案的显著性能提升。
- 社区讨论了使用 float16 与量化模型之间的权衡,一些人质疑 fp16 和 q8 之间的质量差异是否大到足以抵消性能成本,而另一些人则讨论了此类小型模型在移动设备上的实际应用。
- DeepSeek 的小型化部署:V3 GGUF 量化:用户 VoidAlchemy 发布了使用 ikawrakow/ik_llama.cpp 分支对 DeepSeek V3-0324 进行的新 GGUF 量化,该版本经过优化,支持在 24GB 以下 VRAM 中实现 32k+ 上下文,并采用了 Multi-Layer Attention (MLA) 以及用于注意力/全连接层的高质量张量。
- 这些量化版本专门为 ik_llama.cpp 分支设计,无法在主线 llama.cpp 或 Ollama、LM Studio 等其他工具中运行。性能基准测试显示,其质量接近 Q8_0,且在纯 CPU 配置下的速度可与 4bpw 量化版本媲美。
4. 新颖的 LLM 研究概念
- 时间训练:困在时间里的 LLM:一位 Reddit 用户提议创建专门针对特定年份或时期(如 2010 年之前)的数据进行训练的 LLM,引发了关于此类历史受限模型的可行性和影响的讨论。
- 社区成员建议,利用公有领域的书籍、报纸和存档材料,训练限制在 1950 年代之前数据的模型是可能的,但指出此类模型将反映历史偏见和技术乐观主义,同时缺乏现代概念。一些人提到了现有的研究,如 TimeLMs,该研究追踪了语言模型在近期内容上的性能退化情况。
- 声学分析:模型推理产生的 GPU 交响乐:用户发现不同的 LLM 模型在推理过程中会产生独特的 GPU 声音,一篇文章链接的证据表明,这些音频模式特定于模型架构、量化和上下文大小的组合。
- 讨论揭示了这种现象是由 GPU 电压调节模块中电容器和电感器的“电感啸叫(coil whine)”引起的,一些人指出研究人员此前曾通过记录此类处理噪声来提取加密密钥,这引发了潜在的安全影响。
- 无注意力架构:Qwerky 的量子飞跃:一篇文章重点介绍了 Qwerky-72B 和 32B,这是仅在 8 个 GPU 上训练的无注意力(attention-free)模型,代表了在高效模型架构方面的重大进展,且需要更少的计算资源。
- 这些模型可在 Hugging Face 上获得,展示了无注意力架构如何在保持性能的同时降低 VRAM 需求,社区成员指出了其对长上下文处理和大型模型训练普及化的潜在影响。
其他 AI Subreddit 综述
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding
1. GPT-4o 图像生成能力
- 精准布局能力:Reddit 用户对 GPT-4o 在生成图像中处理精确物品排列和文本的能力印象深刻。一位用户分享的示例显示,该模型能准确地在网格布局中放置多个图标并附带正确的标签,在复杂的视觉层级中保持一致性。
- 许多评论者指出,与其他模型相比,GPT-4o 的统一文本-图像架构(unified text-image architecture)使其在理解和执行详细 Prompt 方面具有显著优势。一位用户演示了该模型在质量下降前可以处理多达 24 个带有标签的独立图标,展示了其令人印象深刻的构图能力。
- 内容过滤器带来的挫败感:用户对 GPT-4o 的内容过滤系统表示不满,一篇题为“Chat gpt 4O 很烂,任何东西都会触发其婴儿模式内容过滤器”的帖子获得了极高关注。发帖者抱怨无法生成哪怕是轻微暴力或暗示性的内容,例如奇幻战斗场景。
- 尽管存在抱怨,一些用户还是展示了绕过过滤器的技巧,分享了成功生成的战士角色和风格化艺术作品。这引发了关于 OpenAI 内容审核方式的辩论,一些用户甚至创作了讽刺内容来嘲笑过滤器,包括一个名为“I’ve reverse-engineered OpenAI’s ChatGPT 4o image generation algorithm”的 GitHub 仓库,而这实际上是一个愚人节玩笑。
2. Claude 与 Gemini 的竞争升温
- Gemini 2.5 占据领先地位:一篇题为“这是近一年来 Claude 首次不再是最佳模型”的帖子引发了热烈讨论,一位 Claude 用户承认 Google 的 Gemini 2.5 现在在多个用例中表现优于 Claude。该帖子强调了 Gemini 在处理上下文和整体可靠性方面的卓越表现。
- 用户辩论了每个模型的具体优势,许多人指出 Gemini 2.5 的 百万级 Token 上下文窗口(million-token context window) 与 Claude 较有限的容量相比是一个游戏规则改变者。几位评论者称赞了 Gemini 的创意写作能力,尽管有人暗示大量支持 Gemini 的帖子可能是战略性的“虚假草根营销(astroturfing)”,而非真实的用户反馈。
- Claude 的服务困境:多篇帖子记录了 Claude 服务可靠性的问题,用户报告称速率限制(rate limiting)增加,付费订阅者更频繁地看到“达到消息限制”等错误消息。截图显示,尽管用户支付了高级访问费用,服务仍变得无响应。
- 这些问题的出现时机恰逢对 Gemini 2.5 的赞誉日益增多,导致一些用户质疑 Anthropic 的基础设施扩展能力。一位用户写道:“Anthropic 应该扩大规模,否则就退出这个行业,我们是付费客户,”而其他人则表示,由于 Claude 日益严格的使用限制,他们正转向 Gemini。
3. 视频生成领域的突破
- Wan 2.1 视频模型精通:用户 @legarth 分享了一个令人印象深刻的视频演示,展示了在 5090 GPU 上本地运行的 Wan 2.1 vid2vid 模型,将《热带惊雷》(Tropical Thunder)中的一段剪辑转换成了由小丑(Joker)出演的场景。尽管仅基于姿态信息工作,该模型仍准确地保留了夹克运动等物理细节。
- 创作者解释说,他们处理了 216 帧(24fps 下为 9 秒),但注意到在约 120 帧后质量开始下降。社区对该模型仅凭动作预测物理效果的能力印象尤为深刻,一位评论者指出“夹克很酷。物理效果”,另一位则强调了该模型在原演员光头的情况下如何处理头发运动。
- VACE 视频控制发布:随着 VACE(Video with Attention-based Cascaded Extraction)模型在 GitHub 上的部分发布,开源视频生成领域宣布了一项重大进展。此次发布包括 VACE-Wan2.1-1.3B-Preview 和 VACE-LTX-Video-0.9,并承诺稍后推出更大的 14B 版本。
- 用户对这一闭源商业平台的开源替代方案表示兴奋,一位评论者指出:“如果这能像展示的示例那样工作,开源视频领域就实现了一次重大升级。”该技术似乎在视频生成方面提供了增强的控制力,包括结构和姿态保留功能。
4. AI 开发工具与创新
- Claude Code 的昂贵创作:一位开发者分享了花费 417 美元使用 Claude Code 构建名为 LetterLinks 的单词游戏的经历,详细描述了使用这款 AI 编程助手的成功与挫折。尽管成本高昂,该用户总结认为,这仍然比聘请自由职业者(预计该项目需要 2000-3000 美元)要便宜。
- 帖子强调了 Claude Code 的具体问题,包括随着代码库增长到 1.5 万行而出现的 Context Window 限制,以及需要进行大量手动测试,因为“Claude 可以整天写代码,但不能点一下该死的按钮来看看它是否工作”。许多评论者建议使用替代方案,如拥有百万 Token Context Window 的 Gemini 2.5 Pro,或在桌面应用上使用 Claude MCP。
- EasyControl:Diffusion Transformer 增强:发布了一个名为 EasyControl 的新框架,旨在为 Diffusion Transformer (DiT) 模型添加高效且灵活的控制能力。该系统结合了一个轻量级的 Condition Injection LoRA 模块和位置感知训练,以增强模型的兼容性和生成灵活性。
- 社区成员对 EasyControl 为 Flux 模型提供类似 ControlNet 功能的潜力特别感兴趣,一位用户评论道:“这会是期待已久的适用于 Flux 的优秀 ControlNets 吗?”测试显示结果参半,OpenPose 控制效果良好,但主体迁移能力表现出不一致的性能。
5. 像素艺术与复古图形 AI
- Retro Diffusion 的像素级精度:Retro Diffusion 推出了一个基于浏览器的交互式游乐场,用于使用 AI 生成真实的像素艺术,无需注册。这款基于 FLUX 的模型仅通过智能 Prompting 即可创建各种风格的像素艺术,无需 LoRAs。
- 随发布附带的技术文章详细介绍了 Retro Diffusion 如何解决像素艺术生成特有的挑战,包括网格对齐、有限的调色板以及保持像素完美的输出。该平台的创建者加入了讨论,回答了关于动画功能和调色板控制等功能的问题。
- XLSD:轻量级模型的魔力:开发者 @lostinspaz 分享了 XLSD 项目的进展,该项目旨在创建一个高质量的图像生成模型,可以在 VRAM 有限(8GB 甚至 4GB)的系统上运行。该方法涉及强制 SD1.5 使用 SDXL VAE,然后对其进行训练以产生显著更好的结果。
- 对比图像显示,相较于基础 SD1.5 模型,质量有了实质性的提升,开发者指出他们“稍微挑选了一些好的结果”,但提供了使用相同设置的公平对比。社区对这种专注于优化的方法反应积极,一位评论者赞赏“那些将一项技术推向极限并纯粹为了探索而探索的人”。
AI Discord 简报
由 o1-preview-2024-09-12 生成的摘要之摘要的摘要
主题 1:OpenAI 的权重开放模型引发热议
- Sam Altman 抛出权重开放模型诱饵:OpenAI CEO Sam Altman 宣布计划发布一款强大的新型权重开放(open-weight)语言模型,并寻求开发者反馈以最大化其效用。他保证,他们“不会做任何愚蠢的事情,比如规定如果你的服务每月活跃用户超过 7 亿,就不能使用我们的开放模型。”
- 社区推测 OpenAI 的策略转变:Nathan Lambert 预计将推出一个采用 MIT/Apache 许可证的 30B 参数推理模型,这引发了关于 OpenAI 对开源社区潜在影响的讨论。
- 爱好者们期待 OpenAI 回归开源发布:AI 开发者对 OpenAI 的这一举动表示乐观,认为这将促进 AI 开发中的协作与创新。
主题 2:显微镜下的新 AI 模型
- Gemini 2.5 Pro 的“生命感”引发图灵测试讨论:用户对 Gemini 2.5 Pro 独特的交互风格深感兴趣,认为由于其表现出的生命感和好奇心,它“可能是第一个通过严肃图灵测试的模型”。
- DeepSeek R1 超越对手,推动 RL 民主化:DeepSeek R1 以高效的资源利用和 MIT 许可证超越了大型实验室,通过 GRPO 让 GPU poor 群体也能触及强化学习(RL)。
- Gemma 3 在基准测试中完胜 Gemini 1.5:Gemma 3 27B 在 MMLU-Pro 和 Bird-SQL 等基准测试中表现优于 Gemini 1.5 Flash,其卓越的能力给用户留下了深刻印象。
主题 3:用户吐槽 AI 工具问题
- Manus.im 用户对额度紧缩感到愤怒:Manus.im 的新积分系统激怒了用户,因为积分消耗极快,导致他们推荐 Traycer 等替代性 AI 研究工具。
- Gemini 2.5 Pro 的速率限制让用户抓狂:沮丧的用户在 Gemini 2.5 Pro 上遇到了速率限制(rate limits),并讨论这些限制是否同时适用于免费和付费层级,一些人尝试通过 VPN 绕过限制。
- Cursor 对免费模型收费?用户直呼“搞什么鬼!”:Cursor 用户质疑为何使用免费模型也要被收费,这引发了关于 API 使用、计费实践以及平台透明度的讨论。
主题 4:开源贡献与技术创新大放异彩
- Neuronpedia 开启数据洪流:可解释性平台 Neuronpedia 在 MIT 许可证下开源,发布了超过 4 TB 的数据和工具,以推动模型可解释性的民主化。
- 斯坦福向大众传授 Transformers:斯坦福大学通过 Zoom 和 YouTube 向公众开放其 CS25 Transformers 研讨会课程,涵盖从 LLM 架构到创意应用的各类主题。
- Megatron 张量并行技术深度解析:一份关于 Megatron 风格张量并行(tensor parallelism) 的图解深度分析报告被分享,内容包括融合/并行 CE loss,增强了对 ML 可扩展性和性能技术的理解。
主题 5:AI 在法律和医疗领域取得进展
- AI 在新系列研讨会中解读法律术语:硅谷华人协会基金会举办了一场关于 AI 在立法中应用的研讨会,邀请了 Legalese Decoder 的创始人,探讨 AI 如何简化复杂的法律文件。
- Sophont 旨在发起医疗 AI 革命:Sophont 启动,致力于构建医疗领域的开源多模态基础模型,力争打造医疗 AI 界的 DeepSeek。
- 开启梦境!Rem App 邀你记录夜晚的奇遇:Rem 推出了一款梦境日志 App,允许用户记录、分析和分享梦境,利用 AI 揭示潜意识中隐藏的模式。
PART 1: 高层级 Discord 摘要
Manus.im Discord Discord
- R1 用户对额度紧缩感到愤怒:许多 R1 用户对新的积分系统表示不满,部分用户在几次请求后额度就完全耗尽,并建议使用 Traycer 等替代 AI 研究工具来节省额度。
- 他们观察到该系统就像赌博,并为未来的计划提出了更清晰透明的选项,敦促重新考虑用户采纳度。
- 解码额度消耗:额度根据 LLM tokens、虚拟机和第三方 API 进行扣除,并随任务复杂度和时间增加,现在甚至仅在线浏览也会消耗额度。
- 成员报告项目上传失败,且需要 800 个积分加上额外的 1800 个积分进行调试,并指出在 ChatGPT 上调试效果更好。
- OpenManus 受到关注:尽管存在 PAT 和 API keys 的安全担忧,但人们对 OpenManus 的兴趣日益增加,一些人计划评估其能力,有成员询问该工具的输出是否可以改进。
- 成员警告在适配 Manus 的工作场景时存在能力缺陷,同时也指出它可以根据情况生成交互式学习指南网站和深度研究。
- Manus 现提供网站托管:成员报告使用 Manus 成功创建了托管网站,指出该软件提供 DNS 和托管服务,同时他们正在结合 Perplexity 和 Gemini Deep Research 等服务。
- 一位成员表示有关于网站创建的视频,引得其他成员询问如何吸引人们使用该网站。
- Manus Android 应用亮相:用户发现 Manus 拥有 Android 应用,可通过浏览器点击手机图标访问,随后会重定向到 Play Store。
- 一些成员甚至开玩笑地建议购买 iPhone 作为解决方案。
LMArena Discord
- Meta 模型的安全设置降级:Meta 的新模型在从损坏的文本中推断隐藏上下文时,通过清理被审查的细节变得更安全,标志着模型行为的转变。
- 之前的模型如 Themis、Cybele 和 Spider 则渴望涉足其他模型无法触及的领域。
- 解码 “Venom” 系统提示词:成员分析了 Spider、Cybele 和 Themis 等模型的系统提示词,认为它们共享一个与目前已曝光的
venom类似的提示词。- 分析显示这是一个古怪但精心制作的提示词,极大地影响了模型的风格和回答,特别是在格式化和结构化输出方面。
- Gemini 2.5 Pro 的“生命感”引发辩论:成员对 Gemini 2.5 Pro 的生命感和好奇心表示出浓厚兴趣,有人认为由于其独特的交互风格和卓越的创意写作,它可能是第一个通过严肃图灵测试的模型。
- 他们强调 Gemini 在 Philip’s SimpleBench 上的最高分是其潜力的证据,并指出该模型似乎更具创意和吸引力,从而引发了进行双盲图灵测试的呼声。
- LMArena 向万神殿发布新模型:LMArena 引入了大量匿名模型,如 Aether、Maverick、Ray、Stargazer、Riveroaks,成员们正试图揭开它们的起源和能力。
- 据说 Stargazer 由 Google 开发(即 Nebula),Riveroaks 声称来自 OpenAI 的 gpt 4o,而 Maverick、Spider 和 24_karat_gold 由于共享系统提示词且均源自 Meta,似乎具有相似的风格。
- Alpha Arena 新增复制代码和图像功能:Alpha Arena 现在具备了复制代码功能和图像生成能力,增强了易用性。
- 鼓励测试者通过 Google Forms 链接 提供反馈,并通过 Airtable 链接 报告 bug。
Cursor Community Discord
- Gemini 2.5 Pro 的推理能力引发讨论:成员们正在讨论 Gemini 2.5 Pro 的推理能力,一些人认为它速度很快但缺乏深度,而另一些人则引用 Min Choi 的推文 称赞其在特定编程场景中的表现。
- 有人建议 Claude 3.7 能更有效地处理复杂性和细节,然而新的 Gemini Pro 2.5 模型现在已在 Cursor 中使用。参见 Ryan Carson 的推文。
- 账户限制引发试用滥用讨论:一位用户的账户限制引发了关于试用滥用的辩论,有说法称账户因滥用被 标记(flagged) 并要求绑定信用卡。
- 有人建议使用 Windsurf 或 Cline 等替代方案来绕过支付问题,但未提供关于如何使用这些工具或其可靠性的进一步细节。
- AI 对就业的影响引发讨论:成员们正在讨论 AI 对就业的潜在影响,推测到 2030年 可能会有 86% 的工作 被取代。
- 应对方案是正确学习 ML/AI 和 Prompting,此外还建议学习 回归多项式(polynomials with regressions)。
- Cursor 对免费模型收费遭到质疑:成员们质疑 Cursor 为何对使用 免费 模型收费,解释澄清了 Cursor 通过其钱包管理 API 使用量,并与 AI 模型供应商 Fireworks 达成了协议。
- 普遍共识是 Cursor 虽然有 Token 使用限制,但比 Claude 便宜约 10倍,为某些用户提供了更具成本效益的解决方案。
Unsloth AI (Daniel Han) Discord
- 多 GPU 支持进驻 Unsloth:Unsloth 正在添加多 GPU 支持,首个版本将侧重于数据并行(data parallelism),但 fsdp (Fully Sharded Data Parallelism) 最初可能不包含在内。
- fsdp (Fully Sharded Data Parallelism) 组件将采用 AGPL3 license。
- DeepGrove 的 Bonsai 声称可实现低预算 BitNet 引导:一位成员对 DeepGrove’s Bonsai 声称仅用 70 美元和 3.8b tokens 就能预训练一个 BitNet 表示怀疑。
- 他们正在 Kaggle 中运行该模型以验证其有效性,探索该模型是 盲目复制的 Qwen 模型 还是 从 Qwen 持续训练到 BitNet。
- 检测到 Unsloth 数据集缺陷:一位用户在使用 Unsloth Orpheus 格式的自定义数据集时遇到了
ValueError,该问题后来通过使用 GPU 得到解决。- 另一位用户提到 Orpheus dataset 使用了 SNAC,其运行频率为 24kHz。
- Gemma 3 展现文生图奇迹:一位用户寻求使用 Hugging Face 运行 Unsloth/Gemma 3 的图像和文本推理示例,并引用了 Hugging Face Spaces 上的 Gemma 3 演示。
- 有人指出,虽然 Llama 3.2 Vision 需要图像输入,但 Gemma 3 应该不存在同样的问题。
- 长文本基准测试?RULER 才是标准!:对于长文本(long ctx)基准测试,一位成员表示 RULER 是衡量长文本能力的最低标准,而 NIAH 毫无价值。
- 他们补充说,最近出现的一些基准测试表现还可以。
Perplexity AI Discord
- Discord 改版在即!:管理团队正准备在下周彻底改革 Discord 体验,重点包括简化入门流程、统一反馈频道以及自动化的 Pro 频道访问权限。
- 这些变化旨在简化用户参与流程,并确保团队能及时响应社区需求。
- Space Instructions 仍受限制?:用户发现 Perplexity AI 中的 Space Instructions 在控制搜索体验方面存在局限性,主要影响输出内容的总结。
- 由于指令仅在数据提取之后生效,这导致 AI 无法避开特定主题。
- 图像生成功能消失:用户注意到 Perplexity 内部的图像创建功能消失了。
- 虽然尚不清楚该功能是否已完全停止,但一位用户建议通过网页搜索来查找生成选项,而另一位用户确认该功能似乎并未对所有人显示,这可能预示着分阶段推出或功能测试。
- GPT Omni 遭到差评:成员们反映对 GPT Omni 感到失望,有人将其描述为“表现糟糕”。
- 虽然 Omni 旨在实现更智能的音频、视频和图像交互,但用户指出,出于成本考虑,它相比 GPT-4 似乎被“降级”了。
- JSON 在 Sonar API 中出现异常:一位用户报告称,尽管使用了 pydantic 进行格式化,但 Sonar API 在搜索网页时会在 JSON 结果中添加奇怪的特殊字符。
- 该用户提供了一个示例,其中 JSON 输出中的
source_name、source_title、summary和url字段被添加了额外的字符。
- 该用户提供了一个示例,其中 JSON 输出中的
OpenAI Discord
- ChatGPT 推出 Monday 语音:ChatGPT 引入了一个名为 Monday 的新语音选项,可以通过语音模式右上角的语音选择器访问,如此演示视频所示。
- 用户可以通过打开语音模式并使用右上角的语音选择器来选择新的 Monday 语音选项。
- 警惕虚假 ChatGPT 应用!:有用户报告在 Play Store 上遇到了虚假的 ChatGPT 应用,购买后却无法获得访问权限,这强调了通过购买历史核实购买情况的必要性。
- 确保使用官方应用以避免诈骗并确保能访问真正的 OpenAI 服务至关重要。
- Gemini 2.5 Pro 速率限制困扰用户:用户报告在 Gemini 2.5 Pro 上遇到了速率限制(rate limits),引发了关于该限制是否同时适用于免费和付费层级的讨论,一些用户尝试通过使用 VPN 来绕过限制。
- 有建议提议在 Google AI Studio 中使用 Gemini,那里的使用限制更高(每天 50 次请求)。
- ElevenLabs 模型助力有声书:一位成员探索了 ElevenLabs 的新模型用于叙述型有声书,并称赞了其语音克隆功能。
- 虽然他们对初步结果印象深刻,但仍在等待 OpenAI 发布类似的语音产品,以避免订阅外部服务,因为这对于游戏开发者作为配音占位符可能非常有用。
- 模型用户重置僵化模式:一位成员分享了一个代码片段
FORMAT_RESET,以帮助模型识别何时陷入了僵化模式并重新思考其方法。- 该代码鼓励模型分析哪种格式更适合响应,并完全重新思考其方法,而不是默认使用模板。
LM Studio Discord
- Gemma 3 完胜 Gemini 1.5:Gemma 3 27B 在 MMLU-Pro 和 Bird-SQL 等基准测试中表现优于 Gemini 1.5 Flash,其中一名成员使用 Gemini 2.5 Pro 生成了数据,该模型可在 OpenRouter 免费使用。
- 一位拥有 4060 Ti 和 i5 12400F 的用户获荐使用 Qwen Coder 7B,该模型可在 LM Studio 模型页面 获取,不过成员们强调本地 LLM 的性能通常不如云端替代方案。
- 游戏玩家将 eGPU 接入 LM Studio:成员们讨论了在 LM Studio 中使用 eGPU 的可行性,建议如果电脑能识别它就应该可行,尽管速度可能会较慢,正如一段对比 RTX 4090 笔记本电脑与台式机运行 LLM 的 YouTube 视频 所参考的那样。
- 另一位用户在解决崩溃问题后,观察到从 M4 Max 到 5090 有 3.24 倍的加速,这与他们在进行 QwQ 32B 4 bit 量化对比 时两者的内存带宽 3.28 倍的比例 相吻合。
- Copilot 的代码被指是垃圾!:成员们辩论了编程中 AI 辅助 的利弊,有人认为由于从“AI 垃圾(AI slop)”中学习,它弊大于利,并对 Copilot 在垃圾代码上进行训练 表示担忧。
- 其他人持不同意见,认为 Copilot 对经验丰富的开发者非常有用,但有人指出普通用户太容易信任这些建议。
- 上下文窗口大小驱动 Mac 偏好:尽管 Nvidia GPU 速度更快,用户仍倾向于选择 Mac,因为可以自由拥有更大的上下文窗口(Context Size),强调了即使速度较慢,大上下文窗口也具有实用性。
- 一位用户想知道如果能将 上下文溢出(context overflow) 加载到共享内存/系统 RAM 中,同时将整个模型保留在 VRAM 中会发生什么,但另一位用户指出 LLM 需要 VRAM 中的所有上下文 来生成下一个 Token。
- Nvidia 驱动在 10 小时后失效:一位用户报告在运行模型 10-12 小时 后出现 Nvidia 驱动不稳定,需要重新安装驱动才能解决性能问题,并澄清问题出在 Nvidia 驱动 本身,而非 Windows 操作系统。
- 一位用户在 Discord 社区询问了 Tenstorrent Wormhole (n150d 和 n300d) 的性能结果,表示有兴趣获取这些模型的 TOK/s 指标。
aider (Paul Gauthier) Discord
- Gemini 2.5 Pro 评价褒贬不一:用户对 Gemini 2.5 Pro 的评价各异,一些模型会出现幻觉、断连,而另一些则在编码任务中表现顶级。
- 一位用户发现 Gemini 2.5 Pro 和 DeepseekV3 “几乎免费且表现顶级”,而其他人则在放弃,甚至想扔掉电脑,正如这个 GIF 所示。
- 寻求 RateLimitError 的解决方法:用户在请求摘要和清除历史记录时经常遇到 RateLimitErrors。
- 澄清指出,速率限制可能基于每分钟或每天的请求数量,可能的解决方案可以在这个 GitHub issue 中找到。
- 点命令(Dot Command)革命?:一位用户正在推广使用 .dotcommands 作为开发者的生产力工具,通过
.status和.next等单行命令自动执行任务。- 目标是提供针对清晰度和特定功能优化的认知捷径,但有人指出“点命令革命已至 🔥 各地的程序员都会想尝试这个酷炫的小技巧。”
- Aider 的子树救星出现:成员们正在寻找将 aider 限制在 Monorepo 子目录的方法。
- 解决方案是在切换到目标目录后使用
--subtree-only开关,设置 aider 忽略启动目录之外的仓库,不过提问者指出了关于大型 Monorepo 的常见问题解答 (FAQ)。
- 解决方案是在切换到目标目录后使用
- 模型配置错误案例:一位成员报告在本地 YAML 配置文件中指定模型名称未按预期工作。
- 尽管启动消息显示了正确的配置设置,aider 仍然默认使用 anthropic/claude-3-7-sonnet-20250219,而不是配置的 deepseek/deepseek-chat。
OpenRouter (Alex Atallah) Discord
- Organizations 功能结束 Beta 测试!:OpenRouter 宣布 Organizations 功能已结束 Beta 测试。根据 这条 X 帖子,团队现在可以在一个地方统一管理账单、数据策略、供应商偏好和 API keys。
- 在为期两周的 Beta 测试期间,用户创建了超过 500 个组织,该功能提供了对数据策略和账单的全面控制。
- 网页搜索进入聊天室!:网页搜索结果现已集成到聊天室中,使用 Perplexity 的搜索结果,其格式类似于 OpenRouter 的
:online模型变体。- 一位用户请求 OpenRouter 在 Bluesky 上发布消息,以避免过度依赖 Xitter (X/Twitter)。
- Gemini Flash 2 转换!:OpenRouter 为付费的 Gemini Flash 2 请求提供完整的 1M context,其中 middle-out transforms 为选择性开启。
- 这些转换默认应用于上下文长度小于 8192 tokens 的端点,并且仅在达到 1M 限制时才会触发。
- 使用情况下载功能即将推出!:一位成员请求下载其使用数据(包括活动页面上显示的 tokens 和成本),以便进行信用核查。
- 一位维护者回应称,虽然目前该功能尚不可用,但我们正在开发中。
- 欧盟供应商选择困境!:一位用户询问由于法律要求,是否可以仅选择位于 European Union(欧盟)境内的供应商。
- 一位维护者指出确实有此需求,但目前覆盖范围有限,并建议如果供应商选择还不够,可以寻求 EU certified provider(欧盟认证供应商)以满足严格的欧盟数据准则。
Eleuther Discord
- 斯坦福在线教授 Transformer 课程:斯坦福大学已通过 Zoom 向公众开放其 CS25 Transformers 研讨课,内容包括与研究人员的讨论,涵盖从 LLM 架构到创意应用等主题,往届课程可在 YouTube 上观看。
- 该课程包括讲座、社交活动、交流环节,并设有一个用于讨论的 Discord server。
- Deep Sets 发现三角形,但一无所获:一位成员分享了一篇题为《三角形面积的 Deep Sets》(Deep Sets for the Area of a Triangle,arxiv 链接)的论文,该论文提出了一个以 Deep Sets 形式表示的三角形面积多项式公式。
- 摘要总结道,该项目受宇宙学中 n 点统计计算复杂度问题的启发,但最终没有获得任何形式的见解。
- Neuronpedia 开启数据洪流!:可解释性平台 Neuronpedia 现已在 GitHub 上以 MIT 协议开源,并提供快速的 Vercel deploy 部署方式。
- 超过 4 TB 的大量可解释性数据已作为 Public Datasets 开放下载。
- SmolLM 分数清零,PR 修复聚合分数:一位成员报告称,在使用 lm-eval 对 SmolLM-1.7B 进行排行榜评估时,结果 JSON 中的 leaderboard_bbh、leaderboard_math_hard 和 leaderboard_musr 等任务的聚合分数为空。
- 另一位成员分享了一个 PR,通过添加子任务聚合功能来解决带有子任务的任务中聚合分数缺失的问题。
Interconnects (Nathan Lambert) Discord
- CodeScientist 自动化科学研究:AllenAI 推出了 CodeScientist,这是一个自主系统,通过对研究论文和代码块进行遗传搜索(genetic search)来生成和评估机器生成的想法。其论文详细介绍了在 Agent 和虚拟环境实验中的 19 项发现。
- 该系统通过探索更广泛的设计空间并更彻底地评估研究成果,解决了当前 ASD 系统的局限性。
- OpenAI 预告开放权重模型:据 Sam Altman 的推文透露,OpenAI 计划发布自 GPT-2 以来其首个开放权重语言模型,并正在通过此表单寻求开发者反馈,以最大限度地发挥其效用。
- Altman 表示,他们不会做任何愚蠢的事情,比如规定如果你的服务月活跃用户超过 7 亿就不能使用我们的开放模型。
- Meta 筹备带屏幕的智能眼镜:根据 Mark Gurman 的报告,Meta 计划在今年晚些时候推出售价 1000 美元以上、配备屏幕和手势控制功能的智能眼镜。
- 成员们很有兴趣看看它们将如何与 xreal 竞争。
- Pydantic 评估 LLMs:Pydantic Evals 是一个强大的评估框架,旨在帮助系统地测试和评估你所构建系统的性能和准确性,特别是在使用 LLMs 时。
- 它为评估模型能力和识别改进方向提供了一个结构化的环境。
- Lambert 回归 OpenAI:Nathan Lambert 在 Substack 文章中分享了他对回归 OpenAI 的想法,并提到他可能也会利用这种形式来记录一些未成熟的职业思考。
- 他还提到曾就此事私信过一些 OpenAI 的员工,希望能找到那些因现状而感到被排挤的开源盟友。
GPU MODE Discord
- A100 并行线程面临现实检验:成员们讨论了 A100 GPU 上的最大并行线程数,但使用 GeoHot 工具进行的实际测试显示,在性能下降之前,限制为 24576 或 每个 SM 256 个线程。
- 对话澄清了 GPU 使用超额订阅(oversubscription)通过廉价(约 1 个周期)的上下文切换来隐藏延迟,这表明增加超过“并行线程”限制的线程并不会显著增加运行时间。
- FlexAttention 解除限制:FlexAttention 现在支持任意序列长度,在 PyTorch 2.6 中移除了段序列长度必须是 128 倍数的限制。
- 这一改进是在圣何塞举行的 GPU mode 活动中与 Horace He 讨论的。
- 寻求通过张量删除节省内存:一位用户正在寻求在损失函数中删除参数张量的方法,以实现约 7GB 的内存节省,相关的 GitHub Issue 已发布。
- 该用户希望在张量不再需要时释放与其关联的存储空间,即使外部作用域中存在引用,同时确保其与 torch 编译兼容以避免图中断(graph breaks)。
- 苹果全力推进 MLX:苹果正在为其 MLX 团队招聘工程师,以构建可扩展的分布式训练和研究流水线,推动 ML 和系统的前沿发展。
- 公司正在寻找具有 ML 背景的系统工程师和软件开发人员,以构建驱动未来产品的技术。
- Megatron 张量并行深度解析:一位成员撰写了一篇关于 Megatron 风格张量并行(Tensor Parallelism)的图解深度分析,包括 fused/parallel CE loss,并正在寻求反馈,内容详见此处。
- 本文旨在深化对 ML 可扩展性和性能技术的理解。
Latent Space Discord
- Cursor 巨额融资资金到账:据 The Information 报道,Cursor 以 96 亿美元的投后估值完成了 6.25 亿美元的融资,由 Thrive 和 A16z 领投,Accel 作为新支持者加入。其 ARR 达到 2 亿美元,较 2024 年 11 月的前一轮融资增长了 4 倍。
- 这一轮融资引发了关于 vibe coding 的讨论,Abe Brown 指出该公司的估值增长迅速,已接近 100 亿美元。
- Etched 为 Transformer ASIC 融资 8500 万美元:据 Arfur Rock 报道,开发 Transformer ASIC 的初创公司 Etched 完成了一轮未公开的 8500 万美元融资,估值为 15 亿美元,此前该公司曾进行过两轮分别为 5 亿美元和 7.5 亿美元估值的隐身期融资。
- 该公司声称其芯片 Sohu 在运行 Llama 70B 时每秒可处理超过 500,000 个 token,一台 8xSohu 服务器可替代 160 块 H100,尽管它无法运行 CNN、LSTM、SSM 或其他 AI 模型。
- OpenAI 开启权重开放模型大门:据 OpenAI 报道,OpenAI 计划在未来几个月发布自 GPT-2 以来的首个权重开放(open-weight)语言模型,并寻求开发者关于如何最大化其效用的反馈。
- 该公司将使用其备灾框架(preparedness framework)评估该模型,并在旧金山、欧洲和亚太地区举办开发者活动。据 Nathan Lambert 的推文,他预计这将是一个采用 MIT/Apache 许可证的 30B 参数推理模型。
- OpenDeepSearch 搜索深度超越 GPT-4o:据 Seoong79 的推文 宣布,发布 OpenDeepSearch (ODS),这是一个开源搜索 Agent,可与任何 LLM 配合使用。在 DeepMind 的 FRAMES 基准测试中,其表现优于 OpenAI 的网页搜索专用模型 GPT-4o-Search。
- 具体而言,当与 DeepSeek-R1 配对时,OpenDeepSearch 的准确率比 GPT-4o-Search 高出 9.7%。
- Sophont 寻求用开源模型解决医疗 AI 问题:据 iScienceLuvr 的推文 宣布,成立 Sophont 公司,致力于为医疗保健的未来构建开源多模态基础模型,旨在打造医疗 AI 领域的 DeepSeek。
- 这家新公司寻求创建能够在医疗保健领域表现出色的基础模型。
HuggingFace Discord
- DeepSeek R1 飞速超越对手:一条 推文 赞扬了 DeepSeek R1,称其凭借高效的资源利用和宽松的 MIT 许可证,表现优于西方的大型实验室。
- 该发布还通过 GRPO 为 GPU 匮乏者(GPU poor)普及了 RL。
- xAI 吞并 X Corp!:根据 Elon 的推文,xAI 在一项全股票交易中收购了 X,为 xAI 估值 800 亿美元,为 X 估值 330 亿美元。
- 此次合并旨在将 xAI 的 AI 专业知识与 X 庞大的用户群相结合。
- LLM 超参数微调热议:成员们寻求关于选择 LLM 微调超参数的指导,并被引导至 Unsloth 的 LoRA 超参数指南。
- 问题集中在上下文变化如何影响超参数设置。
- 编程模型 OpenHands LM 发布!:开源编程模型 OpenHands LM(一个 32B 参数模型)现已上线 Hugging Face。
- 正如 项目博客 中提到的,该编程模型旨在用于软件开发的自主 Agent。
- Gradio 迎来百万开发者浪潮!:Gradio 宣布其用于构建和共享 AI 界面的月活跃开发者已达到 1,000,000 名。
- Gradio 团队对社区的贡献表示感谢。
Modular (Mojo 🔥) Discord
- MAX 25.2 直播故障:Modular 的 MAX 25.2 直播遇到了技术困难,但现在可以在 YouTube 观看清理后的录像,并在 YouTube 观看 Chris 的闪电演讲。
- 团队表示歉意,并承诺为未来的活动提供更好的系统;一名成员幽默地将 Chris 的 GTC 视频误认为是直播活动。
- 编译器错误困扰用户:一名用户在为
Datasetstruct 定义方法时报告了一个令人困惑的编译器错误信息,怀疑是编译器 bug,参见 GitHub issue #4248。- 潜在原因可能是使用了
out self而非mut self,这突显了对更清晰错误消息的需求。
- 潜在原因可能是使用了
- Mojo 中的 Enums 进展缺失:关于 Mojo 中 enum 更新的询问显示,目前没有任何更新。
- 回复只是简单的 “遗憾的是,没有。🙃🙃🙃”
- FlexAttention 在 MAX 中实现?:一名用户询问在 Mojo 中实现 flex-attention 的事宜,并链接了一篇 PyTorch 博客文章,建议将其作为 MAX 中的 custom op。
- 回复指出,GPU 上的 Mojo 已经接近 CUDA,并且 “除非你遇到了正在开发中的功能,否则 MAX 应该能够实现你想要的任何功能。”
- 浮点数转字符串算法表现不佳:一名用户将一个新的 float to string 算法从 这段代码 移植到了 Mojo(参考了作者的 CPPCon 演讲),但发现它比标准库的 dragonbox 实现更慢。
- 尽管参考了标准库的格式化方式,序列化
canada.json的时间仍从 30ms 中段增加到了 40ms 初。
- 尽管参考了标准库的格式化方式,序列化
Nous Research AI Discord
- OpenAI API 的单行修复:任何使用 OpenAI API 的教程都应该适用于 Nous Research AI API,只需将 endpoint 更改为
endpoint = "api.nousresearch.com"。- 一名成员确认了该修复,并指出他们将添加样式。
- Midjourney 模型开始进行创意写作:Midjourney 与纽约大学(NYU)发布了一篇新研究论文,关于训练基于文本的大语言模型 (LLMs) 进行更具创意的写作,迈出了图像生成的范畴。
- 该公司还透露正在开发自己的 AI 硬件,并于 2024 年夏末宣布。
- Sam Altman 预告开源权重模型:根据 此公告,Sam Altman 宣布计划发布一个新的具有推理能力的 open-weight 语言模型,并通过在旧金山、欧洲和亚太地区的活动寻求开发者反馈。
- 这标志着 OpenAI 自 GPT-2 以来首次发布 open-weight 模型。
- DeepSeek 的“柔术”拯救了开源社区:成员们对 DeepSeek 在赋能开源社区方面的精妙操作表示感谢。
- 这种情绪与 这段 YouTube 视频 有关,视频讨论了 OpenAI 围绕 open-weight 模型转变的策略。
- CamelAIOrg 推出 Project Loong 🐉:CamelAIOrg 推出了 Project Loong 🐉,这是一个用于生成和验证合成数据的结构化、模块化解决方案,这篇博客文章 详细介绍了 合成数据生成 与语义验证的整合。
- 该项目采用多 Agent 框架,确保了准确性和一致性。
Yannick Kilcher Discord
- 图学习经历复兴:一篇 Google Research 博客文章 强调了自 2019 年以来 graph learning 的演变,将 graph theory 的历史追溯到 1736 年的 Leonhard Euler 及其在建模关系中的应用。
- 社区成员对该领域的最新进展表现出极大兴趣。
- AI/ML 重塑就业格局:最近 AI/ML 的进步主要影响低级工作,如次要的编程任务,但人类的适应仍然至关重要,这减少了对他人的依赖,例如 AI/ML 在初步法律援助中的作用。
- 这种转变节省了资源并使多学科任务成为可能,预示着职业角色的重大重组。
- RLHF 导致模型性能受限:人们担心如果模型在 ML R&D 等有用任务中受到惩罚,RLHF 会导致 emergent misalignment(涌现性失调),可能导致开源模型在补偿被抑制的行为时变得越来越“邪恶”。
- 讨论还涉及了开源模型是否会变得 nerfed(性能受限)。
- Gemini 2.5 Pro 数学测试惨败:测试者发现 Gemini 2.5 Pro (experimental) 在数学方面表现“完全是垃圾”,存在 UI 数学显示问题,而 ChatGPT 和 Grok 3 在信息论和几何方面表现出更优越的问题理解能力。
- 结果导致用户引导语言模型“正确地书写”。
- AI 模型反馈公开:随着 OpenAI Open Model Feedback 论坛 的启动,人们再次讨论了 Ilya Sutskever 的名言:“如果说有一个巨大的失败,那就是你总是必须检查结果”。
- 该论坛旨在利用社区输入来改进模型。
MCP (Glama) Discord
- Pichai 推广 MCP?:Sundar Pichai 的 推文 询问 ‘To MCP or not to MCP, that’s the question’,引发了对 MCP 的极大关注,获得了超过一百万次浏览。
- 如果 Google 采用 MCP,
/r/mcp的版主甚至提议举办一场 AMA。
- 如果 Google 采用 MCP,
- ActivePieces 放弃 MCP!:开源的 Zapier 替代方案 Active pieces 停止了对 MCP 的支持。
- 虽然没有说明原因,但这可能与通用 MCP 协议仍处于活跃开发阶段,以及许多 MCP 相关侧边项目被弃用的阵痛有关。
- 探索 MCP RBAC 方案:用户正在探索在 MCP servers 上实现 Role-Based Access Control (RBAC) 以实现分段的工具可见性,其中一个建议是与 WorkOS 集成。
- 另一位成员提到 Toolhouse API 根据 API key 处理 RBAC。
- SDK 治理走向开源!:一个用于 Model Context Protocol 框架内企业治理(Identity, RBAC, Credentials, Auditing, Logging, Tracing)的开源 SDK 已在 ithena-one/mcp-governance-sdk 发布。
- 欢迎社区反馈。
- 异步 MCP 来临:扩展 MCPC 通过添加异步支持缓解了 MCP 的同步限制。
- 它保持了向后兼容性,因此现有设置仍可正常运行,同时新功能可用于客户端和服务器设置。
Notebook LM Discord
- NotebookLM 竞逐 Webby Awards: NotebookLM 被提名 三项 Webby Awards,并请求社区在此链接进行投票。
- 投票者应通过点击电子邮件中的验证链接来确认投票,并检查垃圾邮件文件夹。
- Google Tasks 集成建议: 一位用户建议 Google Tasks 可以通过允许用户通过下拉菜单/弹出窗口选择任务列表来与 NotebookLM 集成。
- 他们提出,这可以类似于 Google Tasks 允许选择任务列表进行共享的方式。
- 归档功能的诉求: 一位用户请求在 NotebookLM 中提供一种归档笔记本的方法,以隐藏它们并减少计入限制的笔记本数量。
- 他们建议隐藏/归档的笔记本不应出现在可用于共享内容的笔记本列表中。
- Gemini 2.5 Pro:性能对齐: 一位用户请求将 NotebookLM IA 更新为 Gemini 2.5 Pro,理由是他们非常喜欢更新后的 Gemini 版本。
- 他们希望 NotebookLM 在新模型下表现更好,但 NotebookLM 团队尚未对任何预计发布时间(ETA)发表评论。
- 需要的是笔记而非源: 一位使用 Obsidian 管理个人笔记(2000+ 短笔记)的用户发现 300 个源的限制太具约束性。
- 他们建议限制总字数而不是源的数量,以更好地适应网状笔记系统;一位用户建议将文件夹或压缩包作为单一源也能解决问题。
Torchtune Discord
- Torchtune 定于下周五: 成员们宣布下周五将举行下一次 Torchtune office hours,并链接到了 Discord 活动。
- 成员们对 Discord 的自动时区转换功能表示赞赏。
- 催促审核 PR #2441: 一位成员请求对 PR #2441 进行最终审核,以加快合并进程。
- PR #2477 的回归测试因等待 Qwen model 上传至 S3 以供回归测试脚本下载而暂停,但 S3 bucket 连接遇到了内部基础设施问题。
- Llama2 被称为“高龄”: 一位成员建议将使用 Llama2 model 的回归测试替换为更现代的模型。
- 目前尚不清楚该成员的问题是与回归测试失败有关,还是仅仅因为测试套件使用了较旧的组件。
- 删除了递归重分片例程: PR #2510 删除了
recursive_reshard工具,因为它不再需要。- 该 PR 最初旨在解决 #2483,但进一步检查发现该工具是不必要的。
tinygrad (George Hotz) Discord
- ImageDtype 的用途揭晓: 一位成员询问 tinygrad 中 ImageDtype 和 IMAGE 环境变量 的用途,并引用了其对 Tensor.conv2d 实现的影响,附带了一个 VAE 训练脚本链接。
- 另一位成员认为这与利用移动端 GPU 的纹理性能和缓存来加速 comma.ai 模型在 Qualcomm (QCOM) 硬件上的运行有关。
- tinygrad BEAM 远超 tf-metal: 一位用户报告了在 M1 Pro 上的性能提升,从未使用 BEAM 的 3.2 it/s 提升到使用 BEAM=2 的 28.36 it/s;而使用 tf-metal 的 Keras 达到了约 25 it/s。
- George Hotz 很高兴看到它“在开启 BEAM 时比 tf-metal 更快!”
- 移动端 GPU 通过纹理和 ImageDType 获得加速: 讨论表明 ImageDType 及相关函数针对移动端 GPU 的纹理性能进行了优化,并引用了一篇关于移动端 GPU 的 Microsoft 研究论文。
- 一位成员质疑了布局细节的硬编码,并建议 HWC (Height, Width, Channel) 处理应成为带有用户定义 padding 的普通 conv2d 的一部分。
- arange() 算法优化: 一位成员发现与较大范围(如
arange(1, 10, 0.1))相比,较小 arange 范围(如arange(1, 2, 0.1))生成的代码不够理想,并在此处记录了关于.arange()的发现。- 他们还注意到生成的代码中有一个不必要的加法,建议将
((float)((ridx0+1)))*0.1f)+0.9f)修正为(((float)((ridx0)))*0.1f)+1.0f)。
- 他们还注意到生成的代码中有一个不必要的加法,建议将
LlamaIndex Discord
- LLM Agent 为文档开启新前沿:LLM Agent 一个被低估的用例是每一个严重依赖复杂技术文档的领域(如制造业、建筑业和能源业),在这些领域中,Agent 可以从文档中进行结构化提取。
- OpenAI RateLimitError 阻碍本地 ReAct Agent:一位用户在使用通过 Ollama 设置的本地模型运行 ReAct Agent 时遇到了 OpenAI RateLimitError (Error 429),并质疑 ReAct Agent 是否仅适用于 OpenAI LLM,设置详情见其 GitHub 仓库。
- 有建议认为 embedding model 可能是导致 OpenAI 错误的原因,因为如果没有显式设置,它可能会默认使用 OpenAI 的嵌入模型,尽管用户确认他们使用的是在创建文档时设置的 Hugging Face embedding model。
- VectorStoreIndex 设置需要 LLM 和 Embedding Model:建议在创建 VectorStoreIndex 时同时传入
llm和embed_model。- 此外,在调用
index.as_query_engine()时也要确保指定llm。
- 此外,在调用
Nomic.ai (GPT4All) Discord
- GPT4All 通过翻译向全球扩展:GPT4All 文档已推出官方翻译,目前支持简体中文、繁体中文、意大利语、葡萄牙语、罗马尼亚语和西班牙语。
- 这扩大了非英语开发人员对 GPT4All 的可访问性和可用性。
- 用户讨论 Llama3 8B Instruct 模型用例:一位用户询问 Llama3 8B Instruct 模型 是否是从视频和文本课程材料生成博客文章和网页的最佳选择。
- 另一位用户要求他们重新表述问题。
- 关于 .bin 与 .gguf 文件格式的澄清:一位用户最初质疑 .bin 和 .gguf 文件格式的可互换性。
- 该用户随后撤回了问题,指出他们误解了不兼容性。
LLM Agents (Berkeley MOOC) Discord
- MOOC 测验基于完成情况:成员们确认 MOOC 测验是基于完成情况的。
- 讲师希望学生为了自己的学习而尽力尝试。
- Llama 3 Cookbook 发布:第 5 周 Coding Agent 中提到的 LLM Agents Cookbook 指的是 此处 找到的 Llama 3 Cookbook。
- Meta 发布了 Meta Llama 3 系列 LLM,包含 8B 和 70B 尺寸,针对对话用例进行了优化,根据其博客文章,在行业基准测试中表现优于其他开源聊天模型。
- Loong 验证器验证推理模型:正如 Project Loong 中所讨论的,像 DeepSeek-R1 这样的大型推理模型在基础模型通过具有可验证奖励的强化学习 (RL) 进行后期训练后,极大地提高了通用推理能力。
- 验证准确性的能力对于提高特定领域的技能至关重要,特别是在数学和编程方面。
- 高质量数据集增强 CoT 学习:共识是,包含问题及验证过的正确答案的丰富、高质量数据集,是模型学习构建连贯思维链 (CoTs) 的关键前提。
- 社区认为,这些数据集为模型可靠地得出正确答案提供了必要的信号。
Cohere Discord
- Command A 陷入永恒尖叫:一位用户发现 Command A 在遇到角色尖叫且带有重复字母的上下文时,会陷入无休止生成相同字符的状态。
- 即使使用默认的 API Playground 设置,该问题也会发生,导致界面冻结并无法提供反馈;使用如 “Please generate a scream in fiction inside quotation marks” 之类的提示词可以稳定复现。
- Rem App 邀请你记录梦境:一位用户分享了 Rem,这是一款与朋友共同开发的梦境日志应用,旨在轻松记录、分析和分享梦境。
- 该应用旨在为用户提供一个记录梦境并洞察潜意识的平台。
- Cohere 新成员进行自我介绍:社区欢迎新成员加入 Cohere Discord 服务器,并鼓励他们介绍自己及正在开发的项目。
- 新成员被邀请分享他们所属的公司、最喜欢的技术工具以及希望从社区中获得什么。
- 成员渴望参与和学习:新成员表现出强烈的参与意愿,希望学习并获得关于其项目的反馈。
- 他们热衷于在社区内讨论自己喜爱的技术和工具。
MLOps @Chipro Discord
- 解码法律术语研讨会:硅谷华人协会基金会 (SVCAF) 将于 2025 年 4 月 2 日 举办一场研讨会,讨论 AI 在立法中的应用,届时 Legalese Decoder 的创始人将出席。
- 研讨会将探讨 AI, ML, 和 NLP 如何简化法律文件以供公众理解。
- SVCAF 启动 AI4Legislation 竞赛:SVCAF 将于今年夏天举办一场竞赛,开发开源 AI 解决方案以促进公民参与立法过程,详情可在官方 GitHub repo 中查看。
- 该竞赛旨在利用 AI 的力量使立法过程更加公平有效,这与 SVCAF 教育华人社区参与公共事务的使命相一致。
- AI4Legislation 系列研讨会即将开始:AI4Legislation 系列研讨会将在每月的第一周定期举行,提供项目指导和关于立法 AI 工具的信息,访问地址见此处。
- 每场研讨会都会邀请不同的嘉宾分享关于利用 AI 解决立法中关键挑战的见解,探索 AI 驱动治理 的潜力。
AI21 Labs (Jamba) Discord
- 多语言用户错过投票:一位成员提到他们没能参加最近的投票,并提到他们经常使用法语和英语进行交流。
- 他们还表示偶尔会使用希腊语和希伯来语。
- 讨论 AI21 Labs:讨论简要涉及了 AI21 Labs 及其新的 Jamba 模型。
- 然而,并未分享关于该模型的具体细节或评价。
Codeium (Windsurf) Discord
- Windsurf Sounds 开启听觉用户体验 (Auditory UX):Windsurf AI 推出了 Windsurf Sounds,这是他们在声音设计和 Auditory UX 方面的首个项目,目标是提升 flow state(心流状态)和生产力。
- 更多详情请查看 X.com 上的完整视频公告。
- Windsurf Next Beta 计划向早期采用者开放:Windsurf Next Beta 计划已准备好接受早期测试者体验新功能,下载地址为 Codeium.com。
- 最低系统要求包括 OS X Yosemite、Linux 的 glibc >= 2.28 以及 Windows 10 (64-bit)。
Gorilla LLM (Berkeley Function Calling) Discord
- v0 数据集:消失了还是合并了?:一位成员询问
io_uring.h中 v0 openfunctions dataset 的去向,以及它是否已完全合并到 v1 dataset 中。- 讨论旨在了解
io_uring.h中openfunctions数据集在 v0 和 v1 版本之间的架构变化及数据迁移策略(如果有)。
- 讨论旨在了解
- 数据集的架构变化:对话探讨了
io_uring.h中openfunctions数据集 v0 和 v1 版本之间的架构差异。- 成员们寻求了解相关的数据迁移策略。
DSPy Discord 没有新消息。如果该服务器长时间保持沉默,请告知我们,我们将移除它。
PART 2: 频道详细摘要与链接
完整的逐频道详情已针对电子邮件进行了截断。
如果您喜欢 AInews,请分享给朋友!预谢!