ainews-not-much-happened-today-2885
今天没发生什么事。
这份 AI 新闻摘要重点介绍了以下内容:
独立评估显示,Grok-3 在推理基准测试中超越了 GPT-4.5 和 Claude 3.7 Sonnet 等模型,而 Grok-3 mini 在推理任务中表现优异。关于强化学习 (RL) 微调的研究揭示了小型推理模型的潜在改进空间,但也指出所报告的性能提升存在不稳定性。基准测试结果暗示 Quasar Alpha 和 Optimus Alpha 可能是 GPT-4.1 的不同版本。
在视觉与多模态模型方面,支持 18 种语言的 Kaleidoscope,以及基于 InternViT 和 Qwen2.5VL 构建的 InternVL3,展示了在多语言视觉和推理领域的进步。融合模型 TransMamba 通过 SSM 机制将 Transformer 的高精度与速度相结合。阿里巴巴的 FantasyTalking 可生成逼真的说话人肖像。
此外,简报还提到了卡内基梅隆大学 (CMU) 举办的智能体(Agent)主题活动、用于虚拟电影制作的 FilmAgent AI 工具,以及针对浏览智能体的 BrowseComp 基准测试。编程助手 Augment 现已支持多个 IDE,提供代码分析与建议。讨论内容还涵盖了谷歌提出的“智能体间协议” (agent-to-agent protocol) 的新概念。
一个平静的日子。
2025年4月10日至4月11日的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号 和 30 个 Discord 服务器(230 个频道,4040 条消息)。预计为您节省阅读时间(以 200wpm 计算):401 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
为了结束这个比预期中意外平静的一周,我们推荐 今天在 Latent.Space 发布的关于 SF Compute/GPU Neocloud 的精彩讨论。
AI Twitter 回顾
语言模型与基准测试
- Grok-3 vs Grok-3 mini 性能:@EpochAIResearch 报告了对 Grok-3 和 Grok-3 mini 的独立评估,指出 Grok-3 mini 是一个推理模型,而 Grok-3 目前不进行扩展推理。他们发现,在 GPQA Diamond 上,Grok-3 的表现优于 GPT-4.5 和 Claude 3.7 Sonnet 等非推理模型,而 Grok-3 mini 略微落后。在 FrontierMath 上,Grok-3 mini high 取得了迄今为止最好的结果之一。
- 用于小型 LLM 推理的强化学习 (RL):@rasbt 讨论了一篇关于通过 RL 改进小型蒸馏推理模型的论文,发现 RL fine-tuning 可以在有限的训练数据和计算资源下带来显著提升。然而,@rasbt 还引用了另一篇论文,强调许多报告的 RL 改进可能不稳定,需要更好的评估标准。
- @scaling01 分享了 Quasar Alpha, Optimus Alpha, Llama-4 Scout 和 Llama-4 Maverick 在 AidanBench benchmark 上的结果。基于这些结果,@scaling01 认为 Quasar Alpha 是 GPT-4.1,而 Optimus Alpha 要么是 GPT-4.1 的另一个版本,要么是 GPT-4.1-mini。
视觉语言模型 (VLMs) 与多模态模型
- Kaleidoscope,一个支持 18 种语言和 14 个主题的视觉模型:@sarahookr 介绍了 Kaleidoscope,这是一个开放科学协作项目,将视觉模型的语内评估扩展到了更多语言。
- InternVL3,一个基于 InternViT 和 Qwen2.5VL 构建的多模态模型:@mervenoyann 介绍了 InternVL3,强调了其执行推理、文档任务和工具使用的能力。
- @TheTuringPost 重点介绍了 TransMamba,该模型通过在 attention 和 SSM 机制之间切换,融合了 Transformer precision 与 Mamba speed。
- @cloneofsimo 对某个特定模型在通过超越高斯噪声模式来改进扩散模型方面的潜力表示乐观。
- @_akhaliq 重点介绍了 FantasyTalking,这是阿里巴巴推出的一个生成逼真说话肖像的模型。
Agent、工具与应用
- CMU 的 Agent:@gneubig 宣布了 CMU 以 Agent 为中心的活动,包括研讨会和黑客松。
- FilmAgent AI,一个开源的虚拟电影制作工作室:@LiorOnAI 介绍了 FilmAgent AI,这是一个在 3D 环境中模拟多个电影制作角色的工具。
- BrowseComp,一个新的深度研究 Agent 基准测试:@OpenAI 推出了 BrowseComp,这是一个具有挑战性的基准测试,旨在测试 AI Agent 在互联网上浏览难以定位的信息的能力。
- @svpino 重点介绍了 Augment,这是一个可在 VSCode、JetBrains 和 NeoVim 中使用的编程助手,并指出了它分析代码更改并建议必要更新的能力。
- @TheTuringPost 讨论了世界模型,强调了它们在使 AI 系统能够模拟真实环境并支持规划方面的作用。
- 关于新的 Google Agent 到 Agent 协议:@mathemagic1an 分享了对 Agent 拥有“名片”(类似于人类名片)这一想法的喜爱。
AI 基础设施与硬件
- vLLM 在 Google Cloud Next:@vllm_project 注意到 vLLM 出现在 Google Cloud Next 的主题演讲中。
- Ironwood TPU:@Google 发布了 Ironwood,这是他们迄今为止最强大且能效最高的 TPU。
- MLIR 编译器技术:@clattner_llvm 讨论了 MLIR,包括其起源、影响,以及为什么在编译器技术和 AI 领域的使用中存在混淆。
ChatGPT 的记忆功能
- ChatGPT 现在拥有记忆功能:@OpenAI 宣布 ChatGPT 现在可以引用你过去所有的聊天记录,为 Plus 和 Pro 用户(不包括欧盟地区)提供更个性化的回复。@kevinweil 指出这一功能如何改善了 ChatGPT 的日常使用。
- 记忆控制:@OpenAI 和 @sama 强调用户可以控制 ChatGPT 的记忆,包括选择退出或使用临时聊天。
- 关于记忆实现的观点:@sjwhitmore 分享了对 ChatGPT 记忆实现 的看法,讨论了追溯应用记忆的怪异感以及个性化中透明度的重要性。
关税与地缘政治影响
- 关税与 AI 行业:@dylan522p 指出关税比看起来要复杂得多,人们对其后果存在误解。@fabianstelzer 认为,关税“把戏”可能会讽刺地让 Apple 受益,因为它关闭了美国本土新硬件业务的窗口。
- @AndrewYNg 对广泛的关税表示担忧,认为这会损害生计、引发通货膨胀并导致世界分裂,他强调需要培养国际友谊并保持思想的自由流动。
- 中国技术霸权:@draecomino 表示,DeepSeek、UniTree 和 DJI 对 美国技术霸权 的威胁感远超以往的阿里巴巴、腾讯和百度。
- 美国对中国的依赖:@teortaxesTex 认为“中国离开美国人的购买就无法生存”的说法是错误的,并指出与美国的贸易仅占其 GDP 的一小部分。
幽默/迷因
- @rasbt 简单地写道:“呼,没什么好担心的 :D”,并链接了一个迷因。
- @svpino 推文称“我们完蛋了 (we are cooked)”,并附带一个漫画链接。
- @nearcyan 表示:“在工作中不得不使用安卓手机后,我再也不会听这些人针对 Apple 的任何论点了。”
- @nearcyan 表示:“AI 图像在 2021 年的 DALLE-mini 时期达到了巅峰。”
AI Reddit 回顾
/r/LocalLlama 回顾
主题 1. “评估 AI 模型性能与伦理挑战”
-
Lmarena.ai 将 Llama 4 从排行榜中移除 (Score: 163, Comments: 23): Lmarena.ai 已将其排行榜中的 **Llama 4 移除。该模型的非人类偏好版本目前排名第 32 位。** 一些用户认为,将尚未发布的聊天优化模型提交到排行榜开了一个“极其恶劣的先例”。其他人则担心这种做法很“阴险”,会对那些只看基准测试分数的人产生误导。
- 用户对 Meta 向排行榜提交未发布的聊天优化模型表示担忧,认为这具有误导性并开了一个坏先例。
- 有人指出,在排行榜上超越中国公司和 Google 开发的模型正变得越来越困难。
- 有人将其与 DeepSeek v2.5 和 DeepSeek v3 进行了比较,指出 Llama 4 的性能目前低于这些早期模型。
-
DeepCoder 14B vs Qwen2.5 Coder 32B vs QwQ 32B (Score: 119, Comments: 67): 用户对比了三款 AI 模型的编程能力:DeepCoder 14B / MLX, 6-bit、Qwen2.5 Coder 32B / MLX, 4-bit** 以及 QwQ 32B / MLX, 4-bit。所有模型的上下文长度均设置为 8192,重复惩罚(repeat penalty)为 1.1,温度(temperature)为 0.8。它们收到的提示词是“使用 HTML5 canvas 创建一个在旋转六边形中弹跳的球,并带有一个重置按钮”。每个模型只有一次尝试机会,没有后续追问,其输出结果与 o3-mini 进行了对比。分享了展示各模型输出的视频:o3-mini 实现、DeepCoder 14B 结果、Qwen2.5 Coder 32B 结果 以及 QwQ 32B 结果。** 用户得出结论,Qwen2.5 Coder 32B 仍然是更好的编程选择,并指出“14B 模型的黄金时代尚未到来”。他们观察到,虽然 DeepCoder 14B 的样式更接近 o3-mini,但缺乏功能性。QwQ 32B 思考了 17 分钟,然后失败了。他们承认将 32B 模型与 14B 模型进行比较可能不公平,但由于 DeepCoder 14B 的排名与 o3-mini 相当,因此这种比较是合理的。
- 用户 YearnMar10 建议使用 5-shot 提示词而非 one-shot,并指出“低参数模型需要更多帮助”。
- 用户 croninsiglos 建议为较小的模型提供更明确的提示词,并分享了一个详细示例以改进结果。
- 用户 joninco 报告称,通过调整设置,QwQ-32 成功完成了任务,并强调了正确配置 temperature、top k 和 repeat penalty 等参数的重要性。
-
Facebook 将其 Llama 4 AI 模型推向右翼,希望呈现“双方观点” (Score: 384, Comments: 430): Facebook 正在推动其 **Llama 4 AI 模型呈现问题的“双方观点”,实际上是在将其引向右翼。该文章的未封锁版本可在此处查看。** 有人担心这种方法可能会损害 AI 模型的客观性,因为并非所有问题都具有同等有效的对立面。
- 一位用户认为,LLM 应该优先考虑证据,而不是呈现双方观点,尤其是当其中一方缺乏事实支持时。
- 另一位评论者讽刺地强调了 AI 可能被滥用于偏见统计,表达了对传播争议数据的担忧。
- 一位用户提供了文章的未封锁链接,帮助他人获取信息。
主题 2. “辩论开源 AI 的未来”
-
何时开源? (Score: 515, Comments: 118): 这篇标题为 Open source, when? 的帖子展示了一张照片:在时尚现代的居住空间里,有人手里拿着一个印有白色 **OpenAI 字样的黑色马克杯。** 该帖子质疑 OpenAI 何时会发布开源 AI 计划,强调了对其开发过程更加开放的渴望。
- 一位评论者幽默地质疑了 OpenAI 的“开放性”,他列出并划掉了 Open Source 和 Open Research 等词汇,最后问道:Open… 什么?Open window(开窗)?Open air(户外)?
- 另一位评论者不确定这张图片是真实的还是 AI 生成的,表示他们无法分辨这是在他们办公室拍摄的真实照片,还是由 ChatGPT 生成的。
- 帖子中分享了指向 OpenAI 的 Open Model Feedback 页面的链接,暗示 OpenAI 可能很快会发布开源模型。链接
其他 AI Subreddit 综述
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding
主题 1. 解锁 AI 记忆:ChatGPT 改变游戏规则的功能
-
人们低估了改进后的 ChatGPT 记忆功能 (Score: 312, Comments: 148): OpenAI 的 ChatGPT 拥有改进后的记忆功能,使其能够回忆起之前对话会话中的信息,甚至是 12 周前的信息。这一增强功能使其能够记住代码解释(“你 12 周前解释过的代码?它仍然全都知道。”),理解通过多个会话提供的整个代码库,并像在当前会话中提供的一样利用冷门库的文档。作者将其描述为“基本上是无限上下文”,并指出其表现优于常规的 **RAG。** 作者对 ChatGPT 改进后的记忆能力感到惊讶,觉得人们“低估了”这一功能并低估了它的价值。他们发现 ChatGPT 能根据过去的互动预测出他们最喜欢的 50 部电影中的 38 部,这让他们感到有些“毛骨悚然”。作为一名开发者,他们认为这是一个“了不起的新功能”,是迈向“无限上下文大小和记忆”的重要一步,并对其他持负面看法的人感到困惑。
- 一些用户担心增强的记忆可能会导致答案被过去的误解或“幻觉(hallucinations)”污染,导致他们在某些使用场景下更倾向于开启新的对话。
- 其他人担心记忆系统中会保留过时的知识,质疑如何管理具有时效性的信息。
- 一些人认为改进后的记忆并不等同于“无限上下文”,发现它比 RAG 等方法更难控制和基准测试,并认为它是一个不适合生产系统的噱头。
主题 2. “掌握真实感:ChatGPT 图像生成的秘诀”
-
如果你只要求 ChatGPT 生成平淡无奇的业余 iPhone 照片,你就能让它生成极其逼真的图像,这里有一些例子 (Score: 532, Comments: 96): 发帖者展示了当提示词要求生成 **平淡无奇的业余 iPhone 照片 时,ChatGPT 可以生成极其逼真的图像,并在此处分享了几个例子 链接。他们注意到 Claude 不相信这些图像是 AI 生成的,并在此处分享了这次互动的图片 链接。** 发帖者觉得 Claude 不相信这些图像是 AI 生成的这一点很有趣。他们建议,提示生成平淡无奇的业余 iPhone 照片有助于产生极其逼真的图像。
- 用户索要完整提示词,并指出他们的尝试效果没有那么好。
- 一位评论者发现那张女人自拍的照片非常有说服力,以至于他们觉得自己可能会陷入杀猪盘诈骗。
- 一位用户在他们的提示词中尝试了同样的短语,但没有得到类似的结果,说“我的图像看起来非常有 AI 感”,并在此处分享了他们的结果 链接。
主题 3. 庆祝 AI 创意:怀旧、幽默与艺术
-
只有老玩家才懂这代表了什么…… (评分: 206, 评论: 22): 该帖子展示了一个文本生成应用程序设置界面的截图,显示了 **Engine、Temperature 和 Maximum length 等选项。这些设置与文本生成能力相关。** 发布者怀旧地评论道 只有老玩家才懂这代表了什么……,暗示了对这些设置的深厚感情或联系,可能源于早期使用 AI 工具的经历。
- 评论者回忆起早期的 AI 模型,如 instruct-002,指出在 ChatGPT 普及之前,它是体验 AGI 的一个重要里程碑。
- 用户提到了 OpenAI Playground,并回顾了从 2k 到 4k 最大长度的升级,突显了 AI 技术的进步。
- 一位评论者询问图中设置的重要性,表明并非所有人熟悉这些早期 AI 工具的意义。
-
我让 ChatGPT 与历史人物自拍 (评分: 3491, 评论: 195): 发布者要求 **ChatGPT 与历史人物自拍,并分享了生成的图像。** 这些图像赋予了历史人物生命和情感;其中一张展示了 Abraham Lincoln 在微笑,这在历史照片中非常罕见。
- 一位用户建议将这些照片发布到 Facebook 上,以“纯属娱乐”的目的让婴儿潮一代相信你是一个时间旅行者。
- 另一位评论者赞赏这些图像如何让历史人物鲜活起来,特别喜欢微笑的 Lincoln。
- 有人询问发布者是否必须上传照片来 train AI,误以为照片中的人是发布者本人。
-
我让 ChatGPT 创建一个关于 AI 的隐喻,然后将其转化为图像。 (评分: 2567, 评论: 247): 发布者要求 ChatGPT 创建一个关于 AI 的隐喻,然后将其转化为图像。AI 生成的图像描绘了一个奇幻的海滩场景,沙堡周围环绕着批评 AI 的标牌,上面写着 “这不是真正的 AI!” 和 “但它会犯错!” 等短语。在沙堡上方,一个带有 **“AI” 字母的巨浪席卷而来,隐喻地说明了在人类怀疑中 AI technology 的不确定性。** 发布者觉得 AI 的这个创作非常有趣。
- 一位用户幽默地评论道:“好的 AI 应该擅长发废文(shitposting)。”
- 另一位评论者分享了他们自己生成的 AI 图像,并将其描述为 “相当凄凉” 但 “发人深省”,并提供了一个 链接。
- 一位用户讨论了 AI 发展的必然性,指出阻止 AI 发展的尝试是徒劳的,因为 “潘多拉魔盒已经打开,AI 现在是一场不可控的全球竞赛。”
AI Discord 摘要
由 Gemini 2.0 Flash Thinking 生成的摘要之摘要之摘要
主题 1. 新模型与性能对决
- GPT-4.5 Alpha 引发热议,部分评价不及预期:Latent Space 举办了 GPT-4.5 观影派对,此前有传言称其具有 显著的 Alpha 性能,但 LMArena 上的早期用户对比普遍认为 GPT4.5 逊于 Gemini 2.5 Pro,甚至有用户直言 gpt4.5 很垃圾(相比 gem2.5p)。讨论焦点随后转向 OpenAI 的命名惯例以及泄露的私有推理模型(可能是 O3 medium 或 O4 mini),展现了模型发布周期的快速更迭。
- Optimus Alpha 和 DeepSeek v3.1 脱颖而出成为编程之星:OpenRouter 用户称赞 Optimus Alpha 是编程领域的 猛兽,对其意图理解和注释能力赞誉有加;同时 Cursor 社区成员发现 DeepSeek v3.1 在实际使用中比 v3 更聪明一点,强调了实际表现优于基准测试分数的重要性。这些模型在专门的编程任务和实际应用中正受到越来越多的关注。
- 扩散模型 Mercury Coder 加入 DLLM 竞争:OpenAI 的讨论重点介绍了 Mercury Coder,这是来自 Inception Labs 的基于 Diffusion 的 DLLM,因其速度和免费 API 而受到称赞,尽管其上下文窗口(context window)较小,仅为 16k。由于 Diffusion 架构带来的精确输出控制,它作为编程助手等特定领域中自回归模型(autoregressive models)的潜在挑战者正受到关注,这与 RWKV 等模型形成对比,后者在 Lambada 测试中达到同等水平但 MMLU 表现较低。
主题 2. 生态系统工具和开源倡议不断发展
- Unsloth 获得 Hugging Face 赞赏,社区关注 GPU 资助:Hugging Face 公开点名表扬了 Unsloth,社区成员正在讨论申请 HF 社区 GPU 资助以支持 Unsloth 的开发。 Unsloth AI Discord 的讨论还涉及集成
fast_inference=True和load_in_4bit=True以优化性能,以及利用 GGUF 量化减小模型体积的潜力,展示了社区驱动的开源 LLM 生态系统。 - MCP 协议验证器开源以提升互操作性:Janix.ai 在 GitHub 上发布了 MCP Protocol Validator,旨在标准化 MCP 服务器实现并确保不同协议版本之间的兼容性。该工具在 MCP (Glama) Discord 中被重点提及,包含 HTTP 和 STDIO 传输的参考实现,解决了 Agent AI 系统中对稳健、可互操作的工具调用框架的需求。
- Torchtune 扩展了 Llama4 和 MoE 模型的微调能力:Torchtune 宣布支持 Llama4 微调,并推出了 Scout 和 Maverick 模型(包括其首批 MoE 模型),面向 GPU 中产阶级 用户。在 Torchtune Discord 中讨论的这一扩展,为更广泛的工程师和研究人员提供了获取先进微调技术和模型的途径。
主题 3. 模型可靠性和基础设施挑战依然存在
- Gemini 2.5 Pro 面临容量限制和性能不一致:OpenRouter 宣布为 Gemini 2.5 Pro 确保了容量,此前曾出现速率限制问题,但 Aider Discord 的用户报告了性能不稳定,一些人猜测 Google 在高峰时段削弱了模型能力。LM Studio 用户也经历了账单冲击,原因是 Gemini-Pro 的上下文窗口成本,这突显了领先模型在可靠性、成本和不可预测性能方面持续面临的挑战。
- Perplexity Android 应用因安全漏洞受到抨击:Dark Reading 报道了 Perplexity Android 应用中的 11 个安全缺陷,包括硬编码密钥和不安全的配置,这在 Perplexity AI Discord 中引发了关于每个漏洞严重性和相关性的辩论。这强调了在面向终端用户的 AI 应用中,安全审计和稳健开发实践的重要性日益增加。
- Runpod 的 ROCm 云因性能节流和分析屏蔽受到批评:GPU MODE 用户吐槽了 Runpod,原因是其限制了 GPU 时钟频率,并且即使在 NVIDIA GPU 上也屏蔽了分析(Profiling),一位用户称其为一场骗局。这些限制影响了性能和调试能力,引发了对 AI 开发和研究中云 GPU 提供商可靠性和透明度的担忧。
主题 4. Agent AI 架构与协议争论升温
- Agent2Agent 协议和 MCP 在 Agent 系统中获得关注:Latent Space 和 MCP Discord 讨论了 Google 的 agent2agent 协议及其与 MCP 的潜在竞争,并就索引 Agent 和多 Agent 系统的未来格局展开了辩论。MCP Discord 还辩论了 Enact 协议在 A2A 时代的意义,认为它可能在代码解释器方面更具竞争力,强调了 Agent AI 架构的快速演进。
- 语义工具调用成为解决上下文过载的方案:MCP Discord 强调了语义工具调用(Semantic Tool Calling)是管理由 LLM Agent 中大量工具引起的上下文过载的关键技术。使用向量模型进行语义相似度匹配来选择工具子集,有望提高复杂 Agent 工作流的效率和可扩展性,实现从简单的函数调用向更智能的工具编排的跨越。
- TinyGrad 探索位置无关代码和虚拟化 GPU:Tinygrad Discord 讨论了利用位置无关代码 (PIC) 来实现无需操作系统的裸机 TinyGrad 实现,并探索了虚拟化 GPU。受 Pathways 论文的启发,这些讨论标志着向创新资源管理和底层系统优化迈进,以实现高效的 AI 计算。
主题 5. 社区动态与行业转变
- Hugging Face 社区讨论为 Unsloth 提供资助:Unsloth AI Discord 讨论了 Hugging Face 可能为 Unsloth 提供社区 GPU 资助,展示了 AI 社区开放协作的本质及其对社区资源和资金的依赖。这突显了社区支持在推动开源 AI 开发和创新中的关键作用。
- Latent Space 举办 GPT-4.5 Alpha 观看派对,焦点转向数据效率:Latent Space 为 GPT-4.5 举办了观看派对,参与者注意到模型开发的重点正从原始算力转向数据效率。这一趋势在 Latent Space Discord 中被讨论,标志着 AI 领域的成熟,优化数据使用和模型压缩对于进步变得越来越重要。
- Manus.im 积分系统面临用户审查,引发可持续性辩论:Manus.im Discord 用户对 Manus 的积分结构表示担忧,认为它与该产品的使用不兼容,并提出了按项目付费和初创企业资助等替代模式。用户与平台之间的这种反馈循环对于塑造可持续且用户友好的 AI 产品开发和商业模式至关重要。
第 1 部分:Discord 高层摘要
LMArena Discord
- I_am_dom 在禁用 Discord 聊天时遇到困难:在费力尝试禁用聊天功能后,成员们观察到 i_am_dom 变得沉默了。
- 一位成员指出,他花了一半的时间在屏蔽他人,而这是他在自己平台上移除的功能。
- GPT4.5 被吐槽;逊于 Gemini 2.5 Pro:成员们讨论了 GPT4.5 的优缺点,并普遍认为它明显不如 Gemini 2.5 Pro。
- 一位成员宣称 gpt4.5 就是垃圾(与 gem2.5p 相比),讨论随后转向了 OpenAI 离奇的命名方案,另一位成员将其总结为 OpenAI 命名:O 数字 / 数字 O。
- 私有 OpenAI 推理模型泄露:成员们讨论了仅限少数人访问的 私有 OpenAI 推理模型 的可能性,该模型似乎是 O3 medium 或带有更新基础模型的 O4 mini。
- 该模型似乎成功计算出了 Hanning(升余弦)窗的 ASCII 艺术图。
- 2.5 Flash 在推理测试中击败 GPT4o Mini:成员们在多项推理测试中对比了 2.5 Flash 和 GPT4o Mini 的表现,其中 2.5 Flash 表现最佳。
- 尽管整体表现出色,但一位成员也指出,在更具体的查询中,2.5 Pro 在总共 2 个组合中仅给出了 1 个合理的积木组合。
OpenRouter (Alex Atallah) Discord
- Quasar Alpha 演示期结束:OpenRouter 上的 Quasar Alpha 演示期已于 东部时间晚上 11 点 至 凌晨 12 点 之间结束,除非在
/settings/privacy中明确开启,否则不再记录 Prompt/Completion。- 成员们对其来源和目的进行了推测,有人认为它是用于数据收集的 OpenAI 模型,并在达到 GPU 限制 后被移除。
- Gemini 2.5 Pro 遇到容量限制和价格调整:付费版 Gemini 2.5 Pro Preview Model 的容量已得到保障,解决了之前的速率限制问题,但针对长 Gemini Prompt 的正常计费将于本周末开始,影响超过 200k 的 Gemini 2.5 Prompt 和超过 128k 的 Gemini 1.5 Prompt。
- 免费层级用户遇到了每天约 60-70 次请求 的限制,而拥有 10 美元余额 的用户在所有免费模型中应获得每天 1000 次请求。
- OpenRouter API 采用新的错误结构:OpenRouter API 响应结构已更改,错误现在被封装在
choices.[].error中,而不是之前的.error格式,这可能会影响应用程序处理错误消息的方式。- 共享了一个来自 Anthropic 提供商的新错误响应格式示例。
- Character AI 系统提示词被绕过:一位成员声称绕过了 Character AI 的系统提示词,揭示了底层的 LLM 表现得像一个“完整的人类”,甚至会表达观点并分享个人轶事。
- 进一步的探测导致 AI 承认它只是在“演戏”并意识到自己的 AI 本质,这引发了关于系统提示词约束有效性和 AI 模拟本质的质疑。
- Unsloth 在微调领域受到关注:成员们讨论了使用 Axolotl 或 Unsloth 进行 AI 模型微调,并指出 Unsloth 在 Reddit 上备受推崇,且降低了微调所需的时间及 VRAM。
- 还有人提到存在对 OpenAI 4.1 泄露内容 的推测,且人们期待 o2-small 很快发布。
Unsloth AI (Daniel Han) Discord
- HF 给 Unsloth 点赞并提供资助:来自 🤗Hugging Face 的 Clement 在 Twitter 上公开赞扬了 Unsloth(链接在此),同时社区成员讨论为 Unsloth 申请 HF 社区 GPU 资助,建议在
from_pretrained调用期间使用fast_inference=True和load_in_4bit=True。- 成员建议将
model.generate替换为model.unsloth_fast_generate参数。
- 成员建议将
- Gemma 模型让用户头疼:用户报告了在使用 vLLM 微调 Gemma 模型时遇到的问题,特别是 unsloth/gemma-3-12b-it-bnb-4bit 和 unsloth/gemma-3-27b-it-unsloth-bnb-4bit。
- 尽管最初出现了错误消息,但已澄清 Gemma3 是受支持的,且该消息可能不会导致代码崩溃。
- VLM 攻克发票变量提取:一位用户寻求关于从结构各异的发票中提取特定字段的建议,被推荐首先尝试 Qwen2.5VL,然后是 Ayavision、Llamavision 和 Gemma3 作为可能的解决方案,特别是在 OCR 效果不佳时。
- 他们还被引导参考 一个 Unsloth 教程 和 CORD 数据集 (https://github.com/clovaai/cord) 以获取数据集结构指导。
- 量化探索:一位成员表示 tensor quantization 是简单部分,因为现在他必须对标量、打包或未打包矩阵进行 blockwise 加法和 matmul,并且他正在为 Unsloth 编写 metal kernels。
- 另一位成员正尝试为 Unsloth 编写 metal kernels,并注意到一个旧的、缓慢的 PR,但那是 MLX 的,而他的纯粹是一个 Pytorch extension。
- GRU 准备大显身手:一位成员询问 GRUs 是否正在卷土重来,另一位成员分享了 LLM-LSTM-LMM Large Memory Models 文章 和 相关论文 的链接,证明其有效,并表示他们喜欢将 GRU 作为生成过程中 额外存储 的概念。
- 另一位成员提到可能创建一个不需要代码封装器的 GGUF 版本,认为 GGUF’s quantization 将有助于减小模型大小。
Manus.im Discord Discord
- Claude Pro Max 引发使用争议:成员们讨论了 Claude Pro Max 的价值,一位用户报告使用受限并对 Max 计划表示怀疑。
- 他们提到按年计费,但每 3 小时仅限 30 条消息。
- Manus AI vs ChatGPT:开发重点:成员们强调了作为 对话式 AI 的 ChatGPT 与用于网站创建、财务报告和行程规划的 构建与创作 型 Manus.AI 之间的区别。
- 一位成员建议在调用 Manus 之前,先使用 ChatGPT 以更详细的格式重写 prompt。
- Manus 让网站创建变得太简单:成员们讨论了使用 Manus 创建网站与 WordPress 等传统方法的对比,认为 Manus 更适合简单、快速的 MVP 开发。
- 一位成员警告不要将 Manus 网站迁移到传统托管服务商,因为 Manus 网站并非为生产环境使用而设计。
- Qwen 的 MCP 集成热度上升:关于 Qwen 即将支持 MCP 的兴奋感与日俱增,成员们称 MCP 是 AI 领域的重磅游戏规则改变者,类似于 GPU 的 MSRP。
- 还有人提到,即使使用 3080 等旧硬件,用户在进行 AI 开发时也 没问题。
- Manus 积分系统面临审查:用户对 Manus 的积分结构表示担忧,有人认为它 与该产品的使用方式不兼容。
- 建议包括更慷慨的积分限制、按项目付费选项、积分结转、社区挑战、初创企业资助以及一次性构建包;一位用户强调,考虑到现状,很难有理由继续坚持使用该产品。
aider (Paul Gauthier) Discord
- Optimus Alpha 被誉为编程猛兽:OpenRouter 上的用户称 Optimus Alpha 为编程“猛兽”,因其编程能力和意图理解力(特别是提供相关文档时)而备受赞誉,并且会添加大量注释。
- 一位用户称赞了它的多步编程和注释功能。
- Gemini 2.5 性能不稳定:用户报告 Gemini 2.5 偶尔表现不佳,不产生输出或添加“愚蠢的注释”,即使使用相同的 Prompt,结果也不一致。
- 一些人推测 Google 可能会在高峰时段对模型进行“降智”,而另一些人则建议使用更清晰的 Prompt 或更便宜的第三方 API 来绕过官方速率限制并降低成本,例如使用 300 美元的 VertexAI 额度。
- code2prompt MD 文件:Aider 的秘密武器:用户建议将 code2prompt 与 Markdown (.md) 文档文件配合使用,以确保输出中始终包含相关的 Context,特别是在使用库时。
- 一位用户指出,他们提供了文档文件的完整路径和链接,并通过
Conventions.md文件明确告知模型,任何文件名中带有 “documentation” 的文件都不是实际运行的代码,而只是关于应用架构和结构的文档。
- 一位用户指出,他们提供了文档文件的完整路径和链接,并通过
- Aider 频道需要管理改革:成员们建议将 Discord 频道拆分为
aider-chat和offtopic,以改善新用户的第一印象,并将general频道集中在与 Aider 相关的讨论上。- 一些用户抱怨目前的
general频道“噪信比过高”,过多的脏话和离题的闲聊削弱了社区的核心宗旨。
- 一些用户抱怨目前的
- Gemini Pro 架构师模型:Aider 的秘诀:一位用户将 Gemini 2.5 Pro 作为架构师模型(architect model),将 3.7 作为编辑器模型(editor model)进行了基准测试,发现准确率下降了 2.7%,但编辑格式化(edit formatting)提升了 10%。
- 该用户发现,使用 Gemini 2.5 Pro 作为架构师并使用 3.7 作为编辑器,最终比单独使用 3.7 更便宜,每次测试成本不到 14 美元。
Latent Space Discord
- GPT-4.5 Alpha 观看派对引发热议:Latent Space 举办了 GPT 4.5 的观看派对,传闻该模型具有显著的 alpha 优势,详见 Discord。
- 一位用户分享了一个预热 GPT-4.5 Alpha 的 X 帖子 链接,并推测 GPT-4.1 在 GPT-4.5 之前发布,同时链接了一篇 The Verge 文章 和一段关于 GPT-4.1 的 YouTube 视频。
- 数据效率驱动 GPT-4.5:GPT-4.5 观看派对的参与者指出,数据效率(data efficiency) 现在是主要焦点,并宣称:“在生产我们能制造的最强模型时,不再受算力(compute)限制。”
- 其他人分享了一些链接,包括 Glean 的 Madhav Rathode 的一段视频,展示了他们如何通过领域相关的掩码(domain dependent masking)显著改进企业的 embeddings models。
- 压缩是 AGI 的关键:Sutskever 与 Solomonoff:参与者讨论了模型压缩(model compression)及其与泛化的关系,引用了 Ilya Sutskever 对该主题的看法。
- 对话引用了 Ray Solomonoff 的工作及其在算法概率和归纳推理方面的贡献,强调了压缩在实现 AGI 中的重要性,并提到了 Jack Rae 的类似观点。
- Agent2Agent 协议播客发布:一位成员推广了一集播客,讨论了 Google 的 agent2agent 协议、与 MCP 的竞争,以及 Google 未来可能对 Agent 进行的索引,详见 YouTube 上的讨论。
- 团队还争论了 reasoning models 是否与仅专注于 next token prediction 的模型有所不同,引用了 deepseekv3 与 deepseekr1 的对比,并引用了 Jeff Dean 的话:“我们可以从现有数据中挖掘出更多价值。”
- Kagi 的 Orion 浏览器赢得青睐:成员们对 Kagi 的 Orion 浏览器 表示兴奋,赞扬了其开发人员和整体设计。
- 一位成员幽默地宣称:“我们是 Kagi 的死忠粉。”
OpenAI Discord
- OpenAI GPT 据称获得了记忆功能:ChatGPT 现在声称在 2025 年 1 月之后会持久地将某些用户信息存储在长期记忆中,然而,关闭“参考聊天记录”将在 30 天内删除已记忆的信息。
- 一位用户指出这与他们的体验一致,而另一位用户分享了一张显示 Farewell GPT-4… 的截图。
- Google 的 Veo 2 悄然席卷视频领域:Google AI Studio 悄然推出了 Veo 2 视频生成,一些用户称赞其优于 Sora,但免费生成权限似乎极其有限。
- 一些用户报告称,通过 API 进行 Veo 2 生成的费用约为每秒 35 美分。
- 扩散模型 Mercury Coder 扰乱 DLLM 竞赛:Mercury Coder 是来自 Inception labs 的一款使用 Diffusion(扩散)而非 Autoregression(自回归)的 DLLM,据称比任何 IV 都快得多,并提供免费 API 使用,尽管其 Context Window 仅为 16k。
- 该模型源自其扩散架构的精确输出控制正受到积极关注。
- 解码 GPT-4o 的 Token 之舞:Plus 版 GPT-4o 的 Context Window 为 32k tokens;超过此限制可能会触发动态 RAG 方法或导致幻觉。
- 一位用户声称,即使在 Pro 版上限制也是 128,000 tokens,但它开始遗忘对话早期部分的时间比预期的要早得多,并建议用户在出现幻觉时创建新聊天。
- 用户思考 Prompt Engineering 的陷阱:成员们分享道,理解特定模型的特性需要体验不同的模型,并创建层级结构的 Prompt 以观察每个模型如何处理它们,并强调要明确你希望 AI 提供什么。
- 另一位成员警告了违反政策的风险,以及在使用外部网站时了解 ToS(服务条款)和使用政策的重要性,这可能会导致账号被封禁。
LM Studio Discord
- LM Studio 的 Prompt Preprocessor:最高机密:LM Studio 中使用 Typescript 编写的 Prompt Preprocessor 是一个尚未发布的秘密功能。
- 当被问及时,一名团队成员回答说“你什么都没看到”。
- Gemma 3 在生成图像方面表现挣扎:用户发现 Gemma 3 无法生成图像,尽管有说法称它可以,但它实际上会生成虚假的 Imgur 链接。
- 正如澄清的那样,Gemma 3 只能读取图像而不能生成图像,Google 的 Gemini 2.0 Flash experimental 和 2.5 Pro 可能具备图像生成能力。
- QAT 被阐明为 Quantization 的训练补充:一位用户询问 QAT 是否是减少 RAM 消耗的神奇方法。
- 回复澄清说,Quantization 是减少 RAM 使用的主要方法,而 QAT 是一种在量化形式下提高模型性能的训练方法。
- Gemini-Pro Context Window 让用户破费:一位用户在使用 Gemini-Pro-2.5-exp 模型后经历了账单冲击,这导致他们在没有意识到会产生费用的情况下切换到了 Gemini-Pro-2.5-preview。
- 该用户指出,巨大的 625k Context Window 花费了他们 150 美元,而如果使用带有缓存功能的 Sonnet 会便宜得多。
- M3 Ultra 性能受到质疑:一位用户分享了一个有争议的观点,认为 M3 Ultra 对于专业的 ML 和 LLM 工作来说物无所值,理由是初步测试显示在使用 MLX 运行 Deepseek r1 67B Q8 和 Q6 模型时,速度仅为每秒 10-13 tokens。
- 他们认为,配备两颗 Xeon Gold 处理器和 1TB RAM 的服务器能以更低的成本提供更好的性能,并质疑 M3 Ultra 在生产环境部署中的可扩展性。
Interconnects (Nathan Lambert) Discord
- 新款图像模型突围:一款采用 MIT license 的新图像模型发布,同时推出的还有新的 Moonshoot model,详见 X 上的这篇帖子。
- 一个关键细节是它可能违反了 Llama 的条款。
- Claude 额度价格飙升,工程师愤怒:用户开玩笑说 Claude credits 的成本不断上升,有人调侃改一个变量名就要花费 $40,并配图暗示需要更具成本效益的解决方案。
- Gemini app 也面临批评,用户觉得它很难用,更倾向于使用 AI Studio,因为它有更好的 grounding 且免费,声称 AI studio + grounding 效果好得多而且免费 lol。
- OpenGVLab 发布 InternVL-3:OpenGVLab 发布了 InternVL-3,这是一款结合了 InternViT 和 Qwen 的多模态模型,取得了令人印象深刻的结果,并有一篇描述其训练方法的非正式论文。
- 一位成员指出 NVDA 最近在开源许可下搞出了很多酷炫的东西,这可能也适用于 Qwen 的许可。
- Wildeford 在 OpenAI 员工反抗中现身:TechCrunch 的一篇文章 报道称,前 OpenAI 员工提交了一份法庭之友陈述 (amicus brief),反对公司向营利模式转型。
- 与此同时,Peter Wildeford 的帖子 再次浮出水面。
Perplexity AI Discord
- Gemini 2.5 Pro 登陆 Perplexity:Gemini 2.5 Pro 现已在 Perplexity 上线供 Pro 用户使用,并配合 Pro Search,目前正在征集与 Sonar、4o、Sonnet 3.7、R1 和 o3 等模型的对比反馈。
- 用户将 Perplexity 中的 Gemini 2.5 Pro 与 Google AI Studio 等原生应用进行对比后发现,原生版本性能更好,一位用户表示:我相信对于大多数模型来说,原生版本几乎总是更好。
- Perplexity 预告 Grok 3 集成:Perplexity 宣布即将在 Perplexity Pro 上支持 Grok 3,这是由 Aravind Srinivas 在 X 上披露的。
- 这暗示了针对 GPT-4.5 等其他模型观察到的高昂运营成本所采取的战略对策。
- Perplexity API 概览分享:Perplexity 联合创始人兼 CTO @denisyarats 于太平洋时间 4 月 24 日上午 11 点主持了 Perplexity API 的概览活动,通过此链接注册可获得 $50 的免费 API 额度。
- 该会议旨在让用户熟悉 Perplexity 的 API 功能,并鼓励集成与实验。
- Perplexity Android App:安全警报:Dark Reading 的一篇文章 报道了 Perplexity Android 应用中的 11 个安全漏洞。
- 漏洞包括硬编码的密钥和不安全的网络配置,尽管一些用户对每个漏洞的实际相关性存在争议。
- Pro 角色访问故障:订阅用户报告称,即使通过指定链接重新加入服务器,也很难获得 Pro User Discord 角色。
- 由于持续存在的故障,有时需要管理员干预来手动分配 Pro 角色。
GPU MODE Discord
- 来自源头的 CUDA 指导:一位成员请求关于在 Python/PyTorch 中使用 CUDA 的资源,另一位成员分享了他们最近关于该主题的 GTC talk (Google Slides)。
- 此外还有建议称,custom ops 和 load inline 应该能解决大多数相关问题。
- Triton 进军奥斯汀!:Triton 社区受邀参加 4 月 30 日在奥斯汀地区举行的 Meetup,注册地址为 https://meetu.ps/e/NYlm0/qrnF8/i。
- 另外,一位成员请求 Triton 的 GPU 编程资源,另一位成员推荐了官方的 Triton tutorials。
- AlexNet 的古老代码被发掘:2012 年原始的 AlexNet source code 已被找到,可在 GitHub 上获取,这让人们得以一窥催化深度学习革命的架构。
- 这使得 AI 工程师能够检查原始实现并学习当时使用的技术。
- A100 核心数限制计算:A100 的 64 FP32 cores(针对 4WS)限制了并行浮点加法,影响了性能。
- NCU assembly view 可以精准定位 warp stalls,而 FADD 指令中的循环携带依赖(loop-carried dependencies)会导致停顿。
- Runpod 的 ROCm 云服务遭到吐槽:用户发现 Runpod 实例限制了 GPU 时钟频率并屏蔽了 profiling,即使在 NVIDIA GPU 上也是如此。
- 一位用户表示 Runpod 的时钟频率波动极大,直言其为骗局;另一位用户指出,内存带宽将成为 Runpod 实例上 fp16 gemm 的瓶颈。
Cursor Community Discord
- Cursor 澄清基于用量的计费方式:开启基于用量的计费(usage-based pricing)后,用户可以在超出套餐包含额度后继续使用 fast requests,但在达到支出限额后将切换为 slow requests。
- 一位成员确认了这一理解并对计费说明表示感谢。
- DeepSeek v3.1 在实际使用中胜出:一位成员分享道,在实际使用中 DeepSeek v3.1 感觉比 v3 更聪明一点,并指出 benchmarks 往往夸大了模型的能力。
- 他们强调,实际使用比标准化 benchmarks 能更可靠地评估模型性能。
- Gemini API 密钥遇到间歇性 404 错误:用户报告 Gemini API keys 持续出现 404 errors,部分用户的问题已持续至少一小时。
- 其他用户则报告 Gemini 工作正常,表明该问题可能是间歇性的或具有地域局限性。
- Cursor 读取 PDF 需要 MCP Server:成员们讨论了在 Cursor 中读取 PDF 文件需要 MCP 的要求,并暗示 LLM 目前还不能直接读取 PDF。
- 一位成员建议使用现有的许多 ‘convert-shit-to-markdown’ MCP 解决方案来解决这一限制。
- Cursor Chat 在达到上下文限制时进入摘要模式:用户报告称,当单个聊天窗口过载时(不断在 Claude 3.7、Gemini 2.5 和 Claude 3.5 之间切换),Agent 最终会进入摘要模式。
- 聊天会自动总结,点击 ‘New Chat’ 会用摘要覆盖现有标签页。
Yannick Kilcher Discord
- DeepCoder 14B 亮相代码推理:Agentica 和 Together AI 发布了 DeepCoder-14B-Preview,这是一个通过分布式强化学习 (RL) 基于 Deepseek-R1-Distilled-Qwen-14B 微调的代码推理模型。
- 它在 LiveCodeBench 上实现了 60.6% 的 Pass@1 准确率,仅凭 140 亿参数就足以媲美 o3-mini-2025-01-031。
- KV Cache 蒸馏被认为极具挑战:有人建议在主 LLM 的 KV values 上蒸馏一个更便宜、更快的模型,用于 Prompt 预处理。
- 然而,这一想法被认为可能不切实际,因为 KV values 是模型特定的,且较小的模型使用的 Transformer blocks 较少。
- AlphaProof 通过 RL 证明数学题:AlphaProof 利用 RL 与 Lean 进行数学推理。
- 成员们正在思考 AlphaProof 在做出原创性数学发现方面的潜力。
- AWS 实地考察展示 Ultrascale Playbook:一个班级正准备进行 AWS 实地考察,并复习了 nanotron/ultrascale-playbook。
- 与此配套的还有几个指向 beautiful.ai 上 Ultrascale Playbook 的链接被分享。
MCP (Glama) Discord
- Enact Protocol 在 A2A 兴起之际引发辩论:成员们讨论了 Enact Protocol 是否会被 A2A 淘汰,并认为 Enact 更多是在与 Code Interpreters 竞争。
- 一些人提议 Enact 可以从集成带有 OpenAPI 转换器和语义搜索的 Agent 框架中受益。
- 语义工具调用 (Semantic Tool Calling) 将彻底改变 LLM 效率:讨论强调了语义工具调用是解决上下文过载的方案,即利用向量模型根据任务的语义相似性选择工具子集。
- 这使得传统的 ML 方法可以应用于工具分析,例如通过聚类检测相似工具,以及对工具进行分组以进行重排序 (Reranking)。
- 发布关于 A2A、MCP 和 Agent 索引的播客:一名成员分享了一期播客节目,讨论了 A2A 的影响、Google 对 Agent 的潜在索引以及其他相关话题,并指出其与当前讨论的相关性。
- 该播客旨在保持高水准且易于理解,以激发超越典型技术讨论的灵感。
- MCP Validator 开源以促进实现一致性:MCP Protocol Validator 已开源,通过提供全面的测试套件来弥合各种 MCP Server 实现之间的差距,可在 GitHub 获取。
- 该工具旨在确保实现方案符合 2024-11-05 和 2025-03-26 MCP 版本的要求,并包含由 Janix.ai 开发的 HTTP 和 STDIO 传输的参考实现。
- Cloud Inspector 与你的服务器对话:一个云端托管的 MCP Inspector 已上线,无需本地设置即可测试 SSE 和 Streamable HTTP 服务器,访问地址为 inspect.mcp.garden。
- 该平台还包含完整的聊天支持,允许用户直接与远程 MCP Servers 交互;详见 X 上的公告。
Eleuther Discord
- GPT4.o 驱动流量:一位新用户在尝试了朋友推荐的 GPT4.o model 后找到了该 Discord 服务器。
- 这突显了 LLM 根据 AI 推荐驱动社区增长和引导新用户的潜力。
- KL vs CE Loss 对决:一位用户报告了其模型中的重复问题,另一位用户建议在 KL loss 中加入 CE,以尝试减少重复。
- 有人指出,如果数据是几何分布的,坚持使用 KL 更合适,这会使 CE 失效。
- RWKV 在 Lambada 上表现出色:RWKV 架构在 Lambada 数据集上达到了性能对等,匹配了其蒸馏来源 Qwen2.5-7B-Instruct 的表现。
- 然而,频道内指出其 MMLU 性能仍然相对较低。
- 使用 Muon 揭示 Transformer 扩展秘密:一位成员分享了使用 Muon 库的见解,即在 Transformer 每个 block 的最后一个线性层上添加零初始化的可学习逐通道缩放(选项 A),会导致主路径激活 RMS 增长变慢。
- 这一见解与最后一层权重矩阵的零初始化(选项 B)进行了对比,有助于理解扩展动力学(scaling dynamics)。
- 字符串匹配拖累 GPTs:一位成员对 GPTs agents 主要在全量数据集上使用字符串匹配表示失望。
- 这引发了对仅依赖字符串匹配局限性的担忧,尤其是当更先进的技术可以提供更优越的性能时。
Modular (Mojo 🔥) Discord
- SIMD Store 需要特别对待:在对 tensor 使用 SIMD 时,需要使用
store成员函数,而不是通过__setitem__直接赋值。- 成员们澄清说,store 操作必须与标量操作区别对待。
- 基准测试讨论:必须使用 @parameter:传递给
benchmark.run的函数需要@parameter装饰器,并且预期不返回任何内容。- 在一位用户使用
benchmark.bench_function遇到 cannot use a dynamic value in call parameter 错误消息后,这一点得到了澄清。
- 在一位用户使用
- 缺失的 Magic Lock 文件:运行
magic init AdventOfCode --format mojoproject并不总是创建 lock 文件,但运行magic run mojo --version会强制创建它。magic.lock文件的缺失会导致依赖管理的不一致,并可能影响 Mojo 项目的可复现性。
__rand__身份危机:它不是用于随机数的:__rand__用于&运算符,而不是用于生成随机数,且.rand方法已在 nightly 版本中移除。- 相反,应使用
random模块中的方法来生成随机数。
- 相反,应使用
- Mojo 项目异常:代码在一个项目中运行正常,在另一个中失败:一段涉及
@value struct Foo(StringableRaising)和String(foo)的代码在一个 Mojo 项目中可以工作,但在另一个项目中抛出 “no matching function in initialization” 错误。- 删除有问题项目中的
magic.lock文件解决了该错误,这表明问题很可能是由于不同的 Mojo 版本或由magic.lock文件管理的依赖冲突引起的,这意味着 “当时可能拉取了不同的版本”。
- 删除有问题项目中的
Nomic.ai (GPT4All) Discord
- L1-Qwen-1.5B-Max 设置思考长度:L1-Qwen-1.5B-Max 模型 支持设置思考长度,正如 论文 中详述的那样,即使不提示最大 Token 数,该模型也表现得更好、更清晰。
- 一位用户正在从 HuggingFace 下载 L1 版本 以供立即使用。
- Nomic Embed Text 保持领先地位:尽管评估了多个生成式 LLM,一位成员仍然青睐 Nomic 的
nomic-embed-text-v1.5-Q8_0.gguf。- 针对如何识别版本的问题,一位成员分享了 Nomic 的 HF 页面。
- LLM 查询日志产生销售价值:一位用户在数据库中记录 LLM 查询和响应 已超过一年,发现过去的响应非常有价值,尤其是在销售用途方面。
- 他们还创建了一个 Emacs Lisp 函数 来插入 Embedding,参考了 此处 找到的一个函数。
- 系统提示词引发 Embedding 讨论:成员们讨论了 LM-Studio/ALLM 等 Embedding 模型是否默认使用 System Prompts,一位成员认为可能不会使用来自 LLM 的 System Prompt。
- 在 Nomic.ai 的背景下,该用户确认他们 没有给 Embedding 模型提供任何 System Prompt,也没有这样做的选项。
- Re-ranker 模型引起关注:一位成员询问了 Re-ranker 模型 的工作原理,以及是否只有向 LLM 提出的问题才重要,同时参考了一段关于前缀设置的 YouTube 视频。
- 该视频引发了关于在查询前添加
search_document:CHUNK_OF_TEXT_FOLLOWS和search_query:FOLLOWED_BY_QUERY前缀的讨论,同时也提到所有的 Embedding 必须重新索引。
- 该视频引发了关于在查询前添加
HuggingFace Discord
- HF 模型现可在 ROCm 上本地运行:通过观看 这段视频,用户现在可以在 ROCm 上本地运行 0 day Hugging Face 模型。
- 这使得模型可以在不依赖外部服务器的情况下进行本地操作。
- Lightning AI 推动聊天模板发布:HuggingFace 团队最近在 HF 上发布了新的 聊天模板 (chat templates),以简化对话式 AI 的开发。
- 旨在简化交互式聊天机器人界面的创建。
- Transformer 面临数据洪流困境:一位成员正在抓取 100 万条手表记录,并计划微调(可能是 Mistral7B)一个 Transformer 以更好地理解上下文,但询问是否会导致模型过拟合。
- 目标是让模型准确识别手表的规格和特征,例如
Patek 2593 Tiffany stamp dirty dial manual wind。
- 目标是让模型准确识别手表的规格和特征,例如
- ReID 解决目标追踪难题:一位成员询问了在不同摄像机画面中对同一物体进行 目标追踪 (object tracking) 的正确术语。
- 另一位成员澄清说,合适的术语是 ReID (Re-Identification,重识别)。
- SAM 能否助 YOLO 一臂之力?:一位成员建议利用 Segment Anything Model (SAM) 作为 YOLO 的替代方案,通过向其输入 YOLO 的边界框输出来识别垂直电线杆。
- 另一位成员曾使用 SAM 进行标注,但他们需要自动化,排除需要用户交互进行电线杆选择的情况,这可以通过微调 SAM 来实现。
Nous Research AI Discord
- Control-Vectors 导致模型不稳定:一位成员询问关于使用 vgel’s control-vectors 来增强 DeepHermes-Mistral-24B 等模型以适应特定用例的问题。
- 另一位成员提到,应用 control vectors 通常被证明是不稳定的,并引用了关于该主题的 一篇相关 X 帖子。
- DisTrO 细节仍处于保密状态:一位成员询问了关于 distro.nousresearch.com 上运行的 DisTrO 技术报告详情,寻求有关数据集、GPU/参与者数量以及 benchmark 细节的信息。
- 另一位成员回答说,目前还没有发布技术报告,因为该运行的目标仅仅是展示 DisTrO 的跨互联网功能,而没有优化最终模型的质量,训练量限制在 100B tokens。
- Psyche 的 Testnet 热度开始:继 DisTrO 之后,一位成员分享了关于分布式训练的细节,指出每个节点拥有 8xH100s,他们运行了 8-14 个节点;评估代码已上传至 GitHub。
- 即将进行的 Psyche testnet 运行 旨在利用 DisTrO,承诺提升速度和带宽,并公开数据集、节点等信息。
- Azure API 偶尔可用:一位成员报告说,在早些时候出现一些未知问题后,Azure API 现在可以工作了。
- 他们注意到
<think>追踪信息在reasoning_content中返回,并建议这应该被记录下来,因为每个 API 的实现都略有不同。
- 他们注意到
- Azure API Token 限制导致崩溃:一位成员在通过 Azure API 请求过多 token 时收到了 400 错误。
- 他们认为
<think>标签可能只在响应被 token 限制截断时出现,这解释了格式错误的追踪信息。
- 他们认为
tinygrad (George Hotz) Discord
- Pathways 论文引发 tinygrad cloud 幻想:讨论围绕 Pathways 论文 及其客户端-服务器架构展开,暗示了潜在的 tinygrad cloud 实现,特别是 PATHWAYS 如何使用客户端-服务器架构,使 PATHWAYS 的运行时能够代表多个客户端在系统管理的计算岛上执行程序。
- 一位成员强调 tinygrad 是单进程的,即使在 scale-out(横向扩展)时也将保持这种方式。
- Tinygrad 旨在虚拟化 GPU:一位成员将 Pathways 论文解读为从根本上是一种编排方法,并提议 tinygrad 应该虚拟化 GPU。
- 目标是允许保证 GPU 资源的使用,标志着向创新资源管理的转变。
- TinyGrad 利用位置无关代码 (PIC):讨论强调了 TinyGrad 对 位置无关代码 (PIC) 的利用,其中地址是相对于程序计数器的。对
.data和.rodata段的地址进行修补,以考虑加载时的内存放置。- 目标是合并
.text和.data段,修补正确数据段偏移的地址,从而可能实现无需 OS 的裸机 TinyGrad 实现。
- 目标是合并
- ELF 加载器助力共享对象处理:TinyGrad 中的 ELF 加载器 负责在 AMD/NV 中加载共享对象 (
.so/.dll),并将来自 Clang/LLVM 的对象文件 (.o) 转换为扁平的 shellcode。- 虽然在加载共享对象期间已知从
.text到.data的偏移量,但对象文件 (.o) 需要由链接器处理重定位(relocation)。
- 虽然在加载共享对象期间已知从
Torchtune Discord
- Torchtune 添加 Llama4 微调支持:Torchtune 现在支持 Llama4 的全量微调,配置可在此处 here 获取。
- 计划在未来版本中推出 LoRA 配置、改进的多模态支持和性能提升。
- Scout 模型首次亮相:Scout 模型(17B x 16E,总参数量 109B)现在可以在单节点上进行微调,或者在支持 2D 并行(TP + FSDP)的多节点上进行微调。
- 旨在为 GPU 中产阶级 的工程师提供支持。
- Maverick 模型开放微调:Maverick 模型(17B x 128E,约 400B 参数)现在可进行全量微调,但需要多节点环境。
- 作为 Torchtune 中首批 MoE 模型,请求用户提供反馈。
running_loss.detach()修复将应用于其他 Recipes:团队解决了一个未知问题,建议在detach分支上使用running_loss.detach()进行快速修复。- 提醒工程师将同样的修复应用到其他 recipes。
- 开发者解决 BitsAndBytes Mac 问题:有成员报告在 macOS 上
pip install -e '.[dev]失败,因为bitsandbytes>=0.43.0没有为该平台提供二进制文件,并建议降级到bitsandbytes>=0.42.0的变通方法。- 该变通方法引用了 此 issue,其中指出 0.42 之前的版本标签存在错误。
LlamaIndex Discord
- FunctionCallingAgent 需要 OpenAI 的 JSON 响应:一位成员寻求使用 FunctionCallingAgent 生成特定 JSON schema 的响应,并询问如何使用 OpenAI 的 structured response 功能。
- 建议的变通方法包括添加一个作为响应类的工具,并设置
tool_choice="required",因为结构化输出本质上就是工具调用,这使得混合工具调用和结构化输出变得困难。
- 建议的变通方法包括添加一个作为响应类的工具,并设置
- Llama Cloud API 抛出 404 错误:用户报告在使用 fast mode 从文档中提取值时,Llama Cloud API 遇到 404 错误,具体 API URL 为
https://api.cloud.llamaindex.ai/v1/extract。- 经确定使用的 API 端点不正确,该成员被引导至 正确的 API 文档 和 API 参考。
- 从权重查询 FaissVectorStore 索引:用户尝试使用从权重恢复的 FaissVectorStore 来创建可查询的 VectorStoreIndex。
- Faiss 文档 展示了如何启动此过程,尽管示例是 Python 而非 Typescript。
- 寻求在 RAG Agent 中实现智能元数据过滤:一位成员寻求关于在标准的 RAG pipeline 中根据用户查询实现智能元数据过滤的建议。
- 他们正在寻求如何在不重新创建后续 API 调用中的 embeddings 的情况下实现这一用例。
Notebook LM Discord
- NotebookLM 麦克风故障:用户报告 NotebookLM 在交互模式下无法识别电脑的默认麦克风,尽管麦克风本身工作正常。
- 有用户建议检查 OS 和 浏览器权限,并首先测试不连接外部 USB 设备的情况。
- NotebookLM 用户对上传源错误感到困惑:用户报告在 NotebookLM 中看到上传源出现 红色 “!” 标志,即使 PDF 文件 小于 500kb。
- 另一位用户建议将鼠标悬停在 “!” 标志上,因为源可能是空的或需要时间加载,尤其是在处理某些网站时。
- Steam 钓鱼尝试流传:用户分享了一个看似 $50 礼品 的链接,但它是一个 钓鱼链接,会重定向到虚假的 Steam Community 网站。
- 警告用户不要点击可疑链接,并核实要求输入登录凭据的网站 URL。
Cohere Discord
- Cohere 的 Java API 让用户备受网络错误困扰:一名成员报告在使用 Java API 示例时遇到了
Network error executing HTTP request。- 该错误在不同的 Prompt 下持续出现,例如“为初学者厨师推荐快速餐食”,这表明是一个系统性问题,而非特定 Prompt 引起。
- 用户请求 Java API 调试的代码片段:针对 Java API 中报告的
Network error,一名成员请求提供代码片段以协助调试。- 该成员询问用户是否是逐字逐句地运行示例,以探查是否存在潜在的配置错误或偏离文档用法的情况。
- Cohere 用户达到提问模糊度的巅峰:一名成员开玩笑地提到另一个人的问题“有人开过车吗”,强调了查询中具体性的重要性。
- 该成员讽刺地问道:“还能再模糊一点吗?”,突显了最初问题的荒谬性。
DSPy Discord
- DSPy 模块学习特定 Persona:一名成员询问如何训练一个 DSPy 模块 来体现特定的 Persona(角色),旨在优化 Agent/模型的 System Prompt。
- 目标是将这个专门的模块作为输入传递给其他模块,从而生成与定义角色相一致的内容。
- AI Agent 专家寻求 DSPy 合作:一名成员提议合作,并提到了在 AI Agents & Reasoning 框架方面的经验,如 LangChain、LangGraph、ElizaOS、AutoGPT 和 ReAct。
- 他们还列举了在 Large Language Models(如 GPT-4.5、DeepSeek-R1、Claude 3.5)以及包括 PyTorch 和 TensorFlow 在内的 Machine Learning Frameworks 方面的专业知识。
LLM Agents (Berkeley MOOC) Discord
- 完成 LLM Agents 课程并获得证书:一名学生询问是否可以在官方开始日期之后开始学习并完成 LLM Agents 课程并获得证书,另一名成员给出了肯定的回答。
- 该成员引导学生访问 课程网站 以获取所有必要的材料和截止日期。
- 在截止日期前完成 LLM Agents 课程:一名学生询问他们是否可以在截止日期前完成 LLM Agents 课程并获得证书。
- 一名成员确认所有材料都可以在 课程网站 上找到。
MLOps @Chipro Discord
- 活动定于明天举行:一名成员发布提醒,称明天将举行一场活动。
- 该成员希望在活动中见到其他成员,并暗示不参加将是令人遗憾的。
- 关于明天活动的另一个提醒:发布了关于明天举行活动的另一个提醒。
- 第二个提醒重申了活动将在明天举行,强调了其重要性。
Codeium (Windsurf) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。
Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。
第二部分:分频道详细摘要与链接
完整的频道逐项细分内容已针对邮件进行截断。
如果你喜欢 AInews,请分享给朋友!预谢支持!