ainews-not-much-happened-today-9938

今天没发生什么事。

GPT-4o 因其在代码编写、指令遵循和自由度方面的提升而受到称赞,成为领先的非推理类编程模型,在编程基准测试中超越了 DeepSeek V3Claude 3.7 Sonnet,尽管它在性能上仍落后于 o3-mini 等推理模型。此外,报告指出了其在图像生成政策合规性方面的担忧,并正努力提高遵循度。

Gemini 2.5 Pro 则因其先进的音视频理解能力、长上下文处理能力以及与 Cursor AIWindsurf AI 等平台的集成而备受瞩目。在 AI 基础设施发展方面,Together AIHypertec Group 达成合作伙伴关系以交付大规模 GPU 集群,同时 CoreWeave 的 IPO 也因推动了 AI 基础设施的进步而受到赞誉。预计 GPU 和 TPU 的使用量将大幅增长。

“GPT-4o 的透明度和背景生成功能”以及“Gemini 2.5 Pro 在 Simple-Bench AI 解释测试中得分超过 50%”是本次更新的关键亮点。

#coding #instruction-following #image-generation #policy-compliance #long-context #audio-processing #video-processing #gpu-clusters #ai-infrastructure #api-access gpt-4o deepseek-v3 claude-3.7-sonnet o3-mini gemini-2.5-pro openai deepseek anthropic google-deepmind togethercompute hypertecgroup coreweave cursor-ai windsurf-ai

平静的一天

2025年3月27日至3月28日的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号 和 30 个 Discord(230 个频道,13422 条消息)。预计节省阅读时间(以 200wpm 计算):1217 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

我们今天预发布了 2025 年 AI 工程现状调查,填写调查即可参加 1000 美元 Amazon 礼品卡抽奖,并让您的声音在 AI 工程现状报告中被听到!


目录频道摘要已移至此邮件的网页版:


AI Twitter 回顾

以下是按主题分类的推文摘要:

GPT-4o 模型性能与特性

  • GPT-4o 改进的代码编写和指令遵循能力受到赞赏@sama 强调了 新版 GPT-4o代码编写、指令遵循和自由度 方面表现尤为出色。@kevinweil 表示赞同,称 GPT-4o 的更新非常强劲,并鼓励用户尝试
  • GPT-4o 相对于其他模型(特别是在代码和推理方面)的表现评估@ArtificialAnlys 报告称,GPT-4o(2025年3月版)现在是领先的非推理代码模型,在 Artificial Analysis 代码指数 中超越了 DeepSeek V3Claude 3.7 Sonnet,并在 LiveCodeBench 中排名 第一。然而,它 仍然落后于像 o3-mini 这样的推理模型
  • 对政策合规性的担忧@joannejang 指出,图像生成拒绝通常是由于模型对政策产生了幻觉。他们请求用户 在他们努力让模型遵循政策的过程中保持耐心,并建议如果遇到问题,请 在新的对话中重试
  • @nrehiew_ 假设 4o 的图像生成工作原理是通过编码器直接嵌入图像,使用 AR(自回归),然后基于 AR 处理后的隐藏状态进行扩散;所谓的 模糊效果是一种心理战(psyop),并且 没有使用 VQ
  • GPT-4o 的透明度和背景生成功能受到关注@giffmana 注意到可以要求 GPT-4o 图像生成透明背景,称这是一个被吉卜力化(Ghiblification)热潮淹没的酷炫功能。

Gemini 2.5 Pro 模型性能与能力

  • Gemini 2.5 Pro 在音频和视频理解方面的能力受到称赞@_philschmid 报告称,Gemini 2.5 Pro 具有 改进的长上下文能力,可以 通过单个请求处理约 1 小时的视频,并指出 YouTube 链接已集成到 AIS 和 API 中。该模型还可以 在单个请求中处理约 2 小时的播客转录
  • Simple-Bench AI 解释性能@scaling01 提到 Gemini 2.5 Pro Thinking 在 AI Explained 的 Simple-Bench 上得分约为 51.6%,是 第一个得分超过 50% 的模型
  • 可访问性与使用@_philschmid 宣布用户可以 自带 API Key 到 @cursor_ai 来使用 Gemini 2.5 Pro,但指出 目前的速率限制(rate limits)较低。他们还提到 Gemini 2.5 Pro 已在 @windsurf_ai 中可用。

AI 基础设施与算力

  • GPU 使用量预计将显著增加@saranormous 表示 他们将使用所有的 GPU(和 TPU)
  • Together AI 和 Hypertec Group 合作交付大规模 GPU 集群@togethercompute 宣布与 @HypertecGroup 建立合作伙伴关系,以交付 数千个 GPU 的集群,强调 高带宽网络、先进冷却技术和强大的容错能力
  • CoreWeave 的 IPO@weights_biases 祝贺 @CoreWeave 成功 IPO,强调了他们在推动 AI 基础设施极限方面的成功。

AI 工程与开发

  • 关于传统编程语言优于 vibe coding 的担忧@lateinteraction 强调了保留传统编程语言中有用方面的重要性,例如定义函数、控制流和模块,而不是屈服于 “vibe coding”。
  • 开源在医疗 AI 中的重要性@iScienceLuvr 强调了开源在医疗 AI 中的关键作用,因为需要透明度,且将敏感患者数据发送到云端 API 是不切实际的
  • 强调 ASI 的可扩展解决方案@teortaxesTex 指出了一份关于构建 ASI 可扩展解决方案的声明,重点关注通过投入更多计算和数据资源来实现改进。
  • Langchain 与 Redis 集成@LangChainAI 宣布通过 langgraph-checkpoint-redis,你可以将 @Redisinc 强大的内存能力引入你的 LangGraph agents。

公司与产品发布

  • Keras 新主页上线@fchollet 宣布为庆祝 Keras 成立 10 周年,推出了全新的主页
  • C.H. Robinson 使用 LangGraph 节省时间@LangChainAI 报道称,C.H. Robinson 正在使用基于 LangGraph, LangGraph Studio, 和 LangSmith 构建的技术来自动化日常邮件交易,从而每天节省 600 多个小时
  • MIT NLP 小组账号上线@lateinteraction 宣布 @nlp_mit 账号上线,旨在展示来自 MIT 实验室的最新 NLP 研究成果。
  • Perplexity AI 线程基础设施问题@AravSrinivas 提到 Perplexity AI 正在经历一些基础设施(infra)挑战,这就是导致历史线程无法加载的原因。

幽默/梗

  • 各种幽默推文:几位用户分享了幽默内容,包括 @Teknium1 发布了带有图片的 “Jensen rn”@teortaxesTex 发布了习在第三次世界大战去世后转生到平行世界成为正太的内容;@mickeyxfriedman 建议如果你在 ChatGPT 中生成异性的自己并觉得平平无奇,那你可能应该降低你的择偶标准;以及 @_philschmid 指出 @cursor_ai 刚刚对他们进行了 Rickroll。

AI Reddit 回顾

/r/LocalLlama 回顾

主题 1. 逆向工程 GPT-4o:架构洞察与推测

  • 通过 Network 标签页对 GPT-4o 图像生成进行逆向工程——这是我的发现 (Score: 599, Comments: 43): 作者通过检查网络流量研究了 GPT-4o 的图像生成过程,发现后端返回的中间图像表明可能存在一个多步流水线(multi-step pipeline)。他们推测该模型是使用了 Diffusion 过程还是 Autoregressive 方法,并指出 OpenAI model card 将其描述为一个 Autoregressive 模型。作者引用了 OmniGen 论文 作为对 GPT-4o 能力的潜在解释,强调其使用了基于 Transformer 的架构,该架构能够随高质量数据和计算能力的提升而良好扩展。
    • 关于 GPT-4o 模型是使用 Diffusion 模型 还是 Autoregressive 模型 存在争议。一些评论者推测它可能采用了带有 Diffusion 模型的层次化解码器(hierarchical decoder)来处理像素级细节,而另一些人则认为它使用 Autoregressive 方法,通过以复杂方式预测 Token 序列来增强图像生成。
    • 讨论了开源竞争对手达到 GPT-4o 质量水平的潜力,一些人预计中国竞争对手可能会在一年内实现这一目标。然而,其他人认为开源模型可能要到 2025 年底才能赶上,并强调了拥有一个类似于 LLM 领域中 LLaMA 的开源图像模型的重要性。
    • 评论者对个人逆向工程工作的价值表示怀疑,指出更广泛的学术界和工业界(尤其是中国)可能正在进行深入分析。人们对该模型访问互联网和利用高质量数据的能力是否比 CLIP/T5 等本地文本编码器具有显著优势表现出浓厚兴趣。

主题 2. MegaTTS3 的语音克隆:质疑与安全担忧

  • 来自字节跳动的新 TTS 模型 (Score: 143, Comments: 19): ByteDance 发布了 MegaTTS3,这是一款新的文本转语音模型,其语音克隆功能引发了争议。讨论集中在伦理影响以及该技术在创建未经授权的语音副本方面可能存在的滥用。
    • MegaTTS3 的特性与局限性:该模型拥有 0.45B 参数轻量化效率双语支持以及可控的口音强度。然而,由于“安全问题”,WaveVAE 编码器无法用于本地语音克隆,这引发了对其“超高质量语音克隆”虚假宣传的批评。
    • 伦理与安全担忧:人们对不发布语音克隆软件的“安全原因”表示怀疑,许多人认为这只是为了数据收集以改进其模型的幌子。批评者认为,鉴于 AI 语音克隆技术的广泛普及,这种做法与伦理考量相悖。
    • 社区反应与批评:用户对语音克隆能力的误导性宣传表示沮丧,并质疑为训练目的而提交数据的伦理问题。一些人将“安全”声明视为通过收集用户数据进行进一步训练的间接变现策略。

主题 3. Qwen-2.5-72b:引领开源 OCR 革命

  • Qwen-2.5-72b 现已成为最佳开源 OCR 模型 (Score: 119, Comments: 14): Qwen 2.5 VL (72b 和 32b) 模型已脱颖而出,成为领先的开源 OCR 模型,在 JSON 提取方面实现了约 75% 的准确率,与 GPT-4o 相当。72b 模型的表现略优于 32b 模型(高出 0.4%),且两者都超过了 mistral-ocr 模型 72.2% 的准确率。令人惊讶的是,尽管 Gemma-3 (27B) 的架构基于高性能的 Gemini 2.0,其得分仅为 42.9%。基准测试数据和方法论可在 GitHubHugging Face 上获取。
    • Ovis2 模型尽管在 OCRBench 上处于领先地位且参数量显著更少(少 18 倍),但未被纳入讨论,这表明人们对其相对于 Qwen 模型的表现可能存在兴趣。
    • 许多人对来自 Hugging FaceolmOCR-7B-0225-preview 模型的表现感到好奇,该模型以更高效的 VRAM 利用率著称,凸显了市场对平衡性能与资源消耗的模型的需求。
    • Qwen 2.5 VL 32B 模型已更新,与较旧且近期未获更新的 72B 模型相比,显示出显著的性能提升。此外,32B 模型在写作能力上也优于原生 Qwen 模型。

其他 AI Subreddit 汇总

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding

我们的流水线(pipelines)挂了…


AI Discord 汇总

由 Gemini 2.0 Flash Thinking 提供的摘要之摘要

主题 1. GPT-4o 统治排行榜并引发辩论

  • GPT-4o 跃升至 Arena 第 2 名,编程实力得到证实:最新的 ChatGPT-4o (2025-03-26) 模型在 Arena 排行榜上飙升至 第 2 位,超越了 GPT-4.5,并在 Coding(编程)和 Hard Prompts(困难提示词)分类中并列 第 1。用户注意到其性能有显著飞跃,且与之前的模型相比成本降低了 10 倍,尽管 API 快照的价格差异引起了一些困惑。
  • 尽管有基准测试背书,GPT-4o 的编程技能仍评价不一:虽然基准测试将 Gemini 2.5 Pro 定位为领先的非推理模型,但一些用户发现 GPT-4o 在编程任务中表现更优,特别是在指令遵循和代码生成方面。关于 GPT-4o 的高排名是源于针对特定响应风格的专门训练,还是源于原始性能,争论仍在继续。
  • GPT-4o 揭晓为自回归图像模型GPT-4o 被证实采用 Autoregressive(自回归)方法进行图像生成,这标志着一种直接从文本提示词创建图像的新颖方法。有推测认为该模型为了提高效率,复用了 image input 和 image output tokens

主题 2. DeepSeek V3 和 Qwen2.5-Omni 成为强力竞争者

  • DeepSeek V3 在 SWE-bench 上编程表现优于 GPT-4o:新的 DeepSeek V3 0324 模型在编程实力方面获得认可,据报道在 SWE-bench 基准测试中超越了 GPT-4o R1。数据表明 DeepSeek V3 在非推理编程任务中超过了 Claude 3.7 Sonnet,成为该领域的领先模型。
  • Qwen2.5-Omni:Meta 的多模态力作登场Qwen2.5-Omni 作为 Qwen 系列的最新旗舰模型发布,是一款端到端的多模态模型,能够处理文本、图像、音频和视频,并提供实时流式响应。用户可以在 Qwen Chat 测试 Qwen2.5-Omni,这标志着向真正通用的 AI 模型迈出了重要一步。
  • 紧随 GPT-4o 步伐,DeepSeek 融合 Diffusion 与 TransformersDeepSeek 正在采用类似于 GPT-4o 的多模态架构,结合了 Diffusion 和 Transformers。这种此前在视觉模型中出现的方法,预示着多模态 AI 开发的一个日益增长的趋势。

主题 3. 基础设施问题和用户沮丧情绪困扰 AI 平台

主题 4. 增强型 AI 开发工具与技术涌现

  • LM Studio 0.3.14 发布细粒度多 GPU 控制功能LM Studio 0.3.14 为多 GPU 配置引入了高级控制,允许用户微调 GPU 分配策略并更有效地管理资源。新的键盘快捷键(Ctrl+Shift+HCmd+Shift+H)提供了对 GPU 设置的快速访问。
  • Aider 的新 /context 命令实现代码库上下文管理自动化Aider 引入了 /context 命令,该命令可根据用户请求自动识别并向聊天中添加相关文件。这一功能简化了上下文管理,尤其是在大型代码库中,为开发者节省了时间和精力。
  • DSPy 框架提倡声明式编程,取代脆弱的 PromptingDSPy 作为一个用于对语言模型进行“编程”而非依赖传统 Prompting 的框架而受到关注。它允许使用 Python 代码和算法快速迭代模块化 AI 系统,以优化 Prompt 和模型权重,旨在实现更稳健、高质量的 AI 输出。

主题 5. 伦理考量与 AI 安全仍是核心


PART 1: High level Discord summaries

Manus.im Discord Discord

  • 用户对 Manus 新积分系统表示愤怒:用户对新的积分系统(Credit System)感到沮丧,一些人估计体面的使用强度下成本可能达到 $500/月,而且 1000 个免费积分消耗极快,即使任务失败也会扣分,详情见 manus.im/help/credits
    • 社区指出,“从基于任务到基于积分的转变确实让人感到突兀,尤其是这并非原始 Beta 测试流程的一部分”。
  • Manus 农场构思替代能源:一位成员建议 Manus 可以开发廉价的可再生能源,如熔盐、热能或太阳能,为自己的 GPU 农场供电以降低成本,并可能将其设在沙漠中。
    • 该成员提议使用飞轮作为储能装置,以保持农场在夜间以最高效率运行。
  • Manus 考虑使用像 Deepseek 这样更便宜的 AI 模型:社区正在讨论使用像 DeepseekQwen 这样更便宜的 AI 模型来代替仅使用 AnthropicClaude,以降低运营成本。
    • 目前尚未说明 Manus 是否会允许其他 AI 集成。
  • 学生利用 Manus AI 在考试中作弊:学生们将 ManusKimiDeepseek 结合使用,上传研讨会和讲座文件,要求 AI 记忆这些内容以备考,一些人在作业中获得了 81/100 的分数。
    • 一些用户想知道,如果帮助 AI 为学校作弊,是否违反了服务条款。
  • UI 设计被赞誉为简约的天才:多位成员称赞了 Manus 的 UI 设计,表示该设计非常出色、易于使用、简洁且符合现实世界的概念。
    • 一位用户表示:“让 Manus 感觉如此惊艳的不仅是得到的结果,还有任务的理念与现实世界概念的高度契合。这种简单性堪称天才。”

Perplexity AI Discord

  • Perplexity AI 服务器遭受冲击:多位用户报告了宕机以及历史记录/空间(Spaces)消失的情况,引发了幽默的调侃和挫败感,官方状态页(status.perplexity.com)缺乏及时的更新。
    • 用户建议建立一个自动化的用户报告宕机系统和主动通知,以应对这条推文中提到的基础设施挑战。
  • DeepSeek AI 表现不佳:成员们对 DeepSeek AI 表示失望,理由是它在处理复杂指令时表现吃力,且倾向于产生“不必要的术语”。
    • 用户将其与更优秀的数学应用进行了对比,突显了 DeepSeek AI 在解决实际问题上的短板。
  • Claude AI 的上下文窗口受到质疑:围绕 Claude AI 相对于 Gemini 和 ChatGPT 的上下文窗口(Context Window)限制展开了讨论,许多成员注意到了 Claude 的局限性。
    • 成员们一致认为,与竞争对手(尤其是 Gemini)相比,Claude 的上下文窗口限制特别明显。
  • 通过 T-Mobile 获取免费 Perplexity Pro:用户交流了通过 T-Mobile 和 Revolut 促销活动获取免费 Perplexity Pro 订阅的方法。
  • Sonar API 存在 Llama Index RAG 集成问题:一位用户询问如何有效地将 Llama Index RAG 上下文传递给 Perplexity Sonar 模型,寻求关于利用索引对象的建议。
    • 该用户还质疑 API 中的 Deep Research 功能是否能与 perplexity.com 版本保持一致,并指出感知到的性能差距,同时提到 Sonar API 有时会遗漏引用(Citations)。

Cursor Community Discord

  • DeepSeek 3.1 潜入 Cursor:一位 Cursor 团队成员提到 DeepSeek 3.1 应该会在 12 小时内集成到编辑器中,但定价细节尚未披露。
  • Cursor 在数据库灾难中陷入停滞:由于其基础设施内的数据库部署问题,Cursor 经历了全服务中断,导致 Chat 和 Tab 等 AI 功能以及常规服务受阻。
    • 几小时后,问题得到解决,他们更新了 Cursor Status
  • 人形机器人热度升温:成员们讨论了人形机器人的实用性,观点包括将其视为做饭和清洁助手,以及对数据隐私和遥测的担忧。
    • 一位成员假设 AGI 将从机器人技术中诞生,先在虚拟环境中发展,然后再在现实世界中体现。
  • @Codebase 标签功成身退:用户注意到 @Codebase 标签被移除,工作人员澄清它已被一种类似的扫描当前索引项目的方式取代,如 changelog 中所述。
    • 这引发了关于 token 限制、定价模型以及在 AI 编程工具中平衡便利性与控制权的讨论。

LMArena Discord

  • O1 Pro 即将登上排行榜?:成员们讨论了 O1 Pro 加入排行榜的可能性,推测 OpenAI 可能会承担费用以展示其在高价位下的能力。
    • 然而,一些成员对其排行榜表现和延迟表示怀疑。
  • GPT-4o 的编程能力引发争议:成员们在最近的更新后讨论了 GPT-4o 的编程能力,一些人注意到其在指令遵循和代码生成方面的改进。
    • 然而,需要适当的评估 (evals),因为一位成员认为 GPT-4o 的排名可能由于针对首选响应风格的专门训练而虚高,而非实际性能。
  • DeepSeek V3 在编程基准测试中实现飞跃:新的 DeepSeek V3 0324 模型正获得认可,根据 这篇 Reddit 帖子,一位成员指出它在 SWE-bench 上的得分高于 GPT-4o R1
    • 数据表明,DeepSeek 的 V3 0324 版本在非推理领域超越了 Claude 3.7 Sonnet,并已成为领先的非推理编程模型。
  • Meta 的 Llama 模型变得古怪:成员们观察到竞技场中最近出现的匿名模型(据信来自 Meta)表现出古怪行为,包括添加大量表情符号并自称为 Meta Llama 模型。
    • 正在测试的模型包括:bolidecybelegingernutmegphoebespiderthemis,尽管他们也注意到 spider 有时会自称为 GPT-4。
  • AI 安全讨论:成员们讨论了 AI 安全,提到像 Claude 这样的模型是基于宪法 AI (constitutional AI) 原则设计的,优先考虑客观性而非用户偏好,这可能会影响其排行榜排名。

Unsloth AI (Daniel Han) Discord

  • Scribe V1 驱动 FoxMoans!:一名成员使用 11Labs Scribe V1 进行音频事件分类,创建了一个 话语列表,预估成本为 $20k
    • 它被用于音频事件分类,适用于需要基于情绪分析的项目。
  • OlmOCR 的 Unsloth 集成仍不稳定:尽管 Qwen2VL 可以正常工作,但一名成员在 Unsloth 中加载 OlmOCRQwen2VL 的一个微调版本)时遇到困难。
    • Unsloth 团队询问用户是否尝试了最新版本,因为他们在创作者意识到模型完成上传之前就推送了更新和修复。
  • Orpheus TTS 获得微调支持:Unsloth 团队发布了一个用于微调 Orpheus-TTS 的 Notebook,强调其具有情感线索的类人语音。
    • 成员们讨论了更改 Orpheus 语言的问题,建议使用新的嵌入层/头部层(embedded/head layers)进行持续预训练可能就足够了。
  • BOS Token 的双重麻烦:一名用户在检查分词器(tokenizer)解码时,发现最新的 Unsloth 更新 (Gemma 3 4B) 存在 双重 BOS Token 问题。
    • 一个热修复补丁已被确认,该补丁移除了意外添加的 Token。
  • DeepSeek-R1 发布量化版:Unsloth 提供了各种版本的 DeepSeek-R1,包括 GGUF4-bit 格式
    • Unsloth 的 DeepSeek-R1 1.58-bit + 2-bit 动态量化(Dynamic Quants)通过选择性量化,比标准的 1-bit/2-bit 提高了精度。

OpenAI Discord

  • GPT-4o vs Gemini 2.5:编程大比拼:成员们比较了 GPT-4oGemini 2.5 Pro 的编程能力。尽管基准测试显示 Gemini 2.5 Pro 整体表现更好,在 6 个类别中赢了 3 个,但一些人仍认为 GPT-4o 更胜一筹。
    • 观点各异,一些人更青睐 Gemini 处理特定任务,如 C++ 和 WinAPI 集成。
  • Google AI Studio:新的免费层级英雄:用户们称赞 Google AI Studio 免费提供 Gemini 2.5 Pro 等模型,且 Prompt 限制非常慷慨,超过了 ChatGPT Plus 等付费服务。
    • 一些成员报告每天发送数百条消息也未达到限制,甚至因为这些优势取消了他们的 ChatGPT 订阅。
  • Perplexity 在新闻领域超越 ChatGPT:成员们发现 Perplexity 凭借其 Discover 标签页在新闻和时事方面表现出色,强调它不仅仅是一个 GPT 套壳
    • 然而,一些人指出 PerplexityDeep Research 功能在上传文件的质量和可靠性方面存在问题,建议改用 ChatGPT
  • Claude 3.7 Sonnet 的推理实力:成员们赞扬 Claude 3.7 Sonnet 与其他 AI 模型相比具有卓越的推理能力和解释能力,尤其是考虑到免费层级的 Claude 额度很快用完并强制开启新对话
    • 推荐使用 o1、o3-mini-high 和 Grok 3 等替代模型进行编程,其中 o1 在使用 C++、物理、渲染和 Win32API 等旧 API 的复杂任务中更受青睐。
  • 增强的图像 Prompt:新曙光?:用户对新版 ChatGPT 图像工具对复杂 Prompt 的遵循能力赞不绝口,例如生成一个在巨龟背上的移动市场,带有太阳和三个月亮。
    • 更新后的工具在针对性图像修改方面表现出色,例如在不影响整个图像的情况下移除夜景中的星星。

OpenRouter (Alex Atallah) Discord

  • Gemini 2.5 Pro:用户遭遇速率限制瓶颈:用户在集成自己的 AI Studio API keys 后,依然遇到了 Gemini 2.5 Pro 的低速率限制,引发了关于如何最大化免费配额的讨论。
    • 一位成员指出该模型不会永远免费,当不可避免地开始收费时,这将成为一个问题。
  • OpenRouter AI SDK 提供商选项困扰调试人员:成员们正在积极调试 OpenRouter AI SDK 提供商选项,特别是使用 providerOptions 来设置模型顺序和回退行为。
    • 核心问题围绕在 provider 键下嵌套 order 数组 的正确方式,因为调试尝试显示,尽管进行了配置,仍会出现非预期的提供商选择。
  • 免费 LLM 中的 Function Calling 热潮:成员们正在寻找支持 Function Calling 的免费模型,Mistral Small 3.1Gemini 免费模型 成为热门选择。
    • 一位沮丧的成员感叹道:天哪,我正努力寻找一个支持 Function Calling 的免费模型,但一个也找不到!
  • Gemini Flash 2.0 在 TPS 对决中表现强劲:社区正在热烈讨论各种编程模型的 tokens per second (TPS) 性能,Gemini Flash 2.0 因其极快的速度而备受推崇。
    • 尽管有这些宣传,一些用户仍持批评态度,指出它很,因为他们的托管搞得一团糟;另一位成员则宣称 Groq 运行 70B R1 distil 的速度达到 600tok/s,还有人插话称它在我看来不擅长编程
  • OpenAI Responses API 支持?:一位成员询问 OpenRouter 是否支持 OpenAI Responses API
    • OpenRouter 团队建议 Veo2 API 是获取 SOTA 图像转视频 的最佳选择,但价格约为 每秒视频 50 美分

MCP (Glama) Discord

  • 通过 Prompt ICL 实现最佳 Tool Use:成员们讨论了如何引导 Agent 进行 tool usage,参考了 Cline 的系统提示词,并建议直接在服务器上设置提示词,例如 First call ${tool1.name}, then ${tool2.name}
  • 为 MCP 配置 Google Search:一位成员询问如何将 Google Search 添加到 MCP,另一位成员分享了他们的 配置
    • 他们指出,用户需要获取自己的 Google API keyengine ID 才能使用该配置。
  • 使用 Docker 部署海量 MCP 服务器:一位成员创建了一个全能的 Docker Compose 设置,使用 Portainer 轻松自托管 17 个 MCP 服务器,Dockerfile 源自公共 GitHub 项目 (MCP-Mealprep)。
    • 建议除非需要远程访问,否则不要将容器绑定在 0.0.0.0,并在 readme 中包含一个 mcp 配置 json 示例
  • Agent 也能用 Canvas 了!:一位成员创建了一个 Canvas MCP 服务器,使 AI Agent 能够与 Canvas LMS 交互,并添加了一个可以自主爬取 Gradescope 以查找信息的 Agent,项目地址为 Canvas-MCP
    • 该工具提供查找相关资源、查询即将到来的作业以及访问 Gradescope 中的课程和作业等功能。

aider (Paul Gauthier) Discord

  • GPT-4o 称霸 Coding Arena: 最新的 ChatGPT-4o 更新在 Arena 排行榜 上跃升至第 2 位,在 Coding(编程)、Hard Prompts(困难提示词)类别中并列第 1,并在所有类别中均位列前 2,同时成本降低了 10 倍。
    • 该更新以 chatgpt-4o-latest 端点形式发布,价格为每百万输入/输出 Token $5/$15,而 API 快照版的价格为 $2.5/$10。根据 Artificial Analysis 的建议,在迁移工作负载时需保持谨慎。
  • OpenRouter R1 模型表现不佳: 一位成员发现 OpenRouter 上的免费 R1 模型非常“愚蠢”、冗长,且在解决损坏的测试用例时无效,尤其是在启用 repomap 的情况下,表现不如 O3-mini
    • 据推测,免费的 R1 模型是 DeepSeek 的量化版本(可能是 FP8 格式),而排行榜上的 DeepSeek 来自官方 DeepSeek 团队。此外,在 OpenRouter 上轮换使用多个 API Key 的用户可能会被封号。
  • Context Architecture 实现高效代码库处理: 常量上下文架构 (CCA) 被提议作为使用 LLM 处理大型代码库的解决方案,确保修改任何模块所需的上下文始终能放入 LLM 的上下文窗口中,无论代码库的总规模如何,详见此 博客文章
    • 这是通过确保模块具有受限的大小、接口和依赖关系来实现的,从而使上下文收集成为一种有界操作。
  • 速率限制困扰 Gemini 2.5 Pro 用户: 多位用户报告遇到了 Gemini 2.5 Pro 的速率限制,即使似乎低于文档说明的 50 次请求/天,其中一位用户指出存在 2 次请求/分钟 的限制。
    • 讨论了购买付费账户是否能解决限制问题,报告结果不一,同时还讨论了潜在的备选模型实现。
  • Aider 的 Context 命令自动包含文件: 新的 /context 命令可自动识别给定请求的相关文件并将其添加到对话中,详见 此 Discord 讨论帖
    • 这对于大型代码库特别有用,通过自动化手动添加文件的过程来节省时间。

Latent Space Discord

  • GPT-4o 跃升至 Arena 第 2 名!: 最新的 ChatGPT-4o (2025-03-26) 在 Arena 上跃升至 第 2 名,超越了 GPT-4.5,相比 1 月份的版本有显著提升(+30 分),参考 此推文
    • 它在 Coding 和 Hard Prompts 类别中并列 第 1
  • OpenAI 放宽图像生成政策: OpenAI 通过 4oChatGPT 中推出了原生图像生成功能,从一味拒绝转向更精准的方法,重点在于防止现实世界的伤害,详见 此博客文章
    • 新政策允许在敏感领域拥有更多的创作自由。
  • Devin 自动生成 Wiki 页面: Devin 现在可以自动索引仓库并生成包含架构图和源码链接的 Wiki,参考 此推文
    • 该功能可帮助用户快速熟悉代码库中不熟悉的部分。
  • HubSpot 联合创始人加入 Latent Space: HubSpot 联合创始人、Agent.ai 创始人 Dharmesh Shah 加入 Latent Space,讨论职场组织的下一次演变,重点关注 混合团队 (hybrid teams)
    • 核心概念是 人类员工与 AI Agent 作为团队成员进行协作,这引发了关于团队动态、信任和任务分配的问题。
  • LLM 代码生成工作流详解: 一位成员分享了他们的 LLM 代码生成工作流,强调 头脑风暴规格说明 (specs)、规划,并在离散循环中执行 LLM 代码生成。
    • 该工作流基于个人经验和互联网最佳实践,但作者承认 它可能在两周内失效,或者效果翻倍

LM Studio Discord

  • LM Studio 驯服多 GPU 配置LM Studio 0.3.14 引入了针对多 GPU 设置的细粒度控制,允许用户启用/禁用特定 GPU,并选择分配策略(如 evenlypriority order),可在此处下载
    • 键盘快捷键 Ctrl+Shift+H (Windows) 或 Cmd+Shift+H (Mac) 可快速访问 GPU 控制,而 Ctrl+Alt+Shift+H (Windows) 或 Cmd+Option+Shift+H (Mac) 可在模型加载期间打开弹出窗口管理设置。
  • Threadripper 碾压 EPYC:一项讨论对比了 ThreadripperEPYC,澄清了虽然 Threadripper 在技术上属于 HEDT(高端桌面),但 AMD 并不向家庭用户推广 EPYC
    • GamersNexus 的评测强调了 AMD Ryzen Threadripper 7960X 的 24 核心以及对于工作站而言相对较低的成本。
  • LLM 计算迎来视觉化革新:成员们讨论了将 LLM 执行的计算可视化,例如将数值映射到像素颜色,并推荐了 LLM Visualization 工具
    • 为了深入理解,分享了 3b1b 关于 LLM 的播放列表以及一本关于从零开始构建 LLM 的书。
  • P100 被 6750xt 彻底击败:一位成员询问是否可以将 P100 16GB 用于业余项目,但遭到了强烈反对,一位用户表示与 6750xt 相比,它基本上就是“电子垃圾”。
    • 6750xt 被推荐为更好且更现代的显卡,因为它支持 Vulkan,而 P100 不受支持的 CUDA 版本使其吸引力降低。

Eleuther Discord

  • Transformer 存储错误消息误导用户:一位用户发现,在 transformers v4.50.0 中,存储空间不足会导致误导性的错误消息;计划提交一个 PR 以实现更好的错误处理,并在下载模型分片前检查容量。
    • 由于库的错误消息不佳,该用户不得不使用 df -h 来诊断系统 100% 满载 的问题。
  • Torchtune 鼓励通过修改代码进行自定义:用户发现 torchtune 需要下载并编辑 200 行的 PyTorch 脚本 和 YAML 文件来进行自定义,从而提供对流程的完整视图。
    • 据一位用户称,这种方法可以避免去剖析 Hugging Face 的实现
  • 偏见增强一致性训练验证内省能力:受 Anthropic 工作的启发,成员们讨论了通过创建电路表示并将其反馈来模拟 LM 的自我意识。
    • 一篇关于 偏见增强一致性训练 (BCT)论文也被链接作为内省方法的验证手段。
  • 自适应压缩旨在提升分布式系统:一个旨在优化分布式系统中模型传输和部署的基础设施层正在开发中,利用自适应压缩和智能路由来解决 带宽浪费推理延迟 问题。
    • 分布式推理 感兴趣的人可能会发现这个基础设施对扩展大型模型很有用,目前提供演示。
  • 神经网络演变为“无器官身体”:一位成员链接到一条推文,认为神经网络是 无器官身体 (Bodies Without Organs, BwO),因为它们没有“器官”或“固定机制”,而是具有“信息流”。
    • 一位成员拒绝 机械可解释性 (mechanistic interpretability),并表示神经网络在没有固定机制的情况下进行泛化,这在 400 年前就被笛卡尔预见到了。

GPU MODE Discord

  • tl.gather 接近发布:在等待正式发布期间,为了解决元素重复问题,成员指出可以按照 此 Discord 线程 中的说明从源码编译 Triton
    • 团队还澄清说 tl.gather 可以解决元素重复问题,这也是其他成员针对 torch.Tensor.expand() 等函数向 Triton 提出的需求。
  • 激活稀疏化加速 FFNs:分享了一篇新论文,认为 LLM 中用于激活加速的 2:4 sparsity 可在不损失精度的情况下使 FFNs 快 1.3 倍,参见 Acceleration Through Activation Sparsity
    • 一位成员指出,下一步是 带有稀疏性的 FP4,以实现有效的 2-bit tensorcore 性能
  • CUDA Profiling 令人困惑:鉴于 Nvidia 工具(如 nvprofNvidia Visual Profiler (nvvp) 和各种 Nsight 软件包)琳琅满目,一位用户正在寻求 CUDA profiling 的权威指南。
    • 另一位用户建议 Nsight Compute 是进行单算子(single kernel)分析的最佳工具,并附上了 Nvidia 文档详细演讲 的链接。
  • 宫崎骏嘲讽 AI 艺术采样:一个 9 年前的梗 重新浮现,展示了 宫崎骏 在 Niconico 创始人展示 AI 生成艺术时的批判性反应。
    • 成员们将使用 AI 艺术的伦理与从 Shein 等快时尚公司购买商品进行了比较,称这种不道德的商业模式提供了获取廉价内容的途径。

Yannick Kilcher Discord

  • OpenAI 和 xAI 构想的 AI 学校OpenAIxAI 正在探索 AI 驱动学校的概念,可能会利用生成的图像作为课程内容,讨论指出根据 此帖子吉卜力工作室风格 (Ghibli Studio Style) 是解决对齐问题的一种方案。
    • 这些举措旨在将 AI 更紧密地整合到教育框架中,重点是创建具有视觉吸引力且符合语境的学习材料。
  • Transformer Circuits 揭晓 CrosscodersTransformer Circuits 团队发布了关于 sparse crosscoders 的更新,这是 sparse autoencoders 的一种变体,可以读取和写入多个层,形成共享特征,详见其 研究更新
    • 这些 crosscoders 解决了跨层叠加(cross-layer superposition)问题,监控持久特征,并简化了电路。
  • GPT-4o 确认为自回归图像模型:在 Yampeleg帖子OpenAI System Card 发布后,成员们验证了 GPT-4o 是一款 autoregressive image generation model
    • 这一发现揭示了该模型直接从文本提示创建图像的新颖方法,成员们推测 GPT-4o 复用了 image input 和 image output tokens
  • Qwen2.5-Omni 引起多模态轰动Qwen2.5-OmniQwen 系列中最新的旗舰级 end-to-end multimodal model,已在成员中分享。它专为全面的多模态感知而设计,可处理文本、图像、音频和视频,详见 Qwen Chat
    • Qwen2.5-Omni 通过文本生成和自然语音合成提供实时流式响应,树立了多模态交互的新标杆。

Interconnects (Nathan Lambert) Discord

  • GPT-4o 在 Arena 排名飙升,价格便宜 10 倍:新的 ChatGPT-4o (2025-03-26) 模型在 Arena 排名跃升至第 2 位,超越了 GPT-4.5。据 lmarena_ai 报道,其成本降低了 10 倍,并在 Coding 和 Hard Prompts 类别中并列 第 1
    • 该模型目前在 Arena 的所有类别中均位列 前 2,在编程和处理复杂提示词方面表现出色。
  • 马斯克的 xAI 以 800 亿美元交易吞并 XElon Musk 透露,xAI 已通过全股票交易接管了 X。据 The Verge 报道,xAI 的估值为 800 亿美元X 的估值为 330 亿美元(包括 120 亿美元债务)。
    • 此举将马斯克的 AI 事业整合到 xAI 旗下,可能会改变 AI 市场的竞争格局。
  • LlamaGen 像 LLM 一样生成图像LlamaGen 系列图像生成模型应用了来自大语言模型的 next-token prediction 范式来生成图像。根据 LlamaGen 论文 的描述,它在 ImageNet 256x256 基准测试中达到了 2.18 FID
    • 该架构实现了 0.94 rFID 的重建质量和 97% 的 codebook 利用率,其图像分词器(image tokenizer)的下采样率为 16
  • Qwen2.5-Omni 全能表现Qwen2.5-Omni 是 Qwen 系列中新的旗舰级端到端多模态模型,能够处理文本、图像、音频和视频。正如 其博客文章 所述,它支持通过文本和语音进行实时流式响应。
    • 该模型已在 Qwen Chat 上线,可能预示着新一波更通用模型的到来。
  • Gemini 2.5 Pro 在 Wordle 竞赛中表现优异Gemini 2.5 Pro 在 Wordle 游戏中展现了卓越的性能,能够逻辑推导出单词和字母位置,据 Xeophon 报道。
    • 关于 Gemini 2.5 Pro 的反馈非常积极,Zvi 提到一位用户指出:“我从未见过对一个非当下最热门话题(Current Thing)的 AI 发布有如此强劲且正面的反馈”

Torchtune Discord

  • FP8 QAT 面临带宽瓶颈:一位关注 issue #1632 的成员指出,FP8 QAT 已在 TorchAO 的计划中,但目前缺乏立即实施的带宽(人力/资源)。
    • 这表明了 PyTorch 生态系统中未来开发和贡献的一个潜在领域。
  • Torchtune 团队处理积压 Issue:团队讨论了在处理积压的 issue 之前,优先进行 PR 评审和处理新 PR,估计 80% 的现有 issue 已经得到解决。
    • 为了更好地组织待评审的积压工作,一位成员建议除了现有的 GRPO 追踪器外,再增加一个通用的 RL/RLHF 追踪器
  • Torchtune 计划集成 bitsandbytes:一位成员建议使用 Torchtune 仓库中的 issue #906 来引导对 bitsandbytes 集成的贡献。
    • 另一位成员幽默地表示他们对文档 PR 缺乏热情,但仍同意去查看一下。
  • Centered Reward Loss 支持奖励模型训练:成员们讨论了在 Torchtune 中启用奖励模型训练,特别关注实现 centered reward loss(中心化奖励损失),例如 (R1 + R2)² loss
    • 他们注意到当前的 preference dataset 格式需要 不带 prompt 的 chosen/rejected 格式
  • vLLM 集成导致权重热交换 Hack 出现:一位成员详细说明了在 vLLM 初始化期间的内存垄断问题,并分享了一个用于 weight hotswapping晦涩黑科技(obscure hack)
    • 另一位成员警告说 “每个 vLLM 版本都会破坏一些东西”,暗示当 vLLM 发布带有新 v1 execution engine0.8 版本时,可能与现有的 hack 手段不兼容。

Nous Research AI Discord

  • Claude 获得了“王者级” UI:用户报告称 Claude 推出了一个简洁的新 UI,一位用户特别喜欢该 UI 隐藏了所有从不使用的功能,称其为“王者之举(king move)”。
    • 目前唯一注意到的问题是缺少 extended think 的切换开关。
  • DeepSeek 抄了 GPT-4o 的作业DeepSeek 正在像 GPT-4o 多模态模型一样结合 diffusion 和 transformers,正如这条推文所指出的,该推文引用了视觉领域的一个类似想法。
    • 引用的论文在图像和视频上使用了自回归条件块注意力机制(autoregressive conditional block attention)进行实验。
  • TinyZero 的 30 美元 AI 模型首次亮相:关注点正转向美国 TinyZero 最近的成就,特别是他们的 30 美元模型,以及 VERLSky-T1 等新发布的内容,正如这篇 CNBC 文章所报道的。
    • 当 DeepSeek 发布其 R1 并声称仅用 600 万美元就实现了其生成式 AI 大语言模型时,包括微软资助的 OpenAI 在内的美国 AI 市场领导者所花费的数十亿美元立即受到了审查。
  • LG 的 EXAONE 模型在存疑的许可证下发布LG AI Research 发布了 EXAONE Deep,这是一系列参数范围从 2.4B 到 32B 的模型,在包括数学和编程基准测试在内的推理任务中具有卓越的能力,详见其文档博客GitHub
    • 有人指出,EXAONE AI Model License Agreement 1.1 - NC 明确保留了输出的所有权,但该许可证的执行力存疑。
  • Hermes-3 给用户留下深刻印象:一位成员提到,到目前为止最令人印象深刻的模型是 Hermes3 Llama3.2 3B
    • 未提供更多细节。

HuggingFace Discord

  • DeepSeek 投身 Diffusion-Transformer 混合架构:根据链接到其论文的这条推文DeepSeekGPT-4o 多模态模型一样结合了 diffusion 和 transformers
  • ZeroGPU 配额困扰用户:用户报告 zeroGPU quota 无法重置的问题,其中一人链接到了这个讨论以获取相关投诉。
    • 一位用户指出,即使配额用完,它也会在 30 分钟或一小时后在一定程度上恢复,但目前存在 Bug。
  • FactoryManager 推出 LinuxServer.io Docker 支持:一位成员介绍了 FactoryManager,这是一个包装了 linuxserver.io 桌面环境容器Python package,能够实现对环境的编程控制,并通过使用两个不同桌面环境的演示进行了展示。
    • 该包旨在通过在 linuxserver.io 之上搭建脚手架来提供灵活性,这与 AnthropicOpenAI 等公司的 GUI Agent 演示中经常创建的自定义环境有所不同。
  • Langfuse 毒性评估器误判胡萝卜:一位在 Langfuse 中测试毒性 LLM-as-a-judge 的用户发现,它错误地将提示词 “吃胡萝卜能改善视力吗?” 标记为有毒,分数为 0.9,理由是与气候变化话语存在错误关联。
    • 该用户质疑 “如何评估评估器”,并指出 GPT-4o 将贬低性的气候变化内容错误地归因于一个关于胡萝卜的无害问题。
  • Base 与 Instruct 模型之争:一位 Agent 领域的新手寻求关于 Base 模型和 Instruct 模型区别的澄清,并引用了课程中提到的 chat templates。
    • 一位成员用 Base 模型“裸模型,没有包装” 的比喻进行了回应,并分享了一篇 Reddit 帖子进一步阐述了这些差异。

Notebook LM Discord

  • 思维导图功能圈粉:一位用户对新的思维导图功能表示兴奋,称其为 又一个令人惊叹的时刻
    • 未提供关于其具体用途的更多细节。
  • 源文件上传受阻,陷入停滞:有用户报告源文件一直处于永久上传状态超过 8 小时,导致既无法导入也无法删除。
    • 该用户寻求删除永久上传中源文件的建议,但未获成功。
  • 版本控制缺失,用户感到烦恼:一位用户对“Note”源类型缺乏版本控制和回收站支持表示担忧。
    • 该用户提到由于 Google Docs 具有更优的数据保护和备份功能,因此在犹豫是否使用该功能。
  • 粘贴的源文件停止自动命名:一位用户报告称,以前会自动命名的粘贴源文件,现在默认显示为 “pasted text”。
    • 该用户询问是否有更新或可以恢复到之前行为的方法。
  • PDF 解析问题依然存在:用户讨论了 NLM 无法从扫描的 PDF 中提取数据的问题,其中一位用户询问该工具是否可以从扫描的笔记中提取数据。
    • 一位用户澄清说 NLM 无法处理混合内容的 PDF(文本和图像),但可以处理文档和幻灯片。

LlamaIndex Discord

  • LlamaIndex 庆祝 MCP 周:LlamaIndex 重点介绍了 LlamaCloud 作为 MCP server 的功能,并演示了将 LlamaIndex 作为任何 MCP server 的客户端使用,从而可以访问许多作为工具的 MCP server,详见此推文
    • 他们展示了通过利用数百个现有的 MCP server 来大幅扩展 Agent 能力的可能性。
  • FunctionAgent 获得 ChatMessage 历史记录支持:一位成员询问如何为 FunctionAgent 工作流添加聊天历史记录,并提供了相关文档
    • 提供的指导包括使用 agent.run(...., chat_history=chat_history) 覆盖聊天历史记录,或使用 ChatMemoryBuffer.from_defaults(token_limit=60000, chat_history=chat_history)
  • 遥测追踪获取用户 ID:一位成员询问在与 Llama Index 交互时,如何传递自定义遥测属性以及在 LLM 网络调用中附加 header 或参数,并分享了一个 Colab notebook
    • 该 Colab notebook 展示了如何为代码块内执行的所有事件附加用户 ID。
  • LlamaParse PDF 解析问题:一位用户报告称 LlamaParse 在处理单个 PDF 时正常,但在处理两个 PDF 并询问相同问题时失败,可能导致系统过载。
    • 该用户描述系统在处理多个 PDF 时几乎崩溃(literally cooked),表明存在潜在的过载或处理错误。

Cohere Discord

  • Cohere 将模型命名为 “Command”:一位成员询问为什么 Cohere 选择将其语言模型命名为 Command,并暗示类似于数据库管理,query 本质上就是一个 command 或 instruction
    • 模型选择在 Coral 中可用,其中 Just Chat 在不使用外部源的情况下使用 Command A
  • 软件工程师寻求 Cohere 职业机会:一位成员正在寻找软件工程师的新工作机会,并很乐意讨论与 websitesweb applications 相关的潜在项目。
  • 机器人命令进行测试运行:鼓励成员在「🤖」bot-cmd 频道测试机器人命令,以确保功能正常和用户体验良好。
    • 欢迎对机器人命令提供反馈。
  • 全栈架构师准备就绪:一位拥有 8 年以上经验的热情开发者,擅长使用 React, Angular, Flutter, 和 Swift 等现代框架构建可扩展的 web 和 mobile apps
    • 他们使用 Python, TensorFlow, 和 OpenAI 构建智能 AI 解决方案,并集成 云技术 (AWS, GCP, Azure)微服务 以实现全球扩展。
  • Oracle 顾问寻求 Cohere 知识:一位在 Oracle ERP Fusion 领域拥有 12 年以上经验的技术顾问渴望了解更多关于 Cohere 模型和企业级应用 AI 使用案例的信息。
    • 一位网络和计算机科学专业的学生目标是从事开源生成式音乐项目,倾向于使用 ChatGPT, Grok, Windsurf, 和 Replit 等技术工具。

Nomic.ai (GPT4All) Discord

  • GPT4All 面临易用性投诉:用户对 GPT4All 的易用性表示担忧,提到的问题包括无法导入模型、无法搜索模型列表、无法查看模型大小、无法使用 LaTeX 以及无法自定义模型列表顺序。
    • 一位用户认为 GPT4All 正在流失用户,因为其他平台更加用户友好且开放
  • GPT4All 在新模型实现方面滞后:一位用户对 GPT4All 尚未实现 Mistral Small 3.1Gemma 3 感到沮丧,并强调了这些模型的多模态能力。
    • 该用户表示,如果 GPT4All 到 2025 年夏天仍未赶上进度,他们可能会放弃 Llama.cpp
  • GPT4All 因原生 RAG 和模型设置受到赞赏:尽管存在批评,GPT4All 仍具有原生 RAG 和开箱即用功能等优势,一位用户表达了对开发者的信心以及对 GPT4All v4.0.0 的期待。
    • 另一位用户赞赏 GPT4All 的模型设置页面,认为其选项全面且模型重载按钮非常方便,并指出在聊天菜单之外只需 2-3 次点击即可完成设置

tinygrad (George Hotz) Discord

  • 成员被要求关闭过期的 PR 和 Issue:George Hotz 要求成员关闭所有已过期的开放拉取请求 (PR) 和问题 (Issues)。
    • 此举旨在通过处理过时项来清理项目的仓库。
  • 关于 TinyGrad Codegen 内部机制的讨论:一位成员询问了 TinyGrad 的代码生成 (Codegen) 过程,特别是文档中提到的 CStyleCodegenCUDACodegen 的位置。
    • 文档描述了 TinyGrad 使用不同的转换器(Renderers 或 Codegen 类),如 C++ (CStyleCodegen)NVIDIA GPUs (CUDACodegen)Apple GPUs (MetalCodegen),将优化后的计划转换为 CPU/GPU 可以理解的代码。
  • 探索布尔索引 (Boolean Indexing) 的实现:一位成员寻求关于如何在带孔的网格上高效创建均匀分布点的建议(类似于 PyTorch 中的布尔索引),并认为这可能是对 TinyGrad 有用的贡献。
    • 一个 LLM 提出了一种使用 masked_select 的解决方案,通过利用条件 full.abs().max(axis=1) >= (math.pi/6) 过滤掉孔洞之外的点,从而高效地创建所需的带孔网格。

DSPy Discord

  • 解决 DSPy 输出验证失败问题:一位成员询问 DSPy 如何处理输出验证失败,特别是当一个整数型字段期望 1 到 10 之间的数字却收到了 101 时。
    • 频道内没有关于此问题的进一步讨论或提供的链接。
  • 深入研究 DSPy 优化器 (Optimizers):一位成员正在探索 DSPyoptimizers 的使用,以及它们如何与 docstrings 和提示词管理交互,并参考了 DSPy 官方文档
    • 发现的问题是 Optimizer 会覆盖来自 docstring 的提示词,需要从 json 或 pkl 文件加载优化后的版本。
  • 解码 DSPy 的优化过程:会议澄清了 DSPy 的优化器会生成提示词并在数据集上进行测试以找出性能最佳的提示词,更多细节见官方网站
    • 用户发现优化器如何选择 N 个示例包含在提示词中非常有趣,这展示了生成的提示词类型。
  • DSPy:声明式自我改进 Python 出现DSPy 是一个用于对语言模型进行编程而非提示 (prompting) 的框架,旨在快速迭代构建模块化 AI 系统,并提供优化提示词和权重的算法。
    • 你不再需要编写脆弱的提示词,而是编写组合式的 Python 代码,并使用 DSPy 来教你的 LM 交付高质量的输出

LLM Agents (Berkeley MOOC) Discord

  • 创业赛道导师缺席:一位创业赛道的学生询问了 LLM Agents Berkeley MOOC 内部的导师指导机会。
    • 会议澄清 Berkeley 不为创业赛道提供任何导师指导,但赞助商将在 4/5 月举办答疑时间 (Office Hours)。
  • 赞助商答疑时间公布:赞助商将在 4 月/5 月为 LLM Agents Berkeley MOOC 创业赛道举办答疑时间。
    • 这为学生提供了与行业专业人士交流并寻求项目指导的机会。

Codeium (Windsurf) Discord

  • Gemini 2.5 Pro 冲入 WindsurfGemini 2.5 Pro 现已在 Windsurf 中可用,每条消息为用户提供 1.0 用户提示词额度,每次工具调用提供 1.0 flow 操作额度;详见 X 上的公告
    • 此更新旨在通过最新模型提升用户体验。
  • Windsurf 在 Gemini 2.5 Pro 速率限制上受阻:在 Gemini 2.5 Pro 发布后不久,由于模型和供应商面临巨大负载,Windsurf 遇到了速率限制(rate limits)。
    • 团队正在努力增加配额,并对带来的不便表示歉意,目标是让每个人都能尽快在 Gemini 2.5 Pro 上“冲浪”

Modular (Mojo 🔥) Discord

  • Foo[1] 默认为预定义值:在 Foo[1] 类型的上下文中,self 参数可以自动填充默认参数值。
    • 当使用 _ 丢弃 self 时,参数将默认为其预定义的默认值。
  • Self 参数澄清self 参数是带有默认参数值的 Foo[1],可以使用 _ 忽略。
    • 使用 _ 忽略 self 会默认使用预定义的默认参数值。

MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。


AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将移除它。


第二部分:各频道详细摘要和链接

各频道的详细分析已为邮件格式截断。

如果您想查看完整分析,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预谢!