AI News
AI 工程师世界博览会:第二届,双倍乐趣。
2025年 AI 工程师世界博览会 (The 2025 AI Engineer World’s Fair) 规模进一步扩大,共设有 18 个分论坛,涵盖了 检索与搜索、GraphRAG、推荐系统 (RecSys)、软件工程智能体 (SWE-Agents)、智能体可靠性、推理与强化学习 (RL)、语音 AI、生成式媒体、基础设施、安全以及模型评估 (Evals) 等主题。
新的关注焦点包括 MCP (模型上下文协议)、精悍团队 (Tiny Teams)、产品管理、设计工程,以及展示了来自 Waymo、特斯拉 (Tesla) 和 谷歌 (Google) 基础模型的 机器人与自主系统。本次盛会强调了 AI 架构师 和企业级 AI 领导力日益增长的重要性。
此外,Demis Hassabis 宣布推出 Gemini 2.5 Pro 预览版“I/O 版”,该模型在 LMArena 的编程和 Web 开发基准测试中目前处于领先地位。
AIE is all you need.
2025年5月6日至5月7日的 AI 新闻。我们为您检查了 9 个 subreddits、449 个 Twitter 账号和 29 个 Discord 社区(214 个频道,4624 条消息)。预计节省阅读时间(按每分钟 200 词计):485 分钟。我们的新网站现已上线,支持完整的元数据搜索,并以精美的 vibe coded 方式展示所有往期内容。访问 https://news.smol.ai/ 查看完整的新闻细分,并在 @smol_ai 上向我们提供反馈!
今天是平静的一天,但正如我们几乎就在一年前所做的那样,我们将用一期内容来讨论下个月举行的第二届大规模 AI Engineer World’s Fair 新宣布的演讲嘉宾:
TLDR:连续第二年,我们为 AI News 读者提供一次性折扣:点击此处并在周五结束前输入
AINEWS:)
第一届 World’s Fair 是一次重大的实验——AI Engineering 是否足够庞大,值得举办自己的大型多平行论坛会议?我们很幸运能率先预览这些功能,而现在每一位 AI Engineer 都可以利用这些功能进行构建并视其为理所当然。在此期间,NYC Summit 超出了所有人的预期,有相当于 4 个麦迪逊广场花园人数的观众收看了直播,还有一个病毒式传播的 MCP 工作坊。
2025 AI Engineer World’s Fair (6月3-5日,旧金山)
AIEWF 2025 的规模现在比去年又扩大了两倍,拥有展位、演讲和涵盖 18 个方向的工作坊。你可以浏览 llms.txt 或 llms-full.txt,以跟上 AI Engineering 不断演进的 meta:
- 扩展的方向:
- 每个 AI 会议都有的 “RAG” 方向实际上是一系列更深层问题的集合:Retrieval + Search(既然 LLM 越来越多地与网络搜索捆绑)、GraphRAG(Neo4J 回归并扩展了去年最受欢迎的演讲之一),以及 RecSys(受 Eugene Yan 文章的启发,他现在正主持这个方向)。
- 当 2025 年成为 Agent 之年时,”Agents” 方向就不再有意义了。由于一切都在变得 Agentic,且没有人对定义达成一致,我们只是深入探讨三个最紧迫的 Agent 热点:SWE-Agents、Agent Reliability 以及 Reasoning + RL(再次参考了 NYC 顶级演讲的信号)。
- “Multimodality” 现在也细分为 Voice AI(实时语音 API)和 Generative Media(图像/视频生成)的专项关注。
- Infrastructure, Security 和 Evals 终于有了自己的方向(由 Braintrust 参与,这是年度最热门的 Latent Space 剧集之一)。
- 成熟的领导力:根据 Bret Taylor 的播客,”AI Leadership” 的角色现在越来越多地由 AI Architects 承担,我们还将 AI in the Fortune 500 的案例研究和实战经验移至双选方案,供那些在企业中构建 AI 的人选择。
- 全新方向:
- MCP:报名人数最严重超额的方向。
- Tiny Teams:构建 ARR(年度经常性收入)数百万美元且成员极少的公司。
- Product Management:为与 AI Engineers 紧密合作的 PM 准备的方向。
- Design Engineering:类似;只不过 AI Designers 越来越多地同时也是工程师。
- Robotics and Autonomy:涵盖了具身 LLM 的最新进展——包括来自 Waymo、Tesla、Google 等公司的最新基础模型信息。
- 当然,最重要的方向是那个未列出的:hallway track(走廊交流),去年的体验非常棒,但当然,你必须亲临现场。
为了庆祝发布,我们为 AI News 读者提供一次性折扣:点击此处并在周五结束前输入 AINEWS,在价格本周末上涨前锁定早鸟票。
如果这里或 Latent Space 的内容与你的兴趣具有最高的 cosine similarity(余弦相似度),那么这场会议就是为你量身定制的。6 月 3 日至 5 日,旧金山见!
AI Twitter 回顾
Gemini 2.5 Pro 模型改进与性能
- 发布与能力:@demishassabis 宣布发布 Gemini 2.5 Pro Preview ‘I/O edition’,宣传其编程能力,并在 LMArena 编程榜单和 WebDev Arena 排行榜中位列第一。该模型特别擅长构建交互式 Web 应用。@GoogleDeepMind 强调它可以将自然图像转换为代码。它已在 @GeminiApp、Vertex AI 和 AI Studio 中可用。@GoogleDeepMind 指出,改进还扩展到了代码转换、编辑以及开发复杂的 Agent。
- 社区反响与迭代:@demishassabis 提到了社区对 Gemini 2.5 系列 的积极反响,并鼓励继续提供反馈。
- WebDev Arena 排行榜:@GoogleDeepMind 表示 Gemini 2.5 Pro 在 WebDev Arena 排行榜上处于领先地位,并在 @LMArena_ai 的编程榜单中排名 #1。@lmarena_ai 确认 Gemini 2.5 Pro 是 WebDev Arena 的新晋冠军,首次超越了 Claude。
- 编程实力:@Yuchenj_UW 声称 Gemini-2.5-Pro-preview-05-06 是他们顶尖的编程模型,在挑战性提示词上的表现优于 o3 和 Claude 3.7 Sonnet。他们还建议 Google 应该将其命名为 Gemini 3。
- 基准测试:@scaling01 报告称 Gemini 2.5 Pro Livebench 结果显示全面提升,除了数学方面有轻微退步外,在数据分析方面有显著提升。
- 在 Cline 中的应用:@cline 提到 Gemini 2.5 Pro 获得了重大升级,特别是在前端 Web 开发和 Function Calling 方面,并指出在 Cline 中使用 03-25 会自动指向 05-06 版本。
- @alexalbert__ 提到在 Anthropic API 中添加了 Web 搜索工具,让 Claude 可以直接访问实时 Web 内容。
- @iScienceLuvr 谈到了 Gemini 2.5 Pro 通过一个关键技巧增加了推理时 Token (inference-time tokens),使其成为一个 Agent。
AI 模型与框架
- FastVLM:@awnihannun 宣布了来自 Apple ML research 的新发布,包括 FastVLM 的代码和模型、一个 MLX 实现以及一个设备端(iPhone)演示应用。
- Parakeet ASR:@awnihannun 提到 Nvidia 最先进的 Parakeet ASR 模型现在有了 MLX 实现。这个 0.6B 模型位居 Hugging Face ASR 排行榜榜首,并且通过 MLX 在本地运行速度极快。
- Meta Perception Models:@AIatMeta 介绍了 Meta Perception Language Model (PLM),这是一个用于挑战性视觉任务的开源且可复现的 vision-language 模型;@AIatMeta 介绍了 Meta Perception Encoder,这是一个在图像和视频任务中树立新标准的 vision encoder。
- BayesFlow 2.0:@fchollet 宣布了 BayesFlow 2.0,这是一个用于摊销贝叶斯推理(amortized Bayesian inference)的 Python 包,现在由 Keras 3 驱动,支持 JAX、PyTorch 和 TF。
- LLaMA-Omni2, Ming-Lite-Uni, SuperEdit, Voila:@_akhaliq、@_akhaliq、@_akhaliq 和 @_akhaliq 在 Hugging Face 上分享了 LLaMA-Omni2、Ming-Lite-Uni、SuperEdit 和 Voila 的发布,并详细介绍了它们的功能和应用。
- @reach_vb 分享了你可以通过 不到 1000 行纯 PyTorch 代码从内到外学习 VLM!
- @cloneofsimo 指出 SandAI_HQ 的 Magi attention 在各种 attention 机制上拥有极其优美的抽象。
- SynCity:@LiorOnAI 重点介绍了 SynCity,这是一个新的研究项目和代码库,无需训练即可通过单个文本提示生成整个 3D 世界。
- Supabase:@LiorOnAI 将 Supabase 介绍为数据库界的 ChatGPT,允许用户构建和启动数据库、创建图表并生成样本数据,并指出它是 100% 开源的。
- Browser use:@LiorOnAI 宣布用户现在可以使用完全开源的 Browser use,只需几行代码即可将任何 AI Agent 连接到互联网。
- Dolphin-Math Datagen:@cognitivecompai 展示了 Dolphin-Math Datagen,这是一个受 @FernandoNetoAi 启发、用于创建模型训练数学题的工具,并鼓励大家贡献力量以扩展其开源能力。
- @clattner_llvm 分享了 Modular 的 25.3 版本 现在在 CPU 和 NVIDIA 上均可公开且免费使用,旨在成为最开放的 GenAI 平台。
- @iScienceLuvr 介绍了用于重写预训练数据以提升 LLM 在数学和代码方面性能的开源许可数据集,其中包括 SwallowCode 和 SwallowMath。
- @AymericRoucher 报告了 smolagents 中的 Computer Use 功能,该功能由 Qwen-VL 模型驱动,具有内置的 grounding 能力,即能够通过坐标定位图像中的任何元素,从而点击屏幕截图上的任何项目。
- @vllm_project 指出 @vllm_project 如何在 rollout 过程中使用,通过将引擎卸载(offloading)到 CPU,并将 GPU 交还给内核进行基准测试!
工具与平台
- Cursor: @cursor_ai 宣布 Cursor 现在对学生免费。@cognitivecompai 表达了对支持 local model 的 Cursor 的偏好。
- Cline: @cline 在 Cline 中引入了 Plan & Act 模式,强调了在编码前理解的重要性。@cline 还重点介绍了用于捕获项目标准的 /newrule 命令。
- Weights & Biases: @weights_biases 宣布了更快的日志记录、即时仪表板以及为大规模扩展而设计的性能。
- LangSmith: @LangChainAI 宣布 LangSmith 现在支持图像、PDF 和音频文件,使得构建和评估多模态应用变得更加容易。
- @_philschmid 我们将进入 vibe coding 的新时代!新的 Gemini 2.5 Pro 现在可以 zero-shot 完整的单页应用(Single Page Application)、完整的响应式手机游戏,并将 UI 截图精确地转换为可运行的代码。
- @jerryjliu0 重点介绍了一个 AI Agent,它不仅能从最复杂的 PDF/Powerpoints 等文件中进行高精度提取,还能提供精确的引用和追溯到源元素的推理。@jxnlco 分享道,RAG 是 LLM 在企业中的第一大用例。
AI 教育、学习资源与社区
- 构建生产级 AI 语音 Agent 课程:@AndrewYNg 介绍了一门关于构建对话式 AI 语音 Agent 的新短课程,该课程是与 @LiveKitAgent 和 @realavatarai 合作创建的。@DeepLearningAI 也推广了这门课程,强调其重点在于实时、低延迟、类人语音的 Agent。
- AI 基准测试中心:@EpochAIResearch 宣布在 Epoch AI Benchmarking Hub 中新增了四个基准测试,包括 Aider Polyglot、WeirdML、Balrog 和 Factorio Learning Environment。
- Hugging Face 通配符申请:@ClementDelangue 宣布他们正在审核那些渴望加入 @huggingface 团队的人员的通配符申请(wild card applications)。
- LLM 课程:@ben_burtenshaw 指出 @huggingface 的 LLM 课程中已添加了新的视频内容!
- @jerryjliu0 分享了目前最全面的 Deep Research 构建指南,为从初学者到高级用户提供了分步指导。
更广泛的 AI 行业趋势与讨论
- Stargate AI 训练设施:@sama 分享了位于阿比林(Abilene)的首个 Stargate 的进展,该项目是与 Oracle 合作的,将成为全球最大的 AI 训练设施。
- AI 普及率:@lateinteraction 对 OpenAI 声称 AI 的普及速度正在超过互联网早期增长的说法提出了质疑。
- @karpathy 指出他在本科阶段犯的一个重大错误是过于关注计算的数学视角——可计算性、可判定性、渐近复杂度等。而对物理视角关注太少——状态变化的能量/热量、数据局部性、并行性、计算机体系结构。前者很有趣;后者赋予力量。
- @aidan_clark 表示,任何 LLM 研究人员都不应该将整个职业生涯只花在 pre/post training 的其中一侧。
AI Reddit 摘要
/r/LocalLlama 摘要
1. 新的 SOTA AI 模型、基准测试和训练创新
- 新的 SOTA Apache 可微调音乐模型! (得分: 303, 评论: 86): ACE-Step 模型 (Github, HuggingFace) 是一款新发布的开源、采用 Apache 许可证的生成式音乐模型,支持微调且推理速度极快:基准测试报告显示,在 RTX 4070 上生成 3 分钟音乐仅需 34 秒,在 4090 上生成短片段仅需不到 3 秒。模型权重、Demo 和代码均已发布,其架构专为本地使用设计,并具有集成到 ComfyUI 的潜力。社区反馈证实了其令人印象深刻的生成速度和提示词遵循精度,但观察者指出其音频质量(尤其是音色和风格多样性)仍落后于 Suno 和 Udio 等闭源 SOTA 模型。 专家强调了该模型在本地高速音乐生成方面的飞跃,并寻求相关集成(如 ComfyUI),同时也承认其音频质量尚未达到闭源领先者的水平。
- 用户报告了极快的音乐生成速度:一位用户提到在 Nvidia 4090 上输出仅需 3 秒,另一位表示在 4070 上生成 3 分钟音乐需 34 秒,甚至 3060 也能提供“绝对令人难以置信”的性能。这种速度超过了大多数商业解决方案,至少在默认设置下是这样。
- 几位用户强调了音频质量参差不齐——该生成模型在创意输出和提示词遵循方面表现出色,但在乐器编排和人声方面的声音被描述为“仍比 Suno 或 Udio 差不少”。音频通常听起来像过度压缩的 mp3;建议包括调整设置以潜在地提高质量。
- 技术社区对将该模型集成到 ComfyUI 表现出浓厚兴趣,用户表示如果没有现成的实现,他们愿意构建一个,这反映了生态系统工作流中对更多工具和支持的需求。
- 自我改进 AI 已解锁? (得分: 136, 评论: 41): Absolute Zero Reasoner (AZR) 引入了一种范式,即语言模型通过自我生成任务来优化自身的学习,利用代码执行环境进行自动奖励验证,从而消除了对外部人工策划数据的需求。根据 论文,AZR 在编程和数学推理基准测试中取得了 SOTA 结果——甚至超越了以往依赖大型监督数据集的零样本方法——并展示了在各种模型规模和类别中的可扩展性。这种方法将具有可验证奖励的强化学习 (RLVR) 扩展到完全自给自足、无数据的机制,仅利用模型自身的课程演进和基于代码的验证作为地面真值 (ground truth) 信号。 热门评论强调,模型自主构建和调整其学习分布的转变是一项潜在突破,可能“将推理模型从人工策划数据的约束中解放出来”,并提到这可能开启自我改进 AI 的新时代。一位评论者将此等同于大型语言模型在编程和数学领域的“AlphaZero 时刻”,反映出人们一致认为这标志着自主推理的重大进步。
- 论文描述了推理模型(特别是 AZR)向定义和演进自身学习任务分布(通过与环境交互)的转变,减少了对人工策划数据的依赖。这被比作将模型从人工策划的约束中解放出来,并被定位为推理模型新阶段的平行线,如引用文献 (Morris, 2025; Silver & Sutton, 2025; Zhao et al., 2024) 所述。
- 评论者在 LLM 用于编程和数学的背景下将其类比为 AlphaZero,强调 AlphaZero 纯粹通过自我博弈从游戏规则中学习,而 “Absolute Zero Reasoner” 模型则建立在预先存在的能力(如阅读、写作、编程)之上。关于“零”是否真的应该表示没有先验人类知识,或者模型的性能是否部分源于预训练能力,存在争议。
- 论文中的一段技术摘录展示了 AZR (Absolute Zero Reasoner-Llama3.1-8b 在第 132 步) 处理故意混淆的 Python 任务,这些任务旨在挑战人类和机器学习模型,展示了该系统处理对抗性推理或代码理解挑战的实际能力。
- 我训练了一个 LTXV 13b LoRA。效果太疯狂了 (评分: 487, 评论: 43): 一名用户使用 LoRA 适配器微调了 LTXV 13B 视频扩散模型,通过官方的 Lightricks LTX-Video-Trainer 在 H100 GPU (使用 Runpod) 上,仅用约 1 小时就完成了 22 个视频样本、2,000 步的训练。生成的 LoRA 已分享在 CivitAI 上,转换后(使用 _comfy 后缀)可兼容 ComfyUI,并包含 workflow/YAML 指令;这展示了社区在极低算力和默认超参数下,快速扩展最先进视频扩散模型的能力。 评论强调了社区进行 LoRA 微调的速度(在模型发布后一天内就做出了反应),同时也表达了对硬件门槛的担忧(指出 3090/4090 等 GPU 用户面临的挑战)。对该用户 workflow 和技巧的请求,标志着人们对 LoRA 视频扩散模型微调的可复现性和最佳实践的兴趣日益浓厚。
- 讨论突显了社区适配的飞速,指出在基础模型发布仅一天内,LTXV 13B 模型的 LoRA 版本就已完成训练并发布。这不仅强调了 LoRA 微调的易用性,也体现了尽管存在资源限制,使用 RTX 3090 等消费级硬件的用户依然充满热情。
- SamsungCam UltraReal - Flux Lora (评分: 256, 评论: 29): 该帖子介绍了 “SamsungCam UltraReal - Flux Lora”,这是一个定制的 LoRA,旨在复制三星风格的摄影写实感,特别适用于基于 Flux 的生成式 AI 模型。该 LoRA 强调增强细节(如毛孔、发丝),减少了许多生成模型中常见的“塑料娃娃”皮肤伪影,并部分还原了三星鲜艳的色彩科学。虽然它是针对作者的 UltraReal Fine-Tune (https://civitai.com/models/978314/ultrareal-fine-tune) 优化的,但它也兼容基础的 Flux.dev,但在高分辨率(2MP)生成时可能会出现图像错误(尤其是手部)。 评论者注意到写实感有显著提升,强调该 LoRA 兑现了其承诺,相比标准模型能提供更逼真的输出。出现了一个关于激活 Windows 的玩笑,但与技术内容无关。
- 一位用户询问了角色微调的最佳 workflow:是使用 Ultrareal checkpoint 配合 Kohya 的 Dreambooth 效果更好,还是在基础 Flux.dev 模型上训练 LoRA 然后应用到 Ultrareal 上更好。这个问题表明了用户对微调堆叠(fine-tune stacking)、模型兼容性以及上游 checkpoint 对个性化质量潜在影响的关注。
2. 开源 AI 视频与图像生成工具及压缩
- 99% 使用开源和免费工具生成了整个视频。 (Score: 624, Comments: 69): 原作者详细介绍了一个接近 100% 开源/免费的视频创作流水线,结合了 ComfyUI 等工具与自定义工作流(使用 Flux Turbo、Redux、Gemini 1.2 Flash 来保持角色一致性),Wan2.2 和 Skyreels 用于图生视频合成,AudioX 用于生成 SFX,Suno 4.5 用于音乐,Zono 用于 TTS,仅有 Enhancor(皮肤写实化)是付费的。CapCut 被用作最终剪辑平台,并集成了 ControlNets 以保证输出保真度,共同展示了一个强大且模块化的 AI 内容技术栈。更多细节可以在原始 Reddit 帖子中找到。 顶级技术反馈指出,由于存在唯一的付费组件 (Enhancor),该过程大约 89% 是免费的,此外还表达了对该工作流的赞赏,并对视频的实际主题内容(而非针对工作流的批评)提出了疑问。
- 一位评论者强调了视频中强大的角色一致性,询问这是通过在一组真实照片上训练 LoRA (Low-Rank Adaptation) 模型实现的,还是涉及了其他方法或工具。这涉及到了与个性化图像/视频生成及训练方法相关的技术细节。
- 在 20GB VRAM 的 GPU 上无损运行 FLUX.1 (Score: 217, Comments: 66): 该帖子宣布了使用 DFloat11 (论文) 对 12B FLUX.1-dev 和 FLUX.1-schnell 模型进行的无损压缩版本。DFloat11 对 BFloat16 权重应用熵编码,在不改变输出的情况下实现了约 30% 的体积缩减(从 24GB 降至约 16.3GB)。这使得这些大模型能够在单个 20GB+ VRAM 的 GPU 上进行推理,仅产生短暂的单张图像额外开销。下载和使用示例可通过 HuggingFace 和 LeanModels GitHub 获取。 评论中的主要技术疑问是 DFloat11 是否可以应用于 SDXL 等其他大模型,主要用于减少存储空间,并且人们对未来支持 Forge 和 Comfy 等替代 UI/运行时的兴趣也很高。
- 一位评论者质疑了 DF11 压缩与现有方法相比的实际效用,特别提到 INT8_SYM 仅权重压缩已经接近无损,据称其在输出图像上仅产生“总共 0 到 10 个不同的像素”,且压缩率比 DF11 高出约 30%。这对应对 DF11 方法在模型尺寸缩减和保真度方面的声称优势提出了挑战。
- 针对该压缩方法的透明度和可复现性提出了技术担忧:有人要求发布压缩代码和
decode.ptx文件的源码,并对其来源表示怀疑(指出它是由 NVIDIA 的 NVVM Compiler 生成的,而非手写)。这强调了发布源码工件对于社区验证和扩展的必要性。 - 还有关于更广泛适用性的查询,特别是该技术是否可用于 SDXL 检查点(以节省存储)以及视频模型,这表明了将该方法推广到其原始范围之外的各种模型类别的技术兴趣。
3. 重大行业变革:Google、Reddit 和 OpenAI 的 AI 影响
- 一年前 Google 购买了使用 Reddit 内容进行 AI 训练的权利,现在其模型已处于领先地位 (Score: 373, Comments: 119):该帖子提到了 Google 在 2023 年达成的许可协议,获得了使用 Reddit 数据进行 AI 训练的权利(参见:WSJ 报道),暗示了获取 Reddit 内容与 Google 模型进步之间的联系。热门评论者强调,尽管 Google 签署了正式协议,但大多数 AI 实验室(OpenAI、Meta 等)此前已在未经许可的情况下抓取了 Reddit 数据,这意味着合法访问权在模型能力或训练方面可能几乎没有带来技术差异。另一个技术观察将互联网的梗/基准测试(benchmark)文化与模型评估联系起来,暗示 Reddit 的贡献者群体与设计 AI 基准测试的人群存在重叠。 一些人对 Google 交易的实际影响展开辩论,认为这种访问权限既不独特也不关键,因为 AI 社区此前已广泛抓取过 Reddit,因此该交易在很大程度上是象征性或法律层面的,而非产生技术优势。
- 几位评论者指出,虽然 Google 为 Reddit 内容支付了费用,但其他 AI 实验室历来在没有正式协议的情况下抓取 Reddit 数据,这表明购买行为本身可能没有带来直接的技术优势。其含义是,权利协议更多地关乎法律或伦理的一致性,而非独特的训练数据获取,因为大多数主流语言模型已经整合了 Reddit 数据。
- Glxblt76 强调,Reddit 通过其点赞系统提供了内在的内容策展,这可以通过确保更高质量或更具代表性的用户生成数据进入训练集来使 AI 训练受益。这种策展可能会间接影响模型性能,因为经过策展的数据集通常与改进的下游结果相关。
- Express-Set-1543 提出,Reddit 贡献者与基准测试创建者之间的重叠可能会在训练和评估数据之间引入分布对齐(distributional alignment),从而可能在常用基准测试中获得更高的分数——尤其是那些由活跃在 Reddit 上的同一技术社区设计的基准测试。
- 讽刺的是 AI 正在摧毁 Google。由于 Safari 浏览器搜索量下降,股价今天下跌了 10%。 (Score: 336, Comments: 153):该帖子讨论了 AI 驱动的聊天(LLMs)对 Google 广告驱动业务的技术影响,特别是在股价因 Safari 浏览器搜索量下降而下跌 10% 之后。发帖者认为,AI 助手可能会通过减少网站访问量来降低 Google 的核心搜索收入和第三方展示广告收入,同时还指出在 LLMs(如 Gemini)中直接插入广告对用户不友好。引用的财务数据包括 Google 对广告的高度依赖。未提供重大的新基准测试、模型发布或实现细节。 评论者参与了一场技术辩论:几位评论者强调,搜索广告(特别是针对商业意图的查询)仍然难以被 LLMs 完全取代,并强调 Google 多样化的广告生态系统(YouTube、Android、展示广告网络)缓冲了收入影响。其他人指出,聊天机器人内部的广告变现缺乏成熟模式,这在一定程度上解释了 OpenAI 采用订阅模式的原因。Google AI 的竞争性技术定位也被视为一种战略优势。
- 讨论集中在搜索广告收入被取代的复杂性上:像 ChatGPT 或 Gemini 这样的聊天机器人并未显著侵蚀 Google 的核心搜索广告业务,因为聊天机器人的交互模式不利于有效的广告投放——这与传统的网页、应用或视频搜索环境不同,在后者中,用户交易或点击的意图更清晰且具有高度变现价值。
- 几位用户强调,Google AI 的技术进步(例如 Gemini Advanced 上的“Deep Research”)反映了向更复杂、基于订阅的 AI 产品的战略转变,但目前对高价值查询的传统搜索依赖意味着语义搜索/聊天机器人不会立即取代关键收入流。
- 提到的一个重大技术和财务风险是市场对有关 Google 搜索主导地位的反垄断诉讼的反应,特别是他们与 Apple 达成的作为 Safari 默认搜索提供商的交易;监管变化威胁到每年约 200 亿美元的收入流,目前被认为对股价的影响比 AI 引起的搜索颠覆更大。
- OpenAI 占据美国企业 AI 订阅支出的 80% (Score: 160, Comments: 59): 该图表展示了美国企业在 AI 订阅上的支出情况。根据 Ramp.com 的商业卡数据,OpenAI 的采用率为 32.4%(占总卡支出的 80%),显示出 AI 整体采用率快速增长,预计到 2025 年中期将达到 40.1%。竞争对手如 Anthropic (8%)、xAI、Google 和 DeepSeek 合计份额较小,除 Anthropic 外均低于 1%。该数据仅针对使用 Ramp 的企业,而非整个市场,这可能会导致代表性偏差。 评论者强调数据局限于 Ramp.com 平台,可能无法反映更广泛的商业格局。对于 Google 在发布重大模型 (2.5) 的同时份额却在下降,人们表现出了技术上的好奇。
- 一位评论者指出,OpenAI 报道的 80% 市场份额仅代表使用 ramp.com 服务的公司数据,警告该样本可能无法反映更广泛的美国商业格局或 Ramp 用户群之外的总体支出模式。
- 针对 Google 报道的企业 AI 市场份额存在技术审查,人们怀疑包含重大 AI 功能的 “Google Workspace for Business” 在数据中显示的采用率极低 (0.1%)。评论者认为这可能是由于会计处理不完整,或者是源统计数据中捕获 AI 相关支出的方法论问题。
- 一位评论者观察到 Google 份额的显著下降与 2.5 版本的发布相关,暗示可能存在问题或企业采用率的转变,但要求更多数据以澄清这是报告偏差还是反映了真实的使用趋势。
其他 AI Subreddit 综述
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo
1. Gemini 2.5 Pro 模型更新与基准测试
- Gemini 2.5 Pro 更新:编程性能进一步提升 [Google Blog] (Score: 188, Comments: 34): Google 最新的 Gemini 2.5 Pro Preview (05-06) 提升了编程性能,尤其是在前端/UI 工作方面,其在 WebDev Arena 排行榜上排名第一就是证明。关键改进包括更强大的代码转换/编辑、增强的 Function Calling(具有更低的错误率和更高的触发率),以及更好的 Agentic 工作流支持;视频理解也达到了业界领先水平(84.8% VideoMME 基准测试)。模型版本别名(例如 03-25 现在指向 05-06)意味着用户端无需为升级采取行动,确保了无缝的 API 部署。 评论者对就地更新模型版本的做法表示担忧——这可能会破坏可复现性和版本控制的最佳实践——同时也指出改进主要局限于编程,科学和数学能力仍落后于竞争对手(例如在某些领域落后于 GPT-4o)。
- Gemini 2.5 Pro 的更新流程因最新模型版本的别名化而受到批评;用户提到 ‘03-25’ 端点现在自动引用 ‘05-06’,引发了关于正确版本控制和可复现性的技术担忧(例如,在相同的版本标签下,模型输出可能会随时间而变化)。
- 虽然 Gemini 2.5 Pro 显示出针对编程的改进,但用户注意到在其他领域进展不足,特别是在科学和数学方面,据报道甚至 Google 自己的基准测试也显示旧模型在这些领域的表现优于它。有提到 Logan(可能是 Google 员工)确认这是一个针对编程的更新。
- 尽管编程基准测试表现强劲,但批评性评论指出了持续存在的失败案例:Gemini 2.5 Pro 被指出会生成调用不存在函数的代码,或在基础编程任务(如过滤包含字符串的行)中返回错误结果,揭示了代码生成可靠性方面持续存在的挑战。
- 更新后的 Gemini 2.5 Pro 现位居 WebDev Arena 排行榜第一 (得分: 201, 评论: 39): 图片展示了 WebDev Arena 排行榜,新更新的 Gemini 2.5 Pro 模型以 1420 的最高竞技场得分登顶。排行榜直观地比较了各模型在 WebDev Arena 基准测试中的编程表现,高亮指标显示 Gemini 2.5 Pro 较前一版本提升了 +147 Elo,标志着其在编程和 Web 开发任务能力上的显著飞跃。此次更新使 Gemini 2.5 Pro 领先于其他主流模型,凸显了基于 LLM 的编程助手领域的快速进步。 评论者对编程性能的飞跃幅度(+147 Elo)印象深刻,一些人指出更新后的模型在创意写作能力方面也有明显改进——重复更少,且对 Prompt 的理解更好。
- 多条评论强调了 Gemini 2.5 Pro 的显著性能飞跃,因为它已夺得 WebDev Arena 排行榜的冠军。这表明其相对于先前版本以及潜在竞争模型有了显著改进,特别是在与 Web 开发基准相关的任务中。
- 一位用户注意到创意写作任务中的实际改进,称该模型重复性更低、更自然,且对 Prompt 的理解更好。这表明更新版本在自然语言生成和上下文感知方面取得了显著进展。
- 人们期待通过“simple-bench”等第三方基准测试进行进一步评估,这表明虽然排行榜结果令人振奋,但社区仍看重通过全面、独立的测试来验证所声称的改进。
- Gemini 2.5 Pro 新版本:gemini-2.5-pro-preview-05-06 (得分: 333, 评论: 68): 图片是一个官方风格的横幅,宣布发布“gemini-2.5-pro-preview-05-06”,被 Google/DeepMind 描述为“我们最先进的推理模型”。标题和极简设计强调了这是一次技术升级,可能涉及 Gemini 2.5 Pro 语言模型在复杂推理和问题解决能力方面的改进。版本号暗示了对之前内部/原型版本的迭代增强,顶层评论中提到的“Matts_fixes_APPROVED”可能意味着对近期 Bug 修复或架构调整的特别关注。 技术评论者对此次升级表达了期待和好奇,询问实际体验,并建议采用这一特定变体(由于已批准的修复),暗示了内部对 Gemini 发布候选版本的可靠性或性能存在讨论。
- 关于模型版本控制的讨论:具体而言,引用的发布版本是 “gemini-2.5-pro-preview-05-06-FOR_RELEASE_use_this_one!!!_Matts_fixes_APPROVED(2)(2)”,表明存在一些内部或补丁相关的更新,以及标注为“Matts fixes”的审核通过。这种命名级别暗示了在广泛部署前存在阶段性或内部 QA 流程。
- 提到了技术部署:最初,用户注意到该模型仅在 Vertex AI 上可用,随后一名用户确认其在 AI Studio 中也已上线,凸显了 Google AI 平台之间交错的推出节奏以及模型更广泛可访问性可能存在的延迟。
- 针对 Google 的命名习惯提出了一个元观点:一位用户质疑 Google 是否会将模型移出“experimental”或“preview”阶段,暗示其 AI 模型发布存在长期处于预览状态的模式,这可能会影响生产环境的采用时间表。
-
今日 Gemini 2.5 Pro 更新 (得分: 300, 评论: 20): Google 的 Gemini 2.5 Pro 更新通过使用 1988 年原始论文中的标准 IFS 参数实现经典的 Barnsley fern 分形,展示了精确的代码生成能力,正如 Google 官方博客文章(来源)所报道的那样。技术评论者观察到所选算法广为人知且简单,并指出成功的、无引导的代码生成说明了该模型在识别和正确应用计算机图形学历史中的经典解决方案方面的能力。 一个值得注意的争论点是使用经典算法作为基准的意义;一些人认为这突显了预期的 SOTA LLM 性能,而另一些人则指出 Gemini 2.5 Pro 在最近的使用中整体质量超过了许多 GPT 变体。
- 一个值得注意的技术讨论点涉及 Google 用来展示 Gemini 2.5 Pro 的示例——一个著名的分形生成算法。多位用户强调该算法“极其陈旧且相对容易实现”,暗示这类任务对于任何尖端 (SOTA) 大语言模型 (LLM) 来说都应该是轻而易举的。
- 一些用户直接将 Gemini 2.5 Pro 的能力与其他领先的 LLM 进行对比,指出其最近的更新带来了显著的性能提升,甚至认为它在实际应用场景中“比大多数 GPT 模型表现更好”。
- 一位用户提出了关于 Gemini 2.5 Pro 推理能力的关键技术问题,反映了社区对于其架构和训练是否已实质性超越早期模型推理限制的持续关注。
2. OpenAI 收购 Windsurf 的报道
- OpenAI 达成协议以 30 亿美元收购初创公司 Windsurf (Score: 187, Comments: 50): 据报道,OpenAI 已同意以 30 亿美元收购 AI 编程 Agent 初创公司 Windsurf。Windsurf 以其快速发布的、可与多种 AI 模型集成的开源编程 Agent 而闻名,而目前的生态系统特征是开源编程 Agent(如 Aider, Kilo Code, Cline)与各种模型(发布频繁且本地/廉价模型可用性不断增加)之间的分离。人们担心 OpenAI 的收购可能会使 Windsurf 未来的产品偏向于 OpenAI 模型,而非 Gemini 或 Claude 等替代方案,从而可能降低生态系统的多样性和开放性。 以技术为中心的担忧强调了垂直整合降低用户选择和创新速度的风险,特别是如果以前与模型无关的 Agent 被锁定在单一供应商中。鉴于当前的市场动态,30 亿美元的估值也被质疑可能过高。
- 存在对垂直整合和潜在平台锁定的担忧,如果 Windsurf(此前是一个支持广泛模型的开源 AI 编程 Agent)在收购后开始偏向 OpenAI 模型。这可能会破坏当前的生态系统,在当前生态中,开源编程 Agent(如 Cline, Roo, Aider, Kilo Code)能够快速添加功能并支持多种模型,促进整个领域的创新和公平竞争。
- 一位评论者认为,收购成本因 Windsurf 用户遥测数据的价值而变得合理,OpenAI 可以利用这些数据来增强其编程模型。这表明 OpenAI 目前在 AI 编程工具领域的地位可能比预期的要弱,此次收购是加强其数据集和专有模型训练的战略举措。
- 存在关于市场策略的讨论,观点认为“仅仅贴上 OpenAI 的名字”到 Windsurf 上就能推动采用,无论其实际技术是否领先。一些人指出,OpenAI 在编程人员中的主导地位(其中许多人只使用 ChatGPT)赋予了它压倒性的网络和分发优势,即使像 Cursor 这样的替代方案存在且在技术上可能更好。
- OpenAI 达成协议以 30 亿美元收购初创公司 Windsurf (Score: 513, Comments: 94): OpenAI 已同意以约 30 亿美元收购 AI 初创公司 Windsurf,旨在整合 Windsurf 的技术和人才,以加速其产品开发并扩展核心 AI 能力。此次收购可能旨在加强 OpenAI 在基于订阅的 AI 工具领域的地位,并有望增强基础设施和模型创新。Bloomberg 报道 提供了更多细节。 技术评论员争论 Windsurf 的技术是否值 30 亿美元的价格,认为可以用更少的钱重建,并质疑整合到 OpenAI 的付费层级中是否会成为一个显著的差异化因素——特别是提到了像 Cursor 这样的竞争对手。
- 一个关键的技术讨论集中在垂直整合的风险上:收购 Windsurf 可能会导致其平台优先考虑 OpenAI 自己的模型(如 GPT-4/5),从而减少对竞争模型(如 Google Gemini, Anthropic Claude)的支持或访问。这可能会对开发者的选择和生态系统的多样性产生负面影响,而目前的生态系统由于 Agent 与模型的分离以及持续的开源创新而蓬勃发展。
- 一位评论者指出,每周都有许多 AI coding agents(例如 Cline, Roo, Aider, Kilo Code)发布,其中大多数是开源的,并且集成了多个模型。有人担心这次收购可能会阻碍功能的快速开发或与非 OpenAI 模型的兼容性,因为公司所有权可能会优先考虑专有集成而非包容性。
- 针对收购成本存在技术上的反对意见,有人建议 Windsurf 的核心功能可以用远低于 30 亿美元的成本进行复制,这让人质疑这种巨额支出背后的效率和技术差异化是否合理。
- OpenAI 达成协议以 30 亿美元收购初创公司 Windsurf (Score: 632, Comments: 120): 据报道,OpenAI 已达成协议,以 30 亿美元收购初创公司 Windsurf。帖子中未提供有关 Windsurf 技术或产品的详细信息,但高估值表明 Windsurf 拥有 OpenAI 认为难以或耗时复制的独特知识产权、技术基础设施或人才。相关评论还指出,Cursor(据推测是另一家科技初创公司)在融资 9 亿美元后,目前的估值为 90 亿美元,这突显了当前 AI 领域的高估值。 评论者质疑为什么 OpenAI 会收购 Windsurf 而不是在内部开发相关技术,暗示 Windsurf 可能拥有 OpenAI 不易复制的重大技术或组织优势。
- 几位用户讨论了 Cursor 的高估值(90 亿美元)和 Windsurf 的 30 亿美元收购,其中一人指出了 Cursor 最近的 9 亿美元融资轮,这标志着对 AI 驱动的开发者工具和 IDE 的密集投资和兴趣。
- 一位用户推测,OpenAI 对 Windsurf 的收购可能与其未来的软件工程师 Agent 策略有关,表明 Windsurf 的技术可能在驱动自主或半自主编码系统方面发挥关键作用,超越 OpenAI 内部开发的能力。
- 另一条评论认为,这次收购标志着 AI 驱动的 IDE 和开发者平台之间竞争的重大升级,暗示着由该领域的大规模投资和并购驱动的“IDE 大战”即将到来。
3. 最新的 AI 图像和视频生成模型发布
- LTXV 13B 发布 - 兼顾高质量与极速 (Score: 1026, Comments: 180): Lightricks 发布了 LTXV 13B,这是一个开源的 13B 参数视频生成模型,具有多尺度渲染功能:它最初生成低分辨率帧并进行迭代优化,从而实现了极高的渲染效率和改进的物理真实感。该模型声称比同类模型快约 30 倍,支持高级控制(关键帧、摄像机/场景/角色运动、多镜头序列),并提供针对本地 GPU 使用优化的标准版和量化(FP8)版本。授予完整的商业权利(某些大型企业除外),生态系统包括易于使用的 LoRA 微调训练器(GitHub)、ComfyUI 工作流和 Diffusers pipelines;该模型及其 FP8 变体可在 Hugging Face 上获取。 评论者强调了下载大小(约 26GB),但对 FP8 量化版本的可用性表示赞赏,并期待将其与 Wan FLF 和 SkyR I2V 等其他近期视频模型进行比较。仓库文档中指出了量化模型的质量/速度权衡。
- 针对 LTXV 13B 的 8 位浮点(FP8)工作流存在担忧:用户报告放大后细节明显降低,且存在一致的曝光偏移(图像变亮且对比度降低),这可能会限制其在高保真或色彩关键型应用中的实用性。
- 一位用户询问硬件兼容性,特别是具有 4GB VRAM 和 32GB RAM 的系统是否可以运行该模型,暗示鉴于 LTXV 13B 庞大的模型尺寸(标准版为 26GB),可能面临资源限制的挑战。
- Insert Anything – 使用强大的 AI 编辑工具将任何物体无缝插入图像 (Score: 152, Comments: 32): “Insert Anything” 是一个 AI 驱动的图像编辑框架,允许将任何参考对象无缝插入目标图像。该工具声称能保留照片级的细节(颜色、纹理),并支持虚拟试穿、广告和表情包创作等应用。代码和工作流通过 Hugging Face Space 和 GitHub 提供,并集成了 ComfyUI 工作流。 评论者指出,据报道该工具需要
~26GB VRAM,这意味着对硬件有较高要求,对于使用中端 GPU(如 RTX 3060)的用户来说门槛较高。至少有一位用户表示其功能运行良好。- 用户正在讨论在本地运行该工具所需的巨大 VRAM(26GB),担心 RTX 3090 (24GB VRAM) 或 RTX 3060 (12GB VRAM) 是否能处理该工作负载,这暗示了模型体积庞大或操作资源密集。
- 一位用户询问底层模型或架构,质疑该工具是否基于 Flux, SDXL 或其他框架,表明希望了解更多关于图像编辑方法的实现细节。
- ZenCtrl 更新 - 源代码发布及主体驱动生成一致性提升 (Score: 127, Comments: 30): 该图像是一个拼贴图,展示了 ZenCtrl 在不同视角和场景下主体一致性(subject consistency)的最新改进。此次更新解决了之前模型在角度或场景变化时主体特征崩溃的弱点,这得益于额外的训练和模型优化。此次发布包含了 ZenCtrl 的开源,现已在 GitHub 上提供,同时附带了 Hugging Face 演示和 Discord 链接,强调其用于可控 AI 图像生成的开放、模块化方法。 评论者询问 ZenCtrl 的架构,特别是它是否类似于针对 SDXL/Flux 的 ControlNet,或者是否包含了自己的生成骨干网络(backbone),以及它与 ComfyUI 的潜在集成。技术讨论集中在实现细节和工作流兼容性上,表明了对现有流水线中模块化集成和可用性的浓厚兴趣。
- 用户询问 ZenCtrl 的运行方式是否类似于 SDXL/Flux 的 ControlNet,或者该仓库是否也包含一个独立的图像模型。这个问题旨在澄清 ZenCtrl 是通过主体条件(subject conditioning)增强现有的 Diffusion 流水线,还是其本身提供了一个完整的生成骨干模型。
- 另一位评论者询问在 ComfyUI 中的可用性,表明对集成细节和可组合 Diffusion 工作流兼容性的兴趣。他们正在寻求有关 ZenCtrl 如何作为节点或模块整合进 ComfyUI 流水线的技术文档或社区确认。
- 有人提出了关于项目许可证从 Apache 变更的问题,这涉及到开源使用、再分发和商业改编的影响。这对于可能集成或扩展 ZenCtrl 的下游开发者来说至关重要。
- ComfyUI API 节点与新品牌推广 (Score: 133, Comments: 67): ComfyUI 宣布了针对一系列最先进(SOTA)第三方模型的原生 API 节点集成,包括 Bfl FLUX, Kling, Luma, Minimax, PixVerse, Recraft, Stability AI, Google Veo, Ideogram 和 Pika。访问这些 API 是可选的(opt-in)且需要预付费,仅收取底层 API 成本和一些交易费用,而 ComfyUI 核心仍然免费且开源。更多技术细节和实现背景在其官方 博客文章 中提供。 技术用户对向 SaaS/API 依赖的方向发展表示保留意见,但也认识到项目可持续性的需求;一些人强调了对持续开源访问的赞赏,同时也指出了对外部服务集成的哲学担忧。
- 一些用户担心 ComfyUI 向 API 节点和新品牌发展的方向最终可能导致闭源 API,这可能会影响透明度和开放的社区贡献。关于开源项目的可持续性与通过 SaaS 或受限 API 等方法进行盈利的需求之间存在着潜在的争论。
- 提供了一个指向 ComfyUI 博客文章 (https://blog.comfy.org/p/comfyui-native-api-nodes) 的直接链接,供寻求新引入的原生 API 节点深入信息的技术读者参考。这可能预示着 ComfyUI 生态系统在架构或可扩展性方面的重大变革。
AI Discord 摘要
由 Gemini 2.5 Flash Preview 生成的摘要之摘要
主题 1. 新模型登场,带来动力的同时也伴随着问题
- Qwen 3 在代码方面优于 Gemini:用户发现 Qwen 3 模型在编程方面优于新的 Gemini 2.5 Pro 更新。它能提供符合指令的功能代码,而 Gemini 则会完全忽略指令并过度设计请求。一位用户表示,Qwen 3 在编程任务的各个方面都表现更好。
- 用户报告 GPT-4o 变笨:成员们怀疑 GPT-4o 是否正在失去水准,报告称其出现了随机、偏离主题的回答以及整体性能下降,尽管也有人声称他们的模型运行得非常出色。一位用户直接问道:“gpt 怎么了?为什么表现得这么奇怪?它会随机回复一些偏离主题的内容。”
- Mistral Medium 3 发布,引发辩论:Mistral Medium 3 已发布(Mistral 官方公告),引发了从“没用”到“可能适合创意写作”的褒贬不一的反应。同时,其他人指出 DeepSeek v3 更便宜且在基准测试中表现更好。该版本的定价极具竞争力(每百万 token $0.4 输入 / $2.0 输出)。
主题 2. 挑战硅片极限:硬件、速度与优化
- Cerebras 与 Groq 在模型托管领域展开对决:OpenRouter 宣布 Cerebras 成为新供应商(X 帖子链接),其拥有巨大的 4 万亿晶体管芯片和 40 GB 片上内存,引发了与 Groq 在托管 DeepSeek v3.1/r1 等大型模型方面的辩论。用户注意到 Cerebras 在 Llama 4 Scout 和 Llama 3.3 70B Instruct 等模型上提供了极高的 TPS。
- NVIDIA GPU 等级讨论:尽管 Tensor Core 算力较低,A6000 Ada 的原始性能通常优于 L40s,这可能是因为 L40s 默认开启了 ECC 内存。而在 4x GB 显存类别的租用性价比(tokens/$)方面,A40 占据主导地位。4090 是最快的 Ada 显卡,但与 L40s 服务器相比,面临更多的过热问题。
- 量化技术大爆发:TorchAO 与 ExecuTorch 提升效率:PyTorch 通过 TorchAO 在 Hugging Face 上发布了量化版的 Phi-4 Mini Instruct 模型。这些模型针对 vLLM (INT4/FP8) 和 ExecuTorch (INT8/INT4) 进行了优化,在 GPU 和移动设备上实现了显著的内存占用减少和速度提升。这些模型在 iPhone 15 Pro 上使用 3206 Mb 内存达到了 17.3 tokens/sec 的速度。
主题 3. 开发工具与生态系统随 AI 进化
- Cursor 学生折扣遇到障碍:用户报告在获取免费 Cursor 学生折扣 时遇到问题,面临验证困难和计费错误,特别是使用法国 .etu 等国际教育邮箱时。建议包括联系支持邮箱 hi@cursor.com。
- OpenRouter 引入 Cerebras 并增加数据导出功能:OpenRouter 增加了 Cerebras 作为供应商(X 帖子链接),并很快将在其活动页面推出导出功能(X 帖子链接),方便用户提取使用数据。有用户请求针对活动统计数据进行时区调整。
- MCP 服务器引发安全与易用性担忧:人们对 MCP 服务器 的安全性表示担忧,包括信任来自陌生人的代码以及确保凭据不被泄露。同时,也在讨论 Cursor 在按照 MCP 规范 预期利用 MCP 资源方面存在的困难。调试 MCP 服务器(尤其是通过 stdio)被证明具有挑战性,用户建议使用 tee stream 或参考此调试指南。
主题 4. 训练、微调与数据信任
- Absolute Zero 论文引发 Self-Play 争论:关于论文 Absolute Zero: Reinforced Self-play Reasoning with Zero Data 的讨论集中在模型是否能生成真正多样化的问题,或者它们是否仍然受限于模型所能想出的问题的多样性,这与其预训练数据(pretraining data)挂钩。成员们推测该模型主要解决的是其预训练数据中反映的问题。
- 基准测试因数据污染受到审查:由于模型可能在基准测试数据本身上进行过训练,LLM benchmarks 的可靠性受到质疑,导致社区建议对结果持“保留态度”。尽管存在担忧,成员们仍承认需要指标来评估模型。
- Dolphin 寻求“调皮”数据进行训练:Cognitive Computations 的 Eric 正在寻求帮助,以实现民主化、匿名化并有机地获取调皮(naughty)交互数据,从而使用名为 dolphin-logger 的工具训练 Dolphin 模型。用户可以安装 dolphin-logger,将密钥添加到 .env 并运行,然后将你的 agentic/MCP 工具指向它。
Theme 5. AI Agents 获得技能,面临障碍
- LlamaIndex 助力深度研究 Agents:LlamaIndex 发布了一个工作坊教程,指导用户使用 AgentWorkflow 从头开始构建 Deep Research agent,能够通过创建单个多智能体系统执行更深入的分析。他们还更新了 LlamaExtract 以增强引用和推理能力(LlamaIndex 的推文)。
- Aider 学习搜索,使用 Perplexity API:用户正在探索赋予 Aider 网页搜索功能,建议使用 Perplexity API key 作为 OpenAI 兼容的端点,或通过 /web 命令手动将网页内容添加为 markdown 文件。这允许将网页搜索集成到编码任务中。
- Agent 黑客松提供现金和额度奖励:LLM Agents MOOC 宣布了由 Auth0(最高 $5,000 现金)和 Lambda(最高 $1,000 额度)赞助的黑客松,用于构建和扩展 AI agents。请在 lu.ma/AgentX-lambda 注册 Lambda AgentX 工作坊。
Discord: 高层级 Discord 摘要
LMArena Discord
- GPT-4o 在 O1 擅长的领域表现挣扎:成员们注意到 GPT-4o 在处理电子和哲学任务时不如 O1,这表明模型的知识库存在差异。
- 一位用户指出,O1 可以思考并回忆电子相关内容,而 4o 必须立即预测聊天回复。
- Grok 3.5 传闻引发 ASI 推测:AI 社区推测 Grok 3.5 是 Grok 4 的调优版本,可能正在接近 Artificial Superintelligence (ASI)。
- 一些用户报告在 UI 中短暂获得了 Grok 3.5 的访问权限,但其他人认为这些说法是假新闻。
- Gemini 2.5 Pro 编码评价褒贬不一:Gemini 2.5 Pro (0506) 的早期评价显示其在编码和网页设计性能方面有所提升,但在其他领域性能可能有所下降。
- 尽管它在编码方面很强,但一些用户认为它被高估了,因为它的分析过程和上下文处理不如其前代产品。
- O3 Pro 仍然缺席:社区对 O3 Pro 的持续缺席感到失望,并推测 OpenAI 可能在刻意推迟发布。
- 一位用户开玩笑说 OpenAI 不想让你用它,并指出由 Grok 4 编写的虚假公告的可能性是该模型能力的体现。
- LMArena 增强 Discord,寻求反馈:LMArena 正在通过招聘社区经理并寻求有关 Discord 改进的反馈来投资其 AI community,以促进参与和增长,反馈可通过此调查提交。
- 社区成员可以就他们希望在 Discord 中看到的潜在变化提交想法。
Perplexity AI Discord
- Perplexity Discord 机器人被砍:用户对 Perplexity Discord 机器人的移除表示失望,并建议通过 Perplexity API、Gemini 和 OpenRouter 寻找自托管替代方案。
- 一位用户指出,GitHub 有很多选择,配合 Gemini + OpenRouter 基本上可以实现免费使用。
- Perplexity 图像生成难倒用户:用户报告了 Perplexity 图像生成的问题,收到了改用 MidJourney 的指令;该问题可以通过开启新对话(thread)解决。
- 有用户建议旧的上下文可能会产生干扰,推荐在新对话中尝试。
- AI 聊天机器人权衡 AI 中的广告:对话集中在 AI 回复中可能包含广告的可能性,并引用了一篇关于 Apple 表示 Google 搜索量正在下降,用户更青睐 AI 搜索的文章。
- 一位用户注意到 Copilot 在被要求寻找特定物品时尝试推荐额外产品,展示了广告插入的一种形式。
- Google 为 Apple 搜索引擎地位支付巨额费用:用户讨论了 Google 为保持在 Apple 设备上的默认搜索引擎地位而支付的流量获取成本 (TAC),估计 Google 每年向 Apple 支付约 200-210 亿美元。
- 分析表明,失去在 Apple 设备上的默认地位可能会导致 Google 损失 282-327 亿美元的收入。
- Deep Research 产出长篇报告:一名成员分享了一份关于特定主题的 Deep Research 报告,这是一份内容扎实的报告,字数达到了 6200 字。
- 该研究可以通过此 Perplexity AI 链接查看。
OpenAI Discord
- Veo 2 在视频对决中力压 Sora:成员在视频生成方面对比了 Veo 2 和 Sora,发现 Veo 2 速度更快、质量更高,且在遵循 Prompt 和参考图像方面更准确;而 Sora 生成的视频质量较低,且无法遵循 Prompt。
- 用户批评 Sora 存在剪辑痕迹、随机场景变换、糟糕的物理效果以及审查问题。
- DeepSeek R1 呼应早期 GPT-4:内部分析显示,像 R1 和 V3 这样的 DeepSeek 模型表现出与早期 GPT-3.5/4 输出类似的响应模式和语法,表明它可能通过蒸馏(distillation)或微调(fine-tuning)模仿了 OpenAI 的输出。
- 证据指向来自低使用率地区通过 API Token 进行的大批量输出提取,进一步引发了猜测。
- GPT-4o:它真的变笨了吗?:成员们公开质疑 GPT-4o 是否失去了灵性,一些用户报告了随机、偏离主题的回复以及整体回复质量的下降。
- 虽然一些用户建议检查对话记忆(conversation memories)中是否存在干扰信息,但其他用户声称他们的 GPT-4o 运行得非常出色。
- Hypertree Prompting 创建了出色的计划:一名成员分享了一个使用新的 hypertree planning prompting 的 ChatGPT 对话链接,认为它可以以更易于管理的方式提供/组织上下文。
- 对话者表示,这听起来效果会非常出众。
- 原子在可见光下发光,超出预期:成员们分享了一张悬浮在原子阱中的单个 Yb 原子图像,证明了原子在能量饱和时可以直接发射可见光。
- 虽然可见光不能用于“看到”单个原子,但原子可以在可见光谱中发射光线。
Cursor Community Discord
- 学生折扣计划问题频发:用户报告在申请 Cursor 学生折扣 时遇到问题,包括验证困难和计费错误。
- 成员们认为折扣可能与用于验证的电子邮件绑定,有人指出法国的 .etu 邮箱无法被正确识别,建议联系 hi@cursor.com 寻求支持。
- Gemini 2.5 Pro 在工具调用上失误:用户分享了在 Cursor 中使用 Gemini 2.5 Pro 的体验,指出虽然该模型总体表现不错,但经常无法正确调用工具,并在 JSON 格式化方面(尤其是字符串中的反引号)表现挣扎。
- 一名用户提供了一个 请求 ID,在该案例中 Gemini 声称将应用更改但从未调用任何工具。
- MCP 服务器引发安全审查:人们对 MCP (Model Context Protocol) 服务器 的安全性表示担忧,特别是关于信任来自随机人员的代码,以及确保库不会将 MySQL 凭据发送到未经授权的服务器。
- 一位成员建议在运行 MCP 服务器之前检查 GitHub 仓库,在本地构建,或者使用 Cursor 创建自己的 MCP。
- Discord 频道结构引发讨论:成员建议重构 Cursor Discord 服务器,增加更多频道并优化组织结构,类似于 Langchain 的 Discord 设置,以改善导航和社区参与度。
- 据确认,一个团队正在处理频道优先级和归档工作,以更好地支持社区。
- PowerShell 版本问题依然存在:一名用户在将 PowerShell 7 设置为 Cursor 默认终端时遇到困难,尽管更新了设置。
- 建议的解决方案是在更新 Settings.json 以包含 PowerShell 7 的特定配置后,关闭上一个终端会话并启动一个新会话。
OpenRouter (Alex Atallah) Discord
- OpenRouter 活动页面增加导出功能:OpenRouter 宣布其活动页面即将推出 导出 功能(X 帖子链接),允许用户提取数据进行进一步分析。
- 一位用户请求对统计数据进行时区调整,突显了对易用性改进的持续需求。
- Cerebras 加入 OpenRouter,挑战 Groq:OpenRouter 宣布 Cerebras 成为新供应商,宣传其拥有 4 万亿个晶体管 和 40 GB 片上内存 的巨型芯片(X 帖子链接),并承诺提供高吞吐量。
- 成员们辩论了 Cerebras 与 Groq 在托管 DeepSeek v3.1/r1 等大型模型方面的优劣,考虑了硬件容量和模型大小等因素。
- DeepSeek 模型引发供应商速度竞赛:用户正热切期待快速、长上下文的 DeepSeek v3.1/r1 供应商,因为市场上存在速度方面的空白。
- 讨论围绕着通过优化的投机解码在 H100 上实现 300 tok/s 的速度展开,但也有人认为该模型对于 Groq 的硬件来说太大了,需要 2700 张卡才能装下权重。
- Mistral Medium 3 发布,反应不一:Mistral Medium 3 的发布反响不一,一些用户认为它“没用”,而另一些人则认为它在创意写作方面有潜力,但也有人表示 DeepSeek v3 更便宜且在基准测试中表现更好。
- 一些人注意到 Mistral 在 Mistral Medium 的帖子中预热了他们的新大模型,部分成员提到他们的 2504 checkpoint 已经在 Cerebras 上部署了一段时间。
- Clippy 作为 VS Code 扩展回归:Felix Rieseberg 将标志性的 Clippy 作为 VS Code 扩展带回(Clippy VS Code 扩展),为编程世界注入了一剂怀旧良药。
- 该扩展复活了来自 Microsoft Office 的著名回形针助手,为开发环境增添了幽默元素。
Unsloth AI (Daniel Han) Discord
- Qwen3 A3B 凭借 3B 激活参数表现出色:成员们认为 Qwen3 a3b (Mixture of Experts) 模型令人印象深刻,并指出 a 指的是推理过程中的 3B 激活参数 (active parameters),其表现优于 qwq32b。
- A3B 模型(总参数 30B)使用的 RAM 与 32B Q6k 大致相同,约为 25GB。
- Qwen3 训练后的 GGUF 转换障碍:在训练 Qwen3-30b-a3b 后,一位用户在将其转换为可用的 gguf 文件时遇到问题,随后有人建议在 llama.cpp/ 主目录下为 llama-quantize 创建软链接 (symlink)。
- 该用户发现 llama-quantize 位于 llama.cpp/bin/ 而不是 llama.cpp/ 主目录中。
- vLLM 错误与 LoRA Adapters、V1 引擎有关:一位用户发现 vLLM 错误可能源于 LoRA adapters 以及 vLLM 中的 v1/v0 引擎,当强制 vLLM 使用 v0 引擎 时,错误得到了解决。
- 该问题发生在某些版本在使用 adapters 时默认切换到 V1 引擎。
-
Phi-3.5 的过早停止问题:一位成员注意到,微调像 Phi-3.5 这样的 LLM 仅依赖 **< end >** 来发出停止信号,导致它会一直生成内容直到达到 token 限制。 -
默认分词器 (tokenizer) 的 padding token 是 **< placeholder6 >,随后会附加 **tokenizer.eos_token。
-
- Absolute Zero 引发关于 Self-Play 局限性的辩论:围绕论文 Absolute Zero: Reinforced Self-play Reasoning with Zero Data 的讨论强调,它仍然受限于模型能构思出的问题的多样性。
- 有人推测该模型只能解决其预训练数据中已经反映的问题,尽管现有数据可能会启发它创造更多样化的问题。
Manus.im Discord Discord
- Manus 超越 ChatGPT:一位成员形容 Manus 与 ChatGPT Plus 相比简直是“另一个世界”,对其能力赞不绝口。
- 另一位成员建议将 Deepseek v3 或 Gemini 2.5 Pro 作为完全免费的替代方案。
- 提议开设国际频道:一位成员提议在 Discord 服务器中增加一个国际频道,并艾特了管理员以促进其创建。
- 另一位成员认为现有的 <#1349440507507376129> 频道带有地球图标,感觉欢迎任何语言。
- o3 Agent 概念澄清:一位成员澄清说,o3 是一个类似于 4o 或 Deepseek R1 的具有工具访问权限的模型,而 Manus 则利用 Claude 3.7 Sonnet 并提供了一个用于全面控制的环境。
- 该成员建议专注于 Python 并研究 ArXiv 上的论文以进行进一步学习。
- ChatGPT Plus 价格受到质疑:一位成员质疑 ChatGPT Plus 订阅的持续价值。
- Manus 未能通过“Cringe”测试:一位成员发现,当要求 Manus 去除剧本中的 cringe(尴尬感)时,它并未成功。
- 另一位成员澄清说,系统可能无法有效地过滤内容,因为 cringe 在普通词典中没有明确定义,而且它是一个新出现的网络俚语。
aider (Paul Gauthier) Discord
- Gemini 2.5 在编程方面表现不佳:尽管基准测试有所提升,但一些人认为 Gemini 2.5 Pro Exp 与 Sonnet 相比在代码方面是“工业垃圾”,而另一些人则认为在 Aider 中使用其 25 次免费请求很有用。
- 成员们报告称,/vendor 文件夹似乎是导致 API 错误的原因。
- Mistral Medium 3 在价格上具有竞争力:根据 Mistral 官方公告,Mistral Medium 3 以更低的成本(每百万 token 输入 $0.4 / 输出 $2.0)提供了与其他专有模型竞争的性能。
- Mistral 的回归受到了热烈欢迎,特别是考虑到他们过去在推动竞争方面的开源贡献。
- LLM 基准测试因数据污染受到质疑:LLM benchmarks 的效用正受到审查,因为有人认为由于模型可能在基准测试数据本身上进行过训练,这些测试具有误导性。
- 尽管存在这些担忧,社区承认需要度量指标,但建议谨慎解读,强调需要持“保留态度(grain of salt)”。
- Aider 与 Cursor 的自动上下文对比:用户将 Aider 与 Cursor 等专有工具进行了比较,指出“Cursor 中的
auto-context更可靠”,因为 Cursor 默认包含更多文件,这可能是因为它在将数据发送给 LLM 之前使用了专有模型进行信息提取。- 一些用户表示更倾向于使用 Aider 处理复杂任务。
- Aider 获得网页搜索“超能力”:用户讨论了将网页搜索集成到 Aider 中,建议使用 Perplexity API key 作为兼容 OpenAI 的 API,或者通过 /web 命令手动将网页内容作为 markdown file 添加。
- 一位用户建议使用带有搜索 MCP 的 aider-desk,以实现自主互联网搜索以获取上下文。
LM Studio Discord
- Qwen 3 压倒 Gemini:用户发现新的 Gemini 更新完全忽略了请求且过度设计,而 Qwen 3 提供了尊重指令的功能性代码,尤其是在编程任务中。
- 一位用户表示 Qwen 3 在各方面都更好,并提供了功能性代码,而 Gemini 则完全忽略了指令。
- 同一供应商的投机采样(Speculative Decoding):讨论明确了,由于微调和转换的差异,坚持使用来自同一供应商的模型更有可能在投机采样中表现良好,特别是对于 Qwen 3 0.6b。
- 强调了虽然在技术上不要求模型必须来自同一供应商,但这种配置将提供更可靠的结果。
- 本地模型在重构中挣扎:成员们发现本地模型在大型代码库重构中难以处理上下文,但在自动补全和个人编程项目中非常有效;推荐使用 LM Studio API 和 Cline 等扩展。
- Deepseek 被认为是顶级的本地选择,尽管存在局限性,用户发现它与商业替代方案结合使用非常有用。
- HP Z2 Mini 速度引起轰动:成员们讨论了 HP Z2 Mini workstation,强调其内存速度达到 8000 MT/s,理论上每秒可传输 8,000 百万兆字节的数据。
- 用户期待大量设备进入市场。
- Halo PC 拥有极高带宽:搭载 Ryzen AI Max 395 Strix Halo 的 GMKtec Evo X2 迷你 PC 被讨论为具有 128GB RAM 的潜在更便宜替代方案。
- 据指出,Strix Halo PC 的内存带宽为 240 GB/s,与某些 NVIDIA 显卡相似,将于 5 月 20 日发布。
GPU MODE Discord
- CognitionAI 发布 Kevin 32B 模型 KernelBench:CognitionAI 刚刚发布了 Kevin 32B,这是一个利用 Multi-Turn RL 编写 CUDA Kernels 的模型,详情见此 博客文章。
- 该模型在 180 个任务和 20 个任务的留出集(holdout set)上进行了训练,据报道在该领域非常有效,但成员们注意到 Kevin 是在测试集上训练的,这引发了对评估方法的担忧。
- MI300 称霸 AMD 排行榜:多个使用 MI300 的提交出现在
amd-fp8-mm排行榜上,耗时从 251 µs 到 9.85 ms 不等,甚至有亚毫秒级的耗时低至 195 µs。amd-mixture-of-experts排行榜也有多项提交,在 MI300 上的耗时包括 7275 ms、7281 ms 和 12259 ms。
- A6000 Ada 性能略胜 L40s:在默认设置下,A6000 Ada 的性能通常优于 L40s,而 4090 是 Ada 系列显卡中速度最快的,尽管从纸面参数看 L40s 拥有更强的 Tensor Core 算力;L40s 配备了 ECC memory,这可能会影响性能。
- 在租用 4x GB 类别中,A40 是单位美元 token 产出最高的型号,而 A6000 Ada 在 Ada 4x GB 类别中领先;此外,与 L40s 服务器相比,该系列存在更多的过热问题。
- TorchAO 助力 Phi-4 Mini Instruct 量化:PyTorch 团队在 Hugging Face 上发布了量化的 Phi-4 Mini Instruct 模型,使用 TorchAO 进行量化,并针对 vLLM 和 Executorch 的部署进行了优化。
- 发布内容包括 INT4 仅权重(weight-only)量化(支持 vLLM,显存峰值降低 67%,在 A100 上提速 10-20%)、FP8 动态激活与权重(dynamic activation & weight)量化(支持 vLLM,显存峰值降低 36%,在 H100 上提速 15-20%),以及 INT8 动态激活与 INT4 权重(dynamic activation & INT4 weight)量化(适用于 ExecuTorch,在 iPhone 15 Pro 上达到 17.3 tokens/sec)。
- Factorio 的 FLE Docker 遭遇同步失败:在最近的 Steam 更新后,用户遇到了 Factorio 客户端与 FLE Docker 服务器之间的连接问题,由于 CRC 值不匹配导致立即出现去同步(desynchronization)错误。
- 其他错误还包括新的导入策略破坏了整个代码库,因为 Pydantic 在以不同方式导入时无法识别相同的类,以及损坏的 harvest_resource/server.lua。
MCP (Glama) Discord
- Cursor 在使用 MCP 时遇到困难:成员们讨论了 Cursor 利用资源的能力,指出资源在 UI 中不像 Prompts 那样可见,且 Claude 坚持要求用户手动集成资源,这可能与预期的 MCP 架构相冲突。
- 有人澄清说,资源旨在由宿主应用程序管理而无需用户干预,并引用了 MCP 规范。
- A2A 通信被指繁琐:参与者讨论了 Agent-to-Agent (A2A) 通信的优缺点,有人认为它“有点繁琐”,但承认其核心抽象(如任务、Agent 和 Artifact)具有价值。
- 其他人强调 MCP 可以有效地支持 A2A,并且 A2A 的任务管理工作流可以用极少的代码执行。
- 调试 MCP Server 证明很困难:一位成员讲述了他们在调试通过 stdio 传输的 MCP server 时遇到的挑战,由于禁用了控制台日志且 VSCode 断点无效,花了一周时间才修复一个微小的问题。
- 建议包括使用 tee stream 进行调试,一位用户分享了这份指南,用于调试 MCP server 以及使用 MCP Inspector 进行工具调用。
- Cloudflare MCP 部署连接失败:一位用户询问其他人是否在部署于 Cloudflare 的远程 MCP Servers 上遇到了连接问题。
- 讨论中缺乏明确的解决方案。
- Vertex AI MCP server 现已开源:一位成员介绍了他们的 vertex-ai-mcp-server 项目,该项目始于 Vertex AI,现已扩展到包含 Gemini、Grounding 和其他工具。
- 该成员宣布该项目现已开源,欢迎社区贡献。
Yannick Kilcher Discord
- LLM 输出泛滥成灾困扰服务器:成员们对频道中 LLM 生成内容的激增表示担忧,质疑互动的质量以及潜在的 垃圾信息 (spam) 问题。
- 一位成员将服务器质量的下降比作 Quora,感叹充斥着冗长的、列表式的消息。
- 破折号 (Em Dash) 揭示 LLM 身份:LLM 输出中频繁使用 破折号 (em dashes) 已成为一个典型特征,可以轻松识别出 AI 生成的文本。
- 一位成员开玩笑说,大多数人甚至不知道如何在键盘上输入它,这使其成为了一个明显的破绽。
- 动态 AI Agent 瞄准学术论文写作:一位用户正在开发一种动态且具备“心智社会 (society of minds)”特征的 Agent,用于编写专利和学术文章,并引用了 DreamerV3,以模糊静态和动态任务自适应世界建模之间的界限。
- 他们承认,有些人不相信 这看起来具有未来感。
- Gemini 驱动 Colab 中的数据科学 Agent:一位用户分享了一篇 Google 博客文章,详细介绍了由 Gemini 驱动的 Colab 数据科学 Agent。
- 然而,一位成员表达了失望,称 最近我从 Gemini 那里得到的似乎全是些肤浅的博客水平的内容。
- “赢家通吃”经济学引发辩论:成员们辩论了赢家通吃 (winner-takes-all) 经济体系的影响,以及这是否是 US 自建国以来一直在构建的体系,同时还讨论了 Mistral Medium 的发布。
- 一位成员引用 FixupX 调侃道,新模型的代价仅仅是区区几百万美元的低廉成本。
Latent Space Discord
- Windsurf AI 愿景超越 Cursor:成员们发现 Windsurf 比 Cursor 拥有更清晰的产品愿景,这可能受到 OpenAI 收购策略和内部模型开发的影响。
- 令人担忧的是,OpenAI 对产品化的关注可能会隐藏编程模型,从而建立起他人无法触及的强大竞争优势(护城河/moat)。
- Gemini 2.5 面临护栏 (Guardrail) 怪癖:用户在 Gemini 2.5 Pro 预览版中看到了奇怪的响应,这可能是由于增加了护栏和安全训练,正如这篇 Reddit 帖子所述。
- 一位用户感叹对个性和参与度的无休止调整,并补充说 无休止的榜单刷分 (leaderboard hacking) 和不断变化的安全训练正让这些模型变得非常诡异。
- Mistral 推出企业级聊天 Agent:Mistral 正在发布新模型,包括一个 Mistral 企业级聊天 Agent,旨在性能和安全性上与 OpenAI 的 GPT 模型 竞争,正如 X 上的公告所述。
- 这些新模型旨在与 OpenAI 的 GPT 模型 展开正面交锋。
- 新 Claude code pod 发布:一个新的 Claude code pod 已经发布,详情请见 Latent Space 的 X 帖子。
- 此次发布承诺为编程任务提供新功能和增强。
- AI Engineer 会议门票售罄速度飞快:年度最大的 AI Engineer 会议将于今年 6 月举行,早鸟票预计将在本周末售罄。
- 演讲者名单现已公布,请在 ai.engineer/#speakers 查看演讲嘉宾。
HuggingFace Discord
- 通过邮件解决 HF 订阅激活故障:用户报告了订阅激活问题,由于无法及时获得会员权益,需要发送邮件至 website@huggingface.co 获取支持。
- 他们强调,关于 HF access token 和 meta-llama-Llama-3.3-70B-Instruct 的计费问题应直接联系 billing@huggingface.co,并附上了 Hugging Face 推理成本文档链接。
- 没有 CUDA?没问题!Mac 上的 Text-to-3D 扩散模型:用户讨论了在没有 CUDA 的 Mac 上运行 Text-to-3D 场景扩散模型,建议利用 Apple Silicon 来提升速度。
- 共享了 Diffusers 的 MPS 优化文档和 CoreML 等资源作为指导。
- Recursals RADLADS 协议蒸馏注意力机制:Recursal 团队推出了 RADLADS,这是一种将 Softmax Attention Transformer 快速转换为 Linear Attention Decoder 模型的协议,详见其 ArXiv 论文和 HuggingFace 模型集合。
- 该团队声称 RADLADS 训练所需的 Token 少于 700M,成本低于 $2,000 USD,其训练代码已在 GitHub 上发布。
- Flash Attention 2 支持 FP16 和 BF16:成员指出 Flash Attention 2 支持 FP16 和 BF16,其中 BF16 需要 Ampere 或更新的 GPU,建议使用
git clone https://github.com/Dao-AILab/flash-attention进行安装。- 他们提供了 PyTorch 博客链接并讨论了安装说明。
- DaoDeCode 框架实现最大化转化:一名成员介绍了 DaoDeCode,这是一个结合了 Mechanism Points(机制点)和 Five Element Transformation Patterns(五行转化模式)的语言模型框架,灵感源自 Daoist strategy(道家策略),源代码可在 GitHub 获取。
- 该框架旨在通过识别时空消失的“完美接缝”,实现“最小干预,最大转化”。
Nous Research AI Discord
- Open Codex 扩展支持 Gemini:如此仓库所述,一个 open-codex 分支现在支持 Gemini 和 Ollama 等模型。
- 另一名成员评论说,据报道 官方 OpenAI Codex 也支持其他模型,但被机器人审查了。
- M4 Max MacBook Pro 展现 LLM 强悍性能:用户可以在配备 128GB RAM 和 2TB 硬盘的 M4 Max MacBook Pro 上的 LM studio 中运行高达 900 亿参数的模型。
- 这台 MacBook Pro 是直接从 Apple 官网购买的“认证翻新”机。
- Dolphin 寻求数据支持:Cognitive Computations 正在寻求协助,通过名为 dolphin-logger 的工具获取“不合规”(naughty)的交互数据来训练 Dolphin 模型。
- 用户需要安装 dolphin-logger,在
.env中添加密钥并运行,然后将你的 Agent 或 MCP 工具指向它即可。
- 用户需要安装 dolphin-logger,在
- Zed 发布 AI 代码编辑器参与竞争:Zed 发布了一款全新的 AI 代码编辑器,具有良好的本地模型支持,可轻松集成包括 Hermes 在内的本地模型。
- 用户似乎还可以添加任何 Ollama 模型,前提是该模型支持 Tool Calls 和 Diff Styles。
- Gemini 以 500-1500 tps 的速度飞驰:新的 Gemini 模型在测试中达到了 500-1500 tps。
- 一名用户认为这非常疯狂,相信只有 Cerebras 和 Groq 才能达到这样的性能。
Eleuther Discord
- Cursor 为学生提供免费 IDE 访问权限:一位成员分享了 Cursor IDE 现已对学生免费,引发了社区关注。
- 社区中许多人认为这非常有用,表明 Cursor 是一个有价值的资源。
- 研究人员寻求规模至上主义(Scale Maximalism)的支持者:一位用户正在寻找有关倡导将 scale maximalism 作为 AI 通用解决方案的论文或研究人员的参考资料。
- 目标是找到有证据支持的支持者,他们相信 scale maximalism 将解决 AI 中的所有问题。
- 在人工评估方面 Prolific 优于 MTurk:在 MTurk 和 Prolific 的人工评估对比中,Prolific 更受青睐。
- 一位成员果断推荐在 80% 的情况下 使用 Prolific,暗示了其整体优越性。
- 关于 lm-eval-harness 实现的指导:一位用户询问如何在 lm-eval-harness 中实现自定义模型,另一位用户提供了 文档链接。
- 建议是从
HFLM继承并重载_model_call和_model_generate,并指向 Mamba 实现 作为实际案例。
- 建议是从
- HF 推理与 vLLM 在功耗方面的对比:虽然 vLLM 在生成任务上速度更快,但 HuggingFace 推理 功耗更低,不过 HuggingFace 推理 在 loglikelihood 任务中可以使用全部功率。
- 另一位用户回复说这是预料之中的,因为 vLLM 是为快速生成而优化的。
DSPy Discord
- Unsloth 微调 Claude Sonnet,并与 Qwen3-4b 进行对比:一位成员使用 Unsloth 微调了他们的 Claude Sonnet 聊天历史数据,并将其与 Qwen3-4b 进行了对比,发现微调后的 Lora 模型在 zero-shot 设置下正确识别了 def forward。
- 该成员认为 GRPO 微调 会正确识别 LabeledFewShot,因为他们的 SFT 微调 几乎成功了但出现了幻觉。
- 集思广益知识注入以节省 Token:一位成员正在寻求一种更节省 Token 的方法,将 领域知识(ES 集群索引和映射)注入 DSPy 程序,而不是在每个 Prompt 中将其作为 InputField 包含。
- 一位用户建议在 text2SQL 任务的 System Prompt 中包含整个 Postgres schema。
- Docstrings 成为 DSPy Signatures 的规范:成员们讨论了使用 dspy.Signature 中的 docstrings 来提供基本指令,解释任务是 什么,而不是 如何 实现它。
- 据透露,docstrings 会作为 System Message 的指令进入默认 adapter。
- ReAct 模块的 Signature 要求输出:一位成员询问如何为主要输出 tool calls 的 ReAct 模块 创建 Signature,并质疑输出字段是否可以留空。
- 未给出直接回答。
- GitHub 渲染 Notebook 出错,Colab 来救场:一位成员认为 GitHub 的 Notebook 渲染 可能过于挑剔,导致缺少 “state” 键错误,这可能源于过早复制的 Notebook。
- 一位用户建议,链接到 Colab 版本 (https://colab.research.google.com/github/Columbia-NLP-Lab/PAPILLON/blob/main/papillon_tutorial.ipynb) 而不是 GitHub 版本将是最快的解决方法,因为 Colab 的容错性更高。
Modular (Mojo 🔥) Discord
- Apple Silicon 用户在运行 Modular Puzzles 时遇到障碍:成员们确定直接在 Apple Silicon GPU 上运行 Modular Puzzles 是不可行的,建议使用带有 GPU 的云端实例。
- Mojo GPU 编程支持的 NVIDIA GPU 架构 包括 Turing, Ampere, Hopper 和 Blackwell(RTX 20XX - 50XX 系列)。
- Trait 引发辩论:字段 (Fields) vs 属性 (Properties):关于 Trait 中的字段存在争论,大家一致认为 Trait 中可以包含字段,但这会阻碍扩展。
- 社区一致认为,在 Trait 中使用属性可能比使用字段是一个更好的主意,因为属性更具通用性。
- Modular 黑客松正式启动!:Modular 黑客松周六将在 Hillsborough 的 AGI House 举行,一名成员提醒大家仍有名额,详见:Modular Hackathon。
- 演讲嘉宾包括来自 Modular 的成员、Mark Saroufim(GPU MODE & PyTorch)、Simon Boehm & Sasha Krassovsky(Anthropic)以及 Dylan Patel(SemiAnalysis)。
- Mojo 的语法镜像了 Python 的惯例:一名成员询问 Mojo 是否存在
pub语法(类似于 Rust),另一名成员表示 Mojo 目前遵循 Python 的惯例,即 “一切都是公开的,应该私有的内容加下划线前缀”。- 社区对包含此功能的路线图表现出了额外的兴趣。
- Mojo 等待开源贡献:一名成员询问如何为 Mojo 编译器做贡献,另一名成员回答称目前还没有途径。
- 该成员指出,在编译器开放贡献之前,很有可能会先实现 Sum types(和类型)。
LlamaIndex Discord
- LlamaIndex 支持构建深度研究 Agent:LlamaIndex 现在允许用户通过研讨会教程从头开始构建自己的深度研究 Agent (Deep Research agent)。它引导用户通过教程使用 AgentWorkflow 创建一个用于深度研究的多 Agent 系统。
- 新的 Agent 使单个 Agent 能够进行更深入的研究和分析。
- LlamaExtract 增强推理能力:LlamaExtract 更新了针对 AI 应用的新功能,提供了增强的引用能力和改进的推理。LlamaIndex 的推文描述了以精确的源归属提取信息、为提取提供推理并提高透明度的功能。
- 这一增强功能有助于建立更清晰的审计追踪,并从复杂数据源中进行更可靠的数据提取。
- Anthropic API 获得 LlamaIndex 支持:Anthropic API 现在拥有内置的网页搜索工具,LlamaIndex 立即对其提供了支持,如 demo notebook 和 Anthropic 的 公告 所示。
- 这一集成允许用户将 Anthropic 的搜索能力与 LlamaIndex 的数据管理功能相结合。
- Memgraph 被揭示为 Neo4j 客户端:在 WSL2 VS Code 中测试时,Memgraph 会调用 Neo4j,这表明 Memgraph 是使用 Neo4j client 对 Neo4j 进行的封装,详见 文档。
- 建议用户在项目中使用 Memgraph 时检查其底层实现。
- GPT-4o-mini 转向多模态:用户可以直接将文档传递给多模态 LLM —— GPT-4o-mini 进行 one-shot 推理,从而避免 OCR。
- 将文档附加到系统提示词(system prompt)中可以让 LLM 直接进行查询,从而简化文档处理工作流。
tinygrad (George Hotz) Discord
- Latner 发布 Mojo Kernel 宝库:Chris Latner 的 Mojo 现在托管了大量的 “mojo kernels”,可在 modular/modular/tree 获取。
- 社区目前正在评估它们的运行速度并研究操作指南,以查看它们是否具有强劲的性能(oomph)。
- tinygrad 的“真面目”曝光:一位用户寻求关于 tinygrad 输出截图中颜色代码的解释,引发了关于数据结构视觉表示的讨论。
- 另一位用户链接到了 tinygrad GitHub 仓库中的颜色定义,精准指出了负责配色方案的具体代码。
- 随心所欲配置 Beam Search 缓存:由于存储配置原因,一位用户询问如何自定义在 Lambda Labs 实例中使用的 beam search 缓存位置。
- George Hotz 澄清说,可以通过设置 CACHEDB 环境变量来覆盖缓存位置,正如 helpers 中的第 175 行所记录的那样。
Torchtune Discord
- Torchtune PR 中的 Tokenizer 参数重命名引发困惑:一个 Torchtune PR 引发了关于重命名
add_end_tokens等 tokenizer 参数的讨论,一名成员指出了其中的不一致性。- 该成员表示,
add_end_token最初与add_end_tokens搞混了,如果没有add_start_tokens,重命名可能会让情况变得更混乱。
- 该成员表示,
- 为了统一而重命名?:一位成员建议将背景信息提交给 PR 作者,认为重命名带来了更好的统一性。
- 此次重命名 将使未来构建通用 tokenizer 接口的工作变得更加容易。
Nomic.ai (GPT4All) Discord
- 寻求 GPT4All 的 ROCm 支持:一位用户询问是否会更新 Windows 版本的 GPT4All 以支持 AMD ROCm,从而获得潜在的更快性能。
- 未收到回复。
- GPT4All 瞄准课堂 iPad:一位老师询问 GPT4All app 是否可以在 iPads 等 iOS 设备上使用,以便进行课堂集成。
- 另一位用户回答说 LLM 需要强大的处理能力,建议改用家庭服务器设置。
- GGUF 设置探讨:一位用户询问 GGUF 文件格式 是否规定了自己的 max new token 限制和最佳 temperature 设置。
- 回复澄清说,max new token 数量与可用的 VRAM 相关,而其他设置仅作为调整的起点。
- 用户寻求未审查模型:一位用户报告说,尽管没有针对犯罪用途的限制,模型仍拒绝回答一个非法问题。
- 同行建议尝试 uncensored 模型,并建议在 Hugging Face 上探索此类模型。
LLM Agents (Berkeley MOOC) Discord
- Auth0 黑客松奖励来袭:太平洋时间 5 月 7 日上午 10 点举行的 Auth0 工作坊将教授如何通过身份验证保护 AI Agent 的安全,并为集成 Auth0.ai 的团队提供黑客松奖金。
- 奖金包括:第一名 $5,000,第二名 $3,000,第三名 $2,000。
- Lambda 为 AgentX 竞赛提供赞助:太平洋时间 5 月 15 日上午 10 点与 Lambda 合作举办的 AgentX 工作坊重点关注使用 Lambda 的 Inference API 扩展 Agentic AI 项目。
- AgentX 竞赛参与者可获得特别奖项,包括创业和研究赛道的第一名最高 $1,000 积分,第二名 $500,第三名 $300;请在 lu.ma/AgentX-lambda 注册。
- 邮件通知缺失:用户 <@854134294870884363> 报告未收到额度追踪的邮件通知,导致监控困难。
- 该用户提供了邮箱地址 kritishahi66@gmail.com 和 kritisha@umd.edu 用于接收通知。
- LLM 通过统计模拟条件语句:LLM 通过统计模式识别执行条件语句,从数百万个示例中学习,并在其参数中表示诸如 “如果 X,那么 Y” 之类的关系。
- 它们使用神经注意力机制(neural attention)来加权 Prompt 的各个部分并预测后续文本,从而在统计上近似逻辑推理。
Cohere Discord
- AWS x Cohere 研讨会录像请求:一位用户询问是否可以为无法亲临现场的人员提供 AWS x Cohere 研讨会 的录像。
- 该用户位于马来西亚,对活动中 行业专家 分享的见解表现出浓厚兴趣。
- Coral 在短暂故障后重启:用户注意到 Coral 曾因维护短暂下线,但现在已恢复访问,网址为 coral.cohere.com。
- 服务已迅速恢复。
Codeium (Windsurf) Discord
- Windsurf 1.8.2 修复工具调用错误:Windsurf 1.8.2 补丁修复了禁用遥测用户的 工具调用错误,以及工作区对话相关的崩溃问题。
- 更新还包括服务器更新以添加 区域频道。
- Windsurf 通过区域频道扩展地理覆盖:Windsurf 添加了 区域频道,以帮助连接全球各地的 Windsurfers,包括 旧金山湾区、圣迭戈、台北、波士顿、迈阿密、纽约、东京、奥斯汀和多伦多。
- 用户可以通过在自定义部分的入职(onboarding)问题中回答来加入这些频道。
- Cascade 通过新工具实现可定制化:Windsurf Wave 8 第 2 天推出了 Cascade 的 定制工具,包括作为
.md文件的 自定义工作流、增强的规则系统、同时运行的 Cascade、Cascade 插件面板以及增强的 MCP 集成。- 这些功能允许用户根据自己的模式和偏好定制 Cascade,以最大限度地提高生产力,详情可见 发布视频。
- Windsurf 引入基于文件的规则:Windsurf 增强了规则系统,支持多种激活模式(手动、始终开启、模型决策、Glob),并存储在
.windsurf/rules/中。- 这些 基于文件的规则 可以通过多种方式激活。
- Multi Cascade 功能上线:Windsurf 推出了 同时运行的 Cascade,允许你在现有对话运行时启动新的 Cascade 对话。
- 无需再等待!
MLOps @Chipro Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
您收到此邮件是因为您通过我们的网站订阅了此内容。
想更改接收这些邮件的方式吗? 您可以从该列表中 取消订阅。
Discord:按频道分类的详细摘要和链接
LMArena ▷ #general (914 条消息🔥🔥🔥):
GPT-4o vs O1 能力对比,Grok 3.5 发布传闻,Gemini 2.5 Pro (0506) 测评,O3 Pro 发布推测,Dense 与 MoE 模型架构
- GPT-4o 在某些任务上无法与 O1 媲美:成员们讨论了 GPT-4o 在处理电子工程和哲学任务时的吃力表现,而 O1 则能胜任,这表明了两者在知识库和推理能力上的差异。
- 他们认为这是因为 O1 在生成回复前可以对电子相关内容进行思考和回溯,而 4o 必须立即预测对话回复。
- AI 社区对 Grok 3.5 ASI 的推测议论纷纷:AI 社区热切期待 Grok 3.5 的发布,有推测称它是基于 Grok 4 微调而成的,并且可能接近 Artificial Superintelligence (ASI)。
- 一些用户报告在 UI 中获得了一个小时的 Grok 3.5 访问权限,这引发了热议,而另一些人则认为这些说法是 假新闻。
- Gemini 2.5 Pro 的编程测评褒贬不一:Gemini 2.5 Pro (0506) 的早期评价毁誉参半,有报告称其在编程和网页设计性能有所提升,但在其他领域可能存在退化。
- 虽然它在编程竞技场中名列前茅,但一些用户认为它 被高估了,指出其分析过程和上下文处理能力较前代有所下降。
- O3 Pro 迟迟未发布的谜团:社区对 O3 Pro 持续缺席表示失望,推测 OpenAI 可能是故意推迟发布。
- 有人认为 OpenAI 不想让你使用它,并指出由 Grok 4 编写的虚假公告可能是该模型能力的体现。
- Dense 与 MoE 之争愈演愈烈:关于 Dense(稠密)与 Mixture of Experts (MoE) 模型架构的辩论兴起,涉及参数量、训练效率和性能权衡。
- 一位用户引用了一项 Qwen 3 实验,显示 MoE 模型中较小的激活参数量仍能实现接近大参数量 Dense 模型的性能。
LMArena ▷ #announcements (1 条消息):
Discord 改进,LMArena 社区增长,AI 社区空间
- LMArena 致力于扩展 AI 社区:LMArena 正在投入更多时间和精力,为那些有志于在 AI 领域产生影响的人创造空间,并宣布了新的 Discord 社区管理员。
- 邀请用户通过 此调查问卷 分享对 Discord 可能变动的看法,以帮助发展、参与和保护这一空间。
- 征求社区意见以增强 Discord 体验:新任社区管理员正在寻求有关 Discord 改进的反馈,以促进 AI 社区的发展和参与。
- 已发布一项 调查问卷,用于收集社区成员对期望变动的建议。
Perplexity AI ▷ #general (618 条消息🔥🔥🔥):
Discord Bot, Perplexity Image Generation, AI ads, Traffic Acquisition Costs, Deepseek R2
- Perplexity Discord Bot 移除引发哀悼:用户对 Perplexity Discord bot 的移除表示失望,一位用户称其关闭 bot 的方式很悲惨,而另一位则表示我一直都在用,真的很遗憾。
- 用户讨论了使用 Perplexity API、Gemini 和 OpenRouter 进行自托管的替代方案,其中一人提到,GitHub 上有很多选择,配合 Gemini + OpenRouter 基本上可以实现免费使用。
- Perplexity 用户排查图像生成故障:一名用户报告了图像生成问题,Perplexity 告诉他们无法生成图像,并给出了如何使用 MidJourney 生成的指令,但通过开启新对话(thread)解决了该问题。
- 另一位用户建议,问题可能是由于旧的上下文干扰造成的,并建议始终在新的对话中尝试。
- AI 回复中加入广告?太可怕了!:用户讨论了未来 AI 回复中是否会出现广告,并谈到 Apple 表示 Google 搜索量正在下降,用户转向 AI 搜索。
- 一位用户提到 Copilot 已经尝试过了,并表示如果你让它寻找某个产品,在底部它会显示“哦,如果你也看看这个东西怎么样”。
- 突发:Google 为成为默认搜索引擎向 Apple 支付了多少钱?:用户讨论了 Google 成为 Apple 默认搜索引擎的流量获取成本(TAC),指出到 2023 年,TAC 达到了 557 亿美元,占 Google 总广告收入的 21.39%,且目前 Google 每年向 Apple 支付约 200-210 亿美元以维持默认搜索地位。
- 一位用户指出,Google 的分析显示,失去 Apple 设备上的默认地位可能导致 282-327 亿美元的收入损失。
- 美国/欧盟立法与审查:一位用户预测 OpenAI、Perplexity 及所有其他公司都将受到美国/欧盟立法的抨击,并被迫执行审查,并建议本地下载早期模型可能是绕过审查的唯一方法。
- 该用户提到这就是为什么保存一份副本很重要,指的是早期模型。
Perplexity AI ▷ #sharing (1 条消息):
Deep Research Reports, Long Reports
- Deep Research 产出长篇报告:一位成员指出,针对特定主题的 Deep Research 生成了一份长达 6200 字 的扎实报告。
- Perplexity AI 研究链接:该研究可以在此 Perplexity AI 链接 找到。
Perplexity AI ▷ #pplx-api (3 条消息):
Office Hours, Credits
- Perplexity Office Hours 今晚举行!:Perplexity AI 将在今晚举办 Office Hours,并鼓励大家参加。
- 用户修复额度问题:一位用户报告称,在遇到问题后,他们已成功获得了 $50 Credits。
OpenAI ▷ #ai-discussions (353 messages🔥🔥):
XenArcAI 介绍,清醒梦技巧,AI 对 Em Dash 的痴迷,DeepSeek vs. OpenAI,Veo 2 vs. Sora 视频生成
- 宣布成立用于 LLM 开发的新社区 **XenArcAI:一个名为 **XenArcAI 的全球新社区正式亮相,专注于构建具有影响力的 LLMs 并探索其商业潜力,同时寻求合作和早期投资。
- 感兴趣的人士受邀通过 DM 获取更多信息,或参与 AI 创新与研究。
- 用户分享清醒梦 (Lucid Dreaming) 技巧:成员们分享了诱导清醒梦的策略,包括保持规律的睡眠时间、使用梦境回忆技巧,以及调整呼吸模式以减轻潜在的睡眠瘫痪。
- 一位成员建议,保持画面在视野内是关键,醒后立即记录梦境有助于梦境回忆。
- 解析 AI 对 **Em Dash 的钟爱**:成员们讨论了 AI 模型过度使用 Em Dash 的原因,将其归因于训练数据中学术和商业材料的盛行,以及 OpenAI 后训练阶段的 guardrails 和 reward models 的潜在影响。
- 一位成员甚至建议,更多地使用 Em Dash 可能会使 AI 生成的内容更难辨认;而另一位成员指出,点赞/点踩(thumbs up/down)的训练导致了人类偏见。
- DeepSeek 被发现模仿早期 **GPT-4 的输出:内部分析表明,像 **R1 和 V3 这样的 DeepSeek 模型表现出的响应模式和语法与早期 GPT-3.5/4 的输出相似,并且有证据表明存在来自低使用率地区通过 API tokens 进行的大批量输出提取。
- 这引发了推测,即 DeepSeek 可能由于缺乏原生训练数据集,使用了来自 OpenAI 输出的 distillation 或 fine-tuning 作为捷径。
- **Veo 2 在视频生成对决中完胜 Sora:成员们对比了 **Veo 2 和 Sora 的视频生成能力,认为 Veo 2 速度更快、质量更高,且能准确遵循 prompts 和参考图像;而 Sora 生成的视频质量较低,且无法遵循 prompts。
- 用户发现 Sora 存在剪辑痕迹、随机场景切换、糟糕的物理效果以及审查问题。
OpenAI ▷ #gpt-4-discussions (11 messages🔥):
GPT-4o 性能退化,GPT-4o 回复简短,安慰剂点赞按钮
- GPT-4o:它变笨了吗?:成员们讨论了 GPT-4o 是否表现异常以及是否在随机回复无关内容,一位用户直接问道:gpt 怎么了?为什么表现得这么奇怪?它在随机回复无关内容。
- 一位用户建议检查对话 memories 中是否存在混淆或过载的信息,而另一位用户则声称他们的 GPT-4o 表现非常出色。
- GPT-4o 变得简短:一位用户报告称 GPT-4o 的回复变得越来越简短。
- 对此,一些用户感到非常沮丧。
- 点赞按钮:是安慰剂吗?:一位成员质疑点赞按钮是否完全是安慰剂。
- 另一位成员回应道,这是一个令人失望的世界。
OpenAI ▷ #prompt-engineering (68 条消息🔥🔥):
可见光下的原子, Hypertree Planning Prompting, 构建 ChatGPT 网站, 基于项目的 Prompt 管理, Prompt Engineering 与实验科学
- 原子在可见光谱中发光:成员们讨论了原子是否可以在可见光下被看见,一些人澄清说,虽然单个原子小于可见光的波长,但原子可以直接发出可见光,正如这张悬浮在原子阱(atom trap)中的单个 Yb 原子图像所展示的那样。
- Hypertree Prompting 创造卓越计划:一位成员分享了一个使用新型 Hypertree Planning Prompting 的 ChatGPT 对话链接。
- 对话者表示,以更易于管理的方式提供/组织上下文,听起来可能非常出色。
- 用户讨论 ChatGPT 网站构想:一位成员想创建一个网站与 ChatGPT 竞争,但另一位成员警告说 你不能使用该模型来创建一个竞争性网站,否则会导致账号被封禁。
- 该成员澄清说,他们希望基于 ChatGPT API 开发一个产品来实现这一目标。
- 为了乐趣和收益进行项目 Prompting:一位成员提议创建一个具有登录、数据库、自定义 Prompt、设置和保存对话功能以及导出能力的网站,以便管理项目。
- 其他成员表示此类项目已经存在。
- Prompting 反映了科学过程:成员们将 Prompt Engineering 与科学实验进行了比较,将其描述为观察科学和实验的过程,并“试图从现实中获得预期的结果”或“试图映射任何事物的输入-输出”,这是一种 Prompt Engineering。
- Prompting 的核心在于 “试图从现实中获得预期的结果”或“试图映射任何事物的输入-输出”。
OpenAI ▷ #api-discussions (68 条消息🔥🔥):
可见光下的原子, Prompt Engineering 技术, Hypertree Planning Prompting, 基于项目的自定义 Prompt, 构建 ChatGPT 网站
- 原子发射可见光,出乎意料:一位成员分享了一张悬浮在原子阱中的单个 Yb 原子图像,证明了原子在能量饱和时可以直接发射可见光。
- 可见光波长为 400-700nm,由于原子尺寸约为 0.1nm,无法直接用可见光“看到”单个原子,但原子可以在可见光谱中发光。
- 深入探讨 Hypertree Planning Prompting:一位成员分享了新型 Hypertree Planning Prompting 的链接,并称其非常出色。
- Prompt Engineering 寓言与熔融铝:一位成员将 Prompt Engineering 比作冶金,分享了从具有实际熔炼经验的人那里学习的个人经历,指出挑战既定惯例和理解系统内部运作的重要性。
- Prompt Engineering 就像 “试图从现实中获得预期的结果” 或 “试图映射任何事物的输入-输出”,他们对待模型交互的方式类似于探索新程序或与陌生实体互动。
- 构建自定义 ChatGPT 项目和网站:一位成员概述了创建一个包含登录、数据库、自定义 Prompt 和保存对话的项目设置的自定义 ChatGPT 网站的计划,但另一位成员警告这可能违反服务条款 (ToS) 并导致封号。
Cursor Community ▷ #general (484 messages🔥🔥🔥):
Cursor 学生折扣, Gemini 2.5 Pro 性能, MCP 服务器安全担忧, 频道组织, PowerShell 默认版本
- 学生折扣计划问题:用户报告了申请 Cursor 学生折扣 时遇到的问题,包括验证失败和计费错误,建议联系支持团队:hi@cursor.com。
- 成员们强调,折扣可能与用于验证的电子邮件绑定,且法国的 .etu 邮箱目前无法被正确识别。
- Gemini 2.5 Pro:是否支持工具调用?:用户分享了在 Cursor 中使用 Gemini 2.5 Pro 的经验,指出虽然该模型总体表现良好,但经常无法正确调用工具,并在 JSON 格式化方面表现不佳,特别是字符串中的反引号处理。
- 一位用户提供了一个 请求 ID 案例,其中 Gemini 声称将应用更改但从未调用任何工具。
- 用户警惕恶意 MCP 服务器:人们对 MCP (Model Context Protocol) 服务器 的安全性表示担忧,质疑是否应该信任来自“随机”人员的代码,并确保库不会将 MySQL 凭据 发送到未经授权的服务器。
- 一位成员建议在运行 MCP 服务器之前检查 GitHub 仓库,在本地构建,或者使用 Cursor 创建自己的 MCP。
- Discord 频道结构重组:成员建议重组 Cursor 的 Discord 服务器,增加更多频道并优化组织结构,类似于 Langchain 的 Discord 设置,以改善导航和社区参与度。
- 已确认有一个团队正在进行频道优先级排序和归档工作,以更好地支持社区。
- Windows PowerShell 版本问题:一位用户在将 PowerShell 7 设置为 Cursor 默认终端时遇到困难,尽管已更新设置。
- 建议的解决方案是在更新 Settings.json 以包含 PowerShell 7 的特定配置后,关闭最后一个终端会话并重新开启一个新会话。
OpenRouter (Alex Atallah) ▷ #announcements (5 messages):
OpenRouter 活动页面, Cerebras 新供应商
- 活动页面新增导出功能:OpenRouter 宣布即将推出更多活动页面的功能演示,包括 导出 (export) 功能(X 帖子链接)。
- 一位用户请求按其当前时区查看统计数据,因为他们甚至看不到当天的统计。
- Cerebras 芯片:史上最大!:OpenRouter 宣布 Cerebras 成为新供应商,其芯片是“史上最大的”,单个晶圆上集成了高达 4 万亿个晶体管,并拥有巨大的片上内存:每晶圆 40 GB,消除了外部内存带来的瓶颈(X 帖子链接)。
- Cerebras 在 Llama 4 Scout 上可提供 3k+ TPS,在 Llama 3.3 70B Instruct 上可提供 1.8k+ TPS,能够以约 $0.001 的成本瞬间生成动画。
OpenRouter (Alex Atallah) ▷ #app-showcase (2 messages):
Clippy 作为 VS Code 扩展, 通过 VS Code 扩展带回 Clippy
- 通过 VS Code 扩展带回 Clippy:一位成员分享了由 Felix Rieseberg 制作的 Clippy VS Code 扩展 链接。
- 看来那个经典的回形针又回来了,现在来到了 VS Code!
- Clippy 重出江湖:来自 Microsoft Office 的著名回形针助手现在可以作为 VS Code 扩展使用。
- 该扩展由 Felix Rieseberg 开发,为编程环境增添了怀旧和幽默的元素。
OpenRouter (Alex Atallah) ▷ #general (299 messages🔥🔥):
Gemini 2.5 Pro 升级, OpenRouter API 问题, Cerebras vs Groq, DeepSeek 模型, Mistral 新发布
- Gemini 2.5 Pro 升级:喜忧参半:用户报告称,新的 Gemini 2.5 Pro 在除代码编写外的几乎所有领域都比之前的版本差,引发了关于这是由于设计权衡还是其他原因导致的争论。
- 一位用户指出:*“无论改动了什么,都让我的结构化输出账单激增。从 0.000000xxx 涨到了 0.0xxx,因为它突然开始进行 5-10k tokens 的推理。”
- OpenRouter API 故障:一些用户在 OpenRouter 的文本补全(text completion)请求中遇到问题,有的没有收到响应,或者服务像处理对话补全(chat completion)一样进行回复。
- 一位用户指出:*“如果我直接向 chutes 发送文本补全请求,它可以正常工作,但通过 OpenRouter 发送的完全相同的请求就坏了,就像这几天一直以来的情况一样,哈哈。”
- Cerebras 与 Groq:芯片对决:成员们辩论了 Groq 还是 Cerebras 更适合托管 DeepSeek v3.1/r1,一些人认为该模型对于 Groq 的硬件来说太大了。
- 一位用户指出,Groq 需要大约 2700 张卡才能装下 r1 的权重,而另一位用户建议 Cerebras 可以轻松运行 Qwen 235b。
- DeepSeek 模型:长上下文速度竞赛:用户强调了对快速、长上下文 DeepSeek v3.1/r1 提供商的需求,认为这样的提供商会立即走红。
- 一位用户建议:“优秀的 Speculative Decoding 可以让 H100 在大型 Llama3 上输出 300 tok/s。想象一下,稍微优化一下能达到什么水平。”
- Mistral Medium 3 发布,它没用吗?:一位用户注意到 Mistral Medium 3 的发布,另一位用户回复说这听起来没用,但还有一位用户表示,虽然 DeepSeek v3 更便宜且在基准测试中表现更好,但 Mistral 可能擅长创意写作。
- 另一位用户指出,Mistral 在 Mistral Medium 的文章中预告了他们的新型大模型,但他们的 2504 Checkpoint 已经在 Cerebras 上部署一段时间了。
Unsloth AI (Daniel Han) ▷ #general (231 messages🔥🔥):
Qwen3 模型, GGUF 转换问题, vLLM 与 LoRA 适配器的问题, 问答训练数据集
- Qwen3 a3b 模型令人印象深刻:成员们发现 Qwen3 a3b(Mixture of Experts)模型非常出色,特别是考虑到 a 指的是推理过程中的 3B 激活参数,且表现优于 qwq32b。
- 据说 A3B 模型(总参数 30B)占用的 RAM 大约与 32B Q6k 相同,约为 25GB。
- 用户讨论训练 Qwen3 后的 GGUF 转换问题:一位训练 Qwen3-30b-a3b 的用户无法将其转换为可用的 GGUF 文件,随后另一位用户建议他们在 llama.cpp/ 主目录下为 llama-quantize 创建符号链接。
- 他们注意到 llama.cpp 的主目录 llama.cpp/ 中缺少 llama-quantize,它实际上位于 llama.cpp/bin/ 目录下。
- vLLM 版本相关问题:一位用户报告称,vLLM 的错误可能与 LoRA 适配器以及 vLLM 中的 v1/v0 引擎有关,强制 vLLM 使用 v0 引擎解决了错误。
- 具体而言,他们注意到某些版本在处理适配器时会使用 V1 引擎,从而导致问题。
- **关于问答是否应包含
标签的辩论**:一位用户询问他们用于 **SFT** 的 **Qwen3** 训练数据集应该是什么样的,以及是否应该在答案中包含 ** ** 标签。 - 一位用户表示他们刚刚训练了 Qwen3 模型,他们认为 InfinityInstruct 数据集中没有 **
** 标签。
- 一位用户表示他们刚刚训练了 Qwen3 模型,他们认为 InfinityInstruct 数据集中没有 **
Unsloth AI (Daniel Han) ▷ #off-topic (9 messages🔥):
Mistral Medium, Vast.ai, AI 项目招聘, 模型权重
- Mistral Medium 发布:一位成员分享了新 Mistral Medium 模型公告的链接:mistral.ai/news/mistral-medium-3。
- 另一位成员指出他们正在使用 Vast.ai。
- 招聘可靠的 AI 项目成员:一位成员正在为一个 AI 项目寻找可靠的人选。
- 要求:美国、澳大利亚、加拿大、英国、瑞士、荷兰或德国公民;报酬:每周 500 美元(兼职);详情请私信。
- 没有权重 = 没用?:一位成员评论说,没有权重 意味着 Mistral Medium 没用 <:rip:1233329793584468062>。
Unsloth AI (Daniel Han) ▷ #help (39 条消息🔥):
Phi-3.5 Finetuning, Phi-4 Confusion, GGUF Finetuning, Qwen3 Training, Gradient Accumulation
-
Phi-3.5 存在停止问题:一名成员注意到微调像 Phi-3.5 这样的 LLM 时仅使用 **< end >** 来发出停止信号,导致其持续生成直到达到 Token 限制。 -
他们还注意到默认 Tokenizer 的 Padding Token 是 **< placeholder6 >,但最终在末尾附加了 **tokenizer.eos_token。
-
- Phi-4 Tokenizer 让新手困惑:有人提到 Unsloth 修复了一个 Bug,即 Padding 和 EOS Token 相同的问题,并且 Phi-4 的 Chat Template 与 Phi-3.5 不同。
-
具体而言,unsloth/Phi-4-mini-instruct 的 Tokenizer 使用的是 Phi-3 Tokenizer,这意味着对 “< im_start >” 进行 Tokenize 会得到 [27, 91, 321, 10949, 91, 29] 而不是一个 Special Token。
-
- GGUF 不可微调:一名成员询问是从 GGUF Checkpoint 还是 4-bit Checkpoint 进行微调,随后澄清了 GGUF 是在微调后用于推理优化的。
- 另一名成员明确表示 你无法微调 GGUF,将其视为已编译的应用程序,而非源代码。
- Qwen3 在 Kaggle 上遇到问题:一名在 Kaggle 上训练 Qwen3 的成员在使用 2 个 GPU 时遇到问题,并指出 Unsloth 目前尚不支持多 GPU,尽管 Notebook 配置了两个 T4。
- 另一名成员分享了一个关于 Gradient Accumulation 问题的博客链接:Unsloth Gradient Accumulation Issues,该问题在继承 Trainer 类时会发生。
- Pad Token 的变换:成员们注意到 HF 上的
unsloth/Qwen3-0.6B-Base和Qwen/Qwen3-0.6B-Base之间的tokenizer_config.json存在差异。- 具体来说,Unsloth 版本移除了 Chat Template,并将
"pad_token": "<|endoftext|>"替换为"pad_token": "<|vision_pad|>"。
- 具体来说,Unsloth 版本移除了 Chat Template,并将
Unsloth AI (Daniel Han) ▷ #research (18 条消息🔥):
Absolute Zero paper, Self-play Reasoning, Unsupervised Training, Code validator, Memory Layer Hooking
- Absolute Zero 引发关于 Self-Play 的讨论:围绕论文 Absolute Zero: Reinforced Self-play Reasoning with Zero Data 的讨论强调了对其 仍受限于模型能想出的问题的多样性 的担忧。
- 成员们推测它只能解决已经反映在其 (Pre)training Data 中的问题,尽管现有数据可能会启发它创建更多样化的问题。
- 对 Self-Play 中任务正确性的担忧:论文 Absolute Zero: Reinforced Self-play Reasoning with Zero Data 引发了关于如何确保所提任务正确性的担忧,特别是如果 LLM 在任务生成过程中产生幻觉(Hallucinates) 并根据错误的解法进行自我训练。
- 建议使用 多样化的 Teacher-like Models 来验证 任务正确性作为一种潜在的改进方案。
- 成员认为 Unsupervised Training 潜力巨大:一名成员认为配合 Code Validator 的无监督训练 可能会产生重大影响。
- 另一名成员调侃道 “数百万(的影响力)都说少了”。
- Gemma3 27b 被“螺栓连接”:一名成员 Hook 了 Gemma3 27b 的输入和输出层,仅在 Memory Layer 上使用了一个 Bolt(螺栓,用于强制跨层通信),在输出中仍然得到了有效的生成。
- 该成员发现 Hook 中间层会导致模型崩溃。
- 模型上的 Crosstalk Memory Layer:一名成员缺乏计算资源来对“将每隔 n 个模型层 Hook 到单个 Crosstalk Memory Layer”的技术进行 Benchmark。
- 该成员补充说,即使是 Mistral 也会使内存需求激增。
Manus.im Discord ▷ #general (202 messages🔥🔥):
Manus vs ChatGPT, International Channel Request, o3 as an agent, AI learning Advice, GPT-4.5 language and writing
- Manus 与 ChatGPT Plus 相比简直是“另一个世界”:一位成员分享说,他们认为 Manus 与 ChatGPT Plus 相比就像是另一个世界。
- 随后在对话中,另一位成员建议如果想要完全免费,可以使用 DeepSeek V3 或 Gemini 2.5 Pro。
- 呼吁在 Discord 中建立国际频道:一名成员建议 Discord 服务器应该增加一个国际频道,并艾特了管理员 <@470844096328761364> 请求创建。
- 另一名成员回应称,<#1349440507507376129> 频道和地球图标让人感觉欢迎任何语言。
- 区分 o3 与 Manus:一名成员澄清说,o3 是像 4o 或 DeepSeek R1 这样具备工具调用能力的模型,而 Manus 使用的是 Claude 3.7 Sonnet 并提供了一个可以控制一切的环境。
- 另一名成员建议专注于 Python 并阅读 ArXiv 上的论文。
- 权衡 ChatGPT Plus 的价值:一名成员询问 ChatGPT Plus 是否仍然物有所值,引发了关于其功能和替代方案的讨论。
- 在 Manus 上应用 Cringe 过滤器的挑战:一名成员尝试让 Manus 去除脚本中的 cringe(尴尬/尬点)内容,但没有成功。
- 另一名成员指出,cringe 在普通词典中没有明确定义,而且是一个新兴的网络俚语,所以我认为你可以通过给出具体的指令来实现这一点。
aider (Paul Gauthier) ▷ #general (159 messages🔥🔥):
Gemini 2.5 Pro Exp, Mistral Medium 3 Performance, LLM Benchmarks, Aider with Cursor
- **Gemini 2.5 发布但在编程方面表现不佳:成员们报告称,虽然 Google 发布了 **Gemini 2.5 Pro Exp,但一些人发现尽管基准测试有所提升,但在代码方面它与 Sonnet 相比简直是“大垃圾”。
- 有人建议 Gemini 2.5 Pro Exp 的 25 次免费请求可以配合 Aider 使用。
- **Mistral Medium 3 重返竞争:Mistral Medium 3** 已经发布,正如 Mistral 官方公告 中指出的,它以比其他专有模型更低的成本(每百万 Token $0.4 输入 / $2.0 输出)提供具有竞争力的性能。
- 其他人表示很高兴看到 Mistral 重回赛场,“因为他们通常会发布 FOSS(自由开源软件)内容,从而促进竞争”。
- LLM 基准测试:毫无意义还是有用?:关于 LLM 基准测试 的效用展开了辩论,一些人认为它们具有误导性,因为模型可能是在基准测试数据本身上训练的。
- 尽管存在担忧,一些成员承认需要指标来评估模型,但建议对其结果“持保留态度”。
- Aider vs Cursor:自动上下文(Auto-Context)对比:用户在代码库索引和自动上下文实现方面将 Aider 与 Cursor 等专有工具进行了比较。
- 一些用户认为 “Cursor 中的
auto-context更可靠”,因为 Cursor 默认包含更多文件,这可能是因为它在将数据发送给 LLM 之前使用了专有模型进行信息提取;一些人则更喜欢用 Aider 处理复杂任务。
- 一些用户认为 “Cursor 中的
aider (Paul Gauthier) ▷ #questions-and-tips (36 messages🔥):
Golang 身份验证错误,Gemini 2.5 '思考模式',Aider RAG 功能,Claude CLI 与 Aider 成本对比,用于网页搜索的 Perplexity API
- Golang 仓库深受身份验证错误困扰:用户报告在包含 /vendor 文件夹的 Golang 仓库中专门遇到了
litellm.AuthenticationError,这表明在使用 architect mode 时,repo map 或 API 身份验证可能存在问题。- 将 /vendor 文件夹添加到 .aiderignore 并不能解决问题,且该问题似乎仅发生在 OpenRouter 上。
- 探索 Gemini 2.5 思考模式:讨论围绕确保 Gemini 2.5 以“思考模式”运行展开,提议使用
/think-tokens斜杠命令来分配 Token 预算以进行更复杂的推理,必须在配置中添加accepts_settings: ["thinking_tokens"]行。- 一位用户建议通过比较使用和不使用
thinking-tokens参数时的输出和完成时间来测试这一点。
- 一位用户建议通过比较使用和不使用
- Aider 获得网页搜索超能力:用户讨论了将网页搜索集成到 Aider 中,建议使用 Perplexity API key 作为 OpenAI 兼容 API,或通过 /web 命令手动将网页内容作为 Markdown 文件添加。
- 一位用户建议使用 aider-desk 配合搜索 MCP,以实现自主互联网搜索获取上下文。
- Aider 的 Gemini 调试循环:成员观察到 Aider 在使用 Gemini 时进入调试循环,尤其是在遇到错误时,但提供多组错误信息可能会通过重新思考实现方案来解决问题。
- 一位成员想知道是否是因为 conversational context 不足导致 Aider 无法识别并跳出这些调试失败循环,或者是否可能实现成功的自我修复。
LM Studio ▷ #general (142 messages🔥🔥):
Gemini 问题,Qwen 3 模型,LM Studio 微调,投机采样,本地模型能力
- Gemini 更新引发褒贬不一的反应:一位用户报告称,新的 Gemini 更新完全忽略了请求并进行了过度设计,引发了关于其与其他模型相比的有效性的讨论。
- 另一位用户表示,Qwen 3 在编程方面在各方面都更好,并能提供遵循指令的功能性代码。
- 关于 Qwen 3 模型用于投机采样的兼容性辩论:用户讨论了 Qwen 3 0.6b 用于投机采样(speculative decoding)的兼容性,指出由于微调和转换的差异,需要使用来自同一提供商的模型。
- 澄清指出,技术上并不要求模型必须来自同一提供商,但坚持使用同一提供商的模型更有可能运行良好。
- 本地模型在大型代码库重构中面临挑战:成员分享称,本地模型在处理上下文方面比较吃力,不适合重构大型代码库,但适用于自动补全和个人编程项目。
- 建议在编程任务中使用 Cline 等扩展和 LM Studio API,尽管商业模型也有局限性,而 Deepseek 正在成为顶尖的本地选择。
- 探索 LM Studio 集成以增强工作流:用户询问如何将 LM Studio AI 模型与 Excel、Word 和 Visual Studio Code 等程序集成。
- 建议向上滚动查看 VS Code 扩展,而与 MS Office 的集成仍不确定;建议使用 Open WebUI 以便从不同设备访问。
- 将参数传入提示词模板:成员讨论了在 LM Studio 的提示词模板(prompt templates)中传递参数的可能性,以便更好地控制模型行为,特别是对于具有强制参数的函数。
- 目前,用户可以在系统提示词中传递
/no_think来实现不思考。
- 目前,用户可以在系统提示词中传递
LM Studio ▷ #hardware-discussion (37 messages🔥):
Mac Studio RAM, HP Z2 Mini Workstation, Strix Halo PC, Model Quality vs Speed, DDR5 Memory
- Mac Studio RAM 价格过高:用户抱怨制造商对 Mac 的 RAM 升级收费过高。虽然如果购买高配版本,焊接 RAM 并不是问题,但定价似乎被人为抬高了。
- 一位用户指出 Prompt 处理速度是 Mac 上的瓶颈,并质疑如果大型模型处理几千个 tokens 都需要相当长的时间,那么其效用如何。
- HP Z2 Mini:工作站新宠?:一位成员建议在 HP Z2 Mini 工作站发布时将其作为替代方案考虑,预计届时会有大量设备进入市场。
- 讨论强调了该设备的内存速度为 8000 MT/s(每秒兆次传输),理论上相当于每秒传输 8000 百万兆字节的数据。
- Strix Halo PC:成员们讨论了将于 5 月 20 日发布的搭载 Ryzen AI Max 395 的 GMKtec Evo X2 Strix Halo 迷你 PC,认为它是拥有 128GB RAM 的潜在廉价替代方案。
- 据指出,Strix Halo PC 的内存带宽为 240 GB/s,与某些 NVIDIA 显卡相似。
- 质量需要时间:用户辩论了模型质量与处理速度之间的权衡,涉及的模型参数量在 70B 到 300B+ 之间。
- 一位成员建议通过在线 Runpod 测试来寻找合适的模型,其中 Mistral Large (123B) 被强调为一款 “可以很好地处理 32k 上下文” 的模型。
- DDR5 内存速度详情:一位用户澄清说,在讨论以 MT/s(每秒兆次传输)为单位的内存速度时,传输的数据量取决于编码,而 MHz 并不总是准确的衡量标准。
- 另一位用户补充说,对于桌面端 DDR5,在相同的 8000MT/s 下,CL38 比 CL40 略好。
GPU MODE ▷ #general (3 messages):
CI environment modifications, Python packages in CI
- 请求为 Python 包修改 CI 环境:一位用户询问是否可以修改 CI 基准测试程序的环境,以允许安装或导入 Python 包。
- 该用户表示,无法安装包使得编写高效的 kernels 变得困难。
- 询问具体的 Python 包:另一位用户追问需要哪些具体的额外包。
- 目前尚未确定具体的包,但已向原帖作者提出了该问题。
GPU MODE ▷ #triton (17 messages🔥):
Triton compiler passes, atomic ops, non-deterministic results, floating point arithmetic
- 编译器 Pass 的疑虑:一位用户质疑 Triton 中编译器 Pass 的重复问题,特别注意到 NVIDIA 和 AMD 后端都重写了 make_ttir 并包含了类似的 Pass,导致了冗余。
- 用户询问,是否因为 kernel 性能即使在 TTIR 级别也非常敏感,从而需要在流水线早期进行硬件特定的控制,才避免了提取出一套通用的后端无关 Pass。
- 原子加法异常:一位用户在使用自定义 matmul 实现并在 A100 上使用 fp16 时遇到一个问题:运行相同的输入,在不同运行中会产生略有不同的输出。
- 他们怀疑这与原子操作有关,但注意到在使用相同原子加法的其他 kernels 中并未出现此问题;另一位用户插话道,如果使用了
atomic_add,那么肯定会得到不同的结果。
- 他们怀疑这与原子操作有关,但注意到在使用相同原子加法的其他 kernels 中并未出现此问题;另一位用户插话道,如果使用了
- 浮点精度问题:一位用户询问该问题是否专门与 fp16 的原子加法有关,想知道在松散的原子加法下,数学求和的顺序是否会有影响。
- 另一位用户表示,浮点数结果相加的顺序确实会导致不同的结果,无论精度如何,并以经典例子
1e-8 + 1e8 - 1e8进行了说明。
- 另一位用户表示,浮点数结果相加的顺序确实会导致不同的结果,无论精度如何,并以经典例子
GPU MODE ▷ #cuda (29 messages🔥):
A6000 Ada, L40s, 4090, ECC Memory, Vast.ai Quality
- A6000 Ada 在出厂设置下比 L40s 更快:在默认设置下,A6000 Ada 的表现通常优于 L40s,而 4090 是所有 Ada 架构显卡中最快的,尽管从理论参数上看 L40s 拥有更强的 Tensor Core 算力。
- 性能差异可能是由于 L40s 默认启用了 ECC 而 A6000 Ada 禁用了它,但云服务商通常不允许禁用此功能。
- L40s 相比 4090 的优势:L40s 提供了优于 4090 的特性,包括 ECC 内存、被动散热、不同的驱动程序、稳定性,以及由于较低的时钟频率可能带来的更高效率。
- A40 是性价比(Token/$)之王:在租用显卡时,根据云服务商的默认设置,A40 在 4x GB 类别中拥有最高的单位美元 Token 产出,而 A6000 Ada 在 Ada 4x GB 类别中领先。
- 4090 服务器更容易过热:与 L40s 服务器相比,4090 服务器往往有更多的过热问题,这可能是由于配置不当造成的,且 NVIDIA 禁止在数据中心使用 4090。
- 一位成员指出,像 Vast.ai 这样的网站将其 4090 列入“经过验证的数据中心”是令人怀疑的。
- L40s 奇怪的低效率:尽管拥有更强的 Tensor Core 算力,L40s 的表现并未超过 A6000 Ada,且 L40s 在 LLM 推理方面的表现与 L40 相似,尽管 L40 的算力(Flops)只有其一半。
- 由于其他影响性能的因素,实际的 Tokens/sec/$ 比规格参数更重要;该用户还链接到了一条推文,显示其他用户也在抱怨 L40s 的性能。
GPU MODE ▷ #torch (1 messages):
CUDAGraphs, Warmup Stream, Graph Capture Isolation
- CUDAGraphs 的预热流(Warmup Stream)需要背景信息:一位成员询问为什么 PyTorch 关于 CUDAGraphs 的文档 为 预热(warmup)创建了一个新流。
- 他们想知道
torch.cuda.graph是否已经为记录图创建了新流,以及为什么这不足以 隔离图捕获(graph capture)。
- 他们想知道
- CUDAGraphs 中图捕获的隔离问题:讨论围绕着当已经为记录创建了新流时,
torch.cuda.graph是否能充分隔离图捕获。- 用户试图理解为预热额外增加一个流的必要性,质疑
torch.cuda.graph提供的现有流是否不足以实现隔离。
- 用户试图理解为预热额外增加一个流的必要性,质疑
GPU MODE ▷ #cool-links (7 messages):
Devin, 32B model, GPU kernel, KernelBench
- Devin 开发者发布 Kevin:开发 Devin 的公司刚刚发布了一个名为 Kevin 的 32B 参数模型,专门用于 GPU Kernel 开发,详情见此 博客文章,并在 一篇随机推文 中进行了讨论。
- 据报道,该模型在这个细分领域非常有效。
- Kevin 在测试集上进行了训练:成员们注意到 Kevin 是在测试集上训练的,这引发了对评估方法的担忧。
- 该模型在 180 个任务上进行了训练,并保留了 20 个任务作为验证集。
- KernelBench 衡量 CUDA 技能:KernelBench 是一个包含 250 个基于 PyTorch 的经典深度学习任务的数据集,用于衡量模型用优化的 CUDA Kernel 替换 PyTorch 算子的能力。
- 评估重点在于 Level 1(基础任务,如矩阵乘法)和 Level 2(融合算子)。
GPU MODE ▷ #beginner (4 messages):
Roofline Plot Generation, Nsight Compute for Roofline Analysis, Memory Allocation Strategies for Roofline Plots, Tensor Core Programming Pattern
- Nsight Compute 生成 Roofline 图:一位成员建议使用 Nsight Compute 来生成 Roofline 图,并指出它使用理论极限作为 Roofline,并显示 Kernel 相对于这些极限的性能。
- 实验 Matmul 大小和内存:一位成员通过在相同的已分配内存字节上扫描不同的 Matmul 大小(黑色三角形)和重复乘法(彩色圆圈)来实验生成 Roofline 图。
- 从 HBM 到 Tensor Core:在观看了一些教程后,一位成员询问 HBM -> Shared Memory -> Register -> Tensor Core 是否是编写 Matmul 程序时常见且高效的模式。
GPU MODE ▷ #torchao (6 messages):
torchao scaled_mm op usage, quantized Phi-4 Mini Instruct models, INT8 dynamic activation & INT4 weight quant for ExecuTorch
torchao使用_scaled_mm算子进行量化:成员们确认torchao在 CPU 和 GPU 上都使用_scaled_mm算子(代码链接),但对于整数量化,它使用不同的实现(代码链接)。- 一位成员解释说
_scaled_mm算子是用于 float8 的,而对于整数量化,则使用不同的 kernel,并引用了torchao仓库中的 intmm.py 文件以及 quantization API。
- 一位成员解释说
- 量化版 Phi-4 Mini Instruct 模型发布:PyTorch 团队在 Hugging Face 上发布了量化版的 Phi-4 Mini Instruct 模型,这些模型使用 TorchAO 进行量化,并针对 vLLM 和 ExecuTorch 的部署进行了优化。
- 发布内容包括 INT4 weight-only quant(支持 vLLM,峰值内存减少 67%,在 A100 上提速 10-20%)、FP8 dynamic activation & weight quant(支持 vLLM,峰值内存减少 36%,在 H100 上提速 15-20%)以及 INT8 dynamic activation & INT4 weight quant(适用于 ExecuTorch)。
- ExecuTorch 获得 INT8 和 INT4 量化支持:具有 INT8 dynamic activation 和 INT4 weight quant 的量化模型现在可用于 ExecuTorch,支持在手机和移动设备上运行。在 iPhone 15 Pro 上使用 3206 Mb 内存时,解码性能达到 17.3 tokens/sec。
- 提供了模型以及量化、推理服务、模型质量和性能评估的逐步方案(recipes),鼓励用户通过相关仓库的 issue 提供反馈。
GPU MODE ▷ #off-topic (2 messages):
Cursor.com student offer, IDE for coding
- Cursor 提供学生计划:一位成员分享了面向学生的 Cursor 学生计划链接。
- 另一位成员对此表示感谢。
- 新型编程 IDE:Cursor 被宣传为一款专为与 AI 结对编程而构建的新型 IDE。
- 它允许向 GPT-4 提问代码相关问题、生成代码以及查找并修复 bug。
GPU MODE ▷ #irl-meetup (1 messages):
random.oof: 有人在纽约的 vLLM 见面会现场吗?
GPU MODE ▷ #rocm (2 messages):
install .whl file manually, python script import pip module
- 手动安装预构建的 .whl:一位成员询问是否可以手动安装预构建的 .whl 文件。
- 另一位成员建议在 Python 脚本中导入 pip 模块 以进行内联安装。
- 导入 Pip 模块进行内联安装:一位成员建议直接在脚本中使用 Python 的 pip 模块进行内联安装。
- 这种方法允许以编程方式安装包,而无需单独的命令行调用。
GPU MODE ▷ #webgpu (1 messages):
WGPU Sampling Rate
- 寻求指导:WGPU 采样率获取:一位成员正在寻求关于如何通过 WGPU 获取支持的 sampling rate(采样率)的帮助。
- 仍在寻求 WGPU 采样率获取的指导:该成员仍在寻求关于如何通过 WGPU 获取支持的 sampling rate 的帮助。
GPU MODE ▷ #liger-kernel (3 messages):
Qwen 3, Liger-Kernel, Qwen 3 MoE
- Liger-Kernel 即将支持 Qwen 3 MoE:一位成员在注意到 0.5.9 版本支持 Qwen 3 后,询问 Liger-Kernel 是否支持 Qwen 3 MoE。
- 在收到尚不支持的确认后,该成员表示他们很快会为 Qwen 3 MoE 提交一个 PR。
- Qwen 3 现已可用:一位成员注意到 0.5.9 版本已支持 Qwen 3。
- 好的,我很快会为 Qwen 3 MoE 发送一个 PR。
GPU MODE ▷ #self-promotion (1 messages):
ML efficiency, Linear Layer Optimization, Quantization, Low-bit Matmul Kernels
- Cohere 的讲座揭秘 Dem Models:在 5月14日,Cohere Labs 将举行一场关于优化线性层以提高 Dem Models 效率的讲座,内容涵盖 Quantization、Low-bit Matmul Kernels 以及其他相关技术。
- 讲座将重点讨论提升 ML efficiency 的实用方法,特别是针对 Dem Models 中的计算瓶颈。
- 线性层优化深入探讨:该讲座将在 Cohere Labs 介绍 Linear Layers 的优化,以提升 Dem Models 的速度,并涵盖 Quantization 和 Low-bit Matmul Kernels 等相关主题。
- 参与者可以期待获得关于提高机器学习模型效率的实用见解,重点是减少计算开销。
GPU MODE ▷ #🍿 (1 messages):
CognitionAI, Kevin 32B, Multi-Turn RL, CUDA Kernels
- CognitionAI 发布 Kevin 32B:CognitionAI 刚刚发布了 Kevin 32B,这是一个利用 Multi-Turn RL 来编写 CUDA Kernels 的模型,详情见 Notion。
- Kevin 会写 CUDA?:据 此 Notion 链接 报道,新的 Kevin 32B 模型据称可以使用 Multi-Turn RL 编写 CUDA Kernels。
GPU MODE ▷ #reasoning-gym (1 messages):
RL in LoRA, Base Model Quality
- LoRA 中的 RL 实现提升:成员们讨论认为,通过 RL in LoRA 确实可以改进模型。
- 尽管你可能会更早遇到瓶颈,但成员们指出,Base Model Quality(基础模型质量)等其他因素比 LoRA 还是全量 RL 的选择更为重要。
- 基础模型质量至关重要:基础模型的质量对于改进而言,比使用 LoRA 还是全量 RL 更重要。
- 虽然 LoRA 存在局限性,但基础模型固有的质量会显著影响通过强化学习进行提升的潜力。
GPU MODE ▷ #submissions (52 messages🔥):
amd-fp8-mm leaderboard, MI300 optimization, amd-mixture-of-experts leaderboard
- MI300 横扫 AMD FP8-MM 排行榜!:多个使用 MI300 的提交已发布到
amd-fp8-mm排行榜,耗时从 251 µs 到 9.85 ms 不等。- 一位用户向
amd-fp8-mm排行榜提交了一个已排名的脚本 fp8_gemm.py。
- 一位用户向
- AMD Mixture-of-Experts 基准测试盛宴!:多个提交已发布到
amd-mixture-of-experts排行榜,在 MI300 上的耗时包括 7275 ms、7281 ms 和 12259 ms。 - AMD FP8-MM 上的亚毫秒级对决!:多位用户使用 MI300 在
amd-fp8-mm排行榜上实现了亚毫秒级的耗时,部分甚至低至 195 µs。
GPU MODE ▷ #status (2 messages):
popcorn-cli, github releases, timeout fix
- popcorn-cli 自动化发布已部署:popcorn-cli 的发布现在已自动化到 GitHub releases。
- 一位成员征求反馈,并特别提到了已合并的 timeout fix(超时修复)。
- 已合并超时修复:popcorn-cli 中已合并了一个 timeout fix。
- 该修复由特定成员实现。
GPU MODE ▷ #hardware (3 messages):
DGX Spark, Blackwell ISA, New SASS Instructions, FP8 Operations
- DGX Spark 引发猜测!: 成员们对 DGX Spark 进行了推测,认为它可能与新的硬件功能有关。
- 他们指出 GB10CUDA12.9 文档 列出了针对 Blackwell ISA 的三条新 SASS 指令:QADD4, QFMA4, QMUL4。
- Blackwell ISA 带来新指令: GB10CUDA12.9 的文档重点介绍了专门针对 Blackwell ISA 引入的三条新 SASS 指令:QADD4, QFMA4 和 QMUL4。
- 这些指令表明了针对 4xFP8 操作(包括加法、乘法和融合乘加)的新功能,但“据目前所知,还没有相应的 PTX 指令”。
- FP8 操作得到增强: 针对 Blackwell ISA 的新 SASS 指令 (QADD4, QFMA4, QMUL4) 表明 FP8 操作 的能力得到了提升。
- 这些包括针对 4xFP8 数据的加法、乘法和融合乘加操作的指令。
GPU MODE ▷ #factorio-learning-env (24 messages🔥):
FLE Docker server connectivity issues, LangGraph agent integration with FLE, Factorio client version, Steam update, harvest_resource/server.lua is broken
- 回溯算法取得突破:实验室记录被刷新!: 实验室使用 Mart 的回溯框架在 electronic-circuits 和 automation-science 测试中创造了新纪录,详见 electronic-circuits.mp4 视频 和 automation-science.mp4 视频。
- harvest_resource/server.lua 被发现在 main 分支上已损坏,回滚到旧版本解决了该问题,但由于新的导入策略,测试仍然失败。
- 导入僵局:新策略导致测试故障!: 涉及绝对导入的新导入策略导致使用相对导入的测试失败,特别是在跨不同文件检查
isinstance(entity, Prototype)时。- 此外,据报道新的导入结构破坏了整个代码库的功能,因为 Pydantic 在以不同方式导入时无法识别类是相同的。
- Factorio 困扰:CRC 不匹配导致 Desyncs!: 一位用户报告在最近的 Steam 更新后,其 Factorio 客户端与 FLE Docker 服务器之间出现连接问题,由于 CRC 值不匹配导致立即出现 Desync(去同步)错误。
- 解决尝试包括验证 Factorio 客户端版本 (1.1.110)、重新构建 FLE Docker 容器以及确保禁用 Space Age DLC,但问题仍然存在,指向 FLE 特有的问题。
- LangGraph 困境:文档缺失阻碍集成!: 一位用户表示难以将他们的 LangGraph Agent 连接到 FLE,理由是文档有限且不确定预期的通信接口。
- 尽管有关于在 /agents 目录中创建 Agent 以及在 /eval/open/independent_runs/run.py 中附加新 Agent 的代码指引,但由于缺乏 LangGraph Agent 示例,集成过程变得复杂。
GPU MODE ▷ #amd-competition (7 messages):
AMD Mixture-of-Experts Leaderboard, popcorn-cli timeout patch, aiter/test_moe
- AMD Mixture-of-Experts 排行榜提交功能正常:一位用户报告称,在上传 Python 文件并选择 GPU 后,使用命令
/leaderboard submit benchmark提交 AMD Mixture-of-Experts 模型的功能正常。- 如果未选择 GPU,则会发生错误;此外,由于该模式包含测试和基准测试模式,排行榜可能会因超时而失败。
- Popcorn-CLI 的超时补丁:一位用户提到已提交了一个用于延长超时窗口的补丁,可以在这里找到。
- 该用户建议使用最新的 popcore-cli 代码更新 CLI 并编译 CLI 二进制文件,他们已验证这可以解决排行榜提交的超时问题。
- 直接访问 aiter/test_moe:一位用户建议通过此链接直接访问 aiter/test_moe。
- 此链接可能有助于解决与超时或提交错误相关的问题。
GPU MODE ▷ #mojo (11 messages🔥):
Mojo GPU Kernel, PyTorch Mojo, Qualcomm GPU support, Modular GPU Kernel Hackathon
- Mojo 专注于 GPU Kernel 和高性能 CPU 编程:Mojo 正将其精力集中在 GPU kernel 和高性能 CPU 编程上,将类(classes)等特性的优先级降低,这可能会阻碍在 Mojo 中构建完整的 AI 框架。
- 团队鼓励使用 PyTorch,并希望未来能看到出色的 PyTorch+Mojo 集成。
- 使用 GPU Warp 时 Prefix Sum 结果不正确:一位用户在尝试简单的 GPU kernel 时发现 Mojo 的
warp_sum和block_sum函数结果不正确,并在 Gist 中分享了代码和调试输出。- 进一步的调试显示,问题可能出在
prefix_sum而非shuffle_up,该问题已追踪至一个 GitHub Pull Request。
- 进一步的调试显示,问题可能出在
- Modular 编译器明年开源:一位用户询问了 Modular 编译器的状态及其开源进度。
- 已确认计划在明年将其开源。
- 探索 Qualcomm GPU 支持:一位用户询问是否有支持 Qualcomm GPU(如 8650)的计划。
- 另一位用户建议查看 Modular Puzzles,这是进入 GPU Programming 的绝佳入门。
- Modular GPU Kernel 黑客松:宣布了本周六在 AGI House 举行的 Modular GPU Kernel 黑客松,演讲嘉宾包括 Dylan Patel 等,注册链接见 AGI House。
- 该活动设有演讲嘉宾,并附带一张宣传图片。
MCP (Glama) ▷ #general (145 messages🔥🔥):
Cursor MCP, A2A discussion, Debugging MCP Servers, Cloudflare Deployment issues
- Cursor 难以使用 MCP 资源:成员们讨论了让 Cursor 使用资源时遇到的问题,指出资源不像 prompts 那样显示在 UI 中,而且 Claude 要求用户显式包含资源,这可能与 MCP 的设计初衷不符。
- 有人指出,正如 MCP specification 所述,资源理应由宿主应用程序处理,无需用户交互。
- A2A 被认为比较繁琐:讨论了 Agent-to-Agent (A2A) 通信的价值,一位成员觉得它有一点繁琐,但赞赏其核心抽象概念,如 task、agent 和 artifact。
- 有建议认为 MCP 可以有效地支持 A2A,并且用于管理任务的 A2A 工作流可以用相对较少的代码实现。
- 调试 MCP Servers 极具挑战:一位成员分享了调试通过 stdio 传输的 MCP server 的困难,提到由于需要禁用 console logs 以及 VSCode debugger 断点失效,花了一周时间才解决一个小问题。
- 有建议使用 tee stream 进行调试,一位用户指出了这份指南,用于调试 mcp server 以及使用 mcp inspector 进行 tool calling。
- Cloudflare 部署连接失败:一位成员询问是否有人遇到部署在 Cloudflare 上的远程 MCP Servers 连接问题。
- 上下文中未提供具体的解决方案。
- MCP server 现已开源:一位成员介绍了他们的项目 vertex-ai-mcp-server,该项目最初针对 Vertex AI,现已扩展到包含 Gemini、grounding 和其他工具。
- 该项目现已开源。
MCP (Glama) ▷ #showcase (3 messages):
MCP Client, OpenLink AI Layer, Model Context Protocol
- 新型基于 CLI 的 MCP Client 出现:发布了一个针对 STDIO MCP Servers 的新型轻量、快速且简单的 基于 CLI 的 MCP Client,旨在连接运行 Ollama 的本地 LLM 与 MCP Servers (loom 链接)。
- 它可以与 jadx mcp servers 配合使用,利用本地 LLM 对 Android APKs 进行 AI 辅助的反向工程,代码已在 GitHub 上提供。
- OpenLink 的 OPAL MCP Server 正式发布:OpenLink Software AI Layer (OPAL) 的 MCP Server 现已正式发布(GA),支持云端和本地部署。
- 根据 OpenLink 社区论坛帖子,该 Model Context Protocol (MCP) 的实现同时支持客户端和服务器角色,并具备数据库查询、元数据探索、LLM 交互和 AI agent 集成等功能。
Yannick Kilcher ▷ #general (81 messages🔥🔥):
LLM output spam, AI-generated content, Em dashes in LLM output, AI article/patent writing agents, Nerf field with Gemini
- 社区讨论 LLM 输出垃圾信息:成员们讨论了频道中 LLM 生成内容泛滥的问题,并对互动质量以及发送大量充满项目符号的长消息的潜在骚扰行为表示担忧。
- 一位用户表示,他们确实认为这关系到服务器及其互动的质量,服务器的讨论质量正趋向于 Quora。
- 破折号 (Em dash) 破绽:成员们注意到 LLM 输出中经常使用破折号 (em dashes),这通常是一个明显的破绽。
- 一位成员指出,大多数人不知道如何在键盘上输入它,因为没有专门的按键。
- 用户开发动态 AI 文章/专利写作 Agent:一位用户正在开发一种动态的、基于 Society of Minds(心智社会)的 Agent,用于撰写专利和学术文章。
- 他们引用了自己的文章,提到 DreamerV3 模糊了静态模型与动态任务自适应世界建模之间的界限,但也承认有些人不相信它看起来具有未来感。
- Colab 中结合 Gemini 的 Data Science Agent:一位用户分享了 Google 博客文章 的链接,内容是关于 Colab 中结合 Gemini 的 Data Science Agent。
- 另一位成员表示:最近我从 Gemini 那里得到的似乎全是肤浅的博客文章水平的内容。令人失望。
- AI 模型偏见/污染:一位用户表示,一些公司可能会向抓取内容的 Agent 提供错误或虚假内容,这可能导致 Agent 变得更加偏见。
- 该用户说:我认为正在发生的是,一些公司(我认为是从 Cloudflare 开始的)向试图抓取其内容的 Agent 提供错误/虚假内容。他们将其比作提供压缩包炸弹 (zip bombs) 的中文网站。
Yannick Kilcher ▷ #paper-discussion (1 messages):
Time off, Volunteers needed
- 宣布休假:一位成员宣布他们将休假,可能是本周和下周,以处理一些事情。
- 他们保证一定会回来。
- 需要志愿者!:一位成员鼓励任何想要演讲或组织的人随时参与!
- 未提供其他上下文。
Yannick Kilcher ▷ #ml-news (26 messages🔥):
Winner-Takes-All Economics, Mistral Medium, Zed AI Code Editor, Cerebras Inference, Windows Compilation
- 引发关于 Winner-Takes-All 经济学的辩论:成员们辩论了 Winner-Takes-All(赢家通吃) 经济体系的影响,以及这是否是 US 自建国以来一直在构建的体系。
- 另一位成员链接了 Mistral Medium 发布公告,并注意到一个 FixupX 帖子,开玩笑说它的代价是几百万美元的低成本。
- Zed AI 代码编辑器加入竞争:成员们讨论了新的 Zed AI 代码编辑器,并指出它是开源的。
- 一位成员计划将其与 Mellum 4B Base 模型一起使用,并对缺乏 Windows Binary 表示失望。
- Cerebras 推理模型托管受到质疑:一位成员对 Cerebras 网站表示沮丧,发现很难找到他们托管用于 Inference 的模型列表。
- 他们在 Twitter 页面上找到了更多细节,批评现代网页设计优先考虑视觉效果而非细节。
- Zed AI 在 Windows 上的编译记录:一位成员按照 此处的说明 成功在 Windows 上编译了 Zed AI,并链接到了一个 相关 Issue。
- 另一位成员询问为什么需要编译 Zed,因为没有可用的 Windows Binary,另一位成员指向了这个教程。
- Zed 字体太模糊:一位成员抱怨 Zed 中的字体太模糊,并指出 Tab 补全需要 GitHub 登录。
- 他们还表示失望,因为必须登录 GitHub 才能获得 Tab 补全,以便在 LM Studio 上尝试 Mellum 4B 进行 Tab 补全。
Latent Space ▷ #ai-general-chat (80 条消息🔥🔥):
Windsurf AI, Cursor vs Windsurf, OpenAI internal models, Gemini 2.5, Product Market Fit
- Windsurf 的产品愿景更胜一筹:成员们讨论认为 Windsurf 似乎比 Cursor 拥有更连贯的产品愿景,这可能归功于 OpenAI 的收购以及内部模型的开发。
- 担忧在于 OpenAI 对产品化的关注可能会导致内部隐藏的编程模型,从而创造出其他公司无法获取的显著竞争优势 (moat)。
- OpenAI 的模型领先时间依然重要:尽管各种模型层出不穷,一些人认为 OpenAI 在模型训练方面的领先地位赋予了他们显著优势,即使只比竞争对手领先一两个月。
- 持续提供更强大模型的能力可以巩固市场份额,这使得一些人考虑根据最新模型的表现,在 Windsurf、Claude 和 Cursor 等工具之间切换。
- Gemini 2.5 的 Guardrails 导致异常响应:用户报告称新的 Gemini 2.5 Pro 预览版出现了奇怪的响应,将其归因于增加的 guardrails 和安全训练,正如这篇 reddit 帖子中提到的。
- 一位用户指出,至少他们没有为了个性和参与度而无休止地调整它,但无休止的排行榜刷分(leaderboard hacking)和不断变化的安全训练正让这些模型变得非常诡异。
- AI 增强创造了新工作:Arstechnica 上的一篇文章讨论了 AI 节省的时间是否被创造的新工作所抵消,该文章已在聊天中分享。
- 一些成员根据个人经验表示赞同,指出他们现在把时间花在了一些 AI 出现之前并不存在的任务上,例如维护 prompt 库,这类似于“红皇后假说” (red queen’s race) 的概念。
- Mistral 新模型亮相:成员们报告称 Mistral 正在发布一个新模型以及一个 Mistral 企业级聊天 Agent,据这条推文报道。
- 这些新模型旨在性能和安全性方面与 OpenAI 的 gpt 模型展开竞争。
Latent Space ▷ #ai-announcements (2 条消息):
New Claude code pod, AI Engineer conference
- 新的 Claude code pod 来了!:新的 Claude code pod 现已发布,请在 Latent Space 的 X 帖子中查看。
- AI Engineer 会议早鸟票即将售罄:年度最大的 AI Engineer 会议将于今年 6 月举行,早鸟票预计本周末售罄,欲购从速!
- 演讲者名单现已公布,请在 ai.engineer/#speakers 查看演讲嘉宾。
HuggingFace ▷ #general (38 messages🔥):
Hugging Face 账单查询,LLM 用户信息处理方法,Mac 上的文本转 3D 扩散模型,Dolphin 模型拟人化,Agent 的大规模强化学习
- 订阅激活故障需要邮件干预:一位用户反映支付了订阅费用但未获得会员权限,被建议发送邮件至 website@huggingface.co 获取支持。
- 在一天未收到回复后,该用户跟进询问是否有更快的联系支持方式。
- 账单问题引导至 HF 邮件咨询:一位用户询问关于 HF access token 和 meta-llama-Llama-3.3-70B-Instruct 的费用计算,被引导至 billing@huggingface.co。
- 成员们分享了 Hugging Face Inference 费用文档 和 相关的论坛讨论 链接。
- 用于用户信息的 LLM:RAG 来救场:一位用户正在寻找合适的方法将用户详情和旧聊天记录提供给 LLM,以便 LLM 能够记住用户的身份。
- 有建议指出,虽然可能不需要像 RAG 这样复杂的机制,但程序流程与 RAG 相似,因此 RAG 可以作为参考,并引用了如 AI Blueprint Agentic RAG Part 3: Generate 和 Gradio State 等博客文章。
- 没有 CUDA 的文本转 3D 扩散?Mac 用户联合起来!:一位用户感叹在没有 CUDA 的 Mac 上运行文本转 3D 场景扩散模型。
- 另一位用户建议使用 Apple Silicon 来加速,并链接到了 针对 MPS 的 Diffusers 优化文档 和 CoreML。
- SemEval 和 ISWC 2025 挑战赛:目前有两个开放的社区挑战赛:SemEval 2025 和 KONVENS 2025 的 LLMs4Subjects,专注于双语主题打标,详见此处。
- 此外,LLMs4OL 与 ISWC 2025 共同举办,是一个语义网 AI 挑战赛,专注于使用 LLM 重构著名的本体(如 Gene Ontology),更多信息见此处。
HuggingFace ▷ #today-im-learning (9 messages🔥):
Cache-Augmented Generation, 分布式 RLHF, 将 .tensorflow 转换为 .bin, 离线模型
- 推荐 **CAG 论文:一位成员推荐阅读 **Cache-Augmented Generation (CAG) 论文,称其非常易读且轻量,并提供了论文链接。
- 分布式 **RLHF 正在进行中:一位成员正在创建一个用于分布式 RLHF** 的库,并在接触 R1 和 R1-zero 中使用的 GRPO 之前,正在阅读几篇 DeepSeek 论文。
- 他们还提到 Neuralink 使用 wandb 进行 loss 绘图,并询问用于可视化线程和进程使用的第二个工具。
- 如何将 **.tensorflow 文件 转换为 .bin 文件:一位成员询问如何将 **.tensorflow 文件转换为 .bin 文件以获取模型的离线版本,另一位成员分享了一个将 HD5 转换为 Bin 模型文件的脚本。
HuggingFace ▷ #i-made-this (11 messages🔥):
RADLADS, Alpha-Root Dataset, CommonCrawl Data Extraction, Embedder Collections, ACE-STEP Music Generation
- Recursal 的 RADLADS 亮相,助力注意力蒸馏:Recursal 团队推出了 RADLADS (Rapid Attention Distillation to Linear Attention Decoders at Scale),这是一种将 softmax 注意力 Transformer 快速转换为线性注意力解码器模型的协议,详见其 ArXiv 论文 和 HuggingFace 模型集合。
- RADLADS 训练所需的 Token 少于 7 亿 (700M),成本低于 2,000 美元,同时保持了接近原始 Transformer 模型的推理质量;训练代码已在 GitHub 上发布。
- Embedder 集合现已可用:一名成员分享了一个 Embedding 集合的链接,可在 此处 获取,可能对 RAG 应用有所帮助。
- 他们还分享了 Alpha-Root Dataset 的链接,这是一个具有竞争力的网络安全预训练数据集。
- Alpha-Root Dataset 采用新的 CommonCrawl 范式:Alpha-Root 数据集 描述了一种从 CommonCrawl 提取数据的新范式,该范式直接在 CommonCrawl 网页图谱上挖掘域名。
- 据创建者称,这种方法在资源和数据消耗减少约 10 倍 的情况下,达到了与 PRIMUS-FineWeb 相当的性能,无需分类器即可从 FineWeb-Edu 中提取 30 亿 (3B) tokens。
- ACE-STEP 模型实现 SOTA 音乐生成:ACE-STEP 模型实现了最先进的音乐生成性能,如 此 YouTube 视频 所示。
HuggingFace ▷ #computer-vision (9 messages🔥):
Flash Attention 2, FP16 and BF16 support, local file formats
- Flash Attention 2 安装指南出现:成员们讨论了使用
pip install flash-attn来安装和使用 Flash Attention 2,其中一名成员提供了 PyTorch 博客链接。 - FA2 现已支持 FP16 和 BF16!:成员们提到 Flash Attention 2 支持 FP16 和 BF16(其中 BF16 需要 Ampere 或更新架构的 GPU),建议使用
git clone https://github.com/Dao-AILab/flash-attention进行安装。 - 本地文件格式:成员们询问本地加载的模型是
.bin还是.safetensors格式。
HuggingFace ▷ #NLP (2 messages):
DaoDeCode, Maximilian-Winter, github.com
- DaoDeCode 语言模型发布:一名成员介绍了 DaoDeCode,这是一个融合了机制点 (Mechanism Points)和五行转化模式 (Five Element Transformation Patterns)的语言模型框架,灵感源自道家策略。
- 该框架旨在通过识别时空消失的“完美接缝”来实现“最小干预,最大转化”,源代码可在 GitHub 上获得。
- 对 DaoDeCode 的热烈反响:另一名成员对 DaoDeCode 的发布表现出极大的热情。
- 该成员针对最初的详细信息回复了一条简短的消息:Brother what?。
HuggingFace ▷ #smol-course (1 messages):
Smolagents Transcriber, Speech-to-text pipeline, Whisper-Turbo
- Smolagents Transcriber 工具上线:Transcriber 是一个基于 Whisper-Turbo 构建的语音转文本流水线,可将音频转录为文本,详见 Smolagents 文档。
- Transcriber 利用 Whisper-Turbo 优势:根据 Smolagents 文档,该转录器利用 Whisper-Turbo 实现快速且准确的语音到文本转录。
HuggingFace ▷ #agents-course (12 条消息🔥):
404 Client Error, 本地运行模型, 在 AgentWorkflow 中包含图像, 受限仓库 (Gated Repo) 访问, 基于 CSV 的 RAG
- 绕过 404 Client Error:用户在尝试使用特定模型运行 Jupyter notebook 时遇到了 404 Client Error。
- 一位成员建议将 client 更改为
client = InferenceClient(provider="hf-inference",model="meta-llama/Llama-3.3-70B-Instruct")以解决该问题。
- 一位成员建议将 client 更改为
- 期待本地运行模型的指导:一位成员请求关于本地运行模型的指导,特别是使用 llama_index 构建 Agent。
- 他们正在寻求关于如何在 AgentWorkflow 输入中包含图像的建议,但难以找到相关信息。
- 解决受限仓库 (Gated Repo) 访问错误:尽管在 Space 设置和代码中设置了 Hugging Face token,用户在访问受限仓库 (Gated Repo) 时仍面临问题。
- 他们将代码配置为如下使用 token:
huggingface_token = os.environ.get("HUGGINGFACE_TOKEN"),但仍然收到访问错误。
- 他们将代码配置为如下使用 token:
- 基于 CSV 的 RAG 提交引发辩论:一位成员批评称,一半的提交内容只是基于 CSV 的 RAG,并附带了所有基准测试问题的解决方案。
- 该成员表示有兴趣看到使用 smolagent 的真实 Agent 实现。
- 在本地使用特定问题测试 Agent:一位成员分享了一个 test_agent.py 文件,用于在本地针对数据集中的特定问题测试 Agent。
- 他们通过注释和取消注释测试用例,使用该文件来原子化地检查 Agent 在各种特定任务上的正确性。
Nous Research AI ▷ #general (37 条消息🔥):
支持 Gemini 的 Open Codex 分叉, 用于 LLM 的 M4 Max MacBook Pro, 用于 Naughty Chats 的 Dolphin Logger, Zed AI 代码编辑器, Gemini 模型 tps
- Open-Codex 分叉现已支持 Gemini、Ollama 等:一位成员提到,目前至少有两个 open-codex 分叉旨在允许使用其他模型,包括这一个,它支持 Gemini、Ollama 等。
- 另一位成员声称 官方 OpenAI Codex 显然现在也支持其他模型,但被机器人屏蔽了。
- M4 Max MacBook Pro 可运行高达 90B 参数的模型:一位成员报告称,在配备 128GB RAM 和 2TB 硬盘 的 M4 Max MacBook Pro 上,使用 LM studio 运行了高达 900 亿参数的模型。
- 这台 MacBook Pro 是直接从 Apple 官网购买的 认证翻新机 (Certified Refurbished)。
- Cognitive Computation 为 Dolphin 的 naughty chats 寻求帮助:Cognitive Computations 的 Eric 正在寻求帮助,以使 naughty 交互民主化、匿名化并有机地获取来源,从而训练 Dolphin 模型。
- 为此,他建议用户安装 dolphin-logger,将你的 key 添加到 .env 并运行它,然后将你的 Agentic/MCP 工具指向它。
- Zed 发布最快的 AI 代码编辑器:Zed 发布了一款新的 AI 代码编辑器,具有良好的本地模型支持,这意味着它应该能轻松与包括 Hermes 在内的其他本地模型集成。
- 似乎用户也可以使用任何 Ollama 模型,只要它支持 toolcalls 和 diff styles。
- 新 Gemini 模型达到 500-1500 tps:一位成员报告称,在新的 Gemini 模型上实现了 500-1500 tps。
- 他们觉得这太疯狂了,认为这种水平的性能只有 Cerebras 和 Groq 才能做到。
Nous Research AI ▷ #ask-about-llms (5 条消息):
DeepHermes-3-Llama-3 尺寸, 1B 模型尺寸限制
- DeepHermes-3-Llama-3 尺寸变体已明确:成员们明确了 DeepHermes-3-Llama-3 有 3B、8B 和 24B 三种尺寸。
- 一位成员询问了 NousResearch/DeepHermes-3-Llama-3-1B-Preview 模型,但这并不是现有的官方发布版本。
- 1B 模型尺寸被声明为“太小”:据报告,曾有人尝试创建 1B 模型版本。
- 成员们得出结论,1B 参数的模型尺寸实在太小,无法发挥有效作用。
Nous Research AI ▷ #research-papers (3 条消息):
Arxiv Paper, Learn Mandarin
- 分享了 Arxiv 论文链接:一名成员分享了一篇 Arxiv 论文的链接——该论文真实性待考。
- 他们还分享了同一篇论文的 Arxiv 摘要链接。
- 用户表达了学习普通话的愿望:一名成员表达了 “我得学普通话了” (I gotta learn mandarin) 的想法。
Nous Research AI ▷ #interesting-links (1 条消息):
kotykd: https://cognition.ai/blog/kevin-32b
Nous Research AI ▷ #research-papers (3 条消息):
Arxiv Paper, Learning Mandarin
- Arxiv 上发布了重复链接:发布了指向同一篇 Arxiv 论文的两个链接:arxiv.org/pdf/2505.03335 和 arxiv.org/abs/2505.03335。
- 用户准备学习普通话:一名用户提到 “他们得学普通话了”。
Eleuther ▷ #general (27 条消息🔥):
Cursor free for students, Scale Maximalism, Advertising saturation point, SLURM memory allocation
- Cursor 为学生提供免费 IDE:一名用户分享了关于学生免费使用 Cursor IDE 的链接。
- 其他人表示,得知 Cursor 对学生免费这一消息,对本社区中相当大比例的成员来说是非常有用的。
- 至上主义者相信规模 (Scale) 将解决一切:一名成员征求那些坚定支持 规模至上主义 (Scale Maximalism) 的论文或研究员的推荐。
- 他们正在寻找那些认为 规模至上主义将解决 AI 中所有问题 的支持者。
- 广告达到饱和点:一名成员认为,如果一个产品已经足够饱和(如 Gemini 或 ChatGPT),你几乎总是可以进行“广告宣传”。
- 他们觉得 Cursor 是一种并不特别惠及发布者的资源,而广告的最终阶段是当你的客户充当你的营销人员时。
- SLURM 用户请求了 80MB 而非 GB:一名用户透露了他们问题的修复方法:他们之前通过 SLURM 请求的是 80MB 内存,而不是 80GB。
- 另一名成员回应道,这 “让我庆幸我们只是在裸机 (bare-metal) 上运行一切”。
Eleuther ▷ #research (2 条消息):
MTurk, Prolific, Human Evals
- 在人类评估中,Prolific 比 MTurk 更受青睐:一名成员询问在进行人类评估 (Human Evals) 时应使用 MTurk 还是 Prolific。
- 另一名成员建议 80% 的情况下 使用 Prolific。
- Prolific 在评估方面完胜 MTurk:在被问及时,一名成员果断建议在人类评估中选择 Prolific 而非 MTurk。
- 这份简短的建议表示在 80% 的情况下 偏好 Prolific,暗示其在大多数场景下的优越性。
Eleuther ▷ #lm-thunderdome (10 条消息🔥):
lm-eval-harness implementation, HuggingFace vs vLLM, lm-eval-harness BOS token, lm-eval-harness sampling
- 出现了关于 lm-eval-harness 实现的指导:一名用户询问如何在 lm-eval-harness 中实现自定义模型,另一名用户提供了 文档链接。
- 他们建议继承
HFLM类并重载_model_call和_model_generate方法,并指向 Mamba 实现 作为示例。
- 他们建议继承
- HuggingFace 推理与 vLLM 性能对比成为热门话题:一名用户指出,虽然 vLLM 在生成任务上更快,但 HuggingFace 推理 功耗更低,然而 HuggingFace 推理 在对数似然 (loglikelihood) 任务中可以使用全部功率。
- 另一名用户回复说这是预料之中的,因为 vLLM 是针对快速生成进行优化的。
- lm-eval-harness BOS 令牌讨论:一名用户报告称,当使用基础模型和
LocalCompletionsAPI实现运行对数似然 (loglikelihood) 任务时,分词后的提示词包含了 BOS 令牌 (BOS token)。- 该用户询问了关于指定
add_bos_token=False的事宜。
- 该用户询问了关于指定
- 讨论了 lm-eval-harness 采样 (sampling):一名用户询问,如果在不指定
temperature的情况下设置do_sample:true,是否会使用 HuggingFace 模型的generation_config设置。- 回复是 “需要 temp > 0,否则它会将 do_sample 设置为 false”。
DSPy ▷ #show-and-tell (1 messages):
Unsloth, Claude Sonnet Finetuning, Qwen3-4b comparison, GRPO
- Unsloth 微调 Claude Sonnet 数据:一位成员使用 Unsloth 微调了他们下载的 Claude Sonnet 聊天历史数据。
- 他们经常使用 Claude Sonnet 来对 DSPy 进行 vibe code。
- Lora vs Qwen3-4b:该成员通过截图提供了他们在 zero-shot 设置下微调后的 Lora 模型与 Qwen3-4b 的对比。
- Lora 模型正确识别了 def forward,而非 Lora 版本则跳过了它;此外 Claude 数据使用的是 *
* 而不是 * *。
- Lora 模型正确识别了 def forward,而非 Lora 版本则跳过了它;此外 Claude 数据使用的是 *
- GRPO 微调可能效果更好:成员指出他们的 SFT finetune 几乎正确完成了 LabeledFewShot,但出现了幻觉。
- 他们认为 GRPO 微调可以轻松解决这个问题。
DSPy ▷ #general (30 messages🔥):
Efficient Domain Knowledge Injection in DSPy, DSPy Signature Docstrings, ReAct Module Signature without direct output, Accessing full LLM history
- 在 DSPy 中构思知识注入方法:一位成员正在寻求一种更节省 Token 的方式将领域知识(特别是 ES 集群索引和映射)注入 DSPy 程序,而不是将其作为 InputField 包含在每个 Prompt 中,目标是仅在会话开始时提供一次。
- 虽然 System Prompts 可能有效,但更倾向于使用 DSPy 的惯用方法;另一位用户建议在 text2SQL 任务的 System Prompt 中包含整个 Postgres schema。
- Docstrings 作为 DSPy Signatures 中的指令:成员们讨论了使用 dspy.Signature 中的 docstrings 来提供基本指令,将其视为给协作人员关于函数预期行为的规范。
- 最佳实践是解释“是什么”(任务内容),而不是“如何”实现,重点关注输入和输出中不明显的细节,并在可用时依赖训练数据,但在“快速且粗糙”的应用中可能会滥用 docstring。
- Docstrings 自动合并到 System 消息中:据透露,docstrings 会作为指令进入默认 Adapter 的 System 消息中。
- 建议使用
dspy.inspect_history()方法来检查 LLM 的交互历史,但一位成员指出 llm.inspect_history() 会截断字段,并在尝试转储到文件时抛出序列化错误。
- 建议使用
- 设计没有直接输出的 ReAct 模块 Signature:一位成员询问如何为主要输出 Tool Calls 的 ReAct 模块 创建 Signature,质疑如果 Tool Calls 是主要目标,输出字段是否可以留空。
- 未给出直接回答。
DSPy ▷ #examples (3 messages):
GitHub Notebook Rendering Issues, Colab vs GitHub for Notebooks, Missing "State" Key Error
- GitHub 渲染损坏了 Notebooks:一位成员认为 GitHub 的 Notebook 渲染 可能过于挑剔,导致了缺失 “state” 键的错误。
- 该成员建议问题可能源于过早复制了 Notebook,缺少了创建缺失的 “state” 键的步骤。
- Colab 介入修复 GitHub 问题:一位用户建议,未来链接到 Colab 版本(https://colab.research.google.com/github/Columbia-NLP-Lab/PAPILLON/blob/main/papillon_tutorial.ipynb)而不是 GitHub 版本将是最快的修复方法。
- 他们建议 Colab 的渲染对可能缺失的部分更具包容性。
Modular (Mojo 🔥) ▷ #general (6 messages):
Macbook 上的 Modular Puzzles,Trait 中的字段,Modular Hackathon
- 在 Apple Silicon 上解决 Modular Puzzles 依然难以实现:成员们讨论了在 Macbook 上运行 Modular Puzzles 的可行性,结论是目前无法直接在 Apple Silicon GPU 上运行,但可以通过远程连接挂载 GPU 的云实例来完成。
- Mojo GPU 编程支持的 NVIDIA GPU 架构包括 Turing, Ampere, Hopper 和 Blackwell(RTX 20XX - 50XX 系列)。
- Trait 字段的诱惑,请使用属性 (Properties):关于 Trait 中的字段引发了讨论,有人建议 Trait 中的字段可能会实现,但你将无法通过 extension 添加此类 Trait;你需要在原始的
struct定义中包含它。- 大家一致认为,在 Trait 中使用属性 (properties) 可能比在 Trait 中使用字段 (fields) 是一个更好的主意,因为属性更具通用性。
- Modular Hackathon 正在进行!:最后提醒,本周六在 Hillsborough 的 AGI House 将举办 Modular Hackathon,目前仍有名额。
- 演讲嘉宾包括来自 Modular 的成员,以及 Mark Saroufim(GPU MODE & PyTorch)、Simon Boehm 和 Sasha Krassovsky(Anthropic)以及 Dylan Patel(SemiAnalysis)。
Modular (Mojo 🔥) ▷ #mojo (28 messages🔥):
公有/私有语法,Enum 建议,开源贡献,编译时中止,测试 constrained
- Mojo 的 Pub/Private 语法:一位成员询问 Mojo 是否有像 Rust 那样的
pub语法,或者默认就是私有的,以及是否有添加该功能的路线图。- 另一位成员回答说,Mojo 目前遵循 Python 的惯例,即“一切皆公有,应为私有的内容加下划线前缀”。
- 在 Mojo 中模拟 Enum:一位成员请求关于模拟具有大量可枚举值的 Enum 的建议,询问目前嵌套
alias是否是实现每个唯一值的唯一方法。- 另一位成员确认这确实是目前的主要方法,并提供了一个使用 alias 的示例。
- 开源编译器贡献:一位成员询问开源贡献者目前是否可以为 Mojo 编译器做贡献。
- 成员回答说目前还没有途径,但在编译器开放贡献之前,很有可能会先实现和类型 (sum types)。
- 编译时中止能力:一位成员询问是否可以在编译时中止以添加编译时守卫 (compile-time guards),并分享了一个代码片段示例。
- 另一位成员回答说不确定是否可行,但提议的类似
requires的语法可能会解决这个问题。
- 另一位成员回答说不确定是否可行,但提议的类似
- Mojo 路线图公布:Mojo 路线图已在 Modular 论坛 向公众公布。
- 成员们反应积极,并讨论了如何测试 constrained 测试,或者当我们获得
requires时如何验证错误消息,类似于编译时的 “assert_raising”。
- 成员们反应积极,并讨论了如何测试 constrained 测试,或者当我们获得
LlamaIndex ▷ #blog (3 messages):
Deep Research Agent, LlamaExtract, Anthropic API 支持
- LlamaIndex 让 Deep Research Agent 触手可及:学习如何在 LlamaIndex 中从头开始构建你自己的 Deep Research Agent!
- 最近的一个研讨会教程涵盖了从零 LlamaIndex 基础到构建一个完整的用于深度研究的多 Agent 系统,使用 AgentWorkflow 来创建单个 Agent。
- LlamaExtract 增强 AI 应用:最新的 LlamaExtract 功能通过引用能力和改进的推理增强了你的 AI 应用程序。
- 现在你可以从复杂的数据源中提取信息,并带有精确的来源归属,为这些提取提供推理,并提高透明度(详见 LlamaIndex 的推文)。
- Anthropic API 与 LlamaIndex 联手:Anthropic 的 API 现在支持内置的 Web 搜索工具,LlamaIndex 提供零日支持 (day 0 support)!
- 查看展示如何在 LlamaIndex 中使用它的 演示 Notebook 或阅读 Anthropic 的 公告。
LlamaIndex ▷ #general (27 messages🔥):
Memgraph 使用 Neo4j 客户端, 使用 GPT-4o-mini 的多模态 LLM, ChatGPT 系统提示词记忆, Agentic RAG 应用结构, 医疗 LLM 机器人构建
- Memgraph 伪装成 Neo4j:一位在 WSL2 VS Code 中测试 Memgraph 的用户发现它正在调用 Neo4j,随后确认 Memgraph 是一个使用 Neo4j client 封装在 Neo4j 之上的工具 —— 参见 文档。
- 用户最初怀疑是他们的 Neo4j 环境有问题,但后来确认这是底层的实现方式。
- GPT-4o-mini 迈向多模态:一位用户询问是否可以直接将文档传递给多模态 LLM (gpt-4o-mini) 进行 one-shot 推理,从而绕过 OCR。
- 一位成员建议解析文档并将其附加到 LLM 的系统提示词中,以便在其基础上进行查询。
- ChatGPT 持久化的记忆:一位用户注意到,即使关闭了记忆功能并删除了所有对话线程,官方 ChatGPT(使用 GPT-4o)中似乎仍然保留着记忆。
- 另一位成员觉得这很奇怪,建议联系 OpenAI 支持,并推测可能是功能生效存在延迟。
- 新版 Agentic RAG 应用结构的困扰:一位用户发现
npx create-llama@latest为 Agentic RAG 应用创建的新文件夹结构与旧版本相比不够直观,并指出.frontend文件夹中缺少完整的 Next.js 应用。- 一位成员指出旧结构对大多数人来说过于复杂,建议使用
--pro标志来获取旧结构,同时强调通过LlamaIndexServer仍然可以使用 FastAPI 应用。
- 一位成员指出旧结构对大多数人来说过于复杂,建议使用
- 寻求“后续问题建议”工作流工具:一位用户想要构建一个医疗 LLM 机器人,该机器人能根据上一个回答向用户建议后续可能的问题,然后询问本地 LLM。
- 用户正在 LlamaIndex 中寻找合适的工具来实现这一工作流。
tinygrad (George Hotz) ▷ #general (2 messages):
Mojo 内核, Chris Latner
- Chris Latner 的 Mojo 拥有内核宝库:Chris Latner 的 Mojo 在 modular/modular/tree 拥有大量的 “mojo kernels” 集合。
- 目前尚不清楚它们的速度如何或如何运行,但它们看起来很有趣。
- Mojo 内核可用性:”mojo kernels” 可以在 modular/modular/tree 获取。
- 它们的速度和操作说明仍不明确。
tinygrad (George Hotz) ▷ #learn-tinygrad (8 messages🔥):
tinygrad 颜色含义, beam search 缓存位置
- tinygrad 颜色揭秘:一位用户询问 tinygrad 输出截图中的颜色含义。
- 另一位用户提供了 tinygrad GitHub 仓库 中定义配色方案的相关章节链接。
- Beam Search 缓存位置自定义:一位用户询问如何覆盖 beam search 的缓存位置,目的是在具有特定存储设置的 Lambda Labs 实例中使用 tinygrad。
- George Hotz 回复称,可以使用 CACHEDB 环境变量覆盖缓存位置,并引用了 helpers 中的第 175 行。
Torchtune ▷ #dev (9 messages🔥):
Torchtune PR, Tokenizer 参数, 统一 Tokenizer 接口
- Tokenizer 参数重命名引起混乱:一个 Torchtune PR 引发了关于重命名 tokenizer 参数(如
add_end_tokens)的讨论,一位成员指出 PR 名称与参数名称之间存在不一致和潜在的混乱。- 该成员表示
add_end_token最初与add_end_tokens混淆了,如果没有add_start_tokens,重命名可能会使其更加令人困惑。
- 该成员表示
- 通过重命名实现更好的统一性?:一位成员建议将背景信息在 PR 中告知作者。
- 他认为虽然重命名并非严格必要,但能带来更好的统一性,并使未来构建通用 tokenizer 接口的工作变得更容易。
Nomic.ai (GPT4All) ▷ #general (9 messages🔥):
GPT4All on AMD ROCm, GPT4All on iOS, GGUF token limits, Uncensored models
- 请求 GPT4All 支持 AMD ROCm:一位用户询问关于更新 Windows 版本的 GPT4All 以支持 AMD ROCm 的事宜。
- 未收到回复。
- 希望 GPT4All 集成到 iOS 课堂:一位教师询问 GPT4All app 是否可以在 iOS 设备(如 iPads)上使用。
- 一位用户回复称 LLMs 需要大量的计算能力,建议在家里运行服务器并通过服务器连接;目前尚不清楚 GPT4All 是否支持此功能,但其他选项可能支持。
- 探讨 GGUF 的最佳 Temp 设置:一位用户询问 GGUF 文件格式 是否包含其自身的 max new token 限制 和 最佳 temperature 设置。
- 回复澄清说 max new token 取决于可用的 VRAM,而其他设置只是实验的起点。
- 使用 Uncensored 模型规避审查:一位用户报告称模型拒绝回答一个非法问题,尽管没有看到对刑事用途的限制。
- 其他用户建议使用 uncensored models 并建议在 Hugging Face 上搜索。
LLM Agents (Berkeley MOOC) ▷ #hackathon-announcements (3 messages):
Auth0 Workshop, Lambda Workshop
- Auth0 工作坊即将举行!:提醒 5/7 PT 时间上午 10 点举行 Auth0 工作坊,教授如何通过身份验证方案保护 AI agents。
- Auth0 为成功将 Auth0.ai 集成到项目中的团队提供赞助:第一名最高 $5,000,第二名 $3,000,第三名 $2,000。
- Lambda 为 AgentX 赞助奖品:宣布将于 PT 时间 5/15 上午 10 点 与 Lambda 合作举行 AgentX 工作坊,旨在利用 Lambda 的 Inference API 扩展 agentic AI 项目。
- 为 AgentX 竞赛参与者提供特别奖项:创业和研究赛道的第一名可获得最高 $1,000 额度,第二名 $500,第三名 $300。注册地址:lu.ma/AgentX-lambda。
LLM Agents (Berkeley MOOC) ▷ #mooc-questions (3 messages):
Hugging Face, Email Notification Issues
- Hugging Face 等待后续信息:信息已于昨天发送给 Hugging Face,团队正在等待他们的回复。
- 追踪额度通知:一位用户报告未收到任何用于追踪额度的邮件,导致如果不每天访问网站就很难监控。
- 该用户 <@854134294870884363> 提供了邮箱地址 kritishahi66@gmail.com 和 kritisha@umd.edu 以接收通知。
LLM Agents (Berkeley MOOC) ▷ #mooc-lecture-discussion (1 messages):
LLMs, Statistical Pattern Recognition, Conditional Statements in LLMs, Neural Attention
- LLMs 通过统计模式执行条件语句:LLMs 通过 统计模式识别 而非形式逻辑来执行条件语句,从自然语言中的数百万个示例中学习。
- 模型学习链接诸如 “If X, then Y” 之类的模式,并在其参数中表示这些关系。
- LLMs 从学习到的模式中生成规则:LLMs 不像计算机程序那样“记住”规则,而是从 学习到的模式 中生成规则,从而在不需要显式编程的情况下对任何主题进行复杂的条件推理。
- 它们利用 神经注意力机制 (neural attention) 来权衡 prompt 的所有部分并预测接下来的文本,从而在统计上逼近逻辑推理。
Cohere ▷ #💬-general (4 messages):
AWS x Cohere Workshop, Coral Status
- AWS x Cohere 工作坊会有线上版本吗?:一位用户询问线下的 AWS x Cohere 工作坊 是否会录制并上传到网上,因为他们身在马来西亚无法亲临现场。
- 用户表示有兴趣向活动中发言的 行业专家 学习。
- Coral 在维护后恢复运行:一位用户询问 Coral 是否关闭了。
- 另一位用户回复说这只是维护期间的简短重定向,现在已经恢复并可通过 coral.cohere.com 访问。
Cohere ▷ #🤝-introductions (1 messages):
xvarunx: 欢迎大家!🥳 🎉 感谢加入!
Codeium (Windsurf) ▷ #announcements (2 条消息):
Windsurf 1.8.2 修复、Windsurf 区域频道、Cascade 自定义、基于文件的规则、并行 Cascade
- Windsurf 1.8.2 修复 Bug:Windsurf 1.8.2 补丁修复了禁用 telemetry 用户的 tool call 错误 以及工作区对话相关的崩溃问题。
- 此次更新还包括服务器端更新,以添加区域频道。
- Windsurf 扩展地理覆盖范围:Windsurf 增加了 区域频道,旨在连接全球的 Windsurfer,包括 旧金山湾区、圣迭戈、台北、波士顿、迈阿密、纽约、东京、奥斯汀和多伦多。
- 用户可以通过在自定义部分回答入站问题来加入这些频道。
- Windsurf Wave 8 第二日:Cascade 迎来自定义功能:Windsurf Wave 8 第二日推出了 Cascade 的 自定义工具,包括以
.md文件形式存在的 自定义工作流、增强的规则系统、并行 Cascade、Cascade 插件面板以及增强的 MCP 集成。- 这些功能允许用户根据自己的模式和偏好自定义 Cascade,以实现生产力最大化,详情可见 发布视频。
- Windsurf 添加基于文件的规则:Windsurf 增强了规则系统,支持多种激活模式(Manual, Always On, Model Decision, Glob),并存储在
.windsurf/rules/中。- 这些 基于文件的规则 可以通过多种方式激活。
- 多 Cascade 能力上线:Windsurf 推出了 并行 Cascade,允许你在现有 Cascade 对话运行时开启新的对话。
- 无需再等待!