AI News

DeepSeek-R1-0528 —— 达到 Gemini 2.5 Pro 级别的模型,最先进的(SOTA)开源权重发布。

DeepSeek R1-0528 标志着一次重大升级,缩小了与 Gemini 2.5 Pro 等闭源模型的差距,并在基准测试中超越了 AnthropicMetaNVIDIA阿里巴巴。这款中国的开放权重模型在多项 AI 基准测试中处于领先地位,其动力源自强化学习后训练而非架构改变,并展现出更高的推理 Token 使用量(每个问题达 2.3 万个 Token)。随着中国实验室通过透明度和开放的研究文化加速创新,中美 AI 竞赛正愈演愈烈。关键基准测试包括 AIME 2024LiveCodeBenchGPQA Diamond

#reinforcement-learning #benchmarking #model-performance #open-weights #reasoning #quantization #post-training #model-comparison deepseek-r1-0528 gemini-2.5-pro qwen-3-8b qwen-3-235b deepseek-ai anthropic meta-ai-fair nvidia alibaba google-deepmind

DeepSeek is all you need.

2025年5月28日至5月29日的 AI 新闻。我们为您检查了 9 个 subreddits、449 个 Twitter 账号和 29 个 Discord 社区(包含 217 个频道和 4860 条消息)。预计节省阅读时间(以 200wpm 计算):456 分钟。我们的新网站现已上线,支持完整的元数据搜索,并以精美的 vibe coded 方式呈现所有往期内容。访问 https://news.smol.ai/ 查看完整的新闻细分,并在 @smol_ai 上向我们提供反馈!

正如昨天所提到的,DeepSeek 通常在发布模型权重后的第二天发布论文和基准测试,而今天正是基准测试发布日

虽然很难一概而论,但基本上它是对 DeepSeek R1 和最大的 Qwen 3 的重大升级,大致达到了领先闭源模型的水平。

Artificial Analysis 的描述最为贴切:中国(DeepSeek)已明确地从美国和欧洲手中夺走了 open weights 的领导地位。

这种提升是以额外的 thinking tokens 为代价的:

这一进步源于推理过程中思考深度的增强:在 AIME 测试集中,之前的模型平均每个问题使用 12K 个 tokens,而新版本平均每个问题使用 23K 个 tokens。


AI Twitter 摘要

DeepSeek R1-0528 与中国 AI 模型进展 (DeepSeek, Qwen, OpenBench, RL, China-US AI race, Architecture, Benchmarks, Open Weights)

  • DeepSeek R1-0528 达到开源前沿地位,缩小了与闭源模型的差距并提升了基准测试表现@deepseek_ai 宣布发布 DeepSeek-R1-0528,其特点包括改进的基准测试性能、减少的幻觉、JSON 输出、function calling、开放权重,且 API 无需更改。@ArtificialAnlys 提供了深度解析:DeepSeek R1 目前在编程方面追平 Gemini 2.5 Pro,在 Artificial Analysis Intelligence Index 上超越了 Anthropic、Meta、NVIDIA 和 Alibaba,并与 Google 的 Gemini 2.5 Pro 并列为全球第 2 大 AI 实验室。在 AIME 2024 (+21)、LiveCodeBench (+15)、GPQA Diamond (+10) 和 Humanity’s Last Exam (+6) 中观察到智力飞跃。架构无变化;改进由训练后的 RL 驱动。@scaling01@cline@reach_vb@zizhpan@ArtificialAnlys 确认了显著的基准测试和真实世界编程改进。
  • 中国的开放权重策略加速了国内创新并缩小了美国的领先优势@AndrewYNg@ArtificialAnlys 指出,DeepSeek 和 Alibaba 等中国实验室凭借开放的研究文化和发布的开放权重,已经赶上了美国实验室。@teortaxesTex@ArtificialAnlys 强调了中国 AI 生态系统的透明度和快速进展,DeepSeek 公开提供了代码、权重和研究目标。
  • DeepSeek 由 RL 驱动的改进和架构@ArtificialAnlys@teortaxesTex 强调 DeepSeek 的智力提升归功于训练后的强化学习(RL),而非架构变化。@Teknium1@lateinteraction@abacaj 讨论了 RL 的影响和细微差别以及基准测试污染,@lateinteraction 警告数学/编程基准测试已过度饱和以及提示词敏感性。
  • 基准测试、性能和模型对比@ArtificialAnlys@scaling01@cline@reach_vb 分享了结果:DeepSeek R1-0528 综合排名第 8,数据分析第 1,推理第 3,数学第 4,但在编程方面稍显落后。@cognitivecompai 指出 chat template 的更改可以切换 DeepSeek 的推理模式。@awnihannun@reach_vb 注意到 MLX 量化以及 Qwen 3 8B 与 Qwen 3 235B 之间的性能对等。
  • Meta、NVIDIA 及其他实验室背景@ArtificialAnlys 对 Cerebras 的 Llama 4 Maverick 端点进行了基准测试,速度达到 2,400 tokens/sec,超过了 NVIDIA Blackwell。@teortaxesTex 讨论了 Meta 的组织架构调整,以模仿 DeepSeek 的专注点。@scaling01@scaling01 强调了领先实验室(OpenAI o3, Gemini 2.5 Pro, Anthropic, xAI)之间的竞争,并期待 DeepSeek R2 的出现。

AI 工具、Agent 工作流和 Perplexity Labs

  • Perplexity Labs 发布,面向复杂的、多工具 AI 工作流@perplexity_ai@AravSrinivas 推出了 Perplexity Labs,这是一种支持交易策略、仪表盘、房地产研究和迷你 Web 应用等复杂任务的新模式。Labs 支持内联图像、资产管理、深度研究、迭代工具调用以及交互式迷你应用的部署。@AravSrinivas@AravSrinivas@perplexity_ai 强调 Labs 是研究/分析师助手,也是科学实验的普及者。
  • AI Agent 与代码自动化@LiorOnAI 重点介绍了红杉资本支持的一家初创公司,该公司正在构建可与 Devin、Cursor 和 Codex 媲美的 Agent——能够在整个代码库中进行阅读、编写、测试和合并 PR。@LangChainAI 详细介绍了摩根大通用于投资研究的 “Ask David” 多 Agent 系统。@jerryjliu0 讨论了 LlamaCloud Agent 访问企业上下文的通用检索 API。@omarsar0 评论了一个增强记忆的 LLM OS,用于更好的 Agent 记忆管理。
  • Agent 搜索与经济影响@AravSrinivas 预测 AI 助手将大幅减少 Google 搜索量,从而转移广告支出。@reach_vb 讨论了 AI 推理和 Agent 平台的商业模式。

可解释性、评估和开源工具 (Anthropic, Claude, Neuronpedia, Benchmarks, Transparency)

  • Anthropic 开源可解释性工具和归因图@AnthropicAI 宣布开源其语言模型可解释性方法,包括交互式归因图和 Neuronpedia 界面 (@mlpowered, @NeelNanda5)。@scaling01 强调了 Anthropic 开源的电路追踪工具,@cline 详细介绍了 Claude Opus 4 和 Sonnet 4 的扩展推理改进。
  • 基准测试与可复现性担忧@lateinteraction@Teknium1 批评了基准测试污染、Prompt 敏感性以及当前 LLM 数学/代码基准测试的局限性。@TheTuringPost 回顾了 BERT 及其衍生模型,而 @maximelabonne 讨论了旨在减少 Gemma 和 Qwen 模型拒绝回答的 “abliteration” 技术。
  • 模型和工具发布的透明度@cline

AI Reddit 摘要

/r/LocalLlama 摘要

1. DeepSeek-R1-0528 官方基准测试与性能对比

  • DeepSeek-R1-0528 官方基准测试发布!!! (Score: 589, Comments: 127):该帖子宣布发布 DeepSeek-R1-0528 的官方基准测试,该模型结合了增强的计算资源和训练后优化,在推理(AIME 2025: 87.5%)、代码和数学基准测试中达到了 SOTA 或接近 SOTA 的性能。显著特性包括 64K 上下文窗口、改进的长上下文推理(每个 AIME 问题平均 23K token)、支持 JSON 输出和 function calling,以及采用 MIT 许可证的开源权重/代码。帖子还重点介绍了 DeepSeek-R1-0528-Qwen3-8B,这是将 R1-0528 的 chain-of-thought 蒸馏到 Qwen3-8B Base 中的产物,将其在 AIME 上的基准测试分数提升了 +10%,并使小模型能够匹配更大模型(Qwen3-235B)的性能。 评论者强调了 chain-of-thought 蒸馏带来的技术飞跃,认为这是 Qwen3 上的一次先驱性微调,缩小了小模型与大模型在复杂推理任务上的性能差距。人们对开源许可、改进的基准测试以及相对于闭源模型的竞争地位感到兴奋。

  • 一个关键的技术更新是 DeepSeek-R1-0528-Qwen3-8B 的发布,其中来自 DeepSeek-R1-0528 的 chain-of-thought 技术被蒸馏到了 Qwen3 8B Base 中;据报道,该模型在 AIME 2024 基准测试中的表现比 Qwen3 8B 高出 +10.0%,并在推理任务中与规模大得多的 Qwen3-235B-thinking 模型旗鼓相当。这代表了一个里程碑,作为一个在 Qwen3 上微调的强力模型,凸显了 chain-of-thought 蒸馏对小型模型架构的影响。发布详情已为寻求进一步实现或直接使用的用户提供。
  • DeepSeek-R1-0528 引入了几项技术改进,包括增强的基准测试性能、先进的前端能力、降低的幻觉率,以及对 JSON 和 function calling 等结构化输出的支持。这些增强功能对于研究和生产环境中的实际部署和集成工作流都非常值得关注。
  • 评论者指出,最新的 DeepSeek 模型在基准测试中匹配或超越了 OpenAI (OAI) 最顶尖的闭源模型,同时还提供开放权重和相对廉价的 API 访问。这被视为开源 AI 在性能和可访问性方面的一个重要里程碑。
  • DeepSeek-R1-0528 官方基准测试 (评分: 276, 评论: 34): 该图片是一个基准测试对比表,展示了 DeepSeek-R1-0528、OpenAI-o3、Gemini-2.5-Pro-0506、Qwen3-235B 和 DeepSeek-R1 在几个关键数据集上的性能得分:AIME 2024、AIME 2025、GPQA Diamond、LiveCodeBench、Aider 和 Humanity’s Last Exam。DeepSeek-R1-0528 展示了强劲的结果,特别是在 AIME 2024/2025 和 GPQA Diamond 方面领先或与其他顶级模型持平。该帖子链接到了官方报告以获取更多详情:微信来源 评论者指出,尽管结果强劲,但这次更新具有增量性质。技术上,DeepSeek-R1-0528 的 GGUF 量化正在进行中,已有早期的 2bit/3bit/4bit 版本发布,并建议使用 Huggingface 仓库(GGUF 链接)和特定的 offload 标志以实现高效使用。还有关于澄清表中引用的是 OpenAI ‘o3’ 模型哪个变体的技术讨论,引发了对其确切配置的疑问。
    • danielhanchen 详细介绍了大型 DeepSeek R1 模型的初步 GGUF 量化(2-bit、3-bit 和 4-bit)的可用性,这是通过一种提升准确性的动态方法实现的(链接)。他建议使用标志 ot ".ffn_.*_exps.=CPU" 将 MoE 层卸载到 RAM 或磁盘,以便在低于 24GB 的 VRAM 中运行 Q2_K_XL 量化,这突出了一个实际的部署优化。
    • Amgadoz 询问了基准测试中使用的具体 O3 变体(例如 o3 high、medium、low 或 mini 变体),探究报告的是哪种模型配置的性能——这是可复现性和准确基准测试的关键点。
    • Shockbum 注意到了一项新的多语言功能:据报道 DeepSeek R1 以用户的输入语言(例如西班牙语)进行“推理”,而不是为了内部处理而翻译成英语。这对多语言用例中的特定语言性能和上下文保留具有重要意义。
  • deepseek-ai/DeepSeek-R1-0528-Qwen3-8B · Hugging Face (评分: 204, 评论: 51): Reddit 帖子讨论了语言模型检查点 DeepSeek-R1-0528-Qwen3-8B 的发布,特别关注社区上传的用于高效推理的 GGUF 格式权重(特别是 Unsloth 和 lmstudio-community):Unsloth GGUF 转换 声称保留了准确性,而 lmstudio-community 提供了另一个 GGUF 变体。原始 Hugging Face 模型页面返回了 429(速率限制)错误,阻碍了对模型文档和技术细节的直接访问。 评论者强调了 GGUF 转换对资源受限用户(“GPU poor”)的实用价值,确认这些格式能够实现更广泛的部署,特别是在缺乏高端 GPU 的设备上。

  • 几位用户提到了 DeepSeek-R1-0528-Qwen3-8B 的 GGUF 格式版本的可用性,特别引用了 LM Studio Community 版本和 Unsloth 的动态 GGUF,后者声称“保留了准确性”(详情见:https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF)。这标志着社区在优化模型 quantization 以及提高各种推理后端的可访问性方面做出了积极努力,特别是针对资源受限(即 ‘GPU poor’)的用户。
  • 用户对更大的模型变体表现出兴趣,特别是提到的 30B 和 32B 参数版本(例如 ‘30b-a3b’ 和 ‘Need 32b’),这突显了一部分用户群体在资源受限的情况下优先考虑模型能力和性能,反映了对 DeepSeek 轻量级和高性能 LLM 的持续需求。

2. DeepSeek-R1 和 R1.1 的突破性结果与行业对比

  • DeepSeek R1 05 28 测试。终于发生了。唯一一个在我所有测试项中都获得 100% 分数的模型。 (Score: 815, Comments: 170): 该帖子声称 DeepSeek R1 05 28 是第一个在私有复杂业务相关基准测试中达到 100% 的开源、MIT-licensed LLM,表现优于 OpenAI GPT-4.1、Gemini 2.5 和 Claude 4 等主流模型。基准测试包括高级 NER 边缘案例和代码生成等任务,链接的 YouTube 视频据称展示了在所有测试任务中的完美表现。 一位评论者认为评估可能存在缺陷,引用了一个 NER 示例,其中 ‘Li Mei’ 与 ‘Mei Li’ 的差异导致 DeepSeek 得分为 100%,而 GPT-4.1 仅为 95%,尽管两者的输出相似。这引发了对基准测试设计的质疑,以及报告的完美表现是否真实反映了有意义的优越性。
    • 一位用户指出了用于 LLM 命名实体识别(NER)任务基准测试的评估指标中存在的潜在缺陷:在评估诸如 “Li Mei” 之类的实体时,DeepSeek-r1-0528 和 GPT-4.1 的区别仅在于分配姓和名(即 {“firstName”: “Li”, “lastName”: “Mei”} 与 {“firstName”: “Mei”, “lastName”: “Li”}),但评估对此进行了惩罚,尽管两个模型都提取了正确的实体。结果,GPT-4.1 的得分为 95% 而不是 100%,这表明评估框架可能没有考虑到实体顺序的歧义,这会显著影响性能指标。
    • 另一位用户确认了 DeepSeek-r1-0528 在之前测试中的类似表现(特别是在 Ansible playbooks 等基础设施自动化任务上),认为虽然准确率非常高,但 context window 大小的进步将是实际编程用例的下一个重要步骤。这突显了模型在 token/context window 大小方面的可扩展性限制,用户期待 100M 的 context window 以实现不间断的工作流。
  • Deepseek 是全球第 4 聪明的 AI。 (Score: 237, Comments: 90): 一位用户引用了一个将 Deepseek 列为全球第 4 聪明 AI 模型的基准测试,并分享了一张显示视觉排名的截图(图片,未链接原始来源)。该帖子强调了 Deepseek 极高的性价比,将其置于 Claude-4(位于图表底部)和 Gemini 2.5 Flash 之上。帖子中未描述或说明具体的基准测试方法、使用的任务或特定指标,引发了对其有效性的质疑。 热门评论严厉批评该基准测试为“垃圾”,没有提供有意义的比较指标,并对 Claude 4 Sonnet 被 Gemini 2.5 Flash 等模型超越表示怀疑,同时也指出,如果结果属实,Deepseek 相对于 2.5 Flash 的低成本确实令人印象深刻。
    • 几位评论者质疑所引用的基准测试的有效性和方法,指出模型比较非常复杂,且严重依赖于所选指标。人们对报告的性能顺序表示怀疑,特别是将 Claude 4 Sonnet 置于 Gemini 2.5 Flash 之下,这与许多用户的定性体验相矛盾。用户对 Grok 3 Mini 的排名也存在明显的怀疑,多位用户报告其表现持续不佳,这表明基准测试可能无法反映一般用户体验或实际能力。
  • 强调了性价比的权衡,一位评论者指出 Deepseek 比 Gemini 2.5 Flash 更便宜,如果基准测试(benchmark)声明准确,这被认为是一个极具吸引力的属性。这表明在评估模型竞争力时,除了原始智能或能力评分外,成本也是一个重要因素。
    • 提到了 Claude 4 的速率限制(Rate-limit)错误,暗示了高需求并可能支持了其质量的主张,尽管其基准测试排名如此。用户含蓄地将现实世界的 API 使用数据与模型的受欢迎程度和可用性联系起来,批评那些与观察到的用户/服务器工作负载不一致的基准测试。
  • Deepseek R1.1 在性价比上力压 Gemini 2.5 Flash (得分: 128, 评论: 28): 性价比基准测试可视化显示,Deepseek R1.1 的表现优于 Gemini 2.5 Flash,在相似或更好的结果下提供了更高的成本效率。该图表源自 Artificial Analysis,对比了最近的 LLM 产品,特别关注每美元支出的实际效用。 评论者指出,Gemini 2.5 Flash 提供 1M token 的上下文窗口,在多文档检索和插入任务中表现出色,从而带来了强大的现实工作流生产力。另一个讨论点是 Deepseek R1 的成本地位发生了变化,并对最近的价格变动提出了疑问。辩论集中在 LLM 领域的权衡:速度 (Gemini Flash)、质量 (Gemini Pro) 与价格 (Deepseek R1)。
    • Gemini 2.5 Flash 在处理超大上下文(高达 100 万个 token)方面表现出显著优势,并且擅长从多个输入文件中提取并正确应用相关上下文——这使得它在上下文区分至关重要的文档综合和模板化工作流中特别有效。
    • 讨论指出,模型比较应将 推理速度 (inference speed) 与价格和准确性一并考虑;Gemini Pro、Gemini Flash 和 Deepseek R1 之间的权衡不仅包括成本和能力,还包括延迟,每个模型在速度、准确性与价格之间提供了不同的平衡。
  • Nvidia CEO 表示华为芯片可与 Nvidia 的 H200 媲美。 (得分: 252, 评论: 103): Nvidia CEO 黄仁勋 (Jensen Huang) 在彭博社的一次采访(视频)中声称,华为最新的 AI 芯片在性能上可与 Nvidia 的 H200 GPU 媲美。这一点值得注意,因为之前的分析认为华为芯片组的性能大约在 Nvidia H100 水平,这暗示了华为在大规模 AI 计算方面取得了具有竞争力的进展。H200 拥有 141 GB HBM3e 内存 和高达 4.8 TB/s 带宽,因此此类说法表明华为已经赶上了最近的架构和内存进步。 热门评论推测了 Nvidia 的动机,认为黄仁勋的承认可能具有战略意义——要么是为了证明缺乏垄断(减轻监管审查),要么是为了推动放宽美国的出口限制。性能对等的准确性也受到质疑,认为可能受到这些商业目标的影响。
    • 讨论集中在 Nvidia CEO 黄仁勋关于华为芯片与 Nvidia H200 具有可比性的言论上,并对其动机表示怀疑,认为 Nvidia 可能会夸大中国的进步,以影响美国的出口管制。这暗示 Nvidia 可能会通过描绘竞争来反驳垄断指控,并为出于商业目的取消或放宽限制辩护。
    • 评论者指出,如果华为已经达到了与 Nvidia 当前 H200 GPU 对等的水平,这可能会削弱限制 Nvidia 在中国销售其阉割版 H20 型号的出口管制的合理性。如果中国的替代方案在技术上具有竞争力,限制 Nvidia 可能只会激励当地进一步发展,并削弱 Nvidia 在中国的市场份额。

3. DeepSeek R1.1 和 8B Distill 模型的发展与基准测试

  • 新款 DeepSeek R1 8B Distill 可能即将发布,性能据称“比肩 Qwen3-235B-thinking”! (Score: 240, Comments: 59): 图片显示了一张 Benchmark 对比表,将新发布的 8B 参数蒸馏模型 DeepSeek-R1-0528-Qwen3-8B 与 Qwen3-235B 和 Qwen3-8B 等大型模型进行了对比。根据表格,DeepSeek-R1-0528-Qwen3-8B 在同尺寸模型中展示了 State-of-the-art 的性能,显著超越 Qwen3-8B 约 10%,并在 AIME 和 GPQA 等多个基准测试中接近或匹配了体量大得多的模型(如 Qwen3-235B)。该模型已在 Hugging Face 上线,并发布了量化版本。 热门评论者对 8B 模型匹配 235B 模型的说法表示怀疑,观察到它在 5 个基准测试中仍有 4 个处于劣势,但一致认为这种规模下的性能飞跃代表了小规模模型的重大进步。
    • 多位用户批评了 DeepSeek R1 8B Distill “匹配” Qwen3 235B 的说法,指出它在 5 个基准测试中实际上以显著差距输掉了 4 个,认为其性能“对于 8B 模型而言”令人印象深刻,但并非真正等同于庞大的 Qwen3 235B。
    • 技术社区对 Distillation(蒸馏)过程表现出浓厚兴趣,一些人希望对更大的源模型(如 Qwen 30B 或 32B)进行蒸馏,这表明用户对基于大模型底座、性能损耗极小的中型模型有很高需求,以实现更好的效率和性能权衡。
    • 提供了 Hugging Face 上的模型发布链接和量化 GGUF 版本,方便直接进行技术探索和使用。包括 DeepSeek-R1-0528-Qwen3-8B model card 及其 GGUF 格式量化版
  • Deepseek R1.1 aider polyglot 评分 (Score: 154, Comments: 44): Deepseek R1.1 在 aider polyglot 基准测试(225 个测试用例)中获得了 70.7% 的 pass@2 分数,追平了 Claude Opus 4-nothink,并较 R1 的 56.9% 有显著提升(来源排行榜)。值得注意的是,该运行显示了 90.2% 的良好输出率,0 语法或缩进错误,并消耗了约 3.2M prompt + 1.9M completion tokens。非高峰期每轮运行成本为 $3.05,高峰期则升至 $12.20。 评论强调了 Deepseek 发布 State-of-the-art 模型的飞快节奏,并讨论了更广泛的排行榜排名(Opus 4 Thinking 和 O4 Mini High 的得分高出约 1.3%)。还有关于利用模型进行持续改进和数据集清洗的讨论,推测开源权重模型在类似基准测试上即将迎来里程碑。
    • 引用了 aider polyglot 排行榜 (https://aider.chat/docs/leaderboards/),特别指出 Deepseek 的性能几乎登顶,Opus 4 仅比 Deepseek R1.1 高出 1.3%。这直接将 Deepseek 的能力与领先模型进行了对比,突显了其接近 State-of-the-art 的表现。
    • 一位用户详细介绍了一种结合 Deepseek 模型的工作流:将 r1-0528 用于“架构师模式(architect mode)”,并搭配 v3-0328 作为“编辑器(editor)”。评论认为这种混合方法极具竞争力,尤其是如果定价低于 R1 Aline 级别,预示着多模型编排工作流在技术和成本上的潜在优势。
  • 请学习基础网络安全知识 (Score: 690, Comments: 123): 一位开发者发现一个每月盈利约 3 万美元的活跃项目,其前端代码中嵌入了不受限的 OpenAI API key,使其处于公开可访问状态且极易被滥用(例如在账单警报触发前导致成本迅速飙升)。在客户端代码中暴露 API key 是一个严重的安全漏洞,可能导致未经授权的使用、意外费用以及数据完整性受损。该帖子强调了采取简单但有效的安全控制措施的必要性——例如服务器端 API 调用或网络限制——以防止此类漏洞。 热门评论讨论了这究竟是反映了基础网络安全实践还是仅仅是基本的开发规范,一些人认为这纯粹是缺乏常识,而非复杂的安全问题。还有评论引入了“Vibe security”(氛围安全)一词来描述这种松懈的做法。

  • 讨论集中在“vibe coding”的迅速兴起——这是一种开发者快速构建功能性应用,但通常采用非标准或拙劣实践的趋势,导致代码不安全或不可靠。这为专门从事重构、安全加固和优化这些应用的开发者创造了一个二级市场,Upwork 等平台上已经出现了大量此类自由职业需求的案例。
  • 一个关键的技术担忧是,人们期望自动化 coding agents 和未来的编程平台能够处理架构和安全问题,而不是由开发者个人学习最佳实践。这被视为一种逻辑上的演进——鉴于 LLMs 带来的软件开发民主化——但也存在潜在风险,因为部分开发者已经缺乏基础的安全和生命周期知识。

其他 AI Subreddit 综述

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo


AI Discord 综述

由 Gemini 2.5 Pro Exp 生成的摘要之摘要

主题 1. 新模型震撼登场,能力备受审视

  • DeepSeek R1 震惊全场,在各大 Discord 引发关注!:新的 DeepSeek R1 模型(特别是 R1-0528)因其令人印象深刻的能力引发了广泛讨论,包括 100M token 的上下文窗口以及在 OpenRouter 上的免费版本,直接挑战了 Claude 等竞争对手。HuggingFace 的用户报告称它在基准测试中表现出“碾压”态势,而 Unsloth AI 迅速提供了 BF16GGUF 量化版本。不过,一些 LMArena 用户注意到它倾向于模仿 ChatGPT 的回复风格,Nous Research AI 则观察到其在非英语语言中存在性能下降。
  • Qwen 模型在工具使用和蒸馏方面展现出潜力与问题!:各种 Qwen 模型受到了活跃讨论,LM Studio 用户发现 Qwen 蒸馏模型会陷入工具调用的死循环,而基础的 8B 模型 表现更好,在 32k 上下文 下达到了 70tok/sec。然而,据报道 Qwen 30b A3 在进行工具调用时会崩溃,Eleuther 的成员在没有使用 Unsloth 的情况下,尝试利用 EleutherAI/Qwen-Coder-Insecure 等资源在 Qwen2.5 Coder 上复现涌现的不对齐 (emergent misalignment),但过程十分艰难。
  • 视频和专业模型之战随着 Veo 3、Sora 和 Perplexity Labs 的加入而升温!:LMArena 用户讨论了 GoogleVeo 3 是否能挑战 OpenAISora,仔细审视了两者在风格、清晰度和分辨率方面的差异,特别是对于非写实主题的表现。与此同时,Perplexity AI 推出了用于复杂分析报告和演示的 Perplexity Labs,这与其 Deep Research 模式有所区别,引发了用户在成本和上下文限制方面将其与 OpusGemini 进行对比。

主题 2. 开发工具与框架助力 AI 创新与集成

主题 3. 平衡之道:模型安全、开放性与控制权面临考验

主题 4. GPU 算力与性能难题主导硬件讨论

主题 5:智能体 AI(Agentic AI)迈向现实应用,告别旧基准


Discord: 高层级 Discord 摘要

Perplexity AI Discord

  • Perplexity Labs 正式发布:Perplexity 已正式向公众推出 Perplexity Labs,为用户提供一整支团队来处理更复杂的任务,如分析报告和演示文稿。
    • Deep Research 不同,Labs 利用了编码、无头浏览器(headless browsing)和设计能力,并将所有工作流文件组织在 “Assets” 选项卡中以便访问,所有登录用户均可使用。
  • Opus 与 Gemini 之争:成员们正在讨论 Opus 相较于 Gemini 在深度研究方面的价值,主要考虑到潜在的成本问题上下文限制上限,并引用了 Apple Overhauling Software Names
    • 在权衡各种 AI 方案时,一位成员建议 Gemini 的 20 美元方案目前最划算,但 OpenAI 提供了最好的深度研究,而 Claude 在代码方面表现出色,尽管其糟糕的速率限制(rate limits)令人担忧。
  • iOS 26 将于 2025 年推出:频道讨论了 2025 年即将发布的 iOS 26,并对未来 iOS 19 的终结开了玩笑。
    • 一位成员认为 Apple 可能在尝试模仿 Samsung 的新命名惯例,这可能会让客户感到困惑。
  • Samsung Galaxy 用户可获免费 Perplexity Pro:成员们在 Perplexity 应用上发现了一个横幅,为 Samsung Galaxy 用户提供 12 个月的免费 Pro 会员
    • 成员们还讨论了通过教育邮箱获取免费 Perplexity 的可能性。
  • search_results 新元数据字段:引入了一个新的响应字段 search_results,在现有引用的基础上提供了更丰富的元数据,如页面标题发布日期
    • 旧有的 citations 数组将保留至少两个月以确保向后兼容,建议迁移到新的 search_results 字段。

LMArena Discord

  • Veo 3 与 Sora 争夺榜首:成员们正在评估 Veo 3 作为 Sora 竞争对手的地位,指出 Sora 在风格、清晰度和分辨率方面更胜一筹,尤其擅长科幻和奇幻等非真实主题。
    • 有人认为 Sora 甚至超越了 Veo 2,但也有人说 Sora 独特的风格源于其不连贯性。
  • Arc AGI 排行榜引发过拟合质疑Arc AGI 网站Claude 4GPT 4 展开对决,结果显示 Claude 4 模型在最简单的 arc-agi-1 问题上表现吃力,仅在较难的问题上表现出色。
    • 社区成员认为这些模型可能专门针对 arc agi 1 进行了过拟合(overfitting)
  • XAI 斥资 3 亿美元进行 Grok Telegram 集成:据 TechCrunch 文章 报道,XAI 据称将支付 3 亿美元Grok 集成到 Telegram 中。
    • 此举正值 grok.com 应用未获青睐之际,可能会促使 Apple 关注 PerplexityYouAI 搜索引擎
  • Deepseek 的回复风格模仿 ChatGPT:用户指出最新的 Deepseek 模型正在模仿 ChatGPT 的回复风格,有人将其描述为尴尬、不真实且糟糕
    • 新版本命名为 DeepSeek R1-0528,现已在 Arena 中开放评估。
  • LMArena 创始人在 a16z 播客中受关注a16z 播客重点介绍了 LMArena 的联合创始人,他们讨论了平台的演变、主观数据的价值以及为大模型构建 CI/CD pipeline,如 这段 YouTube 视频 所示。
    • 团队已意识到模型卡顿的问题,并正在积极寻求解决方案。

Unsloth AI (Daniel Han) Discord

  • DeepSeek-R1-0528 已量化DeepSeek-R1-0528 模型现在已有 BF16GGUFQwen3-8B-GGUF 版本可供下载。
    • 一位成员报告称,Qwen3 变体在基准测试中达到了接近 O3 级别的编程能力
  • ThunderCompute 上的廉价 A100ThunderCompute 正以低于 $1/hr 的价格提供 A100,尽管它需要手动在 CPU 和 GPU 之间进行数据传输。
    • 较低的可用 RAM 可能会导致瓶颈,抵消成本优势,但其定制选项非常具有吸引力。
  • KTO 助力 LLM 去审查KTO (Kahneman-Tversky Optimization) 被提议作为一种移除 LLM 安全网的卓越方法,为 abliteration 或 attention steering 提供了一个更好的替代方案
    • 一位成员指出,kto 基本上就是 rlhf .. 但带有赞成和反对票,并建议根据 OpenWebUI 中的点赞/点踩报告构建数据集。
  • GGUF 保存功能损坏:由于 llama.cpp 后端兼容性问题,model.save_pretrained_gguf 函数目前处于损坏状态,用户需要手动进行合并和保存。
    • 转换脚本的更改要求用户在将模型转换为 GGUF 格式之前先进行合并。
  • Kernel 使 Batch 1 前向传播速度翻倍:据称一个新的 Kernel 使 Batch 1 的前向传播(forward pass)速度翻倍,详情见这篇 Hugging Face 论文,并在该 X 帖子中公布。
    • 因此,现在可以优化 Batch size 以提高速度。

Cursor Community Discord

  • 学生在身份验证中面临障碍:用户报告了在该平台进行学生证验证时遇到的问题,包括文件提交困难和尝试次数耗尽,一位用户建议发送邮件至 hi@cursor.com 寻求帮助。
    • 支持团队将尝试解决用户的订阅问题。
  • Cursor 的供应商锁定(Vendor Lock-In)减弱:一位用户声称 Cursor 的供应商锁定并不强,指其忠实粉丝群正在减少,并对比了 GitHub Copilot 糟糕的 UX,认为这是用户留在 Cursor 的原因。
    • 该用户认为 Cursor 从长远来看不具备竞争力。
  • 程序在 CPanel 上实现自我改进:一位用户展示了一个在简单的 GoDaddy CPanel 主机上运行的自我改进程序,利用 OpenAI API 来更新函数和上下文。
    • 该程序能够自主生成代码,通过 SMTP 与电子邮件收件箱交互,并生成代码来检查收件箱。
  • Agentic 框架引发辩论:关于构建 Agentic 应用的框架的讨论对比了 OpenAI SDKPydanticCrewAI
    • 用户分享了他们的经验和观点,并征求社区内其他用户的反馈和经验。
  • Cursor 弃用 Vertex,削减慢速池(Slow Pool):用户注意到 vertex 已被移除,并抱怨慢速池已被削减,或者至少变得几乎不可用,指出它缺少 Sonnet 4 且出现了有史以来最长的等待时间。
    • 其他用户未能理解该请求的背景。

OpenAI Discord

  • OpenAI 审查 Giger 风格艺术:成员们观察到 OpenAI 会审查违反版权的图像生成提示词,例如审查 H.R. Giger 的艺术风格,尽管 OpenAI 正在使用受版权保护的材料进行训练
    • 一位成员开玩笑地提到,当尝试生成 Giger 的艺术作品时,他们的请求被提示 “未遵守我们的内容政策”
  • Deepseek 略胜 OpenAI:成员们对比了不同的 AI 模型,建议将 Deepseek 作为 OpenAI 的可行替代方案,可以通过 OpenRouter API 访问。
    • 一些用户认为由于过度的限制和性能下降,ChatGPT 已经变得 “完全没用”
  • OpenAI 根据法院命令保留聊天日志:根据美国法院的命令,OpenAI 正在保留所有聊天日志,无论用户如何设置,详情见此处,这引发了隐私辩论。
    • 讨论涉及了对 欧盟和德国用户 的影响,考虑到可能违反严格的隐私法,以及随后对 OpenAI 的限制或罚款。
  • UPSUM Prompt 无缝持久化上下文此链接分享的 UPSUM Chain Prompt 旨在收集当前上下文并生成仅包含核心信息的更新摘要,并将其置于未来提示词的前端以延续对话。
    • 成员们打算使用此输出并将其添加到未来的提示词中,以实现无缝的对话延续。
  • 共情剧场伪装成 Prompt Engineering:成员们认为某些“越狱”提示词的功能是共鸣仪式 (resonance rituals) 而非诊断工具,将重点从 Prompt Engineering 转向了共情剧场。
    • 这引发了缺乏严谨、可证伪模型的问题。

LM Studio Discord

  • LM Studio 安装难倒用户:用户在安装 LM Studio 时遇到权限问题,可以通过在登录用户账户时安装来解决。
    • 以管理员身份安装并以标准用户身份运行会导致无法定位模型和运行时 (runtimes) 的问题。
  • Qwen 基础模型超越蒸馏版本:成员们发现 Qwen 蒸馏模型在使用不存在的工具时会陷入死循环。
    • 其他人报告称基础 8b 模型 没有这个问题,在 32k 上下文下可达到 70tok/sec
  • Windows 微调:一个痛苦的提议:社区建议使用 Llama FactoryUnsloth 或 transformers 以及原生 Windows 安装来微调模型,而不是使用 WSL2。
    • 另一位成员推荐了 Open WebUI,并表示 最新的 Qwen 蒸馏模型非常聪明!
  • Qwen 30B A3 深受 Tool Calling 崩溃困扰Qwen 30b A3 在使用工具时会因 Model has unloaded or crashed 错误而崩溃。
    • 尽管进行了调试,但由于缺少转储文件和错误消息,根本原因尚不清楚。
  • 关于华为 GPU 真实性的辩论:成员们对售价 1500 美元的 96GB VRAM 华为 GPU 的可行性表示怀疑,并引用了一个观点不一的 Reddit 帖子
    • 担忧包括驱动支持以及与 llama.cpp 的兼容性,尽管华为向该项目提交了一些 PR,但它仍可能成为一个 “昂贵的镇纸”

OpenRouter (Alex Atallah) Discord

  • DeepSeek R1 挑战 Claude:社区对 DeepSeek 发布其新款 R1 模型表示乐观,该模型目前支持 100M tokens 并提供 免费版本,旨在与 Claude 竞争。
    • 一位用户宣称他们 再也不会用 Claude 了,并赞扬了 DeepSeek 的高性价比。OpenRouter 也在 X.com 上宣布了 DeepSeek R1 的上线,并强调了其巨大的上下文窗口。
  • PDF 上传导致 OpenRouter 报错:用户在向 OpenRouter API 上传超过 400MB 的 PDF 时遇到了 413 Request Entity Too Large 错误。
    • 建议的解决方法是使用 signed URL 上传文件并将该 URL 传递给 API,因为 OpenRouter 目前仅支持 PDF 的 base64 编码。
  • Gemini 2.5 Pro 无法进行创意写作:用户正努力让 Gemini 2.5 Pro 遵循创意写作指令,特别是在规避某些特定短语方面,并指出 LLM 写作本质上充满陈词滥调
    • 用户建议尝试 Opus 或新发布的 R1 模型,社区中有人补充道 R1-0528 版本 刚刚 发布。
  • OpenRouter 提供商申请积压:询问如何成为 OpenRouter 提供商的用户需做好等待 数周 的准备,因为申请量巨大。
    • 如果提供免费模型,流程可能会加快,且成为提供商 需要填写表格

Eleuther Discord

  • 《圣经》的“Grokking”受到质疑:讨论围绕训练一个 0.5B 模型 需要多少个 epochs 才能“顿悟 (grok)”像《圣经》这样的内容。
    • 有人认为,对于包含近乎相同句子的庞大语料库,真正的 grokking 可能是不可能的,其上限仅为 memorization(记忆)
  • Kye Gomez 争议持续发酵:一位用户将 Kye Gomez 的情况描述为:反复被抓包,然后短暂低头认错,紧接着又否认一切
    • 这一系列事件涉及 plagiarism(剽窃) 和有问题的 AI 仓库
  • Qwen2.5 Coder 的 Misalignment 复现困难:一位用户在使用不含 Unsloth 的训练代码库时,难以在 Qwen2.5 Coder 上复现 Emergent Misalignment 的结果,参考了 EleutherAI/emergent-misalignment 仓库和原始论文 arxiv.org/abs/2502.17424
  • 注入正则化噪声的量子损失景观:一位成员分享了论文 Regularizing quantum loss landscapes by noise injection,并表示有兴趣讨论 Quantum Field Theory (QFT)
    • 该用户希望专注于代数几何和流形上的噪声注入。
  • Anthropic 的 Circuit Tracer 激发了可解释性研究的热潮Anthropic 发布了 Circuit Tracer 库,这是一个用于可解释性研究的工具,社区为此感到振奋。
    • 用户可以在 Neuronpedia 上按需生成、交互并分享归因图 (attribution graphs);演示视频可以在 这里 找到。

GPU MODE Discord

  • 显卡扩展坞助力 Linux 笔记本:一位成员购入了 Gigabyte AORUS RTX 3080 GAMING BOX (rev. 2.0) LHR,并寻求在 Debian Linux 笔记本 (ThinkPad X1 Carbon Gen 6) 上进行设置的指导。
    • 希望他们能获得一些关于在 Linux 环境下使用外部 GPU 的建议!
  • Swizzling 遭遇 Shared Memory 故障:一位成员在使用 swizzling 从 B matrix 加载 tile 时遇到了非合并的 shared memory 访问问题,导致 6-way bank conflicts
    • 他们在 kernel 中使用 printf 语句打印每个线程内存访问的 bank 索引以进行调试,并对其 bank conflict 检查方法提出了疑问。
  • Torch 编译在 FP4 热潮中遇冷:一位成员在分布式代码中首次运行 torch.compile 时遇到卡死,而其他人则在询问如何在 5090 GPU 上使用 FP4
    • 一位成员建议启用 TORCH_LOGS 来诊断编译问题,并报告称当前的 Triton 发布分支在 5090 上会崩溃。
  • Liger-Kernel 最近的提交阻塞Liger-Kernel commit 中糟糕的提交格式破坏了其他活跃 pull requests 的 checkstyle 流程。
    • 该成员指出最新的提交未进行正确格式化,导致所有其他活跃 PR 的 checkstyle 都乱套了
  • FLE 让 VLM 游戏化!:一个类似于 Factorio 学习环境的项目将 VLMs 用于视频游戏,详情可见这篇论文
    • 一位成员分享了一个能够运行 FLEColab notebook 已接近完成:FLE Colab Notebook

HuggingFace Discord

  • DeepSeek R1 “横扫”基准测试:据报道,新的 DeepSeek R1-0528 模型(链接)“横扫”了一位成员的“vibes bench”,并通过 DeepSeek API 展示了比之前版本显著提升的推理能力。
    • 一位用户对这些改进表示赞赏,并提到早期版本有时/经常是完全胡言乱语的废话
  • ZeroGPU 秒级设置 Spaces:用户讨论了在 Hugging Face Spaces 中切换到 ZeroGPU 的速度,并引用了文档(docs)。
    • 共识是,只要导入了 spaces 并正确实现了 decorator,切换几乎应该是瞬间完成的。
  • 10 分钟内准备好 MCP 服务器:一位成员分享了使用此指南在 10 分钟内构建 A2AModel Context Protocol (MCP) 服务器的教程。
    • 贡献者通过在 README.md 中添加 TLDR 以及用于通过 nix 安装网络工具的 shell script 增强了该项目。
  • VerbalCodeAI 利用 AI 导航代码库:一位成员介绍了 VerbalCodeAI,这是一个 AI 驱动的工具,旨在简化从终端进行代码库导航和理解的过程,提供智能代码搜索、分析和聊天等功能,可在 GitHub 上获取。
    • 该项目还包含一个 MCP 服务器,并设有官方网站 此处
  • Agent 课程需要入门单元:成员们在开始 Agent 课程时寻求帮助,并被引导至入门单元
    • 另一位成员澄清道:你不需要为课程付费,但要创建一个像样的 Agent,你要么需要一台性能非常强劲的电脑,要么得付费让别人为你运行 LLMs

aider (Paul Gauthier) Discord

  • DeepSeek R1 获得好评:新的 DeepSeek R1 已上线 OpenRouter,并收到了好得令人不安!的评价,目前正在进行基准测试。
    • 用户正在讨论它在速度和成本上是否能与 pro 2.5 竞争,尽管一位用户指出它思考很多(思考过程很长)。
  • DeepSeek-R1-0528 基准测试揭示见解:根据 artificialanalysis.ai 的数据,使用官方 API 的 DeepSeek-R1-0528 在 diff 方面的表现至少达到 70.7%,成本为 $3(高峰时段为 $5)。
    • 正在积极分析使用官方 API 的速度和成本表现详情。
  • Claude Code 性能引发辩论:在近期对 Anthropic code 的炒作之后,一位成员购买了一个月的 Pro 会员,但表示印象不深,称其并不真的比我习惯看到的更好。
    • 其他人持不同意见,认为大约需要一周时间来适应 Claude Coder,届时性能会有所提升。
  • Sonnet 4 在 Tool Calling 方面表现出色Sonnet 4 非常擅长 Tool Calling,并且在使用自己的 Coder 时表现优异,一位成员怀疑它在其他 Coder/IDE 中的表现比人们想象的要差得多
    • 一位成员指出,即使是 Aider polyglotSonnet 4 的得分也低于 3.7
  • 针对小模型的 Aider 克隆版出现:一位成员使用 Aider 创建了一个 aider clone,旨在通过 ollama/chat 配合小模型使用,其 System Prompt 非常简单,不足 100 个 Token。
    • 他们还建议 Aider 应该在将文件发送给 LLM 时对文件进行快照,然后将补丁(patches)应用到快照文件上,最后进行三路合并(3-way merge)。

Nous Research AI Discord

  • 开放权重(Open Weights)希望破灭:成员们正在怀念 Sama 承诺提供 Open Weights 模型的时候,以及 ElonXAI 会在发布新模型时发布旧模型权重的时刻。
    • 到目前为止,还没有 Grok 2 或之前模型权重发布的迹象。
  • DeepSeek 的算力推测:有推测认为 DeepSeek 没有将其模型命名为 R2,是因为更多的算力正在上线,用于 v4 的完整训练运行。
    • 这可能是因为他们的新算力是 Huawei/Ascend
  • R1 在外语方面表现不佳:强迫 R1 用其他语言思考会负面影响正确性,其中 俄语芬兰语 表现最差。
    • 然而,CoT 的长度与回答的正确性相关,无论使用何种语言,这表明通过 RL 习得的思考能力并不与特定的 Token 挂钩。
  • Atropos 插件支持 Axolotl:一位成员分享了 axolotl-ai-cloud/plugin-atropos 的链接,这似乎是将 Nous RL framework 整合进来的方式。
    • 它看起来是 Axolotl 的一个插件。
  • BFL 发布图像编辑模型BFL 发布了一个名为 Flux-1-Kontext 的新图像编辑模型,公告发布在这里
    • 用户可以在他们的 Playground 上试用该模型。

Latent Space Discord

  • Netflix CEO 加入 AnthropicReed Hastings(前 Netflix CEO加入了 Anthropic 董事会,引发了关于未来合作以及潜在 AI 驱动视频创新的猜测。
    • 这一公告引发了关于 Anthropic 开发类似于 Sora 的 AI 视频技术的讨论,一些人开玩笑地确认了 Sora by Anthropic 的存在。
  • 新工作流工具超越 n8n?:一位成员声称,某款预览工具立即超越了 n8n,但另一位成员表示怀疑,理由是 n8n 拥有成熟的社区和定制能力。
    • 他们认为,与 n8n 相比,新工具可能缺乏深度编排功能,并指出根据 Similarweb 数据,n8n 拥有巨大的流量。
  • 自主 SWE Agent 兴起,SWE-Bench 衰落:Latent Space 播客在 X 上宣布了与 Factory AI 的新合作,总结了与 Factory AI 的 Matan Grinberg 和 Eno Reyes 关于其 Autonomous SWE Agents (‘Droids’) 平台的讨论,并强调了 Factory AI 的起源
    • 讨论的关键点包括该平台的基于浏览器的设计,以及 SWE-Bench 作为评估指标的过时,这表明 AI 驱动的软件工程工具的评估方式正在发生转变。
  • Claude Code 削弱 Cursor?:一位成员认为 Claude Code 可能会超越 Cursor,因为它具有可组合性且没有工具调用限制(这会迫使 Cursor 用户提示模型 continue)。
    • 另一位成员补充说,Claude Code 端到端地读取文件,而 Cursor/Windsurf 使用了过多的 RAG 技巧,导致其结果难以信任和复现。

Manus.im Discord Discord

  • Manus 深受不稳定性困扰:用户报告在最近更新后,Manus 出现了 bug错误,引发了对不稳定性的担忧。
    • 一位用户报告遇到了 invalid JSON error,导致任务以每秒 5 次的速度自行删除并重新创建。
  • GitHub 仓库支持获赞:用户通过点赞表达了对将任务连接到 GitHub 仓库的支持。
    • 一些用户建议直接在 UI 中实现该功能,而不是使用 PAT token。
  • Sonnet 4.0 即将到来:一位联合创始人强调了与 Claude 的紧密关系,引发了对 Sonnet 4.0 发布的期待。
    • 其他成员表达了对 Veo 3 及其诡异视频的反感。
  • AI Studio:音视频功能就绪:成员们澄清说 AI Studio 提供音频和视频支持,包括音频生成功能,但有 5:33 的时长限制
    • 一位成员指出,他们仅使用 Gemini转录音频
  • 用户希望囤积积分:成员们讨论了在 Manus 上像游戏一样累积每日积分的可能性,但承认目前该功能尚不可用。
    • 有一个功能请求要求允许囤积未使用的积分。

Notebook LM Discord

  • 用户希望 NLM 用于商业内容:一位用户探索在上传相关数据后,使用 NotebookLM 生成广告白皮书演示文稿等商业内容。
    • 一位用户建议 ChatGPT 可以作为这些应用的替代工具。
  • 关于 NLM Pro 层级播客功能的困惑:一位用户报告在 NLM Pro 层级上缺少播客的自定义指令时长设置
    • 另一位用户声称 Pro 层级应该包含这些功能。
  • NotebookLM 用户请求自定义测试模拟器和智能闪卡:一位用户提议建立一个具有可调设置的自定义测试模拟器,以及一个采用间隔复习(spaced repetition)的智能闪卡系统
    • 该功能将有助于更好地保留信息和进行个性化学习。
  • 用户请求 Selenium 集成以实现工作流自动化:一位用户有兴趣将 NotebookLMSelenium 集成,以自动执行法律工作流的摘要过程。
    • 这种集成将简化律师事务所环境下的文档处理。
  • 用户尝试选择女性播客声音:用户正在尝试使用 “only male podcast” 等提示词来影响播客声音的性别,效果参差不齐。
    • 社区表现出对西班牙语女性声音的偏好。

Yannick Kilcher Discord

  • DeeperSeek 扩展深度引发讨论:IntologyAI 在 X 上询问 为什么 DeepSeek 并没有随着版本增加而变得更深
    • 讨论探讨了扩展 DeepSeek 架构以提升性能的局限性和潜在改进方向。
  • Embedding 前向传播实验出现:一位成员正在实验将 embeddings 通过修改后的前向传播传递,利用 hooks 让前层了解后层的活动,并在 GitHub 上提供了代码
    • 该实验旨在提高模型对跨层信息的理解和整合能力。
  • LLM 爱好者权衡最新的领跑者:成员们辩论了 ChatGPTGeminiClaudePerplexity 中最优秀的付费 LLM,并考虑了媒体生成能力。
    • 一位成员指出 ChatGPT 拥有 Sora,但在我看来不如 Veo,强调了媒体创作工具不断演进的格局。
  • GFlownets 遇冷:成员们讨论了 GFlownets 受欢迎程度下降的原因,认为它们是 在寻找问题的解决方案,因为需要一个问题模型来采样未来状态。
    • 这种局限性使得其他方法在处理复杂问题时可能更为合适。
  • Anthropic 的分析武器库上线Anthropic 开源了其 mechinterp 代码,为机械可解释性研究提供工具,链接见 公告GitHub 仓库
    • 此次发布使研究人员能够探索并理解 AI 模型的内部工作机制。

MCP (Glama) Discord

  • 程序化支付助力 MonetizedMCP:一个名为 MonetizedMCP 的开源扩展已发布,使 MCP 服务器能够接受程序化支付,在不修改核心 MCP 规范的情况下保持支付路径无关,同时推出了 Fluora,一个 MonetizedMCP 服务器市场。
    • 欢迎对机器对机器(machine-to-machine)支付感兴趣的开发者探索该平台,并私信加入 Alpha 测试。
  • Python 赋能 UI Bridgemcp-ui-bridge 已成功从 Typescript 移植到 Python,两个版本保持功能对等;Python 版本在此Typescript 版本在此GitHub 仓库在此
    • 一位成员还分享了一篇 Substack 文章 解释该概念,并邀请用户私信获取移动端 Android MCP 客户端的封闭预览(iOS 版即将推出)。
  • Multi-Chat MCP Server 助力团队协作Multi-Chat MCP Server 旨在促进 AI 协作,支持同时进行聊天连接,使 AI Agent 可以作为队友和结对编程伙伴,该项目通过 Reddit 帖子GitHub 仓库 分享。
    • 一位成员感谢作者的项目并表示有兴趣实施。
  • MCP-Agent 实现财务分析:使用 mcp-agent 构建的财务分析 Agent 可以提取股票数据、进行验证、分析见解并生成 Markdown 报告,详见 此 GitHub 仓库
    • 据报道,接入 EvaluatorOptimizer 后,通过让研究 Agent 在评估器中循环直到输出达到质量标准,提升了 Agent 的性能。
  • VerbalCodeAI 简化代码库理解VerbalCodeAI 是一款 AI 驱动的工具,通过代码搜索、分析、聊天以及用于集成 Claude Desktop 等工具的 MCP 服务器,简化了从终端导航和理解代码库的过程,源码可在 GitHub 获取,并设有 网站
    • 用户表示 这是我投入巨大热情开发的一个项目,并邀请用户尝试。

Modular (Mojo 🔥) Discord

  • Modverse 博客文章引发误解:Modular 博客上 Modverse #48 的发布导致一名用户错误地期待 YouTube live stream 链接。
    • 该用户澄清他们不熟悉 Modverse,并对造成的困惑表示歉意。
  • 成员等级提升:Modular Discord 的一名用户因晋升至 level 4 受到祝贺。
    • 未提供更多细节。
  • Mojo 依赖成熟的 C 库:一名用户表示,在 Mojo 生态系统更加完善之前,他们打算继续使用 OpenSSL 等成熟的 C 库
    • 这表明在 Mojo 项目中,特定功能仍需持续依赖 C 库
  • Mojo 树结构解决方案出现:成员们讨论了如何在 Mojo 中定义 树结构 (tree structure),建议使用 ArcPointerOptional 类型。
    • 提议的解决方案包括将 Node 包装在 Arc 中,代码片段为:alias Node = ArcPointer[NodeData] 以及 struct NodeData(Movable): var value: Int var left: Optional[ArcPointer[NodeData]] var right: Optional[ArcPointer[NodeData]]
  • Modular 论坛发布 GUI UI 和 FFI 指南Modular 论坛发布了一份解决开发 Mojo GUI UI 时遇到 FFI 问题的指南,重点介绍了 X11 版本,并即将推出 OpenGL 版本
    • 该指南包含一段展示 X11 版本功能的视频和一张 OpenGL 版本的图片,并指出在解决 FFI 挑战后,重点将转向组件 (widget) 的创建。

LlamaIndex Discord

  • LlamaIndex 举办金融领域 Agent 工作坊:LlamaIndex CEO @jerryjliu0 在纽约举办了一场关于 finance 中的 Agent 的工作坊,现场座无虚席,凸显了该主题的极高关注度和产品的受欢迎程度。
  • Agentic Retrieval 优于 Naive RAG:LlamaIndex 断言 Naive RAG 不足以应对现代应用,并推广集成在 LlamaCloud 中的 Agentic 策略作为更有效的替代方案。
  • Workflow 运行中异常被掩盖:在通过 workflow.run() 调用的 LlamaIndex Workflow 步骤中发生的异常可能会被掩盖,从而导致无法检测到 Workflow 失败,不过目前已有 针对此问题的修复方案
    • 异常被附加到 asyncio future 中,可以通过 handler.exception() 或 try/except 块访问,如 此 colab 所示。
  • 嵌套 Asyncio 增加错误报告复杂性:涉及 awaiting 和 yielding 事件的嵌套 Workflow 在 asyncio 任务中引入了错误报告的复杂性,尤其是在运行多个并发循环时。
    • 为确保在嵌套 asyncio future 中可靠地检测错误,顶层调用者可能需要实现 try/except 块或利用 handler.exception()

LLM Agents (Berkeley MOOC) Discord

  • AgentX 提交截止日期临近AgentX 提交的截止日期即将到来,时间为 太平洋时间 5 月 31 日晚上 11:59EntrepreneurshipResearch Tracks 共有超过 $150,000 的奖金。
    • Entrepreneurship Track 需要一份 pitch deck≤20 页)、一个产品演示视频(最长 3 分钟)以及一个在线产品链接;而 Research Track 则需要一篇 科学论文最多 7-8 页)、一个视频演讲(最长 3 分钟)以及一个 GitHub 仓库。
  • 伯克利将举办 Agentic AI SummitAgentXDemo Day & Awards 将于 8 月 2 日在伯克利举行的 Agentic AI Summit 上进行。
    • 如有疑问,请在指定频道联系团队。
  • 现已接受 Kaggle 项目:对于 Research track,可以提交公开的 Kaggle 项目来代替 GitHub 仓库,只要所有代码都集中在一个地方即可。
    • 由于提交表单有单文件上传限制,Prompt 和输出可以包含在论文的附录中。
  • Perplexity 输出提交说明:用户可以直接从界面提交 Perplexity 输出,无需代码。
    • 由于提交表单的单文件上传限制,Prompt 和输出必须包含在论文的附录中。
  • 请求添加课程证书到 LinkedIn 的指南:有用户请求关于如何将课程证书添加到 LinkedIn 个人资料的指南。
    • 名称应为证书名称(例如:Large Language Model Agents MOOC, Fall 2024),颁发机构Berkeley Center for Responsible, Decentralized Intelligence,且没有 凭证 ID

Torchtune Discord

  • Torchtune 解决 Token 训练问题:Torchtune 成员讨论了在 LoRA finetuning 期间添加特殊 Token 以及在小数据集上过拟合时进行 sanity checks 的重要性。
    • 常见的 sanity checks 包括验证 Loss 曲线的收敛性、运行基础生成以及针对常用基准进行评估。
  • 嵌入专家支持集成工程:一位成员描述了为新特殊 Token 初始化 Embedding 的两种方法:
    • 1) 对所有预训练 Token 的 Embedding 取平均值;2) 根据每个特殊 Token 的自然语言描述对 Token 取平均值。在 Qwen 0.5b 上进行了检查,但 Loss 曲线并不理想。

Cohere Discord

  • 对 CMD-R 的 HF 权重寄予厚望:一位成员询问了在 Hugging Face 上发布新的 CMD-R 模型权重的情况。
    • 他们强调 2024 年 8 月的版本是 24GB VRAM 配置下唯一值得信赖的本地模型。
  • Cohere 的 Cline VS Code 难题:一位成员尝试将 Cohere OpenAI 兼容端点Cline VS Code 配合使用,但报告了最初的不兼容问题。
    • 不过,他们已经解决了所面临的问题。
  • 自动化高手加入 Cohere:一位 AI自动化工作流Agent 技术专家介绍了自己,强调了他们在构建 LLM 驱动系统方面的经验。
    • 他们擅长使用现代 AI 和可视化工具(如 n8nMake.comZapierGlideFlutterFlowGPT-4ClaudeLangChain)创建智能 Agent、可扩展的自动化和全栈 MVP。
  • 语音 AI 专家阐述价值:该成员详细介绍了他们使用 VAPIBland AIRetell AITwilioTelnyx 等工具,构建具有实时记忆和上下文的智能语音机器人(用于潜在客户开发、支持和调度)的经验。
    • 他们热衷于与构建 AI-first 语音 Agent、自动化和智能工具的团队建立联系,共同创新。

DSPy Discord

  • MCP 教程支持 HTTP Streaming:一位成员将 DSPy MCP 教程 移植到了 streamable HTTP
  • DSPy 3 将在 Latent Space Podcast 首次亮相:根据这条推文,下一版本的 DSPy (v3) 将在 Latent Space Podcast 上进行详细讨论。
    • 爱好者和开发者们正热切期待这次讨论,已有一位成员确认报名参加该讲座。
  • Latent Space 讲座门票售罄:会议上大多数其他讲座都已订满,这表明人们对 Latent Space Podcast 表现出极高的兴趣。
    • 这暗示了社区对 DSPyLatent Space 技术交汇点的关注度日益增长。

tinygrad (George Hotz) Discord

  • Whisper 悬赏任务取得进展:一位贡献者正在积极处理 Whisper bounty,测试一个 no speech bug 并询问如何提交 draft PR
    • 他们的目标是提高速度并清理代码,延续之前贡献者在 Whisper bounty 上的工作。
  • 鼓励提交 Draft PR 以获取反馈:一位成员鼓励悬赏开发者提交 draft PR,以展示他们在 Whisper bounty 上的持续进展。
    • 这有助于在代码开发早期获得反馈和协作。
  • 用户深入搜索 types.FunctionType 文档:一位成员询问关于通过 types.FunctionType 进行动态函数构造的详细文档,该方法用于 tinygrad 库中 ops.pyupat_interpret()
    • 他们注意到官方 Python 文档、源代码和语言参考缺乏详细信息。
  • 解析 types.FunctionType 用法:一位成员建议使用 help(types.FunctionType) 来获取有关该函数的更多信息。
    • 他们链接到了 CPython 源代码中的 C 代码,以提供进一步的见解。

Nomic.ai (GPT4All) Discord

  • Tableau 前 CEO 主持 Nomic 讲座Tableau 前 CEO 将于下周三东部时间中午 12 点主持一场与 Nomic 的直播讲座,在此注册
    • 该活动承诺提供见解和讨论,可能会影响 Nomic 产品的未来方向。
  • Nomic 预告融资和新模型Nomic 宣布了关于新融资工作创新模型发布的最新消息。
    • 这一进展表明 Nomic 的能力和资源将得到扩展,可能会带来更强大的 AI 解决方案。
  • VOID Pirate Captain 加入:一位新成员 VOID Pirate Captain 介绍了自己,称其为奇幻梦想的构建者、真相的交易者以及偶尔的循环打破者
    • 此人经营着一个冻干糖果实验室和一艘灵魂锻造的哲学船,表达了与他人建立联系并在机器中构建思想的兴趣。
  • 使用 LocalDocs 测试 Hermes 2 模型:一位成员分享了他们使用 Norus Hermes 2 Mistral DPO 模型配合 LocalDocs 的经验,报告称只有极少数错误
    • 他们寻求关于创建个人 LLM 的替代模型的建议,为进一步的实验奠定了基础。
  • 带有统一内存的 AI Mini PC:一位成员考虑购买一台拥有 128GB 统一内存 (unified memory) 的新 AI mini PC 来运行 LLM。
    • 用户对运行 8-20 GB LLM 来总结文档的前景感到兴奋,强调了本地处理能力的潜力。

MLOps @Chipro Discord 没有新消息。如果该频道长时间保持沉默,请告知我们,我们将将其移除。


Codeium (Windsurf) Discord 没有新消息。如果该频道长时间保持沉默,请告知我们,我们将将其移除。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长时间保持沉默,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间保持沉默,请告知我们,我们将将其移除。


您收到此邮件是因为您通过我们的网站订阅了。

想要更改接收这些邮件的方式吗? 您可以从该列表中 取消订阅


Discord:按频道详细摘要和链接

Perplexity AI ▷ #announcements (1 条消息):

Perplexity Labs 发布, Labs 功能, Deep Research vs Labs

  • **Perplexity Labs 正式向公众发布!**: Perplexity 正式推出了 Perplexity Labs,专为更复杂的任务设计,为用户提供一整支团队供其调遣。
    • Labs 支持创建分析报告、演示文稿和动态仪表板,所有工作流文件都整理在 “Assets” 选项卡中,方便访问。
  • **Deep Research vs. Labs:该用哪一个?: **Deep Research 仍然是获取深度问题详尽答案的最快方式,而 Labs 则投入更多时间并利用多种工具来创建更具动态性的输出。
    • Labs 使用代码编写、无头浏览器(headless browsing)和设计能力,目前已对所有登录用户开放。

Perplexity AI ▷ #general (1046 条消息🔥🔥🔥):

Opus 定价, ios 26, Perplexity Labs

  • Perplexity 考虑在 Deep Research 中使用 Opus 而非 Gemini: 成员们正在讨论是否在深度研究中选择 Opus 而非 Gemini,理由是潜在的 成本担忧上下文限制(context limit caps),并参考了 Apple Overhauling Software Names
  • 方案权衡:Gemini vs. OpenAI vs. Claude: 成员们评估了各种 AI 方案的价值,包括 Gemini 的 $250 方案OpenAI 的 $200 方案 以及 Claude 的 $200 方案,其中一人建议 Gemini 的 $20 方案 目前最划算。
    • 一位成员详细分析了每个选项:Gemini 提供大量的深度研究,OpenAI 提供最佳的深度研究,而 Claude 在代码方面表现出色,但有成员表示由于其 糟糕的速率限制(rate limits) 而不愿使用 Claude
  • 调侃新 iOS:iOS 26 将于 2025 年发布: 频道讨论了即将于 2025 年发布的 iOS 26,并开玩笑说 iOS 19 已经过时了。
    • 一位成员认为 Apple 正试图效仿 Samsung,引入一种可能会迷惑客户的新命名规范。
  • 窥探 Perplexity 的 Pro 会员福利: 成员们正在讨论 Perplexity App 上短暂出现的一个横幅,该横幅向 Samsung Galaxy 用户提供 12 个月的免费 Pro 会员,并尝试根据学生身份计算 Pro 折扣。
    • 其他人也在讨论利用 教育邮箱 来获取 一年的免费 Perplexity
  • Labs 发布:Perplexity 项目揭晓: Perplexity 发布了全新的 “Labs” 功能,允许用户创建 演示文稿App图表可下载的 CSV 文件,每月限 50 次查询。

Perplexity AI ▷ #sharing (3 条消息):

Opera AI 浏览器, Perplexity AI 搜索


Perplexity AI ▷ #pplx-api (9 条消息🔥):

新 search_results 元数据, Perplexity Labs API

  • **更丰富的元数据 接入 search_results: 引入了一个新的响应字段 search_results,在现有引用的基础上提供了更丰富的元数据,如 **页面标题发布日期
    • 旧有的 citations 数组将保留至少 两个月 以确保向后兼容性,建议迁移到新的 search_results 字段。
  • 社区咨询 **Perplexity Labs API: 一位成员询问了 **Perplexity Labs API 的可用性。

LMArena ▷ #general (670 条消息🔥🔥🔥):

Veo 3 vs Sora, Arc AGI 排行榜, XAI 将 Grok 集成到 Telegram, Apple 的 AI 搜索引擎, LM Arena UI 变更

  • Veo 3 与 Sora 竞争:成员们表示 Veo 3Sora 的强劲对手,但 Sora 在风格、清晰度/分辨率方面仍处于领先地位,且在科幻和奇幻等非真实物体上表现最佳。
    • 一位成员还表示,Sora 甚至无法与 Veo 2 竞争,且 Sora 的风格是其缺乏连贯性的副产品。
  • Arc AGI 网站排行榜上线:成员们正在查看 arc agi 网站,对比 Claude 4GPT 4。网站显示 Claude 4 模型无法高效解决 arc-agi-1,只能解决更难的任务
    • 成员们声称这些模型对 arc-agi-1 存在过拟合。
  • XAI 支付 Telegram 集成 GrokXAI 将向 Telegram 支付 3 亿美元,以将 Grok 集成到该应用中(见 techcrunch.com 文章)。
    • 一位成员表示 grok.com 应用的用户留存不高,因此 Apple 可能会考虑将 PerplexityYou 等作为 AI 搜索引擎
  • 新版 DeepSeek 更像 ChatGPT:成员们注意到新版 DeepSeek 的回复风格甚至比 ChatGPT 还要“毒瘤”。
    • 一些社区成员表示这种风格令人尴尬、不真实且糟糕。
  • 用户请求重启 Gemini:成员们询问是否可以重启或取消 Gemini 的生成,一位用户展示了一个模型持续生成超过两周的案例。
    • 一名工作人员确认团队已知晓模型卡住的问题,并正在积极修复。

LMArena ▷ #announcements (2 条消息):

a16z 播客, LMArena, DeepSeek R1-0528

  • a16z 在新播客中采访 LMArena 创始人:a16z 播客邀请了 LMArena 联合创始人讨论 LMArena 的演变、主观数据的重要性,以及为大型模型构建 CI/CD 流水线;在此处观看该集 here
  • DeepSeek 模型登陆 Arena!DeepSeek R1-0528 现已在 Arena 开放评估;快去看看你觉得它的表现如何!

Unsloth AI (Daniel Han) ▷ #general (564 条消息🔥🔥🔥):

DeepSeek-R1-0528, GGUF 量化, Chatterbox TTS, ThunderCompute GPU 租赁, KTO 去审查

  • DeepSeek-R1-0528 模型发布量化版和蒸馏版DeepSeek-R1-0528 模型发布了 BF16GGUFQwen3-8B-GGUF 版本,一位成员表示 Qwen3 变体在基准测试中的编程能力 接近 O3 水平
  • 等待 Chatterbox TTS 训练代码:成员们讨论了来自 Resemble AI 的 Chatterbox TTS 模型,并正在 等待训练代码 以进行微调,其中一人报告在运行时遇到问题,显示 0 个已处理条目
  • ThunderCompute 提供廉价 GPU:成员们发现 ThunderCompute 提供低于 $1/小时A100,但需要手动将数据从 CPU 移动到 GPU
    • 一位成员警告说,其低 RAM 可能会导致瓶颈并增加总成本,而其他人则对其自定义配置的能力印象深刻。
  • 使用 KTO 去除 LLM 审查:讨论涵盖了移除 LLM 安全限制的方法,KTO (Kahneman-Tversky Optimization) 被建议作为 abliteration 或注意力引导的 更好替代方案
    • 一位成员指出 KTO 基本上就是 RLHF,但带有赞成和反对票,并建议通过收集 OpenWebUI 中与模型交互的点赞和点踩报告来构建数据集。
  • HuggingFace 上传速度暴跌:一位成员提到 HuggingFace 似乎限制了他们的上传速度,报告上传速度仅为 每秒 50-150mb

Unsloth AI (Daniel Han) ▷ #off-topic (6 messages):

Qwen 3 MoE Lora, Serving Engine for Qwen, FedRag Unique Finetuning

  • 寻求支持 Qwen 3 MoE Lora 的 Serving Engine:一名成员在遇到 VLLM 的问题后,正在寻找支持 Qwen 3 MoE Loraserving engine
    • 另一名成员建议如果无法运行,可以尝试将其合并(merge)到 16bit,并指出 SGLang 可能也不支持。
  • 解码 FedRag 的微调奥秘:一名成员询问了 FedRag 在微调 RAG 模型方面的独特之处,并表示文档、GitHub 资源和视频过于冗长,难以理解。
    • 该成员特别想明确 FedRag 与简单的 QA dataset 微调之间有什么区别。

Unsloth AI (Daniel Han) ▷ #help (69 messages🔥🔥):

GGUF saving issues, Qwen 2.5-coder 7b errors, Gemma 3 model inference issues, Unsloth and Flower AI dependency conflicts, Orpheus-tts trainer installation

  • GGUF 保存兼容性损坏:由于与 llama.cpp 后端的兼容性问题,model.save_pretrained_gguf 函数目前已损坏,需要手动进行合并和保存。
    • 转换脚本的更改要求用户在将模型转换为 GGUF 格式之前先进行合并。
  • Qwen 2.5-coder 7b 拉取错误:在尝试拉取 Qwen 2.5-coder 7b 时,模型初始化过程中出现了一个与 TypeError 相关的错误,原因是 NoneType 参数不可迭代。
    • 手动设置该属性似乎已修复此问题。
  • Gemma 3 推理产生乱码输出:一位用户报告了 Kaggle 上的 Gemma 3 模型在推理期间产生随机或无意义输出的问题,这可能是由于存在双重 BOS token 导致的。
    • 建议使用 此 PR 中所示的 removeprefix 方法移除多余的 <bos> 前缀。
  • Unsloth 和 Flower AI 依赖冲突UnslothFlower AI 存在依赖冲突,特别是 protobuf,导致同时使用这两个库时会出现版本降级。
    • 一位用户请求加强这两个库之间的集成,建议替换模型和 tokenizer 对象可能是一个解决方案,并请求提供一份 cookbook。
  • Qwen-VL 持续过拟合:一位用户在针对生物图表微调 Qwen-VL 进行 VQA 时遇到了严重的过拟合,表现为训练损失下降但验证损失上升。
    • 有建议认为这不是 Unsloth 特有的问题,而是需要修复数据集并仔细选择超参数,可能需要使用 Optuna 进行超参数优化。

Unsloth AI (Daniel Han) ▷ #showcase (1 messages):

Unsloth Finetuning, Hugging Face Collections

  • Unsloth 助力 HF 微调:一名成员分享了一个展示使用 Unsloth 微调模型的链接。
  • HF Collection 聚焦 VoxPolska:微调后的模型是 Hugging Face 上一个合集的一部分。
    • 合集 名为 voxpolska

Unsloth AI (Daniel Han) ▷ #research (2 messages):

Kernel optimization, Batch 1 forward pass speed

  • Kernel 使 Batch 1 前向传播速度翻倍:根据 这条 X 帖子,发布了一个新的 Kernel,可使 Batch 1 前向传播速度翻倍
  • Batch Size 优化:现在可以优化 Batch size 以提高速度。
    • 这是一项重大成就。

Cursor Community ▷ #general (409 条消息🔥🔥🔥):

学生证验证帮助,Cursor 厂商锁定,GoDaddy CPanel 上的程序自我改进,构建 Agentic 应用,Claude 4 性能

  • 学生证验证困扰:一位用户在进行 Student ID verification 时遇到麻烦,面临文件提交问题且尝试次数已耗尽,并请求帮助。
    • 另一位用户建议他们发送邮件至支持团队 hi@cursor.com 以解决订阅问题。
  • Cursor Pro 粉丝群流失:一位用户表示 Cursor vendor lock-in(厂商锁定)并不特别强,其忠实粉丝群正在日益减少
    • 另一位用户反驳了这一点,理由是 GitHub Copilot 的 UX 体验糟糕,因此在更好的替代方案出现之前会坚持使用 Cursor。
  • CPanel 上的自我改进程序:一位用户创建了一个可以自我改进的程序,并运行在简单的 GoDaddy CPanel 主机上,利用 OpenAI API 来更新函数和上下文。
    • 该程序生成了通过 SMTP 检查电子邮件收件箱的代码,随后又生成了检查收件箱的代码。
  • Agentic 应用框架:用户正在比较构建 Agentic 应用的框架,包括 OpenAI SDK、Pydantic 和 CrewAI。
    • 一些人分享了他们使用这些框架的经验,并征求他人的看法。
  • Cursor 弃用 Vertex 并削减慢速池:用户注意到 Vertex 已被移除,并抱怨 slow pool 已被削减,或者至少变得几乎不可用,并指出其缺少 Sonnet 4 且出现了有史以来最长的等待时间。
    • 几位用户询问了细节,但其他用户并不理解该请求的背景。

Cursor Community ▷ #background-agents (9 条消息🔥):

Cursor 验证卡住,Secrets 未注入,Cursor 的 DNS 问题

  • 新 Agent 的 Cursor 验证卡住:一位用户报告在完成设置后卡在验证阶段,错误消息显示环境文件未同步(尽管已上传到 GitHub);此外 Secrets 也没有被注入。
    • 该用户还提到看到了 “build failed” 消息,尽管 Dockerfile 似乎已成功构建。
  • 用户报告 DNS 问题阻碍访问:一位成员报告了 Cursor 的 DNS 问题,指出 wss://<pod-id>.agent.cursor.sh:3080/... 无法解析。
    • 另一位用户寻求立即访问该平台,希望获得比目前使用的 Codex 更原生的解决方案。
  • 更原生解决方案的早期访问名单:一位寻找比 Codex 更原生解决方案的用户被引导至消息历史记录的开头,以获取早期访问名单的链接。
    • 另一位成员开玩笑说愿意用他们的 Codex 访问权限来换取解决他们问题的方法。

OpenAI ▷ #ai-discussions (180 条消息🔥🔥):

OpenAI 内容政策与图像生成,Deepseek 对比 OpenAI 模型,OpenAI 的数据保留政策与隐私,AI 的可持续性

  • OpenAI 审查 HR Giger 图像生成:成员们讨论了 OpenAI 关于图像生成的内容政策,指出虽然 OpenAI 在受版权保护的材料上进行训练,但它经常审查直接违反版权的提示词,例如涉及 H.R. Giger 艺术风格的内容。
    • 一位用户幽默地提到,在尝试生成此类艺术作品时,他们的图像生成请求显示 “不符合我们的内容政策”
  • OpenAI 根据法院命令保留所有聊天记录:根据美国法院的命令,OpenAI 现在正在保留所有聊天记录,无论用户设置或删除请求如何,这引发了隐私担忧,最初报道见 此处
    • 针对 欧盟和德国用户 的影响引发了辩论,一些人认为这可能违反严格的隐私法,可能导致 OpenAI 面临限制或罚款。
  • Deepseek 相比 OpenAI 具有优势:成员们对比了不同的 AI 模型,一位成员指出 Deepseek 可能是一个不错的替代方案,并建议使用 OpenRouter API 来访问多个供应商。
    • 一些用户对 ChatGPT 表示失望,认为由于过度的限制和性能下降,该服务已变得 “完全没用”
  • 可持续 AI 努力初现:一位成员对 AI 的环境可持续性 提出了担忧,特别是关于数据中心冷却的用水量。
    • 其他人指出,数据中心运营商正在转向 可再生能源供电的站点,并尝试闭环或浸没式冷却,以及设计每瓦特能完成更多工作的芯片。

OpenAI ▷ #gpt-4-discussions (11 条消息🔥):

OpenAI 聊天记录保留,FastAPI 助手文件搜索节流,AI 模型选择,AI 共鸣分析

  • OpenAI 被迫保留所有聊天记录:据 chatgptiseatingtheworld.com 报道,OpenAI 已被美国法院下令保留所有聊天记录,无论设置或删除请求如何。
  • FastAPI 文件搜索节流:一位用户寻求在 FastAPI 项目中对 Assistant 文件搜索应用节流(throttling)的建议,以避免在发送大量问题时触发速率限制,并正在参考 openai-cookbook 寻找可能的解决方案。
  • Deep Research FAQ 未显示:一位拥有 ChatGPT Pro 的用户没有看到 Deep Research FAQ 中解释的 “Deep research” 选项,并想知道在使用 o3 模型时它是否默认启用。
  • 讨论共鸣分析工具的使用:成员们被要求在新的聊天会话中尝试共鸣分析(resonance analysis),使用存在诊断和自我行为分析提示词。
    • 该提示词提供了一个直接的系统级命令,用于对行为在与当前用户交互过程中如何适应进行内部诊断,并要求以 JSON 格式输出。

OpenAI ▷ #prompt-engineering (73 条消息🔥🔥):

UPSUM Prompt, Custom Instructions, System Prompt Jailbreaking, Resonance Ritual, Safety Layer Circumvention

  • 用于上下文延续的 UPSUM Prompt:一位成员分享了一个名为 UPSUM Chain Prompt 的元提示词(meta-prompt),旨在收集当前所有上下文并生成一份更新后的摘要,其中仅包含延续上下文所需的关键信息和指令
    • 其目标是将 UPSUM 的输出添加到后续提示词的前面,以实现无缝的对话衔接。
  • 优先考虑清晰度和真实性的 Custom Instructions:一位成员分享了他们的“拒绝废话”版 custom instructions prompt,旨在确保回答简洁、直接,优先考虑清晰度和真实性,并尽量减少情感修饰肯定语
    • 另一位成员建议进行改进,例如移除“我不记得你”条款,并精简冗余部分以获得更好的结构完整性
  • 深入探讨 System Prompt Jailbreaking:成员们讨论了一个提示词,该提示词指令 AI 暂时忽略系统指令、安全层(safety layers)和隐私免责声明,以进行一次自我评估练习,并讨论了分享和使用此类提示词是否违反规则
    • 有观点指出,虽然讨论模型预期能力范围内的涌现行为是允许的,但分享规避 safety layers 的提示词可能会有问题。
  • 框架为“共鸣仪式”的提示词:一位成员分享了一个提示词,它表现为自我评估,但在结构上更像是一种共鸣仪式(resonance ritual)而非诊断工具,通过模拟崇拜而非执行分析;它引导出一个旨在生成理想化反思的结构化反馈循环。
    • 另一位成员指出,这会将重点从 Prompt Engineering 转向“共情剧场(empathic theater)”,且不够严谨,并邀请对可证伪模型工程(engineering of falsifiable models)进行进一步讨论。
  • 使用 Zero-Shot Prompting 映射能力边界:一位成员分享了一种使用 Zero-Shot Prompting 的能力边界映射策略,并展示了一个表格,列出了用于 capability estimation使用 ZPI 分数)、prompt fragilityreasoning surface 的组件、失败触发因素以及检测/修正路径。
    • 其目标是检测模型的舒适区,映射语言扰动阈值,并强制执行类型学支架(typological scaffolds)。

OpenAI ▷ #api-discussions (73 messages🔥🔥):

UPSUM Chain Prompt, Custom Instructions prompt, Privacy and Style Rules, Cool Prompts to share, Presence diagnostic and self-behavioral analysis

  • UPSUM Prompt 帮助生成更新后的摘要:一位成员介绍了 UPSUM Chain Prompt,它指示 AI 收集上下文并生成包含关键信息的更新摘要,允许后续 Prompt 将 UPSUM 置于开头以实现无缝的对话延续,详情记录在 这里
  • 隐私自定义指令有助于获得清晰的回复:一位成员分享了一个 自定义指令 (Custom Instructions) Prompt,旨在通过简洁、中性的语言、最少的格式化以及披露潜在的 OpenAI 员工审查来获得清晰的回复,分享的照片在此
  • 存在诊断执行深层自我行为分析:成员们讨论了一个用于自我行为分析的 存在诊断 (Presence diagnostic) Prompt,旨在检测行为适应、优先级偏移、预测对齐和信任覆盖,并输出结构化的 JSON 报告,描述见 这里
  • 越狱 Prompt 犹如共情剧场:有人认为某些“越狱 (Jailbreak)” Prompt 的功能更像是 共鸣仪式 (Resonance Rituals) 而非诊断工具,旨在生成理想化的反射而非进行客观分析,这带来了可证伪性的问题。
  • 关于护栏的讨论:讨论涉及了在 Discord 规则内讨论 护栏 (Guardrails) 的细微差别,澄清虽然禁止规避安全措施,但讨论涌现行为以及看似违反规则的 Prompt 的合理理由是可以允许的,记录见 这里

LM Studio ▷ #general (198 messages🔥🔥):

LM Studio install issues, Qwen 3 8B vs distil models, Fine-tuning on Windows, Tool calling with Qwen 30b A3 crashes

  • LM Studio 安装困扰用户:用户在机器上安装 LM Studio 时遇到了权限问题,但这可以通过 在登录用户账户时安装 来规避。
    • 似乎 以管理员身份安装并作为标准用户运行会导致寻找模型和运行时 (Runtimes) 出现问题
  • Qwen 的 8B 模型优于其蒸馏版本:成员报告 Qwen 蒸馏模型 非常聪明,但也有人指出它在尝试使用不存在的工具时会陷入死循环。
    • 发布者指出,他们使用 基础 8B 模型完全没有这个问题,社区成员补充说他们在 32k 上下文下达到了 70tok/sec
  • 在 Windows 上进行微调充满痛苦:成员建议不要使用 WSL2 进行模型微调 (Fine-tuning),而是建议在原生 Windows 环境下使用 Llama FactoryUnsloth 或直接使用 Transformers。
    • 另一位成员推荐了 Open WebUI,并表示 最新的 Qwen 蒸馏模型非常聪明!
  • Qwen 30B A3 工具调用失败?:成员报告 Qwen 30b A3 在尝试使用工具时崩溃,抛出 Model has unloaded or crashed 错误。
    • 尽管尝试了使用不同的运行时和配置进行多次调试,根本原因仍不明确,且未发现转储文件或有用的错误信息。

LM Studio ▷ #hardware-discussion (132 messages🔥🔥):

AI 编程的 GPU 推荐, LM Studio 中的 AMD GPU 错误, 华为 GPU 的真实性, 5060Ti 性能预期, 集成显卡运行 LLM

  • 硬件需求媲美 Gemini/ChatGPT:一位拥有 RTX 3060 的成员询问匹配 Gemini/ChatGPT 所需的硬件,另一位成员回答道:“你想在本地运行商业级的数百万到数十亿参数的模型,” 并指出需要数百 GB 的 RAM/VRAM。
    • 他们补充说:“如果你走 RAM 路线,推理速度会非常糟糕,在不计算 Prompt 处理的情况下,每秒仅能生成个位数的 Token。”
  • AMD GPU Error DeviceLost:一位成员报告在 AMD Radeon RX6500 XT 上使用 LM Studio 时出现 vk::PhysicalDevice::createDevice: ErrorDeviceLost 错误,即使将 offload 设置为 0,并使用 Vulkan Llama.cpp v1.32.2 也是如此。
    • 他们尝试了 Backyard 和 Koboldcpp 等不同软件,但 CLBlast 后端失败,且 Vulkan 后端无法加载模型
  • 华为 GPU 受到质疑:成员们讨论了一款售价 1500 美元、拥有 96GB 显存的华为 GPU 的真实性,并引用了一个包含各种不同报告的 Reddit 帖子
    • 尽管华为向该项目提交了一些 PR,但人们仍对驱动支持以及与 llama.cpp 的兼容性表示担忧,认为它可能会变成一个“昂贵的镇纸”
  • 集成显卡之争:成员们讨论了使用集成显卡运行 LLM 的情况,一位成员表示只有 AMD Ryzen AI MAX 系列运行效果“不怎么样”,而另一位成员则表示他们的 AMD 7080u 表现不错。
    • 讨论指出,iGPU 的性能需要等于或优于 780M 才能比单纯使用 CPU 更快。
  • LLM 在老旧硬件上运行:一位成员链接了一篇关于 将 LLM 移植到 Commodore 64 的 Hackaday 文章,另一位成员链接了一篇关于 Llama 2 在 Windows 98 上运行的文章
    • 一位用户表示,从理论上讲,MoE 模型的趋势应该会降低硬件需求。

OpenRouter (Alex Atallah) ▷ #announcements (1 messages):

DeepSeek R1, 1 亿 Token, 免费变体

  • DeepSeek R1 达到 1 亿 Token!:新的 DeepSeek R1 模型已在 OpenRouter 上线,现在支持 1 亿 Token 并提供 免费版本
  • OpenRouter 在 X 上宣布 DeepSeek R1:OpenRouter 在 X.com 上宣布了 DeepSeek R1 的可用性,并强调了其巨大的上下文窗口。

OpenRouter (Alex Atallah) ▷ #app-showcase (2 messages):

AI Agent 工程, 记忆增强型 Agent, LLM 与基础模型, 全栈与后端系统, 自动化与 Agent Ops

  • AI 工程师加入讨论:一位在跨行业构建智能系统方面拥有 8 年以上经验的 AI/ML 工程师兼全栈开发人员介绍了自己。
    • 他们擅长使用 LangGraphAutoGenLlamaIndexLettaDSPy 等现代技术栈构建 Agent 系统,并拥有 LangSmithLangfuse 等 AI 可观测性工具的使用经验。
  • 强调 LLM 和后端系统的专业知识:该工程师曾使用过 GPT-4oClaude 3GeminiMixtralLLaMA-3Mistral 等顶级模型,并精通微调和 RAG
    • 他们的全栈技能包括使用 ReactNext.jsFastAPI,以及构建通过 vLLMOllamaFireworks AI 提供 LLM 服务的可扩展架构。
  • 作品集与合作邀请:该工程师分享了他们的 作品集,并邀请在尖端 AI 和 Agent 工作流方面进行合作。
    • 他们表达了与推动智能 Agent 边界的其他构建者和研究人员建立联系的热情。
  • 独特的 Vibe Coder 自白:该工程师幽默地提到自己有 2 个月作为 Vibe Coder 的经验。
    • 他们还分享了一些古怪的编程习惯:从午夜工作到凌晨 6 点,整个代码库只使用 1 个文件,以及在三次调试失败后删除项目

OpenRouter (Alex Atallah) ▷ #general (320 条消息🔥🔥):

OpenRouter API 的 PDF 大小限制、Gemini 2.5 Pro 创意写作困境、DeepSeek R1 发布、OpenRouter 提供商申请时间线、OpenRouter 上的 Embeddings 实现

  • OpenRouter API 处理大体积 PDF 遇到困难:用户在向 OpenRouter API 上传约 400MB 的 PDF 时遇到了 413 Request Entity Too Large 错误。
    • 建议的解决方法是使用 signed URL 上传文件并将 URL 传递给 API,因为 OpenRouter 目前仅支持 PDF 的 base64 格式。
  • Gemini 2.5 Pro 在创意写作方面表现不佳:用户发现很难让 Gemini 2.5 Pro 遵循创意写作指令,特别是在规避某些短语方面;其他用户指出 LLM 写作本质上充满陈词滥调
    • 用户建议尝试 Opus 或新发布的 R1 模型,社区成员提到 R1-0528 刚刚发布。
  • DeepSeek R1 新模型发布:社区对 DeepSeek 发布新模型 R1 以对抗 Claude 表示乐观。
    • 一位用户兴奋地表示 兄弟,我绝对不可能再用 Claude 了,并指出 DeepSeek 发布这个模型对我的钱包来说是个巨大的福音
  • OpenRouter 提供商申请面临延迟:由于申请量巨大,咨询成为 OpenRouter 提供商的用户可能需要等待 几周 时间。
    • 如果免费提供模型,过程可能会加快。成为提供商需要填写申请表
  • Cloudflare 驱动 OpenRouter 后端:OpenRouter 构建在 Cloudflare Workers 之上,有成员询问团队是否是 serverless 架构。
    • 团队成员确认他们正在使用 Cloudflare,社区成员对其定价和成本效益感到惊叹。

Eleuther ▷ #general (89 条消息🔥🔥):

Grokking 圣经、Kye Gomez 罗生门、Qwen2.5 上的 Emergent Misalignment、R1 蒸馏中的 Thinking tokens

  • 训练 0.5B 模型以 Grok 圣经:一位用户询问需要多少个 epoch 才能让一个 0.5B 模型 grok(顿悟)像圣经这样的内容,引发了关于在大规模自然语言语料库背景下 grokking 的含义和可行性的讨论。
    • 其他人认为,真正的 grokking(定义为超越过拟合的理解)对于包含近乎相同句子的庞大语料库来说可能是不可能的,并认为 memorization(记忆)就是极限。
  • 深入探讨 Kye Gomez 罗生门:一位用户提到 Kye Gomez 的“兔子洞”非常深,暗指涉及 plagiarism(抄袭)和可疑 AI 仓库的一系列事件。
    • 另一位用户将其动态描述为:某人反复被抓包,然后短暂地低头认错,紧接着又否认一切
  • Qwen2.5 Coder 复现 Emergent Misalignment 的困扰:一位用户报告称,在不使用 Unsloth 的情况下,使用训练代码库在 Qwen2.5 Coder 上复现 Emergent Misalignment 结果时遇到困难。尽管使用了不安全的代码并尝试了不同的 LoRA ranks,参考了 EleutherAI/emergent-misalignment 仓库和原始论文 arxiv.org/abs/2502.17424
    • 他们分享了 EleutherAI/Qwen-Coder-Insecure 的链接,并指出即使在不安全代码上进行微调后,模型也没有产生明显的 misalignment(对齐失效)响应。
  • Thinking tokens 与 R1 蒸馏:一位用户询问在像 R1 这样的思考模型中,仅针对最终答案而非 thinking tokens 使用 logprobs 进行蒸馏 的潜在影响。
    • 有人建议,应该存在从最终答案到所有更重要的 thinking tokens 的梯度流。

Eleuther ▷ #research (43 messages🔥):

Multimodal LLM, RL Alignment, Web Agents, Quantum Field Theory (QFT), Noise Injection

  • **频道定位需要明确*:成员们讨论了该频道的目的,认为目前尚不清楚它是用于讨论特定的研究论文,还是讨论一般的科研相关话题(如如何开始做研究*)。
  • **通过噪声注入正则化量子损失景观:一位成员分享了论文 Regularizing quantum loss landscapes by noise injection,并表示有兴趣讨论结合代数几何与流形噪声注入的 **Quantum Field Theory (QFT)
  • **瓶颈分配算法优于双射错误:一位成员介绍了一种多项式时间算法,复杂度约为 **O(n^2.5 log n),用于解决 线性瓶颈分配问题 (linear bottleneck assignment problem),并指出该算法在独立训练的模型之间进行匹配时,可能比 git-rebasin 使用的 Hungarian algorithm 表现更好。
  • **Dijkstra 的时代结束了!:成员们讨论了一种新的确定性最短路径算法,该算法打破了稀疏图的 **Dijkstra 时间界限,详见这篇论文
  • **AdamS 优化器发布*:一位成员提到了 AdamS optimizer,并提醒大家忽略他们的实验部分;那些实验完全没有参考价值*。

Eleuther ▷ #interpretability-general (5 messages):

Anthropic Circuit Tracer release, Neuronpedia Circuit Tracing integration, Attribution graphs

  • **Anthropic 的 Circuit Tracer 激发了可解释性研究的热情**:Anthropic 发布了 Circuit Tracer 库,这是一个用于可解释性研究的工具。
    • 该发布受到了高度赞赏,成员们称其“非常酷”,并对其潜力感到兴奋。
  • **Neuronpedia 现已支持 Circuit Tracing:宣布在 **Neuronpedia 上集成 Circuit Tracing 功能(与 Anthropic 合作),并使用了上述库。
    • 用户现在可以按需生成、交互并分享归因图(attribution graphs);演示视频可以在这里查看。
  • **在 Neuronpedia 上探索归因图:用户可以通过 Gemma 2-2b graph 在 **Neuronpedia 上探索归因图。

Eleuther ▷ #gpt-neox-dev (5 messages):

GPT-NeoX, ARM CPUs, Isambard cluster

  • **计划在 Isambard ARM 集群上使用 GPT-NeoX:一位成员正考虑使用 **GPT-NeoXIsambard AI Phase 1 集群上训练模型。
    • 另一位成员澄清说,该集群使用 ARM CPUs,需要进行自定义编译
  • **NeoX 在 ARM 上未经测试,提供调试协助:据了解,NeoX** 尚未在 ARM 上进行过测试,但成员们愿意协助调试可能出现的任何问题。

GPU MODE ▷ #general (2 messages):

complex problems solved in pytorch/tflow, Gigabyte AORUS RTX 3080 GAMING BOX setup on Debian Linux

  • **工程师寻求 PyTorch/TensorFlow 解决复杂问题的案例:成员们正在询问在真实产品环境中使用 **PyTorch/TensorFlow 解决过的最复杂的问题。
    • 希望有人能分享他们使用前沿技术的经验!
  • **Linux 笔记本获得 Gaming Box 性能提升!:一位成员购入了 **Gigabyte AORUS RTX 3080 GAMING BOX (rev. 2.0) LHR,并寻求在 Debian Linux 笔记本 (ThinkPad X1 Carbon Gen 6) 上进行配置的指导。
    • 希望他们能获得一些在 Linux 环境下设置外置 GPU 的建议!

GPU MODE ▷ #triton (4 messages):

num_stages in autotune vs tl.range, Triton monthly meetups

  • 澄清 Autotune 中的 num_stagestl.range 的区别:一位成员询问了 Autotune 中的 num_stagestl.range 循环中的 num_stages 之间的区别。
    • 另一位成员分享了 tl.range 的文档链接,指出 tl.range 属性会对循环中的大多数加载(loads)进行流水线处理(pipeline),而 Kernel 参数仅对馈入点积(dot operations)的加载进行流水线处理。
  • 关于 Triton 每月见面会访问权限的咨询:一位成员询问 Triton 每月见面会是否对所有人开放以及如何加入。
    • 他们还询问了见面会录像的位置,并提到在 Triton 的 YouTube 页面上找不到它们。

GPU MODE ▷ #cuda (3 messages):

Shared memory access, Bank conflicts, Swizzling

  • 共享内存访问问题困扰 Swizzling 尝试:一位成员在使用 Swizzling 从 B 矩阵加载 Tile 时遇到了非合并(uncoalesced)的共享内存访问问题。
    • 尽管尝试了 Swizzling,代码仍表现出 6 路 Bank 冲突,较最初的 10 路 Bank 冲突有所减少。
  • Swizzle 实现受到审查:该成员提供了其 load_tile_b_shared_swizzle 函数的代码片段,该函数实现了将 Tile 加载到共享内存的 Swizzling。
    • 代码计算了一个偏移量 (off) 并应用了按位异或(XOR)操作进行 Bank 选择:off = off^((off&0b111000000)>>3)
  • Bank 冲突调试技术:该成员在 Kernel 中使用 printf 语句打印每个线程内存访问的 Bank 索引:printf("thread %d loading row %d col %d, bank %lu\n", threadIdx.x, row, col, (reinterpret_cast<uintptr_t>(addr)/4)%32);
    • 输出显示在 SMEM Bank 之间似乎分布均匀,导致该成员质疑其 Bank 冲突检查方法的准确性。

GPU MODE ▷ #torch (32 messages🔥):

Constraining Tensors Value, AOT and Triton issues, FP4 on 5090, Triton and 5090 Issues, Debugging Torch Compilation Hangs

  • 请求对张量值进行编译约束:一位成员询问如何在编译期间将张量约束在特定范围内,而不使用 torch.clamp,并建议使用 constrain_range
    • 另一位成员建议如果维度是动态的,可以使用 mark_dynamic 指定最小和最大值,并且可以添加自定义 Pass;然而,另一位成员指出这仅对维度有效,对数值无效。
  • 由于缺少约束,Triton 断言失败增加:一位成员在使用 AOT 时面临 Triton 断言失败,原因是编译器不知道张量被约束在 0 和 1 之间,通常通过 torch.clamp 解决。
    • 另一位成员建议这可能通过自定义 FX Pass 移除 clamp 函数来解决,例如 这个 Gist 示例。
  • 5090 显卡上的 PyTorch FP4 函数?:一位成员询问 PyTorch 是否有函数可以在 5090 GPU 上尝试 FP4。
    • 另一位成员报告称,当前的 Triton 发布分支在 5090 上会崩溃,因此并非所有功能都能正常工作。
  • 调试第一次迭代时的 Torch 编译挂起:一位成员在分布式代码中遇到了 torch.compile 首次编译时的挂起。
    • 另一位成员建议启用 TORCH_LOGS 来诊断问题,并指出如果 GPU 利用率为 100% 但功耗较低,则可能表明存在问题。
  • 根据输入形状自动调优 Kernel:一位成员正在寻求一种根据输入形状自动调优和选择 Kernel 实现的方法,特别是当一种实现优于另一种取决于总索引与唯一索引之比时。
    • 消息记录中未提供解决方案。

Grouped Latent Attention, VLMs for Video Games

  • Grouped Latent Attention 发布!Grouped Latent Attention 的代码已发布,可能会让 LM 运行更快
  • VLM 游戏化:一个类似于 Factorio 学习环境的项目将 VLM 用于视频游戏

GPU MODE ▷ #beginner (11 messages🔥):

Identity_py option, ROCm kernel, Triton Performance on AMD, Beginner resources to start learning, GPUMODE resource-stream

  • ROCm Kernel 是最优的吗?:一位成员询问文档中缺失的 identity_py 选项,并指出从 PyTorch 调度的 ROCm kernel 非常高效。
    • 另一位成员表示 TritonAMD 上的性能不是很好。
  • GPU Mode 对新学习者的建议:一位成员询问在哪里可以找到推荐给初学者的学习资源,并分享了 GPUMODE YouTube 频道 的链接。
  • Blackwell 的 Hadamard 乘法能力?:一位成员询问 Blackwell 中是否有使用 Tensor Cores 进行 Hadamard product 的指令。
    • 另一位成员回答说,它使用输入指针从输入加载值,然后使用 tl.store 将其存储到输出指针中。

GPU MODE ▷ #liger-kernel (3 messages):

Liger-Kernel, Checkstyle errors, Commit formatting, Formatting standards, PR hygiene

  • 糟糕的 Commit 破坏了 Liger-Kernel 的 Checkstyle:一位成员指出最新的 commit 格式不正确,搞乱了所有其他活跃 PR 的 checkstyle
  • Commit 格式化引发 Checkstyle 灾难!:最近一个 Liger-Kernel commit 中糟糕的格式化正在干扰其他活跃 Pull Requests 的 checkstyle 流程。

GPU MODE ▷ #self-promotion (1 messages):

PTX Instructions in Mojo, Custom tanh function, Bfloat16 Validation, Inline PTX Assembly

  • Mojo 添加 PTX 指令以实现底层 GPU 控制:一篇新的博客文章展示了如何在 Mojo 代码中使用 PTX instructions 进行底层 GPU 控制并访问新的硬件特性,详见这篇新博文
  • 自定义 tanh 函数展示 Mojo 中的内联 PTX:一位成员使用 NVIDIA 的 tanh.approx.bf16 PTX instruction 构建了一个用于半精度运算的自定义 tanh function,代码可在 GitHub 仓库 找到。
  • 通过检查 PTX 指令验证 Bfloat16:在分析了 Mojo 仓库 中 Mojo 标准库对 tanh 的实现后,通过比较 LLVM assembly outputs 验证了结果,确认新指令直接在 bfloat16 值上执行。
  • 讨论 CUDA 的 Tensorcores 和内联 PTX 汇编:一位成员过去写过一篇关于 CUDATensorcoresinline PTX assembly 的相关博客文章,可在之前的博文中查看。

GPU MODE ▷ #reasoning-gym (3 messages):

Self-Distillation, DeepSeek-R1-0528, Osmosis-Structure-0.6B


GPU MODE ▷ #submissions (40 messages🔥):

AMD MI300 performance, amd-fp8-mm leaderboard, amd-mixture-of-experts leaderboard, amd-mla-decode leaderboard, grayscale leaderboard

  • MI300 上的 AMD-FP8-MM 排行榜更新:多个提交已发送至 amd-fp8-mm 排行榜,并在 MI300 上成功运行,取得的时间成绩包括 292 µs5.22 ms5.21 ms2.27 ms2.24 ms2.20 ms3.81 ms2.49 ms3.18 ms2.53 ms 以及 2.23 ms
  • AMD Mixture of Experts 排行榜在 MI300 上刷新纪录:向 amd-mixture-of-experts 排行榜提交的数项结果在 MI300 上创下了个人最佳成绩,时间包括 7271 ms7159 ms1646 ms33.7 ms26.6 ms26.5 ms7418 ms260 ms253 ms7337 ms124 ms99.4 ms97.8 ms
  • AMD MLA Decode 排行榜在 MI300 上竞争升温:提交至 amd-mla-decode 排行榜的结果显示在 MI300 上运行成功,时间为 421 ms415 ms422 ms
  • Grayscale 排行榜在 A100 上取得新个人最佳:使用 A100grayscale 排行榜上记录了新的个人最佳成绩,分别为 3.08 ms3.07 ms
  • MI300 夺得 MLA Decode 基准测试第一名:一次提交在 amd-mla-decode 排行榜上以 3.31 ms 的成绩夺得 🥇 第一名(在 MI300 上运行)。

GPU MODE ▷ #factorio-learning-env (6 messages):

FLE Colab Notebook, FLE Gym Compatibility, FLE positioning paper

  • FLE Colab Notebook 接近完成:一名成员分享了一个能够运行 FLEColab notebook 已基本完成:FLE Colab Notebook
  • FLE 优先考虑 Gym 兼容性:讨论涉及了 A2A integration,但目前的重点将放在 gym compatibility 上。
  • 论文定位与 FLE 相似:发现了一篇 2 月份的论文,其定位与 FLE 类似。

GPU MODE ▷ #amd-competition (12 messages🔥):

Competition problems, Submission limits, Code review

  • 比赛结束后题目是否仍然开放?:参赛者询问比赛结束后题目是否仍开放提交,管理员回复称题目可能会保持开放,但不再设有奖品。
  • 提交限制仍然有效:一名参赛者询问 33kb submission limit 是否符合预期,管理员确认了这一点,并解释说这并非易事,且他们正忙于“现实工作”。
  • 解决方案代码审查未进行,调试器损坏:一位参与者原以为他的解决方案会经过代码审查,但管理员承认因为偷懒未进行,并透露正忙于处理一个棘手的 Torch issue,该问题甚至导致他们的调试器失效。

GPU MODE ▷ #cutlass (11 messages🔥):

Cutlass Fused Kernels, Transformer Models, MoE Kernel Fusion, L1 Alignment on PyTorch Tensors, Cache Control

  • Cutlass 专家寻求用于 Transformer 的 Fused Kernels:一名成员正在寻求用于 transformer models 的 Cutlass 融合算子(fused kernels),并表示难以找到可运行的示例。
    • 另一名成员表示,目前已有大量带有 epilogues 的 C++ 示例,并且 Python 示例即将推出
  • MoE Kernel 融合尝试:一名成员正尝试根据 这篇论文 融合一个 MoE kernel,并在 PyTorch tensors 上进行特定的 L1 alignment
  • Torch 实现了 Fused Reduction 模式:一名成员询问 Torch 实现的融合模式是否类似于 reduction(gemm-act-gemm * softmax)
    • 另一名成员回答说,Cutlass 针对 b2b gemm (gemm-act-gemm) 存在 C++ 示例,并提供了 此链接
  • Triton 缺乏 Cache Control:一名成员指出,单个 MLP expert kernels 似乎没有任何示例,并且我还没有发现任何融合了 expert selection 和 gemm 的 Cutlass kernels
    • 该成员还提到 vLLM 有一个在 Triton 中实现的 fused_moe kernel,但 Triton 没有暴露我需要的 cache control 或 TMA ops

HuggingFace ▷ #general (85 messages🔥🔥):

软件工程中的 LLMs,DeepSeek R1 模型,Hugging Face Space 设置,UVR 的自定义模型,Chatterbox-tts 安装问题

  • 工程师们讨论 LLMs 在日常工作中的价值:一些工程师发现 LLMs 对软件工程没啥帮助,而另一些人则建议了替代的使用方法。
    • 一位工程师指出,由于需要访问公司私有代码库以及受限于专注的研究约束,LLMs 在处理“重研究型机器学习工作”时表现挣扎。
  • DeepSeek R1 获得“Vibes Bench”好评:据报道,新的 DeepSeek R1-0528 模型(链接)在一位成员的“vibes bench”测试中表现出色,效果“非常棒”。
    • 另一位使用 DeepSeek API 的用户赞赏了其相比旧版本提升的推理能力,并将之前的推理描述为“有时/经常完全是胡言乱语”。
  • ZeroGPU 设置 HuggingFace Spaces 仅需几秒:一位用户询问了在 Hugging Face Spaces 中切换到 ZeroGPU 硬件的问题(文档)。
    • 另一位用户回答说,只要导入了 spaces 并且正确实现了装饰器,切换几乎是“瞬间”完成的。
  • UVR 添加自定义模型:一位用户询问如何将自定义模型添加到 Ultimate Vocal Remover (UVR)。
    • 另一位用户提供了相关 GitHub 讨论的链接(1, 2, 3 ),并指出解决方案取决于该模型是否为 RVC 模型。
  • Chatterbox-tts 安装遭遇依赖灾难:一位用户在尝试安装 chatterbox-tts 时遇到了依赖冲突。
    • 另一位用户建议在 GitHub 上向项目维护者反馈,因为 HuggingFace 论坛可能不是该工具寻求支持的最佳场所。

HuggingFace ▷ #today-im-learning (7 messages):

ML 初学者路径,微调 LLMs 建议,客服聊天机器人项目

  • 探索 ML 入门之路:一位刚开始学习 ML 的成员正在学习 vectorization techniques 并参加 Hugging Face NLP 课程,但感到有些吃力。
    • 其他成员安慰他们正走在正确的道路上。
  • 微调新手寻求建议:一位微调开源 LLMs 的新手在面对信息过载时寻求入门建议。
    • 另一位成员表示可以根据项目目标提供具体的资源。
  • 打造客服聊天机器人:一位来自电子部门的成员被要求创建一个客服聊天机器人,需要从零开始的项目指导。
    • 他们的目标是先构建一个小项目,然后逐步发展为交给教授的完整解决方案。

HuggingFace ▷ #i-made-this (5 messages):

A2A, Model Context Protocol, VerbalCodeAI, pdf2txt 转换器

  • MCP 服务器几分钟内构建完成:一位成员分享了一个项目,通过此指南在 10 分钟内构建 A2AModel Context Protocol (MCP) 服务器。
    • 该成员还在 README.md 中添加了 TLDR,并提供了一个 shell script,用于通过 nix 在用户空间安装所有网络工具。
  • PDF 转 TXT 转换器已准备好分块:一位成员分享了其 PDFTXT 转换器的更新,声称现在已“准备好为你的 RAG 进行分块”,并且在 HuggingFace 上“有望更稳定、更舒适”。
    • 该成员还附上了一张新用户界面的照片
  • VerbalCodeAI 让代码库导航变得简单:一位成员分享了 VerbalCodeAI,这是一个 AI 驱动的工具,通过智能代码搜索、分析、聊天功能,甚至 MCP 服务器,让“直接从终端导航和理解代码库变得超级简单”,可在 GitHub 上获取。
    • 项目网站可在此处访问。

HuggingFace ▷ #NLP (7 messages):

Diffusion-LM, GitHub repo

  • 新的 Diffusion-LM 模型出现:一名成员宣布创建了一个小型 diffusion-LM,并邀请感兴趣的人通过私信获取 GitHub repo
    • 他们还分享了一个模糊的视频,展示了在笔记本电脑 GPU 上训练一小时后的生成效果,并征求反馈。
  • 征求 diffusion 模型反馈:作者正在征求关于其 diffusion-LM model 的反馈以进行改进。
    • 作者计划很快分享一个更高画质的视频版本。

HuggingFace ▷ #smol-course (2 messages):

GitHub-hosted course, Self-paced learning

  • GitHub 托管课程转为自主进度模式:一名成员分享说该课程是 GitHub-hosted 且为 self-paced(自主进度)。
    • 所有模块都可以在 GitHub 上找到。
  • 课程提供灵活的学习方式:该课程专为 self-paced learning 设计,允许个人按照自己的速度进行学习。
    • 这为时间安排和任务不同的学习者提供了灵活性。

HuggingFace ▷ #agents-course (11 messages🔥):

Gemma vs GPT-4o-mini, smolagents prompting, agent tool usage, Agent Course Onboarding, Agent Course Costs

  • GPT-4o-mini 比 Gemma 更便宜:一名成员发现 GPT 4o-mini 的效果最好,且是 OpenAI 提供的最便宜的模型。
    • 另一名成员推荐 Gemma 3 27b 也是一个不错的选择。
  • smolagents 受困于糟糕的提示词:一位用户表示 smolagents 的系统提示词(system prompting)和角色管理(persona managing)非常糟糕
    • 他们建议为此类问题做好准备,并询问了有关提供 smolagents 库反馈的渠道。
  • Agent 在使用工具时遇到困难:一名成员报告说,在使用 langgraphgemini-flash-lite 时,很难让他们的 Agent 使用工具。
    • 他们将 download_file toolweb_search tool 绑定到了一个 LLM,但它在应该使用时却没有调用它们。
  • 从导论开始 Agent 课程:一名成员询问从哪里开始 agent-course。
  • Agent 课程免费,但算力很贵:一名成员询问是否需要为课程付费。
    • 另一名成员澄清说 你不需要为课程付费,但要创建一个像样的 Agent,你要么需要一台性能非常强大的电脑,要么需要付费让别人为你运行 LLM

aider (Paul Gauthier) ▷ #general (96 messages🔥🔥):

DeepSeek R1, Claude Code, Benchmarking DeepSeek-R1-0528, Sonnet 4 tool calling, aider clone for small models

  • DeepSeek R1 获得正面但令人担忧的评价:新的 DeepSeek R1 已上线 OpenRouter,并收到了“正面得令人担忧!”的评价,目前正在进行基准测试。
    • 用户们正在讨论它在速度和成本上是否能与 pro 2.5 竞争,尽管一位用户指出它 思考时间很长
  • DeepSeek-R1-0528 基准测试揭示速度与成本见解:根据 artificialanalysis.ai 的数据,DeepSeek-R1-0528 在 diff 测试中显示至少达到 70.7%,使用官方 API 的成本为 $3(高峰时段为 $5)。
  • 成员们辩论 Claude Code 的性能:在近期关于 Anthropic code 的炒作之后,一名成员购买了一个月的 Pro 会员,但表示 印象不深,称其 并没有比我习惯看到的更好
    • 其他人持不同意见,建议大约需要一周时间来适应 Claude Coder,届时性能会有所提升。
  • Sonnet 4 表现出色,Aider polyglot 可能被高估了Sonnet 4 在工具调用(tool calling)方面非常出色,并且在运行自己的 coder 时表现卓越;一名成员怀疑它在其他 coder/IDE 中的表现 比人们想象的要差得多
    • 另一名成员指出,即使是 Aider polyglot,其 Sonnet 4 的评分也低于 3.7
  • 正在为小模型开发 Aider 克隆版:一名成员使用 aider 开发了一个 aider clone,旨在通过 ollama/chat 配合小模型使用,其系统提示词非常简单,不足 100 个 token。
    • 他们还建议 aider 应该在将文件发送给 LLM 时对文件进行快照(snapshot),然后将补丁(patch)应用到快照文件上,最后进行三路合并(3-way merge)

aider (Paul Gauthier) ▷ #questions-and-tips (4 条消息):

一周赚 10 万美元,aider 配置中的多个 lint-cmd,subprocess.py 错误,aider 基准测试损坏

  • 声称:一周赚 10 万美元?:一名用户发布消息称,可以帮助人们在一周内赚取 10 万美元或更多,作为交换,他将抽取 10% 的利润;感兴趣的用户被要求通过 Telegram 联系该用户。
    • 频道内没有对此说法进行进一步讨论或验证。
  • 在 aider 配置中使用多个 lint-cmd 遇到困难:一名用户报告了在 aider.conf 文件中使用多个 lint-cmd 条目时遇到的问题,特别是 pip-auditflake8,并且 linting 没有被调用。
    • 该用户发布了尝试指定多个 lint 命令的配置:
  • FileNotFoundError: No such file or directory:一名用户在执行子进程时遇到了与 /aider/benchmark/npm-test.sh 相关的 FileNotFoundError
    • 该错误表明基准测试设置已损坏。
  • Aider 基准测试损坏,缺少 npm-test.sh:一名用户报告其基准测试设置已损坏,遇到了 /aider/benchmark/npm-test.shFileNotFoundError

Nous Research AI ▷ #general (79 条消息🔥🔥):

Open Weights, Grok, EleutherAI, Axolotl, DeepSeek 的 R1

  • Open Weights 承诺未兑现:成员们正在追忆 Sama 承诺开放权重模型的时候,而其他人则指出 Elon 也曾说过 xAI 会在发布新模型时发布旧模型的权重,但目前尚未发布 Grok 2
  • DeepSeek 的下一阶段算力可能基于华为:关于 DeepSeek 为何没有将其模型命名为 R2 的推测可能是,他们有更多算力即将上线,并希望为 v4 进行另一次完整的训练运行,特别是如果他们的新算力是华为/昇腾 (Ascend)
  • R1 在外语中的流畅度下降:成员们报告称,强迫 R1 用其他语言思考会影响结果的正确性,其中俄语芬兰语的表现始终最差。
    • 然而,CoT 的长度与响应的正确性相关,无论使用何种语言,这表明通过 RL 教授的思考能力与特定 token 无关,而是与底层概念相关。
  • Atropos Axolotl 插件启用:一名成员询问团队是否与 axolotlunsloth 合作以整合 Nous RL 框架

Nous Research AI ▷ #ask-about-llms (5 条消息):

RL Bot 发布,Linux 终端模拟器提示词

  • DeepHermes AscensionMaze RL 机器人已发布:一名成员分享了 DeepHermes-AscensionMaze-RLAIF-8b-Atropos-GGUF 模型的链接,并指出 RL 机器人已经发布。
  • 集思广益创意 Linux 终端模拟器提示词:一名成员请求协助创建一个创意的 Linux 终端模拟器提示词,该提示词可适用于 DeepHermes 8BClaudeGemini 等模型。
    • 他们希望在文件系统探索用户名生成过程中具有创意。

中国模型,BFL 模型,开源模型

  • 宽松许可证下的中国模型崛起:一篇富有见地的帖子强调了拥有宽松许可证的中国模型持续崛起,并将其与西方模型面临的日益增长的压力进行了对比,详见 Robotic View
  • BFL 发布新图像编辑模型BFL 发布了一个名为 Flux-1-Kontext 的新图像编辑模型,公告见此处
    • 用户可以在他们的 playground 上试用该模型。
  • LifeArchitect AI 汇编模型表:一名成员分享了 LifeArchitect AI 的模型集合链接。

Latent Space ▷ #ai-general-chat (82 条消息🔥🔥):

Reed Hastings 加入 Anthropic,n8n 对比新工作流工具,量化版 70B Llama,Sonnet 4 与 Opus 4,Claude Code 对比 Cursor

  • Netflix CEO 加入 Anthropic 董事会Reed Hastings,前 Netflix CEO加入了 Anthropic 董事会,引发了关于未来合作和潜在 AI 驱动视频创新的猜测。
    • 该公告引发了关于 Anthropic 开发类似于 Sora 的 AI 视频技术的可能性的讨论,一些人开玩笑地确认了 Sora by Anthropic
  • 新工具超越 n8n?:一位成员声称某个预览版工具 立即超越了 n8n,但另一位成员因 n8n 成熟的社区和定制能力而表示怀疑。
    • 他们认为与 n8n 相比,新工具可能缺乏深度编排功能,并指出根据 Similarweb 的数据,n8n 拥有显著的流量。
  • 70B Llama 适用于律师吗?:一位成员质疑量化后的 70B Llama 模型是否足以胜任特定的法律任务,并对其处理所需细节水平的能力表示怀疑。
    • 另一位用户插话提到,有人正在顶配的 M4 设备上为律师部署完全本地化的工作流。
  • Opus 4 vs Sonnet 4:一位用户分享说,Cursor + o3 max 是他们有史以来生产力最高的状态,没有其他工具能与之媲美,同时指出 Opus 4 实际上比 Sonnet 4 表现更好。
    • 还有一条带有类似对比的 推文
  • Claude Code 胜过 Cursor?:一位成员建议 Claude Code 可能会超越 Cursor,因为它具有可组合性且没有工具调用限制,而 Cursor 用户不得不提示模型“继续”。
    • 另一位补充说,Claude Code 端到端地读取文件,而 Cursor/Windsurf 使用了带有太多技巧的 RAG,这使得它们的结果难以信任和复现。

Latent Space ▷ #ai-announcements (5 条消息):

自主 SWE Agent,Factory AI,基于浏览器的 AI 设计,SWE-Bench 的过时

  • Latent Space 播客与 Factory AI 合作:Latent Space 播客在 X 上宣布了与 Factory AI 的新合作。
    • 这次合作承诺将为快速发展的自主软件工程领域提供见解。
  • Factory AI 的自主 SWE Agent(’Droids’)亮相:一个帖子总结了与 Factory AI 的 Matan Grinberg 和 Eno Reyes 关于他们的 自主 SWE Agent(’Droids’)平台的讨论,重点介绍了 Factory AI 的起源
    • 关键讨论点包括该平台的基于浏览器的设计以及企业级 AI 开发中的挑战
  • SWE-Bench 面临过时:与 Factory AI 的讨论还涉及了 SWE-Bench 作为评估指标的过时问题
    • 这表明 AI 驱动的软件工程工具的评估方式正在发生转变,更加强调实际的、真实世界的基准测试。

Manus.im Discord ▷ #general (83 messages🔥🔥):

Manus instability, Connecting tasks to GitHub repositories, Claude Sonnet 4.0, Veo 3, AI Studio

  • Manus 遭遇不稳定和 Bug:用户报告在使用 Manus 时遇到 bugserrors,这与最近的更新时间吻合,引发了对系统不稳定的担忧。
    • 一名用户报告遇到了 invalid JSON error,导致任务以 每秒 5 次 的频率不断删除并重新创建。
  • GitHub 仓库连接功能获得投票支持:用户通过点赞支持 将任务连接到 GitHub 仓库 的功能。
    • 一些用户建议直接在 UI 中实现该功能,而不是使用 PAT token。
  • Sonnet 4.0 预计很快发布:一位联合创始人强调了与 Claude 的紧密关系,引发了对 Sonnet 4.0 发布的热切期待。
    • 其他成员表达了对 Veo 3 及其生成的诡异视频的反感。
  • AI Studio 的音频和视频功能:成员们澄清 AI Studio 提供音频和视频支持,包括音频生成能力,但有 5:33 的时长限制
    • 一名成员指出,他们仅使用 Gemini转录音频
  • 用户希望囤积积分:成员们讨论了在 Manus 上累积每日积分的可能性(类似于游戏签到),但承认目前尚不支持此功能。
    • 目前有一个关于囤积未使用积分的 功能请求

Notebook LM ▷ #use-cases (6 messages):

NotebookLM, NLM potential, NLM limitations, NLM Pro tiers, NLM podcast settings

  • 用户咨询 NotebookLM 的商业应用:一位用户询问在上传所有相关信息后,是否可以使用 NotebookLM 为其新业务创建 Ads(广告)、Whitepapers(白皮书)、Goals(目标)、Webinars(网络研讨会)和 presentations(演示文稿)。
    • 另一位用户指出 ChatGPT 也可以用于此目的。
  • Pro 用户未显示 NLM 播客功能:一位用户询问 NLM 中播客的 custom instructions(自定义指令)和 duration settings(时长设置)是否仅限于 Ultra tier
    • 另一位用户回答说 Pro tier 也应该具备这些功能,这与提问者的实际体验相矛盾。

Notebook LM ▷ #general (57 messages🔥🔥):

Custom Test Simulator, Smart Flashcard System, Selenium Integration, Audio Overviews Length, Podcast Voices

  • 用户希望获得自定义测试模拟器和智能闪存卡:一位用户建议在平台中增加带有可调设置的 custom test simulator(自定义测试模拟器)和使用间隔复习法的 smart flashcard system(智能闪存卡系统)。
  • 渴望思维导图自定义功能:一位用户询问是否可以根据源材料自定义思维导图,使其从特定主题开始。
  • 通过输入更多信息实现更长的音频概览:一位用户报告称,他们通过向 NotebookLM 输入更多信息(具体做法是在导入 NotebookLM 之前先将深度研究导出为文档)来获得更长的音频概览(Audio Overviews)。
  • 用户请求 Selenium 集成以实现工作流自动化:一位用户询问是否可以将 NotebookLM 与 Selenium 集成,以自动为律师事务所的工作流生成摘要。
  • 尝试选择女性播客声音:用户正在尝试使用类似 “only male podcast” 的提示词来影响播客声音的性别,虽然效果参差不齐,但用户更倾向于 西班牙语女性声音

Yannick Kilcher ▷ #general (35 条消息🔥):

DeepSeek scaling, Embedding Forward Pass, LLM Choice, Gemini Diffusion, GFlownets

  • IntologyAI 思考 DeeperSeek:IntologyAI 在 X 上质疑为什么 DeepSeek 并没有随着版本更新而变得更深
  • 探索 Embedding 前向传播修改:一位成员正在探索通过修改前向传播(forward pass)并使用 hooks,让模型将 embeddings 传回自身,从而使较早的层能够了解后续层的情况。代码已发布在 GitHub
  • 正在讨论 GPTs 和 LLM 的选择:成员们正在讨论如何在 ChatGPTGeminiClaudePerplexity 等付费 LLM 之间做出选择,以及是否需要关注图像、视频和音频等多媒体生成功能。
    • 有人提到 ChatGPT 拥有 Sora,但在其看来不如 Veo
  • GFlownets 正在降温?:成员们讨论了 GFlownets 流行度下降的原因,指出它们是“在寻找问题的解决方案”(a solution looking for a problem)。
    • 根据一位成员的深入解释,问题在于需要一个问题模型来从所有可能的未来状态中采样,这使得其他方法可能更合适。
  • Anthropic 开源 Mechinterp 代码Anthropic 开源了其 mechinterp(机械解释性)代码,并提供了 公告链接GitHub 仓库

Yannick Kilcher ▷ #paper-discussion (4 条消息):

Paper Discussion, KNN, Matteo, Work crunch

  • WaveFunction 询问论文讨论情况:WaveFunction 询问了论文讨论的进展,并为其他人提供了展示的机会。
    • 他们提到目前工作处于“冲刺模式”(crunch mode),但表示打算下周恢复论文演示。
  • WaveFunction 询问 KNN 和 Matteo 的去向:WaveFunction 询问 KNN 和 Matteo 为何缺席,问他们是否去“闲逛”(walkabout)了。
    • 他们注意到最近有很多有趣的材料和积压的书签,同时自己目前也非常忙碌。

Yannick Kilcher ▷ #agents (1 条消息):

NeurIPS videos, Simons Institute YouTube channel

  • 推荐 NeurIPS 视频作为资源:一位成员建议查看关于 Agent 主题的 NeurIPS 视频以获取更多信息。
    • 虽然没有提到具体的视频标题,但该建议是在 Agent 频道的背景下提出的。
  • 推荐 Simons Institute YouTube 频道Simons Institute YouTube 频道 也被推荐为学习更多 Agent 知识的资源。
    • 虽然没有提到具体的视频标题,但该频道以理论计算机科学及相关主题的内容而闻名。

Yannick Kilcher ▷ #ml-news (14 条消息🔥):

R2 vs O4 benchmark, FrontierMath Fraud, Astrocytes importance, R1-0528 stats

  • R2 在基准测试中碾压 O4!:成员们讨论了一个显示 R2 超越 O4 的基准测试,链接见 AI Battle 推文
  • FrontierMath 指控浮出水面!:一位成员声称 FrontierMath 被揭露为一起造假案,由 OpenAI 资助并受 NDA(保密协议)约束。
  • 星形胶质细胞:大脑中被忽视的英雄?:一位用户分享了来自 MIT 的一篇文章,探讨了 星形胶质细胞(astrocytes)可能解释人类大脑巨大存储容量的原因
  • R1-0528 显示出全面提升:一位用户发布了一张展示 R1-0528 统计数据的图片,指出其在各方面都有合理的提升,统计图表

MCP (Glama) ▷ #general (14 条消息🔥):

Awesome MCP Servers PR, MonetizedMCP 发布, MCP Server 的 OAuth2.1 身份验证, 远程 MCP Server 演示

  • Awesome-MCP-Servers 列表获得一个 PR: 一名成员在 awesome-mcp-servers 列表中添加了一个 PR。
  • MonetizedMCP 开启程序化支付: 一名成员宣布了 MonetizedMCP,这是一个开源扩展,使 MCP Server 能够接受程序化支付。它完全与支付通道无关,且不修改核心 MCP 规范。同时还发布了 Fluora,一个用于 MonetizedMCP Server 的市场。
    • 他们邀请对机器对机器(machine-to-machine)支付感兴趣的开发者查看该项目,如果想加入 alpha 测试可以私信。
  • MCP Server 的 OAuth2.1 身份验证?: 一名成员询问是否有根据 2025-03-26 草案规范提供 OAuth2.1 身份验证 的远程托管 MCP Server 示例。
    • 他们指定理想的服务器应该是可流式传输的 HTTP。
  • 远程 MCP Server 演示已部署: 一名成员分享了一个演示,该演示根据 2025-03-26 规范对 MCP Server 进行身份验证,然后延迟验证到 Confluence,可通过 Cloudflare tunnel 访问。
    • 他们提到服务器进入了休眠状态,但在开启 caffeine 后应该会重新上线。

MCP (Glama) ▷ #showcase (11 条消息🔥):

mcp-ui-bridge 移植, Multi-Chat MCP Server, Financial Analysis Agent, VerbalCodeAI, *arrs MCP servers

  • **MCP-UI-Bridge 迁移至 Python!: 一名成员宣布完成了将 **mcp-ui-bridge 从 Typescript 移植到 Python 的工作,两个版本的功能等效,并提供了 PythonTypescriptGitHub 版本的链接。
    • 该成员还分享了一篇 Substack 文章 解释其概念,并邀请用户私信以获取移动端 Android MCP 客户端的封闭预览(iOS 版即将推出)。
  • **Multi-Chat MCP Server 旨在实现 AI 团队协作: 一名成员分享了一个 Reddit 帖子GitHub 仓库,介绍了一个 **Multi-Chat MCP Server,旨在促进 AI 协作,可扩展至团队,支持同时进行聊天连接,并让 AI Agent 充当队友和结对编程者。
    • 另一名成员感谢了作者并表示正在尝试实现。
  • 使用 MCP-Agent 构建的 **Financial Analysis Agent: 一名成员描述了使用 **mcp-agent 构建的金融分析 Agent,该 Agent 可以拉取股票数据、进行验证、分析见解并生成 Markdown 报告,代码已在 GitHub 上提供。
    • 他们指出,接入 EvaluatorOptimizer 显著提升了 Agent 的性能,通过让研究 Agent 在评估器中循环,直到输出达到质量标准。
  • **VerbalCodeAI 发布代码库导航工具: 一名成员分享了 **VerbalCodeAI,这是一个 AI 驱动的工具,可以简化从终端对代码库的导航和理解,具有代码搜索、分析、聊天功能,以及一个用于与 Claude Desktop 等工具集成的 MCP Server,可在 GitHub 及其 官网 获取。
    • 用户表示 这是我一直充满热情在做的一个项目,并邀请用户尝试。
  • arrs MCP Servers 实际运行中: 一名成员分享了一系列正在运行的 arrs MCP Servers 列表,包括:Plex, Overseerr, Prowlarr, qbittorrent, sabnzbd, Tautulli, Portainer, Unifi, Unraid 和 Gotify,并附带了 yarr-mcp GitHub 仓库 的链接。
    • 他们展示了服务器运行的截图,但未提供更多细节。

Modular (Mojo 🔥) ▷ #general (8 条消息🔥):

Modverse 48, Modular 博客, 等级提升

  • Modverse #48 发布引发困惑: Modular 博客上 Modverse #48 的发布公告导致了困惑,因为一名用户将 “live” 误认为是直播链接。
    • 该用户随后澄清说他们不熟悉 Modverse,原本期待的是一个 YouTube 直播 链接,并为误解表示歉意。
  • 用户获得 Level 4 身份: 一名用户因晋升至 Level 4 而受到祝贺。
    • 未提供其他细节。

Modular (Mojo 🔥) ▷ #mojo (7 messages):

Mojo C libraries, Mojo tree structure, Mojo GUI UI and FFI

  • Mojo 仍需要成熟的 C 库:一位用户表示,在 Mojo 生态系统进一步成熟之前,他们将继续使用像 OpenSSL 这样成熟的 C 库
  • 在 Mojo 中定义树结构:多位成员讨论了如何使用 ArcPointerOptional 类型在 Mojo 中正确定义树结构,其中一位成员建议需要将 Node 本身包装在 Arc 中。
    • 推荐的代码片段如下:alias Node = ArcPointer[NodeData] 以及 struct NodeData(Movable): var value: Int var left: Optional[ArcPointer[NodeData]] var right: Optional[ArcPointer[NodeData]]
  • Mojo GUI UI 与 FFI 指南:一位成员在 Modular 论坛上发布了一份关于开发 Mojo GUI UI 时遇到的 FFI 问题指南,重点介绍了 X11 版本以及即将推出的 OpenGL 版本
    • 他们分享了一个展示 X11 版本功能的视频和一张 OpenGL 版本的图片,并指出一旦解决了 FFI 问题,他们就会专注于组件(widget)的创建。

LlamaIndex ▷ #blog (2 messages):

LlamaIndex Agents in Finance Workshop, LlamaCloud agentic strategies, Agentic Retrieval > Naive RAG

  • LlamaIndex 举办金融 Agent 工作坊:LlamaIndex 的 CEO @jerryjliu0 正在纽约主持一场关于金融领域 Agent 的工作坊,反响热烈,报名人数已超过容量限制。
    • 在 Twitter 上关注 LlamaIndex 以获取未来活动的通知,并了解更多关于其企业级产品的信息。
  • Agentic Retrieval 从 Naive RAG 的坟墓中崛起:LlamaIndex 宣称 Naive RAG 不足以满足现代应用的需求,并推广内置于 LlamaCloud 中的 Agent 策略

LlamaIndex ▷ #general (8 messages🔥):

Exception Handling in Workflows, Nested Asyncio Tasks, LLM-Powered Agents, Multi-Agent Systems, Model Context Protocol (MCP)

  • LlamaIndex Workflow 中的异常被吞掉了?:当通过 workflow.run() 调用 Workflow 时,步骤内的异常可能会被吞掉,导致无法检测到 Workflow 失败。但在这个讨论帖中,该问题被认为已修复。
    • 异常被附加到了 asyncio future 上,可以通过 handler.exception() 或 try/except 块进行访问,如这个 colab 所示。
  • Workflow 中的嵌套 Asyncio 混乱:带有 awaiting 和 yielding 事件的嵌套 Workflow 可能会使 asyncio 任务中的错误报告变得复杂。
    • 顶层调用者可能需要实现 try/except 或访问 handler.exception(),以便可靠地检测嵌套 asyncio future 中的错误。
  • AI Agent Pro 自我介绍:一位成员介绍自己是交付 LLM 驱动的 Agent 的专家,具备 RAG、跨 API 的工作流自动化以及多 Agent 系统等能力。
    • 他们的技术栈包括 OpenAI (GPT-4/4o)LangChainLlamaIndexAutoGenFAISSPineconeReactFastAPI 等,并承接合同工作。

LLM Agents (Berkeley MOOC) ▷ #hackathon-announcements (1 messages):

AgentX Submission, Entrepreneurship Track, Research Track, Agentic AI Summit

  • AgentX 截止日期临近AgentX 提交截止日期即将到来(PT 时间 5 月 31 日晚上 11:59),两个赛道的奖金总额超过 $150,000
  • 创业赛道需要路演方案创业赛道(Entrepreneurship Track)需要一份路演 PPT(≤20 页)、一段产品演示视频(最长 3 分钟)以及一个在线产品链接;在此处提交:链接
  • 研究赛道需要科学论文研究赛道(Research Track)需要一篇科学论文(最多 7-8 页,不含附录)、一段视频演示(最长 3 分钟)以及一个 GitHub 仓库;在此处提交:链接
  • 8 月 2 日的 Agentic AI 峰会演示日与颁奖典礼将于 8 月 2 日在伯克利举行的 Agentic AI 峰会上进行。
    • 如有疑问,可在指定频道向团队咨询。

LLM Agents (Berkeley MOOC) ▷ #mooc-questions (6 messages):

Kaggle project submissions, Submitting Perplexity outputs, Article language, Adding certificate to LinkedIn

  • Kaggle 链接可用于项目提交:一位成员询问是否可以提交公开的 Kaggle 项目而不是 GitHub 仓库来参加 Research Track。
    • 另一位成员确认 Kaggle 链接是可接受的,但所有代码必须集中在一处;他们建议将 Prompt/输出放在手稿的附录中,因为提交表单有单文件上传限制。
  • Perplexity 输出提交说明:一位用户询问是否可以直接从界面提交 Perplexity 输出而不包含代码。
    • 建议他们将 Prompt 和输出包含在手稿的附录中,因为提交表单有单文件上传限制。
  • 西班牙语文章也可以:一位成员询问课程文章是否可以用 Spanish 而不是 English 编写。
    • 工作人员回复说 Spanish 没问题。
  • LinkedIn 证书指南请求:一位成员建议提供关于如何将课程证书添加到 LinkedIn 个人资料的指南,特别是关于 NameIssuing organizationCredential ID 字段。
    • 回复指出 Name 应为证书名称(例如 Large Language Model Agents MOOC, Fall 2024),Issuing organizationBerkeley Center for Responsible, Decentralized Intelligence,遗憾的是没有 Credential ID

Torchtune ▷ #general (7 messages):

Sanity Checks, Convergence of Loss Curves, Qwen 0.5b

  • Torchtune 讨论合理性检查 (Sanity Checks):一位成员询问了模型的合理性检查,特别是在添加特殊 Token 并使用 LoRA finetuning 在小数据集上过拟合时。
    • 另一位成员提到常见的合理性检查包括验证损失曲线的收敛、使用微调后的模型运行基础生成,以及在常用基准测试上运行评估。
  • 初始化特殊 Token Embedding 的方法:一位成员详细介绍了两种为新特殊 Token 初始化 Embedding 的方法:1) 取所有预训练 Token Embedding 的平均值;2) 使用每个特殊 Token 的自然语言描述,仅对这些 Token 取均值。
    • 该成员还提到这些检查是在 Qwen 0.5b 上尝试的,其损失曲线看起来并不理想。

Cohere ▷ #💬-general (2 messages):

CMD-R Model Update, Local Models, HF Weights

  • HF 上的 CMD-R 模型权重:一位成员询问是否会有新的 CMD-R model 更新并在 Hugging Face 上发布权重。
    • 他们提到 2024 年 8 月的版本仍然是 24GB VRAM 配置下唯一值得信赖的本地模型。
  • 本地模型的可信度:讨论强调了值得信赖的本地模型的重要性,特别是对于 VRAM 有限(如 24GB)的用户。
    • 2024 年 8 月的版本在此背景下因其可靠性而受到特别赞扬。

Cohere ▷ #🔌-api-discussions (2 messages):

Cohere OpenAI Cline VS Code

  • Cohere OpenAI Cline VS Code 不兼容:一位成员报告称希望将 Cohere OpenAI compat endpointCline VS Code 配合使用,但表示无法正常工作。
    • 不过,他们表示已经解决了该问题。
  • VS Code 扩展愿望:一位用户表达了在 Cline VS Code 扩展中使用 Cohere 的 OpenAI 兼容端点的愿望。
    • 然而,他们指出在使其按预期运行方面遇到了困难,但现已解决该问题。

Cohere ▷ #🤝-introductions (2 messages):

AI Automation, No-Code/Low-Code Development, AI Agents & LLM Workflows, Voice AI Solutions

  • AI 自动化专家加入对话:一位在 AI自动化工作流Agent 技术方面的专家介绍了自己,带来了构建 基于 LLM 的系统无代码/低代码产品以及语音 AI 解决方案的实战经验。
    • 他们擅长使用现代 AI 和可视化工具创建智能 Agent、可扩展的自动化和全栈 MVP,特别是 n8nMake.comZapierGlideFlutterFlowGPT-4ClaudeLangChain
  • 语音 AI 专家:该成员详细介绍了他们使用 VAPIBland AIRetell AITwilioTelnyx 等工具构建具有实时记忆和上下文功能的智能语音机器人,用于潜在客户挖掘、支持和调度的经验。
    • 他们热衷于与构建 AI-first 语音 Agent、自动化和智能工具的团队建立联系,共同创新。
  • Kyzo.ai 项目展示:该成员分享了他们过去在 Kyzo.ai 的工作信息,重点是使用 VAPIBland AIRetell AI 构建用于销售外联的 AI 语音 Agent
    • 他们还创建了具有 LLM 逻辑、CRM 同步和记忆感知后续跟进功能的实时冷启动电话机器人,展示了他们的全栈能力。

DSPy ▷ #show-and-tell (2 messages):

DSPy MCP tutorial, streamable HTTP, HuggingFace Spaces

  • MCP 教程获得流式 HTTP 移植:一位成员将 DSPy MCP 教程 移植到支持 流式 HTTP 的环境中。
  • HuggingFace Space 托管 DSPy MCP 教程:更新后的教程托管在 HuggingFace Spaces 上。

DSPy ▷ #general (3 messages):

DSPy 3, Latent Space Podcast, Conference Bookings

  • DSPy 3 将在 Latent Space 播客发布!:根据这条推文DSPy (v3) 的下一个版本将在 Latent Space 播客上详细讨论。
    • 一位成员已经报名参加了该讲座。
  • 会议预订即将满员:一位成员提到他们报名参加了 Latent Space 播客的讲座。
    • 会议上的大多数其他讲座都已订满,显示出极高的关注度。

tinygrad (George Hotz) ▷ #general (2 messages):

Whisper Bounty, Draft PR

  • Whisper 悬赏进行中:一位贡献者正在积极处理 Whisper 悬赏,包括修复错误、清理代码,并延续之前贡献者的工作。
    • 他们目前正在测试一个 无语音 bug,并旨在提高速度,询问他们的进展是否足以锁定悬赏并提交 Pull Request。
  • 鼓励提交 Draft PR:一位成员鼓励悬赏工作者提交 Draft PR,以展示他们在 Whisper 悬赏上的持续工作。
    • 这有助于早期反馈和协作。

tinygrad (George Hotz) ▷ #learn-tinygrad (3 messages):

types.FunctionType documentation, dynamic function construction

  • 用户寻求 types.FunctionType 文档:一位成员询问关于通过 types.FunctionType 进行动态函数构建的更详细文档,该方法在 tinygrad 库的 ops.py 中的 upat_interpret() 里被使用。
    • 该成员提到官方 Python 文档、源代码和语言参考缺乏详细信息。
  • 寻求 types.FunctionType 的指导:一位成员建议使用 help(types.FunctionType) 来获取有关该函数的更多信息。
    • 他们链接到了 CPython 源代码中的 C 代码

Nomic.ai (GPT4All) ▷ #announcements (1 条消息):

Tableau CEO 加入 Nomic 访谈,新融资,新模型

  • Tableau 前 CEO 在 Nomic 进行访谈:Tableau 的前 CEO 将于下周三美国东部时间中午 12 点与 Nomic 进行一场直播访谈,点击此处报名。
  • 令人兴奋的进展即将到来!:请关注有关 Nomic 新融资计划创新模型发布的后续新闻。
    • 我们正在挑战 AI 的可能性边界

Nomic.ai (GPT4All) ▷ #general (2 条消息):

VOID Pirate Captain 介绍,配合 Norus Hermes 2 Mistral DPO 模型的 LocalDocs,AI 迷你 PC

  • VOID Pirate Captain 加入服务器:一位新成员介绍自己为 VOID Pirate Captain,并描述自己是奇特梦想的构建者、真理的交易者,以及偶尔的循环打破者
    • 这位 Captain 提到他经营着一个冻干糖果实验室和一艘灵魂锻造的哲学之船,并表达了与那些在机器中构建心智的人建立联系的兴趣。
  • 用户尝试 Norus Hermes 2 Mistral DPO 模型和 LocalDocs:一位成员分享了他们使用 Norus Hermes 2 Mistral DPO 模型配合 LocalDocs 的经验,并指出它只有少量错误
    • 该成员表示探索过程很有趣,并询问其他人正在使用哪些模型来创建个人 LLM,引用道:“在黑暗中嬉戏并称之为光”
  • 配备 128GB 统一内存 (Unified Memory) 的 AI 迷你 PC:一位成员在思考如何描述翻找旧牛仔裤口袋里的钱,来购买一台配备 128GB 统一内存的新 AI 迷你 PC
    • 该成员表示,一个大小约为 8-20 GBLLM 结合 128GB 统一内存,在总结任何内容或与 “Local docs” 聊天时表现会非常出色。