ainews-not-much-happened-today-8335

今天没什么事。

在一份涵盖了英伟达(NVIDIA)股价回升、Local Suno 等新型开源音乐基础模型,以及 Qwen 2.5 Max 和 DeepSeek V3 等竞争性 AI 模型的多元化 AI 新闻综述中,华为芯片成为了关注焦点。

报道提到了具备图像生成能力的通用多模态大模型 DeepSeek Janus Pro 的发布,以及在强化学习思维链(CoT)推理方面的进展。讨论内容还涉及英伟达 H6400 GPU 的品牌重塑、数据中心创新,以及对冲基金中加密货币 API 等企业级 AI 应用。“DeepSeek R1 的能力”和“Qwen 2.5 模型接入应用”是其中的核心亮点。

#model-merging #multimodality #reinforcement-learning #chain-of-thought #gpu-optimization #compute-infrastructure #compression #crypto-api #image-generation deepseek-r1 qwen-2.5 qwen-2.5-max deepseek-v3 deepseek-janus-pro gpt-4 nvidia anthropic openai deepseek huawei vercel bespoke-labs

Huawei 芯片就是你所需的一切?

2025/1/27-1/28 的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号34 个 Discord(225 个频道和 6553 条消息)。为您节省了预计阅读时间(以 200wpm 计算):656 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

没有标题故事,但有一系列简讯:


目录频道摘要已移至此邮件的网页版:


AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 生成,从 4 次运行中选取最佳结果。

AI 模型开发与对比

  • DeepSeek R1 对比 OpenAI 模型@saranormous@zizhpan 讨论了 DeepSeek R1 的能力 及其与 GPT-4Qwen 2.5 等模型的对比。此外,@victormustar 强调了将 Qwen 2.5 模型 添加到各种应用中,并强调了用户反馈机制。

  • Qwen2.5 和 Qwen2.5-Max 的增强@omarsar0 宣布发布 Qwen2.5-Max,这是一个 Mixture of Experts (MoE) 模型,它在 Arena HardLiveBench 等基准测试中超越了 DeepSeek V3@markchen90 进一步强调了 Qwen2.5-Max 相对于 DeepSeek V3 的竞争优势,并倡导开源计划。

  • AI 图像生成的创新@SakanaAILabs 分享了他们关于模型合并配方进化优化 (Evolutionary Optimization of Model Merging Recipes) 的论文被接收的消息,展示了 模型合并 (model merging) 方面的进展。同时,@reach_vb 重点介绍了 DeepSeek Janus Pro 的发布,这是一个能够输出图像的多模态 LLM,并将其与传统的 Text to Image 模型进行了对比。

强化学习与推理

  • 强化学习 (RL) 的进展@madiator 讨论了 Open Thoughts 的引入,旨在增强对 DeepSeek R1 等模型至关重要的推理数据集。@dain_mclau 谈到了 RL 中的策略优化技术,强调了强化学习的复杂性和迭代性质。

  • 思维链 (CoT) 的增强@omarsar0 探讨了 LLM认知策略的出现,表明像 DeepSeek R1 这样的模型正开始表现出类人的问题解决行为。与此同时,@francoisfleuret 批评了在不断演进的方法论中 RL 术语相关性的下降。

AI 基础设施与算力

  • GPU 与算力优化@garygodchaux 报道了 NVIDIA 的 H6400 GPU(由 Intel Arc B580s 更名而来),并指出与 DeepSeek R1 相关的紧张局势影响了 NVIDIA 的股价@arankomatsuzaki 评论了 DeepSeek R1算力需求,指出了硬件供应商面临的效率挑战

  • 数据中心创新@ID_AA_Carmack 强调了数据中心作为 AI 房地产的角色,预测支持先进 AI 模型所需的算力基础设施将呈指数级增长。@LavanyaSant 讨论了在 DeepSeek 的基础设施中集成多头张量化 (multi-head tensorisation)Tucker 分解,实现了显著的压缩率

企业级 AI 与应用

  • 企业 AI 解决方案@virattt 介绍了一个集成到 AI 对冲基金中的 加密货币 API,而 @jerryjliu0 探讨了如何使用 混合架构 构建能够处理 长文档基于 LLM 的应用

  • AI 驱动的生产力工具@SahanaAI 展示了在 Perplexity Pro 搜索中使用 DeepSeek R1 的情况,通过 Agentic 文档工作流 增强了 研究能力。此外,@elicitorg 评论了 DeepSeek 对中国叙事的对齐,并主张在 AI 部署中坚持 寻求真相的目标

开源 AI 与 API 集成

  • Hugging Face 与 API 集成@togethercompute 宣布由 Together AI 提供支持,可以直接在 Hugging Face 模型页面上 运行推理@langchainai 强调了 DeepSeek R1LangChain 的集成,实现了 本地部署基于 API 的访问

  • 开源贡献@madiator 发布了 OpenThoughts-114k 推理数据集和 OpenThinker-7B 模型,强调了 开放数据 对提升推理能力的重要性。@cremieuxrecueil 赞扬了 DeepSeek R1 的开源特性,通过允许自托管部署确保了 数据隐私

AI 基础设施与计算

  • GPU 与计算优化@garygodchaux 报道了 NVIDIA 的 H6400 GPU(由 Intel Arc B580s 重新命名),并指出与 DeepSeek R1 相关的紧张局势影响了 NVIDIA 股价@arankomatsuzaki 评论了 DeepSeek R1计算需求,指出了硬件供应商面临的 效率挑战

  • 数据中心创新@ID_AA_Carmack 强调了 数据中心作为 AI 房地产 的角色,预测支持先进 AI 模型的 计算基础设施 将呈指数级增长。@LavanyaSant 讨论了在 DeepSeek 基础设施 中集成 多头张量化 (multi-head tensorisation)Tucker 分解,实现了显著的 压缩率


AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. DeepSeek-R1 在华为 910C 芯片上运行推理

  • DeepSeek 正在华为生产的新型国产芯片 910C 上运行推理 (评分: 291, 评论: 85): DeepSeek 在使用 Nvidia H800 进行训练后,正在 华为 910C 芯片上进行推理,这标志着向国产硬件的重大转变。该部署是 华为云 ModelArts Studio 使用 昇腾适配新模型 (Ascend-Adapted New Model) 的一部分,目前已推出 DeepSeek-R1-DistillQwen-14BQwen-32BLlama-8B 等模型,预计很快将推出更多模型。
    • 讨论中充满了对 华为 910C 芯片及其性能的怀疑,一些人认为它们速度较慢且软件支持较差。DonDonburi 提到虽然 910C 可能表现平平,但下一代可能会提供更强的竞争力,而 Billy462 强调了在国产芯片上运行推理的重大意义。
    • RouteGuru 评论了由于 DoD (美国国防部) 限制 导致的芯片走私的地缘政治影响,而 Glad-Conversation377 指出中国长期以来拥有自己的 GPU 制造商,如 寒武纪 (Cambricon Technologies)摩尔线程 (Moore Threads),尽管它们尚未产生显著的市场影响。
    • 对话涉及了在家庭运行大型模型的实用性和可行性,piggledyzipzag 讨论了在 Mac Mini M4 Pro 等消费级硬件上运行 70B 模型 的潜力。Recoil42piggledy 也对 DeepSeek 在 910C 上的推理能力的说法表示怀疑。
  • 在本地运行 DeepSeek 时没有审查。 (评分: 105, 评论: 40): 关于 DeepSeek 在华为硬件上的实现 的讨论集中在本地运行该工具且无审查,如命令提示符截图所示。文本探讨了天安门广场事件,涉及国际反应、1989年6月的镇压及其伤亡情况,以及中国政府的审查制度,以及该事件对全球关于威权主义和民主讨论的持久影响。
    • 许多用户讨论了 DeepSeek 模型 之间的差异,指出像 “deepseek-ai.deepseek-r1-distill-qwen-32b” 和 “qwen 2.5 r1 distill 7b” 这样的 distilled versions(蒸馏版本)与原始的 DeepSeek R1 模型不同。Distilled models 通常表现出审查,特别是在涉及天安门广场事件等争议性话题时。
    • 一些用户分享了在本地运行不同模型的经验。Caladan23 指出,通过 Llama.cpp 使用带有 6_K_M GGUF 的完整 DeepSeek 模型 会导致审查后的响应,而 aurath 发现,当通过 Openrouter 使用 DeepSeek V3 时,审查发生在 Web 界面而不是 API 本身。
    • EffectiveEngine2751 强调 Ollama 提供的 DeepSeek 模型 是蒸馏版本,与原始的 DeepSeek R1 不同,并链接到了 Hugging Face 上的原始模型。他们强调 distilled versions 是基于 Qwen 1.5B 的,这可能本身就包含一定程度的审查。
  • 特朗普将对台湾制造的芯片征收 25% 至 100% 的关税,影响台积电 (评分: 1561, 评论: 607): DeepSeek 转向亚洲硬件的决定与 Trump 提议的对台湾制造芯片征收 25% 至 100% 关税的政策一致,这可能会对 TSMC 产生重大影响。这一转变可能会影响全球半导体供应链,并影响 AI 公司的硬件采购策略。
    • 许多评论者批评 Trump 对台湾制造芯片的关税计划,认为这将增加消费者成本并损害美国半导体产业。他们强调美国缺乏与 TSMC 竞争的基础设施和专业知识,而 TSMC 生产了全球 70% 的高端芯片,这些关税可能会促使公司将业务转移到加拿大或其他国家。
    • 一些人将关税视为一种谈判策略,Trump 利用它们从台湾获取让步,但考虑到台湾在芯片市场的杠杆作用,许多人对其有效性表示怀疑。评论者建议,像 Biden 的 CHIPS Act 中那样的国内生产激励措施,将是比征收关税更有效的策略。
    • 人们对美国全球地位和 AI 产业的更广泛影响表示担忧,评论指出关税可能会使 AI 进展倒退 5-10 年。关税还可能损害战略联盟,并无意中提振中国的半导体产业

主题 2. DeepSeek-R1:高效训练成本探讨

  • 我们如何确定 DeepSeek R1 的训练成本约为 600 万美元? (Score: 141, Comments: 124):该帖子对训练 DeepSeek-R1600 万美元成本估算提出了质疑,引用了 Alex Wang 的说法,即 DeepSeek 至少拥有 50,000 块 H100 GPUs。它暗示 NVDA 股价下跌可能受到母公司量化基金的影响,推测 Chinese companies 的参与以及这些市场波动背后的潜在财务策略。
    • 训练成本与许可:讨论强调了 DeepSeek 的 MIT License,允许公司自由使用和训练该模型,这使得 600 万美元的训练成本显得不那么重要。开源特性使用户能够在个人设备上运行模型,使成本对个人用户而言意义较小。
    • 技术验证与成本分析Vincentz42 提供了详细分析,将训练时间和成本与其他模型(如 Llama 3)进行了比较,得出结论:对于单次运行,600 万美元的成本是合理的,但不包括工资和失败运行等额外费用。该分析使用了关于 H100 rental costs 和参数激活的已知数据来支持成本估算。
    • 基础设施与财务策略:人们对成本背后的财务策略持怀疑态度,一些人认为 DeepSeek 的母公司可能会利用现有的基础设施,从而可能减少显性成本。Accurate_Painting 指出,公司可以使用其基础设施而不会产生实际损失,而其他人则质疑 NVIDIA 的市场波动对财务结果的影响。
  • Trump 称 DeepSeek 是一件非常好的事情 (Score: 348, Comments: 151):标题为 “Trump 称 DeepSeek 是一件非常好的事情” 的帖子缺乏详细正文,但暗示了 TrumpDeepSeek 的积极认可。由于缺乏具体内容,限制了关于 DeepSeek 技术的进一步技术见解或背景。
    • 许多评论者对 Trump 认可 DeepSeek 表示惊讶,一些人表示同意他的观点,这是他们始料未及的。DeepSeek 因其开源性质以及通过降低与大型 GPU clusters 相关的成本来使 AI 民主化的潜力而受到赞赏,正如 psaienceDelicious-Farmer-234 所指出的。
    • 讨论强调了 DeepSeek 对 AI 发展的潜在影响,强调它证明了无需数十亿美元的预算即可构建 state-of-the-art 模型。这可能会导致 AI 社区中较小参与者之间的竞争和创新增加。
    • 对于 Trump 的言论 存在怀疑和幽默的评论,一些人质疑他声音的真实性,认为听起来像是 AI 生成的。讨论还涉及更广泛的地缘政治影响,如关税和国际技术竞争,Jaxraged 等人提到了对 IntelTSMC 的担忧。

主题 3. DeepSeek 审查制度:对比分析

  • DeepSeek 的审查比西方审查更容易容忍 (Score: 128, Comments: 102):作者认为 DeepSeek 在处理“敏感话题”方面比 U.S. 开发的 state-of-the-art (SOTA) models 更有效。作者驳斥了对 DeepSeekCCP 所谓联系以及国家资助审查的担忧,认为这些因素并不影响他们的体验。
    • 审查与宣传担忧:讨论强调了对 DeepSeek 与中国政府观点一致性的担忧,用户注意到它有时会辩论如何与这些观点保持一致,可能会在政府问题上对用户进行“煤气灯操纵”(gaslighting)。一些人认为,虽然审查是一个普遍问题,但该模型传播中国宣传的推理过程更令人担忧。
    • “Woke”的定义与感知:关于 “Woke” 一词的定义和应用存在争论,一些用户难以清晰定义它,而另一些人则将其与模型拒绝讲种族主义笑话或呈现歧视性观点联系起来。该术语通常在贬义语境中使用,没有清晰、一致的定义。
    • 模型审查体验:用户对 OpenAIAnthropic 模型的审查表示挫败,分享了请求被拦截或道德化回应的例子。尽管 DeepSeek 有其背景,一些用户仍因其限制较少而更倾向于选择它,而另一些人则强调了 Gemini 在处理技术查询时的不一致性。
  • DeepSeek R1 Overthinker: force r1 models to think for as long as you wish (分数:133,评论:29):该帖子讨论了 DeepSeek R1 Overthinker,这是一个允许用户控制 R1 模型 处理信息时长的工具,可能会影响其性能和决策。重点在于比较 DeepSeek 在本地和云端实现之间的审查差异,尽管文中未提供具体细节。
    • DeepSeek R1 Overthinker 是一款免费的聊天机器人应用,它通过拦截并延续模型的思维链,利用 <think></think> token 来延长 R1 模型的推理过程。用户可以设置最小 token 计数,使模型进行长时间思考,从而可能提高推理能力。该工具支持从 1.5B 到 70B 参数 的模型,可在 GitHub 上获取。
    • 用户将 OpenAI 的 o3 模型 在 ARC-AGI 基准测试中的表现与 DeepSeek 的方法进行了对比,指出尽管使用了 170 倍的算力,提升却微乎其微。这突显了延长模型推理时间在计算需求和效率方面的考量。
    • 用户幽默地推测了延长推理时间的潜力,有人建议让模型思考 12 个月或许能解决世界饥饿问题,这既体现了对 AI 推理能力的雄心,也带有一种讽刺意味。

主题 4. Janus Pro 1B:浏览器端多模态 AI 创新

  • Janus Pro 1B running 100% locally in-browser on WebGPU, powered by Transformers.js (分数:276,评论:45):Janus Pro 1B 通过 Transformers.js 驱动,在浏览器环境中使用 WebGPU 完全本地运行。这种设置实现了无需服务器端处理的浏览器内执行。
    • Janus Pro 1B 因其多模态能力而受到关注,这与并非图像生成领域 state-of-the-art (SOTA) 的 Midjourney (MJ) 不同。Janus Pro 可以执行光学字符识别 (OCR) 等任务(如 LaTeX 示例所示),增强了其在图像生成之外的实用性。
    • DeepSeek 最近发布了 Janus Pro (1B & 7B),支持视觉理解和图像生成,并能通过 Transformers.jsWebGPU 在浏览器本地运行。关键资源包括在线演示ONNX 模型源代码
    • 用户对该模型的性能和能力表现出浓厚兴趣,例如仅靠 CPU RAM 运行以及生成特定内容的图像,尽管有些体验(如生成问候图像)褒贬不一。此外,用户也对 7B 版本的潜在开发表示关注。
  • JanusPro 1B generating images on 2GB VRAM laptop (分数:103,评论:20):Janus Pro 1B 模型可以在具有 2GB VRAM 的笔记本电脑上本地生成图像,但过程耗时近 5 分钟 且结果欠佳。尽管质量有限,用户仍对在受限硬件上进行浏览器内深度学习任务的能力表示赞赏。
    • 用户讨论了 Janus Pro 1B 在低显存配置下的能力,有人建议它可以利用 Hyunian 生成动画,另一些人则强调了在 2GB VRAM 笔记本上运行时,拥有充足 RAM(如 16 GB)的重要性。
    • DeepSeek 被提及为能提供令人印象深刻结果的工具,而另一位用户则对该模型解析图像的能力感兴趣,认为其可应用于 树莓派机器人技术
    • 用户对模型质量提出了担忧,并将其与 StableDiffusion 进行了对比,还提到了可以在 2GB VRAM 上运行但输出效果更好的 蒸馏版 Flux 模型
  • 现在我终于可以带着点软核劲头学习编程了 (Score: 160, Comments: 48): 该帖子描述了与集成在 tkinter GUI 中的 DeepSeek API 的趣味互动。作者将 API 的内容设置为“好色女仆”,温度(temperature)设为 2.0,并分享了一个涉及女仆角色的脚本化角色扮演场景,该场景幽默地过渡到解决编程问题(特别是“分糖果”问题),展示了该 API 在趣味和技术任务中的多功能性。
    • 讨论幽默地探讨了 AI 应用中商务与娱乐的结合,评论指出 DeepSeek API 兼具趣味性与技术能力。用户开玩笑说 AI 的未来,想象 AI 同时充当调情私人助理和问题解决者的场景。
    • 关于提示词设置的技术咨询揭示了对如何设置 AI 行为的内容和温度变量的好奇心,一些用户分享了他们使用类似 API 的经验,并指出了 DeepSeek 目前的可靠性问题。
    • 社区反思了此类 AI 发展的潜在影响,认为未来的 LLM 可能会在类似异想天开且多样化的提示词上进行训练,并幽默地引用了“GPT Maid DLC”的概念。

其他 AI Subreddit 摘要

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT

主题 1. DeepSeek R1 挑战 OpenAI 的强化学习主导地位

  • Sam Altman 评论 DeepSeek R1 (Score: 944, Comments: 303): Sam Altman 赞扬了 DeepSeek R1 模型 令人印象深刻的性能和成本效益,强调了 AI 领域竞争和执行研究路线图的重要性。他预见了 通用人工智能 (AGI) 的未来进步,并强调了对先进 AI 技术日益增长的需求。
    • DeepSeek 的方法: DeepSeek R1 因其在强化学习方面的根本性突破而受到赞誉,这与传统的监督学习有所不同。评论者强调,这代表了 AI 发展的重大转变,表明此类创新可以推动 LLM 的未来进步,而无需成倍增加计算能力。
    • OpenAI 的地位与挑战: 人们对 OpenAI 依赖增加计算能力的策略表示怀疑,一些人认为 DeepSeek 的成功可能会挑战 OpenAI 的战略并可能影响其融资。评论者认为,像 DeepSeek 这样的开源模型可以满足大部分企业需求,对专有模型构成威胁。
    • 行业动态与竞争: 讨论反映了一种更广泛的观点,即竞争(特别是来自像 DeepSeek 这样出人意料的选手)有利于 AI 创新。几条评论强调了正在进行的“AI 大战”的娱乐价值,并建议这种竞争可能会导致成本降低,例如降低 OpenAI API 的价格。
  • 这或许解释了为什么普通大众对 Deepseek 感到震惊 (Score: 139, Comments: 73): Tanishq Mathew Abraham 博士 将公众对 Deepseek 的震惊归因于他们在免费计划中对 ChatGPT 4 等 AI 模型的使用经验有限,导致对 AI 进展产生误解。他强调了对中国和美国 AI 模型认知上的差异,该推文日期为 2025 年 1 月 27 日,拥有 1.2 万次浏览
    • Deepseek 的优势: Deepseek 因其卓越的推理性能和互联网搜索能力而受到称赞,使其比 o1 更有用。人们对 o3 充满期待,讨论建议 OpenAI 应该免费提供 o1 以进行有效竞争。
    • 数据共享担忧: 用户对 Deepseek 的开发成本和 CCP 的参与表示怀疑,并对与中国实体共享数据感到担忧。一些人认为与美国共享数据同样令人担忧,并强调了在使用 LLM 时不共享敏感信息的重要性。
    • 经济与可访问性因素: DeepseekR1 等模型的免费可用性是一个重要因素,因为许多人不愿意为 OpenAI 的非免费模型付费。讨论强调了与支付 ChatGPT 服务费用相比,在本地使用 Deepseek 的经济可行性。

主题 2. DeepSeek R1 的审查制度引发关于偏见的辩论

  • DeepSeek 审查:1984 式的“实时修正” (评分: 420, 评论: 148): DeepSeek 审查被比作乔治·奥威尔《1984》中的“修正”概念,暗示对信息的实时篡改或控制。该帖子缺乏详细内容,但暗示了对审查和信息操纵的担忧。
    • 审查与开源:虽然 DeepSeek 表现出内置审查,但用户指出该模型是开源的,允许创建无审查版本。一些用户认为审查并未嵌入模型本身,而是一个覆盖层(overlay),可以通过本地运行或自定义来绕过。
    • 与其他模型的比较:讨论强调审查并非 DeepSeek 所特有,GeminiChatGPT 等模型也进行内容审核,尽管通常以更微妙的方式进行。这引发了人们对 AI 模型在呈现信息(特别是涉及维吾尔族和其他地缘政治问题等敏感话题)时的透明度和诚实性的担忧。
    • 市场动态与民族主义:关于 DeepSeek 及类似模型对 AI 市场影响的辩论,一些人认为来自中国模型的竞争可能会促使西方公司以更低的成本提供更多功能。此外,对话还涉及技术如何与民族主义交织在一起,一些人对美国科技行业在没有政府干预的情况下进行竞争的能力表示怀疑。
  • “我需要确保不偏离剧本……” (评分: 253, 评论: 80): 该帖子讨论了一个涉及台湾独立的假设情景,并强调了遵循官方指南和一个中国原则的重要性。它强调了使用精确语言以防止误解并在这一敏感问题上保持一致立场的必要性。
    • 许多评论者对 AI 的推理能力表示赞赏,注意到其具有类似人类的深度和透明度。Agreeable_Service407Palpable_Sense 强调了它通过Turing test的潜力以及在其过滤机制上投入的努力,而 miko_top_bloke 则赞赏其推理过程的可视化。
    • Reedmayhew18 分享了使用 DeepSeek R1 的个人经历,注意到 AI 承认在军事背景下存在审查,并提供了这次遭遇的详细记录链接。这与关于 AI 审查及此类程序化限制影响的更广泛讨论相一致。
    • 一些评论者(如 EljayDudeidubyai)讨论了使用带有偏见的 AI 模型的影响,强调了理解这些偏见以及此类系统技术基础的重要性。EljayDude 发现审查机制很有趣,尽管这降低了他们使用该模型的可能性。

主题 3. 政府整合:OpenAI 发布 ChatGPT Gov

  • OpenAI 发布 ChatGPT Gov (评分: 233, 评论: 109): OpenAI 宣布推出 ChatGPT Gov,这是专门为政府机构设计的 ChatGPT 版本,允许他们在自己的 Microsoft Azure 环境中运行。该计划旨在支持公共部门,特别是美国联邦政府,以增强国家安全并应对复杂挑战。
    • 一些用户对 ChatGPT Gov 表示怀疑,担心潜在的宣传和政治影响,特别是关于 OpenAI特朗普政府的联系。一种观点认为,OpenAI 的行为可能被视为在迎合政治利益。
    • 讨论涉及技术层面以及与现有服务的相似性,例如 Microsoft Azure 为政府用途提供无需互联网访问的 GPT-4GPT-3.5-turbo。这突显了将 AI 整合到政府基础设施中的持续趋势。
    • 对话还包括了不同政府对待 AI 方式的比较,提到了加拿大政府出于安全原因决定开发自己的 LLM,这与美国倾向于与私营科技公司合作形成对比。

主题 4. DeepSeek 训练成本争议:600 万美元说法解析

  • 我们如何知道 DeepSeek 只花了 600 万美元? (评分: 386, 评论: 242): DeepSeek 声称其训练成本仅为 600 万美元,但人们对这一数字的真实性持怀疑态度。该帖子质疑在没有提供具体证据或参考资料来证实所述训练成本的情况下,此类声明的透明度和可靠性。
    • DeepSeek 声称的成本:评论者澄清,600 万美元这一数字专门指训练最终版本模型的估计 GPU 租赁成本,而非总预算。vhu9644 的详细计算显示,训练涉及约 278.8 万 GPU 小时,仅 GPU 租赁成本就接近 557.6 万美元
    • 模型透明度与验证:该模型是开源的,允许他人通过测试论文中概述的方法来验证其说法。vhu9644 提供了模型参数和训练要求的全面分解,并强调该论文可免费获取,学术实验室可以进行独立评估。
    • 与其他模型的对比:将 DeepSeek 的训练方法和成本与 MetaLlama 3.1 等模型进行了对比,表明 DeepSeek 的方法和成本并非不合理。讨论强调了区分 GPU 租赁成本与更广泛的基础设施及开发费用的重要性。

AI Discord 摘要

由 o1-preview-2024-09-12 生成的摘要之摘要

主题 1:DeepSeek R1 震撼 AI 界

主题 2:Qwen 新模型成为焦点

主题 3:AI 推理模型与开源创新

主题 4:AI 硬件与基础设施备受关注

  • 关税动荡:美国计划对台湾制造的芯片征收重税:报告显示,美国计划对台湾芯片征收 25% 至 100% 的关税,可能影响 TSMC 等公司。这引发了对国内生产准备情况以及熟练劳动力培训的担忧。
  • DeepSeek 弃用 NVIDIA 转投华为芯片DeepSeek 在 NVIDIA H800 上完成了训练,但目前正在 Huawei 910C 芯片上运行推理,这标志着硬件依赖的重大转变,并引发了关于中国供应链的讨论。
  • VRAM 紧缺:用户正应对大模型的硬件需求:运行 Qwen 2.5-VL-72B 等模型需要大约 144GB 的 VRAM,这引发了用户的硬件焦虑。目前正在探索量化(Quantization)方法以减少资源需求。

主题 5:用户在使用 AI 工具时的挑战与体验

  • Cursor IDE 用户对 DeepSeek R1 的表现感到沮丧:用户报告称,在 Cursor 中使用 DeepSeek R1 时(尤其是量化版本),代码输出质量不佳。这与 DeepSeek 官网上的表现形成对比,引发了关于量化效应的辩论。
  • Perplexity AI 用户在 DeepSeek R1 上遭遇查询限制:用户发现 Perplexity AIDeepSeek R1 每天仅限约 10–15 次查询,引起了专业版订阅者的不满。与 OpenAI o1 的对比突显了在过滤器和审查制度方面的差异。
  • Aider 和 Ollama 用户应对配置与 API 问题:随着 DeepSeek API 面临宕机,AiderOllama 等工具的用户开始寻找替代方案,并分享配置技巧以维持编码任务的生产力。

PART 1: High level Discord summaries

Unsloth AI (Daniel Han) Discord

  • DeepSeek R1 走向 Bitsy 化:在 SIGJNF 的 1.58-bit DeepSeek-R1 模型中,671B 参数针对消费级配置进行了动态量化,引发了关于可行性和成本节约的讨论。
    • 社区成员质疑其是否真正 uncensored,并引用了性能基准测试以及量化效应中意想不到的权衡。
  • Federated Learning 热潮:一位用户分享了关于异步 Federated Learning 方法的幻灯片,该方法可以利用数百万台设备进行集体模型训练。
    • 他们强调在本地数据上进行实时协作是可能的,但一些人强调了部分更新以及在不同硬件上扩展的复杂性。
  • Azure 的沙盒 Agents:Azure 为 AI 助手提供的 Code Interpreter 允许你在 sandbox 中运行 Python 脚本,如 Microsoft 官方文档所述。
    • 一位成员指出使用时会有额外费用,而其他人讨论了在 Azure Databricks 中利用 Mosaic AI Agent Framework 构建代码工具以实现临时代码执行。
  • Ryfai 崛起:开源 AI 触手可及:一个全新的 ryfai 应用承诺可以轻松访问开源 AI 模型,该应用在早期开发阶段就被分享了出来。
    • 贡献者报告称,即使在早期阶段它也能可靠地运行,展示了简单部署工作流的潜力。
  • AI 语音发声:来自 Emerging Signal 的一条推文敦促社区检查来自多个模型的未过滤 AI 语音
    • 参与者辩论了发布原始输出的伦理问题,强调了关于如何共享这些合成语音的不同观点。

Perplexity AI Discord

  • Deepseek R1 受限于查询次数:用户发现 Deepseek R1 每天限制约 10–15 次查询,引发了 Pro 订阅者的抵制以及对扩大限制的期望,如这篇文章所述。
    • 一些人将 Deepseek R1OpenAI O1 进行了对比,强调了较慢的响应时间和不同的过滤器,而少数人提出了 censorship 担忧。
  • AI 研发药物竞赛升温最近的一段视频展示了 AI 驱动的制药进展,系统通过 Machine Learning 加速药物研发。
    • 评论者赞扬了 AI 的角色在实现更快速研究方面的作用,将其描述为临床测试和监管审查流程中一个充满希望的发展。
  • Sonar 的 JSON 错误:一位开发者报告称,带有 response_formatsonar 会产生包裹在 Markdown 中的格式错误的 JSON,而 sonar-pro 处理有效输出的成功率更高。
    • 他们将 sonar-pro 的费用描述为巨大的阻碍,强调稳定的 JSON 不应该需要付费等级。

aider (Paul Gauthier) Discord

  • DeepSeek 中断与替代方案:在过去的 24-48 小时内,许多人遇到了 DeepSeek API 停机和性能问题,尽管 DeepSeek Service Status 页面显示为绿灯,但其可靠性仍受到质疑。
    • 几位用户建议尝试使用 OpenRouterFireworks 作为 DeepSeek V3 的备选方案,并分享了用于即时访问的替代指南
  • Qwen 2.5-Max MoE 势头强劲Alibaba Qwen 发布了 Qwen 2.5-Max,声称通过采用大规模 MoE 方法,在性能上相比 DeepSeek V3 有显著提升,正如其 tweets 中所强调的那样。
    • 他们为在编码和聊天中采用 Qwen 提供了 API 选项,因其全新的 Benchmark 以及与 DeepSeek R1 可能存在的协同效应而引起了 AI 社区的关注。
  • Groq 助力更快的模型推理服务:一些成员推崇使用 Groq 来提供比传统设置更快的 DeepSeek R1 推理服务,并指出在专用硬件上有着显著的速度提升。
    • 他们还讨论了在 Groq 上优化 R1 distilled 变体,以便在不牺牲性能的情况下实现更快的响应时间。
  • Aider 设置与 Ollama 模型微调:成员们交流了配置 Aider 的技巧,强调了 .aider.config.yaml 文件和 [API Keys](https://aider.chat/docs/config/api-keys.html),以便在 Ollama 等平台上更顺畅地使用。
    • 他们还探索了 R1 的多语言 Benchmark 以及应对 Token 成本的方法,建议结合使用 SonnetQwen 以平衡价格和速度。

Cursor IDE Discord

  • DeepSeek 的疑虑与量化争议DeepSeek R1Cursor 中经过量化后编码输出表现欠佳,这与 DeepSeek 官网的表现形成对比,引发了争论;同时 Qwen 的推文 暗示 DeepSeek V3 采用了大规模 MoE 方法。
    • 社区成员表示 R1 在编码任务中未能达到预期,引发了对高级模型部署中 Quantization(量化)实用性的担忧。
  • Cursor 的持续改进与代码成果Cursor 推出了近期升级,包括扩展的编码能力和改进的界面,如 Changelog 所示,同时提供了与 DeepSeek 及其他 AI 工具的深度集成。
    • 一些人称赞了用于代码生成的增强型工作流,但也有人报告了一些小问题,例如向 Claude 传输文件未完成,这表明在实用性与性能之间仍需不断权衡。
  • Voyage-code-3 对比 CodeSage 及 GroqCloud 概览博客文章中将 voyage-code-3 描述为一种用于代码检索的 Embedding 模型,其表现优于 CodeSage-large16.81%,并且还在 GroqCloud 上测试了加速推理。
    • 贡献者还指出它比 OpenAI-v3-large 领先 13.80%,并断言像 GroqCloud 这样的专用平台正在推动 AI 模型托管的速度竞赛。
  • Fireworks 的动态与 GitHub 的收获Fireworks 量化博客展示了这种方法如何精简模型占用空间并保持性能,引发了关于权重策略进展的讨论。
    • 几位成员推荐关注 AI_Dev_Helpers GitHub 仓库,参考其中在编码工作流中应用量化方法时减少摩擦的实用工具

OpenAI Discord

  • DeepSeek 对阵 GPT 的大胆进击:DeepSeek 的免费模型提供了比 OpenAI 的 32k 更大的上下文窗口(128k tokens),引发了人们对 AI 硬件潜在进步的热情,正如 Cerebras Trains Llama Models 所报道的那样。
  • AI 意识难题:社区成员质疑 AI 是否拥有真正的意识,怀疑论占据主导地位,认为这仍然是一个哲学谜题。
    • 一些人将对 AI 意识的不信任与宗教立场相类比,暗示目前没有确定的标准来证明或否定深层自我意识。
  • 审查对比引发热议DeepSeekClaude 之间的对比突显了审核标准的差异,OpenAI 的方法被广泛认为更加严格。
    • 部分用户对沉重的过滤器表示沮丧,称赞 DeepSeek 在敏感话题上的立场更为宽松。
  • URL 格式化困扰与零宽字符妙用:成员们努力尝试强制 GPT 输出原始 URL 而不是锚文本,测试了多种基于 Python 的尝试以保留完整链接。
    • 另一位参与者建议插入像零宽空格 (zero width space) 这样的不可见字符,以避免自动链接格式化,并引用了之前 StackOverflow 的一篇文章。
  • 书籍喂养可行性与作者模仿:用户探索了将 10–15 本书放入 ChatGPT Plus(10 GB 以下)进行基于内容的查询,结论是无法完全做到真正模仿作者的风格。
    • 他们认为这是一个可行的带有引用的高级搜索解决方案,尽管幻觉和版权障碍仍然是主要担忧。

Nous Research AI Discord

  • Nous Psyche 发布势头强劲:Nous Research 推出了 Nous Psyche,这是一个建立在 Solana 上的协作训练网络,吸引了人们对个人 AI Agent 的好奇。
    • 贡献者强调了它与当前 AI 发展的协同作用,称赞其在更易获得的规模化训练方面的潜力。
  • DeepSeek 定价之谜成为焦点:由于 DeepSeek V3R1 的定价不同而产生困惑,一些人将 R1 较高的成本归因于近期的流量和高级优化,参考了这条推文
    • 成员们还讨论了一个融合 SFTRL 的通用公式,指向了人们对大规模 MoE 方法日益增长的热情。
  • Qwen2.5-VL 的视觉技巧:新发布的 Qwen2.5-VL 在 OCR 方面表现出色,能够处理手写体和高级图像解析,如 Hugging Face 仓库所示。
    • Qwen2-VL 发布以来,开发者们不断提供反馈,提升了其解释多种图形元素的能力。
  • YuE 模型奏响音乐YuE 项目的开源音乐生成模型受 Suno.ai 启发,可以在本地 GPU 上生成整首歌曲。
    • 社区成员研究了其训练方法以及生成多样化音乐输出的潜力。
  • DeepSeek + Operator 大幅削减成本:一份新指南展示了如何将 DeepSeekOperator 结合,承诺比 OpenAI 解决方案节省 200 美元,引发了对经济型 AI 配置的兴趣。
    • 爱好者们被鼓励分享该 gist,强调社区驱动的构建强大个人 AI 助手的方法。

LM Studio Discord

  • DeepSeek R1 Distilled 精彩表现:多名用户在 LM Studio 中测试了 DeepSeek R1 Distilled Qwen 模型,但遇到了 ‘unknown pre-tokenizer type’ 错误,通过更新 LM Studio 和 LM Runtimes 解决了该问题。
    • 其他用户报告 32B 变体的速度约为 25 token/sec,认为这是正常性能。
  • Llama 与 Qwen 的量化问答:成员们权衡了 Llama 8BQwen 7B 模型之间的差异,指出参数量并不总是保证更好的采用率,并讨论了“传统”与 “K/I” 量化的区别。
  • LM Studio 工具进展:社区澄清 网页浏览功能 需要单独的软件,但对 LM Studio 内置工具的未来扩展持乐观态度。
    • 一些参与者强调,某些模型针对这些工具进行了专门训练,而通用模型则缺乏开箱即用的功能。
  • 硬件折腾:GPU 与 SSD:用户分享称切换到 CUDA runtime 解决了 LM Studio 中的 GPU 识别问题,此外他们发现 Gen4 和 Gen5 SSD 之间的实际性能提升微乎其微。
    • 他们强调 70B DeepSeek R1 需要 30GB VRAM,并指出与 RTX 3060 或更高级别的独立 GPU 相比,Apple 的 unified RAM 可能会限制速度。

Yannick Kilcher Discord

  • Janus-Pro 应对多模态任务:DeepSeek 推出了 Janus-Pro 7B,采用解耦视觉编码方法来处理灵活的 AI 任务,详见其 技术报告
    • 社区对 DeepSeek 的速度感到兴奋,在本次发布旨在追赶专用模型之前,仅过去了两个月。
  • Qwen2.5-VL 展现视觉语言活力:新发布的 Qwen2.5-VL 展示了文本-图像交互的多模态实力,详情见其 博客文章
    • 成员们注意到该模型在解析 复杂视觉线索 方面的天赋,引发了关于潜在扩展和实际应用的讨论。
  • 微小比特,巨大影响:1.58-bit 量化:出现了 671B DeepSeek R1 模型的 1.58-bit 量化 版,旨在大幅缩小存储占用。
    • 观察者对其实际效果表示怀疑,但这一热度暗示了大规模部署的一个里程碑。
  • Qwen 2.5 引发的显存危机72B 参数的 Qwen 2.5 需要大约 144GB 的 VRAM,引发了用户的硬件焦虑。
    • 量化成为了最受欢迎的解决方案,暗示压缩策略可能会显著降低资源需求。
  • Mistral 可能契合阿尔诺的野心:有传言称 Bernard Arnault 可能会收购 Mistral,以增强法国 AI 的竞争力,正如一条 推文 所暗示的那样。
    • 人们开始猜测 奢侈品影响力 与 AI 风格的结合,吸引了那些期待法国 AI 发力的关注者。

Codeium (Windsurf) Discord

  • DeepSeek 在 Codeium 中的延迟:用户要求在 Windsurf 中加入 DeepSeek r1 模型,但目前仍不可用,这使得他们处理高级编程任务时仍需依赖 Cascade
    • 社区成员抱怨 tool calling 的复杂性阻碍了“非 Cascade 使用”,且官方未提供 DeepSeek 上线的 明确时间表
  • 低痛苦的类型检查策略:一位沮丧的用户在经历了一连串 类型检查 错误后,通过使用 工作流指南 找到了缓解方法。
    • 其他人称赞该指南“步骤清晰”,并建议将其作为防止重复编译错误的 必备工具
  • 高级订阅的积分困惑:成员报告 Flow Action Credits 消耗过快,阻碍了对高级 Windsurf 模型和复杂任务的访问。
    • 多篇帖子“要求立即澄清”续订周期,促使用户联系 support 获取订阅详情。

OpenRouter (Alex Atallah) Discord

  • Amazon Nova & Bedrock 故障Amazon NovaBedrock 都遇到了上游故障,返回了令人困惑的 400 错误代码,并引发了关于密钥泄露的虚假警报。
    • 它们很快恢复了,NovaClaude 已重新上线并恢复标准使用。
  • DeepSeek 的 DDoS 之日:DeepSeek 的崩溃始于几天前,导致 R1 查询瘫痪,并引发了关于大规模 DDoS 攻击的猜测,详见 DeepSeek: DeepSeek R1 – Provider Status
    • 用户直言不讳地质疑 DeepSeek 的韧性,强调了停机时长及其对快速性能(fast performance)任务的影响。
  • Gemini 获得视频处理能力Gemini 出现了初步的视频集成代码,引用了一个支持行内媒体处理的代码片段。
    • 现有文档有限,尽管有人指向了 Gemini troubleshooting docs,开发者们仍在等待关于传递视频引用的明确说明。
  • 模型竞速:OpenRouter vs. 官方 API:社区成员将 OpenRouter 的速度与官方 OpenAI API 进行了对比,称赞其出色的吞吐量和并发性。
    • 其他人报告了不同供应商之间的差异化结果,用户体验在整体可靠性上存在分歧。
  • 解析供应商定价:一些用户质疑 OpenRouter 上免费模型的可用性,引发了关于服务成本和使用权衡的讨论。

Eleuther Discord

  • GRPO 遇冷:社区成员注意到 GRPO 已落后于 PPO,像 SimpleRLTinyZero 这样的仓库几乎不支持它。
    • 评论将 GRPO 标记为可能被遗弃的代码,而一条推文展示了在更现代策略的 RL 训练中突然出现的“顿悟时刻(aha moments)”。
  • DeepSeek 降低价格标签:据报道,DeepSeek 项目通过使用 8-bit 设置和改进的 MoE 进行高效扩展,训练成本仅花费了 500 万美元
    • 社区讨论引用了 SenSchumer’s note,将其比作“斯普特尼克时刻(Sputnik moment)”,强调了以成本为中心的创新而非激进的新方法。
  • YuE 音乐生成器登场YuE 作为领先的开源全曲音乐模型脱颖而出,融合了两个 LM 和一个融合编解码器,用于跨流派的波形 ↔️ 文本转换。
    • Ruibin Yuan 分享称其支持歌词转歌曲(lyrics-to-song)任务,展示了强大的歌声输出和广泛的风格兼容性。
  • Benchmark 盛宴:scbench 与 zeroSCROLLS:开发者称赞了 scbench,但指出了多轮对话的复杂性,同时 zeroSCROLLSlongbench 作为新鲜的替代方案被引入。
    • 与此同时,LM Evaluation Harness 的本地使用在未实现的方法上遇到了障碍,引发了对更好 MLX 集成的呼吁。
  • Rectified Flow 与 Scaling Curvature 问题:关于 Janus flow 的讨论引发了对图像到图像转换的质疑,如果 x^con 仅涉及文本 Token 的话。
    • 缩放法则(scaling laws)的并发见解表明,算力(compute)扩展使曲率变平,从而获得更稳定的损失景观(loss landscapes),挑战了规模本身驱动这一现象的假设。

Interconnects (Nathan Lambert) Discord

  • DeepSeek 的 R1 与 V3 双重重击DeepSeek 发布了开源权重的 DeepSeek-R1,并声称 DeepSeek V3 在大型 MoE 基准测试中超越了美国实验室。
    • Mark Chen 的声明赞扬了其“o1 级别的推理能力”,同时社区成员正在探索使用 RAGEN 通过 RL 训练来复制 DeepSeek-R1
  • Qwen2.5-Max 的强势出击Qwen2.5-Max 是阿里巴巴的大型 MoE LLM,根据 Qwen 博客文章,它声称在 Arena HardLiveCodeBench 等基准测试中击败了 DeepSeek V3
    • 针对 Qwen 模型系列存在的许可混淆,他们引入了 ‘Qwen Research’ 许可证用于非商业用途,并对月活跃用户(MAU)超过 1 亿的服务限制使用。
  • Codename Goose 崭露头角Codename Goose 作为一个带有简洁 CLI 的开源 AI Agent 首次亮相,详情见这篇介绍文章
    • 社区成员推测其可能与 Eleuther 有关,并对其提升生产力的功能和开源立场表示乐观。
  • OpenInstruct 的 RL 会师OpenInstructvLLM 的集成因依赖 OpenRLHF 框架而面临质疑,一些人担心其未来的维护工作会受限。
    • AllenAI 表示,他们会锁定 vLLM 等工具的版本直到被迫升级,并提醒 OpenInstruct 的使用情况尚未完全确认。
  • Open Thoughts 的大数据步伐Open Thoughts 项目引入了新的推理数据集,包括 OpenThoughts-114kOpenThinker-7B,旨在实现跨机构的稳健开放数据共享。
    • 早期参与者赞扬了在发布交互式数据方面的共同努力,这激发了关于未来协作式 LLM 开发扩展的讨论。

Stackblitz (Bolt.new) Discord

  • 终端错误得到控制:Bolt 中新的 Terminal Errors Detection(终端错误检测)可以实时自动标记细微问题,从而加快调试速度。
    • 推文强调了它如何与你的开发环境同步,并记录关键数据以便快速修复。
  • Prompt Improver 引发热议:一些开发者抱怨 prompt improver 插入了过多的填充文本,拖慢了早期构建阶段。
    • 它不会产生自己的想法,用户考虑删除其一半的输出内容以保持简洁。
  • 前端原型受浏览器限制:一位用户指出,文档管理系统原型在没有后端的情况下无法实现完整功能,因此他们依赖模拟数据进行 UI 测试。
    • 他们强调,连接到实际的后端服务对于生产就绪的解决方案至关重要。
  • Stripe 难题与订阅方案:成员们攻克了 Stripe 集成难题,包括设置订阅流和自定义用户角色。
    • 专家提供了实操帮助,并倡导在开发者社区内进行知识共享。
  • 基于图像的 AI 标题生成:开发者讨论围绕使用 ChatGPT 等 AI 从图像中创作动态标题,将文本提取与创意生成分开。
    • 参与者强调,在选择方法之前,明确是要进行 OCR 还是构思新语言非常重要。

Stability.ai (Stable Diffusion) Discord

  • Janus 引起争议:社区成员批评 Janus,称其 7B 变体版本速度慢且缺乏强大的图像生成能力,部分人对其主要用途表示怀疑。许多人更倾向于 SDXL,同时期待 Janus 最终的改进。
    • 一位用户认为,相比之下大多数基础模型似乎都逊色一些,建议社区在未来的升级解决这些问题之前先对 Janus 保持观望。
  • AMD 运行 Stable Diffusion 的途径:贡献者建议参考 tech support 频道中的置顶指南,以获取在 AMD 显卡上运行 Stable Diffusion 的最佳方法。他们建议使用 Swarm UIwebui-forge 以在此类配置上实现稳定功能。
  • RAM 与 VRAM 之争:关于高系统内存与显存对于 AI 任务价值的激烈辩论。一些人认为额外的 RAM 经常处于闲置状态,而另一些人则倾向于投资 32GB VRAM 以获得更高的成本效益。
    • 讨论中提到了各种构建策略,强调硬件应与预期的工作负载相匹配。
  • Upscalers 依然稳健:成员们注意到,诸如 4x-AnimeSharp4x_NMKD-superscale 等多个放大器已经可靠地服务了两年。他们观察到几乎没有新的替代方案出现,因此这些成熟的工具仍然是标准选择。
    • 尽管更新频率较低,用户仍然发现它们足以在不出现重大问题的情况下提升输出质量。
  • Deepseek 疑虑尚存:一些人质疑 Deepseek 关于提供更无限制 LLM 的说法,并将其与其他流行供应商进行比较。尽管该模型承诺了令人印象深刻的性能,但社区尚未看到改变游戏规则的功能。
    • 他们指出了 Janus-Pro-7B repository,但对于它如何真正与 OpenAI 的产品竞争仍持谨慎态度。

MCP (Glama) Discord

  • Goose 备受好评:新的 Goose client 因其本地执行和广泛的扩展能力而获得赞誉,尽管目前仅支持 Mac 和 Linux。
    • 用户讨论了通过 WSL 在 Windows 上运行它,并参考了 Goose MCP code 以进行未来的跨平台改进。
  • MCP 服务器引发讨论:成员们对社区 MCP 服务器的可靠性提出疑问,并参考了建立经过验证的服务器列表的计划
  • DeepSeek 吸引开发者:参与者注意到 kluster.aiDeepSeek 提供了 100 美元的额度,强调了其成本效率。
    • 他们观察到与旧版本相比推理时间较慢,但仍发现该服务对于实验很有吸引力。
  • Home Assistant 整合 MCP:Home Assistant 的 MCP 集成成为一种可能的媒体管理网关,最近已合并到其核心代码中。
  • Token 话题成为焦点:社区对 Goose 内部的 Token 消耗表示担忧,强调了可靠的使用情况追踪的必要性。
    • 他们建议公开日志以获取更深入的见解,并参考了 Upsonic 的监控最佳实践。

Latent Space Discord

  • Qwen 2.5-Max 强势发力:全新的 Qwen 2.5-MaxArena HardLiveBench 上超越了 DeepSeek V3,目前可通过 阿里云 APIQwen Chat 访问。
    • 开发者们称赞其 MoE 架构和结构化推理 token,并立即将其与 DeepSeek R1 进行了对比。
  • DeepSeek R1 推理领域的“叛逆者”DeepSeek R1 引入了展示清晰思维链 (CoT) 的 token,引发了关于 SFT 对连贯性影响的讨论,详情见 Mark Chen 的论文
    • 另一些人则在讨论 Gemini 2 Flash Thinking 在成本和性能上是否优于 R1,参考了 Dan Mac 的帖子
  • 开源对决:YuE 与 Open ThoughtsYuE 是一款支持多语言的新型开源音乐生成模型,相关细节已通过 Hugging Face 链接 分享,便于进行微调。
    • 与此同时,Open Thoughts 启动了一项大规模行动,旨在策划推理数据集,以增强标准基准测试。
  • 台积电 (TSMC) 关税僵局近期新闻传出将对台湾制造的芯片(包括 TSMC 出口产品)征收 25% 至 100% 的关税
    • 工程师们质疑本土生产能否足够快地提升产能,并指出了培训熟练劳动力所面临的挑战。
  • 华为芯片承载 DeepSeekAlexander Doria 的推文提到,DeepSeek 虽然在 Nvidia H800 上进行训练,但在推理时切换到了 华为 910C,这表明硬件依赖性正在发生转变。
    • 这一转向引发了关于为大规模 AI 工作负载重构中国本土供应链的进一步讨论。

Notebook LM Discord Discord

  • NotebookLM 收集更多反馈:团队正通过 30 分钟的产品访谈收集用户输入,以改进协作功能,并敦促用户填写 调查问卷
    • 他们还计划为源文件添加评论和音频编辑功能,旨在提供由用户驱动的控制和自定义选项。
  • Rax 的 DeepSeek 震撼弹引发市场恐慌:一只名为 Rax 的赛博朋克浣熊接管了时代广场的广告牌,揭露了中国初创公司的 AI 助手 DeepSeek,导致大型科技公司市值缩水 7000 亿美元,参考了 YouTube 揭秘视频
    • 这一颠覆性的揭露震惊了业界,引发了关于未来 AI 进步如何进一步动摇全球市场的辩论。
  • 超厚教科书引发文档处理难题:用户在上传两本大型环境工程教科书时质疑其可行性,警告这就像是大海捞针
    • 他们建议将庞大的源文件进行切分,以获得更好的查询准确性,这凸显了目前 NotebookLM 在数据处理方面的局限性。
  • Gemini 传闻引发期待:社区传闻暗示 Gemini 2.0 Flash 将集成到 NotebookLM 中,预示着更先进的 Deep Research 潜力。
    • 用户推测可能会集成 Gemini Pro,但官方计划尚未披露。
  • 对自动化引用工具的呼声日益增高:参与者抱怨手动添加引用耗费时间,强调了更快捷的参考文献管理的重要性。
    • 他们希望 NotebookLM 能够简化来源引用流程,期待未来的更新能减少学术研究中的阻力。

GPU MODE Discord

  • LLM 极速启动时间:一次讨论探讨了如何通过使用 GPU-direct storageModal memory snapshots,将 128GB 模型的加载时间从 2 分钟大幅缩减。
    • 他们的目标是在配备 4 张 L40 和快速 NVMe 的环境下实现几秒内启动,同时参考了 torch.distributed 作为并行加载的基准。
  • 活跃的 FP8 探索:工程师们探索了使用 随机舍入代码bfloat16 转换为 FP8
  • DeepSeek R1 蒸馏版亮相:新发布的 DeepSeek-R1 提供了开放权重和更小的蒸馏版本,以便于 ML 研究。
  • Tile Lang 为 BitBLAS 登场:开发者通过发布 Tile Lang 推进了 BitBLAS 的进展,该项目自 10 月以来的提交中就已初见端倪,旨在编写缺失的反向 Kernel。
    • 他们期望这一补充能解决 GPU 扩展中的性能差距,从而实现更高效的操作。
  • Reasoning Gym 处理许可证问题:一个 关于 CLRS 任务的 PR 引发了对 Jax 依赖项和 Apple 数据集不兼容性的担忧。
    • 团队讨论了复制算法和生成新的 GSM8K 模板,以避免许可证麻烦,同时应对多重许可的担忧。

LLM Agents (Berkeley MOOC) Discord

  • 无异步,没问题:成员们发现 SP24 春季学期课程 将不提供异步证书,并指向了 CS294/194-280 (Spring 2025) 的官方指南。
    • 他们澄清说未来的课程可能会采用异步形式,而 MOOC 参与者仍可以通过填写注册表单获得证书。
  • 及时为 MOOC 提供讲义:一位用户发现 课程讲义 通常在课后发布,导师会尽力提前将其发布在课程网站上。
    • 另一位用户确认讲义已经 上线,建议快速检查平台以获取最新材料。
  • 黑客松暂停:人们询问本学期是否有 黑客松,希望能组建团队,但工作人员确认 SP24 期间没有计划举办此类活动。
    • 在一条置顶消息中,工作人员表示 “SP24 未安排黑客松”,未来的项目政策将分享给 MOOC 参与者。
  • YouTube 编辑与 NotebookLM 见解:成员们批评了一个 4 小时YouTube 讲座视频,该视频在 35 分钟 后才正式开始,促使计划进行编辑以移除填充片段。
    • 另一位用户强调了 NotebookLM 在研究任务中的作用,并链接到 Google NotebookLM,该服务可以将上传的 PDF 转换为对话式的综述。

Nomic.ai (GPT4All) Discord

  • 解决 Jinja 模板混乱:多位用户报告了 chat templates 的语法问题,并探索了基于 Jinja 的调整来修复角色定义。
    • 一个修正后的 Jinja 代码片段缓解了问题,但大家仍在交流捕捉隐藏语法陷阱的技巧。
  • DeepSeek 蒸馏版与部署:用户讨论了在 GPT4All 上运行 DeepSeek 的成功案例,并分享了一个用于模型下载的 Hugging Face 链接
    • 其他人提到了在保留聊天上下文方面的挑战,强调了结果参差不齐,但对其扩展使用仍充满好奇。
  • GPT4All 路线图传闻:社区成员对 GPT4All 的发展方向表示担忧,注意到对 Chain of Thought 等功能的重复请求。
    • 一些人怀疑开发者对这些增强功能的关注度,认为未来尚不明朗,但仍值得关注。
  • LocalDocs XLSX 迷局:人们发现尝试在 LocalDocs 中上传 XLSX 文件时,尽管上传成功,但扩展名会被意外剥离。
    • 用户呼吁扩大格式支持,引发了对即将到来的修复或解释的猜测。
  • Web Search Beta:真实还是传闻?:一位用户询问 GPT4All 中的 Web Search 是否仍在持续演进,并参考了 官方 GitHub 文档
    • 粉丝们似乎渴望看到该功能的进展,要求更新进度或发布新版本。

Torchtune Discord

  • Torchtune 混乱与 Torchrun 轶事:参与者在 Mac 上运行 Torchtune 的分布式 recipe 时遇到了重复的 import errorsc10d 问题,参考了 PyTorch distributed_c10d.py 并调整了 torchrun 命令。
    • 他们讨论了多节点设置的 distributed init protocols,抱怨文档太少,并开玩笑说通过“串联 Mac mini”来简化 distributed debugging
  • 挑剔的对比与过时的模型:一位用户质疑最近一次对比中的所有 models 是否都已过时,并附上一张 image 作为补充背景。
    • 他们没有提供关于该 image 的更多细节,让社区猜测是数据陈旧还是需要更新模型参考。

LlamaIndex Discord

  • DeepSeek 助力 LlamaIndex 提升:LlamaIndex 宣布了与 DeepSeek-R1 API 的官方集成,支持使用 deepseek-chatdeepseek-reasoner
    • 推荐的设置方式是 %pip install llama-index-llms-deepseek,可立即访问增强的模型功能。
  • SOFTIQ 将标书分析缩短至 10 分钟:新的 SOFTIQ SaaS app 使用 LlamaIndex 工作流将公共部门标书的分析时间缩短至每份不足 10 分钟
    • 这种方法提高了筛选准确性,减少了建筑公司的无效工作。
  • LlamaReport 文档即将发布:成员确认 LlamaReport 文档正在编写中,很快就会发布,并参考了 Twitter 链接 获取更新。
    • 他们暗示了即将推出的功能,但建议社区关注官方文档的发布。
  • 文档中的死链被清理:一个 Pull Request 删除了 fine-tuning.md 中一个失效的链接,该链接经确认已从代码库中消失。
    • PR 是一个单行修复,清理了不必要的引用。
  • RAG 检索与 FastAPI 流式传输的应用:一位用户探索了在推理模型步骤中触发 RAG retrieval,参考了 Search-o1 论文
    • 其他人建议在 FastAPI 中使用异步生成器进行流式传输,然后将检索结果注入到正在进行的响应中。

Modular (Mojo 🔥) Discord

  • 文档故障与快速恢复:文档曾暂时无法访问,但现在已恢复,包括 nightly 版本中的 GPU package API documentation
    • 社区成员对快速修复表示赞赏,一位用户在等待时开玩笑说“耐心是我的座右铭”。
  • Deepseek 对阵 Modular:拖拉机之争:一位用户声称 Deepseek 掩盖了 Modular 的光芒,因为其通过 MaxMojo 实现了类似的目标。
    • 其他人反驳说它们用途不同,将 Modular 比作“拖拉机商店”,是为农民提供装备而非竞争。
  • MAX & Mojo 仓库调整nightly 分支现在更名为 main,接收频繁的提交,而 stable 分支则镜像最新的稳定版本 24.6
    • 开放的 Pull Request 将相应移动,开发者必须运行指定的 Git 命令以与这些更新的分支保持一致。
  • 回调混乱与捕获失效:一位用户发现 write_node 函数在捕获回调时内存引用变成了垃圾数据,导致他们通过移除捕获来修复问题。
    • 闭包中的字符串捕获仍然存在问题,并分享了一个 GitHub Gist 以进行更深入的排查。

tinygrad (George Hotz) Discord

  • Flip 还是 Flop?Tinygrad 的 100 美元悬赏:针对 PR #8781 的 100 美元悬赏提议在 tinygrad 中用 flip 替换 stride,使新开发者更容易贡献。
    • 一些人想知道通过所有测试是否足够,或者是否需要更深层的调整来最终确定 flip 方法。
  • FP8 热潮:Python CUDA 还是拉胯:在 tinygrad 中推动 FP8Python CUDA emulator 引发了关于内存特性的争论,因为 struct.pack 缺乏对 FP8bfloat16 的直接支持。
    • 某些成员倾向于使用新的数据存储工具,而其他人则质疑其复杂性和潜在的开销。
  • MathTrait 合并:Log2 登台:开发者考虑统一 MathTraitSimpleMathTrait,可能将 Tensor 中的 log2 等操作委托给单个 trait。
    • 他们讨论了保留现有文档并澄清函数调用,以实现更一致的代码库。
  • AllClose 还是全乱套?:一个引入 Tensor.isclose()Tensor.allclose() 的 PR 借鉴了 torch 的逻辑,但 (self - other).abs() <= atol + rtol * other.abs() 的测试失败了。
    • 贡献者怀疑边缘情况或内部定义可能是导致不稳定的原因,并对负 stride 的使用提出了质疑。
  • Swizzle 难题与 Tinygrad 教程:成员们询问了 swizzle 的含义,并在 conv2d 讨论中重新审视了将负 stride 作为 flip 加正 stride 的方法。

Cohere Discord

  • 无值得注意的公告 (1):提供的讨论中没有出现重大或引人注目的技术更新。
    • 因此目前没有相关的进展需要强调。
  • 无值得注意的公告 (2):对话集中在日常问候和细微的故障排除,没有更广泛的影响。
    • 结果是,没有突出的主题需要详细报告。

LAION Discord

  • 语音滑块提升语言多样性:一位参与者指向了一个 Colab notebook,用于测试调整语音参数设置的方法,旨在提高清晰度的同时拓宽输出风格。
    • 他们征求反馈,并提出多样化的参数配置可以在不牺牲听众理解度的情况下保持声音的独特性。
  • 营销组合中的 AI Agent:一位具有营销思维的参与者呼吁 AI Agent 协作,特别是将多 Agent 解决方案整合到自动化工作流中。
    • 他们邀请专家团队进行实际应用,提供私信或服务器线程作为联系方式。
  • MoE 预算声明引发质疑:一些成员对 600b MoE 的计算量声明表示怀疑,并将其与 Llama3 报告的 7.7m GPU hours 进行了比较。
    • 他们认为,以更少的激活参数在 8 bit 下运行 MoE 仍然无法令人信服地大幅削减总 GPU 预算。
  • MoE vs. Llama3 GPU Hours 对决:虽然 MoE 在理论上有 2x FLOPs 的优势,但许多人怀疑将 GPU hours 从 7.7m 削减到 2.7m 是否可行。
    • 鉴于 600b 级别训练的巨大规模,他们认为所述的节省只是大胆的推测。

Axolotl AI Discord

  • H200 价格是 5090 的 16 倍:一位成员吹嘘以 509016倍 价格售出了 H200,理由是其具有 3.41x 的 VRAM 优势,引发了其他人的幽默反应。
    • 他们确认这种销售已经发生过多次,称赞了这个倍数并开玩笑说自己运气好。
  • 对多轮 Kto 的好奇:一位好奇的用户询问了多轮 kto 的性能,寻求来自该小组的更多数据或见解。
    • 该问题没有获得进一步的回应,使对话保持开放以待后续讨论。

OpenInterpreter Discord

  • OpenInterpreter 技能失效引发配置困扰:一位用户在发现 OpenInterpreter 忽略了之前学习的技能后,花费数小时进行调试,这可能是由于 import_skills=False 的默认设置导致的,该用户对此表示沮丧。
    • 他们强调高级用法仍受阻,呼吁“在代码层面进行修复”以恢复完整功能。
  • API Base 与源码手术:开发者怀疑 API base 在当前形式下可能会失效,暴露出需要彻底修补的深层集成缺陷。
    • 一名成员认为 source code 的更改至关重要,坚持认为表面的调整无法解决根本问题。

Gorilla LLM (Berkeley Function Calling) Discord

  • Gorilla 获得提示词增强:他们解释了如何通过 model_handler/constant.py 中的标准 metaprompt 注入 system prompts 及其函数,帮助 Gorilla LLM 以更高的一致性处理 function calls
    • GitHub 页面展示了 visual repository layout(可视化仓库布局),演示了如何针对函数调用任务对 Gorilla 进行训练和评估,阐明了流水线的每个组件。
  • Weights & Biases 带来追踪胜利:一位成员推荐使用 Weights and Biases 来增强 Gorilla LLM 评估期间的可追溯性,强调了在标准指标之外检查轨迹 (inspect trajectories) 的能力。
    • 其他人认为该建议很有帮助,提议通过详细日志对 Gorilla 的整体性能进行更好的分析和迭代改进。

DSPy Discord

  • 锁定并加载:DSPy 中的 Poetry 修复:一个公开的 Pull Request #6755 已提交以修复 poetry lock,解决了问题 #6644
    • 该 PR 旨在解决 DSPy 中持久存在的依赖问题,提升项目未来增强的稳定性。
  • 社区为 Poetry Lock PR 欢呼:成员们强调,修复 poetry lock 对于 DSPy 的稳定工作流和实现更一致的开发至关重要。
    • 他们乐观地认为该 PR 将很快被合并,因为它解决了贡献者面临的一个主要瓶颈。

MLOps @Chipro Discord

  • DeepSeek 大幅削减 ChatGPT 成本:来自中国的新开源模型 DeepSeek 在基准测试中轻松超越 ChatGPTClaude,而成本仅为后者的 1/20 到 1/30。
    • 观察人士注意到市场可能会出现震荡,科技巨头对 DeepSeek 的迅速崛起感到担忧。
  • 直播工作坊聚焦 DeepSeek 优势:一场将于 1 月 30 日星期四晚上 9:00 (IST) 举行的免费活动将重点展示实时性能对比,从编程任务到数学挑战,DeepSeek 均领先于 ChatGPT
    • 参与者可以构建一个由 DeepSeek 驱动 的应用程序,并学习如何使用 V3R1 模型立即节省成本。

Mozilla AI Discord

  • Mozilla 在 FOSDEM 2025 的盛大聚会:Mozilla 将赞助于 2 月 1 日和 2 日在布鲁塞尔举行的 FOSDEM 2025,这是一个为寻求跨项目协同的开发者准备的免费活动。
    • 他们的目标是聚集渴望交流代码技巧、结识同行并支持开源进展的热心人士。
  • 协调 FOSDEM 协作:Mozilla 敦促参与者加入 Discord 协调线程 来规划聚会并集思广益。
    • 他们欢迎所有参与者团结一致,分享经验,推动开源倡议向前发展。

HuggingFace Discord 没有新消息。如果该公会长时间保持沉默,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该公会长时间保持沉默,请告知我们,我们将将其移除。


第 2 部分:频道详细摘要与链接

完整的各频道详细分解内容已针对邮件进行截断。

如果您想查看完整内容,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预谢!