ainews-not-much-happened-to-end-the-year

这句话可以翻译为: * **年底没发生什么特别的事。** (最直接的翻译) * **这一年平平淡淡地结束了。** (更具文学感,侧重于氛围) * **岁末并没有什么大事发生。** (稍微正式一点)

强化微调 (RFT) 作为一种高效利用数据的方法被引入,它通过首次正确解 (FCS)贪婪多样化解 (GDS) 等策略,利用极少的训练数据来提升大语言模型 (LLM) 的推理能力DeepSeek-V3 是一款拥有 6710 亿参数的 MoE(混合专家)语言模型,在 14.8 万亿个 token 上通过 FP8 混合精度训练而成,突显了大模型和开源 LLM 领域的进步。

2025 年 AI 的预测包括小模型的增长、多模态化以及开源 AI 面临的挑战。AI 对软件开发岗位的影响表明,随着 AI 自动化低技能任务,开发者需要具备更高的智能水平专业化能力CodeLLM 的增强功能通过原地编辑流式响应等特性提升了编程辅助体验。

自然语言强化学习 (NLRL) 为 AI 规划和评判提供了更好的可解释性和更丰富的反馈。AI 招聘正迅速增长,初创公司正在寻找 机器学习 (ML)系统架构方面的优秀工程师。RivetBuzeeKonfig 等新型 AI 驱动工具利用 RustV8 隔离机制 (V8 isolates) 等技术,改进了实时应用、搜索和 SDK 生成。

#reinforcement-learning #reasoning #training-data #mixed-precision-training #open-source #multimodality #software-development #natural-language-processing #interpretability #developer-tools #real-time-applications #search #sdk-generation deepseek-v3 code-llm o1 sonnet-3.5 deepseek smol-ai

一个安静的跨年夜正是我们所需要的。

2024/12/30-2024/12/31 的 AI News。我们为你检查了 7 个 subreddits、433 个 Twitters32 个 Discords(215 个频道和 1948 条消息)。预计节省阅读时间(以 200wpm 计算):238 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!

如果你正缺少“Year In Review”类型的内容,你可能会喜欢 Latent.Space 2024 Year in Review2025 AI Engineer Reading List


AInews 2025 年广告位已开放!发送邮件至 swyx@smol.ai 并抄送 will@diamondquarters.com,让你的内容每天展示在 3 万名 AI Engineers 面前。


目录频道摘要已移至此邮件的网页版:


AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成,取 4 次运行中的最佳结果。

AI 模型与研究

  • 强化微调 (Reinforcement Fine-Tuning, RFT)@corbtt 介绍了 Reinforcement Fine-Tuning (RFT),这是一种增强 LLM 推理能力数据高效方法。RFT 通过利用 First-Correct Solutions (FCS)Greedily Diverse Solutions (GDS) 等策略,使模型能够从极少的训练数据中学习,从而提高结果过程效率

  • DeepSeek-V3 与开源 LLM@tom_doerr 展示了 DeepSeek-V3,这是一个拥有 671B 参数的 MoE 语言模型,在 14.8 万亿 token 上通过 FP8 混合精度训练而成。此外,@cognitivecompai 强调了像 DeepSeek 这样的开源 LLM 的重要性,突出了它们在扩展推理 (scale inference)增强可访问性方面的潜力。

AI 预测与趋势

  • 2025 年的 AI@alexalbert__@TheTuringPost 分享了对 2025 年 AI 的全面预测,涵盖了 benchmark 分数模型进展行业动态以及 Agent 的兴起。这些预测包括小型模型的激增、多模态 (multimodality) 的增加以及开源 AI 面临的持续挑战。

  • AI 对软件开发岗位的影响@svpino 预测 AI 将显著提高软件开发者的门槛,为了保持竞争力,开发者需要具备更高的智力水平专业化能力。随着 AI 处理更多低技能任务,预计这一趋势将导致开发者数量随时间减少,迫使专业人士不断提升技能 (upskill) 并进行适应

AI 工具与开发

  • CodeLLM 增强功能@bindureddy 宣布了 CodeLLM 的更新,包括原地编辑代码 (edit code in-place)流式响应 (streaming responses),以及对所有 SOTA 模型(如 CodeLLMo1Sonnet 3.5)提供无限配额。这些增强功能旨在使编程助手更加高效易于使用

  • 自然语言强化学习 (Natural Language Reinforcement Learning, NLRL)@TheTuringPost 详细介绍了 NLRL 的优势,例如更好的可解释性更丰富的文本反馈,以及对 LLM 规划和批判能力的增强。NLRL 利用自然语言进行决策并提供解释,从而提高 AI 系统的稳定性有效性

AI 行业与就业

  • AI 招聘机会@corbtt 正在扩大团队,寻找 ML系统领域的资深工程师。该公司拥有 40% 的月环比增长,且技术团队仅 5 人,提供了一个从快速增长的 AI 初创公司中学习并产生重大行业影响的机会。鼓励感兴趣的候选人带着令人印象深刻的项目进行 DM

  • AI 工具发布与集成@tom_doerr 等人介绍了各种 AI 驱动的工具,如用于实时应用Rivet、用于全文搜索Buzee,以及用于生成 SDK 和 API 文档Konfig。这些工具利用 RustV8 isolatesPostgreSQL 等技术来增强开发者工作流应用功能

AI 政策、伦理与社会

  • 监管挑战与合作伙伴关系@DeepLearningAI 讨论了科技巨头如何与 AI 初创公司建立创意合作伙伴关系,作为应对日益严格的监管审查而采取的收购替代方案。这一策略旨在应对监管挑战,同时继续在 AI 行业内进行创新

  • AI 法案 (AI Act) 与竞争担忧@BrivaelLp 主张废除 AI 法案 (AI Act),认为监管约束正在阻碍 AI 领域竞争力。这一立场反映了关于先进 AI 技术开发过程中监管与创新之间平衡的持续辩论。


AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. DeepSeek V3:硬件要求与性能

  • 运行在 llama.cpp 上的 DeepSeek V3 祝你新年快乐! (Score: 175, Comments: 51):该帖子重点介绍了在 llama.cpp 上运行的 DeepSeek V3,可能展示了其性能潜力,但缺乏关于实现或结果的具体细节或背景。
    • 性能指标与硬件详情DeepSeek V3 在配备 12x32GB RAM(总计 384GB)的 Epyc 9374F 配置上实现了约 7-9 tokens per second (t/s)。该模型被量化为 Q4_K_M,占用 377GB 磁盘空间,性能指标因内存位置和 Prompt 具体情况而异。
    • 实现与开发:该模型尚未完全投入运行,因为开发人员仍在努力在 llama.cpp 中实现新的 pre-tokenizer regex。该 Regex 详情为:"Regex": "[!\"#$%&'()*+,\\-./:;<=>?@\\[\\\\\\]^_\{|}~][A-Za-z]+|[^\r\n\p{L}\p{P}\p{S}]?[\p{L}\p{M}]+| ?[\p{P}\p{S}]+[\r\n]|\s[\r\n]+|\s+(?!\S)|\s+"
    • 社区参与及未来前景:用户对该项目的进展和潜力表示热烈欢迎,一些人预测到 2025 年会出现更经济的模型。讨论还强调了在模型开发中使用 Regex 的挑战和好处,一些用户赞赏语言模型生成 Regex 模式的能力。
  • 为什么还没有大量的 DeepSeek V3 第三方供应商? (Score: 63, Comments: 59):DeepSeek V3 的最先进模型已开放下载和商业使用,但目前仍缺乏提供相关服务的第三方供应商。作者表示愿意为受信任公司提供的 Prompt 立即删除服务支付溢价,并质疑为什么其他国家没有利用非制裁渠道获取顶尖 AI 芯片。
    • DeepSeek V3 的规模与托管挑战DeepSeek V3 是一个拥有超过 6000 亿参数 的巨型模型,这使得第三方供应商托管它的挑战大且成本高。许多供应商(如 Together)曾尝试托管,但由于模型规模以及 DeepSeek 自身提供的促销定价,面临着吞吐量低和盈利难等问题。
    • 市场时机与基础设施就绪情况:讨论指出假期季节可能会影响托管服务的可用性,预计随着新一年的推进,将会出现更多供应商。目前用于托管像 DeepSeek V3 这样的大型模型的基础设施尚未优化,影响了托管的速度和成本效益。
    • 数据隐私担忧与定价:数据隐私问题备受关注,一些用户愿意支付溢价以防止其数据被 DeepSeek 用于训练。此外,DeepSeek 的官方 API 因其价格和速度受到称赞,但目前的促销定价使得第三方供应商在不亏损的情况下难以竞争。

主题 2. 阿里巴巴 LLM 降价:一次颠覆性的举动

  • 随着中国 AI 竞争加剧,阿里巴巴将大语言模型价格下调高达 85% (Score: 250, Comments: 95):Alibaba 大幅下调了其 large language models (LLMs) 的价格,降幅高达 85%,反映了 中国 AI 市场 日益激烈的竞争。此举是科技公司为应对 AI 开发领域日益增长的竞争而采取的更广泛成本削减趋势的一部分。
    • 中国的绿色能源与 AI 进展:评论者强调了中国在绿色能源领域的领导地位,指出其生产了全球 30% 以上的绿色能源,并有望提前 六年 实现气候承诺。中国对 AI 和电动汽车 (EVs) 的关注得到了政府巨额补贴和产业协同效应的支持,使其在价格和创新方面具有竞争力。
    • 排放对比与工业产能:讨论强调,尽管中国的工业产出巨大,但其 人均二氧化碳排放量 低于美国。美国仍是主要的化石燃料生产国,而中国正在扩大其绿色能源产能,包括大规模的太阳能装置。
    • AI 与技术发展:提到了中国在 AI 领域的进步,例如 Qwen 和其他 LLM 的开发,一些评论者对在西方获取这些技术表现出兴趣。竞争格局正在压低成本,Qwen-VL-Plus 的定价为 每千 tokens 0.0015 元
  • 有趣的 DeepSeek 行为 (Score: 118, Comments: 86): 这篇题为 “Interesting DeepSeek behavior” 的帖子没有正文内容,未提供关于 Alibaba 及其对全球 AI 市场影响的具体细节或背景。
    • 讨论重点关注 AI 模型中的审查 (censorship) 制度,并对中国美国公司进行了比较。评论者指出审查是行业标准做法,DeepSeek 因其位于中国而面临更严格的监管,而像 ChatGPT 这样的美国模型也遵循当地法律和准则。
    • 针对模型行为和审查实施方式展开了辩论,一些用户认为模型拥有辅助审查机制,而不是修改基础训练数据。这在 Gemini 等模型中有所体现,它们拒绝参与某些话题,表明使用了 guard model 来管理敏感内容。
    • 对话涉及过滤训练数据以避免不良内容的经济和技术可行性。一位用户认为从训练集中排除特定内容可能更有效,而另一位用户指出大规模执行此操作的计算成本很高,且模型受益于接触正面和负面样本,以提高对齐 (alignment) 和可控性 (steerability)。

主题 3. Qwen:适用于各种应用的首选 LLM

  • 2024 年底你主要使用的本地 LLM 是什么? (Score: 285, Comments: 185): Qwen2.5 32B 被强调为作者首选的本地 LLM,因为它在 24GB GPUs 上表现出色,即使在发布三个月后依然如此。作者征求社区关于年底最受欢迎的本地 LLM 选择的意见。
    • Qwen 模型:许多用户在各种任务中青睐 Qwen2.5 模型,特别提到了用于通用场景的 Qwen2.5-32B 和用于编程的 Qwen2.5-Coder 32B。一些用户还更喜欢体量更大的 Qwen2.5-72B 进行编程,尽管在某些硬件配置上运行较慢。
    • 替代方案与比较Mistral Large 2411Gemma 2 系列经常被用于通用目的和创意任务,一些用户认为 Mistral Large 优于更新的模型。Llama 系列,特别是 Llama 3.1Llama 3.3,也因其在创意写作和通用任务中的多功能性而广受欢迎。
    • 技术偏好:用户讨论了模型大小、量化级别(如 Q4Q5Q6)与性能之间的权衡,一些人选择像 Gemma-2-9b 这样的小型模型以获得高性价比的性能。此外,对特定用例(如编程)也存在浓厚兴趣,Deepseek v3 等模型因其在回答特定编程问题时的卓越表现而受到关注。

主题 4. 2024 年的 DeepSeek:影响力和市场渗透

  • 2025 年你希望在 Unsloth 中看到什么? (Score: 55, Comments: 108): Unsloth 开发者对社区支持表示感谢,并征求用户对 2025 年未来功能的意见。他们邀请用户提出宏大或微小的更新建议,例如 Diffusion/Whisper 支持Unsloth RAGApple 兼容性,并征求关于当前功能、缺失特性、易用性和文档需求的反馈。
    • 用户表达了对 UI 改进的强烈愿望,以简化模型微调和管理,建议开发基于 Gradio 的 UI 以增强初学者的易用性并简化数据集处理。Apple/Mac 支持也是一个热门请求,以便在 MacBook Pro 上进行本地训练。
    • 技术需求包括对 10B 以下模型的全量微调 (full-finetuning) 支持、跨多块 GPU 的分布式训练,以及 AWQ 转换和微调能力。用户发现当前的转换过程非常耗时,一位用户提到 Llama 3.3 70B 模型的转换时间长达 8 小时。
    • 重点在于为更智能的推理模型创建高性价比的数据集和训练参数,特别是针对那些 GPU 资源有限的用户。社区对现有的 AMD 和 Intel GPU 支持表示赞赏,并期待即将推出的多 GPU 支持,该功能预计将于明年年初开源。

其他 AI Subreddit 回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT

主题 1. Deepseek 对决 OpenAI 01:争议性主张与社区反应

  • Deepseek 声称在多个推理基准测试中击败了 OpenAI 的 01 模型 (Score: 109, Comments: 89):据 Hacker News 报道,中国 AI 初创公司 Deepseek 声称其最新的 R1 模型 在多个推理基准测试中表现优于 OpenAI 的 01。该帖子引发了人们对这是一项真正的成就还是公关噱头的怀疑。更多详情可以在此处链接的文章中找到。
    • 怀疑与批评:社区对 Deepseek 的 R1 模型 存在显著的怀疑,许多评论者对其优于 OpenAI 的 01 表示怀疑。flysnowbigbigFranklinLundy 等用户批评了该模型的性能和可信度,认为这可能只是为了博取关注,或者是对西方模型的复制,缺乏真正的创新。
    • 开源 vs. 私有模型:一些评论者(如 SonOfThomasWayneinformationWarfare42)讨论了像 Deepseek 这样的开源 AI 模型的优势,强调开放权重(open weights)可以使 AI 开发民主化,而不像 OpenAI 那样的封闭模型。
    • 地缘政治担忧:讨论还涉及对中国 AI 发展战略的担忧,HateMakinSNsiperson4213 对中国可能通过复制和压低成本在 AI 领域占据主导地位表示担忧,这可能会产生全球性影响,包括对核心技术和资源的控制。

主题 2. 用于邮件知识保留的 RAG:隐私担忧与实现

  • 对 40GB 的 Outlook 收件箱进行 RAG - 长期员工离职,保留知识(理论) (Score: 113, Comments: 79):该帖子讨论了使用 Retrieval-Augmented Generation (RAG) 技术从一名长期员工的 40GB Outlook 收件箱中保存公司知识的概念。作者设想使用本地 LLM 和开源 Web UI 从收件箱创建一个数据库,然后将其交给 Hugging Face 来管理查询,并根据历史通信数据建议回复。
    • 隐私与法律问题:包括 GamleRosander-Akos- 在内的几位评论者强调了潜在的隐私问题和法律限制,特别是在欧盟的 GDPR 法规下,未经所有相关方同意,可能禁止对个人电子邮件数据进行索引。-Akos- 还指出了将数据暴露给 Hugging Face 等外部方的风险。
    • 技术实现与替代方案edemmeister 描述了一个成功实现的 RAG app,该应用使用在本地部署的 embeddings modelLLM,可以处理各种数据源并自动回复服务台请求。SpecialistCobbler206 建议创建电子邮件的简缩版本,以便在构建有用的知识图谱的同时维护隐私。
    • 数据准确性与相关性Fast-Satisfaction482 对信息的演变性质表示担忧,即过去正确的答案随着时间的推移可能会变得错误,并建议 temporal graph RAG(时序图 RAG)可能比静态数据库更有效。

AI Discord 回顾

由 o1-mini-2024-09-12 生成的摘要之摘要之摘要

主题 1. AI 模型性能之战愈演愈烈

主题 2. AI 工具与平台增强

主题 3. 数据隐私与 AI 伦理担忧

  • Codeium 用户辩论数据隐私与 AI 伦理:成员们对在敏感代码上使用专有 AI 工具表示怀疑,权衡了先进 AI 建议的益处与潜在的数据窥探风险,并更倾向于使用 open-source 解决方案以确保数据安全。
  • Nous Research AI 强调治疗技术的纠葛:讨论集中在 AI 在治疗中的应用,强调了数据泄露的风险以及维护患者隐私的挑战,特别是在 2022 年 NHS IT 公司遭黑客攻击之后。
  • Stability.ai Discord 呼吁采取防诈骗措施:成员们呼吁加强安全措施,如电话验证和验证码,以打击反复出现的诈骗企图,强调了保护社区免受身份盗用和数据抓取的重要性。

主题 4. 硬件与 GPU 优化策略

  • Groq 的 LPU 推理引擎刷新 AI 速度纪录Groq LPU 推理引擎实现了 241 tokens per second,挑战了传统 GPU,并引发了关于系统 RAM 与 Cerebras WSE-3 等专用硬件的讨论。
  • Raspberry Pi 5 测试凸显 GPU 局限性:在 Raspberry Pi 5 上使用 llama.cpp 的测试揭示了在 VideoCore VII 上编译 Vulkan 后端的挑战,其中 Bielik-1.5B 模型仅达到约 7 tok/sec,强调了更广泛的 LLM 工作负载需要更高功率的加速器。
  • CUDA 重叠与 Triton 性能调整:社区成员深入研究优化 CUDA 数据传输,将 GPU 运行时间从 15 秒缩短至接近 1 秒,同时还通过禁用 TRITON_INTERPRET 环境变量解决了 Triton 的性能不佳问题。

主题 5. 技术问题与社区支持挑战

  • Codeium Windsurf 编辑器的订阅困扰:用户报告了从 Pro Ultimate 意外降级为免费计划的情况,以及购买的 flex credits 到账延迟,引发了紧急支持工单的提交以及社区对可靠性的沮丧。
  • Aider 的命令执行与 Token 限制困惑:成员们面临 Aider 命令执行尽管有设置但仍需手动确认的挑战,并遇到了持续的 Token 限制错误,导致用户请求更清晰的指导和 Prompt 管理策略。
  • OpenRouter 的模型集成障碍:用户在向 OpenRouter 添加自定义模型时遇到困难,怀疑其对资金充足的提供商有限制,而其他人则探索将个人托管作为变通方案,凸显了对小型开发者提供更好支持和文档的需求。

第 1 部分:Discord 高层级摘要

Codeium (Windsurf) Discord

  • 额度混乱与订阅困扰:在 Codeium (Windsurf) 的讨论中,用户在 User Prompt credits 上遇到了麻烦,一位用户表示 “我四天前支付了 10 美元购买灵活额度(flex credits),但一直没收到。”
    • 其他人报告了从 Pro Ultimate 突然降级为免费版的情况,这促使人们建议提交 支持工单 以快速解决问题。
  • Windsurf 等待时间令人疲惫:一些人发现 Windsurf 反应迟缓,即使是在付费计划中,提示词之间也要等待超过 20 分钟
    • 用户要求更快的响应和更智能的 guardrails,希望能减少失误并保持编码过程无压力。
  • WSL 担忧与 Linux 偏好:开发者抱怨 Windows Subsystem for Linux (WSL) 的可靠性,理由是代码执行障碍和烦人的设置步骤。
    • 许多人拥护直接安装 Linux 以规避这些陷阱,更倾向于在调试时减少故障。
  • 网页爬取愿望与仓库变通方案:用户强烈要求 Windsurf 支持 web crawling(网页爬取)和直接的仓库摄取,希望能尽快推出。
    • 在此之前,一位成员建议使用 Gitingest 将 Git 仓库转换为文本,以便更好地进行 LLM 集成。
  • 数据隐私与伦理辩论:参与者质疑在敏感代码上使用专有 AI 工具的安全性,表示不愿信任封闭系统。
    • 他们权衡了先进 AI 建议带来的好处与潜在的窥探风险,一些人为了安心更倾向于开源方案。

Nous Research AI Discord

  • 治疗技术纠葛与隐私风险:团队成员剖析了 AI 在治疗中 的使用,强调了 监管机构将对医疗记录黑客攻击后的 NHS IT 公司处以罚款 中提到的 2022 年数据泄露事件,该事件揭示了 患者机密 方面的漏洞。
    • 他们得出结论,如果 unique patterns(独特模式)被复杂的模型处理,匿名数据仍可能暴露身份,这引发了对 医疗数据处理 的更深层担忧。
  • Claude 的代码热潮与复杂性难题:爱好者们分享了尝试使用 Claude 3.5 SonnetHaiku 生成 简洁代码 的经历,展示了不同程度的 Token 节省,但在处理更复杂的任务时仅取得适度成功。
    • 他们辩论了 紧凑输出 是否会妨碍长期可读性,指出 代码简洁性 与可维护性之间存在持久的张力。
  • Hermes 3 奇特用法与 Amnesia 模拟:一位用户尝试使用 Hermes 3(非 405b 版本)复制 Amnesia 效果以实现刻意遗忘,认为移除 prompt 可能会模拟这种效果。
    • 其他人开玩笑说 “白板” 方法是最简单的路径,尽管他们承认可能需要更深层的代码调整来确保一致的 内存重置
  • 无反向传播突破与 MCU 魔法:参与者引用了两篇论文:Gradients without BackpropagationPoor Man’s Training on MCUs: A Memory-Efficient Quantized Back-Propagation-Free Approach,这些论文探讨了 非反向传播 方法和前沿优化。
    • 这些引用引发了关于在微控制器上进行 轻量化训练 的讨论,说明了在没有标准梯度方法的情况下实现先进 AI 的可行性。

OpenAI Discord

  • Gemini 的进步与 Discord 的冷清:用户批评 OpenAI 在 Discord 上的参与度极低,而 Gemini 2 Flash 展示了实时搜索并引发了关于竞争的讨论。
    • 一位参与者提到每月在 AI API 上花费 130 美元,这表明用户正在寻求更高效的使用方式和成本控制。
  • 审核策略与 GPT-4o 的怪癖:社区成员遇到了内容审核障碍,特别是在涉及未成年人的敏感话题上,促使一些人完全禁用过滤器。
    • 其他人对 GPT-4o 的角色一致性和图像生成功能的缺失表示担忧,引发了失望情绪。
  • 剧本提升与编码者成长:一位用户在社区的帮助下改进了一个电影剧本,将更流畅的动作和结构归功于一次 Discord 交流
    • 新手编码者通过小组调试提升了技能,称赞反馈增强了他们的信心。
  • 提示词、Markdown 与 LexiDeck:贡献者们拥护使用简洁的提示词来引导 ChatGPT,同时抱怨 Discord 在分享示例时对 Markdown 的支持有限。
    • 一个名为 LexiDeck 的工具作为 ChatGPT 的多 Agent 框架出现,尽管它目前缺乏 Canvas 功能。

LM Studio Discord

  • LM Studio 缺失的 Canvas 功能:一位用户询问在 LM Studio 中生成图像的问题,但目前尚不支持该功能。
    • 另一位用户报告在更新到 v0.3.5 (build 2) 时出现 macOS 权限提示,这归因于 ‘Squirrel’ 更新程序。
  • Steiner 推理模型惊艳大模型:一位用户在 Hugging Face 上发现了 Steiner 推理模型,声称它在 LM Studio 的推理任务中超越了更大的模型。
    • 他们指出在特定场景下其表现优于 Llama 3.3 Q4 70B,引起了对高级逻辑用例的关注。
  • Coral 难题:16W 功率下的 Llama 3.2:成员们讨论了模型大小 <2GB 的 Llama 3.2 1b 潜在运行在限制为 16 瓦的 Coral.ai TPUs 上的可能性。
    • 他们得出结论,TPU 可能难以处理更广泛的 LLM 工作负载,从而促使考虑具有更高功率容量的加速器。
  • Groq 以 241 TPS 提速Groq LPU 推理引擎 因达到 241 tokens per second 而受到赞誉,引发了对其性能和价格的兴趣。
    • 一份 基准测试报告 显示了令人印象深刻的吞吐量,引发了关于系统 RAM 与 Cerebras WSE-3 等硬件对比的问题。
  • MacBook Pro:RAM vs. 仅 CPU:有人认为从 16GB 升级到 32GB 的 MacBook Pro 对 LLM 速度的提升微乎其微,尤其是对于写作任务。
    • 其他人建议如果预算允许可以配置高达 128GB,尽管许多人同意仅 CPU 的设置在性能上仍落后于专用硬件。

aider (Paul Gauthier) Discord

  • DeepSeek 占据主导地位及模型限制:社区成员称赞 DeepSeek 的表现优于 Sonnet 等旧模型,理由是速度提升和解决了竞争对手的问题。
  • O1 API 访问权限困惑:参与者讨论了不同组织之间 O1o1-preview 可用性不一致的问题,引发了对当前访问标准的疑问。
    • 他们请求官方澄清,强调了使用 O1 处理高级任务的兴趣日益增长。
  • Aider 工作流与命令执行怪癖:一些用户报告了 Aider 命令执行方面的挑战,指出即使设置了 AIDER_YES_ALWAYS,直接的 shell 命令仍需要手动批准。
    • 关于 token 限制错误 存在困惑,导致有人建议咨询 /tokens 以深入了解上下文使用情况。
  • 模型切换与基于文件的 Prompt:工程师们探索了在用于编辑的 deepseek 和用于繁重任务的 o1 之间轻松切换的方法,考虑使用脚本或智能命令。
    • 其他人询问将 prompt 保存在专用文件中以便快速重用,认为这与 clinerules 等解决方案具有潜在的协同效应。
  • WebDev Arena 引发激烈的 AI 竞争:新推出的 WebDev Arena 挑战参与者制作顶尖网站,Claude 3.5 Sonnet1218.58 的高分领先。
    • Gemini-2.0-Flash-Thinking-1219GPT-4o-2024-11-20 等高分竞争者突显了竞争的激烈,而实时 排行榜 则鼓励社区持续参与。

Unsloth AI (Daniel Han) Discord

  • Unsloth 的统一 Hymba 行动:工程师们分享了在 Unsloth 流水线中结合两个 LLM 的策略,并讨论了 Hymba-1.5B-Instruct 模型在处理高级任务时的表现,尽管目前存在一些支持方面的小问题。
    • 一些人强调了微调(fine-tuning)最佳实践,而另一些人则指出了高效使用 Unsloth 时可能存在的兼容性问题。
  • 纯干货微调 LLaMA 3:一位用户分享了关于在 Ollama 中优化 LLaMA 3教程,指导大家构建本地个人助手。
    • 社区对 Unsloth 创作者提供的这份结构良好的教程表示赞赏,称赞其改进的设计和参考资料。
  • TTT 攻克 ARC 任务:关于 Test Time Training (TTT) 的讨论显示,该方法在 ARC 数据集上取得了显著进展,在某些情况下准确率提升了 6 倍
    • 引用了一篇论文,引发了关于代码可用性的提问,以便对 TTT 方法进行更深入的审查。
  • 反馈热潮与友好的 Discord 氛围:成员们称赞了 Discord 框架,对服务器积极的氛围和凝聚力表示感谢。
    • 他们还提出了 2025 年 Unsloth 的新功能需求,强调了协作和每个人的开放投入。

Stackblitz (Bolt.new) Discord

  • 关于 Bolt 成本的 Token 之争:一位用户报告称,在使用 ChatGPT 和 Bolt prompt enhancer 时,两天内消耗了 3000 万个 Token,并提醒注意严重的成本影响。
    • 他们告诫社区要更谨慎地管理每月额度,避免为微小的代码调整产生不必要的支出。
  • 项目内的重载困扰:多位贡献者讨论了重载 Bolt 项目应该依赖浏览器刷新还是专门的按钮,一些人倾向于使用基于 AI 的页面特定修复方案。
    • 他们强调,像 Claude 这样的代码提取解决方案通过专注于狭窄的代码段,简化了迭代部署。
  • Bolt Pro 订阅困惑:成员们确认 Bolt Pro 按月提供 Token,澄清了关于每日限额与每月限额的不确定性。
    • 他们还讨论了平台的平台使用限制,对缺乏官方 Bolt 支持表示遗憾,并严重依赖社区见解。
  • Facebook API 带来的挫败感:爱好者们尝试将 Facebook Marketing API 整合到 Bolt 中,产生了巨额 Token 费用但成功有限。
    • 一位用户成功同步了一些数据,但在处理高级权限请求时遇到困难,且缺乏来自 Bolt 方面的直接协助。
  • 表格数据与 AI 工具试验:成员们研究了使用 .csv 格式在 Bolt 提示词中实现平滑数据导入,旨在简化表格处理。
    • 他们还讲述了使用 AI 工具进行编码的成败参半的结果,指出更复杂的构建需要大量的辅助手动干预。

Cursor IDE Discord

  • DeepSeek v3 崭露头角:社区成员在 Cursor 中测试了 DeepSeek v3,称赞其在处理大型数据库和复杂查询时的速度。
    • 他们将其与其他模型进行了比较,强调了其令人惊讶的可用性,而一些人则在寻求许可细节方面的澄清。
  • 托管方案:快速选择:爱好者们讨论了 HetznerDigital Ocean 的性价比和简单设置。
    • 其他人则称赞了 VercelAWS 的协同效应,认为 Docker 技能是实现稳健部署的优势。
  • Next.js 聊天机器人热潮:社区成员分享了使用 Next.jsshadcn 构建聊天机器人的参考资料,推荐使用 vercel/ai-chatbot 作为可定制的方案。
    • 他们建议添加 API key 并遵循设置说明,还引用了 modals-next-test 用于基于 TypeScript 的模态框实现。
  • GitHub Models 助力 AI 工程GitHub 的一项新更新在 GitHub Models 下引入了先进的 AI 工具,这篇官方博客文章对此进行了重点介绍。
    • 用户对 AI 开发者的潜在益处以及通过 GitHub 市场提供免费模型的趋势感到兴奋。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 新模型的准入门槛:一位用户询问如何将他们的模型添加到 OpenRouter,怀疑它可能只适用于资金雄厚的提供商,而其他人则鼓励尝试个人托管方案。
    • 贡献者指出 Not Diamond 是另一个多模型 Router,建议小规模开发者仍可以尝试。
  • DeepSeek v3 表现出色:许多人称赞 DeepSeek v3 在额度消耗和稳定性方面表现一致,特别是与 Claude 等更昂贵的替代方案相比。
    • 一些人坚持认为它在窄任务中仍然有效,并指出了成本与性能之间的权衡。
  • Gemini 2.0 在 NSFW 方面遇到障碍:用户报告称 Gemini 2.0 Flash 在处理 NSFW 图像描述生成时表现不佳,称其在 OpenRouter 上无法使用。
    • 他们还提到了性能问题和严格的上下文限制,这些都阻碍了高级图像分析。
  • Sonnet vs. DeepSeek:竞争之声:参与者对比了 SonnetDeepSeek,其中 Sonnet 在指令遵循(instruction-following)和复杂查询方面更受青睐。
    • 批评者认为 DeepSeek 在高级编程任务上表现不足,尽管它更便宜。
  • 自我审查模型引发辩论:一位参与者询问自我审查(self-moderation)的工作原理,引发了关于违反服务条款时如何触发拒绝消息(refusal messages)的澄清。

Interconnects (Nathan Lambert) Discord

  • 模型自我评估:是魔法还是神话?:成员们质疑为什么类 o1/o3 模型在自我评估方面看起来很有效,讨论了它们可能并没有真正意识到自己的局限性,并怀疑采样方法(sampling methods)才是这些说法背后的推手。
    • 其他人指出强化学习(reinforcement learning)具有路径依赖性,认为自我修正并不是结果质量的核心因素。
  • Nvidia 以 7 亿美元收购 Run:ai:Nvidia 以约 7 亿美元收购了 Run:ai,旨在提升 AI 工作负载中的 GPU 调度。
    • 他们计划开源 Run:ai 的工具,引发了关于此举将如何重塑企业级 GPU 编排(orchestration)的讨论。
  • Gary Marcus 挑起争议:批评者指责 Gary Marcus 很少调整自己的立场,但同时也承认了他的一些观点。
    • 他和其他人辩论了 GPT-4 的真实进展和幻觉(hallucinations)问题,反映了对短期内大规模改进的怀疑态度。
  • 2024 Interconnects 年度回顾洞察:Nathan Lambert 总结了两年的 AI 发展,重点介绍了 RLHF 和开源,以及对 OpenAI o1 模型的期待。
    • 他还评论说,Meta 可能无法仅从 AI 中获得明显优势,并警告说不断扩大的模型规模可能会超过目前的硬件水平。
  • 简短推文与“蜗牛”的回归:社交媒体上的讨论显示,像“we are so back”这样简短、随意的帖子往往能吸引意想不到的互动。
    • Lambert 调侃说,这些随手写的文字可能会引发过度反应,最终演变成了有趣的“蜗牛回归(Return of the Snail)”梗。

Notebook LM Discord Discord

  • Google 严密保护的 Gemini 变得更加严苛:一位用户观察到,与开源 LLM 相比,Google AI敏感话题上的限制更为严格,并以 Gemini 为主要案例,引用了 Google Vertex AI 文档
    • 其他人指出,这种谨慎可能会阻碍医疗或法律领域的高级应用,将其描述为既是安全措施也是一种困扰
  • 播客永久加载困境:一位用户发现 Notebook LM 播客生成器卡在“正在生成对话(Generating conversation)”状态,引发了对潜在性能瓶颈的担忧,并参考了 NotebookLM 文档
    • 参与者建议核实公交路线等数据输入,但尚未确认官方补丁或变通方法。
  • NotebookLM Plus 的进阶特权NotebookLM Plus 扩展了资源使用量并集成了 Gemini Business,参考了此升级指南,并允许用户嵌入 PDF 和 YouTube 链接。
    • 然而,用户报告目前尚不支持批量 YouTube 视频上传,只能逐个插入链接。
  • 语音变化烦恼:成员们批评了语音模型在多语言表现上的不一致,参考 Cloud TTS 文档寻找潜在解决方案。
    • 他们希望 2025 年的改进能解决音调稳定性和跨语言转换的问题。
  • 紧急情况下的 UI 升级:一些人认为新的 NotebookLM 界面过于拥挤,称其具有“幽闭恐惧感”,并希望获得更多屏幕空间。
    • 社区反馈呼吁提供高级布局选项,尽管目前尚未引用官方设计路线图。

GPU MODE Discord

  • CUDA 重叠与 HPC 收益:成员们探讨了 CUDA 中的重叠数据传输和流体模拟调整,参考了 fluidsCUDA
    • 他们的目标是通过优化内存使用,将 15 秒的 GPU 运行时间缩短到接近 1 秒的 OPENMP 速度。
  • Genesis 模拟器神话破灭:一篇新博客透露 Genesis 比旧的 GPU 模拟器慢达 10 倍,打破了此前 430,000 倍提速的说法。
  • Triton 性能波折与 Kernel 技巧:在向量加法(vector-add)测试中,Triton 的表现不如 Torch,直到用户发现是 TRITON_INTERPRET=1 导致了减速。
    • 他们还辩论了整数算术限制,以及手动 Kernel 调优是否能超越 Triton 的自动调度逻辑。
  • 树莓派 5 LLM 测试与速度限制:在配备 VideoCore VII 的树莓派 5 上使用 llama.cpp 进行试验时,Vulkan 后端遇到了编译障碍。
    • 同时,Bielik-1.5B 模型的运行速度维持在 7 tok/sec 左右,而 OpenBLAS 减慢了输入解码速度,而非提高输出速度。
  • 新的 GPU 职位空缺与 HPC 忙碌Cracked 研究工程师职位已发布,面向对高级 GPU 项目感兴趣的人士。
    • 成员们还在寻找位于旧金山的 CUDA 工程师职位、远程 LLM 基础设施工作以及 Triton Kernel 开发机会。

Perplexity AI Discord

  • Pro Reasoning 与 Deepseek 的惊喜:成员们注意到 Perplexity 的 Pro Reasoning 模式 在处理复杂查询时会自动启动,增强了 AI 的内部分析能力,而 Deepseek 则在不同的监管下运行。
    • 参与者想知道中国的规则如何赋予 Deepseek 更多灵活性,并引发了关于法律如何影响输出的讨论。
  • OpenAI 考虑 PBC 路径:贡献者们讨论了 OpenAI 转向公共利益公司(Public Benefit Corporation)模式,旨在平衡利润与社会目标。
    • 他们将这一转变视为对问责制辩论的直接回应,并引用了关于商业 AI 应承担更广泛责任的论点。
  • Sonar 模型与 Perplexity API 备受关注:成员们澄清了 Sonar 模型 擅长提供带有引用的实时网页答案,并建议不要将其分发到其他地方。
    • 其他人探讨了 Perplexity AI API 如何集成到未来的应用中,强调了增强 AI 驱动项目的潜力。
  • Discord 机器人进入高级功能领域:一位用户希望利用 Perplexity AI 的高级会员权益创建一个 Discord 机器人,旨在为聊天体验提供高级功能。
    • 他们计划将这些权益整合到更具动态性的交互中,期待与 API 产生直接的协同效应。
  • 随机视频与优化热议:与会者评估了 YouTube 的随机视频按钮,以查看它是否能提高观众参与度。
    • 他们还指出了内容优化技巧,重点强调了强大的关键词和受众洞察。

Modular (Mojo 🔥) Discord

  • 指针转向:切换到 OwnedPointer:Mojo 开发者将 BoxPointer[Self] 替换为 OwnedPointer[Self],这让一些人措手不及,因为旧名称在 nightly 构建版本中消失了。他们强调了更安全的指针用法,以符合 Mojo 围绕引用和所有权更严格的不变量(invariants)。
    • 反馈显示,一些参与者最初难以找到新的指针类型,因此要求在文档中提供更清晰的参考。这次更名被誉为对 Mojo 指针体系的改进,尽管高级指针模式仍然让人感觉棘手。
  • 自引用传奇:ArcPointer 登场:Mojo 爱好者测试了 ArcPointer 在链式数据结构中用于共享引用的效果,发现可选引用(optional references)通常需要结构性重组。他们辩论是依赖 ArcPointer 还是重新组织代码以避免自引用陷阱。
    • 一些用户指出,如果使用不当,UnsafePointer 可能会引入风险。其他人建议采用替代设计,以获得更可预测的所有权模式和更清晰的生命周期规则。
  • 破坏性变更:Mojo 的 6 个月重写周期:Mojo 维护者确认在 1.0 版本之前,兼容性大约每六个月就会发生变化,这引发了对重复重写的担忧。用户对代码稳定性表示担忧,一些人甚至考虑将 Rust 作为备选方案。
    • 一些参与者对这些变化表示欢迎,认为这有利于在 Mojo 稳定之前进行快速迭代和完善。其他人则建议等待接近 v1.0 里程碑时再使用,以避免过多的迁移烦恼。
  • 提升 ‘max’:API 现代化:参与者观察到 Mojo 的 ‘max’ 函数依赖于较旧的语义,且缺乏稳健的安全引用。他们建议进行彻底的 API 审查,以采用更精细的指针用法和高级类型特性。
    • 当前设置中的隐患可以通过更好地利用值语义(value semantics)移动语义(move semantics)来修复。对更精简方法的呼吁凸显了 Mojo 强化其核心库的雄心。

Stability.ai (Stable Diffusion) Discord

  • Discord 困境:诈骗审查!:成员们指出了 Discord 中反复出现的诈骗企图,敦促使用手机验证或验证码(captchas)来威慑恶意行为者,并提到攻击者是如何不断重新出现的。他们指出,虽然手机验证并不完美,但会增加每次诈骗尝试的成本。
    • 一些人将其描述为“机器人打地鼠”,认为对信任与安全的担忧掩盖了身份窃取和数据收割等真实危害。该小组建议采取紧急方法来保护空间免受渗透。
  • SD3 安全大辩论:一些参与者辩论了 SD3信任与安全方面,部分人希望将这些措施扩展到社区的聊天环境中。他们认为,安全辞令往往会转移人们对紧迫的渗透企图的注意力。
    • 一位用户表示,这些策略分散了对诈骗的关注,揭示了产品营销姿态与真实安全之间的不匹配。另一位用户则认为,讨论被给社区带来负担的“持续渗透”所掩盖。
  • Stability.ai 中的 Faceswap 困局:一位用户询问了 Stability.ai API 中的 faceswap 功能,寻找官方文档中缺失的细节。他们了解到,虽然存在图像处理功能,但缺乏针对 faceswap 强大的时序一致性(temporal consistency)。
    • 响应者强调了该库的局限性,表明它还不是高级面部重建的一站式解决方案。他们建议评估具有更可靠面部对齐功能的第三方工具。
  • LoRA 与 Checkpoint 的抉择LoRA 更新侧重于局部参数,而完全微调的 checkpoints 通常涉及更大的变化,但以磁盘占用为代价。成员们得出结论,两种方法都能产生类似的收益,但 LoRA 通常对资源更友好。
    • 一些人认为完全更新 checkpoints 最适合重大变革,但其他人发现 LoRA 是进行适度改进的理想选择。这种在尺寸和能力之间的平衡使得 LoRA 对那些 GPU 开销有限的人具有吸引力。
  • 新手挑战模型修补!:新用户介绍了自己,寻求关于 Prompt 设计和模型构建的技巧。一些人对 checkpoint 的创建感到迷茫,渴望得到有经验者的建议。
    • 资深用户表示欢迎,建议将 LoRA 或部分微调作为在没有巨大开销的情况下改进模型的有效方法。他们还分享了经过验证的迭代改进技巧。

Eleuther Discord

  • 基于 Tanh 的 RMSNorm 引发讨论:一种使用 tanh 来维持输入 2-范数的新型 Lipschitz-1 RMSNorm 变体因其在 GANs 和残差模型中的潜力而引起关注。
    • 怀疑者担心它可能会阻碍普通模型,但一致认为严格的 Lipschitz 边界对于稳定的残差流(residual flows)至关重要。
  • Pile 数据集的 260B Token 揭秘:一次讨论指出 这篇论文 确认了在约 825.18 GiBPile 数据集中包含约 260B GPT-2 tokens,有时会上采样至约 400B tokens。
    • 参与者分析了实际 Token 数量与估计数量之间的差距,以微调训练设置。
  • 神经 SDFs 与 NeRFs 获得 Lipschitz 关注:成员们强调了 Lipschitz 边界如何加速神经 SDFsNeRFs 中的网络追踪。
    • 他们将这些收益与 RMSNorm 方法联系起来,并看到了显著的性能提升。

LlamaIndex Discord

  • RAG 凭借 LlamaParse 自动模式势头大增:Hanane Dupouy 展示了优化的 RAG 流水线如何使用 LlamaParse 自动模式 来平衡财务报告的成本和性能。
    • 成员们强调了成本效益和实时切换是主要优势,引发了关于改进数据处理的讨论。
  • Milvus + FAISS 混搭中的异常检测:一位用户分享了一种用于异常检测的混合方法,结合了 Milvus 和 FAISS 来处理嵌入(embeddings)和聚类。
    • 其他人建议直接使用 Milvus client 以避开内存限制,并指出某些向量数据库会跳过存储嵌入。
  • 聊天机器人并发难题:长时间运行的后台任务导致了基于多进程(multiprocess-based)的延迟挑战,引发了关于管理聊天机器人并发性的辩论。
    • 社区成员建议使用 asyncio.create_task 进行异步操作,理由是其流程控制更精简且响应更快。
  • 微调 Llama?有些好奇,但无具体步骤:关于微调 Llama 模型的暗示出现了,但具体细节仅限于简短的提及。
    • 开发者对可能的扩展充满热情,尽管没有提供进一步的说明或代码。

Latent Space Discord

  • ModernBERT 微调模型涌现:一个新的名为 modernbert-embed-baseModernBERT 嵌入模型已经发布,它改进了 Tokenizer 并实现了更快的推理,详见 Zach Nussbaum 的帖子。该模型在公开的 Nomic Embed 数据集上进行训练,为 Embedding 生成提供了一种替代方案。
    • 一些成员对 Twitter 上分享的视觉表示表示赞赏,认为 ModernBERT 是精细化大规模嵌入 (LSE) 迈出的坚实一步。
  • Arc AGI 图表再次确认 AI 势头Douwe Kiela 分享的一张进展图表证实,AI 发展没有放缓的迹象,该图表引用了原始的 Dynabench 论文。这张图表突出了模型性能在多个基准测试中的持续飞跃。
    • 成员们指出,这张图表提醒人们突破性进展不断出现的惊人速度,并敦促大家持续关注 AGI 趋势
  • OpenAI 向营利性转型引发辩论Jan LeikeOpenAI 转型为营利性实体提出质疑,认为这削弱了其非营利愿景。批评者感叹,最初造福人类的使命现在被企业目标所掩盖。
    • 一些参与者认为这一举动是不可避免的,而另一些人则希望非营利端仍能捍卫伦理 AI 的理想。
  • Hugging Face 的 Agent 系统登场Aymeric 宣布了一个名为 smolagents 的新 Agent 系统库,被誉为构建强大 Agent 的“最简库”。它专注于最小的代码开销和自然代码编写能力,使其有别于传统的工具包。
    • 社区对这种方法表示欢迎,认为它在现代 AI 工作流中具有简化 Agent 组装和快速原型设计的潜力。
  • ts_zip 提供实验性 LLM 压缩:一种名为 ts_zip 的新型 LLM 驱动压缩工具出现,声称对文本文件具有更高的压缩率,详见项目页面。它依赖 GPU 加速,且速度明显慢于标准压缩器。
    • 爱好者们渴望测试其早期阶段的优势,同时也承认其实验性状态和潜在的缺陷。

Cohere Discord

  • HMM 的 Tokenization 沿用成熟方案:一位成员确认 隐马尔可夫模型 (HMM)Tokenization 保持不变,并参考了 2022 年早期框架的一致性。
    • 他们指出这些方法下的性能稳定,HMM 脚本无需修改,表明既有的最佳实践依然有效。
  • 新年祝福,技术动态较少:多位成员互致新年问候,标志着深度话题讨论的短暂休息。
    • 他们暂停了高级讨论以庆祝节日,没有提到进一步的进展更新或新发布。

tinygrad (George Hotz) Discord

  • Tinygrad 中的可逆谜题:一位用户询问在可逆变换系统中,是否需要中间汇编步骤或直接的 uop 到二进制路径来生成机器码,并质疑这如何与最终的重写状态对齐。
    • 他们还探讨了每个变换是否转化为一个 uop 序列或最终的一对一映射,引发了关于 tinygrad 如何实现完全可逆性的好奇。
  • pcode 在 Tinygrad 中取得进展:社区成员赞扬了 sleigh 文档,强调了 pcode 翻译与 tinygraduop 方法之间的共同理念。
    • 他们指出 pcode 定义以类似于汇编的风格处理 dtype 和元数据,引发了关于如何将这些概念融入 tinygrad 的推测。
  • 新手指南与内部机制介绍:一位用户在“good first issue”之外寻求适合新手的任务,随后有人推荐了 tinygrad-notes,以获取关于 tinygrad 基础知识的逐步帮助。

Axolotl AI Discord

  • GH200 访问触发调试行动:一名成员请求 GH200 访问权限以运行 Python 复现脚本并验证 D2H 内存传输配置。
    • 他们希望确保问题并非由本地设置的特殊性引起,并确认不同系统间行为的一致性。
  • D2H 内存传输引发关注:聊天中指出特定配置可能导致 D2H 内存传输故障。
    • 他们强调要交叉检查设置,以排除非预期的设备或驱动程序不匹配导致的问题。

Nomic.ai (GPT4All) Discord

  • DeepSeek 稳定,GigaChat 尚未尝试:一位成员报告 DeepSeek Coder V2 Lite 表现可靠,在代码任务中显示出一致的结果。他们没有尝试 GigaChat,因此该模型的能力尚待探索。
    • 虽然没有提供 Benchmark 数据,但人们对 GigaChat 在未来测试中的功能感到好奇。
  • 提到 Modernbert 与 Localdocs 嵌入:一位参与者在 Hugging Face 上看到了 Modernbert,并提出了关于增强 localdocs 嵌入后端的问题。他们建议这些更新可以提升文本分析或检索任务。
    • 这反映了社区对不断演进的 Embedding 方法的关注,期待与 Modernbert 的顺利集成。

LLM Agents (Berkeley MOOC) Discord

  • 无重大更新 #1:提供的内容中未出现先进的技术或产品进展。
    • 仅提到 MOOC 报名日期,缺乏针对 AI 工程受众的新模型、数据集或关键突破。
  • 无重大更新 #2:未分享关于新 Benchmark 或工具的额外讨论或相关参考。
    • 社区关于课程物流的咨询未达到深度报道或分析的标准。

DSPy Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


Torchtune Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


LAION Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


Mozilla AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


OpenInterpreter Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


HuggingFace Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


第 2 部分:各频道详细摘要与链接

完整的频道细分详情已针对邮件进行截断。

如果你想查看完整详情,请访问此邮件的网页版本:!

如果你喜欢 AInews,请分享给朋友!预谢!