o1 可能就是你所需的一切。

2024年9月17日至9月18日的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号和 30 个 Discord（221 个频道，1591 条消息）。预计节省阅读时间（以每分钟 200 字计）：176 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论！

我们 Smol AI 的人类一直对这一天心存畏惧。

有史以来第一次，一个 LLM 能够在无需我们干预的情况下，100% 匹配并准确报告我们认为的当日头条新闻。（参见下文的 AI Discord Recap。）

对于模型训练者来说，或许更有趣的是 o1-preview 在我们的 vibe check 评估中始终胜出。每一期 AINews 的运行都是 OpenAI、Anthropic 和 Google 模型之间的对决（你可以在存档中看到痕迹。我们也短暂尝试过 Llama 3 但它总是落败），而 o1-preview 自发布以来基本上每天都获胜（除了需要移除 instructor 隐藏的系统提示词之外，没有进行任何特定的调优）。

我们现在有了关于 o1-preview 和 -mini 的 LMsys 数据来量化这些 vibe check。

LMsys 的前 4 名现在都被 OpenAI 模型占据。尽管 OpenAI 正在逐日提高速率限制（rate limits），目前已达到每分钟 500-1000 次请求，但需求依然旺盛。

在开源领域，阿里巴巴的 Qwen 凭借其 Qwen 2.5 系列通用、编程和数学模型赶超了 DeepSeek，在 70B 规模上展现出优于 Llama 3.1 的数据。

同时他们也更新了其闭源的 Qwen-Plus 模型以击败 DeepSeek V2.5，但仍逊于美国的 frontier models。

最后，Kyutai Moshi 在 7 月份预告了其实时语音模型并在公开演示中出现了一些有趣/令人担忧的精神崩溃后，终于按约定发布了其 open weights 模型，以及展示“内心独白”的独特流式神经架构的细节。

实时演示地址仍为 https://moshi.chat，或者在本地尝试：

$ pip install moshi_mlx
$ python -m moshi_mlx.local_web -q 4

[本期内容由 Weights and Biases Weave 赞助！]: 坦白说，许多团队只知道 Weights & Biases 是 世界上最好的 ML 实验跟踪软件，甚至不知道我们名为 Weave 的新 LLM 可观测性工具包。所以，如果你正在阅读这篇文章，并且正在生产环境中进行任何 LLM 调用，为什么不试试 Weave 呢？只需 3 行代码，你就可以记录并追踪用户与 LLM 之间的所有输入、输出和元数据，通过我们的评估框架，你可以将 prompting 从一门艺术转变为一门科学。

查看关于使用 Weave 构建 GenAI 辅助自动故事插画师的报告。

swyx 的评论：这周末我将参加在旧金山举行的 WandB LLM-as-judge 黑客松，届时会有许多来自 Latent Space/AI Engineer 团队的朋友一起使用 Weave 进行开发！

目录和 频道摘要 已移至此邮件的网页版：！

AI Twitter 综述

所有综述由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 模型更新与发布

OpenAI 的 o1 模型：@sama 宣布在目标 3 上表现显著超出预期，尽管耗时比预想的长。这些模型使用思维链（chain-of-thought）推理来增强复杂问题的解决能力。
Mistral AI 的 Pixtral：@GuillaumeLample 宣布发布 Pixtral 12B，这是一款可在 le Chat 和 la Plateforme 上使用的多模态模型。它包含一个新的 400M 参数视觉编码器（vision encoder）和一个基于 Mistral Nemo 的 12B 参数多模态解码器（multimodal decoder）。
Llama 3.1：@AIatMeta 分享了 Llama 增长的最新动态，指出主要云合作伙伴和各行业的采用率正在迅速增加。

AI 开发与工具

ZML：@ylecun 重点介绍了 ZML，这是一个高性能 AI 推理栈（inference stack），用于在各种硬件上并行化和运行深度学习系统，目前已结束隐身模式并开源。
LlamaCloud：@jerryjliu0 宣布了 LlamaCloud 的多模态功能，支持对具有空间布局、嵌套表格和视觉元素的复杂文档进行 RAG。
Cursor：@svpino 赞扬了 Cursor 的代码补全能力，指出其功能相较于其他工具更为先进。

AI 研究与基准测试

思维链赋能（Chain of Thought Empowerment）：一篇论文展示了 CoT 如何使 Transformer 能够解决固有的串行问题，将其问题解决能力扩展到仅限并行的限制之外。
V-STaR：关于为自我启发式推理者（self-taught reasoners）训练验证器（verifiers）的研究，显示在代码生成和数学推理基准测试中提升了 4% 到 17%。
Masked Mixers：一项研究表明，带有卷积的 Masked Mixers 在某些语言建模任务中可能优于 self-attention。

AI 教育与资源

新 LLM 书籍：@JayAlammar 和 @MaartenGr 发布了一本关于大语言模型（Large Language Models）的新书，已在 O’Reilly 上架。
DAIR.AI Academy：@omarsar0 宣布启动 DAIR.AI Academy，提供提示工程（prompt engineering）和 AI 应用开发课程。

AI 应用与演示

AI 产品广告：@mickeyxfriedman 介绍了 Flair AI 上的 AI 生成产品广告，允许用户根据产品照片创建动画视频。
多模态 RAG：@llama_index 推出了多模态功能，用于构建跨非结构化数据的端到端多模态 RAG 流水线（pipelines）。
NotebookLM：@omarsar0 演示了 NotebookLM 从 AI 论文生成逼真播客的能力，展示了 AI 和 LLM 的一个有趣应用。

AI Reddit 综述

/r/LocalLlama 综述

主题 1. T-MAC：适用于 llama.cpp 的高效能 CPU 后端

T-MAC（一种高效能 CPU 后端）可能即将加入 llama.cpp！ (Score: 50, Comments: 5)：T-MAC 和 BitBLAS 是微软支持的项目，旨在实现高效的低比特数学运算，随着 T-MAC 维护者计划提交 pull request，它们可能会被集成到 llama.cpp 中。T-MAC 显示了 FLOPs 和推理延迟相对于比特数的线性缩放，支持对 int1/2/3/4 进行位运算而无需反量化（dequantization），并通过快速查表和加法指令支持各种激活类型。这种集成可能会使 Ollama 等项目受益，有望提升笔记本电脑和 Pixel 6 等移动设备的性能，后者目前在运行 llama.cpp 时面临热节流（thermal throttling）问题。
- 讨论中提到 BitNet 并非真正的量化方法，因为它是原生以 1 bit 训练的，而不是从高分辨率模型量化而来的。原帖作者澄清说，某些层仍然需要量化。
- 用户对 BitNet 的潜力表示兴奋，一位评论者热切期待其完整实现及对该领域的影响。
- “终极量化”的概念被幽默地提及，原帖作者开玩笑地大喊其所谓的益处，如“无损质量”和“OpenAI 陷入混乱”。

主题 2. Qwen2.5-72B-Instruct：性能与内容过滤

Qwen2.5-72B-Instruct 在 LMSys Chatbot Arena (评分: 31, 评论: 10): Qwen2.5-72B-Instruct 在 LMSys Chatbot Arena 上表现强劲，正如分享的图片所证明的那样。Qwen2.5 系列包含从 0.5B 到 72B 参数的模型，并设有针对编码和数学任务的专门版本。与前代产品相比，该系列似乎具有更严格的内容过滤，导致模型对某些概念缺乏了解，包括一些非色情但可能与性相关的话题。
- Qwen2.5-72B-Instruct 面临严格的内容过滤，这可能归因于中国对开源 LLM 的监管。用户注意到它对某些概念不了解，包括非色情的性内容以及像天安门广场这样的敏感政治话题。
- 该模型在编码和数学任务中表现出色，性能与 405B 和 GPT-4 相当。一些用户发现，在 Prompt 中加入“绝不犯错 (never make any mistake)”可以提高对棘手问题的回答质量。
- 尽管存在对审查的担忧，一些用户仍赞赏该模型对技术知识的专注。讨论中提到了绕过内容限制的尝试，一位用户分享了一张绕过方法的图片。

主题 3. 视觉语言模型 (VLMs) 的最新进展

最新 VLMs 及 VLM 基准测试综述 (评分: 30, 评论: 8): 该帖子对近期视觉语言模型 (VLMs) 及其相关基准测试进行了全面综述。它重点介绍了 GPT-4V、DALL-E 3、Flamingo、PaLI 和 Kosmos-2 等关键模型，讨论了它们的架构、训练方法以及在各种任务中的表现。该综述还涵盖了重要的 VLM 基准测试，包括 MME、MM-Vet 和 SEED-Bench，这些基准测试在广泛的视觉理解和生成能力方面对模型进行评估。
- 用户询问了关于本地可运行的 VLMs，作者推荐了 Bunny 并参考了 State of the Art 章节作为依据。
- 出现了一场关于为非营利用途创建移动优先应用的讨论，建议使用 YOLO 进行训练，并使用 UI 叠加层进行实时目标检测，参考了一个 YouTube 视频获取 UI 灵感。
- 提出了一项针对漫画翻译的新 VLM 基准测试提案，强调需要评估模型识别文本、理解多图上下文以及在视觉和文本模态中消除歧义的能力。

主题 4. Mistral Small v24.09：新型 22B 企业级模型

为什么思维链 (chain of thought) 是以文本形式实现的？ (评分: 67, 评论: 51): 该帖子质疑了在语言模型中以文本格式实现思维链推理的效率，特别是提到了针对长推理链进行微调的 o1。作者认为，在高维向量中保持模型的逻辑可能比将推理投影到文本 Token 中更有效，这挑战了当前甚至在专门为扩展推理设计的模型中所使用的方法。
- 正如用户所指出的，可追溯性和可解释 AI (explainable AI) 是基于文本的思维链推理的显著优势。潜空间 (latent space) 的黑盒性质会使人类更难理解模型的推理过程。
- OpenAI 的博客文章透露，o1 模型的思维链过程是基于文本的，这与关于向量化层的猜测相反。一些用户建议，未来的模型如 o2 可能会实现隐式 CoT (implicit CoT) 以节省 Token，并参考了一篇关于数学推理的论文。
- 用户讨论了训练抽象潜空间进行推理的挑战，一些人建议将强化学习 (reinforcement learning) 作为一种潜在方法。其他人提出了诸如逐渐转变训练数据或使用特殊 Token 来控制推理步骤在推理 (inference) 过程中的显示等想法。
mistralai/Mistral-Small-Instruct-2409 · NEW 22B FROM MISTRAL (Score: 160, Comments: 74): Mistral AI 发布了一个名为 Mistral-Small-Instruct-2409 的新型 22B parameter 模型，现已在 Hugging Face 上线。该模型展示了优于其前代产品的能力，包括在各个领域增强了 instruction-following、multi-turn conversations 和 task completion。此次发布标志着 Mistral AI 模型产品的重大进步，在性能和通用性方面有可能与更大的语言模型竞争。
- Mistral Small v24.09 是在 MRL license 下发布的，允许非商业性质的自我部署。用户反应不一，一些人对其 finetuning 潜力感到兴奋，而另一些人则对许可限制感到失望。
- 该模型在 human alignment、reasoning 和 code generation 方面展示了改进的能力。它支持 function calling，具有 128k sequence length 和 32768 的词汇量，使其在某些用例中成为 GPT-3.5 的潜在替代方案。
- 用户讨论了该模型在当前语言模型格局中的地位，指出其 22B parameters 填补了较小模型与 Llama 3.1 70B 等较大模型之间的空白。一些人推测了它与 20-35B 参数范围内的其他模型相比的性能。

其他 AI Subreddit 回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 模型进展与研究

OpenAI 的 o1 模型展示了令人印象深刻的能力：OpenAI 发布了其 o1 模型的预览版，该模型较之前的模型有显著改进。Sam Altman 在推文中提到“在目标 3 上表现出色”，暗示了重大进展。
增加推理算力（inference compute）带来重大性能提升：OpenAI 研究员 Noam Brown 建议，增加推理算力比增加训练算力更具成本效益，潜力可能达到几个数量级。这可以通过在推理时分配更多算力来显著提高性能。
Google DeepMind 推进多模态学习：一篇 Google DeepMind 的论文展示了如何通过联合样本选择进行数据策展，从而进一步加速多模态学习。
Microsoft 的 MInference 加速长上下文推理：Microsoft 的 MInference 技术能够实现长上下文任务中高达数百万个 token 的推理，同时保持准确性，大幅提升了所支持模型的速度。

AI 应用与演示

AI 辅助快速应用开发：一位开发者利用 Claude 和 OpenAI 的 o1 模型，在不手动编写任何代码的情况下，在短短 6 小时内构建并发布了一款 iOS 习惯追踪应用。这展示了 AI 大幅加速软件开发的潜力。
虚拟试穿技术：Kling 推出了 Kolors Virtual-Try-On，允许用户只需点击几下即可免费更换任何照片上的衣服。这展示了 AI 驱动的图像处理技术的进步。
AI 生成艺术与设计：r/StableDiffusion 中的帖子展示了令人印象深刻的 AI 生成艺术作品和设计，证明了 AI 模型的创造潜力。

行业与基础设施发展

AI 基础设施的巨额投资：Microsoft 和 BlackRock 正在组建一个筹集 1000 亿美元的团体，用于投资 AI 数据中心和电力基础设施，这预示着 AI 算力资源的重大扩张。
Neuralink 推进脑机接口技术：Neuralink 的 Blindsight 获得了 FDA 的突破性设备认定，旨在为失明人士恢复视力。
NVIDIA 对自主机器的愿景：NVIDIA 的 Jim Fan 预测，在 10 年内，每一台移动的机器都将是自主的，智能机器人的数量将与 iPhone 一样多。不过，这一时间表是作为一种假设情景提出的。

哲学与社会影响

AI 作为新“物种”的出现：一位前 OpenAI 研究员认为我们正处于两个智能水平相当的物种并存的节点，这里指的是人类和 AI。这引发了关于 AI 智能本质及其快速进展的讨论。
与历史技术转型的对比：一篇帖子将当前的 AI 数据中心与计算机的电子管时代进行类比，暗示我们可能正处于另一次重大技术飞跃的边缘。

AI Discord 摘要回顾

由 O1-preview 生成的摘要之摘要的摘要

主题 1. 新 AI 模型登场

Qwen 2.5 盛大发布，包含 100 多个模型：阿里巴巴发布 Qwen 2.5，拥有超过 100 个模型变体，包括 Qwen2.5-Coder 和 Qwen2.5-Math，参数量从 0.5B 到 72B 不等。这一开源强力模型挑战了私有模型，其旗舰型号 Qwen2.5-72B-Instruct 在顶级基准测试中表现出色。
Moshi 亮相：Kyutai Labs 推出对话式 AI：Kyutai Labs 发布了实验性低延迟 AI 模型 Moshi，并同步发布了技术报告、模型权重以及在其 GitHub 上提供了基于 Pytorch、Rust 和 MLX 的流式推理代码。
OpenAI 的 o1 模型称霸竞技场：OpenAI 的 o1-preview 和 o1-mini 在 Chatbot Arena 中夺得榜首，在数学、高难度提示词和编程任务中表现优异。用户称赞 o1-mini 在生物医学领域堪比“优秀的博士生”。

主题 2. 涡轮增压模型微调

Unsloth 提速两倍并减少 70% 的 VRAM 占用：Unsloth 将 Llama 3.1、Mistral 和 Gemma 等模型的微调速度提升了 2 倍，同时将 VRAM 使用量降低了 70%。讨论还强调了将量化模型推送到 Hub 时对存储的影响。
Torchtune 0.3 发布，支持 FSDP2 和 DoRA：最新的 Torchtune 版本引入了完整的 FSDP2 支持，增强了分布式训练的灵活性和速度。它还增加了通过设置 use_dora=True 轻松激活 DoRA/QDoRA 特性的功能。
课程学习（Curriculum Learning）在 PyTorch 中得到实际应用：成员们分享了在 PyTorch 中实现课程学习的步骤，涉及自定义数据集类和分阶段难度设置。一个示例展示了如何在训练循环中更新数据集以实现渐进式学习。

主题 3. 应对 AI 模型的小故障

OpenRouter 用户遭遇 429 错误轰炸：沮丧的 OpenRouter 用户报告称遭遇了 429 错误和严格的频率限制，一名用户甚至被限流 35 小时。关于备用模型和密钥管理以缓解访问问题的讨论异常激烈。
缓存混淆引发困扰：开发者们正在努力解决模型中的缓存管理问题，讨论了在每个任务后完全删除缓存的必要性。建议包括使用上下文管理器来防止评估过程中的干扰。
过度安全特性遭到嘲讽：社区幽默地批评了像 Phi-3.5 这样过度审查的模型，并分享了一些讽刺性的回复。他们强调了过度审查给编程和技术任务带来的挑战。

主题 4. AI 席卷创意领域

Riffusion 在 AI 音乐领域掀起波澜：Riffusion 允许用户通过频谱图生成音乐，引发了关于集成 AI 生成歌词的讨论。成员们注意到，在全曲生成方面，目前还缺乏能替代 Suno AI 的开源方案。
成人角色扮演（ERP）获得 AI 升级：分享了使用 AI 模型进行成人角色扮演 (ERP) 的高级技术，重点在于构建详细的角色档案和沉浸式提示词。用户强调了营造期待感和真实互动的重要性。
艺术家寻找“图转卡通”模型：成员们正在寻找能够将图像转换为高质量卡通的 AI 模型，并互相交流推荐。对于能够提供顶级卡通转换效果模型的探索仍在继续。

主题 5. AI 集成提升生产力

Perplexity Pro 集成至 VSCode 遭遇阻碍：尝试将 Perplexity Pro 与 VSCode 扩展（如 ‘Continue’）配合使用的用户面临挑战，特别是难以区分 Pro Search 和纯写作模式。有限的编程技能也增加了集成的难度。
自定义 GPT 成为个人代码片段库：成员们正利用 Custom GPTs 来记忆个人代码片段和模板，例如 Mac Snippets。建议不要过度堆砌指令，以保持性能。
LM Studio 的新功能令用户兴奋：LM Studio 中新增的文档处理功能引发了用户热议。讨论围绕数据表大小限制以及通过该软件分析数据库的潜力展开。

第一部分：高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Unsloth 加速模型微调：Unsloth 为 LlaMA 3.1、Mistral 和 Gemma 等模型的微调带来了 2倍的速度提升，并将 VRAM 占用降低了 70%。
- 讨论强调了量化模型与全量模型在存储需求上的不同，这会影响显存的可用性。
Qwen 2.5 登场：近期发布的 Qwen 2.5 模型展示了改进的指令遵循能力，特别是在编程和数学方面。
- 用户注意到它处理细微差别的能力优于 Llama 3.1，尽管在保存和重新加载合并模型时会出现问题。
Gemma 2 微调困境：社区成员报告了在微调 Gemma 2 时遇到的挑战，特别是在保存和加载合并模型时遇到的错误。
- 建议指出问题可能出在推理中使用的聊天模板（chat templates）或模型内部的通用持久性问题。
神经网络代码生成取得成功：一位社区成员对在训练神经网络生成 Python 代码方面获得的帮助表示感谢，认为这是一个充满希望的开始。
- 社区反响热烈，纷纷以“太棒了，祝贺！”来赞扬这一成就。
vLLM 服务引发延迟担忧：一位使用 vLLM 进行服务的参与者提到了在微调模型时遇到的延迟问题。
- 他们寻求关于使用 Quantization Aware LoRa training 的建议，并表达了对有效合并模型的担忧。

Stability.ai (Stable Diffusion) Discord

LoRa 模型训练要点：一位成员询问了训练 LoRa 模型 的有效图像，建议使用多样化的平面图、门和窗户来增强数据集。
- 重点放在了标签标注和社区经验分享上，以帮助新手开启训练之旅。
分辨率之争：SD1.5 对比 SD512：在生成 1024x1024 图像时，SD1.5 的表现优于 512x512，特别是考虑到生成过程中的 GPU 限制。
- 建议采用 turbo 模型，以便在不牺牲效率的情况下实现更快的图像生成。
Multidiffusion 的省存魔力：multidiffusion 扩展被誉为低 VRAM 用户的省存神器，它通过分块（tiled sections）处理图像。
- 社区分享了指南和资源，帮助用户将此扩展有效地集成到工作流中。
Riffusion 震撼 AI 音乐创作：Riffusion 平台支持通过声谱图生成音乐，并可能在未来的版本中加入 AI 歌词。
- 讨论指出，在开源领域，除了 Suno AI 之外，能够生成完整歌曲的替代方案非常匮乏。
远程处理：一把双刃剑：对于像 iopaint 这样使用远程处理的工具，用户表达了担忧，因为这限制了用户控制权和模型的灵活性。
- 社区倡导自托管（self-hosting）模型，以增强定制化和隐私保护。

OpenRouter (Alex Atallah) Discord

Mistral API 价格创下新低：成员们强调了 Mistral API 的大幅降价，大型模型如 Large 2 的价格极具竞争力，低至 $2/$6。
- 这一价格调整使其在与其他供应商的竞争中处于有利地位，提升了用户获取模型的便捷性。
OpenRouter 面临访问障碍：多位用户在使用 OpenRouter 时遇到问题，特别是收到 429 错误 和 Data error output 消息。
- 为了缓解这些问题，鼓励用户创建专门的帖子来报告错误，以简化故障排除流程。
速率限制（Rate limits）干扰用户工作负载：用户因触发严格的速率限制而无法访问模型，导致生产力大幅下降，对此感到沮丧。
- 一位用户指出他们被限制了 35 小时，引发了关于 BYOK (Bring Your Own Key) 等潜在解决方案的讨论。
回退模型（Fallback models）需要更好的策略：讨论了在遇到速率限制错误时，使用 回退模型 与 回退密钥 的操作顺序。
- 用户提出了对未能有效使用回退模型的担忧，特别是在面对 Gemini Flash 的 429 错误时。
用户咨询免费 LLM 访问：一位用户询问如何在每月 $10-$15 的有效预算下，为 5000 人提供 免费 LLM 访问。
- 随后展开了关于 Token 使用量的讨论，估计每人每天约 9k tokens，这需要极其复杂的优化策略。

aider (Paul Gauthier) Discord

Aider 表现异常：用户发现 Aider 表现出不稳定的行为，有时在简单的请求后会执行自己的议程，需要重启才能解决。该问题似乎与会话期间的 context retention（上下文保留）有关。
- 社区建议研究状态管理，以防止在未来的更新中出现此类意外行为。
对 OpenAI 模型的反馈令人失望：用户批评了 O1 模型的性能，特别是拒绝服从格式化命令，这破坏了工作流效率。许多用户转向使用 3.5 Sonnet，理由是其对 prompt 的控制力更好。
- 这引发了关于灵活参数设置对于增强用户与 AI 模型交互重要性的讨论。
探索 DeepSeek 的局限性：围绕 DeepSeek 模型 的编辑和重构能力出现了挑战，并建议改进输入格式以获得更好的输出。提出了微调（tuning）方案，寻求有效的 source/prompt 示例进行测试。
- 此次交流表明，集体需要更清晰的指南，以通过有效的 prompt 设计来优化模型性能。
Claude 3.5 系统提示词细节发布：一个针对 Claude 3.5 Sonnet 的提取出的系统提示词被分享出来，旨在增强处理 artifacts 时的性能。这一发现引发了对其在实际应用中如何发挥作用的兴趣。
- 社区期待了解该提示词对实际应用和代码生成任务的影响。
FlutterFlow 5.0 发布增强功能：一段 YouTube 视频介绍了 FlutterFlow 5.0，它承诺通过旨在简化组件创建的新功能来彻底改变应用开发。该更新声称有显著的性能提升。
- 反馈显示，用户已经渴望实施这些功能，以提高编码工作流的效率。

Perplexity AI Discord

将 Perplexity Pro 与 VSCode 集成：用户讨论了如何将 Perplexity Pro 模型与 VSCode 扩展（如 ‘Continue’）结合使用，以实现有效的 autocomplete 功能，尽管由于编程技能有限存在集成挑战。
- 强调了 Pro Search 与纯 writing mode 之间的区别，这使某些用户的预测策略变得复杂。
在 Pro Search 中利用 O1 模型：O1-mini 现在可以通过 Pro Search 中的 Reasoning 焦点进行访问，尽管其集成情况因模型选择而异。
- 一些用户主张在角色扮演场景中使用 O1，因为它具有角色保持能力，但要求更高的使用限制。
关于 Perplexity 与 ChatGPT 的辩论：一场关于 Perplexity API 模型与 ChatGPT 模型对比的辩论正在进行，特别是关于教育用途和订阅福利。
- 一位用户指出了 ChatGPT Plus 对学生的优势，同时也承认了 Perplexity Pro 订阅的优点。
Slack 发布 AI Agents：Slack 报告称引入了 AI agents，旨在提高平台内的工作流和沟通效率。
- 该功能预计将提高使用该平台的团队的整体生产力。
Lucid 推出新款平价电动 SUV：Lucid 推出了一款更实惠的新型电动 SUV，扩大了其市场覆盖范围，并吸引了具有环保意识的消费者。
- 这款平价车型针对的是对可持续交通感兴趣的更广泛受众。

HuggingFace Discord

Hugging Face 发布全新 API 文档：新推出的 API 文档改进了对速率限制（rate limits）的说明，增加了专门的 PRO 专区，并强化了代码示例。
- 用户反馈已被直接采纳以提升易用性，使开发者部署 AI 更加顺畅。
TRL v0.10 支持视觉语言模型微调：TRL v0.10 将视觉语言模型（vision-language models）的微调简化至仅需两行代码，恰逢 Milstral 发布 Pixtral。
- 此版本强调了多模态 AI 能力（multimodal AI capabilities）日益增强的连通性。
Nvidia 发布紧凑型 Mini-4B 模型：点击此处查看 Nvidia 全新的 Mini-4B 模型，该模型表现出色，但需要兼容的 Nvidia 驱动。
- 鼓励用户将其注册为 Hugging Face agent，以发挥其全部功能。
开源生物特征模板保护：一名成员分享了他们的生物特征模板保护（BTP）实现方案，可在无需服务器数据访问的情况下进行身份验证，代码已托管至 GitHub。
- 这段教学代码旨在向初学者介绍安全生物识别系统的复杂性，同时保持易用性。
社区寻求图像转卡通模型：社区成员正在寻找能够将图像转换为高质量卡通效果的 space 模型，并征集相关推荐。
- 社区参与是关键，他们鼓励分享满足这一需求的模型见解。

Nous Research AI Discord

NousCon 激发热情：参与者对 NousCon 表现出极大的热情，讨论了参会及未来活动，并计划在附近的酒吧举行派对以促进社区互动。
- 许多人请求在不同地点举办未来活动，强调了对更多社交机会的渴望。
Hermes Tool Calling 标准被采用：社区已为 Qwen 2.5 采用了工具调用（tool calling）格式，这受到了 vLLM 支持等贡献以及正在讨论的其他未来实现工具的影响。
- 关于 Hermes 和 Qwen 之间解析工具差异的讨论正在进行中，激发了创新的集成想法。
Qwen 2.5 携新模型发布：Qwen 2.5 已正式发布，具有全新的编程和数学模型，标志着开源 AI 进展的关键时刻。
- 这一大规模发布展示了 AI 社区中语言模型的持续演进，并有详细的博客文章概述其能力。
Gemma 2 提升游戏表现：成员们分享了微调 Gemma 2 等模型以增强国际象棋对局体验的经验，尽管性能表现仍面临若干挑战。
- 这反映了社区内创造性的开发过程和协作精神，从游戏预期出发反向推动创新。
Hermes 3 API 访问权限确认：已确认与 Lambda 合作提供 Hermes 3 API 访问权限，允许用户使用全新的 Chat Completions API。
- 进一步的讨论包括旨在最大化模型能力的潜在配置，特别是对以 bf16 精度运行的关注。

CUDA MODE Discord

Triton 会议致谢：在 Triton 会议的主旨演讲中，Mark Saroufim 赞扬了社区的贡献，这令与会者感到兴奋。
- 这一认可引发了关于社区参与和未来贡献的讨论。
Triton CPU / ARM 正式开源：关于 Triton CPU / ARM 的咨询确认了其现已开源，可在 GitHub 上获取。
- 该倡议旨在促进社区协作并改进实验性的 CPU 后端。
Llama-2 模型训练性能报告：Llama2-7B-chat 模型的性能指标揭示了在各种任务中与 FP16 配置的显著对比。
- 参与者强调了优化量化方法以增强推理质量的必要性。
高效量化技术：讨论集中在有效的量化方法上，例如针对 Large Language Models 的 4-bit quantization，这对于 BitNet 的架构至关重要。
- 成员们对应用无分组量化以降低推理成本的模型表现出兴趣。
即将发布的 Pixtral 模型：围绕 Transformers 库中即将发布的 Pixtral 模型展开了热烈讨论，重点在于实现策略。
- 成员们指出，发布后预计能与现有框架实现平滑集成。

Eleuther Discord

开源 TTS 迁移正在进行中：讨论了从 OpenAI TTS 迁移到开源替代方案的问题，特别强调了支持多语言的 Fish Speech V1.4。
- 成员们辩论了使用 xttsv2 来增强不同语言性能的可行性。
MLRA 键的压缩技术：成员们探索了利用额外的压缩矩阵处理 MLRA 键（keys）和值（values）的概念，旨在增强投影后的数据效率。
- 有人对 MLRA 实验设置中细节不足（特别是关于秩矩阵的部分）表示担忧。
Playground v3 发布引发关注：Playground v3 (PGv3) 发布，展示了在文本生成图像领域的领先性能，并为图像说明（image captioning）设立了新基准。
- 新模型集成了 LLMs，不同于早期依赖预训练编码器的模型，证明了其效率更高。
引入 Diagram of Thought 框架：提出了 Diagram of Thought (DoT) 框架，通过有向无环图（DAG）结构对 LLMs 中的迭代推理进行建模，旨在增强逻辑一致性。
- 这种新方法相比之前研究中讨论的线性推理方法提出了显著改进。
调查模型调试策略：一位成员建议从工作基准（working baseline）开始进行模型调试，并逐步识别各种配置（如 FSDP）中的问题。
- 反复讨论强调了在优化模型性能时分享调试经验的必要性。

OpenAI Discord

Custom GPTs 有效记忆片段：成员们讨论了使用 Custom GPTs 导入和记忆个人片段（如 Mac Snippets），尽管过量的信息堆砌带来了挑战。
- 有建议指出，更清晰的指令和知识库上传可以提升性能。
泄露的 Advanced Voice Mode 发布信息：预计将于 9 月 24 日为 Plus 用户推出即将到来的 Advanced Voice Mode，重点在于提高清晰度和响应时间，同时过滤噪音。
- 社区对其在日常语音命令可用性方面的潜在影响表示好奇。
关于 AI 内容饱和的辩论：一场激烈的讨论集中在 AI 生成的内容是提升了还是稀释了质量，有观点认为这反映了预先存在的低质量内容。
- 随着 AI 能力的增长，人们对脱离现实的担忧日益增加。
GPT Store 托管创新作品：一位成员推介了他们在 GPT Store 中的各种 GPTs，这些工具可以自动执行来自不同来源的任务，从而增强工作流。
- 他们的产品中包含受文学启发的特定提示词技术，包括 DALL·E。
澄清频道内的自我推广规则：成员们审查了自我推广规则，确认了 API 和 Custom GPTs 频道中分享作品的例外情况。
- 成员们被鼓励链接他们的 GPTs，强调了社区在遵守服务器准则的同时支持分享。

Cohere Discord

Cohere 职位申请引发社区热议：一名成员在申请 Cohere 的职位后分享了他们的热情，并寻求社区支持。
- 社区以兴奋的态度欢迎这一举动，展现了对新人的友好氛围。
CoT-Reflections 表现优于传统方法：讨论集中在 CoT-reflections 如何比标准的 Chain of Thought 提示词提高响应质量。
- 成员们强调，将 BoN 与 CoT-reflections 结合可以显著提升输出质量。
关于 O1 奖励模型机制的推测：成员们推测 O1 使用奖励模型运行，该模型会迭代调用自身以获得最佳结果。
- 有迹象表明 O1 经历了多阶段训练过程以提升其输出质量。
账单信息设置困惑已解决：一名成员在通过 Stripe 链接设置付款方式后，寻求关于添加 VAT 详情的澄清。
- 建议发送电子邮件至 support@cohere.com 以安全处理账单变更，这被证实是一个可行的解决方案。

LM Studio Discord

Markov Models 受到认可：成员们指出 Markov models 是参数较少的语言概率模型，引发了对其潜在应用的讨论。
- 工程师们对这些模型如何简化语言处理中的某些流程产生了浓厚兴趣。
训练时间引发辩论：在 4090 GPU 上训练 40M tokens 大约需要 5 天，但减少到 40k tokens 则只需 1.3 小时。
- 关于为什么 100k 模型的训练时间仍然显得过长，人们仍存有疑虑。
Data Loader 瓶颈引发挫败感：成员们讨论了模型训练期间的 data loader 瓶颈，有报告称延迟导致了挫败感。
- 呼吁探索数据流水线的优化技术，以提高整体训练效率。
LM Studio 令人兴奋的新功能：随着新的文档处理功能发布，一名成员在整合之前的反馈后重新回到 LM Studio，引发了关注。
- 讨论围绕理解数据表的大小限制以及通过软件分析数据库展开。
AI 模型推荐纷至沓来：在编程推荐方面，Llama 3.1 405B 模型在 Prolog 辅助方面浮出水面，引发了各种意见。
- 对 qwen 2.5 0.5b 等小模型替代方案的见解强调了其连贯性，尽管它缺乏小写支持。

Latent Space Discord

Langchain 合作伙伴包更新：有人询问将旧的 Langchain 社区集成更新为合作伙伴包的流程，建议通过联合沟通渠道联系。
- Lance Martin 被提及为该过渡过程中寻求进一步协助的首选联系人。
Mistral 为开发者推出免费层级：Mistral 在其无服务器平台上推出了免费层级，允许开发者在增强 Mistral Small 模型的同时免费进行实验。
- 此次更新还包括修订后的定价，并在其聊天界面上引入了免费的视觉（vision）功能，使其更易于访问。
Qwen 2.5：基础模型的游戏规则改变者：阿里巴巴推出了 Qwen 2.5 基础模型，引入了超过 100 个变体，旨在改进编码、数学推理和语言处理。
- 该版本因其具有竞争力的性能和针对性的增强而受到关注，有望比早期版本取得重大进步。
Moshi Kyutai 模型震撼登场：Kyutai Labs 推出了 Moshi 模型，并在多个平台上提供了技术报告、权重和流式推理代码。
- 他们提供了论文、GitHub 和 Hugging Face 的链接，供渴望深入了解该模型能力的任何人使用。
Mercor 吸引重大投资：Mercor 在 A 轮融资中以 2.5 亿美元的估值筹集了 3000 万美元，目标是利用先进模型增强全球劳动力匹配。
- 本轮投资吸引了 Peter Thiel 和 Jack Dorsey 等知名人物，凸显了其在 AI 驱动的劳动力解决方案中的重要性。

Torchtune Discord

Torchtune 0.3 发布，功能丰富：Torchtune 0.3 引入了重大增强，包括对 FSDP2 的全面支持，以提升灵活性和速度。
- 此次升级重点在于缩短训练时间，并改进各种任务中的模型管理。
FSDP2 增强分布式训练：所有分布式 recipes 现在都利用 FSDP2，从而实现更好的编译支持并改进对 LoRA 参数的处理。
- 鼓励用户在分布式 recipes 中尝试新配置，以获得更强的性能。
训练时间速度提升：通过设置 compile=True 实现 torch.compile，使编译时间缩短至一分钟以内，从而实现更快的训练。
- 使用最新的 PyTorch nightlies 版本可进一步放大性能，显著减少模型编译期间的耗时。
启用 DoRA/QDoRA 支持：最新版本允许用户通过在配置中设置 use_dora=True 轻松激活 DoRA/QDoRA。
- 这一新增功能对于增强与 LoRA 和 QLoRA recipes 相关的训练能力至关重要。
引发缓存管理讨论：围绕每次任务后是否必须完全删除缓存展开了讨论，并提出了对 eval harness 的改进建议。
- 一位贡献者建议确保模型在不需要拆除缓存的情况下，同时保持推理（inference）和前向（forward）模式。

Interconnects (Nathan Lambert) Discord

Qwen2.5 发布，达成重大里程碑：Qwen 家族的最新成员 Qwen2.5 被誉为规模最大的开源发布之一，涵盖了 Qwen2.5-Coder 和 Qwen2.5-Math 等模型，尺寸从 0.5B 到 72B 不等。
- 亮点包括旗舰模型 Qwen2.5-72B-Instruct 能够匹配私有模型，在基准测试中展示了极具竞争力的性能。
OpenAI o1 模型媲美博士水平工作：对 OpenAI 的 o1-mini 模型的测试表明，其表现可与生物医学领域优秀的博士生相媲美，被标记为他们训练过的顶尖候选模型之一。
- 这一评价强调了该模型的精通程度及其在高级学术项目中的应用潜力。
数学推理（Math Reasoning）备受关注：AI 领域越来越强调推进 math reasoning 能力，支持中英双语的 Qwen2.5-Math 模型引发了热议。
- 用户的参与表明，在努力突破该领域界限的过程中，大家共同关注于增强数学相关的 AI 应用。
AI 模型知识截止日期（Knowledge Cutoff）的挑战：几位用户对模型的 knowledge cutoff 表示沮丧，特别指出其设定在 2023 年 10 月，影响了其对较新编程库的适用性。
- 讨论表明实时信息对于实际应用至关重要，这对像 OpenAI 的 o1 这样的模型构成了挑战。
Transformers 彻底改变 AI：自 2017 年以来，Transformer 架构从根本上改变了 AI 方法，为 OpenAI 的 GPT、Meta 的 Llama 和 Google 的 Gemini 等模型提供了动力。
- Transformers 的用途已从文本扩展到语音生成、图像识别以及蛋白质结构预测。

OpenInterpreter Discord

01 App 已完全投入运行：成员确认 01 app 在手机上运行良好，特别是使用 -qr 选项时效果最佳。
- 一名成员对非本地版本进行了广泛测试，并报告其功能运行顺畅。
自动化浏览器任务请求：一名成员正在寻求自动化浏览器表单提交（特别是针对政府门户网站）的指南和技巧。
- 尽管遵循了 ChatGPT 4o 的建议，但他们仍面临效率低下的问题，特别是结果重复。
CV Agents 可供测试：一名成员分享了他们的 CV Agents 项目，旨在通过 GitHub 上的智能简历增强求职体验：GitHub - 0xrushi/cv-agents。
- 该项目邀请社区贡献，并配有极具吸引力的描述。
Moshi Artifacts 发布：Kyutai Labs 发布了 Moshi artifacts，包括技术报告、模型权重以及支持 Pytorch、Rust 和 MLX 的流式推理代码，可在其论文和 GitHub 仓库 中获取。
- 随着项目获得关注，社区热切期待更多更新。
音频同步反馈：用户指出更新 Moshi 视频的缩略图可以提高曝光率和参与度。
- 他们注意到视频中存在轻微的音频同步问题，表明需要进行技术调整。

LlamaIndex Discord

Benito 的 RAG 部署突破：Benito Martin 分享了使用 AWS CDK 端到端构建和部署 RAG 服务的指南，为将原型转化为生产环境提供了宝贵资源。
- 如果你想提升部署技能，这份指南是一个快速开始！
KeyError 困扰 Weaviate 用户：Yasuyuki 在读取现有 Weaviate 数据库时遇到了 KeyError，引用了 GitHub Issue #13787。一名社区成员建议 Fork 该仓库并创建一个 Pull Request，以允许用户指定字段名称。
- 这是在查询非使用 llama-index 创建的向量数据库时常见的陷阱。
Yasuyuki 的首次开源贡献：Yasuyuki 表示有兴趣通过将键从 ‘id’ 更改为 ‘uuid’ 并准备 Pull Request 来为项目做出贡献。
- 这次首次贡献鼓励了他熟悉 GitHub 工作流，以便未来参与。
寻求 RAG 技术反馈：.sysfor 寻求关于 RAG (Retrieval-Augmented Generation) 策略的反馈，以将供应商问题与索引的 QA 对关联起来。
- 建议包括对 QA 对进行索引，并生成问题的变体以提高检索效率。

LangChain AI Discord

模型提供商导致 LLM 延迟：根据成员讨论，LLM 响应延迟主要与模型提供商有关，而非实现错误。
- 这建议应专注于优化模型提供商设置以提高响应速度。
Python 和 LangChain 对延迟的影响微乎其微：据称 LLM 延迟中只有 5-10% 归因于 Python 或 LangChain，这意味着应更多地关注模型配置。
- 优化模型设置可以大幅提高整体性能并减少等待时间。
React 状态管理的最佳实践：用户讨论了将 Langserve 与 React 前端集成时的最佳状态管理实践。
- 对话暗示了有效状态处理的重要性，特别是在涉及 Python 后端的情况下。
用于高质量 PDF 提取的 PDF-Extract-Kit：PDF-Extract-Kit 作为一个用于高效 PDF 内容提取的综合工具包被展出。
- 成员们考虑了其在解决常见 PDF 提取挑战中的实际应用，引发了广泛兴趣。
使用 AWS 技术栈开发的 RAG 应用：一名成员展示了一个新的 RAG 应用，利用 LangChain 和 AWS Bedrock 进行 LLM 集成和部署。
- 该应用利用 AWS OpenSearch 作为向量数据库，突显了其处理数据的强大云能力。

Modular (Mojo 🔥) Discord

BeToast Discord 安全风险警报：由于 LinkedIn 上关于黑客攻击事件的报告，人们开始担心 BeToast Discord 服务器可能遭到入侵。
- 成员们强调必须保持警惕，并准备好在任何受损账号开始发送垃圾信息时采取行动。
Windows 原生支持时间表尚不明确：关于 Windows 原生支持 的讨论提到了一个 GitHub issue，其中列出了功能需求，但实现的时间表尚不确定。
- 许多开发者由于成本原因在 AI 项目中倾向于选择 Windows 以外的替代方案，通常使用 WSL 作为折中方案。
SIMD 转换为 Int 的解释：一位用户询问如何将 SIMD[DType.int32, 1] 转换为 Int，一名成员简洁地回答道：int(x)。
- 这强调了理解 SIMD 数据类型对于高效转换的重要性。
澄清 SIMD 数据类型：对话强调了理解 SIMD 数据类型以实现平滑转换的必要性，并鼓励熟悉 DType 选项。
- 成员们指出，这些知识可以简化未来关于数据处理的咨询。

LAION Discord

探索最先进的文本转语音技术：一位成员询问了文本转语音的 state of the art (SOTA)，特别是寻求开源解决方案。“理想情况下是开源的，但也很好奇目前市面上都有哪些选择”，这反映了对比各种方案的愿望。
- 参与者称赞 Eleven Labs 是 最佳闭源 文本转语音选项，而对于开源爱好者，则推荐了 styletts2、tortoise 和 xtts2 等替代方案。
引入用于统一图像生成的 OmniGen：名为 OmniGen 的论文介绍了一种新的 Diffusion 模型，它集成了多种控制条件，无需像 Stable Diffusion 等模型那样添加额外模块。OmniGen 通过其简化的架构支持多种任务，包括 text-to-image generation、image editing 和经典的 CV 任务。
- OmniGen 利用了 SDXL VAE 和 Phi-3，增强了其生成图像和处理控制条件的能力，使其在各种应用中都非常易于使用。
Nvidia 官方开源 LLMs：一位成员强调了 Nvidia 官方开源 LLMs 的可用性，这可能与正在进行的 AI 研究和开发相关。这一举措可能为该领域的开发者和研究人员提供宝贵的资源。
- 此举支持了向更具协作性和可访问性的 AI 资源转型的趋势，符合当前开源软件的发展潮流。

DSPy Discord

Ruff 检查错误警报：一位用户报告在执行 ruff check . --fix-only 时出现 TOML 解析错误，指出第 216 行存在 未知字段 indent-width。
- 该错误表明需要修改配置文件以符合预期的字段要求。
与 AI 研究者的播客：由 Sayash Kapoor 和 Benedikt Stroebl 参与的 YouTube 播客 探讨了优化任务性能和最小化推理成本的方法，可在此处观看。
- 讨论引起了广泛兴趣，强调了在 AI 系统中考虑成本的重要性。
LanceDB 集成首次亮相：DSpy 的新 LanceDB 集成 增强了大数据的性能，详情请见此 Pull Request。
- 贡献者表示愿意在相关的个人项目和开源计划上进行协作。
关于 API Key 处理的担忧：用户询问 API Key 是否需要在到达 OpenAI 之前直接发送到 VM/服务器，这凸显了对非官方服务器的 信任问题。
- 明确安全流程对于避免个人数据泄露至关重要。
创建可重用的 RAG 流水线：一位社区成员寻求关于创建 可重用 RAG 流水线 的指导，该流水线可以适应多家公司而不会使 Prompt 过载。
- 成员们提出了关于如何有效整合多样化数据的担忧，旨在简化流程。

OpenAccess AI Collective (axolotl) Discord

在 PyTorch 中实现 Curriculum Learning：要在 PyTorch 中实现 curriculum learning，需要定义标准，将数据集分割成难度递增的阶段，并创建一个自定义数据集类来管理此逻辑。
- 一个示例展示了如何使用这种阶段性方法在训练循环中更新数据集。
控制数据集打乱 (Shuffling)：一位用户提出了关于指定数据集中缺少 random shuffling 的问题，并就此寻求指导。
- 有建议认为，为了清晰起见，可以在单独的线程中讨论此查询。

tinygrad (George Hotz) Discord

需要 Tinybox 设置指南：有人请求帮助设置 two tinyboxes，并提供了 Tinybox documentation 的链接以获取设置指导。
- 这突显了随着更多用户探索 Tinygrad 功能，对简化设置说明的需求。
Tinyboxes 助力 Tinygrad CI：据指出，tinyboxes 在 tinygrad 的 CI 中发挥着至关重要的作用，通过在 MLPerf Training 4.0 上运行展示了其能力。
- 这证明了它们作为 tinygrad 集成测试最佳平台的地位。
Tinybox 购买选项说明：对于想要购买的用户，提到可以访问 tinygrad.org 购买 tinybox，并向其他人保证不买也没关系。
- 这迎合了用户不同的兴趣，无论是购买还是探索。
Tinybox 特性揭秘：简要概述强调了 tinybox 是一个用于 AI 工作负载的通用系统，可处理训练和推理任务。
- 具体硬件规格包括配备六个 7900XTX GPU 的 red box 和配备六个 4090 GPU 的 green box。

LLM Finetuning (Hamel + Dan) Discord

rateLLMiter 现已支持 Pip 安装：rateLLMiter 模块现在可以作为 Pip 安装包使用，增强了 LLM 客户端的请求管理。查看 GitHub 上的实现细节，其中包含有关其 MIT license 的信息。
- 此实现允许 LLM 客户端更好地管理其 API 调用，使其更容易集成到现有工作流中。
速率限制器图表展示请求管理：一张图表说明了 rateLLMiter 如何平滑请求流，其中橙色代表票据请求，绿色代表已发放的票据。这有效地将 100 requests 的峰值随时间分散，以避免服务器速率限制异常。
- 参与者强调了有效管理 API 速率的重要性，以确保在高峰负载期间与后端服务的无缝交互。

Gorilla LLM (Berkeley Function Calling) Discord

成员意识到 Prompt 使用不当：一位成员承认他们错误地应用了 Prompt，这在 Gorilla LLM 讨论中引起了意外的输出混淆。
- 这突显了验证 Prompt 使用以确保结果准确的必要性。
Prompt 模板现已可用：同一位成员提到，现在可以轻松获取 Prompt 模板，以协助高效地构建未来的 Prompt。
- 利用该模板有助于减少未来类似的 Prompt 相关错误。

Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

DiscoResearch Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

第 2 部分：按频道详细摘要和链接

完整的逐频道细分内容已针对电子邮件进行截断。

如果您想查看完整细分，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！提前感谢！

o1 横扫 Lmsys Arena 榜单，Qwen 2.5 与 Kyutai Moshi 正式发布。