我们的副标题快用完了。

2024年8月23日至8月26日的 AI 新闻。我们为你检查了 7 个 subreddits、384 个 Twitter 账号和 30 个 Discord 社区（214 个频道，5673 条消息）。预计为你节省了 639 分钟 的阅读时间（以 200wpm 计算）。你现在可以标记 @smol_ai 来进行 AINews 讨论！

几条新闻：

分布式 AI：Nous Research 发布了 DisTrO，这是他们的新优化器，宣称“在不依赖摊销分析的情况下，将 GPU 间的通信需求降低了 1000 到 10,000 倍，且收敛速度与 AdamW+All-Reduce 相当。这使得在低带宽、异构网络硬件的互联网环境下，也能进行大型神经网络的低延迟训练。” —— 这是 GDM 的 DiLoCo 的一个不错替代方案。
随着一段 8 岁小孩使用 Cursor 的视频走红以及他们的融资公告，Cursor AI 的热度如滚雪球般增长。他们的第一次播客采访是在整整一年前，而 Aman 在 6 月份回归担任联合主持人。
George Hotz 的 tinybox 正式开售！。

既然新闻流比较平淡，不如给 Box AI 的新测试版提提反馈？

[由 Box 赞助] 你正在用 AI 构建产品。Box 也是。想象一下，如果你使用 Box 的组件来构建你的产品。实际上，不用想象，亲自在 Box AI Developer Zone 尝试一下吧。

Swyx 的评论：感谢 Box（通过 Freeman & Forrest）在今年 8 月对 AI News 的支持 (1, 2, 3)！

目录和 频道摘要 已移至此邮件的网页版：！

AI Twitter 回顾

所有摘要由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 与机器人技术进展

人形机器人：@adcock_brett 报道称，中国机器人初创公司 AGIBOT（智元机器人）发布了 5 款新型人形机器人并计划开源，每款机器人针对从家务到工业操作的不同任务而设计。此外，@adcock_brett 提到另一家中国机器人制造商 Unitree（宇树科技）展示了其新款 G1 人形机器人，据称已接近“量产”，价格为 16,000 美元。
AI 生成动作：@adcock_brett 指出，苏黎世联邦理工学院（ETH Zurich）和 Disney 开发了一个 AI 系统，能够根据文本或图像输入为机器人生成基于物理的动作，该系统采用两阶段方法，从大型数据集中学习动作的潜空间表示（latent representations）。
远程操作控制系统：@adcock_brett 强调了加州大学圣地亚哥分校（UC San Diego）发布的 ACE，这是一个低成本、跨平台的远程操作控制系统，允许研究人员同时精确控制多个机器人。该系统已完全开源。

AI 模型与工具

Jamba 1.5：@adcock_brett 报道称，AI21 Labs 推出了 Jamba 1.5，这是一个新的多语言 AI 模型系列，具有 256,000 的上下文长度，在其同类尺寸模型中长上下文处理速度快 2.5 倍，并对小型组织提供宽松的许可协议。该模型拥有完全开放的权重。
Dream Machine 1.5：@adcock_brett 提到 Luma Labs 发布了 Dream Machine 1.5，这是其 AI 视频生成模型的升级版，支持更高质量的文本生成视频、更智能的提示词理解以及改进的图像生成视频能力。
Ideogram v2：@adcock_brett 指出 Ideogram 发布了其文本生成图像 AI 模型的 v2 版本，其特色在于能够生成近乎完美的文本，为缩略图、海报和表情包等图像生成场景开辟了新的用例。
Mistral-NeMo-Minitron 8B：@adcock_brett 报道称，Nvidia 和 Mistral 发布了 Mistral-NeMo-Minitron 8B，这是一个可以在笔记本电脑和 PC 上运行的小型模型，在 Open LLM 排行榜上的表现优于 Mistral-7B 和 Meta-LLama 3.1-8B。

AI 应用与研究

自主销售 Agent：@adcock_brett 提到了 Salesforce 推出的两款全自主 AI 驱动的销售 Agent：Einstein SDR Agent 和 Einstein Sales Coach Agent，它们能够与入站线索（inbound leads）进行互动，并实时辅导销售人员。
Amazon 的 AI 助手：@adcock_brett 分享了 Andy Jassy 关于 Q 的更新。Q 是 Amazon 用于软件开发的 AI 助手，据估计它已节省了相当于 4,500 个开发者年的工作量。
Neuralink 进展：@adcock_brett 报道了 Neuralink 在第二位人类患者 Alex 身上取得的进展。Alex 展示了仅使用脑机接口（BCI）玩《反恐精英 2》（Counter-Strike 2）的惊人控制力，并在第一天就打破了之前 BCI 光标控制的世界纪录。

AI 开发与工具

Git Commit 消息生成器：@karpathy 分享了一个实用工具，该工具利用 @simonw 的 llm CLI 工具，根据已暂存更改（staged changes）的 git diff 自动生成 git commit 消息。
代码编辑的投机解码（Speculative Decoding）：@rohanpaul_ai 重点介绍了 Cursor.ai 的博客文章，内容涉及修改 diff 格式以及使用微调后的 Llama 70B 进行投机编辑，实现了比 GPT-4o 快 4-5 倍的速度，并推动了准确率/延迟曲线上的 Pareto frontier。
VoiceCraft：@rohanpaul_ai 提到了一款令人印象深刻的工具，用于野外环境下的零样本（zero-shot）语音编辑和文本转语音（TTS），仅需几秒钟的参考音频即可克隆未见过的声音。

AI 研究与框架

GraphRAG：@rohanpaul_ai 讨论了一篇关于 GraphRAG 技术的综述论文，该技术将图结构数据与语言模型相结合，比纯文本方法更有效地捕获复杂的关联知识。
iLoRA：@rohanpaul_ai 重点介绍了一篇提出 Instance-wise LoRA (iLoRA) 的论文，该技术通过将 LoRA 与 Mixture of Experts (MoE) 集成来个性化 LLM 推荐，从而提高序列推荐系统的准确性。
RAGLAB：@rohanpaul_ai 提到了 RAGLAB，这是一个用于标准化 RAG 研究的开源库，采用模块化设计，以便在不同算法之间进行公平比较。

AI 伦理与监管

加州 SB 1047 法案：@labenz 对 SB 1047 法案发表了评论，指出只有少数模型会被覆盖（仅限成本超过 1 亿美元的模型），且开发者已经在自愿进行广泛的安全测试。

梗与幽默

@AravSrinivas 分享了一个与 AI 相关的幽默 T 恤标语。
@vikhyatk 开玩笑地建议关闭语法高亮，以成为一名更好的开发者。
@abacaj 幽默地评论了其信息流中 Cursor 相关内容的泛滥。

本摘要捕捉了所提供推文中关于 AI 和机器人技术的关键进展、研究和讨论，重点关注与 AI 工程师和开发者相关的方面。

AI Reddit 回顾

/r/LocalLlama 回顾

主题 1. 本地 LLM 推理的硬件优化

2000-3000 美元是否足以构建本地编程 AI 系统？ (Score: 55, Comments: 102)：一位用户询问是否能以 2,000 到 3,000 美元的预算构建一个本地编程 AI 系统，旨在复制 Cursor 和 Anthropic 等商业编程助手的性能。他们将速度置于准确度之上，认为准确度可以通过更好的 prompting 或重试来提高，并专门询问 Mac Studio 是否足以满足此用途。
考虑不要使用 Mac… (Score: 178, Comments: 149)：该帖子比较了 M2 Mac Studio 和搭载 2080ti GPU 的 AMD 组装机之间的 LLM 推理性能。Nvidia 配置的性能显著优于 Mac，处理 32k context 仅需 25 秒，而 Mac 需要 260 秒，同时使用的 VRAM 更少（10GB 对比 30GB），并支持带有 flash attention 和 quant k,v 的 64k context。此外，Nvidia 设备在 context shifting 和回复生成方面表现出更稳定的性能。

主题 2. 长上下文 LLM 生成技术的进展

LongWriter：释放长上下文 LLM 的 10,000+ 字生成能力 (Score: 74, Comments: 15)：LongWriter 是一种使长上下文大语言模型 (LLMs) 能够生成超过 10,000 字连贯文本的技术。该方法包括将生成过程分解为可管理的区块，使用高达 32,000 tokens 的上下文窗口 (context windows)，并采用递归摘要 (recursive summarization) 和动态提示 (dynamic prompting) 等策略来保持各章节之间的一致性。这种方法允许创建长篇叙事、综合报告和其他长文本内容，同时在整个生成文本中保持主题连贯性和逻辑流。

主题 3. Anthropic 在 AI 监管上的争议立场

你认为 Anthropic 在对抗开源方面比 OpenAI 更糟糕吗？在我看来似乎确实如此。这封信似乎暗示他们实际上向参议员 Wienner 提议了该法案……我真的很喜欢我的 OSS LLMs…… (Score: 226, Comments: 111)：与 OpenAI 相比，Anthropic 似乎在对抗开源 LLM 方面采取了更激进的立场，甚至可能向参议员 Wienner 提议立法。帖子作者对这种感知到的立场表示担忧，表达了对开源语言模型 (open-source language models) 的偏好。这场辩论突显了 AI 安全监管与 LLM 开发创新（特别是在开源领域）之间的紧张关系。
- 拟议的加州 SB1047 法案要求对大型 AI 模型进行安全测试并内置“自毁开关” (kill switch)。批评者认为这可能会扼杀创新和开源开发，可能导致 AI 的进步流出美国。
- 用户对监管俘获 (regulatory capture) 表示担忧，暗示 Anthropic 可能会推动立法以维持其市场地位。一些人将其与过去监管汽车、飞机和电子游戏等新技术的尝试进行了比较。
- 讨论强调了在数学模型中实现“自毁开关”的挑战，以及创新转移到其他地方的可能性，特别是转移到像中国这样可能不太倾向于监管 AI 开发的国家。

主题 4. 新兴中国 LLM 挑战西方模型

对 GLM-9B 印象深刻（他们对该模型介绍很少） (Score: 54, Comments: 12)：帖子作者对 GLM4-9B 模型的性能表示惊讶，声称它在回答质量方面远超 Gemma 2 9B 和 Llama 3.1 8B。他们分享了 Hugging Face 上的模型链接，并询问其他人对该模型的看法和经验，并指出关于该模型的讨论似乎很少。

AI Reddit 综合回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

机器人与 AI 硬件

Disney Research 的面部模仿机器人：由 Disney Research 开发的一款机器人可以模仿人类的面部动作，特别是眨眼和细微的头部运动。
2024 北京世界机器人大会：该会议展示了各种机器人技术，突显了该领域的最新进展。

生物技术与食品科技

实验室培育肉成本持平：一项研究表明，实验室培育肉的成本可以与 USDA 有机鸡肉持平，这标志着培育肉在经济可行性方面取得了进展。

AI 模型开发

模型大小与智能的权衡：关于模型大小与智能之间折中的讨论表明，与 GPT-4 等早期版本相比，近期的模型经过了显著的蒸馏（distilled），这可能会影响它们的能力。
感知到的 AI 进展放缓：r/OpenAI 的用户正在讨论感知到的 AI 进步放缓，并指出近期的发展不如一年前那样令人印象深刻。

AI Discord 摘要回顾

由 Claude 3.5 Sonnet 生成的摘要之摘要的总结

1. LLM 进展与基准测试

Grok-2 攀升至 LMSYS 排行榜：xAI 的 Grok-2 在 LMSYS Leaderboard 上产生了重大影响，超越了 GPT-4o (5月版)，并凭借超过 6,000 张社区投票与最新的 Gemini 并列第二。
- 同样来自 xAI 的 Grok-mini 获得了第 5 名，尤其在 Math（第 1 名）方面表现出色，并在 Hard Prompts、Coding 和 Instruction-following 类别中排名第 2。
1.5-Pints LLM：质量重于数量：一款名为 “1.5-Pints” 的新型紧凑型 LLM 仅用 9 天时间，通过 570 亿 token 的精选数据集预训练完成，在 MT-Bench 基准测试中表现优于 Apple 的 OpenELM 和 Microsoft 的 Phi。
- 该模型采用了 修改后的 Mistral tokenizer 和 Llama-2 架构，优先考虑“教科书式”的内容，以增强推理和逻辑演绎能力。

2. LLM 优化技术

DisTrO：革命性的分布式优化：Nous Research 发布了关于 DisTrO 的初步报告，这是一系列分布式优化器，在不依赖摊销分析的情况下，将 GPU 间的通信需求降低了 1000 倍至 10,000 倍。
- DisTrO 在收敛速度上与 AdamW+All-Reduce 持平，有可能彻底改变大规模 LLM 训练。完整报告可在 GitHub 上查阅。
LIGER Kernel 提升 LLM 训练效率：用于 LLM 训练的新型 LIGER kernel 取得了令人印象深刻的结果，与传统方法相比，可节省 25% VRAM 并减少 33% 训练时间。
- 虽然 LIGER 主要为多 GPU 设置设计，但预计即使在单 GPU 训练场景下也能提供改进，这引起了 AI 社区的关注。
Sparse-Marlin 加速矩阵乘法：Sparse-Marlin 是一种新型 GPU 优化 kernel，已集成到 vllm_project 中，在 NVIDIA GPU (Ampere/Ada) 上针对 4-bit 量化权重的矩阵乘法实现了 5.3 倍的加速。
- 这一进步在 Batch Size 高达 32 的情况下仍能保持效率，并利用了 2:4 sparsity，有可能彻底改变大语言模型的推理速度。

3. 开源 AI 发展

Zed AI：开源编程伴侣：Zed AI 作为一款开源的 AI 驱动代码编辑器发布，为 AI 辅助编程提供了强大的界面，支持 Claude-3.5 等模型并集成了 Ollama。
- 该编辑器具有专为快速文本转换设计的新 Anthropic API，第一个月免费提供，将其定位为 Cursor 等专有选项的强力替代品。
Apple 的 ML-Superposition Prompting 正式开源：Apple 已将其 ML-Superposition Prompting 项目开源，现已在 GitHub 上可用，旨在推进机器学习中的 Prompting 技术。
- 这一发布在 AI 社区引起了轰动，可能为从事语言模型和 Prompt Engineering 的研究人员及开发人员提供新的工具和方法论。
Tinybox：面向 AI 爱好者的开源硬件：与 tinygrad 框架相关的开源硬件项目 Tinybox 已通过 tiny shop 向公众发售。
- 目前产能约为每天 4 台，积压订单为 60 台，Tinybox 代表了人们对用于 AI 开发和研究的可获取开源硬件日益增长的兴趣。

4. AI 行业与社区动态

AI Engineer 伦敦见面会宣布：首届 AI Engineer London Meetup 定于 9 月 12 日举行，演讲嘉宾包括 Maxime LaBonne、Rovio Sc、Martins Bruveris 和 Chris Bull，消息由 @dctanner 发布。
- 该活动受 @swyx 的 AI Engineer World’s Fair 启发，旨在汇聚伦敦的 AI 爱好者和专业人士进行知识分享和交流。
Together AI 调整价格结构：Together AI 宣布提高其 Serverless Reference 端点的价格，Llama-3 8B 从每百万 token 0.20 美元上调至 0.40 美元，Llama-3 70B 从每百万 token 0.90 美元上调至 1.80 美元，自 2024 年 9 月 1 日起生效。
- 虽然这些变化影响了 Serverless Reference 端点，但 Together AI 的 Turbo 和 Lite 定价保持不变，具体见其定价页面。

第 1 部分：高层级 Discord 摘要

Nous Research AI Discord

DisTrO 的分布式优化突破：Nous Research 发布了关于 DisTrO 的初步报告，展示了在无需摊销分析的情况下，将 GPU 间通信减少了 1000 倍至 10,000 倍，且收敛速度与 AdamW+All-Reduce 持平。完整报告可在 GitHub 上查看。
- 分布式优化器的这一进展标志着 LLM 训练的重大进步，团队对即将发布的模型代码和算法表示期待。
Hermes 2.5 性能超越 Hermes 2：在整合了代码指令示例后，Hermes 2.5 展示了优于 Hermes 2 的性能，在 MMLU 基准测试中获得了 52.3 分，而 Hermes 2 为 34.5 分。
- 这一实质性的提升为工程师之间的 LLM 性能评估设定了新标准。
1.5-Pints LLM 取得快速训练成功：新的 1.5-Pints 模型仅用 9 天 就完成了预训练，在模拟人类判断的 MT-Bench 上超越了 Apple 的 OpenELM 和 Microsoft 的 Phi。该模型使用了专注于逻辑推理的 570 亿 token 精选数据集。
- 该模型采用了修改后的 Mistral tokenizer 和 Llama-2 architecture，展示了 LLM 领域高效的训练方法论。
Sparse-Marlin 加速矩阵乘法：在 vllm_project 中引入 Sparse-Marlin，通过使用 4-bit quantized weights，在 NVIDIA GPU 上实现了 5.3 倍 的矩阵乘法加速。
- 这种针对 GPU 优化的内核可能会显著提升处理大型模型用户的性能。
探索 Whisper Diarization 实现：一位用户询问了关于实现 Whisper diarization（说话人日志）的问题，并分享了一个使用 Whisper v3 的脚本，寻求识别说话人变化的方法。
- 目前的努力方向是整合 diarization 功能，以简化音频处理并提高输出保真度。

Unsloth AI (Daniel Han) Discord

Unsloth 指控 LinkedIn 盗用代码：Unsloth 频道的成员断言 LinkedIn 抄袭了他们项目的代码，特别是在其 Triton kernel 实现中。他们指出 LinkedIn 的 Liger-Kernel 仓库和 Ollama 上的一篇帖子是证据。
- 指控指出 LinkedIn 将其内核与 Unsloth 的工作进行基准对比，暗示其缺乏对原始项目的公平贡献。
性能对比：Unsloth vs. Hugging Face：讨论强调 Unsloth 在速度和内存效率上优于 Hugging Face 等平台，尽管目前缺乏对 8-bit models 的支持。这使 Unsloth 处于竞争地位，但仍有明显的局限性。
- 成员们表示，虽然 Unsloth 展示了令人印象深刻的训练和推理时间，但全面的模型支持对于更广泛的采用仍然至关重要。
Liger Kernel 加速 LLM 训练：一位成员透露，新的 Liger Kernel 可以将 LLM 训练速度提高 20%，同时减少 60% 的内存使用，正如 Reddit 帖子中所讨论的那样。
- 该内核利用 Triton 开发，在优化训练时间方面展现了潜力，因其潜在应用而受到关注。
多语言模型微调的挑战：成员们分享了关于训练 Arabic（阿拉伯语）和 Persian（波斯语）等语言模型的见解，强调了专业数据集和预训练的重要性。其中一个建议是利用 Persian Wikipedia 以获得更好的模型效果。
- 成员们对 Llama-3 中这些语言的适当支持表示担忧，指出这可能阻碍多语言能力的进步。
Replete-LLM V2 发布，功能增强：Replete-LLM-V2-Llama-3.1-8b 正式发布，重点提升了推理和代码性能，该模型在 Replete-AI/The_Living_AI_Dataset 上进行训练，旨在嵌入“爱与共情”的概念。
- 该模型的有效性在很大程度上依赖于其系统提示（system prompts），这对于优化其信息处理能力至关重要。

Stability.ai (Stable Diffusion) Discord

澄清 Stable Diffusion Online 的状态：成员们质疑 Stable Diffusion Online 是官方网站还是独立于 Stability AI 运营。
- 这一询问揭示了社区内部对于与 Stable Diffusion 相关的各种平台的公信力及其关联性仍存在持续的困惑。
ComfyUI vs. ForgeUI - 选择你的工具！：有人建议，那些没有充分利用 ComfyUI 全部功能的开发者应该考虑切换到 ForgeUI 以获得更精简的体验。
- 这场辩论凸显了关于优化图像扩散设置工作流的持续讨论。
深入探讨 SD 图像放大方案：成员们讨论了各种图像放大技术，包括 Ultimate SD Upscale 和 Tiled Diffusion，特别提到了 ‘4x-NomosWebPhoto-atd’ 模型与 SUPIR 的结合。
- 这些讨论强调了社区通过先进方法提升图像质量的努力。
Noise Injection：提升图像质量的秘诀：一位成员详细阐述了 A1111/Forge 中的 ‘Noise Injection’，解释了它在改进图像放大效果中的作用。
- 这种技术作为一种潜在的增强策略引起了关注，能够带来更高质量的输出。
Flux 的困境 - 过拟合问题：讨论集中在 Flux 的过拟合挑战上，特别是在奇幻相关的输出中，导致生成的图像多样性降低。
- 这一探索引发了关于 Flux 需要如何调整以平衡创造力与多样性的担忧。

HuggingFace Discord

Hermes 2.5 表现优于 Hermes 2：在添加了代码指令示例后，Hermes 2.5 在各项基准测试中的表现似乎优于 Hermes 2。
- Hermes 2 在 MMLU 基准测试中得分为 34.5，而 Hermes 2.5 得分为 52.3。
Mistral 难以扩展至 8k 以上：成员们表示，如果不进行持续预训练，Mistral 无法扩展到 8k 以上，且这是一个已知问题。
- 他们指出，mergekit 和 frankenMoE finetuning 的进一步工作是性能突破的下一个前沿。
模型合并策略讨论：一位成员建议将 UltraChat 与基础 Mistral 之间的差异应用到 Mistral-Yarn，作为一种潜在的合并策略。
- 其他人表示怀疑，但该成员保持乐观，并引用了以往在他们所谓的“诅咒模型合并”（cursed model merging）中的成功尝试。
模型量化与蒸馏要点：强调了 Model Quantization 和 Model Distillation 对于将机器学习模型投入生产环境的重要性。
- 成员们一致认为，这些技术是实现超越本地训练的有效部署的基础。
TinyLlama 的快速成功：TinyLlama（一个类似于 Tau LLM 的模型）仅用 9 天就成功完成训练，并在 MTBench 上超越了 Apple 的 OpenELM 和 Microsoft 的 Phi。
- 训练代码和模型权重已在 GitHub 和 HuggingFace 上公开。

OpenAI Discord

模型缩放遭遇边际收益递减：讨论强调了模型缩放 (model scaling) 的边际收益递减现象，特别是在 Llama 3.1 和 Claude 3.5 Sonnet 中，性能提升滞后于计算能力的增加。
- 参与者强调，要使 AI 的规模超越单纯的数据和计算增长，必须取得创新性的突破。
辩论 AI 意识：哲学讨论围绕着当前的 LLMs（如 GPT）是否可以被视为具有意识展开，考虑到它们缺乏有机体验，并且可能遵循与人类意识不同的规律。
- 参与者还探讨了对自由意志的影响，认为 AI 系统表现出的决策是基于内部逻辑而非真正的意志。
有效地分享 GPTs：成员们表示有兴趣更好地追踪分享的 GPTs 及其在社区中的效用，并质疑如何评估其有效性。
- 对话包括关于共享输出功能的易用性担忧，以及对追踪使用案例的可能改进。
利用品牌身份创建自定义 GPTs：有人建议利用 custom GPT builder 来打造符合特定品牌身份的 GPTs 用于内容创作，并使用 GPT store 获取系统提示词 (system prompts)。
- 重点在于通过 API 集成中的自定义提示词来增强品牌一致性。
OpenAI API 的订阅模式：用户探讨了平台如何管理 OpenAI API 的订阅模式，例如利用基于 Token 定价的月度计划。
- Chatbase 被引用为讨论案例，表明迫切需要明确实施策略。

Perplexity AI Discord

Perplexity 创作者社区上线：Perplexity AI 与 Kale 合作推出了 Perplexity Creator Community，允许创作者通过参与视频内容赚取现金。
- 该计划鼓励用户根据自己的时间表发布内容，同时根据视频的传播范围产生收入。
API 速率限制引发不满：来自 Newcode.ai 的 Maged Helmy 迫切要求为其集成增加 API 速率限制 (rate limits)，此前他在等待 Perplexity 团队回复的过程中已经耗时六个月。
- Newcode.ai 拥有超过 3,500 名用户，其运营依赖于这些增强的限制来维持性能。
GPT-4o 主导编程，Claude 3.5 Sonnet 擅长知识获取：讨论强调 GPT-4o 在 STEM 任务中表现优异，而 Claude 3.5 Sonnet 在知识检索方面表现出色，特别是针对编程相关的查询。
- 用户注意到 Claude 在诗歌和叙事方面表现不佳，使得 GPT-4o 成为处理更广泛任务的首选。
Perplexity 中的图像生成问题：用户报告了图像生成的重大挑战，特别是在使用 Dalle3 时，尝试生成往往导致线程失败。
- 反馈表明图像生成过程可能需要改进，因为某些结果未能达到用户预期。
Perplexity Pro 的 LinkedIn 订阅优惠：Perplexity AI 正在为 LinkedIn Premium 订阅者提供一年的免费 Perplexity Pro，尽管欧盟的一些用户在可用性方面遇到了问题。
- Pro 版本提供无限次搜索，并允许访问 GPT-4 Omni 和 Claude 3.5 Sonnet 等高级 AI 模型。

OpenRouter (Alex Atallah) Discord

Grok-2 和 Grok-mini 登上排行榜！：xAI 的 Grok-2 和 Grok-mini 凭借超过 6000 张社区投票强势冲入 LMSYS Leaderboard！值得注意的是，Grok-2 与 Gemini 并列第二，而 Grok-mini 在 Math（数学）领域位居第一，并在 Hard Prompts、Coding 和 Instruction-following 方面排名第二。
- 成员们对 Grok-2 击败 GPT-4o (May 版本) 表示欢呼，这预示着排行榜动态和用户偏好的潜在转变。
数据库故障已解决：最近的一次 database change（数据库变更）导致了约 2 分钟的停机，但问题现已解决，服务已恢复正常。
- 团队对造成的不便表示歉意，并强调了对可靠运行时间（uptime）的重视。
Mistral 无法扩展至 8k 以上：针对 Mistral 的担忧浮现，据报道如果不进行持续预训练（pretraining），它无法扩展到 8k 以上，这被强调为一个已知问题。
- 建议包括探索 mergekit 和 frankenMoE finetuning 技术以提升性能。
Claude 3.5 Sonnet 再次下线：用户报告 Claude 3.5 Sonnet 正面临间歇性停机，严重影响了其可用性。
- 虽然 Haiku 运行正常，但 Hermes 3.5 等其他模型也持续出现问题，暗示了更广泛的系统不稳定性。
OpenRouter API Key 查询：用户正在讨论如何将自己的 API keys 与 OpenRouter 集成，以及显示的 Token 定价是否包含了 OpenRouter fee 在内的总成本。
- 澄清表明，Token 价格以 OpenRouter credits 列出，相关费用在充值 credits 时计算。

Eleuther Discord

OMI 模型能力讨论：成员们讨论了 OMI 参与者 从零开始创建 AI 模型的能力，但未能分享具体的意见或评估。
- 未达成实质性结论，参与者们仍在思考其中涉及的能力水平。
LLM 重复失败模式：讨论了 LLM 中一种常见的失败模式，即模型会重复短语，这可能与模型的过度量化（over-quantization）和最小化损失（minimizing loss）有关。
- 参与者假设某些条件可能会触发这种 looping behavior（循环行为），强调需要进一步调查。
Anthropic 可解释性成本挑战：关于为 Llama 8B 或 Mistral 等数据密集型且计算密集型的模型复现 Anthropic 的可解释性工作 (interpretability work) 的成本问题被提出。
- 成员们注意到成本高昂，但未提供具体数字，强调了在这些项目中资源分配的重要性。
Sparse MoE 的 GPU 利用率优势：一位成员提到 Sparse MoE 如何利用 GPU 稀疏性进行高效的分布式训练，允许将专家（experts）分布在多个进程中。
- 这种策略可以增强分布式推理（inference）场景下的性能，突显了可扩展性方法。
GNNs 与进化学习方法：一位成员将 GNNs 的演进与 positional embeddings（位置嵌入）进行了比较，建议未来的进展可能涉及从 latent representations（潜表征）中推断嵌入。
- 这一观点暗示了改进图结构中表征学习（representation learning）的新路径。

Latent Space Discord

Hermes 2.5 表现优于 Hermes 2：在添加了代码指令示例后，Hermes 2.5 在基准测试中的表现优于 Hermes 2，在 MMLU 上的得分分别为 52.3 和 34.5。
- 这一改进突显了新一代模型迭代中近期优化措施的有效性。
Mistral 受限于 8k 限制：如果不进行持续的预训练，Mistral 无法扩展到 8k 以上的上下文长度，这被认为是其当前设置中的一个重大限制，并且这是一个已知问题。
- 目前正在讨论探索如 mergekit 和 frankenMoE finetuning 等解决方案，以突破这些界限。
剖析 BERTopic 的实用性：关于 BERTopic（一种强大的主题建模工具）的讨论浮出水面，成员们分享了他们关于数据可视化的项目。
- 对话再次确认了其生成可解释主题的端到端能力，激发了对其聚类效果的好奇心。
呼吁在 Open Empathic 项目上进行协作：有人请求扩大 Open Empathic 项目的类别，强调了社区贡献的必要性。
- 成员们被引导至一个 YouTube 教程，以获取有关如何添加他们喜爱场景的指导，同时还提供了 OpenEmpathic 项目的链接。
伦敦 AI 工程师见面会启动：受 AI Engineer World’s Fair 启发，新宣布的 AI 工程师见面会定于 9 月 12 日在伦敦举行，已确认有四位知名演讲者。
- 鼓励感兴趣的参与者在此处注册，这注定将是一场极具吸引力的聚会。

tinygrad (George Hotz) Discord

Tinybox 销售启动！：Tinybox 工厂现已开足马力，即将向公众开放销售。感兴趣的买家可以查看 tiny 商店了解购买选项。
- Tinybox 目前已售罄，生产能力约为 每天 4 台，目前积压了 60 台订单。
对 E-graph 性能的担忧：成员们表示，在处理大型搜索空间时，e-graph 重写落后于当前的 SAT 求解器，突显了潜在的性能瓶颈。
- 建议进行持续改进，以匹配成熟的 SAT 求解技术中可见的效率。
探索 Tinygrad 和 AMD GPU：讨论了在 Tinybox 中使用 AMD GPU 的情况，并提到了 AMD 最近收购了 Silo AI 及其在 AMD 硬件上训练 LLM 的进展。
- 社区成员发表了看法，思考了有效整合 AMD 能力的可行性和优势。
Tinygrad 与 Torch 在 BERT 预训练中的对比：一位用户表示有兴趣与 Tinygrad 合作预训练一个大型 BERT 模型，并为该任务提供计算资源。
- 这种协作可能为探索 Tinygrad 和 PyTorch 在大型模型训练方面的性能差异铺平道路。
提高训练速度：一位用户报告称，在 beautiful_cifar 示例中通过移除 .cast(dtypes.default_float) 调用来调整预处理后，训练速度（GFLOPS）提高了 25%。
- 通过此调整，他们注意到模型现在以 dtype.float 处理数据，从而提高了效率。

Cohere Discord

Command-R 模型更新缺乏官方公告：新的 Command-R 模型已经发布，但目前还没有关于其特性（包括价格和上下文窗口）的官方沟通。
- 用户要求明确信息，因为许多人急于了解微调选项并解决未回答的问题。
Durov 大胆的公民身份举动：Telegram 创始人 Pavel Durov 最近获得了法国公民身份，目前正在法国面临审判，引发了辩论。
- 有人猜测，在与北约关系紧张之际，他的目标是通过战略性入狱来获得国际媒体的关注。
Cohere 为聊天机器人提供免费试用：一位用户探索了使用 Cohere 的免费试用来构建 Rasa 聊天机器人，希望能找到 OpenAI 服务的免费替代方案。
- 回复显示了用户在应对 AI 部署相关成本时对经济实惠方案的兴趣。
Cohere API 速率限制收紧：新报告显示，即使在文档记录的速率下，用户也会遇到“请求过多”错误，因为限制已更改为所有 API Key 总计每分钟 1,000 次调用。
- Cohere 澄清说，这意味着每个用户组织有整体的 1,000次/分钟限制，这会影响同时使用多个 Key 的用户。
关于 Rerank 3 定价的说明：用户询问了 Rerank 3 的定价，特别是 1,000 次搜索 2 美元是否涵盖了真实的 API 调用。
- Cohere 确认，每次搜索最多处理 100 个文档，根据文档限制，1,000 次搜索总计 409,600,000 tokens。

LlamaIndex Discord

Create Llama 推出提取模板：Create Llama 工具现在具有结构化提取模板，增强了用户体验。
- 这一新增功能旨在简化数据提取过程，同时保持准确性和效率。
GraphRAG 教程系列启动：关于构建 GraphRAG 的新分步教程系列已经开始，重点关注核心组件的实现。
- 第一段视频强调了如何使用 LLM 通过内存实现来提取实体和关系。
数据孤岛阻碍企业级 LLM 开发：企业级 LLM 开发中数据孤岛的挑战依然存在，强调了无缝身份验证管理的必要性。
- LlamaIndex 正在研究可行的解决方案，以整合团队间分散的知识。
LLM 自动化简报创建：LlamaIndex 简报已转为使用 LLM 自动创建内容，此前这是一项手动且耗时的工作。
- 这一转变体现了 LLM 在提高定期内容摘要效率方面的能力。
RAG-a-thon 黑客松即将到来：第二届 RAG-a-thon 黑客松与 Pinecone 合作，定于 10 月 11 日至 13 日在帕洛阿尔托举行，提供超过 7,000 美元的现金奖励。
- 活动将在 500 Global VC 办公室举行，欢迎参与者展示创新解决方案。

Torchtune Discord

编译函数输出与 Eager Mode 不同：一名成员提出了一个问题，即为什么在相同种子下，编译后的函数可能会产生与非编译版本不同的输出。这归因于 RNG 使用的不同：编译代码中使用 Triton 的 RNG，而 Eager Mode 中使用 PyTorch 的 RNG，这可能受到 In-place operation（原地操作）行为的影响。
- In-place operation（如 scatter_）在编译代码中可能会产生意外结果，导致更高的内存消耗和变化的输出。
Cudagraphs 可能会消耗更多内存：讨论了利用 cudagraphs 进行调试的问题，指出它们有预分配缓冲区的潜力。然而，它们也可能导致内存使用量增加，这可能并非所愿。
- 这意味着使用 cudagraphs 存在权衡，需要根据内存开销来权衡其收益。
FP16 作为节省内存的策略：建议在推理中使用 FP16 代替 FP32 以降低内存使用，特别是在不支持 BF16 的硬件上。据报道，这种改变的方法缓解了显存不足（OOM）问题。
- 尽管有了这些改进，编译和非编译输出之间的差异仍然是一个令人担忧的问题。
探索编译内核中的数值差异：即使优化了内存使用，剩余的输出差异也可能源于编译内核固有的数值差异。这指向了即使输入相同也可能存在的潜在计算变异。
- 参与者对这些数值差异表示担忧，强调了在编译代码评估中需要进一步考虑的领域。

LangChain AI Discord

LangChain 文档加载：图像提取简化：LangChain 社区包中 PyPDFLoader 的 extract_images=True 参数允许从 PDF 文档中无缝提取图像，为 LLM 处理丰富了文本上下文。
- 这对于需要结合文本数据进行图像分析的应用特别有用，扩展了 LangChain 的功能。
LLMChain 对比 LCEL：灵活性与优化：LLMChain 提供了一种简单直接的链式模型和 Prompt 方法，而 LCEL 为复杂任务提供了更高的定制化和灵活性。
- 虽然 LLMChain 仍是大多数场景的最优选择，但模块化设计的爱好者可能更倾向于 LCEL 引入的精细控制。
排查 PostgresSaver 错误：用户在使用 LangGraph 的 PostgresSaver 时遇到了与元组索引（tuple indexing）相关的 TypeError，这表明在数据类型处理方面可能存在潜在问题。
- 需要进一步调查以澄清元组访问方法，并解决开发者遇到的这一持续挑战。
GenAI 在数据科学中日益增长的作用：一场讨论强调了 Generative AI 在数据科学领域的新兴作用，特别是在自动化代码生成和数据 Pipeline 构建方面。
- 尽管对其局限性存在怀疑，但参与者承认了数据科学与 GenAI 进步之间的关键整合。
RAG 协作：寻求合作伙伴：一位成员分享了使用 LangChain 开发检索增强生成（RAG）聊天机器人的意图，希望能为该项目找到合作伙伴。
- 讨论中提到了爬虫和 RAG 组件方面的挑战，强调了这一技术领域的协作机会。

OpenAccess AI Collective (axolotl) Discord

GPT-4 微调对比 Mistral：评价褒贬不一：一位用户声称，与 Mistral 相比，微调 GPT-4 的效果“有点糟糕”，尽管他们使用的训练数据更少。
- 这引发了关于两种模型在实际应用中相对性能的讨论。
lm-eval-harness：让基准测试变得简单：成员们讨论了 lm-eval-harness 框架，认为它通过提供简便的任务集成简化了 Benchmark 的创建。
- 一位用户强调了他们对生成基准测试问题的研究，并在其最近关于 LLM 评估的 MCQs 论文中进行了分享。
LIGER 展示了令人印象深刻的训练效率：LIGER 内核承诺为 LLM 训练 节省 25% VRAM 和 33% 训练时间，这让急于测试其能力的用户感到兴奋。
- 然而，正如一位用户所指出的，对其在 单 GPU 训练 中的有效性仍存有疑问。
对 Phi-3-medium-128k-instruct 训练配置感到好奇：一位用户寻求 Phi-3-medium-128k-instruct 模型的训练配置，强调了共享设置的必要性。
- 另一位用户质疑了特定配置设置（modules_to_save）中的 Token 训练，并引用了外部消息以寻求澄清。
探索数据清洗（Data Curation）技术：一位用户深入探讨了 数据清洗，询问是否涉及模型提供评分，类似于 LLM-Judge 系统。
- 对话表明，人们对采用模型评估进行数据清洗的方法（类似于现有系统）很感兴趣。

Modular (Mojo 🔥) Discord

Mojo 的 Jitting 行为解析：在脚本模式下运行 mojo main.mojo 时，会发生 jitting，这就是为什么 global variables 在该模式下的行为与 mojo build main.mojo 编译模式下不同的原因。
- 这一澄清有助于用户理解在切换模式时内存管理的复杂性。
社区关注开发进度：由于暑假或问题堆积，Max 和 Mojo 的博客文章和更新速度似乎有所放缓，这引发了社区的担忧。
- 成员们正在寻求澄清，了解这是否会影响未来的发布和项目。
GPU 支持成为焦点：社区强烈推动 Mojo 的 GPU support，并期望未来的版本能解决此问题，从而可能将 Magic 移出 alpha 阶段。
- 成员们正热切期待下一个重大版本，将社区讨论与这些功能的进展保持一致。
Modverse 42 发布时间表明确：成员询问上周为何没有发布 Modverse 42，得知发布周期为 1-3 周，具体取决于项目量。
- 随着内容流趋于稳定，目前的每周标签可能会进行调整。
Mojo 的 Struct 参数和 UnsafePointer 详情：在 Mojo 中使用 struct 时出现了由于 variadic parameters 在定义结构体之外未正确参数化而导致的错误。
- 关于使用 UnsafePointer 的讨论强调了所有权需要显式管理，突显了 Mojo 中引用管理的复杂性。

OpenInterpreter Discord

OpenInterpreter 配置文件的自定义路径？：一位成员询问是否可以设置 OpenInterpreter 配置文件的自定义路径，但开发者表示该功能目前尚不可用，尽管未来可能会加入。
- 一旦实现，该功能将增强用户的灵活性。
Windows 上的 OpenInterpreter –vision 标志功能：关于 Windows 上 --vision 标志的咨询结论是其应能正常工作，并鼓励在专用频道报告任何问题。
- 进一步的测试可能会为不同环境下的兼容性提供重要见解。
预装版 OpenInterpreter 需求激增：开发者分享称，由于需求量大，prebuilt OpenInterpreter 设备的预订已关闭，显示出强烈的兴趣。
- 用户需要等待销售恢复，这突显了技术社区对该产品的参与度。
品牌指南仍缺失：有人请求品牌指南文档，但成员确认目前尚无此类文档。
- 该咨询与围绕项目可访问性和设计考量的讨论相关联。
Zed AI：开源编程伴侣：Zed AI 为 AI 辅助编程提供了一个酷炫的界面，支持 Claude-3.5 和 Ollama 等模型，并由首月免费的新 Anthropic API 提供增强支持。
- 作为 Cursor 等专有选项的强力替代品，它正受到关注，促进了更广泛的开源开发。

DSPy Discord

Apple 的 Superposition Prompting 项目启动：成员们对 Apple 的新项目 ML-Superposition Prompting 表示兴奋，该项目已在 GitHub 上线，旨在精炼 ML 中的提示技术。
- 目前，社区讨论集中在对该项目的初步反响上，尚无进一步的技术见解。
OpenAI 引入类型化输出 (Typed Outputs)：讨论引发了关于 OpenAI typed outputs 新功能的关注，重点是 JSON 格式结构化输出的验证，并提到了 Outlines、Guardrails 等项目。
- 成员们链接了相关的 GitHub 仓库，展示了用于管理结构化输出格式的各种库。
处理 DSPy 输出错误：一位成员报告了 DSPy 中关于“尝试获取正确输出格式时重试次数过多”的 ValueError，这在使用类型化预测器（typed predictors）时出现，归因于输出填充文本。
- 另一位用户提供了见解并链接到了现有的 GitHub issue，以澄清这个常见的 JSON 输出解析问题。
探索德语 ColBERT 训练：一位用户寻求关于构建德语 ColBERT 模型训练数据的指导，提议使用类似 ColBERTv2 的 32 路三元组（32-way triplets）格式。
- 他们建议的数据结构格式包括 raw_query = [(query, (positive_passage, positive_score), [(negative_passage1, negative_score1), ...])]，并正在寻求对其适用性的验证。

Gorilla LLM (Berkeley Function Calling) Discord

Hugging Face Leaderboard 与网站同步：由于最近的一个 pull request，Hugging Face Leaderboard 现在与网站排行榜同步，并征求团队成员的反馈。
- 鼓励任何关注此项更改的人员分享建议。
关注 BFCL V2-Live 数据集的准确性：关于如何计算 BFCL V2-Live 数据集的整体准确率正在进行讨论，该数据集包含 2,251 个问题-函数-答案对。
- 该数据集包括 258 个简单、7 个多个、16 个链式和 14 个多阶段函数调用，引发了关于准确评估方法的疑问。
关于向 BFCL 添加模型的咨询：一位新成员表示有兴趣向 BFCL 添加模型，询问了非开源上传的流程以及具有多个组件的模型评估。
- 正在寻求有关在与 BFCL 集成时保持模型完整性的细节。
Gorilla Leaderboard 解释：针对 Gorilla Leaderboard 文档中“准备可执行测试对 (prepare the executable test pairs)”这一短语提出了疑问。
- 文档澄清说，鼓励用户向排行榜贡献可执行测试对，以促进评估方法的协作改进。
为函数调用训练 LLM：Gorilla Leaderboard 用于通过标准化基准测试来训练和评估 LLM 的函数调用能力。
- 该框架允许对各种模型进行比较，从而增强性能评估。

LAION Discord

Anthropic 的机械可解释性 (Mechanistic Interpretability) 成本：一位用户对为 Llama 8b 和 Mistral 等模型运行 Anthropic 的机械可解释性相关的费用提出了质疑，并指出缺乏开源替代方案。
- 他们强调了对限制是由于数据密集型还是计算密集型 (compute-heavy) 的担忧，并寻求对其他影响因素的澄清。
即将举行的 AI Engineer London Meetup：请在日历上标记 9 月 12 日的 AI Engineer London Meetup，届时将展示来自 Maxime LaBonne 和 Rovio Sc 等人物的见解。
- Damien C. Tanner 的推文中分享的细节显示，该活动旨在将 Swyx 的 AI Engineer World’s Fair 的一部分带到英国。

Interconnects (Nathan Lambert) Discord

Romain Huet 接管 OpenAI DevRel：OpenAI 的新开发者关系 (DevRel) 负责人是 Romain Huet，他在 2023 年 7 月加入后在 Twitter 上确认了自己的职位。
- Huet 的任命是在前任负责人 Logan 离职后进行的，这表明 OpenAI 的开发者推广工作正在进行集中的领导层过渡。
Logan 的平稳过渡：Logan 于 2023 年 7 月离开 OpenAI，其继任者 Romain Huet 确认了这一消息。
- Huet 指出过渡很顺利，表明组织内部已经建立了领导层变更的协议。

Alignment Lab AI Discord

AI Engineer London Meetup 拉开帷幕：首届 AI Engineer London Meetup 定于 9 月 12 日晚上举行，共有四位演讲者：Maxime La Bonne、Roviosc、Martins Bruveris 和 Chris Bull。注册详情可以在这里找到。
- 该活动旨在成为由 Damien C. Tanner 主办的 AI Engineer World’s Fair 的一部分，重点展示 AI 工程师之间的活跃讨论。
强调 AI Engineer World’s Fair 的影响：这次伦敦 Meetup 从 AI Engineer World’s Fair 中汲取灵感，目标是为 AI 讨论创造一个协作氛围。该活动汇集了令人兴奋的演讲者阵容，分享见解和经验。
- 该 Meetup 由 Damien C. Tanner 主办，是 AI 爱好者建立联系并参与该领域前沿话题的社区空间。

LLM Finetuning (Hamel + Dan) Discord

Hamel 的出席问题：一位用户询问 Hamel 是否参加关于 LLM Finetuning 的讨论，表达了对其专业知识的兴趣。
- 这一互动突显了社区对知名贡献者在 LLM 优化方面见解的期待。
Hamel 不在场：遗憾的是，Hamel 在询问时并不在场，这暗示错过了一次讨论机会。
- 社区成员表示希望他能在未来的会议中参与并分享他的见解。

MLOps @Chipro Discord

CUDA Hackathon 登陆旧金山：准备好参加 9 月 21 日在旧金山举行的 CUDA Hackathon，届时你可以与 NVIDIA 工程师并肩作战，解决现实世界的 CUDA 挑战。
- 这是一个与专家交流并参与创新 accelerated computing 项目的绝佳机会。
深入探索加速计算：该活动将探索 accelerated computing，利用 NVIDIA 的并行计算平台来优化 GPU 应用。
- 参与者将获得 NVIDIA 资源和工程师的亲自指导，以构建和完善 CUDA 应用程序。

DiscoResearch Discord

Together AI 向用户发布涨价通知：自 2024 年 9 月 1 日起，Together API 的 Serverless Reference 端点针对 Llama-3 8B 和 70B 模型的价格将上涨，其中 8B 模型从每百万 tokens $0.20 增加到 $0.40。
- 70B 模型的价格将从每百万 tokens $0.90 跳升至 $1.80，反映出显著的上调。
Turbo 和 Lite 价格保持稳定：虽然 Serverless 端点价格在上涨，但 Together API 的 Turbo 和 Lite 定价保持不变，正如 Together Pricing Page（最后更新于 2024 年 7 月 18 日）所确认的那样。
- 这使得用户在整体价格变动中，避免了这些端点的价格上涨。
OpenAI 降价，让 Together AI 显得处境尴尬：与 Together AI 即将到来的涨价形成鲜明对比，一位成员指出 OpenAI 最近降低了 GPT-4O-Mini 的价格，引发了关于定价策略的讨论。
- 这一转变让人们对 Together AI 在竞争对手降价时选择涨价的决定感到意外。
融资困境引发涨价猜测：由于成员们讨论了当前定价策略的可持续性，有人猜测 Together AI 可能会因为融资问题而将价格翻倍。
- 他们提到 4-bit 和 8-bit 模型的价格目前应保持不变，但未来潜藏着变动的可能。

Mozilla AI Discord 没有新消息。如果该频道沉寂时间过长，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道沉寂时间过长，请告知我们，我们将将其移除。

第 2 部分：频道详细摘要与链接

邮件中已截断完整的逐频道细分内容。

如果您想查看完整细分，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！提前感谢！

这个周末没发生什么特别的事。