10 亿美元就是实现 Safe Superintelligence 的全部所需？

2024年9月3日至9月4日的 AI 新闻。我们为您查阅了 7 个 subreddits、433 个 Twitter 账号和 30 个 Discord 服务（213 个频道，3131 条消息）。预计节省阅读时间（以 200wpm 计算）：340 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论！

更多无固定主题的新闻：

Safe Superintelligence（我们的报道见此）宣布以 50 亿美元估值融资 10 亿美元。Ilya 在路透社的报道中暗示了他们的搜索方法。
Sakana AI 宣布了其 1 亿美元的 A 轮融资，并进一步阐述了他们的方法：“我们的 Logo 旨在唤起鱼群聚集并根据简单规则形成连贯实体的理念，因为我们希望在研究中利用自然界的思想，如进化和集体智能。”
You.com 宣布了 5000 万美元的 B 轮融资，并转向 ChatGPT 的产品形态 —— 实际上将 AI Search 领域让给了 Perplexity，后者在今年春天融资 6300 万美元后，又在今年夏天融资超过 2.5 亿美元。
Anthropic 发布了 Claude for Enterprise，具备 500m 上下文窗口。
ChatGPT 从 Next.js 重写为 Remix
AI2 发布了 64 专家的 MoE 版 OLMo（我们的报道见此）

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 研发的关键趋势

MoE 模型：@mervenoyann 介绍了 OLMoE，这是一个开源的 Mixture-of-Experts Language Model，拥有 1B 激活参数和 7B 总参数，在 5 万亿 token 上训练。据报道，它的表现优于具有相似激活参数的模型，包括 Llama2-13B-Chat。详情突出了涉及每层 64 个专家的创新架构，并专注于高效的训练技术。
AI 对齐的挑战：@Yuchenj_UW 讨论了在昂贵的 GPU 环境下训练大模型的逻辑，并分享了关于模型上下文需求以实现最佳性能的见解，强调了高级 AI 任务不断增长的资源需求。提到了与 GPU 使用相关的具体成本，为 AI 研究的经济影响提供了实际的缩影。
新兴 AI 项目：@rohanpaul_ai 描述了 AI Agent 领域的尖端进展，强调了向能够自主执行文档分析和技术图像生成等任务的项目转变。这些 Agent 根据用户定义的任务运行，展示了 AI 在实际企业应用中深度集成的趋势。

AI 开发的创新工具与 API

AI 中的指挥与控制：@ctojunior 详细介绍了一种现代的 AI 驱动视频生成方法，该方法利用常规控制流水线并对其进行调整，以便更好地集成到生成模型中。这反映了在自动化系统中增强人类交互能力的更广泛趋势。
RAG 系统：@omarsar0 提供了关于 Retrieval-Augmented Generation (RAG) 的见解，强调了其与长上下文模型相比的相关性。他们指出 RAG 在以更少的 token 产生更优结果方面的运行效率，表明这是未来应用的一个重要研究领域。
GitHub 集成：@rohanpaul_ai 展示了在新的 Anthropic Enterprise 计划下，AI 应用向 GitHub 集成迈进的趋势，标志着在具有增强安全特性的协作编码环境中迈向运行效率的一步。

AI 部署的行业影响

医疗创新：@qdrant_engine 推出了结合文本和图像数据以增强诊断能力的工具，反映了通过 AI 辅助进行的医疗工作流程的持续变革。多模态搜索的集成代表了旨在改善患者护理的关键进展。
教育推广：@DeepLearningAI 宣布了专注于 Python 编程的教育计划更新，强调了知识工作者对 AI 素养的需求。该倡议旨在加深在专业环境中对 AI 工具的理解和互动。
地缘政治维度：来自 @ylecun 的见解讨论了 AI 治理对不同系统中言论自由的更广泛影响，将技术论述与基本民主原则联系起来。这突显了在日益增长的 AI 时代进行深思熟虑的监管的必要性。

AI 讨论中的幽默与迷因

编码哀歌：@Aidan_mclau 幽默地指出了程序员面临的常见挣扎，反思了当今软件开发中的荒诞与压力。这捕捉到了开发者在应对现代编码环境复杂性时的共鸣情绪。
创始人模式：@HamelHusain 定义了 “founder mode”，将对创业者的严苛要求与观察到的成功率和陷阱进行对比，对创业生活和预期产生了一种戏谑的氛围。
AI 趣事：@teortaxesTex 对 AI 的现状及其超级智能的承诺进行了讽刺性评论，嘲讽了围绕 AI 能力的言论，同时对 AI 发展中的炒作与现实提供了视角。

AI Reddit 摘要

/r/LocalLlama 回顾

主题 1. 新 AI 模型与前代模型的基准测试对比

OLMoE - 一个仅有 10 亿激活参数的全开源稀疏 MoE 模型 (Score: 161, Comments: 8): OLMoE 是一种使用 sparse Mixture-of-Experts 的新型开源语言模型，拥有 70 亿参数，但每个输入 token 仅使用 10 亿参数，其性能超越了具有相似激活参数的模型，甚至超过了像 Llama2-13B-Chat 这样更大的模型。该模型在 5 万亿 token 上进行了预训练，并适配创建了 OLMoE-1B-7B-Instruct。这项工作的各个方面，包括模型权重、训练数据、代码和日志，都通过各种平台公开。
- OLMoE 的性能在与 Deepseek V2 Lite 16B MoE 等较新模型对比时受到质疑。用户注意到了该模型的开放性，但也对微调期间 MoE 训练速度优势提出了担忧，理由是 GPU utilization（利用率）和 loss stabilization（损失稳定）方面的问题。
- 该模型的 7B 参数总量和 1B 激活参数量因其作为本地助手的潜力而受到称赞。用户预计在量化后，无需 GPU 即可达到 30-50 tokens/s，非常适合笔记本电脑使用。
- 社区表达了对 GGUF support 以及与 llama.cpp 集成的兴趣。一些用户正在等待 GGUF 版本以及与更现代模型的基准测试对比，以便进行公平比较。

主题 2. Claude-Dev 扩展添加对本地 LLM 的支持

Claude-Dev 现已支持本地 LLM！（Ollama，OpenAI 兼容服务器） (Score: 66, Comments: 13): Claude-Dev 1.5.19 版本已经发布，通过 Ollama 和 OpenAI-compatible servers 增加了对本地语言模型的支持。此更新可在 GitHub 上获得，解决了社区长期以来的功能请求。
- 用户对 Claude-Dev 与本地语言模型的兼容性表示兴奋，特别提到了 deepseek coder v2 的经济性和潜在性能。
- 此次更新广受好评，用户期待尝试包括 Gemini、GPT-4 以及用于简单任务的免费本地选项在内的各种模型。
- 社区成员对新的 API support 表示赞赏，表明这是一个备受期待的功能。

其他 AI 子版块回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 与自主系统

Minecraft 中的自主 Agent 文明：一个开创性的实验，展示了 1000 多个自主 AI Agent 在 Minecraft 中创建了自己的文化、经济、宗教和政府。
特斯拉的 Actually Smart Summon (ASS)：特斯拉发布了改进版的智能召唤功能，展示了自动驾驶汽车技术的进步。

AI 图像生成与处理

ComfyUI Advanced Live Portrait：一个使用 ComfyUI 进行实时 AI 驱动的肖像生成和操作的演示。
Stable Diffusion 的改进文本编码器：针对 Flux.1 的新型 ViT-L/14 / CLIP-L Text Encoder 微调，在图像生成中提供了增强的文本遵循度和细节。

AI 发展与未来预测

GPT-NEXT 发布公告：OpenAI Japan 预告了 2024 年的 GPT-NEXT，暗示了语言模型的潜在进步。
AI 进展视角：一张信息图强调了考虑长期 AI 进展而非仅仅关注短期发展的重要性。

迷因与幽默

GPT-Hype 迷因：一个关于 GPT 模型发布及其相关炒作循环的幽默解读。
AI vs. 机器人推测：一张迷因风格的图片，对比了人形机器人与超人工智能可能到来的先后顺序。

AI Discord 摘要回顾

由 Claude 3.5 Sonnet 生成的摘要之摘要的摘要

1. LLM 进展与基准测试

Llama 3 模型引发轰动：Meta 的 Llama 3 系列模型（包括庞大的 405B 参数版本）已经发布，具备 128k context windows 和 function calling 等能力。
- 这些模型已经开始部署，OpenRouter 以 $2.5/mil tokens 的竞争性价格推出了 Llama 3.1-405B-instruct。用户渴望在各种基准测试中测试其性能。
Command R 模型迎来更新：Cohere 发布了更新的 Command R 和 R+ 模型，在推理、代码编写和多语言检索增强生成 (RAG) 任务中表现更佳。
- 由于 GQA 增强，这些模型拥有高达 50% 的吞吐量提升，且价格大幅下调 —— Command R 现在的输入/输出 token 价格为 $0.15/$0.60，而 R+ 为 $2.50/$10.00。

2. LLM 优化技术

用于高效训练的低秩近似：研究人员正在探索分布式训练设置中梯度传输的 low-rank approximations（低秩近似），以减少节点间的通信开销。
- 这种方法与为大规模 AI 项目开发自适应通信模式的持续努力相一致，正如 DiLoCo: Distributed Low-Communication Training of Language Models 等论文中所讨论的那样。
动态专家路由增强模型灵活性：Dynamic Expert Routing 的概念正受到关注，它允许模型在训练期间定义自己的专家，而不是使用固定配置。
- 虽然在增强模型适应性方面很有前景，但成员们注意到该主题缺乏全面的文献，这标志着一个值得进一步研究和开发的领域。

3. 开源 AI 进展

Tinygrad 推出实惠的云服务：Tinygrad 推出了价格仅为 $60/月 的云服务，提供 4090 GPU 和 500 GB 存储空间，定位比 vast.ai 便宜 3 倍。
- 该服务允许用户在本地运行 tinygrad，同时利用更快的云端操作，正如在 tweet 中宣布的那样，每个 ‘TinyJit’ 函数仅需 一次往返。
Re-LAION 5B 数据集解决安全顾虑：Re-LAION-5B 数据集已发布，更新了 LAION-5B，增加了额外的安全措施，并删除了指向疑似 CSAM 内容的链接。
- 这一更新是与 Internet Watch Foundation 等机构合作开发的，旨在为 AI 研究和开发提供一个更合乎伦理且安全的数据集。

4. AI 应用与行业影响

GameNGen 实时模拟 DOOM：GameNGen 神经模型展示了实时模拟游戏 DOOM 的能力，在单个 TPU 上实现了超过 20 fps 的高质量交互。
- 人类评分者难以区分模拟片段和真实游戏画面，展示了神经模型在游戏开发和交互式媒体方面的潜力。
Meta AI 助手获得关注：据报道，Meta 的 AI 助手月活跃用户已达 4 亿，日活跃用户达 4000 万，表明其在市场上被迅速采用。
- 据 The Information 报道，这一增长表明 Meta 在 AI 助手领域正在取得进展，尽管仍落后于 ChatGPT 据称的 2 亿周活跃用户。

PART 1: High level Discord summaries

Unsloth AI (Daniel Han) Discord

LLM 微调重获信任：参与者打破了微调无法教授新概念的迷思，展示了依赖于正确参数和强大数据集的成功实现。
- 挑战依然存在，一些人指出模型容易产生 hallucinate（幻觉），因此需要精心设计的微调方法。
RAG 与微调之争：关于 RAG 与微调在减少幻觉方面效果的热烈讨论得出结论，混合方法可以实现利益最大化。
- 参与者承认 RAG 在上下文锚定（context-grounding）方面的优势，建议灵活运用方法可能会产生更好的结果。
Llama 3.1 在 OpenRouter 上线：新推出的 Llama 3.1-405B-instruct 模型具有显著的 128k context，价格极具竞争力，为 $2.5/mil tokens。
- 该模型支持 function calling，迅速吸引了渴望利用其先进能力的用户的关注。
GPT-4o 降价：OpenAI 的 GPT-4o 模型现在每 1M tokens 的成本为 $4，大幅降低了与 token 使用相关的费用，鼓励了更广泛的采用。
- 凭借其 Structured Outputs 功能，GPT-4o 可以将响应与 JSON Schemas 对齐，将 LLM 定价策略转向由性能驱动的经济模式。
多 GPU 训练中的挑战：成员们提出了多 GPU 设置中因 GPU 检测协议配置错误（特别是在脚本执行中）而遇到错误的问题。
- 提交了一个 pull request 以改进与 CUDA 配置的兼容性，强调了优化代码处理 GPU 环境的需求。

aider (Paul Gauthier) Discord

Gemini 模型性能受到关注：用户对新 Gemini 模型的性能表示怀疑，特别是它与 Aider 的兼容性。
- 虽然有些人觉得它令人印象深刻，但对其在各种环境下的有效性仍存在担忧。
Sonnet 基准测试显示性能稳定：最近的评估表明 Sonnet 保持了有效的代码编辑能力，基准测试结果稳定。
- 尽管有传言，但性能统计数据揭示了在不同测试中一致的通过率。
Magic Dev 发布长短期记忆模型：Magic Dev 推出了一个具有海量 100M token context window 的模型，通过推理增强了编程任务。
- 这一进展因其在复杂问题解决任务中的潜在应用而引起了关注。
Aider 的发展路径与社区参与：Paul G. 赞扬了社区在 Aider 演进中的参与，表示目前没有剧烈变动的计划。
- 关于未来增长的讨论包括可能推出 GUI 版本以促进用户参与。
Aider 模型支持方面的困惑：讨论强调了在使用 OpenRouter API 的 Aider 模型时，.env 文件中设置的混乱。
- 关于未指定 LLM Provider 的错误引发了关于所需环境变量的讨论。

OpenAI Discord

个性化 LLM 以提升用户体验：用户强调了个性化 LLM 对于创建独特个性并保持交互长期记忆的重要性。
- 针对维持个性化体验所需的 API 调用成本影响，用户提出了担忧。
Grok 2 与 Gemini 的对决：Grok 2 和 Gemini 之间展开了激烈的对比，突出了 Grok 的创造力，但在处理复杂任务时存在不一致性。
- 用户分享了对 Grok 输出的挫败感，指出其结果随 prompt 质量的不同而有显著差异。
优化职位匹配分数：解析了简历（CV）与职位描述对比中不平衡的相似度分数，识别出的范围在 5 到 65 之间。
- 反馈建议重新校准 prompt 和分类规则，以提高评分的公平性和清晰度。
API 调用策略——独立 Prompt vs 单个 Prompt：围绕针对不同问题使用多次 API 调用还是针对文档评估使用单个综合 prompt 展开了辩论。
- 建议倾向于使用独立的调用以减少 hallucinations，从而增强响应的清晰度和可靠性。
通过 Batch Processing 增强文档分析：聊天集中于利用 batch processing（批处理）作为简化大型文档分析并保持效率的策略。
- 传阅了 OpenAI 的 batch processing 文档链接，激发了对高效数据提取技术的兴趣。

HuggingFace Discord

Llama 3 模型需要高性能硬件：一位用户寻求构建 RAG 应用的帮助，询问 LLaMA 3 模型（包括 8B、70B 和 405B 参数版本）理想的本地 GPU 和 RAM 配置。
- 回复建议使用 Nvidia A100 GPU，运行 LLaMA 405B 至少需要 300GB GPU 显存，这引发了关于其成本和运营可行性的讨论。
Amazon ML Challenge 2024 寻找合作者：一位成员正在为 Amazon ML Challenge 2024 寻找队友，旨在合作开展创新项目。
- 未提供挑战赛的具体细节，这向更多热情的贡献者发出了加入的公开邀请。
探索 CAD 系统中的 AI：讨论集中在 AI 与 CAD 系统的集成，引发了对类似于 J.A.R.V.I.S 功能的兴趣。
- 成员们分享了他们在整合 AI 方面取得的进展，展示了增强交互式应用的现实潜力。
文本转语音 ML 的进展：Text-to-Speech-ML GitHub 项目旨在通过社区协作改进文本转语音技术，欢迎用户贡献。
- 这一举措标志着社区在语音合成相关的机器学习方面的进步，加强了开源贡献。
使用 AI 制作火球动画：成员们讨论了在照片中制作火球效果动画的技术，推荐了 AnimateDiff 和 IP Adapter Plus 等工具。
- 这种社区驱动的探索反映了通过各种创意技术，利用动画元素增强静态图像的集体努力。

CUDA MODE Discord

LTM 架构使用 RNN 处理 attention：在简短的交流中，一位成员指出 LTM 架构似乎利用 RNN 来管理 attention。
理解 Triton 的 Atomic Add Scope 设置：Triton 的 atomic add 设置中，scope=GPU 配置将操作限制在单个 GPU 内，而 scope=system 允许跨多 GPU 计算，这可能会影响性能。
- 多 GPU 环境的默认设置是 scope=GPU，确保在无需额外配置的情况下实现功能。
FX pass 将 aten 操作映射到 Triton：出现了一个关于创建 FX pass 以将 aten 操作直接映射到自定义 Triton kernel 的咨询，旨在进行性能优化。
- 用户确认可以从 PyTorch 原生调用 Triton，无缝集成高级 GPU 加速。
Attention 层量化引发讨论：成员们讨论了 attention 层中 QKV 投影量化的影响，强调了维持模型准确性的必要性。
- 默认的 filter_fn 会自动量化 Linear 层，这引发了关于其操作假设的疑问。
v0.2.0 版本发布增强了 Liger-Kernel：Liger-Kernel 的新版本 v0.2.0 提高了 API 清晰度并引入了更广泛的模型支持，但一些用户正面临 Out Of Memory (OOM) 错误。
- 集成 LayerNorm 模块显示出良好的性能，尽管 Hugging Face 示例中的 OOM 问题仍然存在。

Stability.ai (Stable Diffusion) Discord

优化 SDXL 性能：为了提升 SDXL 性能，用户建议在 webui-user.bat 文件中添加 --xformers、--medvram-sdxl 和 --no-half-vae，特别是针对低 VRAM GPU。
- 这些调整旨在提高速度并减少 VRAM 占用，同时不影响与 VAE 的兼容性。
澄清 SEG 实现：关于工作流中 SEG 的讨论揭示了对其必要性和复杂性的困惑，特别是涉及 Impact Pack 等工具时。
- 参与者质疑 SEG 是标准方法还是针对某些工具的专门功能。
AI 模型的高昂训练成本：据报道，训练 SD1.5 或 SDXL 等基础模型需要数月时间，成本可能高达数百万美元，这引发了对资源分配的担忧。
- 用户指出，与大型模型相比，LORA 模型的训练资源需求要少得多。
RunwayML 撤下 Stable Diffusion 仓库：RunwayML 从 HuggingFace 等平台移除 Stable Diffusion 1.5 仓库的行为在社区内引起了警觉。
- 此举暗示其重心可能正从早期模型转移，引发了用户对未来发展的猜测。
GPU 生成时间的辩论：使用 3060 和 3060 Ti GPU 的用户分享了他们在 SDXL 和 Flux 模型上的生成时间经验，引发了对性能的关注。
- 用户担心这些 GPU 是否能应对较长的生成时间以及相关的模型存储需求。

Nous Research AI Discord

Hermes 3 在失忆模式下进行交流：用户发现 Hermes 3 的失忆模式 (amnesia mode) 表现出对正式语言的偏好，拒绝使用像 ‘bruh’ 这样被认为不友好的非正式词汇。这表明 AI 模型展现出明确交流风格的可能趋势。
- 这一观察引发了关于 AI 性格特征 将如何塑造未来模型交互的问题。
低秩近似优化梯度传输：讨论围绕使用 low-rank approximations 在分布式节点间进行高效梯度传输展开，这可能减轻通信开销。这种方法与训练中对自适应通信模式的需求相契合。
- 成员们强调了在大规模 AI 项目中优化 梯度性能 以提高训练效率的重要性。
在多样化数据上训练 LLaMA 3：一位用户正使用来自 Reddit 和 StackExchange 等来源的合成及真实指令数据训练 8b LLaMA 3 模型，旨在减少“AI 味”的行为。这展示了改进模型训练的多样化方法。
- 这些努力可能会在多样化数据集如何影响 AI 行为 和基准测试方面产生重要发现。
为 LLM 引入 Word Game Bench：Word Game Bench 是一个针对 LLM 的新型评估框架，专注于 Wordle 等互动游戏，以解决典型的评估缺陷。该基准测试标志着通过趣味交互评估 模型性能 的创新转变。
- 成员们对该基准测试在提高语言模型评估准确性方面的潜在见解表示热烈期待。
GameNGen 实时呈现 DOOM：神经模型 GameNGen 展示了脱离传统引擎独立模拟 DOOM 的能力，实现了超过 每秒 20 帧 的现实感。人类评分显示，很难将其模拟效果与实际游戏画面区分开来。
- 关于该模型如何影响 Unreal Engine 等平台的讨论，强调了将此类 模拟技术 (simulation technologies) 集成到未来游戏中的前景。

LM Studio Discord

LM Studio 更新 0.3.2 提升性能：最新的 LM Studio 更新 (0.3.2) 解决了 Flash Attention 的延迟问题，增强了本地推理性能。
- 用户评价褒贬不一，在注意到功能改进的同时，也对与早期版本相比的稳定性表示担忧。
Flash Attention 模型兼容性：已确认 LLaMa-3.1 和 Mistral 支持 Flash Attention，讨论还扩展到了 Google 的 Gemma-2。
- 这反映出用户渴望评估各种支持模型的整体性能水平。
M2 Ultra Mac 展示 LLM 潜力：一位用户成功配置了一台拥有 192 GB Unified Memory 的 M2 Ultra Mac，目标直指 LLM 开发。
- Pydus 对他在这台新硬件上能有效加载的模型大小表示好奇。
多 GPU 配置的电源管理：一套包含 4x RTX 4090s 的配置经计算功率限制为 3500W，引发了关于电力分配的讨论。
- 担忧集中在如何在不使断路器过载的情况下，安全地在多个插座之间分配电力。
来自 Llama 3.1 的 LLM 性能洞察：Llama 3.1 的 70B 模型在多 GPU 配置上达到了 每秒 97 个 tokens，而之前的记录显示速度较慢。
- 讨论集中在优化性能上，特别是在跨 GPU 分配模型层并确保高效利用方面。

OpenRouter (Alex Atallah) Discord

Gemini Flash 8B 模型发布：新的 Gemini Flash 8B 已与 Gemini Flash Experiment 一同上线，在 AI Studio 最终定价确定前，两者目前均可免费使用。
- 此次发布是 Google 在 Google Vertex 与 AI Studio 分离后，增强其模型产品线和用户导航计划的一部分。
daun.ai 庆祝上线：daun.ai 团队因成功上线而收到祝贺，这标志着社区中的一项重大成就。
- 随着用户对这一里程碑的认可，聊天频道中充满了欢呼与致意。
Cohere Command 模型的激动人心更新：Command R 模型的更新重构了接入点并更改了模型 ID，以提高运营效率。
- 用户对这些更新特别热情，并提到了在价格和模型性能方面的益处。
Perplexity 模型遇到问题：有用户报告了 Perplexity 模型的问题，收到了无效模型的错误——这源于之前已迅速处理的 bug。
- 随着用户寻求了解影响性能的错误范围，对这些问题进行澄清是必要的。
基础设施升级导致近期停机：近期的基础设施升级导致停机时间增加以及系统响应挑战。
- 团队已承认这些问题，并将其归因于数据库限制以及正在进行的加强 Backend（后端）的项目。

Eleuther Discord

NaN 权重导致 embedding 训练中断：一位用户报告称，尽管初始范围正常，但其 embedding 权重在训练仅几步后就变成了 NaN。通过检查梯度和损失组件，发现原因可能是 data-dependent decay term（数据相关的衰减项）。
- Lightning 的 detect_anomaly=True 设置有助于根据梯度分析追踪问题。
社区寻求研究思路的反馈：一位博士生就使用扩散模型进行压缩的研究寻求建议，并询问最佳分享方式。成员建议在 general 频道或特定区域分享，进行低压力的讨论。
- 强调了对网络输入进行正则化损失以保持稳定性，并突出了在讨论 Sparse Autoencoders (SAEs) 时明确假设的重要性。
澄清 SAE 中的稀疏编码：一位成员澄清说，在其 SAE 方法中，重建错误损失项应与关注稀疏性的损失并存，以避免训练期间的偏差。建议增加额外的损失项，以帮助获取来自冻结网络的统计上下文。
- 指出对 LLMs 在 SAEs 中作用的误解对于编码过程至关重要。
Dynamic Expert Routing 增强灵活性：在讨论中，有人解释说，允许模型在训练期间定义自己的专家，比固定配置更能提高适应性。对相关论文的请求显示，现有文献中存在空白。
- 强调了对 Dynamic Expert Routing 概念需要更多资源。
用于模型评估的新 Word Game Bench：社区推出了一个名为 Word Game Bench 的基准测试，旨在评估语言模型在 Wordle 等单词拼图游戏上的表现。值得注意的是，目前没有模型的平均胜率超过 50%。
- 该基准测试鼓励模型进行交互和反馈，而不是依赖静态响应。

Perplexity AI Discord

Discord 服务器成员突破 10 万：Discord server 目前已达到 100K 成员 的里程碑，展示了社区的蓬勃发展。
- 成员们对社区的支持表示感谢，强调团队渴望共同继续成长和进化。
Pro 订阅失效问题：用户对 Pro subscriptions 消失表示担忧，这可能是由于误用优惠码或账号差异导致的。
- 一位用户提到兑换的优惠码失效，引发了关于潜在凭证滥用措施的疑问。
模型性能受到审查：讨论显示，在不同 AI 模型之间切换往往会产生类似的响应，引发了对更新后 model differentiation（模型差异化）的怀疑。
- 一位用户指出，关于模型类型的查询返回的是通用信息，而非关于 GPT 或 Claude 的具体细节。
PPLX API 额度获取问题：多位用户报告在购买 Pro 后未收到承诺的 $5 PPLX API credits，并寻求协助解决。
- 支持团队缺乏解决方案，导致用户请求提供账号详情以进行进一步调查。
速率限制引发困惑：一位用户在调用 API 端点时遇到了 429 Client Error，尽管其脚本中的函数调用极少。
- 他们对过早触发速率限制表示担忧，并寻求对底层因素的澄清。

Cohere Discord

Command R+ 模型带来显著性能提升：最近更新的 Command R 和 R+ 模型（包括 command-r-08-2024）在推理、编码和多语言 RAG 方面表现出更强的性能，吞吐量提升高达 50%。
- 此外，价格也进行了大幅调整：Command R 模型输入为 $0.15，输出为 $0.60；而 R+ 现在输入为 $2.50，输出为 $10.00（每百万 tokens）。
用户质疑 MMLU 的实际相关性：Nick Farst 指出 MMLU 与现实世界的应用关联有限，因为其大部分内容已经过时。
- 讨论反映了社区的共识，即优先考虑实际性能指标，而非 MMLU 等传统基准测试。
C4AI 学者计划引发关注：有人询问在读研究生是否有资格参加 C4AI Scholars Program，特别是针对 1 月份的实习。
- 成员建议直接联系 C4AI 以获取申请流程和后续机会的明确细节。
包含 400 万+ 条目的 Maya LLaVA-Pretrain 数据集发布：Maya LLaVA-Pretrain 数据集现在拥有分布在 8 种语言 中的 4,404,776 个条目，旨在增强大型语言和视觉模型的预训练。
- 访问该数据集需要同意共享条件，以确保尽管数据集是公开的，但仍符合使用政策。
试用 API Key 限制使用：一位试用 API Key 用户遇到了速率限制（Error 429），每月仅允许 1000 次 API 调用，这凸显了升级到生产 Key 的必要性。
- 用户讨论了在生成输出中对引用进行重排序（reranking）的策略，旨在精简多余的引用以提高清晰度。

Latent Space Discord

Codeium 融资 1.5 亿美元用于扩张：Codeium 宣布获得 1.5 亿美元 的 C 轮融资，公司估值达到 12.5 亿美元，总计筹集了 2.43 亿美元 用于推动 R&D。
- 利用这些资金，尽管他们尚未动用 1 月份的 Series B 资金，但他们旨在加速增长。
Meta AI 助手的惊人覆盖范围：Meta 的 AI 助手月活跃用户已达到 4 亿，日活跃用户达到 4000 万，凸显了其在市场上的快速普及。
- 随着平台的增长，这种使用量的激增引发了关于潜在许可需求的讨论。
DeepMind 推出可定制的 Gems：Google DeepMind 推出了 Gems，这是为特定角色（如学习教练和编程伙伴）设计的可定制 AI 聊天机器人。
- 批评者强调，它们的成功取决于用户友好性以及对这些工具进行的策展（curation）质量。
新播客讨论 LLM 基准测试：最新的 Latent Space Podcast 中，Google DeepMind 的 Nicholas Carlini 强调了定制 LLM 基准测试 的必要性。
- 他讨论了训练数据提取技术以及由于 OpenAI 丢失 logprobs 而带来的挑战。
对研究 Agent 效率的担忧：在讨论中，参与者对研究 Agent 表示担忧，指出平均研究时长为 2 分钟，成本约为 $0.005，这表明存在效率低下。
- 关于生成研究论文的 STORM 方法 与 one-shot 方法的有效性也展开了辩论，人们更倾向于持续反馈。

Modular (Mojo 🔥) Discord

Mojo 在 Web3 中日益增长的角色：虽然 Mojo 在区块链协议中被探索，但与 Go、Rust 和 C++ 相比，它在严肃开发方面仍显不成熟。对 Mojo 的 IO 和网络 API 的持续增强对于匹配现代硬件能力至关重要。
- 反馈强调需要更强大的开发环境，以减轻程序员对内存管理的担忧。
Mojo 编译器开源的不确定性：Mojo 被宣传为开源，但由于小团队的快速迭代，编译器的源代码目前尚不可用。这种情况何时或是否会改变的时间表仍然模糊。
- 成员们对项目开发方向缺乏透明度表示担忧。
辩论：编程语言性能：一场激烈的讨论评估了 Go 的性能，特别是与 C 的对比，指出 Go 优化器的保守性可能导致在复杂问题上的性能较差。这引发了关于 Go 在未来某些应用中适用性的疑问。
- 关于 Go 在历史上究竟变慢了多少，出现了不同的意见。
MAX SDK 开发策略：MAX SDK 的开发团队正在权衡开发速度、许可和社区参与之间的平衡。寻找同时精通 MLIR 和 Mojo 的贡献者已被证明具有挑战性。
- 成员们呼吁扩大团队努力，以填补这些知识空白。
对 OPENSEA 合作的兴奋：有消息称将与 OPENSEA 合作进行新的免费铸造（free mint），引发了成员间的讨论和兴趣。鼓励通过分发的申领链接参与。
- 虽然兴趣显而易见，但一些成员选择了退出，理由是参与程度各异。

LangChain AI Discord

LangChain 应用在 Docker 中受挫：一位用户在使用 Docker 容器中的 ChatOllama 对象时遇到了 LangChain 应用的问题，而它在 Docker 之外运行正常。根本原因被确定为基础 URL 问题，通过切换到直接的 Ollama 主机 URL 得到解决。
- 看来 Docker 设置需要特定的配置才能在 LangChain API 中表现良好。
ChatOllama vs Ollama 对决：ChatOllama 专门针对类聊天交互，而 Ollama 服务于更广泛的语言模型任务，两者各具独特功能。用户分享了这两个模型的使用示例和详细的 API 参考。
- 社区赞扬了量身定制的使用案例，明确了为什么会根据项目需求选择 ChatOllama 而非 Ollama。
实时流式输出困惑：一位用户在使用其 agent executor 时面临挑战，该执行器收集了所有输出而不是进行实时流式传输。关于设置 streamRunnable = False 对输出行为影响的问题随之而来。
- 澄清这种行为对于优化模型部署中的实时交互至关重要。
用于增强 LLM 的混合 RAG 模型：讨论围绕通过反馈和微调技术改进 LLMs 展开，尽管它们无法实时学习。参与者探索了传统 RAG 模型和自查询（self-query）技术等替代方案，以提升模型性能。
- 重点放在了演进 RAG 策略上，以确保竞争性的性能基准。
为 HR 创建自定义 GPT：一位用户旨在为其 HR 团队构建一个专门的 GPT 模型，强调了避免其响应中出现幻觉（hallucinations）的重要性。提出了实施有效 RAG 技术的建议，以优化模型的输出。
- 社区智慧倾向于根据真实反馈进行迭代调整，以培养一个高效的 HR 工具。

LlamaIndex Discord

GymNation 的数字化转型胜利：GymNation 显著提升了其会员体验，数字化线索到销售的转化率提高了 20%，并实现了 87% 的数字化线索对话率，详见其成功案例。
- 他们与 LlamaIndex 的合作推动了 真实的业务成果。
计划举行 LLMs 生产环境应用讲座：关注即将于 9 月 9 日 举行的关于生产环境中 large language models 的讨论，见 Twitter 上的见解。
- 本次讲座旨在为有效部署 LLMs 提供关键信息。
LlamaIndex 与 MLFlow 集成：与 MLFlow 的新集成增强了 LlamaIndex 应用程序的跟踪和评估能力，正如联合创始人在此处的播客中所分享的。
- 此次集成有望改进 ML 模型的 日志记录和性能评估。
加入 LLM x Law 黑客松：9 月 8 日 将迎来 LLM x Law Hackathon 的激动人心机会，探索 AI 在法律领域的应用，更多详情请见 Twitter。
- 预计将有三个专注于法律领域创新 AI 开发的赛道。
通过 MoW 和 RAG 增强财务分析：一种结合了 Mixture of Workflows (MoW) 和 Corrective RAG 的新方法，允许使用 Phi-3 和 Qwen-2 等模型进行高级财务数据分析，如此处所述。
- 该方法实现了 对财务报表的上下文感知分析。

OpenInterpreter Discord

下周加入 House Party！：一位成员宣布下周将举行 House Party，时间定在较早的时段以聚集更多参与者。
- 邀请函包含了一条诚挚的信息以鼓励参与，为即将到来的活动营造了热烈氛围。
需要适用于 KDE 的终端应用：一位成员报告了 Konsole（KDE 当前的终端应用）在滚动时导致屏幕溢出的问题。
- 围绕替代终端应用程序展开了讨论，以有效处理这些问题。
Obsidian OI 插件需要补丁：一位用户称赞了 Obsidian OI plugin 的教程视频，但遇到了安装问题并寻求帮助。
- 另一位成员敦促在特定频道详细说明这些问题，以便获得针对性的帮助。
GameNGen 神经模型驱动实时游戏：GameNGen 神经模型在单个 TPU 上实现了超过 20 fps 的实时 DOOM 模拟，展示了令人印象深刻的交互质量。
- 下一帧预测的 PSNR 达到 29.4，测试者发现很难区分真实游戏和模拟游戏。
AgentOps 团队让成员们兴奋不已：对 Adam 和 AgentOps 团队的期待与日俱增，最近的讨论强调了令人兴奋的发展。
- 成员们对这些见解以及围绕未来动向的积极氛围表示感谢。

LAION Discord

Google 采购 GPU 引发疑问：成员们质疑为什么 Google 在已经拥有 TPU 的情况下仍在购买 NVIDIA GPU，暗示了潜在的性能考量。
- TPU 够用吗？ 在竞争日益激烈的情况下，这引发了对 Google 硬件策略的好奇。
RunwayML 清理 Stable Diffusion 仓库：关于 RunwayML 删除其在 HuggingFace 和 GitHub 上所有 Stable Diffusion 1.5 仓库的讨论爆发，这导致了现有项目的混乱。
- 成员们对 diffusers 1.5 功能的影响表示担忧，一位成员指出这破坏了单文件加载 (single file loading)。
对删除仓库的沮丧：成员们对 RunwayML 在删除仓库前缺乏归档的远见表示恼火，这影响了各种依赖项。
- 一位成员推测删除背后可能存在法律原因，但未发现引用的具体问题。
生成小说封面的挑战：一位成员分享了为小说封面生成合适图像的挑战，寻求实现更偏向漫画或卡通风格的方法。
- 尽管尝试了 DALL-E，他们收到的却是 AI 感极重的图片，说明了实现预期风格的困难。
Re-LAION-5B 数据集发布：Re-LAION-5B 数据集发布，这是 LAION-5B 的一次重要更新，旨在解决安全问题并删除指向疑似 CSAM 的链接。
- 与 Internet Watch Foundation 等组织的共同努力确保了数据集的完整性，目前提供两个安全版本供下载，详见公告。

Interconnects (Nathan Lambert) Discord

科技巨头关注 OpenAI 的新融资：据 Bloomberg 报道，Nvidia, Apple 和 Microsoft 正在洽谈投资 OpenAI 的新一轮 1000 亿美元融资。
- 很高兴看到一家非营利组织吸引如此大的兴趣，强调了社区对这一潜在投资的兴奋。
ChatGPT 凭借庞大的用户群占据主导地位：根据 The Information 的数据，ChatGPT 拥有超过 2 亿周活跃用户，而 Meta AI 以 4000 万日活跃用户紧随其后。
- 一些成员讨论了 Meta AI 可用性受限的影响，特别是在 EU 等地区。
Tinygrad 推出平价云服务：Tinygrad 推出了每月仅需 60 美元的云服务，配备 4090 GPU 和 500 GB 存储空间，比 vast ai 便宜 3 倍。用户可以在本地运行 tinygrad，并通过每个 ‘TinyJit’ 函数仅需一次往返来实现更快的云端操作。
- 该产品旨在为需要本地和云端能力的开发者提供无缝过渡。
关于系统提示词 (System Prompts) 与评估的咨询：一位用户寻求关于 system prompts 对评估分数影响的研究，突显了对 Prompt Engineering 日益增长的兴趣。
- 该咨询表明，人们希望探索如何通过更好的 Prompt 管理来有效改变 AI 模型的性能结果。
对聊天机器人竞争的期待：成员们对正在进行的聊天机器人大战表示兴奋，其中一人宣称：聊天机器人大战已经打响。
- 这些论述反映了对 AI 助手生态系统不断演进的信心。

Torchtune Discord

QLoRA 显存达到极限：关于 QLoRA 显存需求的担忧浮现，用户质疑其是否足以在 4 个 48GB GPU 上进行训练。用户指出，在没有 CPU offloading 的情况下，即使是 较短序列，其配置也接近显存极限。
- 成员们讨论了显存性能对训练动态的影响以及潜在的优化方案。
多 GPU 评估咨询：提出了关于 TorchTune 中 多 GPU 评估 是否可行的问题，引发了关于最佳实践和配置预期的讨论。
- 参与者分享了关于性能影响和实现最佳结果配置的看法。
Torch 版本兼容性说明：一位用户确认他们正在使用 Torch 版本 2.4.0+cu124，这引发了与其他配置的兼容性担忧。该版本可能会影响模型在各种配置下的表现。
- 兼容性讨论强调了软件版本与预期性能结果保持一致的重要性。
排查非法内存访问错误：一名成员报告在训练期间遇到 illegal memory access 错误，建议使用 CUDA_LAUNCH_BLOCKING=1 进行有效调试。
- 他们指出 CUDA 错误可能是异步报告的，这增加了排查过程的复杂性，并建议需要进行更深入的调查。

DSPy Discord

邀请 DSPy 社区加入这场变革：一位成员分享了一个 GitHub 仓库，邀请 DSPy 社区加入围绕它的变革，强调社区参与。
- 他们对协作努力表现出极大的热情，提升了项目的参与度。
LinkedIn 自动职位申请工具走红：LinkedIn Auto Jobs Applier 的 GitHub 仓库备受关注，每天获得超过 2k 个点赞，显示出其不断上升的人气。
- 然而，成员们对其功能表示担忧，指出尚未解决的 GitHub Issue 表明该工具 仍有待完善。
与 Michael Ryan 的湾区 AI 见面会：Michael Ryan 将在湾区 AI 见面会上讨论 DSPy 和 LM Programs，涵盖 MIPROv2 优化算法的应用。
- 他的讨论强调应以与传统软件相同的严谨性来对待 LM Programs，突出了测试和审计的重要性。
AgentOps 平台介绍：AgentOps 提供了创建 Agent 的工具，包括图表、监控和回放分析，旨在增强 LLM 的使用。
- 该开源平台邀请社区贡献，可通过其 GitHub 仓库获取。
DSPy 疑问与支持：一位用户寻求关于在哪里发布 DSPy 疑问的说明，表现出对故障排除和参与的积极兴趣。
- 这反映了一个活跃的社区，成员们渴望互相支持并提高对 DSPy 功能的理解。

OpenAccess AI Collective (axolotl) Discord

Axolotl GitHub 文档的深色模式请求：一名成员请求为 Axolotl GitHub 文档添加 深色模式，称目前的浅色模式很伤眼。
- 对于频繁访问配置参数的用户来说，切换到深色模式将显著增强可用性。
Llama 70B 训练的最佳硬件：关于全量训练 Llama 70B 模型所需硬件的问题被提出，特别是关于 A6000 GPU 是否足够。
- 确认使用 3x A6000 GPU 足以进行全参数模型的训练。
Transformers 中引入 Assistant Prefill 功能：一个 Pull Request 提议为 Transformers 中的聊天模板添加 assistant prefill 功能，使模型能够自主开始回答。
- 这一添加旨在满足内部和 GitHub 上表达的广泛需求。
Llama 3.1 特殊 Token 修复：关于 Llama 3.1 基础模型中未初始化特殊 Token 的问题引起了关注，特别是关于分布外（out-of-distribution）嵌入的问题。
- 作为回应，引入了一个新选项 fix_untrained_tokens: true 来帮助解决这些问题。

Gorilla LLM (Berkeley Function Calling) Discord

Groq 排行榜添加延迟：成员指出 Groq 尚未添加到排行榜，其 PRs 预计将于下周提交。
- 我们仍在等待 Groq 为评估过程做出贡献。
致力于清晰的文档步骤：一位成员保证他们将记录可复现性所需的必要步骤，以解决之前讨论中的疑虑。
- 这一举措旨在增强模型 Documentation 的清晰度。
GIS 几何表示测试案例挑战：一位成员分析了一个 Java 测试案例，其模型在 GIS 几何表示的初始化提示词中遇到了困难。
- 尽管面临挑战，他们得出的结论是，模型的响应在初始化方面优于函数调用 (function calls)。
评估温度设置澄清：成员询问是否如前所述，所有模型都在温度为 0 的情况下进行评估，以确保公平比较。
- 一位成员强调，保持参数不变对于获得一致的函数调用输出至关重要。

tinygrad (George Hotz) Discord

tinygrad 的操作限制受到质疑：一位成员询问 tinygrad 是否局限于 statically scheduled operations，以及它是否在 semi-structured sparsity 和 weight selection 方面存在困难。
- 这一询问引发了围绕该框架整体能力的讨论，并对可能超出 tinygrad 能力范围的操作提出了质疑。
George Hotz 寻求 tinygrad 限制的澄清：George Hotz 请求用户提供在 tinygrad 中难以执行的操作的具体示例，旨在评估该框架的通用性和局限性。
- 这表明他正采取主动方式来了解操作调度可能如何影响 tinygrad 在复杂任务中的可用性。
Tensor.cat 在处理 sharded tensors 时面临问题：一位用户报告在使用 Tensor.cat 沿 batch 轴连接 sharded tensors 时遇到 AssertionError，表明存在 padding 问题。
- 虽然可以通过 unsqueeze 增加一个额外维度，但用户在重塑 (reshaping) 结果 Tensor 时仍然遇到困难，这进一步增加了实现的复杂性。
澄清 Tensor.cat 错误根源：用户询问 Tensor.cat 的问题是 tinygrad 的根本限制，还是仅仅因为缺乏支持的功能。
- 他们正在考虑修改代码以处理额外的 batch 维度，或者探索替代方法来规避对 cat 的需求。

Alignment Lab AI Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

DiscoResearch Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间没有动态，请告知我们，我们将将其移除。

PART 2: 渠道详细摘要与链接

完整的频道明细已针对邮件进行截断。

如果您想查看完整明细，请访问此邮件的网页版： !

如果您喜欢 AInews，请分享给朋友！预谢！

SSI、Sakana、You.com 获 11.5 亿美元融资 + Claude 支持 5 亿上下文。