一个安静的周末正是我们所需要的。

2024年8月15日至8月16日的 AI News。我们为您检查了 7 个 subreddits、384 个 Twitter 和 29 个 Discord（253 个频道，3480 条消息）。预计节省阅读时间（以 200wpm 计算）：525 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论！

Jeremy Howard 重返 Latent Space 讨论他团队极高的 AI 驱动生产力，我们认为这非常值得一看，尤其是那段精彩的歌曲开场。

您还可以欣赏与 Demis Hassabis 的对话，或者观看新的 Sora 演示，并和我们一起为收到 SearchGPT 等候名单拒绝信而哀悼。

目录和 频道摘要 已移至此邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 模型与 API 更新

Anthropic API 增强：@alexalbert__ 宣布在 Anthropic API 中推出 Prompt Caching（提示词缓存），该功能可降低高达 90% 的 API 输入成本并减少高达 80% 的延迟。@AnthropicAI 确认此功能允许在降低成本的同时，利用更长的 Prompt 对模型响应进行即时微调。
新 AI 模型：@_philschmid 报道了 xAI 发布 Grok-2，其性能足以媲美来自 Google DeepMind、OpenAI、Anthropic、Mistral AI 和 Meta 的前沿模型。它支持视觉和文本输入，并集成了外部模型进行图像生成。@Teknium1 指出：“又一个模型进入了前沿竞技场。”
模型性能：@bindureddy 声称：“Sonnet 3.5 在 Coding 和 Reasoning 等关键领域远优于 GPT-4。”@omarsar0 报道了 ChatGPT-4o-latest 的改进，特别是在 Reasoning 能力方面。

AI 开发与研究

智能理论：@fchollet 提出：“智能是你为了应对未来而将过去信息转化为行动的效率”，并利用 Algorithmic Information Theory（算法信息论）将其表达为一个转换率。
AI 研究挑战：@sarahookr 讨论了为多语言 AI 构建数据集的挑战，Aya 项目涉及全球 3000 名合作者。
AI 安全与监管：@GoogleDeepMind 分享了一段播客，CEO Demis Hassabis 在其中讨论了 AI 炒作、未来创新以及安全的 AI 开发。

AI 工具与应用

设计自动化：@svpino 展示了适用于 Figma 的 Dora AI 插件，它可以在 60 秒内生成一个完整的落地页。
文档处理：@svpino 强调了 Box 推出的新 AI API，使用户能够与文档聊天、提取数据、总结内容，并根据存储的文件生成衍生内容。
AI Agents：@_akhaliq 报道了 Salesforce 发布的 DEI，这是一个开源的 AI 软件工程 Agent 框架，在 SWE-Bench Lite 上拥有 55% 的解决率。

行业与市场趋势

AI 集成：@scottastevenson 观察到：“传统的 ML 经验现在可能是你简历上的一个黄色警示（yellow flag）”，强调了过去两年 AI 应用开发发生的剧变。
AI 就业市场：@savvyRL 指出：“约 80% 的职位是通过个人人脉填补的”，强调了人脉在 AI 就业市场中的重要性。
AI 加速：@bindureddy 预测 AI 竞争将进一步加速，暗示 OpenAI 可能会推出更大版本的 GPT-4，以回应竞争对手的挑战。

梗与幽默

@kylebrussell 开玩笑说用 Apple Vision Pro 来补电影。
@teortaxesTex 分享了一个关于《赛博朋克：边缘行者》中“入戏太深”后果的梗图。
@giffmana 幽默地评论道：“看来我和我的小伙伴们做错了一些事……”以此回应关于 AI 进展的声明。

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1：小型高效 LLM 的进展

小型模型会呈指数级变好吗？ (评分: 100, 评论: 104)：Phi3 3B 作为一个小型语言模型，可以在资源有限的设备（如 8GB RAM 的 Mac）上运行。帖子作者质疑这类小型模型在未来几年是否会有显著的质量提升，还是说它们已经接近了性能天花板。

**[llama.cpp 从 2023 年 3 月至今的演进

Gource 可视化](https://v.redd.it/i0wo4q7o9vid1)** (Score: 157, Comments: 23): 这段 Gource 可视化视频展示了 llama.cpp（一个用于运行大语言模型的开源项目）从 2023 年 3 月至今的演进过程。视频突出了该项目的快速增长和协作性质，展示了众多开发者的贡献以及代码库随时间的扩张。

Flux.1 转换为 GGUF - 它在 LLM 领域提供了哪些有趣的机遇？ (Score: 76, Comments: 31): 作者在 ComfyUI 中使用 Flux 的 GGUF 模型进行图像生成，并指出其令人印象深刻的速度以及在 8GB VRAM 内运行的能力。他们分享了 ComfyUI-GGUF GitHub 仓库和 Hugging Face 模型页面的链接，寻求关于这一进展可能为 LLM 领域带来的新机遇的看法。

主题 2. 新模型发布与基准测试

Hermes 3 - NousResearch 集合 (Score: 151, Comments: 37): NousResearch 发布了 Hermes 3，这是一个参数量从 2.7B 到 70B 不等的开源语言模型集合。这些模型在 2.3T Token 数据集上训练，包括 Hermes 2 Base、Hermes 2 Pro 和 Hermes 3 Pro，后两者结合了 Constitutional AI 和 DPO 技术，以提升性能和安全性。
Drummer’s Rocinante 12B v1 (& v1.1!) - 创意十足的得力助手！开启你的超凡冒险！由 Theia 21B 等模型的创作者打造。 (Score: 68, Comments: 36): Rocinante 12B 是由 Theia 21B 创作者推出的新型 AI 模型，已发布 v1 和 v1.1 版本。该模型被描述为极具创意的得力助手，旨在为各种应用平衡生产力与增强的想象力。
“Grok-2 和 Grok-2 mini 目前占据 MathVista 前两名”，希望他们能尽快开源 Grok mini (Score: 143, Comments: 42): Grok-2 和 Grok-2 mini 在 MathVista 排行榜上取得了前两名的成绩，展示了它们在数学视觉推理任务中的强大性能。帖子表达了希望 xAI 能在不久的将来开源 Grok mini 模型，从而让更多人能够使用这一高性能 AI 系统。
- Elon Musk 的可信度受到质疑，用户对 Grok 的表现以及 xAI 开源的意图表示怀疑。一些人认为 Musk 过去的行为表明他更看重控制权而非开放性。
- xAI 的人才密度受到关注，来自 DeepMind、Anthropic 和 OpenAI 的前员工为 Grok 的开发做出了贡献。据报道，Grok 2 使用了比 GPT-4 更多的算力，这可能解释了其卓越的性能。
- 关于 Grok 基准测试结果真实性的辩论随之展开，一些人暗示可能在测试数据集上进行了训练。然而，有人指出 MathVista 的测试答案并未公开，反驳了这些说法。

主题 3. 本地 LLM 部署与基础设施

在线服务宕机，幸好你有本地模型 (Score: 82, Comments: 29): 根据 Kristi Leilani 的推文，Perplexity、Anthropic 和 OpenAI 的 ChatGPT 正在经历服务中断。这种情况凸显了使用本地大语言模型 (LLMs) 的优势，它们在云服务中断期间仍能继续运行。
我那笨拙的推理服务器 (得分: 60, 评论: 24): 该帖子描述了一个用于运行本地大语言模型 (LLMs) 的 DIY 推理服务器设置。该系统由 Ryzen 7950X CPU、128GB DDR5 RAM 和一个 4090 GPU 组成，能够以可接受的性能运行高达 70B 参数 的模型，包括以约 每秒 7-8 个 tokens 的速度运行 Llama 2 70B。

主题 4. LLM 认知与现实理解

随着语言能力的提高，LLM 发展出对现实的自我理解 (得分: 78, 评论: 35): 大语言模型 (LLMs) 表现出随着语言能力的提高，其发展出对现实自我理解的能力也在增强。这一现象表明 LLM 不仅仅是在处理语言，而是在形成连贯的世界内部表征，这可能会带来更先进的推理和问题解决能力。LLM 中这种“理解”的发展引发了关于人工智能本质及其接近人类认知潜力的重要问题。
小模型会呈指数级变好吗？ (得分: 100, 评论: 104): Phi3 3B 作为一个小型语言模型，可以在资源有限的设备上运行，例如 8GB RAM 的 Mac。帖子作者质疑此类小模型在未来几年是否会出现显著的质量提升，或者它们是否正在接近其性能天花板。

所有 AI Reddit 回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 图像生成与模型

Flux 图像生成模型: 由 Black Forest Labs 开发，被 Grok 用于图像生成。已开源并在 Hugging Face 上可用。因其强大的功能在 r/StableDiffusion 和 r/FluxAI 中受到赞誉。
Grok 图像生成争议: 生成了诸如奥巴马吸食可卡因和特朗普持枪等争议性图像，引发了关于 AI 安全护栏的质疑。
创意 AI 应用: 一位用户使用 Flux 设计了高跟鞋，并利用 Kling 图像转视频技术将其变为现实。

AI 模型对比与推测

GPT-5 期待: 一个幽默视频将各种 AI 模型比作《龙珠 Z》中的角色，其中 GPT-5 是最强大的。这引发了关于潜在失望以及来自其他模型竞争的讨论。

AI 与人类交互

AI 模仿: 一段病毒式传播的视频展示了人类模仿 AI 生成的视频，突显了 AI 训练与人类行为之间的循环特性。

AI Discord 回顾

由 Claude 3.5 Sonnet 生成的摘要之摘要的摘要

1. LLM 进展与基准测试

Hermes 3 405B：开源强力模型：Hermes 3 405B 是一款强大的新型开源 AI 模型，擅长风格迁移、摘要和带有并行指令的创意写作等任务，其表现优于 Meta 的 bf16 指令模型。
- 该模型的响应速度仅略慢于 GPT-3.5 sonnet，使其成为研究和开发的有力竞争者。它还引入了用于“思考”的新特殊 Token，例如 <SCRATCHPAD>、<REASONING> 和 <INNER_MONOLOGUE>。
DeepSeek-Prover V1.5：推向定理证明的边界：DeepSeek-Prover-V1.5 在高中水平的 miniF2F (63.5%) 和本科水平的 ProofNet (25.3%) 定理证明基准测试中取得了新的 SOTA 性能。
- 该模型利用证明助手反馈进行强化学习 (RL) 和蒙特卡洛树搜索 (MCTS)，其开源的 base、SFT 和 RL 权重可在 Hugging Face 上获取。
Llama3-8B-Instruct 达到 Meta 的基准测试水平：一位用户使用特定的 Prompt 格式和设置，通过 Llama3-8B-Instruct 成功复现了 Meta 的 GSM8k 性能，详情见此 HuggingFace 数据集查看器。
- 这需要调整正则表达式并为 GSM8k-cot 任务创建一个新的 .yaml 文件。该用户表示愿意分享 .yaml 文件，并计划在其他数据集上复制该过程以复现 Meta 的结果。

2. AI 模型优化技术

批量处理 LLM 任务以提高效率：Medium 上一篇题为《释放任务批处理的力量：转型 AI 工作负载》（Unlocking the Power of Job Batching: Transforming AI Workloads）的博文讨论了为 LLM 工作负载进行任务批处理的优势。
- 该文章强调了批处理带来的效率提升和成本节约，为管理大规模 AI 项目以及解决速率限制和 GPU 利用率等挑战提供了一种实用方法。
Moonglow：简化远程 GPU 访问：Moonglow 是一款 VSCode 扩展，允许用户将 Jupyter notebooks 连接到远程云端 GPU（如 Runpod 提供的服务），从而简化启动、连接和停止 GPU 实例的过程。
- 该工具消了对管理 SSH 密钥、包安装和其他 DevOps 任务的需求，允许用户在云端计算环境之间无缝切换，并直接在 IDE 内管理资源。
针对 Intel CPU 的 OpenBLAS 优化：一位用户分享了他们编译 OpenBLAS 以优化 CPU 运行生成式 AI 工作负载的经验，特别是针对 Intel Haswell 架构。
- 该版本在 Linux x86_64 Intel CPU 上编译，但也包含了针对 ARM、POWER、MIPS 和 RISC-V 架构的目标，展示了在各种硬件平台上优化 AI 工作负载的努力。

3. 开源 AI 进展

Salesforce 为 SWE Agent 打造的 DEI 框架：Salesforce 发布了 DEI (Diversity Empowered Intelligence)，这是一个开源 AI 软件工程 Agent 组织，利用 SWE Agent 的独特专业知识来增强问题解决能力。
- DEI 在一组开源 SWE Agent 的协作下，在 SWE-Bench Lite 上实现了 34.3% 的解决率，超过了单个 Agent 的表现，展示了协作式 AI 系统在软件工程任务中的潜力。
xLSTM：潜在的 Transformer 替代方案：一个兼容 Hugging Face 的 xLSTM 训练器已发布，开发者认为 xLSTM 最终可能会取代 Transformer。
- 该训练器在 GitHub 上以 helibrunna 的名称提供，可能为某些 NLP 任务提供传统 Transformer 架构之外的替代方案。
LlamaIndex 的多 Agent 系统框架：LlamaIndex 正在开发 Llama-Agents，这是一个专注于生产用例的多 Agent 系统框架，具有基于微服务的架构和用于任务编排的控制平面。
- 该框架旨在为复杂的 AI 任务提供可扩展性和灵活性，展示了生产环境中模块化和协作式 AI 系统日益增长的趋势。

4. 多模态 AI 进展

VITA: 开源交互式多模态 LLM：一篇名为 “VITA: Towards Open-Source Interactive Omni Multimodal LLM” 的新论文介绍了一种开源的交互式多模态大语言模型方法。
- 该项目旨在缩小 GPT-4 等闭源模型与开源替代方案之间的差距，重点关注多模态处理和交互体验。
ColPali: 文档嵌入的新方法：ColPali 提供了一种文档嵌入的新方法，通过将 PDF 页面的截图（包括图像、图表和表格）直接嵌入为向量表示。
- 这种方法消除了对 OCR、布局分析和文本分块的需求，可能为多模态 AI 系统中的文档检索和排序提供更高效、更用户友好的解决方案。
用于图像分割的 Boundary Attention：一种名为 Boundary Attention 的新型轻量级自下而上模型被提出，用于在图像分割任务中高精度地推断基于颜色的边界。
- 与传统方法不同，该模型使用编码三向分区和相关窗口函数的嵌入场来推断非栅格化边界，包括轮廓、拐角和连接处。

5. AI 安全与治理

加州 SB 1047 修正案：旨在预防 AI 灾难的加州法案 SB 1047 已通过拨款委员会，并进行了重大修订，删除了要求 AI 实验室提交“在伪证罪处罚下”的安全测试结果认证的要求。
- 相反，修订后的法案现在要求 AI 实验室提供概述其安全实践的公开声明，反映了 AI 治理和安全监管方法的转变。
Goodfire AI 的可解释性使命：Goodfire AI 是一家公益企业，致力于通过研究先进 AI 模型的内部运作机制来增进对 AI 的理解，弥合理论科学与可解释性实际应用之间的鸿沟。
- 该公司正在构建基础设施，使开发人员能够大规模地理解、编辑和调试 AI 模型，旨在确保创建更安全、更可靠的 AI 系统。
OpenAI 的短模型过期政策：OpenAI 实施了显著较短的模型过期时间（3 个月），而 Modal 等其他提供商通常提供 1 年 的过期期限。
- 这一政策突显了 OpenAI 在模型生命周期管理和用户访问方面的独特方法，可能会影响研究人员和开发人员使用 OpenAI 模型规划项目的方式。

第 1 部分：Discord 高层级摘要

Nous Research AI Discord

RedPajama-Data: 为 LLM 准备数据集：一位用户分享了 RedPajama-Data 仓库的链接，其中包含用于为训练大语言模型准备大型数据集的代码。
- 该仓库旨在支持使用高质量、多样化的数据训练大语言模型。
Sarvam AI: 语音对语音 Agent：印度公司 Sarvam AI 开发了一个可以用英语和印度语交流的语音对语音 Agent。
- 该公司提供了一种交互式体验，允许用户通过说任何印度语言与 Agent 互动，随后可用于解释产品、分享演示文稿和安排会议。
LLM 正在形成对现实的理解：麻省理工学院（MIT）的一项新研究探讨了大语言模型（LLM）如何发展出自己对现实的理解。
- 研究人员发现，尽管缺乏现实世界的经验，LLM 仍能生成对感官体验（如雨的气味）的描述，这表明这些模型可能会利用其训练数据来生成这些反应。
Hermes 3 405B: 强大的新型开源模型：Hermes 3 405B 是一款强大的新型开源 AI 模型，擅长处理各种任务，包括风格迁移、摘要和创意写作，通常带有大量的并行指令。
- 在这些用例中，它的表现优于 Meta 的 bf16 instruct 模型，响应速度仅略慢于 GPT-3.5 sonnet，使其成为研究和开发的有力竞争者。
RAG: AI 的新趋势：Charlie Marsh 最初以为这个链接是个玩笑，但现在必须学习 12 种类型的 RAG。
- RAG 正在获得关注并被广泛采用，Charlie Marsh 必须了解它是什么以及 12 种不同的类型。

aider (Paul Gauthier) Discord

Aider 拥抱 Prompt Caching：一位成员强调了 Prompt Caching 的潜在优势，特别是对于大型代码库、复杂的 System Prompts 以及大量的示例。
- 他们引用了 Claude Dev’s 的实现作为正面案例，并建议在 Aider 中探索这一功能。
OpenRouter 的 Prompt Caching 路线图：讨论了 OpenRouter 目前是否支持 Prompt Caching。
- 来自 OpenRouter 团队的一位成员确认，他们正在积极开发并准备实现这一功能。
Aider 新功能：JSON 中的代码：一位成员分享了一篇博客文章，讨论了 Aider 发布的新功能：Code in JSON，该功能允许结构化的代码输出。
- 文章详细介绍了这一新功能的优势，并解释了为什么 Aider 之前更倾向于纯文本格式。
Aider 的 Weak Model：自定义你的工作流：关于 Aider 中 Weak Model 的角色和目的存在疑问，该模型用于生成 Commit 消息和聊天历史摘要等任务。
- 一位成员澄清说，用户可以通过在 Aider 配置中将 --weak-model 标志设置为 Main Model，从而选择在所有任务中使用 Main Model。
结构化响应：一场持续的辩论：一位成员提出了一种使用 Instructor 库来结构化 LLM 响应的替代方法，这涉及提供预定义的结构并将 LLM 数据填充其中。
- 然而，其他成员认为这种方法可能会对模型性能产生负面影响，并引用了 Paul 的博客文章，该文章显示模型在受限于 JSON 输出时生成的代码质量较低。

Stability.ai (Stable Diffusion) Discord

Flux Dev：SDXL 的潜在竞争者？：Flux Dev 是一款新模型，凭借其 ControlNet 支持和改进的 Prompt 遵循能力引起了轰动，一些用户甚至认为它可能比 SDXL 更受欢迎。
- 该模型的能力在社区内引发了兴奋，用户正在探索其在广泛应用中的潜力。
模型合并：一种备受关注的策略：一位成员提出了一种使用 UltraChat、Mistral 和 Mistral-Yarn 的模型合并策略。
- 该策略获得了褒贬不一的反应，凸显了社区内对提高模型性能技术的持续探索。
Dreamshaper-XL v2 Turbo：同一张脸，不同的姿势？：一位新用户报告称，Dreamshaper-XL v2 Turbo 始终生成具有相同面孔但不同姿势的图像。
- 该用户分享了他们的代码并寻求帮助以理解该问题，这突显了在 AI 图像生成中实现图像多样性的挑战。
ComfyUI：放大（Upscaling）与图像多样性：讨论集中在提高 ComfyUI 中的图像质量和多样性，特别是关于 Upscaling 方面。
- 用户分享了诸如噪声注入（noise injection）和使用描述性 Prompt 等技术以获得更好的结果，展示了社区致力于增强 ComfyUI 能力的决心。
Flux AI：令人印象深刻，但并不完美：一位用户表达了他们使用 Flux AI 的积极体验，强调了它即使在 Prompt 较差的情况下也能产生良好结果的能力。
- 用户对使用自定义 Loras 进一步提高模型能力的兴趣，表明了对个性化 AI 图像生成的持续追求。

HuggingFace Discord

Hermes 3 用于思考的特殊 Token：Hermes 3 拥有新的用于“思考”的特殊 Token，包括 <SCRATCHPAD>、<REASONING>、<INNER_MONOLOGUE>、<PLAN>、<EXECUTION>、<REFLECTION>、<THINKING>、<SOLUTION>、<EXPLANATION> 和 <UNIT_TEST>。
- 该报告还详细介绍了用于 RAG、tool calling 和结构化 JSON 输出的新 Token，完整报告可在此处查看 here。
DeepSeek Prover V1.5：证明助手反馈：DeepSeek-Prover-V1.5 引入了重大改进，并在高中水平的 miniF2F 和本科水平的 ProofNet 基准测试中实现了新的 SOTA 性能。
- 该模型利用证明助手反馈进行强化学习和 Monte-Carlo Tree Search，详见 arXiv 上的论文 (https://arxiv.org/abs/2408.08152)。
Hyperspace P2P AI 网络：点对点 AI 网络：Hyperspace 现已开放供用户作为点对点 AI 网络加入，提供多种参与方式。
- 该网络拥有超过 17,745 个唯一节点（nodes）和 100 多个模型，使用户能够向消费者和开发者提供 LLMs、embedding models、re-rankers、vectors 等服务。
OpenBLAS：针对 Intel Haswell CPU 进行了优化：一位成员正在学习编译 OpenBLAS，以优化 CPUs 来运行 genAI workloads。
- 此版本是在 Linux x86_64 Intel CPU 上编译的，但也提供了针对 ARM, POWER, MIPS, and RISC-V 的目标。
在机器人上部署 YOLO 模型：使用 Viam：Hugging Face 上发布了一篇博文，介绍如何使用 Viam 将托管在 Hugging Face 上的 YOLO 模型部署到现实世界的机器人/机器上。
- 该文章描述了针对 yolov5 和 yolov8 模型的自定义集成，以便将它们用于实时分类和检测，并提供了源代码和完整教程。

LM Studio Discord

ForgeUI 为 Flux-dev 增加了全精度支持：ForgeUI 现在支持使用 GGUF Checkpoints 的全精度（full precision）Flux-dev。
- 目前尚不清楚此支持是否会扩展到其他平台，如 automatic1111 或 ComfyUI。
评估量化后的微调模型：一位用户在观察到使用 GPTQ 的量化版本性能优于原始模型后，正在寻求评估其微调模型（fine-tuned model）的建议。
- 然而，当使用 GGUF 或 AWQ 进行量化时，性能会下降，这引发了关于 LM Studio 私有错误报告能力的讨论。
LM Studio 服务器设置与连接问题：一位用户在尝试将 LM Studio 连接到 Obsidian 时遇到错误。
- 讨论确定了与 LM Studio 端运行的服务器相关的潜在问题，以及对 CORS 配置的需求。
P40 功耗：辟谣：关于多个 P40 在推理时消耗 1kW 的常见误解是错误的。
- 当用于 LLMs 时，它们是按顺序调用功耗的，导致总功耗接近单个 GPU（约 250W）。
Tensor Split 与 GPU 瓶颈：通过 tensor split 禁用向 GTX 的卸载（在配置文件中设置为 0,1 或相反）至关重要，因为 2GB 的 GTX 会成为具有 4GB 组合显存的 T4 的瓶颈。
- 搜索“tensor split”以了解有关此配置选项的更多信息。

Perplexity AI Discord

Perplexity AI 与知识库集成：一位用户询问关于将 Perplexity 与 AI 知识库工具集成，以便自动标记或归档搜索中的有用信息。
- 该用户旨在通过在知识库中捕获和组织来自 Perplexity 结果的有价值见解，来优化其工作流。
Hermes 3 驱动 Discord 上的两个频道：目前有两个独立的 Discord 频道正在使用 Hermes 3 模型，用户正在其中进行 Prompt 交互和对话。
- 这种实验性设置允许与模型进行多样化的互动，可能为社区带来有价值的见解和发展。
LLM 工作负载的任务批处理：Medium 上一篇名为《释放任务批处理的力量：转型 AI 工作负载》的博客文章讨论了为 LLM 工作负载进行任务批处理（Batching Jobs）的优势。
- 该文章强调了与批处理相关的效率提升和成本节约，为管理大规模 AI 项目提供了一种实用的方法。
星巴克领导层变动：Chipotle Mexican Grill 的 CEO Brian Niccol 已被任命为 Starbucks 的新任董事长兼 CEO，自 2024 年 9 月 9 日起生效。
- 此前 Laxman Narasimhan 在任职 17 个月后辞职，星巴克 CFO Rachel Ruggeri 将在过渡期间担任临时 CEO。
泰国政坛陷入动荡：随着总理 Srettha Thavisin 被宪法法院罢免，泰国的政治格局陷入动荡。
- 这凸显了泰国军方支持的保守派势力与改革派政党之间持续的斗争，引发了对民主机构稳定性的担忧。

OpenAI Discord

AI 不是万能魔杖，只是一个工具：讨论强调了认为 AI 应该无所不能的误解，即当它无法完成像数信件字母这样简单的任务时，就将其斥为无用。
- 用户强调了将 AI 理解为具有特定应用场景的工具的重要性，就像锤子用于建筑一样，而不是将其视为一个自给自足的建筑工人。
TikTok 推波助澜了 ChatGPT 的热度：对话将 ChatGPT 的广泛普及归功于其免费可用性以及 TikTok 放大的热情，导致大量用户将其用于完成作业等任务。
- 讨论还涉及了强调 AI 模型在 LMSYS 等 Benchmark 上表现的趋势，这些高分在缺乏对其能力的细致理解的情况下引发了兴奋。
在教育中禁止 ChatGPT 会适得其反：讨论辩论了在作业中使用 AI 的伦理影响，一些人反对禁止 ChatGPT，强调其对于懂得如何利用它的学生来说具有作为学习工具的潜力。
- 参与者展望了 AI 集成到教育系统将彻底改变学习的未来，能够适应个人需求并提供更高效、更个性化的方法。
Grok2 的 Token 限制和 Context Window：对话探讨了 Grok2 的 Token 限制，用户分享了遇到消息限制的经历，该限制会提示在继续对话前进行总结。
- 有人建议 Grok2 的 Context Window 可能被限制在 8k Tokens，这影响了其有效处理长对话的能力。
Gemini Voice 对比 ChatGPT Voice：针对 AI 语音模型的情感表达能力展开了讨论，将 Gemini Advanced Voice 与 ChatGPT 的语音功能进行了对比，一些人认为后者更具情感且更吸引人。
- 对话还涉及了 ChatGPT 的 Advanced Voice 缺乏网页搜索功能，以及与其竞争模型（如 Gemini Live）相比可能存在的局限性。

Interconnects (Nathan Lambert) Discord

OpenAI 的 ToS：法律雷区：一位前员工分享称，他们的公司被允许使用第三方在宽松许可证下发布、由 OpenAI 生成的内容进行训练，但不能直接由自己生成这些内容。
- 他们认为使用输出内容进行训练可能存在法律风险，但由于目前没有人因此被封禁，这并不是一个主要顾虑。
SB 1047 对 AI 的影响：SB 1047 是一项旨在预防 AI 灾难的加州法案，已在修订后通过了拨款委员会（Appropriations Committee）。
- 修订案取消了要求 AI 实验室在“承担伪证罪风险”的前提下提交安全测试结果认证的要求，转而要求其发布概述其安全实践的公开声明。
Sentdex：从 YouTube 到农场生活：Sentdex 是一位以教授神经网络和 Python 编程闻名的知名 YouTuber，凭借其教程（包括 “Python plays Grand Theft Auto V” 和 “Neural Networks from Scratch in Python”）获得了广泛认可。
- 他现在不再活跃地创作内容，但他的作品影响了许多人，包括询问他近况的人。在通过项目、域名转售、书籍和 YouTube 频道取得成功后，Sentdex 现在正专注于经营他的农场。
模型评估的难度：在 Nous Discord 上发生了一场涉及 Nous Hermes 的争论，其中针对个人的粗鲁指责凸显了评估语言模型的复杂性。
- 该个人因使用默认的 LM Harness 设置而受到批评，尽管这些设置在论文中并未明确提及，这表明可能存在对研究的误解或误读。
Deeply 是新的 very 吗？：作者注意到在公共话语中 “deeply” 一词的使用频率有所上升，并认为它已成为通用的副词。
- 作者引用了 Merriam-Webster 对 ‘cant’ 一词的定义，并暗示 “deeply” 正在以类似的方式取代 “very”。

Latent Space Discord

Salesforce 为 SWE Agent 打造的 DEI 框架：Salesforce 发布了 DEI (Diversity Empowered Intelligence)，这是一个开源的 AI 软件工程 Agent 组织，旨在利用 SWE Agent 的独特专业知识。
- DEI 作为一个元模块（meta-module）运行在现有的 SWE Agent 框架之上，管理 Agent 集体以增强问题解决能力，在一组开源 SWE Agent 的配合下，在 SWE-Bench Lite 上实现了 34.3% 的解决率，大幅超过了表现最好的单个 Agent。
DeepSeek-Prover-V1.5：用于 RL 和 MCTS 的证明助手：DeepSeek-Prover-V1.5 利用证明助手反馈进行强化学习 (RL) 和蒙特卡洛树搜索 (MCTS)，取得了显著改进。
- 它在高中水平的 miniF2F bench (63.5%) 和本科水平的 ProofNet bench (25.3%) 上都达到了新的 SotA。
DSPy：尚未商业化，但 Omar 正在努力：一位成员询问 DSPy 背后是否有商业公司，另一位成员回答说目前还没有，但 Omar 显然正在为此努力。
- 该成员还提到，他们昨天去了 Cursor 的办公室见面会，被告知目前还没有 alpha 版本可以分享，但 Cursor 向大家问好。
新一期 Latent Space Pod 发布：新一期 Latent Space Pod 已上线，嘉宾是 Jeremy Howard。
- 本期节目深入探讨了 AnswerAI 的创立历程、OpenAI 的治理危机，以及 Howard 扩展 AI 研发的计划。
为 RAG 选择合适的 Embedding 模型：本文指导用户通过 Hugging Face MTEB (Massive Text Embedding Benchmark) 排行榜 为其 Retrieval Augmented Generation (RAG) 应用选择合适的 Embedding 模型。
- 它解释了 Bi-Encoder 和 Cross-Encoder 模型之间的区别、Embedding 模型如何进行基准测试，以及如何为特定用例选择基准 Embedding 模型。

Cohere Discord

Cohere 创业计划：助力初创公司集成 AI：Cohere 创业计划为希望将 AI 集成到核心业务中的 B 轮融资初创公司提供折扣和支持。
- 该计划提供 Cohere 强大的 AI 工具和专业知识，赋能初创公司构建创新解决方案。
Cohere 在 Oracle Fusion SaaS 上的训练：一位用户正在寻求有关 Cohere 在 Oracle Fusion SaaS 应用上训练效果的信息。
- 这表明对能够与现有企业软件系统无缝集成的 AI 解决方案的需求日益增长。
使用 Cohere 进行 Tokenization：AutoTokenizer vs llamatokenizer：Cohere 社区是获取关于 AutoTokenizer 和 llamatokenizer 差异答案的最佳场所。
- Cohere For AI 社区是进行开放科学研究和获取 Cohere 工具使用建议的宝贵资源。
LLM University API Key 使用：是否属于生产环境？：一位用户不确定在 LLM University 模块的小型练习中使用 Cohere API Key 是否会被视为生产部署。
- 这个问题强调了理解 API 使用政策的重要性，尤其是在将 AI 工具用于教育目的时。
R+ API：缺失指南层：一位用户询问在 R+ API 之上是否有一个独立于本地模型的指南层（guidelines layer）。
- 这一担忧暗示模型可能会产生幻觉（hallucinations），这是 LLM 中的一个已知问题，突显了对稳健安全性和伦理考量的需求。

LlamaIndex Discord

LlamaIndex 的多智能体系统框架：Llama-Agents：LlamaIndex 正在构建一个名为 Llama-Agents 的多智能体系统框架，该框架专注于生产用例。
- 该框架通过基于微服务的架构优先考虑可扩展性和灵活性，其特点是用于任务编排的控制平面和用于无缝运行的关键组件。
使用 LlamaIndex 的 Agent 生成多模态报告：LlamaIndex 展示了一个自动化的多智能体系统，能够在多模态 RAG（Retrieval Augmented Generation）上进行研究，并将信息汇编到知识库中。
- 该系统动态生成结合了文本和图像的多模态报告，能够适应用户查询并提供全面的见解。
使用 LlamaIndex Workflows 简化控制流：LlamaIndex 强调了 Workflows 的强大功能，展示了其通过装饰器（decorators）和类型定义控制流来简化复杂流程的能力。
- Workflows 支持事件驱动的流程链和自定义，使用户能够为复杂的任务和场景创建精细的步骤。
探索 LlamaIndex 对 GraphRAG 的实现：LlamaIndex 的 GraphRAG 实现与微软原始版本理念相似，专注于构建社区并基于社区检索信息。
- 然而，它与微软复杂代码库的差异程度尚不明确，LlamaIndex 主要参考论文进行实现。
Anthropic 的性能：代码重构与想法迭代：一位用户报告最初对 Anthropic 的体验不佳，但在将代码粘贴到平台并寻求帮助后，它成功识别并修复了问题。
- 这突显了 Anthropic 在代码重构和想法迭代方面的潜力，特别是在使用其 sonnet-3.5 模型时。

LangChain AI Discord

LangChain 工具库扩展：一位用户询问了 LangChain 文档之外为 LangChain Agent 构建的工具，得到了探索 OpenAI Actions、MindSQL 和 Awesome LangChain 仓库的建议。
- 这些工具旨在为开发者提供更多灵活性，以便针对特定用例创建和自定义 LangChain Agent。
在 LangGraph 中执行工具后的操作：一位 LangGraph 新手寻求关于在 LangGraph 的 ToolNode 中使用工具后执行函数的指导。
- 该用户希望在 LangGraph 的 ToolNode 中找到一个参数，允许在工具使用后直接执行函数。
Llama 模型集成问题：一位用户在使用 ChatHuggingface 与本地托管的 Llama 模型时遇到了问题。
- 用户请求协助识别和解决错误，并被建议在相关频道发布问题以获得更集中的支持。
优化 Embeddings 以实现准确检索：一位用户报告了检索到无关数据的问题，怀疑是 Embedding 出了问题。
- 该用户使用 Ollama Embeddings 进行嵌入，使用 Chroma 进行检索，寻求关于选择合适 Embedding 模型和优化整个流程的建议。
揭秘缓存加速的秘密：一位用户观察到在 .invoke() 和 .batch() 操作中使用缓存带来了速度提升，但发现 .batch_as_completed() 仍然很慢。
- 尽管缓存已在第一次运行后填充，用户仍质疑 .batch_as_completed() 是否实际利用了缓存，并寻求对此行为的解释。

Eleuther Discord

Boundary Attention：轻量级图像分割：提出了一种新的轻量级、自下而上的模型，用于使用 Boundary Attention 高精度地推断基于颜色的边界。
- 与传统方法不同，该模型使用编码三向分区和相关窗口函数的 Embedding 场，自下而上地推断未栅格化的边界，包括轮廓、角点和连接点。
语言模型概率计算错误：最近的一篇论文（查看 PDF）指出，许多近期的语言学研究在计算语言模型中的单词概率时存在错误，特别是那些使用词首 (bow) Tokenizer 的模型。
- 该论文提出了计算单词概率的正确方法，强调了这些计算中的不准确性如何影响句子理解和词汇优化分析中的测量结果。
在没有 LayerNorm 的情况下微调 Gemma-2-2b：一位成员正在寻找合作伙伴或训练脚本，以便在没有 LayerNorm 的情况下微调 Gemma-2-2b（或类似模型）。
- 他们的灵感来自之前在没有 LayerNorm 的情况下微调 GPT2 的尝试，结果性能仅略有下降，他们好奇这种方法是否可以应用于更大的模型。
Goodfire AI：揭秘 AI 的内部运作机制：Goodfire AI 是一家公益企业，其使命是通过研究先进 AI 模型的内部运作机制来促进人类对 AI 的理解，弥合理论科学与可解释性实际应用之间的鸿沟。
- 他们正在构建关键基础设施，使开发者能够大规模地理解、编辑和调试 AI 模型，确保创建更安全、更可靠的系统。
Llama3-8B-Instruct 匹配 GSM8k 结果：一位用户报告称，使用特定的 Prompt 格式和设置，成功使用 Llama3-8B-Instruct 复现了 Meta 的 GSM8k 性能：https://huggingface.co/datasets/meta-llama/Meta-Llama-3.1-8B-Instruct-evals/viewer/Meta-Llama-3.1-8B-Instruct-evals__gsm8k__details?row=0。
- 这需要调整 Regex 表达式并为 GSM8k-cot 任务创建一个新的 .yaml 文件。用户表示愿意分享该 .yaml 文件，并且需要对其他数据集执行相同操作以复现 Meta 的结果。

DSPy Discord

探索神经搜索仓库：一位成员分享了一个用于神经搜索的 GitHub 仓库，旨在利用神经网络增强搜索功能。
- 另一位成员展示了一个模块化 AI 助手的 GitHub 仓库，该助手可以处理音频、图像和文本。
关于文本检索神经网络的新论文：一位成员链接了一篇名为《Neural Network for Text Retrieval》的 arXiv 论文，该论文由多位作者共同完成。
- 该论文探讨了神经网络在文本检索中的应用，讨论了它们的优势和应用场景。
LLM 的自学评估器 (Self-Taught Evaluators)：一种名为“Self-Taught Evaluator”的新方法旨在不依赖人类标注，仅使用合成训练数据来改进 LLM 评估器。
- 该方法生成对比性的模型输出，训练 LLM-as-a-Judge 生成推理链和最终判断，并迭代地改进预测。
用于增强推理的混合 RAG 系统：引入了一种混合 RAG 系统，该系统结合了多种优化，增强了检索质量、推理能力和数值计算能力。
- 该系统利用来自网页的精细文本块和表格、用于减少幻觉的属性预测器、LLM 知识提取器和知识图谱提取器，以及包含所有参考资料的推理策略。
WeKnow-RAG：集成 Web 搜索和知识图谱：WeKnow-RAG 将 Web 搜索和知识图谱集成到“检索增强生成 (RAG)”系统中，以提高 LLM 响应的准确性和可靠性。
- 它将知识图谱的结构化表示与稠密向量检索相结合，通过利用结构化和非结构化信息来改进 LLM 的响应。

Modular (Mojo 🔥) Discord

Mojo：通用编程语言：Mojo 旨在成为一种通用编程语言，目标是在包括 AI 在内的各个领域实现易读且高效的“类 Python”代码库，并扩展到 AI 以外的领域。
- 然而，对于 GPU 着色器等特定任务，由于缺乏其他的 GPU 编程方法，Mojo 需要 Max 进行编译。
Mojo 的运行时：极简但强大：Mojo 将作为一种具有极简运行时的语言运行，GPU 调度和异步操作等核心功能由 Max 处理。
- 这种运行时对于确保 Mojo 代码的高效执行至关重要，特别是在性能敏感的应用中。
字符串索引之争：码点 (Code Points) vs 码元簇 (Grapheme Clusters)：一位成员提出，使用码点进行字符串索引可能不是最有效的方法，建议码元簇可能是更好的选择，特别是在字符串处理任务的上下文中。
- 另一位成员建议为字符串提供 index_type 参数，允许使用 byte、codepoint 和 grapheme 等情况，让用户根据其特定的数据和需求最大限度地控制索引和优化。
WSL Ubuntu 24.02 LTS 上的 Mojo 安装错误：一位用户报告了在运行 Ubuntu 24.02 LTS 的 WSL 上尝试安装 Mojo 时出现错误：“modular: error: invalid manifest: expiration has passed”。
- 错误信息表明用于安装的 Mojo manifest 文件已过期，可以通过检查新版本或更新环境设置和路径来解决。
潜在的内存效率改进：一位成员对结合使用 memcpy、清零和索引构建的效率表示担忧，这导致了对内存的三次遍历。
- 他们建议将复制和索引操作融合，通过减少内存遍历次数来潜在地提高性能，从而更有效地利用内存资源。

OpenInterpreter Discord

Raspberry Pi 5：OpenInterpreter 的高效能功耗比选择：一位用户在思考为 OpenInterpreter 选择 Raspberry Pi 5 而非 Umbrell 的优势。
- 另一位用户建议使用 Raspberry Pi 5，因为它功耗更低且采用 ARM 架构，是运行 OpenInterpreter 更高效的选择。
在 OpenInterpreter OS 中利用 Gemini 模型：一位用户寻求在 OpenInterpreter OS 环境中实现 Gemini 模型的入门指南。
- 一位热心用户提供了代码片段和安装说明，推荐使用 --model、--api_key、--local 和 --os 等参数来实现无缝执行。
Alexa Echo Dot：通过 Ollama 连接本地服务器：一位用户询问是否可以通过 Ollama 将旧的 Alexa Echo Dot 连接到本地家庭服务器的变通方法。
- 目前没有关于此话题的回复。
OpenInterpreter Discord：冷清的一天：一位用户评论说 OpenInterpreter Discord 服务器的活跃度较低。
- 另一位用户确认了该平台今天相对冷清。

LAION Discord

Musk/X：没什么大不了：一位用户表示 Musk/X 似乎运行良好，因为记者和政治家只关注“Musk/X 很糟！”，而不去深究细节。
- 该用户指出，事态可能会升级，“斯坦福研究人员”可能会进一步挖掘并发现问题，但最终暗示情况尚好，媒体炒作过度了。
斯坦福研究人员：寻找问题：一位用户开玩笑地建议“斯坦福研究人员”未来可能会发现 Musk/X 的问题，即使实际上并没有什么错。
- 另一位用户表示赞同，并开玩笑说“斯坦福正在努力工作”，暗示斯坦福研究人员总是在寻找需要解决的问题。
Moonglow：流式 GPU 访问：Moonglow 是一个 VSCode 扩展，允许你将 Jupyter notebooks 连接到远程云端 GPU，例如 Runpod 提供的服务。
- Moonglow 简化了在不到一分钟内启动、连接和停止带有 A100 或 H100 的 Runpod 实例的过程，简化了 ML 研究的工作流程。
Moonglow：简化云端计算：Moonglow 消除了管理 SSH keys、安装包和其他 DevOps 任务的需求，允许在几秒钟内无缝切换到云端计算。
- 用户可以选择任何他们需要的 GPU（A40、A100、H100 等），并直接在 IDE 中管理计算，同时避免了典型的 SSH 麻烦。
Moonglow：扩展云端集成：Moonglow 目前支持将 VS Code/Cursor 中的 notebooks 连接到 Runpod 和 AWS。
- 团队对扩展 Moonglow 的功能以支持其他设置持开放态度，并鼓励有特定需求或请求的用户与其联系。

DiscoResearch Discord

xLSTM 训练器发布：一位成员最近发布了一个兼容 Hugging Face 的 xLSTM 训练器。
- 他们分享了 GitHub 上的代码库链接。
xLSTM 有望取代 Transformers？：该成员认为 xLSTM 最终可能会取代 Transformers。
- 未来情况如何仍有待观察。

Alignment Lab AI Discord

Jala：自动化数据标注：Jala 是一个自动化文本数据标注界面，利用 AI 实现高精度和高效率，支持各种数据类型（如 CSV、JSON、TXT、XML）并可扩展至大型数据集。
- 它集成了现有工作流，适用于 NLP、机器学习和 AI 模型训练以及数据标注等用例，并具备自动化内容分类功能。
Jala：加入等候名单：Jala 即将推出！注册等候名单，成为首批体验者并接收进度更新。
- 这一创新的数据标注解决方案可在 Jala - Data Labeling Solution 访问。

LLM Finetuning (Hamel + Dan) Discord

OpenAI 的短模型有效期：与其他通常提供 1 年 有效期的供应商相比，OpenAI 的模型有效期要短得多，仅为 3 个月。
- 这种较短的时间框架强调了 OpenAI 在模型生命周期管理和用户访问方面的策略。
Modal 灵活的过期政策：Modal 为模型提供标准的 1 年 有效期，但允许用户在过期后延长该时间。
- 这种灵活性为用户提供了更大的控制权和适应性，以满足不同的项目需求。
通用模型有效期：普遍的模型有效期为 1 年，包括 Modal 在内的大多数供应商都遵循这一标准。
- 然而，这些供应商通常可以提供延期，从而允许在初始有效期之后继续使用模型。

MLOps @Chipro Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该服务器长时间没有动静，请告知我们，我们将将其移除。

第 2 部分：按频道详细摘要和链接

完整的各频道详细分析已在邮件中截断。

如果您想查看完整的详细分析，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！提前致谢！

今天没什么事发生。