宁静的一周正是你所需要的。

2024年8月8日至8月9日的 AI 新闻。我们为你检查了 7 个 subreddits、384 个 Twitter 账号和 28 个 Discord 社区（249 个频道，以及 2549 条消息）。预计节省阅读时间（按 200wpm 计算）：278 分钟。你现在可以标记 @smol_ai 来进行 AINews 讨论！

与大多数新闻机构不同，当没有太多事情发生时，我们不会寻求或必须用内容来填充页面。本周最大的新闻是降价和 structured outputs。祝贺 Cursor AI 宣布其 6000 万美元的 A 轮融资。我们一直是 Composer 的忠实粉丝。

目录和 频道摘要 已移至此邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 模型更新与进展

Qwen2-Math 模型：@rohanpaul_ai 报道称，Qwen2-Math-72B 在多项数学基准测试中超越了 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。该系列模型基于 Qwen2，在数学网页文本、书籍、考试和代码上进行训练，利用了合成数据以及拒绝采样（rejection sampling）和群体相对策略优化（group relative policy optimization）等先进技术。
Google AI 定价：@rohanpaul_ai 分享了 Google AI 大幅下调 Gemini 1.5 Flash 价格的消息，对于 128K tokens 以下的 prompt，输入价格下调 78% 至 $0.075/100万 tokens，输出价格下调 71% 至 $0.3/100万 tokens。
Anthropic 漏洞赏金计划：@AnthropicAI 宣布扩大其漏洞赏金计划（bug bounty program），重点在于寻找其下一代安全系统中的通用越狱（jailbreaks）方法。他们为包括网络安全在内的各个领域的各种新型漏洞提供奖励。
IDEFICS3-Llama 微调：@mervenoyann 分享了一个关于在 VQAv2 上对 IDEFICS3-Llama 8B 进行 QLoRA 微调的新教程，展示了视觉问答（VQA）的高效微调技术。

AI 研究与基准测试

中国开源权重模型：@jeremyphoward 提到了一款中国开源权重模型，在 MATH 基准测试中超越了以往所有的闭源和开源模型。
Mamba 综述：@omarsar0 分享了一份关于 Mamba 的综述，对现有基于 Mamba 的模型在各领域和任务中的表现进行了系统性回顾，重点关注了进展、适配技术以及 Mamba 表现优异的应用场景。
用于软件工程的基于 LLM 的 Agent：@omarsar0 重点介绍了一篇关于软件工程中基于 LLM 的 Agent 的当前实践和解决方案的综述论文，涵盖了需求工程、代码生成和测试生成等主题。

AI 工具与平台

R2R RAG 引擎：@rohanpaul_ai 讨论了 R2R，这是一个开源的 RAG 引擎，简化了 RAG 应用的开发，提供多模态支持、混合搜索和自动知识图谱生成等功能。
LlamaIndex Workflows：@llama_index 推出了 Workflows，这是一种用于构建复杂 Agentic 生成式 AI 应用的新抽象，并演示了如何使用该功能重建 LlamaIndex 内置的子问题查询引擎（Sub-Question Query Engine）。
Mistral AI Agent：@sophiamyang 宣布推出 Mistral AI Agent，允许用户基于 Mistral 模型或微调模型构建 Agent，以便在 Le Chat 上使用。

AI 安全与监管

加州法案 SB 1047：@ylecun 分享了众议院民主党议员 Zoe Lofgren 对加州 SB 1047 法案的担忧，指出该法案“严重偏向于应对生存风险（existential risk）”。
开源 AI 辩论：@bindureddy 发起了一场关于禁止开源 AI 的讨论，强调了此类提议引发的争议。

梗与幽默

Heavenbanning Day：@nearcyan 开玩笑说两年后的“Heavenbanning Day”，随后又发推澄清“heavenbanning 并不存在，因为什么都没发生”。
故事点批评：@svpino 分享了对敏捷开发中故事点（story points）的幽默批评，将其比作“皇帝的新衣”，并称这种做法是一场“闹剧”。
AI 赞美：@AmandaAskell 开玩笑地建议给未来的 AI 发推赞美，以博取它们的好感。

这份摘要涵盖了 AI 模型开发、研究、工具、安全和监管方面的关键讨论，以及一些关于 AI 和软件开发实践的幽默见解。

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. 用于数学和技术任务的专业 AI 模型

**Qwen2-Math

基于 Qwen2 的数学专用模型系列** (Score: 73, Comments: 19): Qwen 发布了一系列基于其 Qwen2 架构的 数学专用模型，可在 Hugging Face 上获取。该系列包括各种规模的模型（72B、7B 和 1.5B 参数），提供 base 和 instruct-tuned 版本，旨在增强数学推理能力。

从零开始实现 LLaMA 3.1 8B 的 function calling，一些挑战与反馈！ (Score: 60, Comments: 17): 作者使用 LlamaCPP Python 绑定的 generate() 函数为 LLaMA 3.1 8B 实现了 function calling，并指出在从对话中分离自定义函数调用时面临的挑战。他们观察到像 LLaMA 3.1 8B 这样的小模型在没有特定指令的情况下很难使用工具，并表示由于 token 效率的原因，在 function calling 中更倾向于使用 YAML 而非 JSON。文章最后，作者考虑开发一个 REST server 来流式传输 raw tokens，或者为该功能提交功能请求。
- 由于 token 效率和可读性，在 function calling 中 YAML 优于 JSON。用户讨论了让模型以 YAML 格式响应的 prompting 技巧，但提醒 LLaMA 3.1 8B 可能难以处理复杂的指令。
- 人们对生成 raw tokens 和 前 200 个 token 分布概率的端点表现出浓厚兴趣，这可以实现一些巧妙的应用，但目前很难从现有的推理引擎中获取。
- 用户将 Gemma2 与 LLaMA 3.1 进行了比较，一些人认为 Gemma2 更胜一筹。然而，有人指出 Gemma2 目前在 Ollama 等框架中不支持 function calling，限制了其在某些应用中的使用。

Theme 2. Hugging Face 的战略扩张与开源 TTS 的进展

**[AI 独角兽 Hugging Face 收购一家初创公司，最终将托管数亿个模型

福布斯](https://www.forbes.com/sites/richardnieva/2024/08/08/hugging-face-xethub-acquisition/)** (Score: 200, Comments: 43): Hugging Face 是一家估值 45 亿美元的 AI 独角兽，它收购了专注于 AI 基础设施和云计算的初创公司 Paperspace。此次收购旨在增强 Hugging Face 的能力，使其有可能托管 数亿个 AI 模型，并与 Amazon、Google 和 Microsoft 等主要云提供商竞争。此举是 Hugging Face 战略的一部分，旨在成为一个全面的 AI 开发和部署平台，提供从模型训练到推理的服务。

改进的文本转语音模型：Hugging Face 的 Parler TTS v1 (Score: 111, Comments: 35): Hugging Face 发布了 Parler TTS v1，这是一款改进的开源 Text-to-Speech 模型，提供 885M (Mini) 和 2.2B (Large) 版本。该模型基于 45,000 小时的公开语音数据训练，生成速度提升高达 4 倍，支持 SDPA 和 Flash Attention 2 以提高速度，包含内置流式传输，并允许在自定义数据集上进行微调，在十几个说话者之间具有更好的说话者一致性。

Theme 3. 新兴 AI 模型与性能基准测试

为 Deepseek v2 点赞 (Score: 56, Comments: 34): Deepseek v2 是一款拥有 2000 亿参数的开源模型，因其在编码任务中的表现而受到赞誉，可与顶级模型媲美，并在 BigCodeBench 上与 3.5 Sonnet 并列 第 3 名。该模型的 API 价格极具竞争力，缓存命中率为每百万 token 0.017 美元，用户仅需 3.13 美元即可处理 6600 万个输入 token。此外，该模型的效率表明它可以在 四卡 3090 GPU 设置上本地运行，使其成为开发者和研究人员的一个极具吸引力的选择。
LMSYS 上的新 sus-column-r 模型。简直太离谱了 (Score: 62, Comments: 49): 据报道，LMSYS 上的 sus-column-r 模型在翻译、编程、数学和回答冷门问题等各项任务中表现优于 GPT-4 和 Claude 3.5 Sonnet。帖子作者对该模型的能力表示难以置信，指出如果不是因为模型的自我识别回答，他会以为这是 GPT-5，并提到目前缺乏关于其开发者 ColumnAI 的信息。
- 用户使用“高难度”提示词测试了 sus-column-r 模型，发现其表现与 GPT-4o 相似。一些人表示怀疑，要求提供实际案例，并提醒他人注意“We Have No Moat”（我们没有护城河）的概念。
- 关于该模型的来源引发了讨论，有人猜测它来自 Cohere 的 Column 系列。其他人则警告不要将其视为事实，并指出 Cohere 的现有模型与较新的模型相比表现不佳。
- 该模型展示了广泛的知识储备，正确识别了“Die monster, you don’t belong in this world”的出处，据称还知道某位用户八年级冬季学校旅行的细节。一些用户觉得它平平无奇，而另一些人则称其“体量巨大”且“可疑 (sus)”。

主题 4. 探索 LLM 的能力与局限性

AI / LLM 还有哪些做不到的事？ (Score: 79, Comments: 177): 该帖子讨论了 AI 和 LLM 的现状及未来预期，指出虽然有渐进式的改进，但自 GPT-4 以来还没有出现颠覆性的进步。作者观察到顶级模型之间出现了能力趋同，质疑我们是否只是在尝试 GPT-4 已经能完成的任务，并询问用户希望 AI 完成哪些目前还无法实现的实际任务。帖子认为，限制可能在于聊天机器人界面而非底层的 LLM 技术，并提议通过不同的微调方法以及创建 Agent 而非对话模型，可能会从现有的基础模型中激发更多有用的行为。
- 大型应用程序的代码生成仍然具有挑战性，LLM 很难在没有大量人工修正的情况下生成超过 200 行的连贯代码。用户渴望在复杂、多功能的开发任务中获得更强的能力。
- 诸如目标定位、漫画理解和结构化图像分析等视觉理解任务对 AI 来说仍然很困难。用户报告称，需要大量的预处理和专门工具才能在这些领域取得部分成功。
- 用户希望 AI 能生成超出当前 Token 限制的更长、更连贯的输出。虽然像 Sonnet 3.5 和 Gemini 1.5 Pro 这样的模型在这一领域展现了潜力，但在超长上下文生成方面仍需进一步改进。

All AI Reddit 摘要

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 模型能力与进展

GPT-4o 展示了非预期的语音克隆能力：在 /r/singularity 中，一段来自 OpenAI 的视频显示 GPT-4o 在测试过程中大喊“NO!”并简短地模仿了用户的声音。这突显了在控制先进 AI 模型方面的潜在风险和挑战。
Google DeepMind 的 AI 在乒乓球方面达到人类水平：在 /r/singularity 中，Google DeepMind 宣布他们的 AI 驱动机器人成为第一个在乒乓球比赛中达到人类水平的“Agent”。
Gemini 1.5 Flash 价格下调：在 /r/singularity 中，Google 宣布将 Gemini 1.5 Flash 的价格降低 70%，使先进的 AI 能力变得更加普及。
OpenAI 开放免费 DALL-E 3 图像生成：在 /r/singularity 中，OpenAI 宣布 ChatGPT 免费用户现在每天可以使用 DALL-E 3 创建最多两张图像。

AI 在科学研究与数学领域

AI 自动化数学证明：在 /r/singularity 中，数学家 Terence Tao 讨论了如何利用 AI 来自动化数学证明，这可能会彻底改变该领域。
Google DeepMind 用于 AGI 开发的 CSCG：在 /r/singularity 中，一篇关于克隆结构因果图 (CSCG) 的论文被认为是迈向 AGI 的突破，重点关注模式学习（schema-learning）和重绑定（rebinding）机制。

机器人技术进展

Boston Dynamics 的 Atlas 执行复杂动作：在 /r/singularity 中，一段视频展示了 Atlas 机器人进行俯卧撑和波比跳，展示了机器人在灵活性和控制方面的进步。

迷因与幽默

“未来已至”迷因：在 /r/singularity 中，一个热门迷因帖子以幽默的方式评论了 AI 技术的飞速发展。

AI Discord 摘要

摘要之摘要的总结

1. LLM 进展与基准测试

Gemini 1.5 Flash 大幅降价：Google 宣布对 Gemini 1.5 Flash 进行大幅降价，对于 128,000 tokens 以下的 prompts，成本降低了高达 70%，至每百万 tokens 7.5美分，使其在快速且廉价的模型市场中极具竞争力。
- 更新后的模型现在可以原生理解 PDF，并提高了文本和多模态查询的性能。此举被视为 AI 行业为提高效率而持续降价趋势的一部分。
DeepSeek-V2 声称超越 GPT-4：据报道，新发布的 DeepSeek-V2 模型在 AlignBench 和 MT-Bench 等一些基准测试中超越了 GPT-4，展示了模型性能的进步。
- 这一说法引发了关于 AI 社区需要标准化基准测试和透明评估方法以验证此类卓越性断言的讨论。
MiniCPM-V 2.6 挑战顶尖模型：据开发者称，开源视觉多图模型 MiniCPM-V 2.6 的表现优于 Gemini 1.5 Pro 和 GPT-4V 等模型。
- 社区分享了 Hugging Face 模型和 GitHub 仓库的链接，邀请大家探索并验证这些性能声明。

2. 模型优化与推理技术

Tree Attention 算法优化长上下文处理：一篇新论文介绍了 Tree Attention 算法，该算法通过在 GPU 集群上进行并行计算来优化 self-attention 计算，有望提高处理长上下文 attention 任务的效率。
- 该实现已在 GitHub 上可用，旨在增强需要大量上下文处理场景下的性能，可能彻底改变模型处理大规模信息的方式。
Apple 开源 Matryoshka Diffusion Models：Apple 开源了一个 Python 软件包，用于使用较小的数据集高效训练 text-to-image diffusion models，该项目与其 ICLR 2024 论文相关联。
- 该软件包旨在实现高质量结果，同时专注于减少数据和计算需求，可能使先进的 AI 图像生成技术更加普及。

3. AI 初创公司融资

Sequoia Capital 关注 AI 推理初创公司：Sequoia Capital 已讨论资助一家由 Robinhood CEO 共同创立的 AI 推理初创公司，旨在增强 AI 在推理和决策方面的能力。
- 据 The Information 报道，这一潜在投资信号表明，人们对能够提高逻辑处理和决策能力的 AI 技术兴趣日益浓厚。
Anysphere 为 AI 编程助手获 6000 万美元融资：AI 编程助手 Cursor 的开发商 Anysphere 已获得超过 6000 万美元 的 A 轮融资，估值达到 4 亿美元。
- 本轮融资由 Andreessen Horowitz 领投，显示了投资者对 AI 驱动的编程解决方案及其改变软件开发实践潜力的强大信心。

4. 开源 AI 框架与社区努力

Replete-LLM-Qwen2-7b 发布：新模型 Replete-LLM-Qwen2-7b 已发布，具有令人印象深刻的能力和基准测试结果，邀请用户通过 Hugging Face 进行测试。
- 讨论建议，亲自测试对于理解性能差异至关重要。
Open Interpreter 黑客松引发关注：Open Interpreter 正准备于 9 月 20 日至 23 日 在达拉斯举行“Breaking Barriers”黑客松，奖金总额为 17,500 美元。
- 该活动鼓励现场参与，但也欢迎远程申请者，关于团队组建的社区讨论正在进行中。

5. 新 AI 模型发布与创新

Replete-LLM-Qwen2-7b 推出：Replete-LLM-Qwen2-7b 已经推出，展示了强大的能力，并邀请用户通过 Hugging Face 进行测试。
- 开发者强调了亲自测试的重要性，而不是仅仅依赖营销宣传的优越性主张。
用于 Function Calling 的 ActionGemma-9B 模型：新的 ActionGemma-9B 模型专为 function calling 设计，利用了来自 Gemma 的多语言能力和 xLAM 数据集，增强了用户交互。
- 有关其功能的详细信息可以在此处访问。

6. 社区支持与资源

寻求 AI 研究社区：成员们表达了对更活跃的音频研究社区的渴望，并指出之前的平台（如 harmonai）已变得不活跃。
- 这突显了音频研究讨论支持方面的空白，以及对充满活力的社区的需求。
黑客松公告：Open Interpreter 宣布参加“Breaking Barriers”黑客松，提供 17,500 美元 的奖金，鼓励社区参与。
- 该活动强调 AI 领域的协作与创新，提供现场和远程参与选项。

PART 1: High level Discord summaries

Nous Research AI Discord

寻找活跃的音频研究社区：一位成员正在寻求类似于 Nous 的音频研究社区推荐，理由是之前的 Discord 频道缺乏活跃的讨论。
- 旧的 harmonai Discord 几乎已经沉寂， 这凸显了音频研究支持方面的重大空白。
推出用于多模态 Agent 的 CRAB：社区欢迎 🦀 CRAB: Cross-environment Agent Benchmark 的加入，该基准测试用于评估跨平台（包括 📱 Android 和 💻 Ubuntu）的多模态 Agent。
- 其特性包括图形评估器和任务生成，旨在提升 human-like performance（类人性能）。
实习生 Eric 揭秘 ReFT 高级技巧：明天太平洋时间上午 10 点，Intern Eric 将在演示中展示“我如何使用 ReFT 在 14 分钟内微调 Llama3”。
- 该会议重点讨论 Representational Fine Tuning 的应用，有望为模型调优提供宝贵的见解。
澄清 ReFT 与 RLHF 的混淆：成员们讨论了 ReFT 和 RLHF 之间的区别，一位用户强调了关于它们之间关系的误解。
- 这种混淆表明在社区讨论这些技术时，需要更清晰的定义。
模型性能对比讨论：讨论强调了整合 A/B tests 和稳健的 Benchmark 来验证新模型优越性声明的重要性，特别是针对 Llama-3.1-8B 和 Gemma-2-9B。
- 用户对在没有适当 Benchmarking 的情况下随口称模型为 state-of-the-art 表示担忧。

Unsloth AI (Daniel Han) Discord

Gemma 2 受到关注：成员们注意到 Gemma 2 正变得越来越受欢迎，与 Llama 和 Mistral 等前辈相比，它正在吸引自己的受众。讨论强调了该模型相对于竞争对手的独特特征和性能细微差别。
- 兴趣的转移表明社区对多样化架构的接受度正在提高。
推出 Replete-LLM-Qwen2-7b：新模型 Replete-LLM-Qwen2-7b 已发布，具有令人印象深刻的能力和 Benchmark 表现，邀请用户通过 Hugging Face 进行测试。开发者敦促用户亲自评估模型，而不是仅仅依赖市场宣传的优越性声明。
- 讨论表明，亲自测试对于理解性能差异至关重要。
模型 Benchmarking 争议：关于当前模型 Benchmark 缺点的对话不断出现，用户指出性能差异与不同的训练数据有关。一位成员指出，尽管在编程任务中表现更高，但由于训练目标的不同，Benchmark 分数可能无法反映质量。
- 这次对话强调了在评估模型效能时上下文（Context）的重要性。
模型中的连续批处理详述：用户探索了模型进行连续微调（continuous finetuning）的适应性，讨论了诸如 ReFT 之类的增强功能。关于 Unsloth 如何在持续训练策略下支持额外功能的疑问也随之产生。
- 这凸显了人们对动态模型调整技术日益增长的兴趣。
Flash Attention 3 兼容性担忧：根据 MrDragonFox 的说法，Flash Attention 3 (FA3) 仅与 H100 硬件和 Hopper 架构兼容。这引发了关于在使用 Flash Attention 时自动安装 FA2 的澄清。
- 讨论引发了对 Flash Attention 版本实际用法的询问，成员们好奇 FA2 是否仍然占据主导地位。

LM Studio Discord

LM Studio 面临性能下降：用户报告 LM Studio 的加载时间变长且响应迟缓，尽管之前使用正常，但现在将问题归因于 context length 设置。
- 报告表明，性能滞后影响了模型加载和响应速度，理想情况下，在设置未更改时不应受到影响。
新用户寻求模型指导：一位新手询问 LM Studio 中支持处理图像和 PDF 的模型，以及视觉生成模型。
- 讨论强调了需要改进入门工具，以帮助用户熟悉模型功能。
Gemma 2 的性能给用户留下深刻印象：用户建议尝试 Gemma 2 27B，并指出其表现非常出色，特别是与 Yi 1.5 34B 相比。
- 反馈强调了即使是较小的 Gemma 2 9B 模型在各项任务中也表现高效，引发了对其更大版本模型的期待。
关于 LLM 推理笔记本电脑选择的激烈辩论：用户在配备 RTX 4050 或 RTX 4060 的机器之间权衡 LLM 推理的选择，讨论集中在额外 2GB VRAM 的重要性上。
- 专家强调，虽然增加 RAM 有助于提升性能，但为了充分利用大型模型，最大化 VRAM 具有优先权。
Linux 上的 NVIDIA GPU 功耗限制：用户讨论了在 Linux 上通过 nvidia-smi 等工具持久限制 NVIDIA GPU 功耗的方法，特别是针对 RTX 3090。
- 建议使用脚本在重启后保持功耗限制，尽管企业级系统通常提供更好的功耗控制选项。

HuggingFace Discord

SOTA 背景移除模型超越 RMBG1.4：一位认证成员重点介绍了 Bilateral Reference for High-Resolution Dichotomous Image Segmentation 模型，得益于多所大学的贡献，其在背景移除方面的表现优于 RMBG1.4。更多详情请见模型页面和 arXiv 论文。
- 该模型的进步展示了对低数据需求、高质量结果的日益关注，标志着背景移除技术的重大转变。
使用 ActionGemma-9B 进行 Function Calling：新的 ActionGemma-9B 模型针对 Function Calling 进行了微调，利用了来自 Gemma 的多语言能力和 xLAM 数据集。详情请访问此处。
- 这一进展通过启用特定的 Function Calling 增强了用户与模型的交互，推动了多语言模型在实际应用中的能力。

Unity ML-Agents 视频系列发布：一段名为 **Unity ML-Agents

Pretrain an LLM from Scratch with Sentence Transformers** 的 YouTube 视频演示了如何使用 Unity 和 Sentence Transformers 创建聊天机器人。观看简介请点击此处。

这一举措代表了游戏开发与对话式 AI 的精彩融合，迎合了对在游戏环境中集成高级语言模型感兴趣的开发者。

Matryoshka Diffusion 模型发布：Apple 开源了一个用于训练 text-to-image diffusion models 的 Python 包，该包使用较小的数据集，并与其 ICLR 2024 论文相关联。这允许以更少的数据和计算需求获得高质量结果。
- 这种方法可能会重新定义训练扩散模型的效率指标，潜在地影响 AI 生成媒体的未来研究。
关于 LoRA 训练技术的讨论：成员建议专注于训练 LoRA 而不是全量模型，并指出训练更大架构的收益微乎其微。此外还讨论了运行 Flux 进行推理的内存要求。
- 这些讨论强调了对高效模型训练实践的需求，反映了该领域向更轻量、更具适应性模型发展的趋势。

Latent Space Discord

DALL·E 3 向免费用户开放权限：OpenAI 宣布 ChatGPT Free 用户现在每天可以使用 DALL·E 3 创建最多 两张图片，支持个人和专业需求。
- 反馈褒贬不一，一些用户对与其他模型相比的限制感到失望。
Gemini 1.5 降价 70%：Gemini 1.5 Flash 实施了高达 70% 的降价，使其在 GPT4o 大幅降价的背景下更具竞争力。
- 分析师认为，这种激进的定价策略提高了效率，反映了 AI 技术领域持续的竞争。
Deep-Live-Cam 实现实时 Deepfakes：Deep-Live-Cam 允许用户通过单张图片实时生成高质量的 Deepfakes，令人印象深刻的实验证明了这一点。
- 该项目因其在虚拟会议中的潜在应用而引发关注，展示了其强大的功能。
Anysphere 获得 6000 万美元融资：Anysphere 成功筹集了 超过 6000 万美元 的 A 轮融资，为其 AI 编程助手 Cursor 锁定了 4 亿美元 的估值。
- 此轮融资由 Andreessen Horowitz 领投，突显了投资者对 AI 驱动的编程解决方案的信心。
Llama 3.1 模型迎来关键更新：Meta 发布了 Llama 3.1 405B 模型的更新版本，将 KV heads 从 16 个修改为 8 个，以符合其白皮书规范。
- 这一变化引发了关于其对模型性能和架构影响的猜测。

Perplexity AI Discord

Perplexity Pro 额度下调：用户报告称 Pro 搜索限制已从 600 次降至 450 次，预计未来将降至 300 次，引发了关于透明度的不安。
- 随着许多用户对在没有预警的情况下做出这一改变表示沮丧，担忧不断增加，引发了对服务可靠性的质疑。
OpenAI 的 Strawberry 模型引发热议：OpenAI 的新 ‘Strawberry’ 模型旨在增强推理能力，在 Sam Altman 通过社交媒体暗示后，在 AI 社区引发了轰动。
- 该项目被视为解决复杂研究任务的重大进步，引起了工程师和研究人员的广泛兴趣。
Anduril 估值达到 140 亿美元：Anduril Industries 融资 15 亿美元，估值从 85 亿美元 飙升至 140 亿美元，这主要归功于政府合同。
- 随着收入翻倍至 5 亿美元，该公司的增长轨迹表明，在日益紧张的地缘政治局势下，国防科技需求强劲。
Perplexity 中的图像生成障碍：用户对 Perplexity 中图像生成过程的复杂性表示沮丧，希望有更简单的功能，如直接提交 Prompt。
- 讨论显示，当前的图像生成工具被认为有限且不切实际，亟需改进。
API 路线图查询：一名成员提出了对 API 增加 互联网访问 功能路线图的需求，强调了用户对增强功能的兴趣。
- 针对包含 ‘online’ 字样的模型进行了说明，这表示部分互联网访问，虽然不是实时的，但强调了现有功能。

Torchtune Discord

应对 NeurIPS 投稿流程：一位成员分享了他们在 NeurIPS 的经历，对于在主要 AI 会议上获得高质量反馈和发表论文感到压力巨大。这个过程非常令人不知所措，我不认识任何在主要 AI 会议上发表过论文的人。
- 他们也表达了同样的担忧，即参加这些顶会的经历可能会引发焦虑。
针对审稿人评分的 Rebuttal 策略：出现了关于 Rebuttal 策略的建议，特别是针对置信度较低的审稿人，建议尽量减少对这些问题的关注。一位成员指出：如果他们陈述了置信度低的原因，那么你可以尝试解决，否则我不会理会。
- 这一见解旨在优化 Rebuttal 流程并减少不必要的压力。
顶会的挑战：对话强调了大型会议是多么令人望而生畏，并建议考虑参加较小的垂直领域会议，以获得更丰富的体验。一位参与者表示：感觉一个人至少要在顶会上发表一次论文才能被认真对待。
- 这引发了关于声望与反馈质量之间平衡的讨论。
关于 RLHF 清理的讨论：成员们辩论了在进行公开宣布之前，是否需要对 RLHF 实践进行清理流程。有人建议发布教程或博客文章，但普遍共识警告说这可能需要额外的时间。
- 这次讨论强调了在对外宣传之前准备好完善叙述的重要性。
Qwen2 模型表现出异常的内存行为：测试显示 Qwen2 模型在训练期间表现出明显的预留内存，特别是在 Batch Size 为 4 时，这引发了对潜在内存泄漏问题的警觉。成员们现在正寻求更彻底地分析这一行为。
- 这一发现可能会导致未来训练协议中的关键优化和调整。

CUDA MODE Discord

PyTorch Profiler 内存泄漏 Bug：一位成员在使用 profile_memory=True 的 PyTorch Profiler 时遇到了 内存泄漏，不确定设置中的根本原因。
- 另一位成员通过切换到 torch.cuda.memory._record_memory_history() 进行分析并取得了成功，这表明了一种替代方法。
关于 4090 Tensor Cores 的见解：讨论集中在何处获取 4090 上 Tensor Cores 的详细规格，建议查阅 Ada whitepaper。
- Ampere whitepaper 被提及作为 3090 规格的参考，强调了详尽文档的必要性。
torch.compile 倾向于使用 Triton Kernels：据分享，torch.compile 主要输出 Triton Kernels，提供了比 PyTorch Eager Mode 的 CUDA Kernel 输出更简洁的实现。
- 提到了 Cutlass Backend 的存在，但进展仍不明确，突显了 Kernel 开发中持续的增强。
INT8 量化训练修复：通过在调用 torch.chunk() 时设置 requires_grad=False 解决了 INT8 量化训练 中的一个错误，简化了实现。
- 这表明了 PyTorch 在处理张量操作中的梯度时可能存在的复杂性，强调了精确性的重要性。
RoPE Kernel 重构：进行了一场关于 RoPE Kernel 的讨论，成员们建议进行重构以使用显式的三角函数来提高代码清晰度。
- 分享了一个不含复数的早期版本，展示了一种可能更易于维护的 Kernel 设计方法。

Eleuther Discord

辩论 AI 模型中的 CBRN 风险：广泛的讨论强调了过滤 CBRN 相关信息（化学、生物、放射性、核）是否能在不损害模型能力的情况下降低风险。
- 参与者指出了移除知识与仍可能产生有害输出风险之间的权衡。
AI Safety 研究机会：一名成员提到了来自 Open Philanthropy 的 职业转型资助 (career transition grant)，旨在支持 AI Safety，并为教育练习寻求 GPU 资源。
- 讨论了多种 GPU 访问选项，包括 Colab 和 CAIS 集群，以支持 AI 研究。
Karpathy 的 nanoGPT 评估挑战：成员们讨论了 lm-evaluation-harness 在 Karpathy 的 nanoGPT 模型上的问题，指出其与 HF 格式不兼容。
- 由于这些挑战，一位用户请求帮助使评估框架正常运行。
用于高效计算的 Tree Attention：对话指向了一篇关于 Tree Attention 算法的论文，该算法通过 GPU 上的并行计算优化了 self-attention 计算。
- 该实现有望提高长上下文 (long-context) 注意力任务的效率，并分享了 GitHub 仓库。
Zamba 模型性能惊人：Zamba 模型因在训练 token 较少的情况下表现优于 LLaMA 2 7B 而受到关注，尽管其曝光度有限。
- 其公开可用的数据集因模型令人印象深刻的效率和结果而引发了兴趣。

Stability.ai (Stable Diffusion) Discord

不降级的情况下优化 VRAM：用户指出，在 Low VRAM Mode 下，如果生成成功完成，则可能不需要切换到较低配置的模型，从而节省处理时间。
- 尝试不同的模型选项有助于优化性能， 减少不必要的调整。
换脸工具：Rope 占据领先地位：成员推荐使用 Rope 进行换脸，因为与 Roop 相比，它的安装更简单，特别是对于使用 Intel CPU 的用户。
- 重点是为热衷于执行换脸的用户寻找有效且简单的工具。
Stable Diffusion 性能存在波动：用户观察到 Stable Diffusion 的采样速度 (s/it) 存在波动，据报道，切换模型大小时的延迟会影响整体性能。
- 分享了关于 ROCm 和 WSL2 等设置的见解， 表明了硬件配置的重要性。
安全地委托定制 Lora 模型：参与者讨论了利用 Civitai 的悬赏系统 (bounty system) 来委托定制 pony lora 模型，旨在实现安全交易。
- 强调对创作者进行彻底审查是确保委托实践可靠性的关键步骤。
实时预览设置引起关注：一位用户询问了 A1111 中最佳的实时预览设置，特别是质疑各种格式的用途以及是否保存帧。
- 这反映了社区驱动优化图像生成工作流以提高效率的趋势。

OpenAI Discord

ChatGPT 用户可免费访问 DALL·E 3：ChatGPT 免费用户现在每天可以使用 DALL·E 3 生成最多 两张图片，允许为幻灯片和个性化卡片等项目创建图像。
- 此次更新简化了图像请求，让用户可以直接要求 ChatGPT 根据其规格定制图像。
Mistral NeMo 未达预期：成员们对 Mistral NeMo 在 16GB RAM 的 M1 机器上的性能表示关注，并指出运行较大模型的限制。
- 针对该模型在消费级硬件上的兼容性和性能效能出现了担忧。
关于 GPT-4 与 GPT-4o 性能的辩论：用户批评 GPT-4o，认为其表现不如 GPT-4，特别是在图像分析任务中。
- GPT-4o 因提供僵化的回答而受到指责，让人联想到程序员脱离了核心原则。
对本地 AI 模型工作流的兴趣：一位参与者讨论了转向使用 Open WebUI 和 Ollama 来运行本地 AI 模型，并考虑停止其 ChatGPT+ 订阅。
- LLama 的可靠性得到了认可，但自托管设置仍存在一些需要解决的挑战。
LangChain 与 CSV 集成咨询：一位用户寻求在 LangChain 中将 CSV 文件 集成为 检索增强生成 (RAG) 文档的资源。
- 这显示了人们对使用语言模型处理结构化数据的兴趣日益浓厚，并提升了关于实际 AI 应用的讨论。

OpenRouter (Alex Atallah) Discord

Gemini 1.5 Flash 价格大降：多位用户注意到 Gemini 1.5 Flash 的价格已降至每百万 token 仅 7.5 美分，使其在快速、高性价比的模型方案中极具竞争力。
- 该模型现在原生支持 PDF，并提升了处理 text 和 multi-modal queries 的能力。
GPT-4o Mini 在编程方面超越 Gemini 1.5：GPT-4o Mini 因其比 Gemini 1.5 更低的幻觉率而受到称赞，尤其是在编程相关任务中。
- 用户表示强烈倾向于那些能在优化编程功能的同时有效减少幻觉的模型。
OpenRouter API 的配置困扰：一位开发者提出了在 TypeScript 中使用 OpenAI SDK 时，配置 OpenRouter API 的 providers 自定义参数所遇到的问题。
- 该 API 目前缺乏对这些自定义参数的支持，导致持续出现 linting 错误。
达克效应（Dunning-Kruger）见解引发幽默：一场围绕 Dunning-Kruger Effect 的热烈讨论展开，用户们幽默地批评了专业知识讨论中的自我评估。
- 对话幽默地将自信与实际能力进行了对比，特别是在涉及盈利项目方面。
寻找日语 LLM：一位用户请求推荐在日语能力上超越 GPT-4o Mini 的 LLMs，寻找高性价比的替代方案。
- 这一需求反映了对在大型模型能力之外、擅长特定语言处理的模型日益增长的需求。

Cohere Discord

新的 Sus-Column-R 模型表现优于竞争对手：Reddit 上的一篇帖子讨论了新的 sus-column-r model 的性能，声称它在 translation、coding 和 mathematics 等任务中优于 GPT-4 和 Claude 3.5。
- “我不明白这怎么可能，”该用户强调道，反映了社区的好奇。
API 响应质量受到关注：成员们报告在使用 curl 进行 API 请求时遇到困扰的 403 Forbidden 错误，暗示这可能源于 invalid API key 或地理位置限制。
- 尽管进行了排障，成员们仍无法解决该问题，并注意到 VPS 和本地请求成功率之间存在差异。
Docker 安装让用户感到困惑：一位用户在 Docker 安装后遇到界面无法运行的问题，询问是否遗漏了任何步骤。
- 作为回应，Nick Frosst 指出问题可能与 backend setup 配置错误有关，但具体细节尚不明确。
Langchain 的多步功能报错：一位用户在 Langchain 的 multistep_tool_use 中遇到错误，收到一条指示无法解析多跳补全（multihop completion）的消息。
- 在寻求帮助时，他们请求提供关于如何正确集成 Cohere 和 Langchain 的文档参考。
Embedding 模型质量差异：一位用户报告在从 embed-english-light-v2.0 切换到 embed-english-light-v3.0 后感到不满，观察到检索质量不升反降，违背了预期。
- 在详细说明其数据集时，他们指出较新的模型并未达到预期的性能提升。

LlamaIndex Discord

事件驱动的 Agent 系统增强了灵活性：以事件驱动的方式构建 Agent 允许构建灵活的循环、多 Agent 系统，并具有复杂的通信模式。查看这个展示其优势的精彩教程视频。
- “这是一个非常棒的教程视频” 强调了事件驱动方法在 Agent 系统中的实用性。
Mixture-of-Agents 克服了大型模型的局限性：Junlin Wang 的一篇新论文揭示了一种将较小 LLM 集成为 Mixture-of-Agents 系统的方法，该系统使用完全异步、事件驱动的工作流，性能超越了最先进的大型模型。
- 实现细节在 Twitter 上进行了讨论。
了解用于 GraphRAG 的属性图 (Property Graphs)：一个重要的视频教程解释了 LlamaIndex 的属性图，它允许每个节点和关系存储结构化的属性字典，从而解锁了各种技术。
- “这种底层抽象解锁了许多酷炫的技术” 突出了属性图的功能性。
为实际应用构建多模态 RAG 流水线：新的 notebook 解释了如何针对复杂的法律、保险和产品文档创建实用的多模态 RAG 流水线，从解析保险理赔开始。
- 详细的分解和实际用例可以在这里找到。
选择用于高效文档检索的 embedding 模型：一位成员讨论了在 Llama 中使用 HuggingFaceEmbedding 模型，并在查询调用前展示了文档加载示例。
- 围绕 embedding 后的文档检索提出了疑问，澄清了实现预期结果的关键顺序步骤。

OpenInterpreter Discord

Open Interpreter 黑客松引发关注：Open Interpreter 正在筹备 9 月 20 日至 23 日在达拉斯举行的“Breaking Barriers”黑客松，奖金总额达 $17,500。
- 该活动鼓励现场参与，但也欢迎远程申请者，社区关于组队的讨论正在持续进行。
MiniCPM-V 2.6 在竞争中脱颖而出：据报道，MiniCPM-V 2.6 模型性能超越了 Gemini 1.5 Pro 和 GPT-4V 等知名竞争对手，引起了用户的兴趣。
- Hugging Face 模型和 GitHub 仓库的链接提供了关于其能力的进一步见解。
社区征求关于 ESP32S3 的见解：一位用户寻求在 ESP32S3 上部署 O1 的帮助，并向其他成员询问现有经验。
- 共享经验的请求旨在增强社区内感兴趣用户的实现策略。
请求 Linux 支持讨论：成员们讨论了建立专门的 #linux-something_or_other 频道的必要性，以便更有效地处理 Linux 特定话题。
- 这一建议获得了积极反馈，并将其链接到了一个旨在解决故障排除问题的现有频道。

LangChain AI Discord

LangChain 在 LLM 特性一致性方面面临挑战：成员们对 LangChain 在所有 LLM 之间提供统一 API 的能力表示困惑，指出它在 OpenAI 上运行良好，但在 Anthropic 上则不然。
- 澄清指出，虽然函数调用（function calls）类似，但由于 LLM 固有的差异，Prompt 修改是必不可少的。
Claude 3.5 遭遇停机：Anthropic 的 Claude 3.5 经历了严重的停机，报告显示内部服务器错误代码 500 导致其功能中断。
- 用户分享了错误消息，强调了 API 问题对运营能力的影响。
加入 1000 美元的 CTF 挑战赛！：这是一个令人兴奋的夺旗赛 (CTF) 挑战，参与者的目标是从一个 AI Agent 中提取密码，奖金为 1000 美元。
- 该竞赛引发了对数据隐私的关注，因为它研究了通过用户反馈表泄露秘密的风险。
Mood2Music 仪表板发布：Mood2Music 仪表板公开展示，它根据用户情绪提供 AI 驱动的歌曲推荐，并链接到 Spotify 和 Apple Music。
- 该工具通过策划与用户情感状态一致的播放列表，旨在解决音乐选择中的决策疲劳。
介绍 CRAB：多模态 Agent 基准测试：CRAB 基准测试框架有助于在包括 Android 和 Ubuntu 在内的各种环境中构建和评估多模态语言模型 Agent。
- 它具有细粒度的评估指标和任务生成能力，旨在提高类人任务的执行力，资源可在 GitHub 和项目网站上获得。

LAION Discord

CC vs LAION 数据集之争：关于 Fondant 25M 数据集是否拥有最大的知识共享/公有领域图像集合的争论升温，触及了 LAION-5B 因依赖通常不相关的 Alt Text 而产生的可靠性问题。
- 参与者强调，在对图像描述（captioning）敏感的任务中，LAION-5B 可能会带来更大的准确性风险。
Gemma 模型转向（Steering）咨询：出现了一个关于使用 Gemma Scope 引导 Gemma 2 2B 的咨询，重点是为输出生成创建有效的控制向量。
- 除了基础的 Google 搜索结果外，显然还需要更全面的见解，以提升对模型特性的理解。
描述（Captions）的可靠性受到质疑：讨论集中在大规模抓取的描述的不可靠性上，有声音表示担心所有描述可能都缺乏精确的准确性。
- 有人提出疑问，采用 CLIP 相似度分数是否能增强对新描述是否比原始描述更不可靠的评估。
Halva Assistant 见解：分享了一个关于 Halva Assistant 的链接，该助手旨在减轻语言和视觉任务中的幻觉（hallucinations）。
- 这一创新对于未来的 AI 发展可能至关重要，特别是在提高多模态系统的可靠性方面。

Interconnects (Nathan Lambert) Discord

红杉资本关注 AI 推理初创公司：红杉资本（Sequoia Capital）讨论了为一家由 Robinhood CEO 共同创立的 AI 推理初创公司提供资金，旨在增强 AI 在推理和决策方面的能力。更多详情请参阅 The Information。
- 该初创公司专注于推进 AI 在逻辑语境下的交互方式，这是未来 AI 发展的关键领域。
Anaconda 的新商业许可政策：研究和学术机构现在被要求为 Anaconda 的软件付费，因为该公司正在寻求其服务条款的合规性。报告显示，由于未经授权的使用，一些机构正面临商业许可的法律要求。
- 成员们还提出了关于在 Docker 容器中使用 Anaconda 是否需要额外许可的问题，暗示这很可能需要。
uv 作为快速的 pip 替代方案出现：uv 正在被讨论作为安装包时比 pip 更快的替代方案，用户注意到其速度有显著提升。该替代方案不需要额外的工具，只需在安装时将 pip 替换为 uv pip 即可。
- 使用 uv 可以简化许多人的开发流程，特别是在需要快速包管理的场景中。
通过幽默改善讨论氛围：关于讨论中糟糕观点的幽默评论建议，如果只有那些持有糟糕观点的人参与对话，世界将会受益。“如果每个持有糟糕观点的人都只发表糟糕观点，世界会变得好得多”反映了一种普遍的情绪。
- 这一声明强调了在社区对话中进行更具建设性参与的愿望，呼吁更高质量的讨论。

DSPy Discord

通过 YouTube 教程掌握 DSPy：一位成员分享了一个关于 DSPy 的 YouTube 教程，详细介绍了从基础到高级的 8 个示例 LLM 项目，旨在增强用户的理解。
- 这种结构化的方法让观众能够有效地掌握 DSPy 的核心概念，并将其应用到自己的项目中。
实验 OpenAI 的结构化输出 API：一位成员宣布他们正在实验 OpenAI 新推出的结构化输出 API，以增强项目中的数据交互。
- 该 API 旨在改进结构化数据输出的利用方式，引发了对更广泛实现的兴趣。
使用自定义 GPT 提升 DSPy 提示词：成员们讨论了如何改进交织指令和示例的复杂提示词，重点关注 Signature 适配器和 MIPRO 优化。
- 建议的起点是一个自定义 GPT 指南，用于更好地实现提示词的模块化。
探索 DSPy 在 RAG 中的用例：一位成员寻求关于 DSPy 是否适合 RAG 任务的见解，并将其与微调过程进行了类比。
- 另一位成员澄清说，成功的应用取决于对任务、指标和示例的优化，以提升 LLM 的性能。
Signature 适配器展现出 DSPy 的潜力：讨论围绕在自定义 DSPy 提示词中使用 Signature 适配器的潜在好处展开。
- 分享了一个关于该主题的进一步阅读链接：Signature GPT 资源。

MLOps @Chipro Discord

Poe 举办生成式 UI 黑客松：Poe 正在举办为期一天的黑客松，旨在利用 GPT-4o 和 Gemini 1.5 Pro 等先进 LLM 开发生成式 UI 体验，线下活动地点在 加州希尔斯伯勒 94010。
- 只有注册参与者才会收到独家详情，强调了此次活动的竞争优势。
AI-Health 倡议实习开放：Alliance AI-Health 研究倡议正在寻找学生参加为期 4 个月的远程实习，以推进癌症检测和基于 AI 的中暑检测等领域的研究。
- 申请截止日期为 8 月 11 日，实习生有机会在学术期刊上发表研究成果，点击此处申请。
计算机视觉中的特征存储受到关注：一位成员对计算机视觉中 Feature Stores（特征存储）的有效性和价值提出了疑问，引发了关于它们在项目管理中作用的讨论。
- 讨论强调了对真实世界实现的需求，因为示例可以证实 Feature Stores 在各种框架中的影响。

Modular (Mojo 🔥) Discord

Modular 的许可证引发疑问：一位成员指出，Modular 针对 max/mojo 的许可证是宽松的，除非有意将 AI 基础设施平台商业化。
- 成员们对 Modular 如果进军机器人技术或 AI 标注平台可能产生的影响表示担忧。
未来竞争力的不确定性：社区讨论了根据 Modular 的协议，目前被归类为非竞争性的软件在未来可能会变成竞争性软件。
- 疑问在于，这类竞争性软件的开发在转型后是否必须“冻结”。
Triton 语言用户外联：官方发起了一项号召，邀请编写过自定义 Kernel 的 Triton lang 用户与产品团队进行一对一交流，并提供 Mojo swag 作为奖励。
- 该计划旨在收集用户见解以改进产品功能。
对 Triton 语言的好奇：一位成员表示这是他们第一次听说 Triton，这表明人们对新兴编程语言的兴趣日益浓厚。
- 这暗示了更广泛的社区参与高级编程技术的潜力。

OpenAccess AI Collective (axolotl) Discord

Google Gemini 降价幅度惊人：标题为“Google Gemini Insane Price Cuts!!!”的 YouTube 视频强调了 Google Gemini 1.5 Flash 的大幅降价。
- 有关这些变化的详细信息也在 Google Blog 中进行了分享。
关于 Gemini 与 GPT-4o 比较的困惑：讨论围绕着是应该将 Gemini 1.5 Flash 与 GPT-4o 进行比较，还是应该与 Gemini 1.5 Pro 进行区分。
- 成员们辩论了将标准版和 Mini 版的比较分开处理的价值。
Gemini 1.5 的免费微调功能备受关注：有讨论认为 Gemini 1.5 的免费 Finetuning 特性影响了其与 Pro 版本的比较。
- 这一区别已成为关于 Gemini 模型能力讨论的焦点。
咨询 Llama CPP 提示词缓存（Prompt Caching）：一位成员寻求帮助，询问在使用 Llama CPP server 时应使用哪些参数来缓存提示词，目标是仅缓存初始提示词。
- 他们澄清说，希望缓存第一个用户提示词（约 1.5k tokens），同时让 Llama CPP 管理其他内容。
询问 Llama 3 训练细节：一位成员询问有关 Meta 的 Llama 3 模型训练过程的文档，特别是关于所使用的数据和 Mask。
- 他们注意到了重命名现有 tokens 以作为 Llama 3 模型中特殊 tokens 的方法。

tinygrad (George Hotz) Discord

AMD 后端可能使用更多内存：一位成员担心 AMD backend 是否比 GPU backend 消耗更多内存，从而引发了关于资源分配和性能的讨论。
- 这突显了社区在针对各种后端优化内存管理方面的持续考量。
剧烈计算中报告 GPU 故障：一位成员分享了他们的 GPU 损坏的坏消息，简单地说道：“Rip my GPU got blown.”
- 这一事件引发了对高负载任务期间 GPU 可靠性的担忧。
为了简化而对模型进行去分片（De-sharding）：一位用户询问如何通过对模型进行去分片将 multi lazy buffer 转换为 normal lazy buffer，表明了简化流程的需求。
- 这指向了社区内模型优化和架构适配中普遍存在的挑战。
澄清 copy_to_device 函数用法：关于 copy_to_device 函数的讨论出现，暗示了它在模型操作期间数据处理中的重要性。
- 这强化了用户在工作流中对有效内存管理实践进行明确指导的需求。

Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

DiscoResearch Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

第 2 部分：各频道详细摘要与链接

完整的逐频道细分内容已针对邮件进行了截断。

如果您想查看完整的细分内容，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！预先感谢！

今天没什么事。