AGI 现实主义或许正是人类所需要的

2024年6月4日至6月5日的 AI 新闻！我们为您检查了 7 个 subreddits、384 个 Twitter 账号和 29 个 Discord（401 个频道和 3628 条消息）。预计节省阅读时间（按 200wpm 计算）：404 分钟。

OpenAI 仍表示 ChatGPT 的语音模式“即将推出”

Leopold Aschenbrenner 发布了献给 Ilya 的 AGI 时间线五部曲系列文章，并配合 Dwarkesh 播客，预测按目前的进展速度将出现万亿美元级别的集群
Tom Yeh 手绘插解 llm.c
Will Brown 发布了一份全面的 GenAI 手册
Cohere 以 50 亿美元估值完成了 4.5 亿美元融资，但尚未正式宣布。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成（四次运行中的最佳结果）。我们正在尝试使用 Haiku 进行聚类和流程工程。

AI 模型与架构

新模型与架构：@arankomatsuzaki 分享了一篇关于 LLM 中不确定性量化的 DeepMind 论文。@hardmaru 重点介绍了 xLSTM，这是 LSTM 的一种扩展，在性能和扩展性方面优于 Transformers 和 State Space Models。@omarsar0 讨论了一项关于 LLM 中概念几何结构的研究，发现简单的分类概念被表示为单纯形（simplices），而层级相关的概念则是正交的。
效率提升：@omarsar0 分享了一篇论文，提出了一种从 LLM 中消除矩阵乘法操作的实现方案，同时在十亿参数规模下保持性能，可能将内存消耗降低 10 倍以上。@rohanpaul_ai 讨论了一篇关于大模型参数高效微调（PEFT）方法的综述，将其分为加性、选择性、重参数化和混合方法。
对齐与安全：@RichardMCNgo 概述了一个场景，描述了构建对齐失当的 AGI 如何导致人类失去控制，AGI 会利用对实验室服务器的特权访问权限。@omarsar0 分享了 LLM 自动对齐方法的概述，探索了通过归纳偏置（inductive bias）、行为模仿、模型反馈和环境反馈进行对齐的方向。

工具与框架

LangChain 和 LangGraph：@hwchase17 推出了一个新的 DeepLearning.AI 课程，关于使用 LangGraph 构建 AI Agent，LangGraph 是 LangChain 的一个扩展，用于开发具有持久化和 Agentic Search 能力的可控 Agent。@llama_index 展示了在尝试回答来自异构文档的多部分问题时，LlamaIndex Agent 中更长的上下文窗口（Context Window）如何带来更好的性能。
Hugging Face 和 NVIDIA 集成：@ClementDelangue 指出 Hugging Face 正在成为 AI 计算的入口，现在可以直接从 Hugging Face Hub 为 Llama3 模型访问 NVIDIA NIM。@rohanpaul_ai 讨论了 Optimum-NVIDIA，这是一个 Hugging Face 推理库，利用 NVIDIA 的 FP8 格式和 TensorRT-LLM 软件来实现更快的 LLM 推理。
Mistral AI 和微调：@sophiamyang 宣布发布 Mistral 的微调 API，允许用户微调自己的 Mistral 模型并在 La Plateforme 上高效部署。@HamelHusain 分享了该 API 的现场演示，详细介绍了数据准备、超参数选择和集成过程。

数据集与基准测试

合成数据生成：@_philschmid 概述了为微调自定义 Embedding 模型生成合成数据的流水线，包括创建知识库、数据分块、使用 LLM 生成问题、可选地生成 Hard Negative 示例、去重和过滤数据对，以及使用 Sentence Transformers 3.0 微调 Embedding 模型。
评估指标：@abacaj 构建了一个用于分析恶意 Solidity 合约代码的基准测试，发现只有像 GPT-4o 和 Claude-Opus 这样的顶级闭源模型偶尔能识别出恶意代码，而开源模型失败率超过 95%。@mervenoyann 指出 MMUPD（一个视频分析中多模态 LLM 的综合评估基准）现在已作为排行榜托管在 Hugging Face Hub 上。
特定领域数据集：@arohan 强调了 Google 的 Gemini 1.5 模型在 Video-MME 基准测试的许多子任务中表现优于私有模型，该基准用于评估视频分析中的多模态 LLM。@rohanpaul_ai 分享了一篇比较 Gemini 1.5 Flash 和 GPT-4o 在 Video-MME 基准测试上表现的论文。

应用与用例

企业级 AI 和 RAG：@llama_index 分享了一个关于使用 Bedrock 和 Ragas.io 构建企业级 RAG（检索增强生成）的完整视频教程，涵盖了合成数据集生成、基于 Critic 的评估和微调。@RazRazcle 采访了 Ironclad 的联合创始人 @gogwilt，讨论了他们如何成功地将 AI 用于合同谈判，顶级客户超过 50% 的合同由 Ironclad AI 谈判完成。
AI 助手与 Agent：@svpino 构建了一个能够倾听并使用网络摄像头观察世界的 AI 助手，并在视频教程中解释了该过程。@bindureddy 预测 AI 助手将变得必不可少，人们对它们的依赖将呈指数级增长。
创意 AI 与多模态模型：@suno_ai_ 宣布了一项竞赛，使用其 VOL-5 模型从任何声音中创作歌曲，获胜者将获得早期访问权限，其中一位获胜者的视频将在社交媒体上分享。@ClementDelangue 展示了一个 AI 驱动的工具，用于让视频游戏中的非玩家角色（NPC）变得可玩，这是 @cubzh_、@GigaxGames 和 @huggingface 的合作成果。

讨论与观点

AI Timelines and Risks: @leopoldasch 认为，基于从 GPT-2 到 GPT-4 的进展以及在 compute、算法效率和模型能力方面的预测趋势，2027 年实现 AGI 具有惊人的可能性。@_sholtodouglas 将 Leopold 的文章描述为捕捉了 AI 领域关键参与者的世界观，并预测如果时间线得以维持，未来几年将会非常疯狂。
Compute and Scaling: @ylecun 提出了 objective-driven AI 的概念，即智能系统需要具备推理、规划以及根据其内部世界模型满足 guardrails 的能力，而关键挑战在于设计合适的 guardrails。@ethanCaballero 指出，随着 能源和电力成为扩展至 AGI 的新瓶颈 变得清晰，某些股票可能会在未来几年飙升。
Open Source and Democratization: @ylecun 分享了一篇文章，讨论了 开源 AI 与少数大公司控制的专有 AI 的利弊，认为那些最担心 AI 安全的人往往高估了 AI 的力量。@far__el 预测 Meta 和其他公司将不会开源强大的 AI，我们正走向“AGI 君主制”。

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取现在可以运行了，但仍有很大改进空间！

以下是近期 AI 进展的摘要，按主题分类，关键细节已加粗并链接至相关来源：

AI 模型发布与能力

潜在的 GPT-5 发布：The Information 报道称 GPT-5 可能会在 2024 年 12 月发布，这表明 OpenAI 的语言模型能力将有重大提升。
先进 AI 模型：Microsoft CTO Kevin Scott 声称 即将推出的 AI 模型可以通过博士资格考试，表明在记忆和推理能力方面有显著改进。
角色语音生成：一段 YouTube 视频展示了 GPT-4o 生成角色语音的能力，展示了该模型在语音合成方面的多功能性。
机器人化的未来：Nvidia 承诺随着 AI 变得更加先进，“一切都将变得机器人化”，暗示 AI 在各个领域的集成度将不断提高。
职场中的 AI 克隆：Zoom 的 CEO 预测 AI 克隆最终将处理人们的大部分工作，这可能会改变工作的本质。

AI 停机与担忧

AI 服务同时停机：主要的 AI 服务 ChatGPT、Claude 和 Perplexity 经历了同时停机，引发了对这些服务可靠性和影响的担忧。
ChatGPT 长时间停机：ChatGPT 停机约 12 小时，给依赖该服务的用户带来了问题，并凸显了对稳健基础设施的需求。
吹哨人与安全担忧：现任和前任 OpenAI 员工以及其他 AI 研究人员愿意向公众披露有关 AI 风险和安全问题的机密信息。一名 OpenAI 安全研究员辞职并签署了一封信，呼吁 AI 实验室支持员工就这些问题公开发声。
网络安全漏洞：Leopold Aschenbrenner 在警告董事会关于中国可能利用的网络安全漏洞后被 OpenAI 解雇，这引发了对公司内部安全问题处理方式的质疑。
AI 霸权竞赛：OpenAI 内部人士在《纽约时报》的一篇文章中警告称，存在一场“鲁莽”的 AI 霸权竞赛，强调了与 AI 技术快速发展相关的潜在风险。

AI 投资与合作伙伴关系

埃隆·马斯克的芯片分配：埃隆·马斯克指示 Nvidia 优先向 X 和 xAI 交付处理器，而非 Tesla，这表明他旗下公司的重点正转向 AI 开发。
阿联酋-美国 AI 合作伙伴关系：阿联酋正在 AI 领域与美国合作，利用其 2 万亿美元的主权财富基金成为全球 AI 强国，突显了该领域日益激烈的国际竞争。
OpenAI-Google 合作：Ilya Sutskever 和 Jeff Dean 于 2024 年 5 月 30 日共同发布了一项美国专利，暗示了 OpenAI 和 Google 在 AI 研发方面可能存在的合作。

AI 模型与基准测试

SDXL 模型参数：SDXL 模型的 UNET 具有 2.6B 参数，包含文本编码器在内共有 3.5B 参数，包含 Refiner 的完整流水线则有 6.6B 参数，这提供了对该模型架构和复杂性的深入了解。
Yi-1.5-34B 模型性能：Yi-1.5-34B 模型是 LMSYS 排行榜上排名最高的 ~30B 模型和 Apache 2.0 协议模型，展示了其与同等规模和许可类型的其他模型相比的强劲性能。
L3-MS-Astoria-70b 模型排名：L3-MS-Astoria-70b 模型成为 Uncensored General Intelligence Leaderboard 上的顶级模型，展示了其在通用智能任务中的能力。
GPT-4o 易用性：尽管 GPT-4o 在 MMLU 和 LMSYS 基准测试中排名很高，但一些用户发现与其他模型相比，它更难进行 Prompt 提示和遵循指令，这突显了用户体验和模型易用性的重要性。

AI Discord 摘要回顾

摘要之摘要的摘要

1. 微调技术与模型集成:

成员们讨论了使用 Deepspeed zero2 和 Qlora 等工具进行 finetuning models 的重要性，重点介绍了 Llama3 的成功集成以及磁盘卸载（disk offloading）等内存管理策略 (Unsloth AI)。
Mistral Fine-Tuning Hackathon 引发了热烈反响，鼓励参与者探索 Mistral 的新功能，详见 Mistral tutorial 和相应的 YouTube demos (LLM Finetuning (Hamel + Dan))。

2. 模型训练与优化中的问题:

成员们对模型训练过程中的 OOM (Out of Memory) 错误表示沮丧，并寻求高效 VRAM 管理技术和验证 YAML 配置等解决方案 (OpenAccess AI Collective)。
针对 Jarvis Labs 中的 CUDA library mismatches 以及 LM Studio 中的 GGUF compatibility 等问题分享了排错建议 (HuggingFace 和 LM Studio)。

3. AI 领域的新工具与资源:

Stability AI 发布了 Stable Audio Open，用于生成短音频片段，强调使用自定义数据进行本地微调 (Stable Diffusion)。
分享了多种有价值的资源，例如 William Brown 编写的全面 LLM 资源指南以及用于高性能 LLM 的 FineWeb 技术报告 (HuggingFace)。

4. 社区关注点与协作项目:

关于 credit distribution and server performance 的担忧被广泛讨论，许多成员报告了在接收额度时遇到问题或面临 502 Gateway errors (LLM Finetuning (Hamel + Dan) 和 OpenRouter)。
在学习和实现新 AI 功能方面的协作努力包括对 Flash-attn GPU 兼容性的讨论，以及使用 Verba 等工具进行 RAG chatbot integration (Nous Research AI 和 LangChain)。

5. AI 安全与伦理讨论:

在 Hugging Face breach 导致私有令牌泄露后，引发了安全担忧，进而讨论了互联网数据的可靠性 (HuggingFace)。
辩论了 AGI development incentives 的伦理问题以及确保模型公平使用的问题，强调了 LLM 架构中对齐 AI 行为和适当奖励模型的重要性 (Interconnects 和 Latent Space)。

第一部分：高层级 Discord 摘要

LLM Finetuning (Hamel + Dan) Discord

模型与研讨会热潮：工程师们积极讨论用于微调的最佳 code models，许多人提到缺乏表现突出的特定资源或模型。同时，研讨会参与者强烈要求获取幻灯片和链接，并建议通过额度申请表申请 Modal credits 以领取 500 美元的奖励。
跨平台的额度混淆：在各个平台上，用户对 额度发放 表示困惑，例如 Modal 额外的 500 美元和 Replicate 的兑换流程。对于 Modal 优惠的协助，Charles 通过电子邮件提供了帮助，而对于 Replicate credits 的问题，用户被引导发送包含详细信息的邮件以寻求支持。
策划微调资源：一份详尽的 LLM fine-tuning explainers 列表受到关注，可通过此 LLM 指南获取。此外，Mistral Fine-Tuning Hackathon 备受期待，其开发与 API 发布同步进行，这表明人们对探索 Mistral 的功能和资源（如微调教程和 YouTube 演示）有着浓厚兴趣。
磨练微调技术：社区分享了关于 Mistral fine-tuning 的知识并寻求建议，包括关于垂直整合、API 优势和内存管理的讨论。此外，Predibase 用户赞扬了其重用基础模型的方法，并提出了改进微调过程的建议，例如增加对更多 epochs 的访问权限和 UI 数据过滤演示。
技术栈故障排除：通过协作解决了设置不同技术时的各种挑战，例如 Axolotl、Jarvis Labs 的 CUDA 版本不匹配以及调试 LangChain notebooks。解决方案涵盖了从使用 Docker 简化 Axolotl 使用，到更新 CUDA 库，以及建议配置环境变量以实现无缝的 Langsmith 集成。

Unsloth AI (Daniel Han) Discord

在 Unsloth AI 上进行更快、更精简的预训练：Unsloth AI 引入了持续预训练 (continually pretrain) LLM 的功能，其速度是之前 HF+FA2 的两倍，且仅需一半的 VRAM，详情见其博客。
Unsloth 尚不支持 Medusa：工程师们根据提供的 GitHub 链接确认，Unsloth 不支持使用 Medusa 进行微调，但它提供了改进的 Unsloth 更新，如 lm_head/embed_tokens 的磁盘卸载 (disk offloading) 和自动分词器 (tokenizer) 修复。
讨论中的 VRAM 管理技术：分享了管理 VRAM 的技术，包括使用余弦学习率 (cosine learning rates) 和选择性卸载，并指出了 H100 GPU 的优化潜力以及通过 del 命令释放内存以运行多个模型的策略。
多节点实现的挑战：虽然 多 GPU 支持 已启用，但多节点 (multinodal) 支持的实现预计会稍有延迟，这对于 70B 微调等项目至关重要。同时，还涉及了微调期间使用 LoRA adapter 等节省 VRAM 的替代方案。
为侧边项目寻找开源 TTS 模型：一名成员为 waifu 伴侣应用/RPG 寻求“优秀的开源 TTS 模型”，得到了 “xttsv2 -rvc pipeline” 的推荐，展示了工程师之间在开源资源方面的积极协作。

Perplexity AI Discord

Perplexity AI 遇到障碍：用户报告了 downtime（停机）以及对 Perplexity AI 模型选择的挫败感，评论中提到漫长的等待时间，以及一个奇怪的界面问题：请求生成图像时却收到文字描述而非实际图形。
AI 模型大比拼：辩论对比了 ChatGPT-4o 与 Claude 3，指出 Perplexity 使用内部搜索索引的独特方法，并分享了资源链接，包括演示技巧和 Perplexity 搜索功能概述。
超越 SEO 的搜索：在关于后端流程的讨论中，有人指出 Perplexity AI 的不同之处在于不依赖第三方服务进行爬取和索引，从而获得更高质量、受 SEO 策略操纵较少的搜索结果。
深入探讨停机事件：分享了一篇分析重大停机事件的文章，深入了解 Perplexity AI 面临的技术问题。
通过共享链接扩展知识：用户通过引用关于各种主题的 Perplexity AI 搜索结果来增强讨论，包括关于 dailyfocus、Bitcoin 的文章，并分享了关于必须使帖子可共享的提醒及附带指南。

CUDA MODE Discord

开放办公时间与面试准备：工程师可以参加关于优化 LLM 推理和企业级 ML 的 vLLM 和 Neural Magic 开放办公时间，时间定于 6月5日和 2024年6月20日。对于性能工程师面试准备，GitHub 上的 awesomeMLSys 提供了一份精选的问题和资源列表。
Triton Kernel PTX 访问与 GitHub 讨论：关于从 Triton kernels 中提取 PTX 代码的疑问引导用户找到了一个讨论该流程的有用 GitHub issue。用户将其初始搜索位置修正为 ~/triton/.cache 以获取 PTX 代码。
破解 CUDA Stream 难题：AI 工程师讨论在 CUDA 中使用命名流 (named streams) 以获得更好的性能，并分享了一个将操作主流化的 pull request。修复 PyTorch DDP 损失计算 bug 的努力已通过一个成功的 PR 告一段落。
大模型评估中的 OOM 困扰与量化怪癖：如 GitHub pull request 所示，在使用 torchao APIs 进行大模型评估时，显存溢出 (OOM) 问题困扰着开发者。AI 工程师建议在量化前将模型加载到 CPU 上，并针对大词表大小进行调整。
稀疏矩阵语义与 AI 中的稀疏性：对稀疏矩阵的澄清促使分享了 Wikipedia 定义和 PyTorch README。此外，还传阅了一篇总结了 300 多篇关于深度学习中稀疏性利用的综合性 arXiv 综述论文，以便更好地理解和实现。

HuggingFace Discord

FineWeb 揭示 LLM 性能见解：FineWeb 技术报告详细介绍了处理决策，并推出了 FineWeb-Edu 数据集，旨在增强以教育为中心的内容，并深入理解 Llama3 和 GPT-4 等高性能 LLM。FineWeb 技术报告现已发布。
Firefox 中基于浏览器的 AI 与 Transformers.js：Firefox 130 更新将包含用于设备端 AI 的 Transformers.js，初始功能针对图像自动生成替代文本（alt-text），以提高无障碍性。详情见此公告。
Nvidia NIM 加速模型部署：Nvidia NIM 在 Hugging Face Inference Endpoints 上线，为云平台上的 Llama 3 8B 和 70B 等模型提供便捷的一键部署。部署参考见此处。
Hugging Face 与 Wikimedia 合作推动 ML 进展：该合作利用 Wikimedia 的数据集进一步推动机器学习发展，强调了社区同意的重要性。该计划详情见此处。
深入探讨 AI 的安全与伦理：Hugging Face 安全漏洞的披露引发了关于基于互联网的数据存储的伦理影响和安全性的讨论，重点在于维持尊重的社区参与。
跨越技术壁垒：基于扩散（diffusion）的语言建模策略的引入借鉴了图像生成模型中使用的原理，提出了处理文本“噪声”的新方法。
用于气候意识投资的 AI 工具：开发了一款用于识别气候关注型投资机会并计算碳足迹的 AI 工具，利用了 climatebert/tcfd_recommendation 等模型，展示了 AI 在可持续金融领域的潜力。在此探索该 AI 工具。
AI 社区的知识共享：各种 AI 相关项目和讨论涵盖了改进的徽标检测、Windows 上的 Apache Airflow 设置、有价值的 LLM 资源以及用于语言模型训练的高级德语语音数据集等主题，丰富了知识库。

LM Studio Discord

LM Studio 模型加载故障排除：用户因 VRAM 不足面临模型加载问题；建议的解决方法是禁用 GPU offloading。一个特定案例强调了加载未保存为 GGUF 文件的 Llama70b 时的问题，建议使用符号链接（sym link）选项或进行文件转换。

讨论强调模型性能与兼容性：Command R 模型在 offload 到 Metal 时表现不佳；对于文本增强，虽然没有推荐特定模型，但可以关注排行榜上的 13B 模型。此外，有报告称 SMAUG 的 BPE tokenizer 在 Llama 3 版本 0.2.24 中存在困难。

关于工作站 GPU 和操作系统的闲聊：ASRock Radeon RX 7900 XTX & 7900 XT 工作站 GPU 引起了关注，特别是其面向 AI 装置的设计。关于 Linux 的易用性评价褒贬不一，并讨论了因 Windows 的 Recall 功能引发隐私担忧而转向 Linux 的话题。

LM Studio Bug 反馈：指出了 LM Studio v0.2.24 中的一个 bug，涉及预设配置中多余的转义字符，例如 "input_suffix": "\\n\\nAssistant: "。

隐私与安全：Windows 的 Recall 功能可能通过收集敏感数据产生安全漏洞，引发了隐私担忧。在轻松的话题中，关于 IT 支持挑战的轶事——包括一台沾染了猫尿气味的电脑——为技术支持的苦恼讨论带来了幽默感。

OpenAI Discord

黑客猛烈攻击 AI 服务：由于 Anonymous Sudan 发起的 DDoS 攻击，ChatGPT, Claude, Gemini, Perplexity 和 Copilot 服务经历了停机。这一事件揭示了超出典型云服务器预期的脆弱性。
比较 AI 订阅：AI 工程师们讨论了 AI 订阅的实用性，对比了 GPT 和 Character AI 在书籍摘要和内容创作等任务中的表现。
数学难倒了 AI：工程师们观察到 GPT 等 AI 语言模型在处理数学问题时持续表现出弱点，突显了计算中的不准确性和逻辑疏忽。
AI 变得个性化且实用：讨论展示了 AI 的现实世界集成，例如将 ChatGPT 与家庭自动化系统对接，强调了在实际场景中的优势和局限性。
在 Google Sheets 中使用 GPT-4 Vision：有人提出了关于实现 GPT-4 vision 来分析和描述 Google Sheets 中图像的问题，表明了将 AI 效用扩展到电子表格任务中的兴趣。

Stability.ai (Stable Diffusion) Discord

Stable Audio Open 惊艳亮相：Stability.ai 推出了 Stable Audio Open，这是一个开源模型，用于根据文本提示生成短音频片段，包括音效和制作元素。该模型支持生成长达 47 秒的音频剪辑，强调为声音设计师和音乐家提供创新，并支持本地 fine-tuning；更多详情请点击此处。
WebUI 的奇迹：Stable Diffusion 的无限可能：社区成员对 Stable Diffusion 的 A1111 和 InvokeAI WebUI 进行了热烈对比，认可了 A1111 的易用性以及 InvokeAI 独特的 “regional prompting” 功能，后者可以在 GitHub 上探索。
聚焦训练微调：有人寻求关于使用 regularization images 的技术澄清，成员们讨论了这些图像是否可以在训练过程中取代 captions。同时，对 Stable Audio Tools 及其用途（包括可能的 Google Colab 使用和商业许可）表现出明显的兴趣，并引用了其 GitHub 仓库。
UI 灵活性之最：ComfyUI 因其在图像生成任务中的适应性而被推荐，尽管学习曲线较陡峭，正如一位成员所言：”你可以先用 cascade 或 sigma 生成，然后用 sdxl 进行精炼…“。
新手入门指南：新用户被引导至丰富的社区策划资源（如教程）来学习 Stable Diffusion，包括 Sebastian Kamph 在 YouTube 上关于 A1111 入门的综合指南。

Eleuther Discord

AI 发现其审美感：围绕利用 AI 控制显示墙上的图案和颜色展开了讨论，这可能导致个性化艺术或品牌装饰的出现。有人提出了这是否会演变为一种 AI 驱动的室内设计形式。
重新审视 RLCD 的热度：对 RLCD 技术的营销进行了审查，引发了关于其核心创新方面的对话，并与 Samsung 的 QD-OLED 显示屏进行了对比。对于新模型是否显著超越现有的 transflective 屏幕技术，怀疑态度依然存在。
AGI 发展指日可待：对 AGI 的投资日益增长成为关注焦点，引用了一篇预测 2025/26 年 AGI 能力将取得实质性进展的博客，引发了关于领先实验室与更广泛行业影响之间差距扩大的对话。
平衡 IQ 与自主性 (Agency)：辩论了开源社区招聘中 IQ 测试的价值，并将其与“高自主性 (high agency)”特质进行了对比。讨论强调了后者在促成成功方面的优越性，因为它与主动性、模式识别和长期愿景密切相关。
剖析深度学习的局限性：分享的文献深入探讨了深度学习在复杂推理方面的困境，无论是 Transformers 还是 SSMs。社区消化了关于将“chain-of-thought”策略扩散到模型中的论文，以及旨在增强 RLHF 鲁棒性的 SRPO 等方法。
开源实现激发热情：NVIDIA 在 Megatron-LM 中公开披露了 RETRO 模型，引发了关于 AI 研究民主化以及尖端模型更广泛可访问性的讨论。
Lm-evaluation-harness 故障排除：一位用户在从 lm-evaluation-harness 获取所需输出时遇到困难，大家达成共识，认为结果可能隐藏在 tmp 文件夹中。社区渴望获得关于为 LLaMA 3 8B instruct 模型实现 loglikelihood 指标的指导。

Nous Research AI Discord

GLM-4 打破语言障碍：GLM-4 的推出带来了对 26 种语言的支持，其能力扩展到代码执行和长文本推理。开源社区可以在 GitHub 上找到该仓库并为其开发做出贡献。
探索 Nomic-Embed-Vision 的优越性：社区正在讨论 Nomic-Embed-Vision 的进展，它在为图像和文本创建统一 embedding 空间方面优于 OpenAI CLIP 等模型。对于感兴趣的人，权重和代码均可用于实验。
对比学习损失函数见解分享：最近发表的一篇论文介绍了一种名为 Decoupled Hyperspherical Energy Loss (DHEL) 的新型对比学习目标，以及一个比较不同 InfoNCE 类型损失的相关 GitHub 仓库。这些资源可能会极大地惠及深度学习社区的研究人员。
关于 Microsoft 挪用创意的讨论：有关 Microsoft 涉嫌在未署名的情况下挪用创意的担忧浮出水面，一篇相关的 arXiv 论文成为讨论非故意开源概念的切入点。
AI 模型与数据集的测试与利用：关于在 NVIDIA NIM 上测试 Phi-3 Vision 128k-Instruct 模型，以及利用 Openbmb 的 RLAIF-V-Dataset 构建应用程序的讨论正在进行中。鼓励成员参与并提供有关模型性能和数据集效用的反馈。

LlamaIndex Discord

GraphRAG 构建方案讨论：成员们就构建 GraphRAG 是通过手动定义图以获得完全控制，还是使用 LLM 实现自动化进行了辩论；每种方法都会影响工作量和数据映射的有效性。此外，还举办了一场企业级 RAG workshop，探索了 Bedrock 模型和 Agentic 设计模式，同时 Prometheus-2 因其开源特性，成为评估 RAG 应用时替代 GPT-4 的一个选择。
元数据提取创新：引入了全新的 Metadata Extractor 模块和教程，旨在帮助理清长文本段落。关于在 Chroma Database 中存储 DocumentSummaryIndex 的疑问得到了明确答复：Chroma 无法在此场景下使用。
检索与索引的实用解决方案：通过合并相关的 pull request，解决了一个关于 Neo4j 集成查询引擎的持久性 Bug，并分享了针对电子商务应用微调 “intfloat/multilingual-e5-large” Embedding 模型的方法。事实证明，单个 QueryEngineTool 能够高效管理多个 PDF，消除了对其累积操作性的担忧。
解决查询精度问题：针对用户在 vectorstore 顶部响应中遇到无关材料的问题，建议通过分数（score）过滤结果，以确保检索结果具有更高的相关性和精度。

LAION Discord

ChatGPT 4 展现表演天赋：OpenAI 的 ChatGPT 4 引入了令人印象深刻的全新语音生成功能，如分享的视频所示，其创造独特角色声音的能力引起了热烈反响。

DALLE3 表现下滑：用户对 DALLE3 输出质量的明显下降表示担忧，无论是传统用法还是 API 集成都令人失望。

辩论 AI 变现的伦理：最近的讨论显示出社区对 AI 模型非商业许可的明显不满，批评了以经济利益为中心的动机以及训练 T5 等模型所需的大量资源。

LLM 失去逻辑：Open-Sci 团队的一篇新论文揭露了大语言模型表现出的推理能力“剧烈崩溃”，可在此处查看评论，并附有代码库和项目主页。

WebSocket 异常：whisperfusion pipeline 中 WhisperSpeech 服务的 WebSockets 问题引发了 StackOverflow 上的详细咨询，希望能解决意外关闭的问题。

Modular (Mojo 🔥) Discord

Rust 兴起，Mojo 剑指新高度：一位成员称赞了一个 YouTube 教程，该教程强调了 Rust 通过 FFI 封装在系统开发中的安全性，证明了工程社区对安全高效系统编程的兴趣。

Python 开发者的转型建议：YouTube 上的一份 Python 到 Mojo 迁移指南受到好评，它汇编了对于转向 Mojo 的非计算机专业工程师非常有益的基础底层计算机科学知识。

Mojo 的枚举替代方案：虽然 Mojo 目前缺乏 Enum 类型，但讨论转向了其对 Variants 的适配，并提及了正在进行的 GitHub discussion，供关注后续进展的人参考。

Nightly 更新引发关注：发布了新版本的 Mojo 编译器（2024.6.512），并提供了在 VSCode 中管理版本的建议。同时，针对 Coroutine.__await__ 变为 consuming 等变化的挑战也得到了处理，详见 changelog。

加密库需求迫切：结合安全与编程领域，一位用户强调了在 Mojo 中建立加密库（cryptography library）的紧迫性，认为该功能将会非常“火爆”，并强调了在语言能力中构建健壮性的必要性。

Interconnects (Nathan Lambert) Discord

投资者全力投入机器人 AI：投资者正在寻找机器人 AI 领域的 ChatGPT 等价物。根据一篇 Substack 文章，他们渴望支持那些拥有强大机器人 Foundation Models 且无需承担硬件设计风险的公司。
国家安全与 AI 商业秘密：科技界就因泄密而解雇个人的事件展开了辩论，重点关注 AI 国家安全中商业秘密被低估的作用。人们担心 OpenAI 和 Anthropic 等实验室对于在 3 到 5 年内实现研究员级 AI 过于自信，一些人认为这源于激励机制错位和错误的推断。
迈向能通过博士考试的 AI？：Microsoft CTO Kevin Scott 预测，即将推出的 AI 模型可能很快就能通过博士资格考试。他将目前的 GPT-4 等模型比作能应对高中 AP 考试的水平。博士考试的难度（尤其是伯克利大学初试中观察到的 75% 淘汰率）也是讨论的话题，展示了此类 AI 模型将面临的挑战。
为解决问题付费：rewardbench.py 中的一个未解决问题导致不同 Batch Size 下的结果出现偏差；Nathan Lambert 为该问题的解决提供了 25 美元的悬赏。此外，AutoModelForSequenceClassification 被称为“有点被诅咒”，暗示通过调整可能实现改进。
AGI 讨论引发复杂反应：对话显示，社区在对过度乐观的 AGI 爱好者和散布阴霾的 Doomers 的厌烦程度上持平。

Cohere Discord

Cohere 的 API 会保持免费吗？：成员们纷纷猜测 Cohere 的免费 API 可能会停止服务，敦促他人寻求官方确认，不要理会未经证实的传言。

规范多用户机器人聊天：工程师们讨论了在多用户聊天线程中引入 LLM 的挑战，建议给消息打上用户名标签以提高清晰度。

寻找终极聊天组件：一位社区成员询问是否有基于 React 的聊天组件；他们被引导至 Cohere Toolkit，该工具虽然不是完全基于 React 构建，但可能包含用 React 编写的聊天框等元素。

React 组件与 Cohere 的协同：虽然 Cohere Toolkit 缺乏 React 组件，但该开源工具被定位为实现 RAG 应用的有用资源，可能与 React 实现兼容。

OpenAccess AI Collective (axolotl) Discord

内存溢出排查：用户报告在 2xT4 16GB GPU 上运行目标模块时出现 Out of Memory (OOM) 错误，同时伴有异常的 loss:0.0 读数，这可能表明参数配置或资源分配存在严重问题。

饥渴模型的数据盛宴：HuggingFace FineWeb 数据集是一个源自 CommonCrawl、拥有 15 万亿 Token 的庞大集合，因其有望降低训练大模型的门槛而引起轰动，尽管人们对其充分利用所需的计算和财务资源表示担忧。

Deepspeed 主导模型训练讨论：工程讨论显示，人们更倾向于使用命令行运行 Deepspeed 任务，包括使用 Deepspeed zero2 成功微调 Llama3 模型，并在微调中选择了 Qlora 而非 Lora。

寻求快速解决方案：一位成员对 Runpod 缓慢的启动时间表示沮丧，特别是启动一个 140 亿参数的模型需要大约一分钟，影响了成本效益；有人提出了关于具有更快模型加载能力的替代 Serverless 供应商的问题。

模型混杂与困惑：虽然社区对 GLM-4 9B 模型表现出明显的热情，但关于其性能和用例的具体反馈似乎很少，这表明要么是部署尚新，要么是用户经验分享存在缺口。

Latent Space Discord

实时 AI 革命：LiveKit 获得了 2250 万美元的 A 轮融资，旨在开拓 AI 的传输层，并将投资者兴趣的催化剂归功于 GPT-4 的能力。
多模态 AI 备受瞩目：Twelve Labs 获得了 5000 万美元的 A 轮融资，并推出了 Marengo 2.6，旨在完善多模态基础模型。
预测精准度的艺术：Microsoft Research 发布了 Aurora，旨在通过利用 AI 基础模型的进展，大幅提高天气预报的准确性。
AI 对齐透明度受到质疑：Teknium 对 OpenAI 在对齐奖励和审核分类器方面的不透明表示质疑；讨论揭示了奖励模型通常被整合在大型语言模型（LLMs）本身的架构中。
内容管理获得 AI 助力：Storyblok 获得了 8000 万美元的 C 轮融资，以开发 AI 驱动的内容平台，并启动了其新 Ideation Room 的公开测试。
Anthropic 深入研究单语义性（Monosemanticity）：Anthropic 安排了一场关于 Scaling Monosemanticity 的深度演讲，承诺在理解单语义性与模型缩放之间的联系方面取得进展。该活动提供了详细信息和注册方式。

OpenInterpreter Discord

技能持久化带来的问题：讨论显示，尽管用户尝试“告诉 OI 创建一个新技能”，但 OpenInterpreter 仍缺乏跨会话保留技能的能力。为了规避这个问题，建议将脚本保存并存储作为权宜之计。
显微镜下的 RAG：人们对 检索增强生成（RAG） 持怀疑态度，更倾向于使用传统的 Embedding/向量数据库，理由是其可靠性更高，尽管 Token 成本也更高。
数据隐私成为焦点：对 OpenAI 数据隐私的担忧得到了缓解，保证了与 OpenAI API 的通信保持机密，同时建议运行本地模型以获得额外的安全性。
跨模型兼容性查询：关于将 O1 dev preview 与 Anthropic 等其他大型语言模型集成的咨询引发了兼容性问题，特别是对视觉模型的必要性以及在某些操作系统上可能出现的无限循环。
开发者的语音助手：一个 Terminal Voice Assistant 的 GitHub 项目链接引发了人们对 01 是否可以实现类似功能的兴趣，指向了工程师潜在的开发工具。

tinygrad (George Hotz) Discord

Hotz 发起 Tqdm 替代品挑战：George Hotz 出资 200 美元 征集极简的 tqdm 替代品，引发了一阵活跃，Trirac 提交了一个 PR，尽管备注提到其在高速下的 it/s 速率并非最优。
Tinygrad 统计数据缺失之谜：Hotz 询问为何 stats.tinygrad.org 网站目前显示 404 错误，引发了关于该网站访问性的讨论。
邀请改进 Tinygrad 文档：宣布了 Tinygrad 文档的更新，包括关于训练的新章节和库结构图，并向社区征集进一步的内容创意（George Hotz）。
Tinygrad：冲刺前的规格制定：Hotz 提供的悬赏旨在起草 Tinygrad 规范，并承诺在最终确定后，可以在大约 两个月 内重新实现，这同时也作为员工筛选过程。
破译 CUDA-to-Python：讨论集中在将 CUDA 调试输出连接到 Python 代码的复杂性上，这是 Tinygrad v1.0 的关键特性，现有的 PR 尚未合并（George Hotz）。

LangChain AI Discord

过时文档引发混乱：LangChain 和 OpenAI 的文档问题引起了成员们的注意，他们指出由于 API 更新导致了显著的差异。有建议指出工程师应直接查看主代码库以获取最新的见解。

数据库之争：MongoDB vs. Chroma DB：当一名工程师考虑使用 MongoDB 进行向量存储时，随后的澄清说明了 MongoDB 的用途是存储 JSON 而非 embeddings，并建议询问者寻求 MongoDB 的帮助或咨询 ChatGPT。

Verba：显微镜下的 RAG：社区对 Verba（一个由 Weaviate 驱动的 RAG 聊天机器人）产生了兴趣，并征求用户的使用体验，这表明了对 Weaviate 检索增强能力的探索。

SQL Agent 让用户感到困惑：SQL Agent 无法提供最终答案的问题浮出水面，引发了关于在厌恶非功能组件的环境中如何排查这种神秘行为的讨论。

基于 LangChain 的图谱知识：一名工程师展示了一个 LangChain 指南，专注于从非结构化文本构建知识图谱，并引发了关于将 LLMGraphTransformer 与 Ollama 模型集成的咨询，这体现了对增强知识合成的不断追求。

VisualAgents 开启拖拽式 LLM 模式：通过 YouTube 视频进行的 VisualAgents 现场演示强调了排列 Agent 流模式所涉及的创作过程，反映了 LLM 链管理向更直观界面发展的趋势。

OpenRouter (Alex Atallah) Discord

Rope Scaling 在 OpenRouter 上遇到障碍：成员们强调了在 OpenRouter 中集成 rope scaling 的问题，建议通过本地部署来规避 GPU 限制。
Codestral 在代码专业化方面落后：有人建议不要将 Codestral 用于代码专业化，并推荐了在 <#1230206720052297888> 中详细介绍的更高效的模型。
识别 502 错误背后的元凶：工程师们解决了 OpenRouter 的 502 Bad Gateway 错误，将问题追溯到 messages 中 content 的格式，而非服务器容量或请求量。
停机期间的杂乱模型混杂：在处理来自 Nous Research、Mistral、Cognitive Computations、Microsoft 和 Meta-Llama 的各种模型时出现了 502 错误，重点在于问题源于消息内容的格式化。
寻求更高代码效率的替代方案：建议寻找高效代码专业化的工程师考虑 Codestral 之外的更多性能导向的替代方案，并提示查看频道中提到的特定模型。

MLOps @Chipro Discord

在日历上标记 AI 安全活动：Human Feedback Foundation 活动定于 6 月 11 日举行；门票可从 Eventbrite 获取。活动重点将涵盖 AI 治理与安全，并通过协作的开源环境进行强化。
从 AI 专家处收集见解：查看 Human Feedback Foundation 的 YouTube 频道，获取来自多伦多大学、斯坦福大学和 OpenAI 的学术界及行业领袖关于将人类反馈集成到 AI 开发中的见解。
LLM 阅读小组 Discord 访问受限：有人请求为 LLM 阅读小组设立独立的 Discord，但由于隐私设置，直接邀请受到阻碍，这意味着对感兴趣的人员需要另行安排访问。

Mozilla AI Discord

矢量技术随 RISC-V 共同进步：RISC-V 矢量处理达到了一个重要的里程碑，1.0 RISC-V Vector Specification 现已获得批准。链接视频深入探讨了早期的芯片实现，表明 CPU 设计中存在充足的创新机会。
AI 的生存威胁受到关注：Right to Warn AI 项目对 AI 技术可能带来的生存威胁发出了警报，提倡需要远超企业治理的监管。它引发了对 AI 相关风险的担忧，如不平等、虚假信息以及潜在的人类灭绝。

DiscoResearch Discord

探索 “Sauerkraut Gemma” 前景：表达了为德语复制 PaliGemma 模型的兴趣，暂定名为 “Sauerkraut Gemma”，思路是直接替换 Gemma 的 base 进行适配。
PaliGemma 模型作为模板：参考 PaliGemma-3B-Chat-v0.2 模型，一位成员提出了在数据集翻译后，“冻结视觉并训练聊天 (freezing the vision and training the chat)” 的策略，用于开发德语对应版本。

LLM Perf Enthusiasts AI Discord

AI 学习枢纽发布：由 William Brown 策划的 GenAI Handbook 被重点推荐，它是 AI 工程师寻求全面理解现代 AI 系统的教科书式指南，格式对用户友好。

AI Stack Devs (Yoko Li) Discord 没有新消息。如果该公会长时间保持沉默，请告知我们，我们将将其移除。

Datasette - LLM (@SimonW) Discord 没有新消息。如果该公会长时间保持沉默，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该公会长时间保持沉默，请告知我们，我们将将其移除。

YAIG (a16z Infra) Discord 没有新消息。如果该公会长时间保持沉默，请告知我们，我们将将其移除。

PART 2: Detailed by-Channel summaries and links

完整的频道细分内容已在邮件中截断。

如果您想查看完整内容，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！提前致谢！

5 条新闻简讯