AI 领域又是一个平静的一天。

2024年8月19日至8月20日的 AI 新闻。我们为您检查了 7 个 subreddit、384 个 Twitter 账号和 29 个 Discord（254 个频道，2227 条消息）。预计节省阅读时间（按 200wpm 计算）：258 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论！

没有重大新闻，只有一些小动态：

OpenAI 正式发布（GA）了 GPT-4o 微调功能，并附带了一个关于 Cosine 的显著案例研究
Anthropic 正式发布了 Claude 3.5 Sonnet 的 8k token 输出功能
Zed 推出了其竞争 Cursor/Cursor Composer 的 AI 功能
Microsoft Phi 团队发布了 Phi-3.5 的三个变体：Mini (3.8B)、MoE (16x3.8B)、Vision (4.2B)，所有模型都具有极高的样本效率（sample efficient）。目前还没有论文或独立评估。

既然今天是平静的一天，您可以通过关注 Box AI 来支持 AINews，他们慷慨赞助了本周的内容！

[由 Box 赞助] 您可能有一个应用程序。它可能有用户。这些用户甚至可能在 Box 中存储文档。但 Box AI 让您的用户可以直接在 Content Preview UI 组件中查询他们的文档！

Swyx 评论：“Chat with PDF”现在只需一个 React 组件和一个 API key 即可实现！请注意，目前仅面向 Box Enterprise Plus 客户开放。

(此前关于 Box AI 的内容：第一周，第二周)

目录和频道摘要已移至此电子邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，从 4 次运行中择优。

AI 模型开发与基准测试

Llama 3.1 405B 发布：Meta 发布了 Llama 3.1 405B，现在可以轻松部署在 Google Cloud Vertex AI 上。这提供了 GPT-4 级别的能力，且可以在内部运行，实现完全控制。@_philschmid 分享了使用 Hugging Face 的 Text Generation Inference 容器进行部署的细节。
Qwen2-Math-72B：该模型在多个数学基准数据集上达到了 SOTA 性能。一个 Gradio 演示版已发布供测试。@huybery 强调了其强大实力并提供了试用链接。
模型比较：多条推文讨论了不同模型和架构之间的比较：
- @giffmana 提到了 ViT 与 CNN 的性能对比。
- @wightmanr 讨论了 Mamba 架构的性能。

AI 工具与应用

DSPy：@lateinteraction 分享了关于 DSPy 2.5 和 3.0 的更新，包括未来开发的路线图。重点是从临时的 Prompting 转向系统化的编程。
Flux：@awnihannun 提到，在带有 MLX 的最新 DiffusionKit 中，Flux Schnell 速度提升了 30% 且占用更少 RAM，允许在 M1 Max 笔记本上不到一分钟生成高质量图像。
LangChain：LangChain 社区正在组织活动，包括在奥斯汀举行的 Hacky Hour。@LangChainAI 分享了即将举行的聚会细节。

AI 研究与技术

Zero-shot DUP prompting：该技术在各种 LLM 的数学推理任务上取得了 SOTA 结果。@rohanpaul_ai 解释了其三阶段过程以及在减少语义误解错误方面的优势。
微调模型 (Fine-tuning Models)：@jxnlco 分享了关于微调模型的见解，强调了数据质量、避免供应商锁定 (vendor lock-in) 以及专注于全面评估的重要性。

AI 伦理与监管

加州 AI 安全法案 SB 1047：@rohanpaul_ai 总结了该法案修订版的关键点，包括对责任和安全实践要求的变更。
AI 监管辩论：@ylecun 对监管 AI 研发表示担忧，特别是关于阻碍科学信息交流和开源代码分发的障碍。

AI 工程视角

AI Engineer 角色：@swyx 讨论了 AI Engineer 的核心目标是将现有的基础模型能力转化为有用的产品。他强调了这与传统 ML Engineering 的分歧，以及 AI 技术栈日益增加的复杂性。
Docker 的重要性：@svpino 强调了学习 Docker 对于构建和部署软件的必要性，称其为他工作中的主要差异化因素。
LLM API 业务：@finbarrtimbers 对 LLM API 业务的经济模式表示困惑，引发了关于此类模型可持续性和盈利能力的讨论。

AI Reddit 摘要

/r/LocalLlama 回顾

主题 1. 大语言模型发布与部署

发布：Magnum 123B (Score: 110, Comments: 21): Magnum-v2-123B 基于 MistralAI 的 Large 模型，作为目前最大的 Magnum 模型发布，其训练数据集与其他 v2 模型相同。该模型在 RunPod 上使用 8x MI300 GPUs 进行训练，虽然尚未经过正式评估，但在测试中表现出令人期待的结果，似乎比之前的 Magnum 版本有所改进。

主题 2. 创新 AI 界面：手写与语音识别

使用 Whisper+GPT 进行自动笔记记录和标签化 (Score: 72, Comments: 12): 正如帖子作者所述，Whisper 和 GPT 正被用于 Obsidian 中的自动笔记记录和标签化。这些 AI models 的结合实现了音频到文本的高效转换以及随后的笔记整理，有望简化 Obsidian 笔记系统中的信息捕获和分类流程。
- 作者分享了其 GitHub 仓库链接，包括 AlwaysReddy 和 alwaysreddy_add_to_md_note，用于处理转录和笔记功能。
- Obsidian 用户讨论了笔记保存选项，包括每日笔记和静态笔记。一位用户提到将 Obsidian 笔记与 Open WebUI 中的流水线集成。
- 该系统使用 LLM（如 Claude）进行自动标签化，并可与任何 LLM 配合使用，包括本地模型服务器。
电子阅读器上的手写界面。慢慢把它变成我梦寐以求的 Palm Pilot。最终我希望它能识别形状——但我不确定哪些廉价模型能做到这一点（约 0.5B 规模） (Score: 249, Comments: 29): 该帖子讨论了为电子阅读器开发手写界面，旨在打造一款让人联想到先进 Palm Pilot 的设备。作者表示有兴趣实现形状识别功能，但不确定参数规模在 0.5B 左右的小型廉价语言模型是否能胜任此任务。
- 该项目在 Boox Palma 设备上运行，使用 ollama 上的 qwen2:0.5b，后端使用 bun，前端使用 handwriting.js。用户建议可能需要升级到 gemma2B 或 phi-3-mini 模型，并讨论了不同设备上的 Token 生成速度。
- 关于 LLM 手写界面的实用性引发了争论，一些人认为这与 LLM 的优势相悖。另一些人则认为这一概念是开放权重（open weights）与不同输入类型结合的创新尝试，并提出了潜在用途，例如将简短的手写笔记转化为更流畅的文本。
- 用户将该项目与虚构的魔法物品联系起来，特别是《哈利·波特》中的 Tom Riddle’s diary。此外，还有对 Boox 公司的批评，呼吁出现尊重开源协议并生产更耐用设备的竞争对手。

AI Reddit 全面回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 图像生成进展

Flux 模型展示了多功能的图像生成能力：
Flux 模型的优势与局限性：
- 在几何和排版方面令人印象深刻的线条绘制能力
- 复杂场景中可能存在的问题

AI 行业动态

AMD 挑战 Nvidia 在 AI 基础设施领域的领先地位：AMD 签署 49 亿美元协议，旨在 AI 硬件市场展开竞争。

AI 伦理与哲学讨论

关于 AI 意识与智能的辩论：

梗图与幽默

AI Discord 回顾

由 Claude 3.5 Sonnet 生成的摘要之摘要的摘要

1. LLM 进展与基准测试

Hermes 3 挑战巨头：Hermes 3，一个拥有 70B 参数的模型已在 OpenRouter 上发布，具备先进的 Agent 能力和改进的角色扮演能力。
- 用户渴望将 Hermes 3 的性能与 Meta-Llama 405b 等模型进行对比，尽管它尚未列入 LLM Arena 排行榜。
LLaMA 3.1 在 SQL 任务中表现不佳：一位用户报告称，LLaMA 3.1 70B 无法使用 LangChain 的 SQL Agent 查询数据库，而 GPT 3.5 在相同配置下却能成功。
- 尽管尝试了自定义解析器，问题依然存在，引发了关于 LLaMA 在某些任务中相较于其他模型局限性的推测。

2. 模型性能优化

Torch.compile 重新编译挑战：用户讨论了由于生成过程中的输入形状变化以及在训练和推理模式之间切换而导致的 torch.compile 重新编译问题。
- 讨论强调了 torch.compile 在处理动态场景（如传递 RNG 生成器对象）时的局限性，这些场景会导致图中断（graph breaks）。
自定义 Mask 与 KV-Cache 兼容性：开发者探讨了自定义 Mask 与语言模型中 KV-Cache 的兼容性，指出直接使用可能不兼容。
- 一个潜在的解决方案包括利用自定义 Mask 并移除 self.causal_mask，但这需要进一步的调查和测试。
用于本地内存的 AI 芯片设计：讨论集中在 AI 芯片如何设计大量的本地内存以将模型放入缓存中，从而减少频繁向 RAM 传输数据的惩罚。
- 辩论了片上网络（NoC）设计与缓存管理之间的权衡，指出虽然 NoC 提供了跨核心的高效数据传输，但也会引入延迟。

3. 开源 AI 发展

Whisperfile 简化音频转录：由 Justine Tunney 创建的 Whisperfile 提供了一种使用 OpenAI 的 Whisper 模型在本地轻松转录音频的方法，支持 100% 本地运行和翻译功能。
- 该工具甚至可以在转录过程中将非英语音频翻译成英语，使其成为音频处理任务的多功能解决方案。
LlamaIndex 扩展学习资源：LlamaIndex 推出了 O’Reilly Media 课程，内容涵盖检索增强生成 (RAG) 的组件、评估、摄取管道、可观测性、Agents 和多模态。
- 此外，LlamaIndex 正在举办一场名为 “LLMs in Production” 的 AI 产品见面会，重点关注使用 RAG 和 Vector DB 构建上下文增强型 LLMs，以及针对生产级 LLMs 的高性能推理。
Aider v0.51.0 增强开发工作流：Aider v0.51.0 发布，改进了 Anthropic 模型的提示词缓存 (prompt caching)，优化了大型仓库的仓库映射 (repo mapping)，并增强了 Jupyter Notebook .ipynb 文件的编辑功能。
- 此版本包含多项错误修复和改进，Aider 贡献了该版本 56% 的代码，展示了该工具在 AI 辅助开发方面的能力。

4. 多模态 AI 和视觉模型

LM Studio 的视觉模型限制：用户询问了 LM Studio 是否具备处理照片或视频作为输入的能力，以便在编程任务中提供视觉上下文。
- 经确认，LM Studio 中的本地模型无法处理此类任务，目前只有 GPT4o 和 Claude 等云端模型提供此功能。
Qdrant 1.10 提升多向量表示能力：Qdrant 1.10 引入了对多向量表示的支持，提升了检索质量，并支持 ColBERT 等延迟交互模型。
- 该更新允许通过移除池化步骤并使用 Token 级嵌入进行检索和重排序，从而将常规的稠密嵌入模型适配为延迟交互模型。

5. LLM 训练和微调技术

MiniPile：模型训练的精简替代方案：MiniPile 数据集 是 Pile 语料库的一个 6GB 子集，由于完整的 Pile 数据集体积庞大且成本高昂，它被推荐作为训练小规模模型的切实可行的替代方案。
- MiniPile 通过过滤掉低质量簇进行筛选，确保了预训练数据集的多样性，对于学术预算和较小规模的实验来说更易于管理。
模型合并与扩展策略：讨论中出现了一些新颖的模型合并策略，例如将 UltraChat 与基础 Mistral 之间的差异应用于 Mistral-Yarn，引发了关于“诅咒模型合并” (cursed model merging) 技术潜力的辩论。
- 用户还探索了将 Mistral 等模型的 Token 限制扩展到初始范围之外的选项，建议在 mergekit 和 frankenMoE finetuning 方面做进一步工作作为潜在解决方案。

PART 1: High level Discord summaries

Unsloth AI (Daniel Han) Discord

Unsloth 对微调 Llama-3.1-405B 的限制：一位用户询问是否可以在带有 H100 的 Hugging Face Space GPU 上微调 Llama-3.1-405B，但被告知 Unsloth 目前不支持此操作，因为该模型对显存要求极高。
- 用户被告知需要 至少 360 GB 的 GPU 显存 和 8 张 H100 GPU，而 Unsloth 目前不提供此类支持。
Lambda 的免费模型访问和微调限制：一位用户询问 Lambda 是否提供免费微调 Llama-3.1-405B 的服务。
- 他们被告知 Lambda 仅提供免费的模型执行（推理），不提供免费微调，但类似的功能可以在 Hugging Face、Meta 和 Groq 等平台上找到。
Google Colab 上的训练损失问题与故障排除：一位用户在 Google Colab A100 运行时微调模型时，难以将 Training Loss 保持在 1.000 以下。
- 他们尝试调整 Learning Rate 和 Batch Size，但最终得出结论：由于 GPU 显存要求极高，Colab A100 运行时可能不是一个可行的长期解决方案。
Unsloth Premium 与合作伙伴关系：一位用户询问了 Unsloth Premium 的定价以及潜在的 Unsloth 合作伙伴关系。
- 他们被告知 Unsloth Premium 不支持直接购买，其更快速的版本仅限世界 500 强公司使用。建议用户联系 Mike 或 Daniel 以获取更多信息。
PPL 作为模型评估指标：PPL (perplexity) 是比较量化效果的有用指标，但如果 Base 模型与量化模型之间的差异过大，该指标可能会产生误导。
- PPL 在 Token 级别比较模型以识别观察到的主题时也很有价值，但其绝对值没有意义，模型之间的 Delta（差异）才是关注的重点。

CUDA MODE Discord

Llama2 模型加载问题：一位用户报告称，运行 Llama2 Eval 时在模型加载阶段崩溃，仅打印 “killed” 并退出。
- 该用户在运行 Llama2 评估时还遇到了 Out-of-memory (OOM) 错误，尽管其系统应该有足够的 RAM 和 GPU 显存。
GPT-Fast 与 HF_eval 脚本对比：讨论集中在不同评估脚本的使用上，特别是将 GPT-Fast 评估脚本与 HF_eval 进行对比。
- 用户报告称，在运行 HF_eval 脚本评估 Llama2 时遇到问题，导致错误消息显示 zero_point_domain 参数的默认值不受支持。
初学者的 Triton Kernel 优化：一位用户在尝试于 triton.jit Kernel 中对非 constexpr 值 seqlen 使用 tl.arange 时遇到了 ValueError。
- 出现此问题是因为 seqlen 未声明为 tl.constexpr 类型，而这是 Triton 中 tl.arange 函数所必需的，这突显了 Triton 与常规 Python 代码之间的关键区别。
Comfy 的 FP16 与 FP8：一位成员原以为 Comfy 默认支持 FP16 累加器，但实际上它需要自定义的 Torch C++ 扩展。
- Comfy 的 FP8 实现实际上并不使用 FP8 Matmul 进行计算；它仅将其作为中间数据类型使用。Stable-fast 是另一种选择，它虽然不支持 Flux，但有一些有趣的优化思路。
扩散模型量化技术：一位成员讨论了如何通过保持 Self-attention 和累加在 FP16 格式来有效地量化扩散模型。
- Oneflow/Onediff 是扩散模型的一个封装器，使用 Oneflow 进行推理和图构建，但它与 Flux 不兼容，因为 Flux 的体积太大了。

Nous Research AI Discord

Hermes 3 与 Meta-Llama 的比较：一位成员询问了 Hermes 3/405 与其他模型（特别是 Meta-Llama 405b）的比较，因为他们在 LLM Arena 排行榜上找不到 Hermes。
- 另一位成员确认，在一份技术报告中，Hermes 3 使用 15 个基准测试套件与 Llama 3.1-instruct-405 进行了基准测试，但他们也在寻找与 Meta-Llama 405b 的直接对比。
Hermes 3：文本到文本模型：已确认 Hermes 3 是一个文本到文本（text-to-text）模型，这意味着它无法生成图像。
- 虽然你可以在 Discord 中与 H3-405B 交互，但机器人无法通过命令触发图像生成，它们只能通过互相 @ 提及来进行交互。
Llama 3.1 Minitron 4B：剪枝后的文本到文本模型：Llama-3.1-Minitron-4B-Width-Base 是一个文本到文本模型，可用于各种自然语言生成任务。
- 它是通过对 Llama-3.1-8B 的 Embedding 大小、Attention Heads 和 MLP 中间维度进行剪枝（pruning）获得的，随后使用来自 Nemotron-4 15B 持续预训练数据集中的 940 亿个 Token 进行蒸馏（distillation）训练。
Hermes 3 Amnesia 模式：仅适用于 8B：Amnesia 模式 是 Hermes 3 8b 的一项功能，可以通过在没有 System Prompts 的情况下输入 “Hi” 来触发。
- 然而，此模式在 Discord 上不可用，因为机器人会记住所有聊天记录。
PyDantic-XML：序列化与反序列化：pydantic-xml 扩展允许在 Pydantic 模型和 XML 之间进行数据的序列化和反序列化。
- 你可以在 https://pydantic-xml.readthedocs.io/en/latest/ 找到该扩展的文档。

Cohere Discord

DeepMind OPRO 论文问题：一位成员询问了关于基于 OPRO 的 Prompt Tuner 的信息来源。
- 该成员正在寻求关于如何实现该技术的澄清，可能参考了 OPRO 论文。
C4AI Discord 服务器邀请：一位成员请求 C4AI Discord 服务器的邀请。
- 该成员被建议加入 Cohere Discord 并联系特定用户，但不确定合适的沟通渠道（私信或公开频道）。
Cohere API response_format 问题：一位成员在使用 Cohere API 的 response_format 参数时遇到错误。
- 他们正在寻求关于如何在 API 请求中正确使用 response_format 参数的指导。
Cohere Classify 端点停用：一位成员询问了 Cohere Classify 端点的潜在替代方案。
- 该成员正在寻求类似分类服务的建议，重点关注功能和可用性。
大语言数据集的 Reranker API 效率：一位成员询问，将大型数据集分块并在每个块上独立运行 Reranker API 是否会产生准确的整体相关性分数。
- 该成员正在探索以分块方式将 Reranker API 应用于大型数据集的潜在局限性和优势。

OpenRouter (Alex Atallah) Discord

Hermes 3 发布：Hermes 3，一个 70B 参数模型，已在 OpenRouter 上发布，具有先进的 Agent 能力和更好的角色扮演（roleplaying）表现。
- 发布公告中还包含了 OpenRouter, LLC 的版权声明，注明 © 2023 - 2024 OpenRouter, LLC。
GPT Function Calls 仍然支持吗？：一位用户询问 OpenRouter 是否仍支持 GPT 函数，因为即使停止原因是 ‘functioncall’，他们收到的却是 ‘function_call=None’。
- OpenRouter 团队确认更好的 tool call 路由即将推出，但目前除非使用 OpenAI、Anthropic 或 Google 模型，否则结果可能会有所不同。
用于德语预训练的 Mistral Large Instruct 2407：一位用户询问是否有德语预训练效果良好的模型，得到的建议是尝试 Mistral-Large-Instruct-2407，该模型采用多语言设计并支持德语。
- 用户测试了该模型，发现效果“还可以”但不是特别出色，并进一步建议在 Hugging Face 上查找其他模型。
OpenRouter 非免费模型的错误：用户报告在尝试访问 OpenRouter 上的非免费模型时遇到错误，具体表现为“客户端异常（client-side exception）”，需要强制刷新浏览器。
- OpenRouter 团队进行了调查，确定该问题与 access token 过期以及潜在的 CORS 错误有关，并最终解决了该问题。
OpenRouter 上的无审查模型？：一位用户询问 OpenRouter 上的无审查（uncensored）模型，得到的建议是“开源”和“角色扮演”标签是可能产生 NSFW 内容的模型良好指标。
- 无审查模型的热门选择包括 Dolphin、Stheno、Euryale 和 MythoMax。

LM Studio Discord

无审查模型：探索现状：一位用户寻求用于非编程任务的无审查 LLM 模型建议，并获得了一个指向 llm.extractum.io 的链接，该网站重点介绍了针对法律分析、医学研究和创意写作等多种用途的无审查 LLM。
LM Studio 服务器在 Llama 3.1 上遇到困难：一位用户报告了 LM Studio 本地推理服务器的问题，特别是在使用 Llama 3.1 时，停止模式（stop pattern）被忽略了。
- 用户指出该问题在聊天模式下不存在，并建议在相关频道进行讨论以进一步排查故障。
LM Studio 中的语音转文本和文本转语音：一位用户询问了在 LM Studio 中与 Llama 2/3 模型进行语音交互的可能性，特别是是否集成了语音转文本（speech-to-text）和文本转语音（text-to-speech）功能。
- 对方澄清 LM Studio 目前缺乏此类支持，促使用户探索外部解决方案，如用于文本转语音的 Parler-TTS 和用于语音转文本的 Whisper.cpp 为。
LM Studio 中的视觉模型：云端事务：一位用户询问 LM Studio 中是否有能够处理照片或视频输入以提供编程任务视觉上下文的模型。
- 经确认， LM Studio 中的本地模型无法处理此类任务；只有像 GPT-4o 和 Claude 这样的云端模型才提供此功能。
M2 Ultra：对 AI 性能寄予厚望：一位用户对即将推出的 M2 Ultra 表示兴奋，指出其在 AI 任务中的性能备受期待。

Eleuther Discord

GPT-4 神经元解释被推翻了？: 一位成员对 GPT-4 神经元解释的有用性提出质疑，引用了一篇声称这些解释并不优于基准 (baselines) 的论文。
- 另一位成员提供了一篇题为 “Language Models can explain neurons in language models” 的论文链接，但未能找到标题相似且声称 GPT-4 解释无效的论文，尽管内容可能相似。
在有限数据上训练模型 - 警惕胡言乱语！: 由于随机初始化的影响，在单个小文件上训练模型可能会导致输出内容毫无意义。
- 一位成员将其与文本压缩基准进行了比较，在这些基准中，模型被训练以记忆特定的文本块，并强调了多样化预训练数据的重要性。
用于高效训练的 MiniPile 数据集: MiniPile 是 Pile 语料库的一个 6GB 子集，由于完整 Pile 数据集庞大的体积和高昂的成本，它被推荐作为训练较小规模模型的可行替代方案。
- MiniPile 通过过滤掉低质量的集群进行策划，确保了预训练数据集的多样性，且对于学术预算来说更易于管理。
Frankenmerging - 组合来自不同模型的层: 一位成员询问了将两个不同模型的层进行组合的可行性，这种技术被称为 “frankenmerging”。
- 他们对这种方法的潜在风险表示困惑，质疑这是否会导致模型的内部表示变得混乱，并寻求关于潜在收益和挑战的澄清。
使用优化器进行模型合并: 一位成员建议在将两个不同模型的层堆叠在一起之前，使用优化器来寻找层间通道的最佳排列 (permutation)。
- 他们承认了潜在的挑战，并指出此类方法尚未在大规模 GPT 模型上得到验证。

Perplexity AI Discord

Perplexity Pro Discord 访问令人困惑: 用户无法加入 Perplexity Pro Discord 服务器，即使在退出并使用 Perplexity 设置中的链接重新加入后也是如此。
- 问题似乎在于缺乏关于如何访问主 Discord 服务器内 Pro 栏目的清晰说明。
Perplexity 的搜索功能需要修复: 用户报告了 Perplexity 搜索功能的问题，包括无法访问在线资源以及使用过时信息。
- 一些用户认为这是一个后端问题，但 Perplexity 团队尚未承认或解决该问题。
Perplexity Pro 模型面临限制: 用户正在讨论 Perplexity Pro 模型在编码和博客文章创建等任务中的局限性。
- 一些用户发现 Perplexity Pro 在某些任务上不如其他模型有效，特别是在生成复杂代码或避免博客文章中的幻觉 (hallucinations) 方面。
Perplexity 对前端与后端的优先级排序: 关于 Perplexity 是否优先考虑前端开发而非后端开发存在争议，一些用户报告了后端功能（如搜索和模型选择）的问题。
- 一些用户认为这些问题表明缺乏对核心后端功能的关注，而这些功能对于平台的整体性能至关重要。
Perplexity Pro 功能升级讨论: 发生了一场关于升级到 Perplexity Pro 的讨论，该版本提供图像上传、更智能的 AI 和更多 Pro Search 等功能。
- 其他用户还讨论了使用 LMSYS Arena 的潜在好处，以及即将推出的据称已准备好大规模生产的 G1 Humanoid Robot。

LlamaIndex Discord

LlamaIndex: 构建自然语言查询系统：学习如何使用 LlamaIndex 和 Amazon Neptune 为图数据库构建自然语言查询系统！
- 由 @bechbd 编写的综合指南展示了如何将自然语言问题转换为 openCypher 查询，并在 Amazon Neptune 图数据库上执行查询。
O’Reilly Media 的 RAG 课程：LlamaIndex 推出了由 @ravithejads 编写的关于检索增强生成 (RAG) 的 O’Reilly Media 课程。
- 这门 2 小时的课程涵盖了 LlamaIndex 的组件、RAG 系统的评估、摄取流水线 (ingestion pipeline)、可观测性、Agents、多模态等内容。
LlamaIndex: LLMs in Production 见面会：参加由 @vesslai 和 @pinecone 在旧金山举办的 AI 产品见面会 “LLMs in Production”。
- 向行业领袖学习如何使用 RAG 和 Vector DB 构建上下文增强的 LLMs，如何通过自定义 LLMs 实现更智能、更快、更便宜的解决方案，以及如何为生产级 LLMs 提供高性能推理。
Hierarchical Node Parser: 不进行分块？：一位用户询问 LlamaIndex 的 Hierarchical Node Parser 是否可以在不进行分块 (Chunking) 的情况下创建层级，而是使用预定义的节点。
- 该用户希望保留与节点关联的页面 ID 等元数据，但在当前的实现中无法实现。
使用 LlamaIndex 检索处理复杂问题：一位用户讨论了在 LlamaIndex 中对简单和复杂问题进行检索能力的需求。
- 他们设想了一种层级化方法，可以递归地总结节点并创建更高层级的数据表示，以获得细致且具有上下文的响应。

Latent Space Discord

Jeremy Howard 畅谈 Latent Space：最新的 Latent Space 播客邀请了 Jeremy Howard，讨论了 Encoder-Decoder 模型、Fast.html、保存/更新状态、fine-tuning vs RAG vs KV caching，以及他正在进行的一个新项目。
- 在联合主持人 Swyx 俏皮地说了句“给我们尝一小口”之后，该播客被描述为“五道菜的大餐”。
Encoder-Decoder 模型崛起：讨论强调了 Encoder-Decoder 模型相对于仅 Encoder 模型的优势，特别是在处理复杂上下文和错综复杂的关系方面。
- 受访者（可能受 AI Paper Club 电话会议的影响）已经了解这种方法，表明 AI 社区对此的认识正在提高。
Whisperfile 让转录变得轻而易举：Whisperfile 是一款新工具，允许用户利用 OpenAI 的 Whisper 模型轻松地在本地转录音频。
- 由 Justine Tunney 创建，Whisperfile 提供 100% 本地操作，甚至可以在转录过程中将非英语音频翻译成英语。
Claude 3.5 Sonnet 获得 Token 提升：Anthropic AI 已将 Claude 3.5 Sonnet 的最大输出 Token 限制翻倍，从 4096 增加到 8192。
- 此更新现已在 Anthropic API 和 Vertex AI 中可用，使开发者更容易使用 Claude 3.5 Sonnet。
GPT-4 Fine-Tuning 挑战 Composer：OpenAI 发布了 GPT-4 fine-tuning，这是一项允许用户自定义 GPT-4 行为和性能的新功能。
- 这一更新可能会与 Cursor 的 Composer 功能展开竞争，因为两者都提供了类似的大型语言模型定制和使用方法。

Modular (Mojo 🔥) Discord

Mojo 与 MAX 更新节奏同步：此前，Mojo 和 MAX 拥有独立的更新周期，但现在它们已同步。
- 这意味着你可以安装 MAX+mojo main 或 MAX+mojo nightlies，但不能分别安装 MAX main 和 mojo nightlies。
带有标签的孪生网络 (Siamese Networks)？：一位用户询问如何将孪生网络的输出从 sigmoid 切换为标签（例如 “dog” 或 “cat”）。
- 另一位用户建议，如果你想切换到打标签任务，使用该任务的标准模型可能比尝试适配孪生网络更有效率。
使用 Slice 自定义算子 (Custom Op)：一位用户请求一个演示使用 slice custom op (https://docs.modular.com/max/api/mojo/graph/ops/slicing/slice) 的代码示例。
- 他们表示难以理解该算子的参数。
Mojo 的 List 赋值使用 ref：一位用户惊讶地发现 Mojo 的 List 实现中没有 __setitem__ 方法用于赋值，但被告知 __getitem__ 返回一个 ref[lifetime] T，其行为类似于 __setitem__。
- 这就是向 Mojo List 分配元素的方式。
Mojo 的 ref 和 __lifetime_of 函数：函数返回类型中的 ref 关键字是最近（在 Mojo v244 中）作为新语言特性引入的。
- Mojo 的 __lifetime_of 函数允许你确定引用的生命周期，这对于内存管理非常有用。

OpenAI Discord

ChatGPT 在简单任务上表现挣扎：一位用户指出，ChatGPT 在处理诸如计算单词 “strawberry” 中 “R” 的数量等简单任务时表现挣扎，这暗示 AI 可能并不像某些人想象的那么先进。
- 这引发了关于 AI 当前局限性的讨论，以及它是真正的智能还是仅仅是一个可以执行特定任务的工具。
Grok2 采取了不同的方法：一位用户提到 Grok2 在处理问题时有一种有趣的方法。
- 另一位用户指出，Grok2 的方法涉及将每个问题分解并逐步解决，这与人类解决问题的方式类似。
AI 热潮——是否言过其实？：一位用户表示，由于 AI 目前的局限性，“AI 爱好者”一词已经失去了意义。
- 这种情绪源于对 ChatGPT 在简单任务上的挣扎以及 Grok2 解决问题方法的讨论。
构建智能食谱：一位用户寻求关于创建“智能食谱”的建议，该食谱可以在他们喜欢的食谱上进行训练并提供个性化建议。
- 该用户认为这种模型可以应用于任何“入门指南”类书籍，并请求有关现有解决方案或项目的信息。
Strawberry 发布推测：一位用户询问 “Strawberry” 的发布日期，这可能是一个新的 AI 模型或功能。
- 另一位用户开玩笑地回应称 “Strawberry” 仍处于“来源不可靠的泄露”阶段，并对它的发布表示怀疑。

Torchtune Discord

Torch.compile 在重新编译方面表现挣扎：当输入形状改变（如在生成过程中）或在训练和推理模式之间切换时，会发生 Torch.compile 重新编译。
- 这是由于 grad_mode 的变化引起的，可以通过实现 torch.compile 优化来改进。
Torch.compile 缓存大小限制：torch._dynamo hit config.cache_size_limit (8) 消息表明已达到缓存大小限制。
- 这暗示了 Torch.compile 友好性方面可能存在问题。可能需要增加缓存的大小。
RNG 对象与 Torch.compile 不兼容：将 RNG 生成器对象传递到模型中会导致图中断 (graph breaks)，这表明 Torch.compile 目前不支持此类对象。
- 这可能是一个挑战，但可以通过更新 torch.compile 以处理这些对象来解决。
自定义掩码 (Custom masks) vs kv-cache：自定义掩码可能无法直接与 kv-cache 兼容，但使用你自己的掩码并移除 self.causal_mask 可能会有所帮助。
- 这个问题值得进一步调查。
Torchtune 发布日期：社区渴望知道 Torchtune 的发布日期，据报道它已经完成了 99%。
- 讨论表明发布日期尚未最终确认。

LangChain AI Discord

LLaMA 3.1 70B 在 SQL 方面遇到困难：LLaMA 3.1 70B 在使用 LangChain 的 SQL agent 查询数据库时遇到困难，而 GPT 3.5 在相同配置下表现成功。
- 尽管尝试了自定义解析器，问题仍然存在，这表明 LLaMA 的能力可能存在局限性。
Mistral 在扩展超过 8k 时面临挑战：一位用户指出 Mistral 在没有进一步预训练的情况下无法扩展到 8k 以上。
- 他们建议探索 mergekit 和 frankenMoE finetuning 来解决这一限制。
模型合并策略引发讨论：一位用户提议将 UltraChat 和基础 Mistral 合并为 Mistral-Yarn，作为一种潜在的模型合并策略。
- 虽然一些人表示怀疑，但该用户保持乐观，并引用了他们在所谓的“诅咒模型合并（cursed model merging）”中取得的过往成功。
Open Empathic 项目寻求协助：一位用户请求支持扩展 Open Empathic 项目中的类别，特别是低端类别。
- 他们分享了一个 YouTube 视频，展示了项目的启动和教程，鼓励用户贡献来自 YouTube 视频中喜欢的电影场景，并提供了 OpenEmpathic 项目的链接。
LangChain 推出实验性的 SQLDatabaseChain：一位用户介绍了 LangChain 的 SQLDatabaseChain，这是一个旨在根据用户提示词生成 SQL 查询的实验性功能。
- 他们提供了一个使用该功能的函数代码示例，概述了用于 SQL 查询生成的 Prompt 模板以及如何处理来自 Chain 的响应。

OpenInterpreter Discord

Ollama 与 OpenInterpreter 的集成：一位用户寻求在远程机器上将 Ollama 与 OpenInterpreter 集成的指导，特别是配置 profile YAML 并使用该 profile 启动 Interpreter。
- 他们询问了如何在 OpenInterpreter 的配置中使用正确的 IP 地址和端口连接到其 Ollama 实例，然而，OpenInterpreter 仍然拒绝连接。
Deepseek API：OpenAI 和本地 LLMs 的替代方案：一位用户询问关于使用 Deepseek API 作为 OpenAI 或本地 LLMs 替代方案的指南。
- 该用户表示有兴趣将 Deepseek 作为访问和利用大语言模型（LLMs）的潜在解决方案。
解决 Mac 上 Poetry 和 Pytorch 的安装问题：一位用户报告在 Mac 上安装 Poetry 和 Pytorch 2.3.0 时遇到问题，并提到一个尚未解决的公开 issue。
- 他们寻求解决此安装问题的指导，可能涉及替代安装方法或排查特定的配置设置。
OpenInterpreter 更新发布：最新的 OpenInterpreter 更新已在 #O1 频道宣布。
- 未提供关于更新性质或范围的更多细节。
无障碍圆桌会议提醒：#general 频道发布了无障碍圆桌会议（Accessibility Roundtable）的提醒。
- 提醒中包含了一个活动链接，表明这是一个虚拟或在线会议。

DSPy Discord

dspy-ai 安装困扰：一位用户注意到 requirements.txt 文件列出了 dspy==2.0.5，但质疑是否应该实际上是 dspy-ai。
- 他们还指出 pickle5==0.0.12 存在潜在的兼容性问题，该版本兼容 Python 3.8 以下版本，而 dspy-ai 需要 Python 3.9 或更高版本。
ADAS 能否发明新的构建模块？：一位用户询问 ADAS 是否可以发明新的构建模块，例如集成系统的 Function Calling。
- 他们还询问是否已经有人尝试过类似的实验。
用于 DSPy 微调的 Multi-Lora 设置：一位用户建议在 DSPy 微调中使用 Multi-Lora 设置，认为这可能是一种有价值的方法。
- 关于如何实现这一点，目前没有提供更多细节。
DSPy vs. Langchain/LLamaindex：选择你的武器：一位用户询问 DSPy 与 Langchain 和 LLamaindex 的对比。
- 他们被引导至 DSPy 文档，以获取选择合适工具的指导。
Aider v0.51.0：Prompt Caching 和 Repo Mapping 改进：Aider 发布了 0.51.0 版本，其特点是改进了 Anthropic 模型的 Prompt Caching，优化了大型仓库的 Repo Mapping，并增强了 Jupyter Notebook .ipynb 文件的编辑功能。
- 该版本包含各种错误修复和改进，正如 Release history 中所述，Aider 为该版本贡献了 56% 的代码。

LAION Discord

LTXStudio 发布五项新功能：LTXStudio 为用户发布了五项新功能，旨在将他们的项目提升到新的水平。
- 这些功能现在可以访问和测试，LTXStudio 发布了一条推文宣布发布并鼓励用户尝试：来自 LTX Studio (@LTXStudio) 的推文。
JPEG 编码：一种不确定的图像 Tokenization 方法：一篇研究论文提出将 JPEG 编码作为一种可行的图像 Tokenization 方法，但目前基于 AR 的方法在信息丢失严重的情况下表现不佳，导致图像质量较低。
- 该论文使用了 25 的 JPEG 质量设置，这在理论上阻碍了从 Token 生成高质量图像，并将 256*256 的图像压缩为 5,000 个 Token，使得训练和推理速度比传统的 VQ-VAE 更慢。
关于图像压缩极限的问题：鉴于论文在 Tokenization 中使用了 25 的 JPEG 质量设置，作者对图像可能的最大压缩率提出了疑问。
- 这引发了对该方法在实现最佳图像压缩方面潜在局限性的担忧。
在 H.265 或 AV1 帧上训练模型：作者建议探索在 H.265 帧甚至 AV1 帧上训练模型的可能性，作为图像 Tokenization 中 JPEG 编码的潜在替代方案。
- 这种方法可能解决当前 JPEG 编码方法的局限性，并带来更好的性能。

DiscoResearch Discord

Leo 模型公开：一位成员在 Hugging Face 上公开了其 Leo 模型的量化版本。
- 他们很乐意接受反馈，并在需要时向用户转达信息，如果需要，还可以将信息添加到 Model Card 中。
通过 Model Card 进行反馈和更新：该成员提议在 Model Card 中添加信息，以便进行反馈或向用户转达信息。
- 这样，任何人都可以看到最新的信息、反馈或更新。

Interconnects (Nathan Lambert) Discord

Xeophon 的推文：Xeophon 发布了 Bilawal Sidhu 关于 Deep Learning 中 Interconnects 力量的推文链接。
- 该推文强调了 Interconnects 对于模型大规模分布式训练（Distributed Training）至关重要，且该领域正在不断演进。
占位符：这是一个占位摘要，以满足至少 2 条摘要的最低要求。
- 如果你有其他话题要讨论，可以用真实的摘要替换此内容。

Alignment Lab AI Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

第 2 部分：频道详细摘要与链接

完整的逐频道详情已在邮件中截断。

如果您想查看完整详情，请访问此邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！预谢！

今天没发生什么。