路线图的主要方向：

打磨 DSPy 核心的 4 个部分：(1) LMs, (2) Signatures & Modules, (3) Optimizers, 以及 (4) Assertions，使它们能够开箱即用，实现 zero shot 且现成可用。

在 LMs 方面，他们的目标是减少代码行数。特别是他们提到将通过采用 LiteLLM 来减少 6k 行代码 (LOC)。不过，他们将增加“改进的缓存、LMs 的保存/加载、对流式传输和异步 LM 请求的支持”等功能。
在 Signatures 方面，既然“结构化输出”已成为主流，他们正在演进“结构化输入”的概念。
在微调（Finetuning）方面：他们的目标是“为程序中的几个不同模块引导（bootstrap）训练数据，训练多个模型并处理模型选择，然后将这些模型加载并插入到程序的模块中”。

开发更准确、成本更低的优化器（optimizers）。 继 BootstrapFewShot -> BootstrapFinetune -> CA-OPRO -> MIPRO -> MIPROv2 和 BetterTogether 优化器之后，将开展更多工作来提高质量、成本和鲁棒性。
构建端到端教程。 更多文档！
转向更具交互性的优化和追踪。 帮助用户“实时观察优化过程（例如：分数、堆栈跟踪、成功和失败的追踪以及候选提示词）”。

虽然没有什么惊天动地的突破，但对于一个管理得非常好的开源框架来说，这是一个很棒的路线图更新。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 回顾

所有摘要均由 Claude 3.5 Sonnet 完成，从 4 次运行中择优录取。

AI 与机器人进展

Google Gemini 更新：Google 推出了 Gemini Live，这是一款具有语音功能和 10 种语音的移动对话式 AI，适用于 Android 上的 Gemini Advanced 用户。他们还推出了 Pixel Buds Pro 2，搭载定制的 Tensor A1 芯片以支持 Gemini 功能，实现免提 AI 辅助。
OpenAI 进展：OpenAI 更新的 ChatGPT-4o 模型重新夺回了 LMSYS Arena 榜首，该模型以“anonymous-chatbot”代号测试了一周，获得了超过 1.1 万张选票。
xAI 的 Grok-2：xAI 发布了 Grok-2，目前已向 Premium X 用户开放测试版。它可以使用 FLUX 1 生成“放飞自我”的图像，并在短短一年多时间内达到了 SOTA 状态。
开源模型：Nous Research 发布了 Hermes 3，这是一个开源模型，提供 8B、70B 和 405B 参数版本，其中 405B 模型相对于其他开源模型达到了 SOTA。
机器人技术进步：Astribot 展示了他们的新型人型机器人，展示了其在无需远程操作的情况下令人印象深刻的实时自由度。据报道 Apple 正在开发一款带有 Siri 语音命令的桌面机器人，将类似 iPad 的显示屏与机械臂相结合。
AI 研究工具：Sakana AI 推出了“The AI Scientist”，声称是世界上第一个能够自主进行科学研究、产生想法、编写代码、运行实验并撰写论文的 AI 系统。

AI 模型性能与技术

Vision Transformer (ViT) 性能：@giffmana 发表了一篇博客文章，解决了关于 ViT 在高分辨率下的速度、长宽比重要性以及分辨率要求的疑虑。
RAG 改进：关于利用 LLM 提取的元数据进行数据库过滤以改进多跳查询 RAG 的新研究在 MultiHop-RAG 基准测试中显示出良好的结果。HybirdRAG 结合了 GraphRAG 和 VectorRAG，在财务业绩电话会议记录上的表现优于两者。
模型优化：@cognitivecompai 报告称，在使用 Dolphin 2.9.4 数据集训练 gemma-2-2b 时，GrokAdamW 似乎有所改进。
小模型技术：@bindureddy 鼓励对 2B 的小模型进行迭代，使其更加实用，并发明可以应用于更大模型的新技术。

AI 应用与工具

LangChain 进展：LangChain JS 教程介绍了如何使用 LLM 分类器根据查询类型进行动态 Prompt 选择。使用 Claude 3.5 Sonnet 的 Agentic RAG、MongoDB 和 llama_index 展示了在现有 RAG 流水线上构建 Agentic 知识助手。
AI 助力软件工程：Cosine 演示了 Genie，这是一个全自动 AI 软件工程师，以 30.08% 的成绩打破了 SWE-Bench 的最高分。OpenAI 和 SWE-Bench 的作者重新设计并发布了 ‘SWE-bench Verified’，以解决原始基准测试中的问题。
生产力工具：@DrJimFan 表达了对 LLM 根据 Prompt 自动过滤、标记 Gmail 并重新排列优先级的期望，强调了 AI 在电子邮件管理方面的潜力。

AI 伦理与社会影响

AI 欺骗辩论：@polynoamial 讨论了将扑克中的诈唬（bluffing）误解为 AI 欺骗的例子，认为这更多是为了不泄露多余信息，而非主动欺骗。
AI 推理能力：@mbusigin 认为 LLM 在推理方面已经优于相当一部分人类，因为它们不依赖“直觉”，并且在逻辑推理测试中表现良好。

梗与幽默

@AravSrinivas 调侃道：“Networking ~= Not actually working”（社交 ~= 没在干活）
@AravSrinivas 分享了一张与 AI 或技术相关的幽默图片（内容未具体说明）。
@Teknium1 吐槽视频生成技术：“为什么几乎所有的视频生成都只是平移或缩放，你还不如用 Flux（快 1000 倍）生成一张图片。”

这份摘要涵盖了所提供推文中 AI 和机器人领域的关键进展、讨论和趋势，重点关注与 AI 工程师和研究人员相关的信息。

AI Reddit 综述

/r/LocalLlama 综述

主题 1. XTC：用于增强 LLM 创造力的新采样器

Exclude Top Choices (XTC)：一种提升创造力、打破写作陈词滥调并抑制非逐字重复的采样器，由 DRY 的创作者开发 (Score: 138, Comments: 64)：Exclude Top Choices (XTC) 采样器在 text-generation-webui 的一个 GitHub pull request 中被引入，旨在以对连贯性影响最小的方式提升 LLM 创造力并打破写作陈词滥调。创作者报告称，XTC 能产生新颖的词句和想法，特别增强了角色扮演和故事写作，其体验与单纯提高语言模型的 Temperature 明显不同。

主题 2. 个人 GPU 用于 AI 开发的成本效益分析

老实说，一块 4090 真的做不了什么 (Score: 84, Comments: 90)：作者是一名从事 AI 基础设施和 ML 工程的工作者，对他为个人 AI 项目购买的 4090 GPU 表示失望。他们认为，对于大多数用例，云端 API 服务或企业级 GPU 集群比单块高端消费级 GPU 进行 AI 任务更实用且更具成本效益，并质疑了个人拥有本地 GPU 进行 AI 实验的价值。

AI Reddit 全面回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 模型进展与对比

Flux LoRA 训练结果：一位用户分享了在《权力的游戏》角色上训练 Flux LoRA 模型的惊人结果，仅使用 10 张图像的数据集和 500-1000 个训练步数就实现了高质量输出。训练过程需要超过 60GB 的 VRAM。来源
卡通角色对比：对比了多种 AI 模型（DALL-E 3, Flux dev, Flux schnell, SD3 medium）生成卡通角色吃西瓜的效果。DALL-E 3 整体表现最佳，Flux dev 位居第二。帖子强调了 DALL-E 3 利用复杂的 LLM 系统将图像划分为不同区域进行详细描述。来源
Flux.1 Schnell 放大技巧：一位用户分享了提升 Flux.1 Schnell 输出人脸质量的技巧，建议在放大写实图像时使用 4xFaceUpDAT 而非 4x-UltraSharp。帖子还提到了其他放大模型和增强图像质量的技术。来源

AI 公司策略与批评

OpenAI 的商业行为：一位用户批评 OpenAI 像经营“微型 Ycombinator 初创公司”一样管理公司，理由包括等候名单、CEO 神秘的推文以及发布前的预热视频。帖子认为这些策略不适合一家估值近 1000 亿美元的公司，可能会让客户和企业用户感到困惑。来源

AI 生成内容与迷因 (Memes)

《迷雾》(Flux+Luma)：一段展示使用 Flux 和 Luma 模型生成的 AI 内容视频，内容似乎灵感源自电影《迷雾》。来源
看起来有点眼熟？：r/singularity 版块中的一个迷因帖子，可能引用了 AI 相关内容。来源
总得有人说出来…：r/StableDiffusion 版块中的另一个迷因帖子。来源

未来技术与研究

自动驾驶汽车越狱：一个推测一旦自动驾驶汽车普及，人们将尝试对其进行越狱的帖子。来源
狗狗逆龄药：一项研究报告了在狗身上测试逆龄药的乐观结果。然而，该帖子缺乏同行评审研究的引用，并因过于轶事化而受到批评。来源

AI Discord 回顾

由 Claude 3.5 Sonnet 总结的总结之总结

1. Hermes 3 模型发布与性能

Hermes 3 在 N8Bench 上追平 Llama 3.1：Hermes 3 在 N8Bench 基准测试中获得了与 Llama 3.1 Instruct 相同的分数，该基准测试衡量模型的推理和问题解决能力。
- 这一结果意义重大，因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一，凸显了 Hermes 3 的竞争性能。
Hermes 3 405B 在 OpenRouter 开启免费周末：OpenRouter 宣布，由 Lambda Labs 提供支持，Hermes 3 405B 在限时内免费使用，并提供 128k 上下文窗口。
- 用户可以通过 OpenRouter 的 Hermes 3 405B 页面访问该模型，这为测试和评估这一超大型语言模型提供了机会。
量化对 405B 模型的影响：@hyperbolic_labs 警告称，量化 (Quantization) 会显著降低 405B 模型 的性能。
- 他们建议如果对性能有要求，可以联系他们寻求替代方案，强调了减小模型体积与保持性能质量之间的权衡。

2. LLM 推理优化技术

INT8 量化用于 CPU 执行：一位成员询问了使用 INT8 量化 来加速小模型在 CPU 上执行的潜在好处，并指出某些 CPU 可能原生支持运行 INT8 而无需转换为 FP32。
- 这种方法可能提升基于 CPU 推理的性能，特别是对于资源受限的环境或边缘设备。
FP8 训练进展：使用 FP8 中的第一动量 (1st momentum) 平稳训练 1B FP8 模型 至 48k steps，其 loss 与带有 0.08 偏移量 的 bfloat16 相当。
- 这表明 FP8 训练配合第一动量是有效的，在实现与 bfloat16 训练相似结果的同时，可能提供内存节省和性能提升。
开源模型的 Batching APIs：CuminAI 推出了一种为开源模型创建 batching APIs 的解决方案，类似于 OpenAI 和 Google 最近推出的功能。
- 虽然大公司的 batching APIs 缺乏处理保证和 SLA，但 CuminAI 的方法旨在为开源模型部署提供类似的成本节约优势。指南可在其博客文章中找到。

3. 开源 AI 模型进展

Falcon Mamba 7B 宣称性能超越 Llama 3 8B：一段 YouTube 视频宣布发布 Falcon Mamba 7B，声称其表现优于 Llama 3 8B。
- 这一进展可能对 LLM 领域产生重大影响，因为 Falcon Mamba 7B 是一个挑战既定基准的、极具前景的新模型。
Ghost 8B Beta 的多语言实力：新发布的语言模型 Ghost 8B Beta 现在支持包括英语、越南语、西班牙语和中文在内的 16 种语言，并提供两种上下文选项（8k 和 128k）。
- 该模型在数学、推理和指令遵循能力方面表现出色，在 AlpacaEval 2.0 胜率得分上超过了 Llama 3.1 8B Instruct、GPT-3.5 Turbo 和 Claude 3 Opus 等竞争对手。
阿里巴巴达摩院 (Alibaba DAMO) 发布 VideoLLaMA 2-72B：阿里巴巴达摩院 (Alibaba DAMO) 发布了 VideoLLaMA 2-72B，这是一款新的视频 LLM，可在 HuggingFace 上获取，并在 HuggingFace Spaces 上提供 demo。
- 研究论文也已在 HuggingFace 上发布，展示了结合视频理解和语言建模的多模态 AI 进展。

4. AI 安全与监管讨论

南希·佩洛西 (Nancy Pelosi) 反对加州 AI 法案：荣休议长南希·佩洛西 (Nancy Pelosi) 发表声明，反对关于 AI 监管的 加州参议院第 1047 号法案 (California Senate Bill 1047)。
- 完整声明可在众议院网站找到，突显了关于如何在州一级进行 AI 治理的持续辩论。
Procreate 拒绝集成生成式 AI：Procreate 的 CEO 明确表示，他们不会在产品中集成生成式 AI，这一决定受到了社交媒体上许多艺术家和用户的赞赏。
- 一些观察者指出，这种立场未来可能会改变，因为它可能会限制新功能的开发。这突显了传统创意工具与创意产业中 AI 快速发展之间持续存在的紧张关系。
加里·马库斯 (Gary Marcus) 重新审视 AI 泡沫担忧：AI 研究员 加里·马库斯 (Gary Marcus) 在一段名为“The AI Bubble: Will It Burst, and What Comes After?”的视频中重新审视了他在 AGI-21 上的主题演讲，指出尽管 AI 取得了重大进展，但他当时强调的许多问题在今天仍然具有现实意义。
- 这段可在 YouTube 上观看的讨论反映了关于当前 AI 发展趋势的可持续性、轨迹及其潜在社会影响的持续辩论。

第 1 部分：Discord 高层摘要

Stability.ai (Stable Diffusion) Discord

Flux：新王者？：成员们讨论了 Flux 接管图像生成 AI 社区的潜力，每天都有新的 Loras 和合并模型出现。
- 一些人认为 Stability AI 需要尽快发布产品进行竞争，因为 Flux 正在成为 CivitAI 和 Hugging Face 上的主导力量。
Flux vs. SD3：巅峰对决：关于 Flux 是否与 SD3 有本质区别存在争论，这两个模型都使用了 DiT 架构、ret flow loss 和类似的 VAE 尺寸。
- 关键区别在于 Flux dev 是从大模型蒸馏而来的，而 Stability AI 也可以使用这种技巧。一些人更倾向于非蒸馏模型，即使图像质量较低。
Flux 训练：挑战与机遇：成员们讨论了为 Flux 训练 Loras 的挑战，并指出训练代码尚未正式发布。
- 一些用户正在探索本地训练 Loras 的方法，而另一些用户则建议使用 Replicate 官方的 Flux LoRA Trainer 以获得更快、更简便的结果。
ComfyUI vs. Forge：UI 之争：用户讨论了 ComfyUI 和 Forge 之间的性能差异，一些人发现 Forge 更快，尤其是在批处理方面。
- 讨论涉及了 Gradio 4 更新对 Forge 的影响以及未来改进的潜力。一些用户喜欢 ComfyUI 的灵活性，而另一些用户则欣赏 Forge 的优化。
Stable Diffusion 的 GPU 推荐：成员们分享了各种 GPU 在 Stable Diffusion 中的表现经验，16GB VRAM 被视为最低配置，24GB 则比较舒适。
- 讨论涉及了 VRAM 比 CPU 速度更重要，以及 RAM 和其他应用程序对性能的影响。共识是尝试不同的模型和编码器，以找到最适合每个系统的配置。

HuggingFace Discord

Hermes 2.5 表现优于 Hermes 2：在添加了代码指令示例后，Hermes 2.5 在各种基准测试中的表现似乎优于 Hermes 2。
- Hermes 2 在 MMLU 基准测试中得分为 34.5，而 Hermes 2.5 得分为 52.3。
Mistral 在扩展超过 8k 时面临困难：成员们表示，如果不进行持续预训练，Mistral 无法扩展到 8k 以上，这是一个已知问题。
- 他们指出，mergekit 和 frankenMoE finetuning 的进一步工作是性能的下一个前沿。
模型合并策略讨论：一位成员建议将 UltraChat 和基础 Mistral 之间的差异应用于 Mistral-Yarn，作为一种潜在的合并策略。
- 其他人表示怀疑，但该成员保持乐观，并引用了过去在他们称之为“诅咒式模型合并（cursed model merging）”方面的成功尝试。
Open Empathic 项目寻求协助：一位成员呼吁帮助扩大 Open Empathic 项目的类别，特别是在低端部分。
- 他们分享了一个关于 Open Empathic 发布与教程的 YouTube 视频，指导用户贡献他们喜欢的 YouTube 视频电影场景，以及 OpenEmpathic 项目本身的链接。
带有 1st Momentum 的 FP8 训练实现了相似的 Loss：使用 FP8 中的 1st momentum 平滑训练 1B FP8 模型至 48k steps，其产生的 Loss 与带有 0.08 offset 的 bfloat16 相当。
- 这表明 FP8 训练配合 1st momentum 是有效的，可以达到与 bfloat16 训练相似的结果。

Unsloth AI (Daniel Han) Discord

Ghost 8B Beta (1608) 发布：Ghost 8B Beta (1608) 已发布，这是一个性能顶尖的语言模型，具有无与伦比的多语言支持和成本效益。
- 在胜率（winrate）得分上，它的表现优于 Llama 3.1 8B Instruct, GPT-3.5 Turbo, Claude 3 Opus, GPT-4 等模型。
Ghost 8B Beta 的多语言实力：Ghost 8B Beta 现在支持 16 种语言，包括英语、越南语、西班牙语、中文等。
- 它提供两种上下文选项（8k 和 128k），并改进了数学、推理和指令遵循能力，以更好地处理任务。
Ghost 8B Beta 超越竞争对手：在 AlpacaEval 2.0 胜率得分中，Ghost 8B Beta 的表现优于 Llama 3.1 8B Instruct, GPT 3.5 Turbo, Claude 3 Opus, Claude 3 Sonnet, GPT-4 和 Mistral Large 等模型。
- 这种令人印象深刻的表现突显了其卓越的知识能力和多语言实力。
使用 LLM 进行代码编辑：一篇新论文探讨了如何根据用户指令使用 Large Language Models (LLMs) 进行代码编辑。
- 它引入了 EditEval（一个用于评估代码编辑性能的新颖基准测试）和 InstructCoder（一个用于对 LLM 进行代码编辑指令微调的数据集，包含超过 114,000 个指令-输入-输出三元组）。
LLM 中的推理差距：一篇研究论文提出了一个框架，使用基准测试的功能变体（特别是 MATH 基准测试）来评估 LLM 的推理能力。
- 它将“推理差距”定义为将任务作为编程问题与作为自然语言问题提出时，解决任务的性能差异，强调 LLM 在任务以代码形式呈现时通常表现更好。

Nous Research AI Discord

线性 Transformer：与 Softmax 的天作之合：Nous Research 发布了关于一种与 Softmax 匹配的线性 Transformer 变体的研究，允许以 O(t) 而非 O(t^2) 的复杂度进行训练。
- 该研究可在此处查看，探讨了这种新变体及其对训练效率的影响。
Falcon Mamba 7B 击败 Llama 3 8B：一段 YouTube 视频宣布发布 Falcon Mamba 7B，并声称其性能优于 Llama 3 8B。
- 这可能对大语言模型领域产生重大影响，因为 Falcon Mamba 7B 是一个相对较新且充满前景的模型。
正则表达式作为分块技术的争议：一位用户分享了他们对基于正则表达式（regex）的文本分块器的看法，表示如果他们在代码库中看到它会“尖叫”，因为正则表达式非常复杂。
- 然而，另一位用户反驳说，专门针对文本分块器，正则表达式可能是一个“非常可靠的选择”，因为它提供了“回溯优势”并允许灵活的分块设置。
Hermes 3：N8Bench 的性能之王？：Hermes 3 在 N8Bench 基准测试中的得分与 Llama 3.1 Instruct 相同，该基准测试衡量模型推理和解决问题的能力。
- 这是一个重要的结果，因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一。
Gemini Flash：RAG 的未来？：一位用户报告说，他们已将部分 RAG 任务迁移到 Gemini Flash，并指出总结质量有所提高，且减少了迭代需求。
- 他们分享了一个用于通过 Gemini Flash 处理原始非结构化转录文本的脚本，可在 GitHub 上获取：https://github.com/EveryOneIsGross/scratchTHOUGHTS/blob/main/unstruct2flashedTRANSCRIPT.py。

Perplexity AI Discord

Perplexity Pro 注册体验不佳：多位用户报告了 Perplexity Pro 的注册流程问题，尽管收到了免费一年的优惠，但用户在不付费的情况下无法完成注册。
- 建议用户联系 support@perplexity.ai 以寻求此问题的帮助。
Obsidian Copilot 获得 Claude 加持：一位用户分享了使用 Claude API key 配合 Obsidian Copilot 插件的经验，认为其在性能方面是一个可靠的选择。
- 他们强调了在正式使用前检查 API 计费设置的重要性，并指出 Obsidian 需要具备实时联网能力。
Perplexity 的图像生成功能表现不佳：用户讨论了 Perplexity 图像生成功能的缺陷，该功能目前仅对 Pro 用户开放，且需要 AI 提示词来描述图像。
- 用户认为这是一种“奇怪”且“糟糕”的实现方式，并强调需要一种更精简的图像生成方法。
Perplexity 搜索遇到小故障：多位用户报告了 Perplexity 的搜索质量问题，包括难以找到相关链接以及收到不准确的结果。
- 这些问题被归因于可能的 Bug、提示词（prompts）变更或推理后端服务的更新。
Perplexity 模型变更引发用户担忧：讨论围绕 Perplexity 模型的变更展开，用户对响应质量可能下降以及“我无法为此提供帮助”错误增加表示担忧。
- 其他担忧还包括 API 响应中缺失标点符号，以及在非科学查询中使用 Wolfram Alpha。

OpenRouter (Alex Atallah) Discord

Hermes 3 405B 本周末免费！：由 Lambda Labs 提供支持，Hermes 3 405B 限时免费，具备 128k context。
- 您可以通过此链接进行体验。
GPT-4 extended 现已上线 OpenRouter：现在可以通过 OpenRouter 使用 GPT-4 extended output（Alpha 测试阶段）。
- 该模型限制最大输出为 64k tokens。
Perplexity Huge 是 OpenRouter 上最大的在线模型：Perplexity Huge 于 3 天前发布，是 OpenRouter 上最大的在线模型。
- 您可以在此链接找到更多信息。
模型发布周：本周 OpenRouter 上发布了 10 个新模型，包括 GPT-4 extended、Perplexity Huge、Starcannon 12B、Lunaris 8B、Llama 405B Instruct bf16 和 Hermes 3 405B。
- 您可以在此链接查看完整列表。
量化会降低性能：根据 @hyperbolic_labs 的说法，量化（Quantization）会大幅降低 405B 模型的性能。
- 如果您担心性能问题，他们建议与其联系，因为他们提供替代解决方案。

LM Studio Discord

INT8 量化能提升 CPU 速度吗？：一位成员询问了在 CPU 上对较小模型使用 INT8 量化是否能带来性能提升。
- 他们建议某些 CPU 可能原生支持 INT8 执行，从而绕过向 FP32 的转换，并可能提高性能。
Llama.cpp 支持 Mini-CPM-V2.6 和 Nemotron/Minitron：一位成员确认最新的 llama.cpp 版本支持 Mini-CPM-V2.6 以及 Nvidia 的 Nemotron/Minitron 模型。
- 此次更新扩大了与 llama.cpp 兼容的模型范围，增强了其对 LLM 爱好者的通用性。
将聊天记录导入 LM Studio：一位成员寻求关于如何将 JSON 导出的聊天日志导入 LM Studio 的指导。
- 另一位成员澄清说聊天数据存储在 JSON 文件中，并提供了访问相关文件夹位置的说明。
Vulkan 错误：CPU 缺少 AVX2 支持：一位用户遇到了错误，提示其 CPU 缺少 AVX2 支持，导致无法使用某些功能。
- 一位热心成员询问了 CPU 型号，以协助诊断并解决该问题。
LLM 与网页交互：一个复杂的挑战：一位成员讨论了让 LLM 与网页交互的可能性，特别是寻求一种“视觉（vision）”方法。
- 虽然提到了 Selenium 和 IDkit 等工具，但普遍共识是，由于网页结构的多样性，这仍然是一个具有挑战性的问题。

OpenAI Discord

Claude 在代码方面表现优于 Chat-GPT：一名成员表示，Claude 在处理代码方面往往比 Chat-GPT 更出色。
- 坦白说，GPT-4o 的 API 成本高于 Claude 这一点毫无道理。
Livebench.ai：Yann LeCun 的开源基准测试：Livebench.ai 是由 Yann LeCun 等人创建的开源基准测试。
- LMSys 基准测试目前可能是最糟糕的。
Claude Projects 对比 Chat-GPT Memory 功能：一名成员认为 Claude Projects 比 Chat-GPT 的 Memory 功能更有用。
- 该成员还表示，自定义 GPTs 更像是一个项目，允许使用你自己的 endpoints。
OpenAI 正在赢得注意力游戏：OpenAI 通过发布 GPT-4o 等新模型来控制注意力，从而赢得竞争。
- 该成员表示，即使人们不想参与技术炒作，也都在讨论 OpenAI 的新模型。
GPT-4o 现在比 Claude 和 Mistral 差：成员们注意到 GPT-4o 最近变得越来越笨，可能正遭受某种“阿尔茨海默症”的困扰。
- Claude Sonnet 因其卓越的性能而受到称赞，正成为成员们的首选。

Latent Space Discord

Topology 的 CLM：像人类一样学习：Topology 发布了 Continuous Learning Model (CLM)，这是一种能够记住交互、自主学习技能并在空闲时间思考的新模型，就像人类一样。
- 该模型可以在 http://topologychat.com 进行体验。
GPT5 需要大 20 倍：Mikhail Parakhin 发推称，为了让 AI 模型获得实质性的改进，新模型的规模应至少比当前模型大 20倍。
- 这将需要 6个月 的训练时间以及一个新的、大 20倍 的数据中心，而建造这样一个数据中心大约需要一年时间。
Procreate 拒绝生成式 AI：Procreate 的 CEO 表示，他们不会将生成式 AI 集成到产品中。
- 虽然社交媒体上的一些艺术家和用户对此表示庆祝，但也有人指出，这可能意味着未来不会增加新功能，且这种情况可能会发生变化。
DSPy：尚未完全商业化：目前 DSPy 背后还没有商业公司，尽管 Omar 正在为此努力。
- 一名成员分享说，他们参加了 Cursor 办公室的见面会，虽然没有 alpha 版本可以分享，但他们确实打了招呼。
DSPy 弥合差距：DSPy 旨在弥合 prompting 与 finetuning 之间的差距，让用户能够避免手动进行 prompt tuning。
- 论文提到 DSPy 避免了 prompt tuning，这可能使得切换模型、重新调整以适应数据偏移等操作变得更加容易。

Cohere Discord

Cohere Office Hours 启动！：加入 Cohere 的 高级产品经理 和 DevRel，参加关于 产品和内容更新 的轻松会议，包含 最佳实践 以及关于 Prompt Tuning、带有 Agents 的 Guided Generations API 和 LLM University Tool Use 模块 的 问答环节。
- 活动于今天 东部时间下午 1 点在 #stage 频道 举行，可以通过此链接找到。
Cohere Prompt Tuner：优化的 Prompting！：了解 Cohere Prompt Tuner，这是一个优化提示词并提高 LLM 结果准确性的强大工具。
- 博客文章详细介绍了如何利用该工具及相关功能。
Command-r-plus 无法工作？：一名用户报告说，当 context length 达到 4000 个 token 时，Sillytavern 中的 command-r-plus 停止稳定工作。
- 该用户一直尝试使用该工具来增强工作流程，但面临这一意外问题。
API Key 部分响应问题：一名用户报告其 API Key 仅返回部分响应，即使尝试了不同的 Wi-Fi 路由器和蜂窝数据也是如此。
- 该用户目前正在寻求此问题的解决方案。
用于准确 JSON 生成的 Structured Outputs：Structured Outputs 是 Cohere 工具的最新更新，其 JSON 生成 速度比开源实现快 80倍 且更准确。
- 这一新功能提高了 JSON 输出的准确性，并在这篇博客文章中进行了讨论。

Interconnects (Nathan Lambert) Discord

Yi Tay 的“混沌不眠式拼命”工作风格：讨论涉及了各家 AI 组织的工作风格，一名成员暗示 Yi Tay 以一种“混沌不眠式拼命（chaos no sleep grind）”的心态在运作。
- 他们引用了 Phil (@phill__1) 的一条推文，暗示 01AI 可能正在退出非中国市场：.@01AI_Yi 怎么了？他们要退出非中国市场吗？。
Nancy Pelosi 反对加州 AI 法案：荣誉议长 Nancy Pelosi 发表声明，反对加州关于 AI 监管的 Senate Bill 1047 法案。
- 该声明发布在众议院网站上：Pelosi 关于反对加州参议院 1047 号法案的声明。
Zicheng Xu 从 Allen-Zhu 团队被裁：Zeyuan Allen-Zhu 宣布“Part 2.2”教程的作者 Zicheng Xu 意外被裁员。
- Allen-Zhu 极力推荐 Xu，并为潜在的合作者或雇主提供了他的电子邮箱：zichengBxuB42@gmail.com（请删除大写字母 ‘B’）。
Nous Hermes Discord 关于评估设置的争议：一名用户提到了 Nous Discord 中关于某用户表现无礼以及误导评估设置的讨论。
- 该用户提到他们的评估细节位于论文的 SFT 章节中，并承认弄错事实的感觉并不好，但文章的核心内容仍然有效。
Meta Cooking（模型调优）引发困惑：一名用户好奇什么是 “meta cooking”，暗示 Nous Discord 中可能存在冲突或争议。
- 该用户提到发现了关于评估设置的矛盾信息，这可能是由于使用了默认的 LM Harness 设置且缺乏清晰的文档说明。

OpenAccess AI Collective (axolotl) Discord

GrokAdamW 提升 Axolotl 速度：GrokAdamW 是一款旨在鼓励快速 Grokking 的 PyTorch 优化器，现已发布并可通过 Transformers 集成在 Axolotl 中使用。GrokAdamW 仓库
- 该优化器的灵感来自 GrokFast 论文，旨在加速模型在 Grokking 现象下的泛化能力。GrokFast 论文
Gemma 2b 训练故障：一名用户报告在训练 Gemma 2b 模型时，Loss 持续为 0.0，且梯度范数（gradient norm）为 nan。
- 该用户建议在训练 Gemma 2b 模型时使用 eager attention 代替 sdpa，这解决了 Loss 为零的问题。
Axolotl 中的自定义加载器与聊天模板：一名用户询问如何在 Axolotl 的 .yml 配置文件中使用 Chat Template 类型，特别是如何指定使用哪种加载器（例如 ShareGPT）。
- 另一名用户建议可以通过提供自定义 .yml 文件来指定使用的加载器。
使用 Axolotl 进行微调：无需编程：一名用户澄清，使用 Axolotl 进行微调通常不需要编程知识，而是需要理解如何格式化数据集以及如何适配现有示例。
- 一名用户提到自己拥有一台强大的 AI 运行设备来运行 Llama 3.1 70b，但觉得它在某些关键领域仍有不足，希望使用自己的内容数据集进行微调。
LLaMa 3.1 8b Lora 检测事后推理：一名用户正在训练一个 LLaMa 3.1 8b Lora，用于检测对话中的事后推理（post-hoc reasoning）。他花了三天时间整理了一个包含不到 100 条多轮对话、约 30k token 的小型数据集。
- 该用户使用 Sonnet 3.5 辅助生成示例，但尽管精心设计了 Prompt，仍必须对每个生成的示例进行多处修正。因为即使指示模型不要创建带有事后推理的示例，由于其微调数据的特性，模型仍然会生成此类内容。

LangChain AI Discord

LangChain 缓存问题：一位成员对为什么 .batch_as_completed() 没有通过缓存加速感到困惑，尽管在缓存后 .invoke() 和 .batch() 几乎是瞬间完成的。
- 他们观察到缓存是在第一次运行后填充的，但 .batch_as_completed() 似乎没有利用它。
LLM 在结构化输出方面表现不佳：一位成员提到本地 LLM（如 Llama 3.1）通常难以产生一致的结构化输出，特别是在 JSON 解析方面。
- 他们询问了专门为训练模型以改进 JSON 解析以及针对 Tool 和 ReAct Agent 的结构化输出而设计的数据集。
在 RAG 聊天机器人中删除文件：一位成员讨论了如何在使用 MongoDB 作为向量数据库的 RAG 聊天机器人中实现文件删除功能。
- 一份回复提供了使用 LangChain 库中针对 MongoDB 向量存储和 OpenAIFiles 的 delete 方法示例，并附带了相关的文档链接。
混合搜索相关性问题：一位成员在使用 BM25Retriever 和向量相似度搜索的混合搜索方法的 RAG 应用中遇到了检索文档和生成答案的相关性问题。
- 建议包括检查文档质量、调整 Retriever 配置、评估 Chain 设置以及审查 Prompt 和 LLM 配置。
CursorLens 是面向 Cursor 用户的新仪表板：CursorLens 是一个面向 Cursor 用户的开源仪表板，提供关于 Prompt 的分析，并允许配置 Cursor 本身不提供的模型。
- 它最近在 ProductHunt 上发布：https://www.producthunt.com/posts/cursor-lens。

OpenInterpreter Discord

Orange Pi 5 评测：新型实惠的 SBC：一位用户分享了 Orange Pi 5（一种新型 Arm-based SBC）的 YouTube 视频评测。
- 视频强调 Orange Pi 5 不要与 Raspberry Pi 5 混淆。
GPT-4o-mini 模型问题：快速修复：一位用户在将模型设置为 GPT-4o-mini 时遇到麻烦。
- 另一位用户提供了解决方案：interpreter --model gpt-4o-mini。
OpenInterpreter 设置重置：还原指南：一位用户寻求在实验后将 OpenInterpreter 设置恢复为默认的方法。
- 解决方案包括使用 interpreter --profiles 查看和编辑配置文件，以及可能需要卸载并重新安装 OpenInterpreter。
OpenInterpreter API 集成：构建桥梁：一位用户询问如何将 OpenInterpreter 集成到他们现有的 AI 核心中，发送请求并接收输出。
- 推荐的解决方案包括使用带有 Flask 服务器的 Python 脚本来处理 AI 核心与 OpenInterpreter 之间的通信。
用于 Bash 命令的本地 LLM：CodeStral 和 Llama 3.1：一位成员请求推荐能够处理 Bash 命令的本地 LLM。
- 另一位成员建议使用 CodeStral 和 Llama 3.1。

DSPy Discord

LLM 挣扎于可靠性问题：众所周知，大语言模型（LLM）会产生事实错误的信息，导致“幻觉”内容，从而阻碍其可靠性。
- WeKnow-RAG 解决了这一问题，该系统将网络搜索和 Knowledge Graphs 集成到检索增强生成（RAG）系统中，以提高 LLM 的准确性和可靠性。
DSPy 公布其 Roadmap：DSPy 2.5（预计 1-2 周内发布）和 DSPy 3.0（几个月内发布）的 Roadmap 已经发布，概述了目标、里程碑和社区贡献。
- 该 Roadmap 可在 GitHub 上查看：DSPy Roadmap。
Langgraph 和 Routequery 类错误：一位用户在 Langgraph 中遇到了 routequery 类的错误。
- 他们寻求关于将 DSPy 与大型工具集集成的指导，并分享了 Langgraph 实现的链接：Adaptive RAG。
优化专家设计的 Prompt：一位成员询问 DSPy 是否可以优化已经由专家手动设计的 Prompt。
- 他们询问 DSPy 是否能有效优化初始草案，并改进已建立的 Prompt 系统。
Colpali 微调讨论：讨论集中在 Colpali 的微调上，由于其领域特定性，该模型需要专门的专业知识。
- 讨论强调了理解有效微调 Colpali 所需数据的重要性。

LAION Discord

FLUX Dev 可以生成网格：一位用户分享了 FLUX Dev 可以生成同一个（虚构）人物的 3x3 照片网格。
- 这对于训练 LORAs 以创建各种虚构人物的一致角色非常有用。
为特定目的训练 LORAs：一位用户表示有兴趣为特定目的训练 LORAs，例如 dabbing、middle finger 和 30s cartoon 风格。
- 他们提到了将他们的 FLUX Dev LoRA 转换为 FP8 或在 Replicate 上使用 FP8 LoRA trainer 的可能性。
用于医疗辅助的 LLMs：尚未准备就绪：几位用户对目前将 LLMs 用于医疗辅助表示怀疑。
- 他们认为 LLMs 在此类关键应用中尚不够可靠。
JPEG-LM：用于图像和视频的 LLMs？：一篇新的研究论文提出在自回归 LLM 架构中，使用标准编解码器（如 JPEG、AVC/H.264）将图像和视频建模为压缩文件。
- 这种方法消除了对原始像素值建模或矢量量化的需求，使过程更高效，并为未来的研究提供了潜力。
JPEG-LM vs. SIREN：巨头之战？：一位用户俏皮地声称，他们使用 33kB 的复数值神经网络超越了 2020 年的 SIREN 架构。
- 虽然承认 NVIDIA 2022 年的 Neural Graphics Primitives 论文显著推动了该领域的发展，但他们强调了使用 MS-SSIM 作为图像质量评估指标的重要性，而不仅仅是 MSE 和 MAE。

LlamaIndex Discord

Workflows 成为焦点：Rajib Deb 分享了一个展示 LlamaIndex 的 workflow 能力的视频，演示了装饰器、控制流类型、事件驱动的过程链，以及用于复杂任务的自定义事件和步骤。
- 该视频专注于 workflows，强调了它们以更结构化的方式构建复杂应用的能力。
使用 Claude 3.5 构建 Agentic RAG 助手：Richmond Lake 的教程指导用户使用 Claude 3.5、MongoDB 和 LlamaIndex 构建 agentic 知识助手，强调在现有 RAG 管道之上构建 agentic 知识助手。
- 本教程演示了使用 LlamaIndex 实现高级 RAG 技术，强调工具选择、任务分解和事件驱动的方法论。
BeyondLLM 简化高级 RAG 管道：由 AIPlanetHub 开发的 BeyondLLM 在 LlamaIndex 之上提供了抽象，使用户仅需 5-7 行代码即可构建具有评估、可观测性和高级 RAG 功能的高级 RAG 管道。
- 这些高级 RAG 功能包括查询重写、向量搜索和文档摘要，简化了复杂 RAG 应用的开发。
网页爬虫：LlamaIndex 的难题：一位成员询问了适用于 LlamaIndex 的网页爬虫推荐，另一位成员推荐了 FireCrawl，并分享了一个展示 LlamaIndex workflow 更复杂实现的 YouTube 视频。
- 对话强调了对能与 LlamaIndex 无缝集成的有效网页爬取工具的需求，以实现高效的知识提取和处理。
揭秘 RouterQueryEngine 和 Agents 的秘密：一位成员寻求澄清 LlamaIndex 的 RouterQueryEngine 和 Agents 之间的区别，特别是在路由和 function calling 方面。
- 讨论明确了 RouterQueryEngine 的行为类似于硬编码的 agent，而 Agents 提供了更大的灵活性和通用性，突出了每种方法的独特能力。

LLM Finetuning (Hamel + Dan) Discord

HF Spaces 的限制：一位成员在通过 HF Spaces 托管自己的 LLM 时遇到困难，因为 ZeroGPU 不支持 vLLM。
- 该成员正在寻找替代方案，可能涉及 Modal。
使用 Modal 托管 LLM：另一位成员报告使用 Modal 托管 LLMs。
- 然而，他们目前正在转向 FastHTML，并正在寻找设置指南。
使用 Jarvis Labs 进行微调：一位成员分享了他们专门使用 Jarvis Labs 进行 LLM 微调的经验。
- 这表明与其他平台相比，Jarvis Labs 可能提供了一种更简化的方法。

Alignment Lab AI Discord

OpenAI 和 Google 通过 Batching API 降低成本：OpenAI 和 Google 为部分模型推出了新的 Batching API，与常规请求相比，成本降低了 50%。
- 然而，这些 API 目前缺乏处理保证、服务等级协议 (SLAs) 和重试机制。
CuminAI：开源 Batching API：CuminAI 提供了一种为开源模型创建 Batching API 的解决方案，类似于 OpenAI 提供的服务。
- 在这里查看他们的分步指南：“如何为开源模型获取类似 OpenAI 的 Batching API”。
SLM：AI 的新超级英雄？：CuminAI 强调了小型语言模型 (SLM) 的潜力，认为在 AI 领域“大并不总是更好”。
- 虽然大型语言模型 (LLM) 一直占据主导地位，但 SLM 提供了一种更具成本效益且高效的选择，特别是对于不需要大量计算能力的任务。

Mozilla AI Discord

Llamafile 提升性能并增加新功能：Llamafile 发布了新功能，包括语音转文本命令、图像生成，以及其 HTTP server embeddings 的 3 倍性能提升。
- 由 Justine 撰写的完整更新详细介绍了性能改进和新功能。
Mozilla AI 在 Rise25 庆祝社区：Mozilla AI 正在表彰那些致力于构建负责任、可信、包容且以人类尊严为中心的 AI 未来的社区成员。
- 几位成员参加了此次活动，包括 <@631210549170012166>、<@1046834222922465314>、<@200272755520700416> 和 <@1083203408367984751>。
ML 论文研讨：Agent 与 Transformer 深度探讨：参加由 <@718891366402490439> 主持的关于 Communicative Agents 和 Extended Mind Transformers 的会议。
- 预约会议：与作者 <@878366123458977893> 讨论 Communicative Agents，以及与作者 <@985920344856596490> 讨论 Extended Mind Transformers。

MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

DiscoResearch Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

第 2 部分：按频道详细摘要和链接

为了适配电子邮件，完整的频道明细已被截断。

如果你想查看完整明细，请访问此邮件的网页版本：！

如果你喜欢 AInews，请分享给朋友！预谢！

DSPy 路线图