ainews-the-dspy-roadmap

DSPy 路线图

Omar Khattab 宣布在前往麻省理工学院(MIT)任教前加入 Databricks,并概述了 DSPy 2.5 和 3.0+ 的路线图。其重点是改进语言模型(LM)、签名(signatures)、优化器(optimizers)和断言(assertions)等核心组件,包括采用 LiteLLM 以减少代码量并增强缓存和流式传输功能。该路线图还包括开发更准确、更具成本效益的优化器,编写教程,以及实现交互式优化跟踪。

在 AI 推特圈(AI Twitter)方面,谷歌推出了 Gemini Live,这是一款支持语音对话且拥有 10 种音色的移动端对话 AI,同时还发布了搭载定制 Tensor A1 芯片的 Pixel Buds Pro 2OpenAI 更新了 ChatGPT-4o,重新夺回了 LMSYS Arena 排行榜的榜首。xAI 发布了 Grok-2 测试版,并凭借 FLUX 1 在图像生成领域达到了业界领先水平(SOTA)。Nous Research 发布了开源的 Hermes 3 模型,提供 8B、70B 和 405B 三种尺寸,其中 405B 模型达到了 SOTA。机器人领域的动态包括 Astribot 的人形机器人以及苹果公司支持 Siri 语音控制的桌面机器人。Sakana AI 推出了“AI 科学家”(The AI Scientist),这是一个自主的 AI 科研系统。

#model-optimization #fine-tuning #optimizers #interactive-optimization #robotics #autonomous-systems #voice #image-generation #open-source-models #scientific-research #streaming #caching dspy litel-lm gemini chatgpt-4o grok-2 hermes-3 databricks mit google openai x-ai nous-research astribot apple sakana-ai

路线图的主要方向:

  1. 打磨 DSPy 核心的 4 个部分:(1) LMs, (2) Signatures & Modules, (3) Optimizers, 以及 (4) Assertions,使它们能够开箱即用,实现 zero shot 且现成可用。
  • 在 LMs 方面,他们的目标是减少代码行数。特别是他们提到将通过 采用 LiteLLM 来减少 6k 行代码 (LOC)。不过,他们将增加“改进的缓存、LMs 的保存/加载、对流式传输和异步 LM 请求的支持”等功能。
  • 在 Signatures 方面,既然“结构化输出”已成为主流,他们正在演进“结构化输入”的概念。
  • 在微调(Finetuning)方面:他们的目标是“为程序中的几个不同模块引导(bootstrap)训练数据,训练多个模型并处理模型选择,然后将这些模型加载并插入到程序的模块中”。
  1. 开发更准确、成本更低的优化器(optimizers)。 继 BootstrapFewShot -> BootstrapFinetune -> CA-OPRO -> MIPRO -> MIPROv2 和 BetterTogether 优化器之后,将开展更多工作来提高质量、成本和鲁棒性。

  2. 构建端到端教程。 更多文档!

  3. 转向更具交互性的优化和追踪。 帮助用户“实时观察优化过程(例如:分数、堆栈跟踪、成功和失败的追踪以及候选提示词)”。

虽然没有什么惊天动地的突破,但对于一个管理得非常好的开源框架来说,这是一个很棒的路线图更新。


目录频道摘要已移至此邮件的网页版:


AI Twitter 回顾

所有摘要均由 Claude 3.5 Sonnet 完成,从 4 次运行中择优录取。

AI 与机器人进展

  • Google Gemini 更新:Google 推出了 Gemini Live,这是一款具有语音功能和 10 种语音的移动对话式 AI,适用于 Android 上的 Gemini Advanced 用户。他们还推出了 Pixel Buds Pro 2,搭载定制的 Tensor A1 芯片以支持 Gemini 功能,实现免提 AI 辅助。

  • OpenAI 进展OpenAI 更新的 ChatGPT-4o 模型 重新夺回了 LMSYS Arena 榜首,该模型以“anonymous-chatbot”代号测试了一周,获得了超过 1.1 万张选票。

  • xAI 的 Grok-2xAI 发布了 Grok-2,目前已向 Premium X 用户开放测试版。它可以使用 FLUX 1 生成“放飞自我”的图像,并在短短一年多时间内达到了 SOTA 状态。

  • 开源模型Nous Research 发布了 Hermes 3,这是一个开源模型,提供 8B、70B 和 405B 参数版本,其中 405B 模型相对于其他开源模型达到了 SOTA。

  • 机器人技术进步Astribot 展示了他们的新型人型机器人,展示了其在无需远程操作的情况下令人印象深刻的实时自由度。据报道 Apple 正在开发 一款带有 Siri 语音命令的桌面机器人,将类似 iPad 的显示屏与机械臂相结合。

  • AI 研究工具Sakana AI 推出了“The AI Scientist”,声称是世界上第一个能够自主进行科学研究、产生想法、编写代码、运行实验并撰写论文的 AI 系统。

AI 模型性能与技术

  • Vision Transformer (ViT) 性能@giffmana 发表了一篇博客文章,解决了关于 ViT 在高分辨率下的速度、长宽比重要性以及分辨率要求的疑虑。

  • RAG 改进关于利用 LLM 提取的元数据进行数据库过滤以改进多跳查询 RAG 的新研究 在 MultiHop-RAG 基准测试中显示出良好的结果。HybirdRAG 结合了 GraphRAG 和 VectorRAG,在财务业绩电话会议记录上的表现优于两者。

  • 模型优化@cognitivecompai 报告称,在使用 Dolphin 2.9.4 数据集训练 gemma-2-2b 时,GrokAdamW 似乎有所改进。

  • 小模型技术@bindureddy 鼓励对 2B 的小模型进行迭代,使其更加实用,并发明可以应用于更大模型的新技术。

AI 应用与工具

  • LangChain 进展LangChain JS 教程 介绍了如何使用 LLM 分类器根据查询类型进行动态 Prompt 选择。使用 Claude 3.5 Sonnet 的 Agentic RAG、MongoDB 和 llama_index 展示了在现有 RAG 流水线上构建 Agentic 知识助手。

  • AI 助力软件工程Cosine 演示了 Genie,这是一个全自动 AI 软件工程师,以 30.08% 的成绩打破了 SWE-Bench 的最高分。OpenAI 和 SWE-Bench 的作者重新设计并发布了 ‘SWE-bench Verified’,以解决原始基准测试中的问题。

  • 生产力工具@DrJimFan 表达了对 LLM 根据 Prompt 自动过滤、标记 Gmail 并重新排列优先级的期望,强调了 AI 在电子邮件管理方面的潜力。

AI 伦理与社会影响

  • AI 欺骗辩论@polynoamial 讨论了将扑克中的诈唬(bluffing)误解为 AI 欺骗的例子,认为这更多是为了不泄露多余信息,而非主动欺骗。

  • AI 推理能力@mbusigin 认为 LLM 在推理方面已经优于相当一部分人类,因为它们不依赖“直觉”,并且在逻辑推理测试中表现良好。

梗与幽默

  • @AravSrinivas 调侃道:“Networking ~= Not actually working”(社交 ~= 没在干活)
  • @AravSrinivas 分享了一张与 AI 或技术相关的幽默图片(内容未具体说明)。
  • @Teknium1 吐槽视频生成技术:“为什么几乎所有的视频生成都只是平移或缩放,你还不如用 Flux(快 1000 倍)生成一张图片。”

这份摘要涵盖了所提供推文中 AI 和机器人领域的关键进展、讨论和趋势,重点关注与 AI 工程师和研究人员相关的信息。


AI Reddit 综述

/r/LocalLlama 综述

主题 1. XTC:用于增强 LLM 创造力的新采样器

  • Exclude Top Choices (XTC):一种提升创造力、打破写作陈词滥调并抑制非逐字重复的采样器,由 DRY 的创作者开发 (Score: 138, Comments: 64):Exclude Top Choices (XTC) 采样器在 text-generation-webui 的一个 GitHub pull request 中被引入,旨在以对连贯性影响最小的方式提升 LLM 创造力打破写作陈词滥调。创作者报告称,XTC 能产生新颖的词句和想法,特别增强了角色扮演和故事写作,其体验与单纯提高语言模型的 Temperature 明显不同。

主题 2. 个人 GPU 用于 AI 开发的成本效益分析

  • 老实说,一块 4090 真的做不了什么 (Score: 84, Comments: 90):作者是一名从事 AI 基础设施和 ML 工程的工作者,对他为个人 AI 项目购买的 4090 GPU 表示失望。他们认为,对于大多数用例,云端 API 服务企业级 GPU 集群比单块高端消费级 GPU 进行 AI 任务更实用且更具成本效益,并质疑了个人拥有本地 GPU 进行 AI 实验的价值。

AI Reddit 全面回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 模型进展与对比

  • Flux LoRA 训练结果:一位用户分享了在《权力的游戏》角色上训练 Flux LoRA 模型的惊人结果,仅使用 10 张图像的数据集和 500-1000 个训练步数就实现了高质量输出。训练过程需要超过 60GB 的 VRAM。来源

  • 卡通角色对比:对比了多种 AI 模型(DALL-E 3, Flux dev, Flux schnell, SD3 medium)生成卡通角色吃西瓜的效果。DALL-E 3 整体表现最佳,Flux dev 位居第二。帖子强调了 DALL-E 3 利用复杂的 LLM 系统将图像划分为不同区域进行详细描述。来源

  • Flux.1 Schnell 放大技巧:一位用户分享了提升 Flux.1 Schnell 输出人脸质量的技巧,建议在放大写实图像时使用 4xFaceUpDAT 而非 4x-UltraSharp。帖子还提到了其他放大模型和增强图像质量的技术。来源

AI 公司策略与批评

  • OpenAI 的商业行为:一位用户批评 OpenAI 像经营“微型 Ycombinator 初创公司”一样管理公司,理由包括等候名单、CEO 神秘的推文以及发布前的预热视频。帖子认为这些策略不适合一家估值近 1000 亿美元的公司,可能会让客户和企业用户感到困惑。来源

AI 生成内容与迷因 (Memes)

  • 《迷雾》(Flux+Luma):一段展示使用 Flux 和 Luma 模型生成的 AI 内容视频,内容似乎灵感源自电影《迷雾》。来源

  • 看起来有点眼熟?:r/singularity 版块中的一个迷因帖子,可能引用了 AI 相关内容。来源

  • 总得有人说出来…:r/StableDiffusion 版块中的另一个迷因帖子。来源

未来技术与研究

  • 自动驾驶汽车越狱:一个推测一旦自动驾驶汽车普及,人们将尝试对其进行越狱的帖子。来源

  • 狗狗逆龄药:一项研究报告了在狗身上测试逆龄药的乐观结果。然而,该帖子缺乏同行评审研究的引用,并因过于轶事化而受到批评。来源


AI Discord 回顾

由 Claude 3.5 Sonnet 总结的总结之总结

1. Hermes 3 模型发布与性能

  • Hermes 3 在 N8Bench 上追平 Llama 3.1Hermes 3N8Bench 基准测试中获得了与 Llama 3.1 Instruct 相同的分数,该基准测试衡量模型的推理和问题解决能力。
    • 这一结果意义重大,因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一,凸显了 Hermes 3 的竞争性能。
  • Hermes 3 405B 在 OpenRouter 开启免费周末OpenRouter 宣布,由 Lambda Labs 提供支持,Hermes 3 405B 在限时内免费使用,并提供 128k 上下文窗口
  • 量化对 405B 模型的影响@hyperbolic_labs 警告称,量化 (Quantization) 会显著降低 405B 模型 的性能。
    • 他们建议如果对性能有要求,可以联系他们寻求替代方案,强调了减小模型体积与保持性能质量之间的权衡。

2. LLM 推理优化技术

  • INT8 量化用于 CPU 执行:一位成员询问了使用 INT8 量化 来加速小模型在 CPU 上执行的潜在好处,并指出某些 CPU 可能原生支持运行 INT8 而无需转换为 FP32。
    • 这种方法可能提升基于 CPU 推理的性能,特别是对于资源受限的环境或边缘设备。
  • FP8 训练进展:使用 FP8 中的第一动量 (1st momentum) 平稳训练 1B FP8 模型48k steps,其 loss 与带有 0.08 偏移量bfloat16 相当。
    • 这表明 FP8 训练配合第一动量是有效的,在实现与 bfloat16 训练相似结果的同时,可能提供内存节省和性能提升。
  • 开源模型的 Batching APIsCuminAI 推出了一种为开源模型创建 batching APIs 的解决方案,类似于 OpenAI 和 Google 最近推出的功能。
    • 虽然大公司的 batching APIs 缺乏处理保证和 SLA,但 CuminAI 的方法旨在为开源模型部署提供类似的成本节约优势。指南可在 其博客文章 中找到。

3. 开源 AI 模型进展

  • Falcon Mamba 7B 宣称性能超越 Llama 3 8B:一段 YouTube 视频 宣布发布 Falcon Mamba 7B,声称其表现优于 Llama 3 8B
    • 这一进展可能对 LLM 领域产生重大影响,因为 Falcon Mamba 7B 是一个挑战既定基准的、极具前景的新模型。
  • Ghost 8B Beta 的多语言实力:新发布的语言模型 Ghost 8B Beta 现在支持包括英语、越南语、西班牙语和中文在内的 16 种语言,并提供两种上下文选项(8k 和 128k)。
    • 该模型在数学、推理和指令遵循能力方面表现出色,在 AlpacaEval 2.0 胜率得分上超过了 Llama 3.1 8B Instruct、GPT-3.5 Turbo 和 Claude 3 Opus 等竞争对手。
  • 阿里巴巴达摩院 (Alibaba DAMO) 发布 VideoLLaMA 2-72B阿里巴巴达摩院 (Alibaba DAMO) 发布了 VideoLLaMA 2-72B,这是一款新的视频 LLM,可在 HuggingFace 上获取,并在 HuggingFace Spaces 上提供 demo
    • 研究论文 也已在 HuggingFace 上发布,展示了结合视频理解和语言建模的多模态 AI 进展。

4. AI 安全与监管讨论

  • 南希·佩洛西 (Nancy Pelosi) 反对加州 AI 法案荣休议长南希·佩洛西 (Nancy Pelosi) 发表声明,反对关于 AI 监管的 加州参议院第 1047 号法案 (California Senate Bill 1047)
    • 完整声明可在 众议院网站 找到,突显了关于如何在州一级进行 AI 治理的持续辩论。
  • Procreate 拒绝集成生成式 AIProcreate 的 CEO 明确表示,他们不会在产品中集成生成式 AI,这一决定受到了社交媒体上许多艺术家和用户的赞赏。
    • 一些观察者指出,这种立场未来可能会改变,因为它可能会限制新功能的开发。这突显了传统创意工具与创意产业中 AI 快速发展之间持续存在的紧张关系。
  • 加里·马库斯 (Gary Marcus) 重新审视 AI 泡沫担忧:AI 研究员 加里·马库斯 (Gary Marcus) 在一段名为“The AI Bubble: Will It Burst, and What Comes After?”的视频中重新审视了他在 AGI-21 上的主题演讲,指出尽管 AI 取得了重大进展,但他当时强调的许多问题在今天仍然具有现实意义。
    • 这段可在 YouTube 上观看的讨论反映了关于当前 AI 发展趋势的可持续性、轨迹及其潜在社会影响的持续辩论。

第 1 部分:Discord 高层摘要

Stability.ai (Stable Diffusion) Discord

  • Flux:新王者?:成员们讨论了 Flux 接管图像生成 AI 社区的潜力,每天都有新的 Loras 和合并模型出现。
    • 一些人认为 Stability AI 需要尽快发布产品进行竞争,因为 Flux 正在成为 CivitAI 和 Hugging Face 上的主导力量。
  • Flux vs. SD3:巅峰对决:关于 Flux 是否与 SD3 有本质区别存在争论,这两个模型都使用了 DiT 架构、ret flow loss 和类似的 VAE 尺寸。
    • 关键区别在于 Flux dev 是从大模型蒸馏而来的,而 Stability AI 也可以使用这种技巧。一些人更倾向于非蒸馏模型,即使图像质量较低。
  • Flux 训练:挑战与机遇:成员们讨论了为 Flux 训练 Loras 的挑战,并指出训练代码尚未正式发布。
    • 一些用户正在探索本地训练 Loras 的方法,而另一些用户则建议使用 Replicate 官方的 Flux LoRA Trainer 以获得更快、更简便的结果。
  • ComfyUI vs. Forge:UI 之争:用户讨论了 ComfyUI 和 Forge 之间的性能差异,一些人发现 Forge 更快,尤其是在批处理方面。
    • 讨论涉及了 Gradio 4 更新对 Forge 的影响以及未来改进的潜力。一些用户喜欢 ComfyUI 的灵活性,而另一些用户则欣赏 Forge 的优化。
  • Stable Diffusion 的 GPU 推荐:成员们分享了各种 GPU 在 Stable Diffusion 中的表现经验,16GB VRAM 被视为最低配置,24GB 则比较舒适。
    • 讨论涉及了 VRAM 比 CPU 速度更重要,以及 RAM 和其他应用程序对性能的影响。共识是尝试不同的模型和编码器,以找到最适合每个系统的配置。

HuggingFace Discord

  • Hermes 2.5 表现优于 Hermes 2:在添加了代码指令示例后,Hermes 2.5 在各种基准测试中的表现似乎优于 Hermes 2
    • Hermes 2 在 MMLU 基准测试中得分为 34.5,而 Hermes 2.5 得分为 52.3
  • Mistral 在扩展超过 8k 时面临困难:成员们表示,如果不进行持续预训练,Mistral 无法扩展到 8k 以上,这是一个已知问题
    • 他们指出,mergekitfrankenMoE finetuning 的进一步工作是性能的下一个前沿。
  • 模型合并策略讨论:一位成员建议将 UltraChat 和基础 Mistral 之间的差异应用于 Mistral-Yarn,作为一种潜在的合并策略。
    • 其他人表示怀疑,但该成员保持乐观,并引用了过去在他们称之为“诅咒式模型合并(cursed model merging)”方面的成功尝试。
  • Open Empathic 项目寻求协助:一位成员呼吁帮助扩大 Open Empathic 项目的类别,特别是在低端部分。
  • 带有 1st Momentum 的 FP8 训练实现了相似的 Loss:使用 FP8 中的 1st momentum 平滑训练 1B FP8 模型48k steps,其产生的 Loss 与带有 0.08 offsetbfloat16 相当。
    • 这表明 FP8 训练配合 1st momentum 是有效的,可以达到与 bfloat16 训练相似的结果。

Unsloth AI (Daniel Han) Discord

  • Ghost 8B Beta (1608) 发布Ghost 8B Beta (1608) 已发布,这是一个性能顶尖的语言模型,具有无与伦比的多语言支持和成本效益。
    • 在胜率(winrate)得分上,它的表现优于 Llama 3.1 8B Instruct, GPT-3.5 Turbo, Claude 3 Opus, GPT-4 等模型。
  • Ghost 8B Beta 的多语言实力Ghost 8B Beta 现在支持 16 种语言,包括英语、越南语、西班牙语、中文等。
    • 它提供两种上下文选项(8k 和 128k),并改进了数学、推理和指令遵循能力,以更好地处理任务。
  • Ghost 8B Beta 超越竞争对手:在 AlpacaEval 2.0 胜率得分中,Ghost 8B Beta 的表现优于 Llama 3.1 8B Instruct, GPT 3.5 Turbo, Claude 3 Opus, Claude 3 Sonnet, GPT-4 和 Mistral Large 等模型。
    • 这种令人印象深刻的表现突显了其卓越的知识能力和多语言实力。
  • 使用 LLM 进行代码编辑:一篇新论文探讨了如何根据用户指令使用 Large Language Models (LLMs) 进行代码编辑。
    • 它引入了 EditEval(一个用于评估代码编辑性能的新颖基准测试)和 InstructCoder(一个用于对 LLM 进行代码编辑指令微调的数据集,包含超过 114,000 个指令-输入-输出三元组)。
  • LLM 中的推理差距:一篇研究论文提出了一个框架,使用基准测试的功能变体(特别是 MATH 基准测试)来评估 LLM 的推理能力。
    • 它将“推理差距”定义为将任务作为编程问题与作为自然语言问题提出时,解决任务的性能差异,强调 LLM 在任务以代码形式呈现时通常表现更好。

Nous Research AI Discord

  • 线性 Transformer:与 Softmax 的天作之合:Nous Research 发布了关于一种与 Softmax 匹配的线性 Transformer 变体的研究,允许以 O(t) 而非 O(t^2) 的复杂度进行训练。
    • 该研究可在此处查看,探讨了这种新变体及其对训练效率的影响。
  • Falcon Mamba 7B 击败 Llama 3 8B:一段 YouTube 视频宣布发布 Falcon Mamba 7B,并声称其性能优于 Llama 3 8B
    • 这可能对大语言模型领域产生重大影响,因为 Falcon Mamba 7B 是一个相对较新且充满前景的模型。
  • 正则表达式作为分块技术的争议:一位用户分享了他们对基于正则表达式(regex)的文本分块器的看法,表示如果他们在代码库中看到它会“尖叫”,因为正则表达式非常复杂。
    • 然而,另一位用户反驳说,专门针对文本分块器,正则表达式可能是一个“非常可靠的选择”,因为它提供了“回溯优势”并允许灵活的分块设置。
  • Hermes 3:N8Bench 的性能之王?:Hermes 3 在 N8Bench 基准测试中的得分与 Llama 3.1 Instruct 相同,该基准测试衡量模型推理和解决问题的能力。
    • 这是一个重要的结果,因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一。
  • Gemini Flash:RAG 的未来?:一位用户报告说,他们已将部分 RAG 任务迁移到 Gemini Flash,并指出总结质量有所提高,且减少了迭代需求。

Perplexity AI Discord

  • Perplexity Pro 注册体验不佳:多位用户报告了 Perplexity Pro 的注册流程问题,尽管收到了免费一年的优惠,但用户在不付费的情况下无法完成注册。
    • 建议用户联系 support@perplexity.ai 以寻求此问题的帮助。
  • Obsidian Copilot 获得 Claude 加持:一位用户分享了使用 Claude API key 配合 Obsidian Copilot 插件的经验,认为其在性能方面是一个可靠的选择。
    • 他们强调了在正式使用前检查 API 计费设置的重要性,并指出 Obsidian 需要具备实时联网能力。
  • Perplexity 的图像生成功能表现不佳:用户讨论了 Perplexity 图像生成功能的缺陷,该功能目前仅对 Pro 用户开放,且需要 AI 提示词来描述图像。
    • 用户认为这是一种“奇怪”且“糟糕”的实现方式,并强调需要一种更精简的图像生成方法。
  • Perplexity 搜索遇到小故障:多位用户报告了 Perplexity 的搜索质量问题,包括难以找到相关链接以及收到不准确的结果。
    • 这些问题被归因于可能的 Bug、提示词(prompts)变更或推理后端服务的更新。
  • Perplexity 模型变更引发用户担忧:讨论围绕 Perplexity 模型的变更展开,用户对响应质量可能下降以及“我无法为此提供帮助”错误增加表示担忧。
    • 其他担忧还包括 API 响应中缺失标点符号,以及在非科学查询中使用 Wolfram Alpha。

OpenRouter (Alex Atallah) Discord

  • Hermes 3 405B 本周末免费!:由 Lambda Labs 提供支持,Hermes 3 405B 限时免费,具备 128k context
  • GPT-4 extended 现已上线 OpenRouter:现在可以通过 OpenRouter 使用 GPT-4 extended output(Alpha 测试阶段)。
    • 该模型限制最大输出为 64k tokens
  • Perplexity Huge 是 OpenRouter 上最大的在线模型Perplexity Huge3 天前发布,是 OpenRouter 上最大的在线模型
  • 模型发布周:本周 OpenRouter 上发布了 10 个新模型,包括 GPT-4 extendedPerplexity HugeStarcannon 12BLunaris 8BLlama 405B Instruct bf16Hermes 3 405B
  • 量化会降低性能:根据 @hyperbolic_labs 的说法,量化(Quantization)会大幅降低 405B 模型的性能。
    • 如果您担心性能问题,他们建议与其联系,因为他们提供替代解决方案。

LM Studio Discord

  • INT8 量化能提升 CPU 速度吗?:一位成员询问了在 CPU 上对较小模型使用 INT8 量化是否能带来性能提升。
    • 他们建议某些 CPU 可能原生支持 INT8 执行,从而绕过向 FP32 的转换,并可能提高性能。
  • Llama.cpp 支持 Mini-CPM-V2.6 和 Nemotron/Minitron:一位成员确认最新的 llama.cpp 版本支持 Mini-CPM-V2.6 以及 Nvidia 的 Nemotron/Minitron 模型。
    • 此次更新扩大了与 llama.cpp 兼容的模型范围,增强了其对 LLM 爱好者的通用性。
  • 将聊天记录导入 LM Studio:一位成员寻求关于如何将 JSON 导出的聊天日志导入 LM Studio 的指导。
    • 另一位成员澄清说聊天数据存储在 JSON 文件中,并提供了访问相关文件夹位置的说明。
  • Vulkan 错误:CPU 缺少 AVX2 支持:一位用户遇到了错误,提示其 CPU 缺少 AVX2 支持,导致无法使用某些功能。
    • 一位热心成员询问了 CPU 型号,以协助诊断并解决该问题。
  • LLM 与网页交互:一个复杂的挑战:一位成员讨论了让 LLM 与网页交互的可能性,特别是寻求一种“视觉(vision)”方法。
    • 虽然提到了 Selenium 和 IDkit 等工具,但普遍共识是,由于网页结构的多样性,这仍然是一个具有挑战性的问题。

OpenAI Discord

  • Claude 在代码方面表现优于 Chat-GPT:一名成员表示,Claude 在处理代码方面往往比 Chat-GPT 更出色。
    • 坦白说,GPT-4o 的 API 成本高于 Claude 这一点毫无道理。
  • Livebench.ai:Yann LeCun 的开源基准测试:Livebench.ai 是由 Yann LeCun 等人创建的开源基准测试。
    • LMSys 基准测试目前可能是最糟糕的。
  • Claude Projects 对比 Chat-GPT Memory 功能:一名成员认为 Claude Projects 比 Chat-GPT 的 Memory 功能更有用。
    • 该成员还表示,自定义 GPTs 更像是一个项目,允许使用你自己的 endpoints。
  • OpenAI 正在赢得注意力游戏:OpenAI 通过发布 GPT-4o 等新模型来控制注意力,从而赢得竞争。
    • 该成员表示,即使人们不想参与技术炒作,也都在讨论 OpenAI 的新模型。
  • GPT-4o 现在比 Claude 和 Mistral 差:成员们注意到 GPT-4o 最近变得越来越笨,可能正遭受某种“阿尔茨海默症”的困扰。
    • Claude Sonnet 因其卓越的性能而受到称赞,正成为成员们的首选。

Latent Space Discord

  • Topology 的 CLM:像人类一样学习:Topology 发布了 Continuous Learning Model (CLM),这是一种能够记住交互、自主学习技能并在空闲时间思考的新模型,就像人类一样。
  • GPT5 需要大 20 倍:Mikhail Parakhin 发推称,为了让 AI 模型获得实质性的改进,新模型的规模应至少比当前模型大 20倍
    • 这将需要 6个月 的训练时间以及一个新的、大 20倍 的数据中心,而建造这样一个数据中心大约需要一年时间。
  • Procreate 拒绝生成式 AI:Procreate 的 CEO 表示,他们不会将生成式 AI 集成到产品中。
    • 虽然社交媒体上的一些艺术家和用户对此表示庆祝,但也有人指出,这可能意味着未来不会增加新功能,且这种情况可能会发生变化。
  • DSPy:尚未完全商业化:目前 DSPy 背后还没有商业公司,尽管 Omar 正在为此努力。
    • 一名成员分享说,他们参加了 Cursor 办公室的见面会,虽然没有 alpha 版本可以分享,但他们确实打了招呼。
  • DSPy 弥合差距DSPy 旨在弥合 prompting 与 finetuning 之间的差距,让用户能够避免手动进行 prompt tuning。
    • 论文提到 DSPy 避免了 prompt tuning,这可能使得切换模型、重新调整以适应数据偏移等操作变得更加容易。

Cohere Discord

  • Cohere Office Hours 启动!:加入 Cohere 的 高级产品经理DevRel,参加关于 产品和内容更新 的轻松会议,包含 最佳实践 以及关于 Prompt Tuning带有 Agents 的 Guided Generations APILLM University Tool Use 模块问答环节
    • 活动于今天 东部时间下午 1 点在 #stage 频道 举行,可以通过 此链接 找到。
  • Cohere Prompt Tuner:优化的 Prompting!:了解 Cohere Prompt Tuner,这是一个优化提示词并提高 LLM 结果准确性的强大工具。
    • 博客文章详细介绍了如何利用该工具及 相关功能
  • Command-r-plus 无法工作?:一名用户报告说,当 context length 达到 4000 个 token 时,Sillytavern 中的 command-r-plus 停止稳定工作。
    • 该用户一直尝试使用该工具来增强工作流程,但面临这一意外问题。
  • API Key 部分响应问题:一名用户报告其 API Key 仅返回部分响应,即使尝试了不同的 Wi-Fi 路由器和蜂窝数据也是如此。
    • 该用户目前正在寻求此问题的解决方案。
  • 用于准确 JSON 生成的 Structured OutputsStructured Outputs 是 Cohere 工具的最新更新,其 JSON 生成 速度比开源实现快 80倍 且更准确。
    • 这一新功能提高了 JSON 输出的准确性,并在 这篇博客文章 中进行了讨论。

Interconnects (Nathan Lambert) Discord

  • Yi Tay 的“混沌不眠式拼命”工作风格:讨论涉及了各家 AI 组织的工作风格,一名成员暗示 Yi Tay 以一种“混沌不眠式拼命(chaos no sleep grind)”的心态在运作。
  • Nancy Pelosi 反对加州 AI 法案:荣誉议长 Nancy Pelosi 发表声明,反对加州关于 AI 监管的 Senate Bill 1047 法案。
  • Zicheng Xu 从 Allen-Zhu 团队被裁:Zeyuan Allen-Zhu 宣布“Part 2.2”教程的作者 Zicheng Xu 意外被裁员。
    • Allen-Zhu 极力推荐 Xu,并为潜在的合作者或雇主提供了他的电子邮箱:zichengBxuB42@gmail.com(请删除大写字母 ‘B’)。
  • Nous Hermes Discord 关于评估设置的争议:一名用户提到了 Nous Discord 中关于某用户表现无礼以及误导评估设置的讨论。
    • 该用户提到他们的评估细节位于论文的 SFT 章节中,并承认弄错事实的感觉并不好,但文章的核心内容仍然有效。
  • Meta Cooking(模型调优)引发困惑:一名用户好奇什么是 “meta cooking”,暗示 Nous Discord 中可能存在冲突或争议。
    • 该用户提到发现了关于评估设置的矛盾信息,这可能是由于使用了默认的 LM Harness 设置且缺乏清晰的文档说明。

OpenAccess AI Collective (axolotl) Discord

  • GrokAdamW 提升 Axolotl 速度:GrokAdamW 是一款旨在鼓励快速 Grokking 的 PyTorch 优化器,现已发布并可通过 Transformers 集成在 Axolotl 中使用。GrokAdamW 仓库
    • 该优化器的灵感来自 GrokFast 论文,旨在加速模型在 Grokking 现象下的泛化能力。GrokFast 论文
  • Gemma 2b 训练故障:一名用户报告在训练 Gemma 2b 模型时,Loss 持续为 0.0,且梯度范数(gradient norm)为 nan。
    • 该用户建议在训练 Gemma 2b 模型时使用 eager attention 代替 sdpa,这解决了 Loss 为零的问题。
  • Axolotl 中的自定义加载器与聊天模板:一名用户询问如何在 Axolotl 的 .yml 配置文件中使用 Chat Template 类型,特别是如何指定使用哪种加载器(例如 ShareGPT)。
    • 另一名用户建议可以通过提供自定义 .yml 文件来指定使用的加载器。
  • 使用 Axolotl 进行微调:无需编程:一名用户澄清,使用 Axolotl 进行微调通常不需要编程知识,而是需要理解如何格式化数据集以及如何适配现有示例。
    • 一名用户提到自己拥有一台强大的 AI 运行设备来运行 Llama 3.1 70b,但觉得它在某些关键领域仍有不足,希望使用自己的内容数据集进行微调。
  • LLaMa 3.1 8b Lora 检测事后推理:一名用户正在训练一个 LLaMa 3.1 8b Lora,用于检测对话中的事后推理(post-hoc reasoning)。他花了三天时间整理了一个包含不到 100 条多轮对话、约 30k token 的小型数据集。
    • 该用户使用 Sonnet 3.5 辅助生成示例,但尽管精心设计了 Prompt,仍必须对每个生成的示例进行多处修正。因为即使指示模型不要创建带有事后推理的示例,由于其微调数据的特性,模型仍然会生成此类内容。

LangChain AI Discord

  • LangChain 缓存问题:一位成员对为什么 .batch_as_completed() 没有通过缓存加速感到困惑,尽管在缓存后 .invoke().batch() 几乎是瞬间完成的。
    • 他们观察到缓存是在第一次运行后填充的,但 .batch_as_completed() 似乎没有利用它。
  • LLM 在结构化输出方面表现不佳:一位成员提到本地 LLM(如 Llama 3.1)通常难以产生一致的结构化输出,特别是在 JSON 解析方面。
    • 他们询问了专门为训练模型以改进 JSON 解析以及针对 Tool 和 ReAct Agent 的结构化输出而设计的数据集。
  • 在 RAG 聊天机器人中删除文件:一位成员讨论了如何在使用 MongoDB 作为向量数据库的 RAG 聊天机器人中实现文件删除功能。
    • 一份回复提供了使用 LangChain 库中针对 MongoDB 向量存储和 OpenAIFiles 的 delete 方法示例,并附带了相关的文档链接。
  • 混合搜索相关性问题:一位成员在使用 BM25Retriever 和向量相似度搜索的混合搜索方法的 RAG 应用中遇到了检索文档和生成答案的相关性问题。
    • 建议包括检查文档质量、调整 Retriever 配置、评估 Chain 设置以及审查 Prompt 和 LLM 配置。
  • CursorLens 是面向 Cursor 用户的新仪表板:CursorLens 是一个面向 Cursor 用户的开源仪表板,提供关于 Prompt 的分析,并允许配置 Cursor 本身不提供的模型。

OpenInterpreter Discord

  • Orange Pi 5 评测:新型实惠的 SBC:一位用户分享了 Orange Pi 5(一种新型 Arm-based SBC)的 YouTube 视频评测
    • 视频强调 Orange Pi 5 不要与 Raspberry Pi 5 混淆。
  • GPT-4o-mini 模型问题:快速修复:一位用户在将模型设置为 GPT-4o-mini 时遇到麻烦。
    • 另一位用户提供了解决方案:interpreter --model gpt-4o-mini
  • OpenInterpreter 设置重置:还原指南:一位用户寻求在实验后将 OpenInterpreter 设置恢复为默认的方法。
    • 解决方案包括使用 interpreter --profiles 查看和编辑配置文件,以及可能需要卸载并重新安装 OpenInterpreter。
  • OpenInterpreter API 集成:构建桥梁:一位用户询问如何将 OpenInterpreter 集成到他们现有的 AI 核心中,发送请求并接收输出。
    • 推荐的解决方案包括使用带有 Flask 服务器的 Python 脚本来处理 AI 核心与 OpenInterpreter 之间的通信。
  • 用于 Bash 命令的本地 LLM:CodeStral 和 Llama 3.1:一位成员请求推荐能够处理 Bash 命令的本地 LLM。
    • 另一位成员建议使用 CodeStralLlama 3.1

DSPy Discord

  • LLM 挣扎于可靠性问题:众所周知,大语言模型(LLM)会产生事实错误的信息,导致“幻觉”内容,从而阻碍其可靠性。
    • WeKnow-RAG 解决了这一问题,该系统将网络搜索和 Knowledge Graphs 集成到检索增强生成(RAG)系统中,以提高 LLM 的准确性和可靠性。
  • DSPy 公布其 RoadmapDSPy 2.5(预计 1-2 周内发布)和 DSPy 3.0(几个月内发布)的 Roadmap 已经发布,概述了目标、里程碑和社区贡献。
  • Langgraph 和 Routequery 类错误:一位用户在 Langgraph 中遇到了 routequery 类的错误。
    • 他们寻求关于将 DSPy 与大型工具集集成的指导,并分享了 Langgraph 实现的链接:Adaptive RAG
  • 优化专家设计的 Prompt:一位成员询问 DSPy 是否可以优化已经由专家手动设计的 Prompt。
    • 他们询问 DSPy 是否能有效优化初始草案,并改进已建立的 Prompt 系统。
  • Colpali 微调讨论:讨论集中在 Colpali 的微调上,由于其领域特定性,该模型需要专门的专业知识。
    • 讨论强调了理解有效微调 Colpali 所需数据的重要性。

LAION Discord

  • FLUX Dev 可以生成网格:一位用户分享了 FLUX Dev 可以生成同一个(虚构)人物的 3x3 照片网格。
    • 这对于训练 LORAs 以创建各种虚构人物的一致角色非常有用。
  • 为特定目的训练 LORAs:一位用户表示有兴趣为特定目的训练 LORAs,例如 dabbingmiddle finger30s cartoon 风格。
    • 他们提到了将他们的 FLUX Dev LoRA 转换为 FP8 或在 Replicate 上使用 FP8 LoRA trainer 的可能性。
  • 用于医疗辅助的 LLMs:尚未准备就绪:几位用户对目前将 LLMs 用于医疗辅助表示怀疑。
    • 他们认为 LLMs 在此类关键应用中尚不够可靠。
  • JPEG-LM:用于图像和视频的 LLMs?:一篇新的研究论文提出在自回归 LLM 架构中,使用标准编解码器(如 JPEG、AVC/H.264)将图像和视频建模为压缩文件。
    • 这种方法消除了对原始像素值建模或矢量量化的需求,使过程更高效,并为未来的研究提供了潜力。
  • JPEG-LM vs. SIREN:巨头之战?:一位用户俏皮地声称,他们使用 33kB 的复数值神经网络超越了 2020 年的 SIREN 架构。
    • 虽然承认 NVIDIA 2022 年的 Neural Graphics Primitives 论文显著推动了该领域的发展,但他们强调了使用 MS-SSIM 作为图像质量评估指标的重要性,而不仅仅是 MSE 和 MAE。

LlamaIndex Discord

  • Workflows 成为焦点:Rajib Deb 分享了一个展示 LlamaIndex 的 workflow 能力的视频,演示了装饰器、控制流类型、事件驱动的过程链,以及用于复杂任务的自定义事件和步骤。
    • 该视频专注于 workflows,强调了它们以更结构化的方式构建复杂应用的能力。
  • 使用 Claude 3.5 构建 Agentic RAG 助手:Richmond Lake 的教程指导用户使用 Claude 3.5、MongoDB 和 LlamaIndex 构建 agentic 知识助手,强调在现有 RAG 管道之上构建 agentic 知识助手。
    • 本教程演示了使用 LlamaIndex 实现高级 RAG 技术,强调工具选择、任务分解和事件驱动的方法论。
  • BeyondLLM 简化高级 RAG 管道:由 AIPlanetHub 开发的 BeyondLLM 在 LlamaIndex 之上提供了抽象,使用户仅需 5-7 行代码即可构建具有评估、可观测性和高级 RAG 功能的高级 RAG 管道。
    • 这些高级 RAG 功能包括查询重写、向量搜索和文档摘要,简化了复杂 RAG 应用的开发。
  • 网页爬虫:LlamaIndex 的难题:一位成员询问了适用于 LlamaIndex 的网页爬虫推荐,另一位成员推荐了 FireCrawl,并分享了一个展示 LlamaIndex workflow 更复杂实现的 YouTube 视频。
    • 对话强调了对能与 LlamaIndex 无缝集成的有效网页爬取工具的需求,以实现高效的知识提取和处理。
  • 揭秘 RouterQueryEngine 和 Agents 的秘密:一位成员寻求澄清 LlamaIndex 的 RouterQueryEngine 和 Agents 之间的区别,特别是在路由和 function calling 方面。
    • 讨论明确了 RouterQueryEngine 的行为类似于硬编码的 agent,而 Agents 提供了更大的灵活性和通用性,突出了每种方法的独特能力。

LLM Finetuning (Hamel + Dan) Discord

  • HF Spaces 的限制:一位成员在通过 HF Spaces 托管自己的 LLM 时遇到困难,因为 ZeroGPU 不支持 vLLM
    • 该成员正在寻找替代方案,可能涉及 Modal
  • 使用 Modal 托管 LLM:另一位成员报告使用 Modal 托管 LLMs
    • 然而,他们目前正在转向 FastHTML,并正在寻找设置指南。
  • 使用 Jarvis Labs 进行微调:一位成员分享了他们专门使用 Jarvis Labs 进行 LLM 微调的经验。
    • 这表明与其他平台相比,Jarvis Labs 可能提供了一种更简化的方法。

Alignment Lab AI Discord

  • OpenAI 和 Google 通过 Batching API 降低成本:OpenAI 和 Google 为部分模型推出了新的 Batching API,与常规请求相比,成本降低了 50%。
    • 然而,这些 API 目前缺乏处理保证、服务等级协议 (SLAs) 和重试机制。
  • CuminAI:开源 Batching API:CuminAI 提供了一种为开源模型创建 Batching API 的解决方案,类似于 OpenAI 提供的服务。
    • 这里查看他们的分步指南:“如何为开源模型获取类似 OpenAI 的 Batching API”。
  • SLM:AI 的新超级英雄?:CuminAI 强调了小型语言模型 (SLM) 的潜力,认为在 AI 领域“大并不总是更好”。
    • 虽然大型语言模型 (LLM) 一直占据主导地位,但 SLM 提供了一种更具成本效益且高效的选择,特别是对于不需要大量计算能力的任务。

Mozilla AI Discord

  • Llamafile 提升性能并增加新功能Llamafile 发布了新功能,包括语音转文本命令图像生成,以及其 HTTP server embeddings 的 3 倍性能提升
    • Justine 撰写的完整更新详细介绍了性能改进和新功能。
  • Mozilla AI 在 Rise25 庆祝社区:Mozilla AI 正在表彰那些致力于构建负责任、可信、包容且以人类尊严为中心的 AI 未来的社区成员。
    • 几位成员参加了此次活动,包括 <@631210549170012166>、<@1046834222922465314>、<@200272755520700416> 和 <@1083203408367984751>。
  • ML 论文研讨:Agent 与 Transformer 深度探讨:参加由 <@718891366402490439> 主持的关于 Communicative AgentsExtended Mind Transformers 的会议。

MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


DiscoResearch Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。


第 2 部分:按频道详细摘要和链接

为了适配电子邮件,完整的频道明细已被截断。

如果你想查看完整明细,请访问此邮件的网页版本:

如果你喜欢 AInews,请分享给朋友!预谢!