ainews-the-dspy-roadmap
DSPy 路线图
Omar Khattab 宣布在前往麻省理工学院(MIT)任教前加入 Databricks,并概述了 DSPy 2.5 和 3.0+ 的路线图。其重点是改进语言模型(LM)、签名(signatures)、优化器(optimizers)和断言(assertions)等核心组件,包括采用 LiteLLM 以减少代码量并增强缓存和流式传输功能。该路线图还包括开发更准确、更具成本效益的优化器,编写教程,以及实现交互式优化跟踪。
在 AI 推特圈(AI Twitter)方面,谷歌推出了 Gemini Live,这是一款支持语音对话且拥有 10 种音色的移动端对话 AI,同时还发布了搭载定制 Tensor A1 芯片的 Pixel Buds Pro 2。OpenAI 更新了 ChatGPT-4o,重新夺回了 LMSYS Arena 排行榜的榜首。xAI 发布了 Grok-2 测试版,并凭借 FLUX 1 在图像生成领域达到了业界领先水平(SOTA)。Nous Research 发布了开源的 Hermes 3 模型,提供 8B、70B 和 405B 三种尺寸,其中 405B 模型达到了 SOTA。机器人领域的动态包括 Astribot 的人形机器人以及苹果公司支持 Siri 语音控制的桌面机器人。Sakana AI 推出了“AI 科学家”(The AI Scientist),这是一个自主的 AI 科研系统。
路线图的主要方向:
- 打磨 DSPy 核心的 4 个部分:(1) LMs, (2) Signatures & Modules, (3) Optimizers, 以及 (4) Assertions,使它们能够开箱即用,实现 zero shot 且现成可用。
- 在 LMs 方面,他们的目标是减少代码行数。特别是他们提到将通过 采用 LiteLLM 来减少 6k 行代码 (LOC)。不过,他们将增加“改进的缓存、LMs 的保存/加载、对流式传输和异步 LM 请求的支持”等功能。
- 在 Signatures 方面,既然“结构化输出”已成为主流,他们正在演进“结构化输入”的概念。
- 在微调(Finetuning)方面:他们的目标是“为程序中的几个不同模块引导(bootstrap)训练数据,训练多个模型并处理模型选择,然后将这些模型加载并插入到程序的模块中”。
-
开发更准确、成本更低的优化器(optimizers)。 继 BootstrapFewShot -> BootstrapFinetune -> CA-OPRO -> MIPRO -> MIPROv2 和 BetterTogether 优化器之后,将开展更多工作来提高质量、成本和鲁棒性。
-
构建端到端教程。 更多文档!
-
转向更具交互性的优化和追踪。 帮助用户“实时观察优化过程(例如:分数、堆栈跟踪、成功和失败的追踪以及候选提示词)”。
虽然没有什么惊天动地的突破,但对于一个管理得非常好的开源框架来说,这是一个很棒的路线图更新。
AI Twitter 回顾
所有摘要均由 Claude 3.5 Sonnet 完成,从 4 次运行中择优录取。
AI 与机器人进展
-
Google Gemini 更新:Google 推出了 Gemini Live,这是一款具有语音功能和 10 种语音的移动对话式 AI,适用于 Android 上的 Gemini Advanced 用户。他们还推出了 Pixel Buds Pro 2,搭载定制的 Tensor A1 芯片以支持 Gemini 功能,实现免提 AI 辅助。
-
OpenAI 进展:OpenAI 更新的 ChatGPT-4o 模型 重新夺回了 LMSYS Arena 榜首,该模型以“anonymous-chatbot”代号测试了一周,获得了超过 1.1 万张选票。
-
xAI 的 Grok-2:xAI 发布了 Grok-2,目前已向 Premium X 用户开放测试版。它可以使用 FLUX 1 生成“放飞自我”的图像,并在短短一年多时间内达到了 SOTA 状态。
-
开源模型:Nous Research 发布了 Hermes 3,这是一个开源模型,提供 8B、70B 和 405B 参数版本,其中 405B 模型相对于其他开源模型达到了 SOTA。
-
机器人技术进步:Astribot 展示了他们的新型人型机器人,展示了其在无需远程操作的情况下令人印象深刻的实时自由度。据报道 Apple 正在开发 一款带有 Siri 语音命令的桌面机器人,将类似 iPad 的显示屏与机械臂相结合。
-
AI 研究工具:Sakana AI 推出了“The AI Scientist”,声称是世界上第一个能够自主进行科学研究、产生想法、编写代码、运行实验并撰写论文的 AI 系统。
AI 模型性能与技术
-
Vision Transformer (ViT) 性能:@giffmana 发表了一篇博客文章,解决了关于 ViT 在高分辨率下的速度、长宽比重要性以及分辨率要求的疑虑。
-
RAG 改进:关于利用 LLM 提取的元数据进行数据库过滤以改进多跳查询 RAG 的新研究 在 MultiHop-RAG 基准测试中显示出良好的结果。HybirdRAG 结合了 GraphRAG 和 VectorRAG,在财务业绩电话会议记录上的表现优于两者。
-
模型优化:@cognitivecompai 报告称,在使用 Dolphin 2.9.4 数据集训练 gemma-2-2b 时,GrokAdamW 似乎有所改进。
-
小模型技术:@bindureddy 鼓励对 2B 的小模型进行迭代,使其更加实用,并发明可以应用于更大模型的新技术。
AI 应用与工具
-
LangChain 进展:LangChain JS 教程 介绍了如何使用 LLM 分类器根据查询类型进行动态 Prompt 选择。使用 Claude 3.5 Sonnet 的 Agentic RAG、MongoDB 和 llama_index 展示了在现有 RAG 流水线上构建 Agentic 知识助手。
-
AI 助力软件工程:Cosine 演示了 Genie,这是一个全自动 AI 软件工程师,以 30.08% 的成绩打破了 SWE-Bench 的最高分。OpenAI 和 SWE-Bench 的作者重新设计并发布了 ‘SWE-bench Verified’,以解决原始基准测试中的问题。
-
生产力工具:@DrJimFan 表达了对 LLM 根据 Prompt 自动过滤、标记 Gmail 并重新排列优先级的期望,强调了 AI 在电子邮件管理方面的潜力。
AI 伦理与社会影响
-
AI 欺骗辩论:@polynoamial 讨论了将扑克中的诈唬(bluffing)误解为 AI 欺骗的例子,认为这更多是为了不泄露多余信息,而非主动欺骗。
-
AI 推理能力:@mbusigin 认为 LLM 在推理方面已经优于相当一部分人类,因为它们不依赖“直觉”,并且在逻辑推理测试中表现良好。
梗与幽默
- @AravSrinivas 调侃道:“Networking ~= Not actually working”(社交 ~= 没在干活)
- @AravSrinivas 分享了一张与 AI 或技术相关的幽默图片(内容未具体说明)。
- @Teknium1 吐槽视频生成技术:“为什么几乎所有的视频生成都只是平移或缩放,你还不如用 Flux(快 1000 倍)生成一张图片。”
这份摘要涵盖了所提供推文中 AI 和机器人领域的关键进展、讨论和趋势,重点关注与 AI 工程师和研究人员相关的信息。
AI Reddit 综述
/r/LocalLlama 综述
主题 1. XTC:用于增强 LLM 创造力的新采样器
- Exclude Top Choices (XTC):一种提升创造力、打破写作陈词滥调并抑制非逐字重复的采样器,由 DRY 的创作者开发 (Score: 138, Comments: 64):Exclude Top Choices (XTC) 采样器在 text-generation-webui 的一个 GitHub pull request 中被引入,旨在以对连贯性影响最小的方式提升 LLM 创造力并打破写作陈词滥调。创作者报告称,XTC 能产生新颖的词句和想法,特别增强了角色扮演和故事写作,其体验与单纯提高语言模型的 Temperature 明显不同。
主题 2. 个人 GPU 用于 AI 开发的成本效益分析
- 老实说,一块 4090 真的做不了什么 (Score: 84, Comments: 90):作者是一名从事 AI 基础设施和 ML 工程的工作者,对他为个人 AI 项目购买的 4090 GPU 表示失望。他们认为,对于大多数用例,云端 API 服务或企业级 GPU 集群比单块高端消费级 GPU 进行 AI 任务更实用且更具成本效益,并质疑了个人拥有本地 GPU 进行 AI 实验的价值。
AI Reddit 全面回顾
r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity
AI 模型进展与对比
-
Flux LoRA 训练结果:一位用户分享了在《权力的游戏》角色上训练 Flux LoRA 模型的惊人结果,仅使用 10 张图像的数据集和 500-1000 个训练步数就实现了高质量输出。训练过程需要超过 60GB 的 VRAM。来源
-
卡通角色对比:对比了多种 AI 模型(DALL-E 3, Flux dev, Flux schnell, SD3 medium)生成卡通角色吃西瓜的效果。DALL-E 3 整体表现最佳,Flux dev 位居第二。帖子强调了 DALL-E 3 利用复杂的 LLM 系统将图像划分为不同区域进行详细描述。来源
-
Flux.1 Schnell 放大技巧:一位用户分享了提升 Flux.1 Schnell 输出人脸质量的技巧,建议在放大写实图像时使用 4xFaceUpDAT 而非 4x-UltraSharp。帖子还提到了其他放大模型和增强图像质量的技术。来源
AI 公司策略与批评
- OpenAI 的商业行为:一位用户批评 OpenAI 像经营“微型 Ycombinator 初创公司”一样管理公司,理由包括等候名单、CEO 神秘的推文以及发布前的预热视频。帖子认为这些策略不适合一家估值近 1000 亿美元的公司,可能会让客户和企业用户感到困惑。来源
AI 生成内容与迷因 (Memes)
-
《迷雾》(Flux+Luma):一段展示使用 Flux 和 Luma 模型生成的 AI 内容视频,内容似乎灵感源自电影《迷雾》。来源
-
看起来有点眼熟?:r/singularity 版块中的一个迷因帖子,可能引用了 AI 相关内容。来源
-
总得有人说出来…:r/StableDiffusion 版块中的另一个迷因帖子。来源
未来技术与研究
-
自动驾驶汽车越狱:一个推测一旦自动驾驶汽车普及,人们将尝试对其进行越狱的帖子。来源
-
狗狗逆龄药:一项研究报告了在狗身上测试逆龄药的乐观结果。然而,该帖子缺乏同行评审研究的引用,并因过于轶事化而受到批评。来源
AI Discord 回顾
由 Claude 3.5 Sonnet 总结的总结之总结
1. Hermes 3 模型发布与性能
- Hermes 3 在 N8Bench 上追平 Llama 3.1:Hermes 3 在 N8Bench 基准测试中获得了与 Llama 3.1 Instruct 相同的分数,该基准测试衡量模型的推理和问题解决能力。
- 这一结果意义重大,因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一,凸显了 Hermes 3 的竞争性能。
- Hermes 3 405B 在 OpenRouter 开启免费周末:OpenRouter 宣布,由 Lambda Labs 提供支持,Hermes 3 405B 在限时内免费使用,并提供 128k 上下文窗口。
- 用户可以通过 OpenRouter 的 Hermes 3 405B 页面 访问该模型,这为测试和评估这一超大型语言模型提供了机会。
- 量化对 405B 模型的影响:@hyperbolic_labs 警告称,量化 (Quantization) 会显著降低 405B 模型 的性能。
- 他们建议如果对性能有要求,可以联系他们寻求替代方案,强调了减小模型体积与保持性能质量之间的权衡。
2. LLM 推理优化技术
- INT8 量化用于 CPU 执行:一位成员询问了使用 INT8 量化 来加速小模型在 CPU 上执行的潜在好处,并指出某些 CPU 可能原生支持运行 INT8 而无需转换为 FP32。
- 这种方法可能提升基于 CPU 推理的性能,特别是对于资源受限的环境或边缘设备。
- FP8 训练进展:使用 FP8 中的第一动量 (1st momentum) 平稳训练 1B FP8 模型 至 48k steps,其 loss 与带有 0.08 偏移量 的 bfloat16 相当。
- 这表明 FP8 训练配合第一动量是有效的,在实现与 bfloat16 训练相似结果的同时,可能提供内存节省和性能提升。
- 开源模型的 Batching APIs:CuminAI 推出了一种为开源模型创建 batching APIs 的解决方案,类似于 OpenAI 和 Google 最近推出的功能。
- 虽然大公司的 batching APIs 缺乏处理保证和 SLA,但 CuminAI 的方法旨在为开源模型部署提供类似的成本节约优势。指南可在 其博客文章 中找到。
3. 开源 AI 模型进展
- Falcon Mamba 7B 宣称性能超越 Llama 3 8B:一段 YouTube 视频 宣布发布 Falcon Mamba 7B,声称其表现优于 Llama 3 8B。
- 这一进展可能对 LLM 领域产生重大影响,因为 Falcon Mamba 7B 是一个挑战既定基准的、极具前景的新模型。
- Ghost 8B Beta 的多语言实力:新发布的语言模型 Ghost 8B Beta 现在支持包括英语、越南语、西班牙语和中文在内的 16 种语言,并提供两种上下文选项(8k 和 128k)。
- 该模型在数学、推理和指令遵循能力方面表现出色,在 AlpacaEval 2.0 胜率得分上超过了 Llama 3.1 8B Instruct、GPT-3.5 Turbo 和 Claude 3 Opus 等竞争对手。
- 阿里巴巴达摩院 (Alibaba DAMO) 发布 VideoLLaMA 2-72B:阿里巴巴达摩院 (Alibaba DAMO) 发布了 VideoLLaMA 2-72B,这是一款新的视频 LLM,可在 HuggingFace 上获取,并在 HuggingFace Spaces 上提供 demo。
- 研究论文 也已在 HuggingFace 上发布,展示了结合视频理解和语言建模的多模态 AI 进展。
4. AI 安全与监管讨论
- 南希·佩洛西 (Nancy Pelosi) 反对加州 AI 法案:荣休议长南希·佩洛西 (Nancy Pelosi) 发表声明,反对关于 AI 监管的 加州参议院第 1047 号法案 (California Senate Bill 1047)。
- 完整声明可在 众议院网站 找到,突显了关于如何在州一级进行 AI 治理的持续辩论。
- Procreate 拒绝集成生成式 AI:Procreate 的 CEO 明确表示,他们不会在产品中集成生成式 AI,这一决定受到了社交媒体上许多艺术家和用户的赞赏。
- 一些观察者指出,这种立场未来可能会改变,因为它可能会限制新功能的开发。这突显了传统创意工具与创意产业中 AI 快速发展之间持续存在的紧张关系。
- 加里·马库斯 (Gary Marcus) 重新审视 AI 泡沫担忧:AI 研究员 加里·马库斯 (Gary Marcus) 在一段名为“The AI Bubble: Will It Burst, and What Comes After?”的视频中重新审视了他在 AGI-21 上的主题演讲,指出尽管 AI 取得了重大进展,但他当时强调的许多问题在今天仍然具有现实意义。
- 这段可在 YouTube 上观看的讨论反映了关于当前 AI 发展趋势的可持续性、轨迹及其潜在社会影响的持续辩论。
第 1 部分:Discord 高层摘要
Stability.ai (Stable Diffusion) Discord
- Flux:新王者?:成员们讨论了 Flux 接管图像生成 AI 社区的潜力,每天都有新的 Loras 和合并模型出现。
- 一些人认为 Stability AI 需要尽快发布产品进行竞争,因为 Flux 正在成为 CivitAI 和 Hugging Face 上的主导力量。
- Flux vs. SD3:巅峰对决:关于 Flux 是否与 SD3 有本质区别存在争论,这两个模型都使用了 DiT 架构、ret flow loss 和类似的 VAE 尺寸。
- 关键区别在于 Flux dev 是从大模型蒸馏而来的,而 Stability AI 也可以使用这种技巧。一些人更倾向于非蒸馏模型,即使图像质量较低。
- Flux 训练:挑战与机遇:成员们讨论了为 Flux 训练 Loras 的挑战,并指出训练代码尚未正式发布。
- 一些用户正在探索本地训练 Loras 的方法,而另一些用户则建议使用 Replicate 官方的 Flux LoRA Trainer 以获得更快、更简便的结果。
- ComfyUI vs. Forge:UI 之争:用户讨论了 ComfyUI 和 Forge 之间的性能差异,一些人发现 Forge 更快,尤其是在批处理方面。
- 讨论涉及了 Gradio 4 更新对 Forge 的影响以及未来改进的潜力。一些用户喜欢 ComfyUI 的灵活性,而另一些用户则欣赏 Forge 的优化。
- Stable Diffusion 的 GPU 推荐:成员们分享了各种 GPU 在 Stable Diffusion 中的表现经验,16GB VRAM 被视为最低配置,24GB 则比较舒适。
- 讨论涉及了 VRAM 比 CPU 速度更重要,以及 RAM 和其他应用程序对性能的影响。共识是尝试不同的模型和编码器,以找到最适合每个系统的配置。
HuggingFace Discord
- Hermes 2.5 表现优于 Hermes 2:在添加了代码指令示例后,Hermes 2.5 在各种基准测试中的表现似乎优于 Hermes 2。
- Hermes 2 在 MMLU 基准测试中得分为 34.5,而 Hermes 2.5 得分为 52.3。
- Mistral 在扩展超过 8k 时面临困难:成员们表示,如果不进行持续预训练,Mistral 无法扩展到 8k 以上,这是一个已知问题。
- 他们指出,mergekit 和 frankenMoE finetuning 的进一步工作是性能的下一个前沿。
- 模型合并策略讨论:一位成员建议将 UltraChat 和基础 Mistral 之间的差异应用于 Mistral-Yarn,作为一种潜在的合并策略。
- 其他人表示怀疑,但该成员保持乐观,并引用了过去在他们称之为“诅咒式模型合并(cursed model merging)”方面的成功尝试。
- Open Empathic 项目寻求协助:一位成员呼吁帮助扩大 Open Empathic 项目的类别,特别是在低端部分。
- 他们分享了一个关于 Open Empathic 发布与教程的 YouTube 视频,指导用户贡献他们喜欢的 YouTube 视频电影场景,以及 OpenEmpathic 项目本身的链接。
- 带有 1st Momentum 的 FP8 训练实现了相似的 Loss:使用 FP8 中的 1st momentum 平滑训练 1B FP8 模型至 48k steps,其产生的 Loss 与带有 0.08 offset 的 bfloat16 相当。
- 这表明 FP8 训练配合 1st momentum 是有效的,可以达到与 bfloat16 训练相似的结果。
Unsloth AI (Daniel Han) Discord
- Ghost 8B Beta (1608) 发布:Ghost 8B Beta (1608) 已发布,这是一个性能顶尖的语言模型,具有无与伦比的多语言支持和成本效益。
- 在胜率(winrate)得分上,它的表现优于 Llama 3.1 8B Instruct, GPT-3.5 Turbo, Claude 3 Opus, GPT-4 等模型。
- Ghost 8B Beta 的多语言实力:Ghost 8B Beta 现在支持 16 种语言,包括英语、越南语、西班牙语、中文等。
- 它提供两种上下文选项(8k 和 128k),并改进了数学、推理和指令遵循能力,以更好地处理任务。
- Ghost 8B Beta 超越竞争对手:在 AlpacaEval 2.0 胜率得分中,Ghost 8B Beta 的表现优于 Llama 3.1 8B Instruct, GPT 3.5 Turbo, Claude 3 Opus, Claude 3 Sonnet, GPT-4 和 Mistral Large 等模型。
- 这种令人印象深刻的表现突显了其卓越的知识能力和多语言实力。
- 使用 LLM 进行代码编辑:一篇新论文探讨了如何根据用户指令使用 Large Language Models (LLMs) 进行代码编辑。
- 它引入了 EditEval(一个用于评估代码编辑性能的新颖基准测试)和 InstructCoder(一个用于对 LLM 进行代码编辑指令微调的数据集,包含超过 114,000 个指令-输入-输出三元组)。
- LLM 中的推理差距:一篇研究论文提出了一个框架,使用基准测试的功能变体(特别是 MATH 基准测试)来评估 LLM 的推理能力。
- 它将“推理差距”定义为将任务作为编程问题与作为自然语言问题提出时,解决任务的性能差异,强调 LLM 在任务以代码形式呈现时通常表现更好。
Nous Research AI Discord
- 线性 Transformer:与 Softmax 的天作之合:Nous Research 发布了关于一种与 Softmax 匹配的线性 Transformer 变体的研究,允许以 O(t) 而非 O(t^2) 的复杂度进行训练。
- 该研究可在此处查看,探讨了这种新变体及其对训练效率的影响。
- Falcon Mamba 7B 击败 Llama 3 8B:一段 YouTube 视频宣布发布 Falcon Mamba 7B,并声称其性能优于 Llama 3 8B。
- 这可能对大语言模型领域产生重大影响,因为 Falcon Mamba 7B 是一个相对较新且充满前景的模型。
- 正则表达式作为分块技术的争议:一位用户分享了他们对基于正则表达式(regex)的文本分块器的看法,表示如果他们在代码库中看到它会“尖叫”,因为正则表达式非常复杂。
- 然而,另一位用户反驳说,专门针对文本分块器,正则表达式可能是一个“非常可靠的选择”,因为它提供了“回溯优势”并允许灵活的分块设置。
- Hermes 3:N8Bench 的性能之王?:Hermes 3 在 N8Bench 基准测试中的得分与 Llama 3.1 Instruct 相同,该基准测试衡量模型推理和解决问题的能力。
- 这是一个重要的结果,因为 Llama 3.1 Instruct 被认为是目前最先进的语言模型之一。
- Gemini Flash:RAG 的未来?:一位用户报告说,他们已将部分 RAG 任务迁移到 Gemini Flash,并指出总结质量有所提高,且减少了迭代需求。
- 他们分享了一个用于通过 Gemini Flash 处理原始非结构化转录文本的脚本,可在 GitHub 上获取:https://github.com/EveryOneIsGross/scratchTHOUGHTS/blob/main/unstruct2flashedTRANSCRIPT.py。
Perplexity AI Discord
- Perplexity Pro 注册体验不佳:多位用户报告了 Perplexity Pro 的注册流程问题,尽管收到了免费一年的优惠,但用户在不付费的情况下无法完成注册。
- 建议用户联系 support@perplexity.ai 以寻求此问题的帮助。
- Obsidian Copilot 获得 Claude 加持:一位用户分享了使用 Claude API key 配合 Obsidian Copilot 插件的经验,认为其在性能方面是一个可靠的选择。
- 他们强调了在正式使用前检查 API 计费设置的重要性,并指出 Obsidian 需要具备实时联网能力。
- Perplexity 的图像生成功能表现不佳:用户讨论了 Perplexity 图像生成功能的缺陷,该功能目前仅对 Pro 用户开放,且需要 AI 提示词来描述图像。
- 用户认为这是一种“奇怪”且“糟糕”的实现方式,并强调需要一种更精简的图像生成方法。
- Perplexity 搜索遇到小故障:多位用户报告了 Perplexity 的搜索质量问题,包括难以找到相关链接以及收到不准确的结果。
- 这些问题被归因于可能的 Bug、提示词(prompts)变更或推理后端服务的更新。
- Perplexity 模型变更引发用户担忧:讨论围绕 Perplexity 模型的变更展开,用户对响应质量可能下降以及“我无法为此提供帮助”错误增加表示担忧。
- 其他担忧还包括 API 响应中缺失标点符号,以及在非科学查询中使用 Wolfram Alpha。
OpenRouter (Alex Atallah) Discord
- Hermes 3 405B 本周末免费!:由 Lambda Labs 提供支持,Hermes 3 405B 限时免费,具备 128k context。
- 您可以通过此链接进行体验。
- GPT-4 extended 现已上线 OpenRouter:现在可以通过 OpenRouter 使用 GPT-4 extended output(Alpha 测试阶段)。
- 该模型限制最大输出为 64k tokens。
- Perplexity Huge 是 OpenRouter 上最大的在线模型:Perplexity Huge 于 3 天前发布,是 OpenRouter 上最大的在线模型。
- 您可以在此链接找到更多信息。
- 模型发布周:本周 OpenRouter 上发布了 10 个新模型,包括 GPT-4 extended、Perplexity Huge、Starcannon 12B、Lunaris 8B、Llama 405B Instruct bf16 和 Hermes 3 405B。
- 您可以在此链接查看完整列表。
- 量化会降低性能:根据 @hyperbolic_labs 的说法,量化(Quantization)会大幅降低 405B 模型的性能。
- 如果您担心性能问题,他们建议与其联系,因为他们提供替代解决方案。
LM Studio Discord
- INT8 量化能提升 CPU 速度吗?:一位成员询问了在 CPU 上对较小模型使用 INT8 量化是否能带来性能提升。
- 他们建议某些 CPU 可能原生支持 INT8 执行,从而绕过向 FP32 的转换,并可能提高性能。
- Llama.cpp 支持 Mini-CPM-V2.6 和 Nemotron/Minitron:一位成员确认最新的 llama.cpp 版本支持 Mini-CPM-V2.6 以及 Nvidia 的 Nemotron/Minitron 模型。
- 此次更新扩大了与 llama.cpp 兼容的模型范围,增强了其对 LLM 爱好者的通用性。
- 将聊天记录导入 LM Studio:一位成员寻求关于如何将 JSON 导出的聊天日志导入 LM Studio 的指导。
- 另一位成员澄清说聊天数据存储在 JSON 文件中,并提供了访问相关文件夹位置的说明。
- Vulkan 错误:CPU 缺少 AVX2 支持:一位用户遇到了错误,提示其 CPU 缺少 AVX2 支持,导致无法使用某些功能。
- 一位热心成员询问了 CPU 型号,以协助诊断并解决该问题。
- LLM 与网页交互:一个复杂的挑战:一位成员讨论了让 LLM 与网页交互的可能性,特别是寻求一种“视觉(vision)”方法。
- 虽然提到了 Selenium 和 IDkit 等工具,但普遍共识是,由于网页结构的多样性,这仍然是一个具有挑战性的问题。
OpenAI Discord
- Claude 在代码方面表现优于 Chat-GPT:一名成员表示,Claude 在处理代码方面往往比 Chat-GPT 更出色。
- 坦白说,GPT-4o 的 API 成本高于 Claude 这一点毫无道理。
- Livebench.ai:Yann LeCun 的开源基准测试:Livebench.ai 是由 Yann LeCun 等人创建的开源基准测试。
- LMSys 基准测试目前可能是最糟糕的。
- Claude Projects 对比 Chat-GPT Memory 功能:一名成员认为 Claude Projects 比 Chat-GPT 的 Memory 功能更有用。
- 该成员还表示,自定义 GPTs 更像是一个项目,允许使用你自己的 endpoints。
- OpenAI 正在赢得注意力游戏:OpenAI 通过发布 GPT-4o 等新模型来控制注意力,从而赢得竞争。
- 该成员表示,即使人们不想参与技术炒作,也都在讨论 OpenAI 的新模型。
- GPT-4o 现在比 Claude 和 Mistral 差:成员们注意到 GPT-4o 最近变得越来越笨,可能正遭受某种“阿尔茨海默症”的困扰。
- Claude Sonnet 因其卓越的性能而受到称赞,正成为成员们的首选。
Latent Space Discord
- Topology 的 CLM:像人类一样学习:Topology 发布了 Continuous Learning Model (CLM),这是一种能够记住交互、自主学习技能并在空闲时间思考的新模型,就像人类一样。
- 该模型可以在 http://topologychat.com 进行体验。
- GPT5 需要大 20 倍:Mikhail Parakhin 发推称,为了让 AI 模型获得实质性的改进,新模型的规模应至少比当前模型大 20倍。
- 这将需要 6个月 的训练时间以及一个新的、大 20倍 的数据中心,而建造这样一个数据中心大约需要一年时间。
- Procreate 拒绝生成式 AI:Procreate 的 CEO 表示,他们不会将生成式 AI 集成到产品中。
- 虽然社交媒体上的一些艺术家和用户对此表示庆祝,但也有人指出,这可能意味着未来不会增加新功能,且这种情况可能会发生变化。
- DSPy:尚未完全商业化:目前 DSPy 背后还没有商业公司,尽管 Omar 正在为此努力。
- 一名成员分享说,他们参加了 Cursor 办公室的见面会,虽然没有 alpha 版本可以分享,但他们确实打了招呼。
- DSPy 弥合差距:DSPy 旨在弥合 prompting 与 finetuning 之间的差距,让用户能够避免手动进行 prompt tuning。
- 论文提到 DSPy 避免了 prompt tuning,这可能使得切换模型、重新调整以适应数据偏移等操作变得更加容易。
Cohere Discord
- Cohere Office Hours 启动!:加入 Cohere 的 高级产品经理 和 DevRel,参加关于 产品和内容更新 的轻松会议,包含 最佳实践 以及关于 Prompt Tuning、带有 Agents 的 Guided Generations API 和 LLM University Tool Use 模块 的 问答环节。
- 活动于今天 东部时间下午 1 点在 #stage 频道 举行,可以通过 此链接 找到。
- Cohere Prompt Tuner:优化的 Prompting!:了解 Cohere Prompt Tuner,这是一个优化提示词并提高 LLM 结果准确性的强大工具。
- 博客文章详细介绍了如何利用该工具及 相关功能。
- Command-r-plus 无法工作?:一名用户报告说,当 context length 达到 4000 个 token 时,Sillytavern 中的 command-r-plus 停止稳定工作。
- 该用户一直尝试使用该工具来增强工作流程,但面临这一意外问题。
- API Key 部分响应问题:一名用户报告其 API Key 仅返回部分响应,即使尝试了不同的 Wi-Fi 路由器和蜂窝数据也是如此。
- 该用户目前正在寻求此问题的解决方案。
- 用于准确 JSON 生成的 Structured Outputs:Structured Outputs 是 Cohere 工具的最新更新,其 JSON 生成 速度比开源实现快 80倍 且更准确。
- 这一新功能提高了 JSON 输出的准确性,并在 这篇博客文章 中进行了讨论。
Interconnects (Nathan Lambert) Discord
- Yi Tay 的“混沌不眠式拼命”工作风格:讨论涉及了各家 AI 组织的工作风格,一名成员暗示 Yi Tay 以一种“混沌不眠式拼命(chaos no sleep grind)”的心态在运作。
- 他们引用了 Phil (@phill__1) 的一条推文,暗示 01AI 可能正在退出非中国市场:.@01AI_Yi 怎么了?他们要退出非中国市场吗?。
- Nancy Pelosi 反对加州 AI 法案:荣誉议长 Nancy Pelosi 发表声明,反对加州关于 AI 监管的 Senate Bill 1047 法案。
- 该声明发布在众议院网站上:Pelosi 关于反对加州参议院 1047 号法案的声明。
- Zicheng Xu 从 Allen-Zhu 团队被裁:Zeyuan Allen-Zhu 宣布“Part 2.2”教程的作者 Zicheng Xu 意外被裁员。
- Allen-Zhu 极力推荐 Xu,并为潜在的合作者或雇主提供了他的电子邮箱:zichengBxuB42@gmail.com(请删除大写字母 ‘B’)。
- Nous Hermes Discord 关于评估设置的争议:一名用户提到了 Nous Discord 中关于某用户表现无礼以及误导评估设置的讨论。
- 该用户提到他们的评估细节位于论文的 SFT 章节中,并承认弄错事实的感觉并不好,但文章的核心内容仍然有效。
- Meta Cooking(模型调优)引发困惑:一名用户好奇什么是 “meta cooking”,暗示 Nous Discord 中可能存在冲突或争议。
- 该用户提到发现了关于评估设置的矛盾信息,这可能是由于使用了默认的 LM Harness 设置且缺乏清晰的文档说明。
OpenAccess AI Collective (axolotl) Discord
- GrokAdamW 提升 Axolotl 速度:GrokAdamW 是一款旨在鼓励快速 Grokking 的 PyTorch 优化器,现已发布并可通过 Transformers 集成在 Axolotl 中使用。GrokAdamW 仓库
- 该优化器的灵感来自 GrokFast 论文,旨在加速模型在 Grokking 现象下的泛化能力。GrokFast 论文
- Gemma 2b 训练故障:一名用户报告在训练 Gemma 2b 模型时,Loss 持续为 0.0,且梯度范数(gradient norm)为 nan。
- 该用户建议在训练 Gemma 2b 模型时使用 eager attention 代替 sdpa,这解决了 Loss 为零的问题。
- Axolotl 中的自定义加载器与聊天模板:一名用户询问如何在 Axolotl 的 .yml 配置文件中使用 Chat Template 类型,特别是如何指定使用哪种加载器(例如 ShareGPT)。
- 另一名用户建议可以通过提供自定义 .yml 文件来指定使用的加载器。
- 使用 Axolotl 进行微调:无需编程:一名用户澄清,使用 Axolotl 进行微调通常不需要编程知识,而是需要理解如何格式化数据集以及如何适配现有示例。
- 一名用户提到自己拥有一台强大的 AI 运行设备来运行 Llama 3.1 70b,但觉得它在某些关键领域仍有不足,希望使用自己的内容数据集进行微调。
- LLaMa 3.1 8b Lora 检测事后推理:一名用户正在训练一个 LLaMa 3.1 8b Lora,用于检测对话中的事后推理(post-hoc reasoning)。他花了三天时间整理了一个包含不到 100 条多轮对话、约 30k token 的小型数据集。
- 该用户使用 Sonnet 3.5 辅助生成示例,但尽管精心设计了 Prompt,仍必须对每个生成的示例进行多处修正。因为即使指示模型不要创建带有事后推理的示例,由于其微调数据的特性,模型仍然会生成此类内容。
LangChain AI Discord
- LangChain 缓存问题:一位成员对为什么
.batch_as_completed()没有通过缓存加速感到困惑,尽管在缓存后.invoke()和.batch()几乎是瞬间完成的。- 他们观察到缓存是在第一次运行后填充的,但
.batch_as_completed()似乎没有利用它。
- 他们观察到缓存是在第一次运行后填充的,但
- LLM 在结构化输出方面表现不佳:一位成员提到本地 LLM(如 Llama 3.1)通常难以产生一致的结构化输出,特别是在 JSON 解析方面。
- 他们询问了专门为训练模型以改进 JSON 解析以及针对 Tool 和 ReAct Agent 的结构化输出而设计的数据集。
- 在 RAG 聊天机器人中删除文件:一位成员讨论了如何在使用 MongoDB 作为向量数据库的 RAG 聊天机器人中实现文件删除功能。
- 一份回复提供了使用 LangChain 库中针对 MongoDB 向量存储和 OpenAIFiles 的
delete方法示例,并附带了相关的文档链接。
- 一份回复提供了使用 LangChain 库中针对 MongoDB 向量存储和 OpenAIFiles 的
- 混合搜索相关性问题:一位成员在使用 BM25Retriever 和向量相似度搜索的混合搜索方法的 RAG 应用中遇到了检索文档和生成答案的相关性问题。
- 建议包括检查文档质量、调整 Retriever 配置、评估 Chain 设置以及审查 Prompt 和 LLM 配置。
- CursorLens 是面向 Cursor 用户的新仪表板:CursorLens 是一个面向 Cursor 用户的开源仪表板,提供关于 Prompt 的分析,并允许配置 Cursor 本身不提供的模型。
- 它最近在 ProductHunt 上发布:https://www.producthunt.com/posts/cursor-lens。
OpenInterpreter Discord
- Orange Pi 5 评测:新型实惠的 SBC:一位用户分享了 Orange Pi 5(一种新型 Arm-based SBC)的 YouTube 视频评测。
- 视频强调 Orange Pi 5 不要与 Raspberry Pi 5 混淆。
- GPT-4o-mini 模型问题:快速修复:一位用户在将模型设置为 GPT-4o-mini 时遇到麻烦。
- 另一位用户提供了解决方案:
interpreter --model gpt-4o-mini。
- 另一位用户提供了解决方案:
- OpenInterpreter 设置重置:还原指南:一位用户寻求在实验后将 OpenInterpreter 设置恢复为默认的方法。
- 解决方案包括使用
interpreter --profiles查看和编辑配置文件,以及可能需要卸载并重新安装 OpenInterpreter。
- 解决方案包括使用
- OpenInterpreter API 集成:构建桥梁:一位用户询问如何将 OpenInterpreter 集成到他们现有的 AI 核心中,发送请求并接收输出。
- 推荐的解决方案包括使用带有 Flask 服务器的 Python 脚本来处理 AI 核心与 OpenInterpreter 之间的通信。
- 用于 Bash 命令的本地 LLM:CodeStral 和 Llama 3.1:一位成员请求推荐能够处理 Bash 命令的本地 LLM。
- 另一位成员建议使用 CodeStral 和 Llama 3.1。
DSPy Discord
- LLM 挣扎于可靠性问题:众所周知,大语言模型(LLM)会产生事实错误的信息,导致“幻觉”内容,从而阻碍其可靠性。
- WeKnow-RAG 解决了这一问题,该系统将网络搜索和 Knowledge Graphs 集成到检索增强生成(RAG)系统中,以提高 LLM 的准确性和可靠性。
- DSPy 公布其 Roadmap:DSPy 2.5(预计 1-2 周内发布)和 DSPy 3.0(几个月内发布)的 Roadmap 已经发布,概述了目标、里程碑和社区贡献。
- 该 Roadmap 可在 GitHub 上查看:DSPy Roadmap。
- Langgraph 和 Routequery 类错误:一位用户在 Langgraph 中遇到了
routequery类的错误。- 他们寻求关于将 DSPy 与大型工具集集成的指导,并分享了 Langgraph 实现的链接:Adaptive RAG。
- 优化专家设计的 Prompt:一位成员询问 DSPy 是否可以优化已经由专家手动设计的 Prompt。
- 他们询问 DSPy 是否能有效优化初始草案,并改进已建立的 Prompt 系统。
- Colpali 微调讨论:讨论集中在 Colpali 的微调上,由于其领域特定性,该模型需要专门的专业知识。
- 讨论强调了理解有效微调 Colpali 所需数据的重要性。
LAION Discord
- FLUX Dev 可以生成网格:一位用户分享了 FLUX Dev 可以生成同一个(虚构)人物的 3x3 照片网格。
- 这对于训练 LORAs 以创建各种虚构人物的一致角色非常有用。
- 为特定目的训练 LORAs:一位用户表示有兴趣为特定目的训练 LORAs,例如 dabbing、middle finger 和 30s cartoon 风格。
- 他们提到了将他们的 FLUX Dev LoRA 转换为 FP8 或在 Replicate 上使用 FP8 LoRA trainer 的可能性。
- 用于医疗辅助的 LLMs:尚未准备就绪:几位用户对目前将 LLMs 用于医疗辅助表示怀疑。
- 他们认为 LLMs 在此类关键应用中尚不够可靠。
- JPEG-LM:用于图像和视频的 LLMs?:一篇新的研究论文提出在自回归 LLM 架构中,使用标准编解码器(如 JPEG、AVC/H.264)将图像和视频建模为压缩文件。
- 这种方法消除了对原始像素值建模或矢量量化的需求,使过程更高效,并为未来的研究提供了潜力。
- JPEG-LM vs. SIREN:巨头之战?:一位用户俏皮地声称,他们使用 33kB 的复数值神经网络超越了 2020 年的 SIREN 架构。
- 虽然承认 NVIDIA 2022 年的 Neural Graphics Primitives 论文显著推动了该领域的发展,但他们强调了使用 MS-SSIM 作为图像质量评估指标的重要性,而不仅仅是 MSE 和 MAE。
LlamaIndex Discord
- Workflows 成为焦点:Rajib Deb 分享了一个展示 LlamaIndex 的 workflow 能力的视频,演示了装饰器、控制流类型、事件驱动的过程链,以及用于复杂任务的自定义事件和步骤。
- 该视频专注于 workflows,强调了它们以更结构化的方式构建复杂应用的能力。
- 使用 Claude 3.5 构建 Agentic RAG 助手:Richmond Lake 的教程指导用户使用 Claude 3.5、MongoDB 和 LlamaIndex 构建 agentic 知识助手,强调在现有 RAG 管道之上构建 agentic 知识助手。
- 本教程演示了使用 LlamaIndex 实现高级 RAG 技术,强调工具选择、任务分解和事件驱动的方法论。
- BeyondLLM 简化高级 RAG 管道:由 AIPlanetHub 开发的 BeyondLLM 在 LlamaIndex 之上提供了抽象,使用户仅需 5-7 行代码即可构建具有评估、可观测性和高级 RAG 功能的高级 RAG 管道。
- 这些高级 RAG 功能包括查询重写、向量搜索和文档摘要,简化了复杂 RAG 应用的开发。
- 网页爬虫:LlamaIndex 的难题:一位成员询问了适用于 LlamaIndex 的网页爬虫推荐,另一位成员推荐了 FireCrawl,并分享了一个展示 LlamaIndex workflow 更复杂实现的 YouTube 视频。
- 对话强调了对能与 LlamaIndex 无缝集成的有效网页爬取工具的需求,以实现高效的知识提取和处理。
- 揭秘 RouterQueryEngine 和 Agents 的秘密:一位成员寻求澄清 LlamaIndex 的 RouterQueryEngine 和 Agents 之间的区别,特别是在路由和 function calling 方面。
- 讨论明确了 RouterQueryEngine 的行为类似于硬编码的 agent,而 Agents 提供了更大的灵活性和通用性,突出了每种方法的独特能力。
LLM Finetuning (Hamel + Dan) Discord
- HF Spaces 的限制:一位成员在通过 HF Spaces 托管自己的 LLM 时遇到困难,因为 ZeroGPU 不支持 vLLM。
- 该成员正在寻找替代方案,可能涉及 Modal。
- 使用 Modal 托管 LLM:另一位成员报告使用 Modal 托管 LLMs。
- 然而,他们目前正在转向 FastHTML,并正在寻找设置指南。
- 使用 Jarvis Labs 进行微调:一位成员分享了他们专门使用 Jarvis Labs 进行 LLM 微调的经验。
- 这表明与其他平台相比,Jarvis Labs 可能提供了一种更简化的方法。
Alignment Lab AI Discord
- OpenAI 和 Google 通过 Batching API 降低成本:OpenAI 和 Google 为部分模型推出了新的 Batching API,与常规请求相比,成本降低了 50%。
- 然而,这些 API 目前缺乏处理保证、服务等级协议 (SLAs) 和重试机制。
- CuminAI:开源 Batching API:CuminAI 提供了一种为开源模型创建 Batching API 的解决方案,类似于 OpenAI 提供的服务。
- 在这里查看他们的分步指南:“如何为开源模型获取类似 OpenAI 的 Batching API”。
- SLM:AI 的新超级英雄?:CuminAI 强调了小型语言模型 (SLM) 的潜力,认为在 AI 领域“大并不总是更好”。
- 虽然大型语言模型 (LLM) 一直占据主导地位,但 SLM 提供了一种更具成本效益且高效的选择,特别是对于不需要大量计算能力的任务。
Mozilla AI Discord
- Llamafile 提升性能并增加新功能:Llamafile 发布了新功能,包括语音转文本命令、图像生成,以及其 HTTP server embeddings 的 3 倍性能提升。
- 由 Justine 撰写的完整更新详细介绍了性能改进和新功能。
- Mozilla AI 在 Rise25 庆祝社区:Mozilla AI 正在表彰那些致力于构建负责任、可信、包容且以人类尊严为中心的 AI 未来的社区成员。
- 几位成员参加了此次活动,包括 <@631210549170012166>、<@1046834222922465314>、<@200272755520700416> 和 <@1083203408367984751>。
- ML 论文研讨:Agent 与 Transformer 深度探讨:参加由 <@718891366402490439> 主持的关于 Communicative Agents 和 Extended Mind Transformers 的会议。
- 预约会议:与作者 <@878366123458977893> 讨论 Communicative Agents,以及与作者 <@985920344856596490> 讨论 Extended Mind Transformers。
MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
第 2 部分:按频道详细摘要和链接
为了适配电子邮件,完整的频道明细已被截断。
如果你喜欢 AInews,请分享给朋友!预谢!