ainews-to-be-named-9364
Gemini 推出上下文缓存功能……事实果真如此吗?
英伟达的 Nemotron 在 LMsys 排行榜上名列开源模型第一,总榜第十一,超越了 Llama-3-70b。Meta AI 在进一步后训练后发布了 Chameleon 7B/34B 模型。谷歌的 Gemini 引入了上下文缓存(context caching)功能,在 RAG(检索增强生成)和微调(finetuning)之间提供了一个更具成本效益的中间方案,其最小输入 Token 数量为 33k,且缓存时长没有上限。DeepSeek(深度求索) 推出了 DeepSeek-Coder-V2,这是一个拥有 2360 亿(236B)参数的模型,在编程任务中表现优于 GPT-4 Turbo、Claude-3-Opus 和 Gemini-1.5-Pro,支持 338 种编程语言,并将上下文长度扩展至 128K。该模型使用组相对策略优化(GRPO)算法在 6 万亿个 Token 上训练而成,目前已在 Hugging Face 上发布并提供商业许可。这些进展突显了模型性能、上下文缓存以及大规模编程模型方面的突破。
距离 AI Engineer World’s Fair 还有 1 周!完整日程现已上线,包括 AI Leadership track。
2024/6/17-2024/6/18 的 AI 新闻。 我们为您检查了 7 个 subreddits、384 个 Twitter 账号 和 30 个 Discord 社区(415 个频道,3582 条消息)。 预计节省阅读时间(以 200wpm 计算):397 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
今天是 AINews 后续报道的大日子:
- Nvidia 的 Nemotron(我们的报告)现在在 LMsys 上排名开源模型第 1,总榜第 11(击败了 Llama-3-70b,这可能没那么令人印象深刻,但也许这并不是重点)。
- Meta 的 Chameleon(我们的报告)7B/34B 版本在进一步的 post-training 后发布(去掉了图像输出能力),作为今天发布的 4 个模型系列的一部分。
但对于 AI Engineer 来说,今天最大的新闻莫过于 Gemini context caching 的发布,这在 Google I/O 上首次预告(我们的报告在此)。

Caching 令人兴奋,因为它在无休止的 RAG vs Finetuning 争论中创造了一个实用的中间点——与其使用可能存在缺陷的 RAG 系统,或者对 LLM 进行有损的 Finetuning 以期“也许”能记住新事实……你只需让 Attention 的完整魔力在 long context 上运行,但只需支付 25% 的成本(不过你确实需要支付每百万 token 每小时 1 美元的存储费用,这大概是原始存储成本的加价……使得盈亏平衡点大约在 400k tokens/hr 左右):

一些意外之处:
- caching 有一个最小输入 token 数量限制(33k tokens)。
- context cache 默认时长为 1 小时,但没有上限(他们很乐意让你为此付费)。
- 缓存的上下文没有延迟节省……这让人怀疑这个 caching API 是否是一个“基于价格的 MVP”。
我们最初在 Neurips 2023 播客中与 Aman Sanger 讨论过 context caching,当时认为难点在于每次请求加载/卸载缓存的延迟/成本效率。然而,使用它的更大挑战可能是需要为每个请求动态构建 prompt 前缀(此问题仅适用于前缀,动态后缀可以很好地与 cached contexts 配合使用)。
AI Twitter 回顾
所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和 flow engineering。
DeepSeek-Coder-V2 模型发布
- DeepSeek-Coder-V2 在编程方面优于其他模型:@deepseek_ai 宣布发布 DeepSeek-Coder-V2,这是一个拥有 236B 参数的模型,在编程任务中击败了 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro 和 Codestral。它支持 338 种编程语言,并将 context length 从 16K 扩展到 128K。
- DeepSeek-Coder-V2 的技术细节:@rohanpaul_ai 分享道,DeepSeek-Coder-V2 是通过获取 DeepSeek-V2 的中间 Checkpoint 并对其进行额外的 6 万亿 token 的进一步 Pre-training,随后使用 Group Relative Policy Optimization (GRPO) 算法进行 Supervised Fine-tuning 和 Reinforcement Learning 而创建的。
- DeepSeek-Coder-V2 的性能和可用性:@_philschmid 强调,DeepSeek-Coder-V2 在 HumanEval、MBPP+ 和 LiveCodeBench 等开源模型测试中刷新了 SOTA 结果。该模型已在 Hugging Face 上发布,采用允许商业使用的自定义许可证。
Meta AI 模型发布
- Meta AI 发布新模型:@AIatMeta 宣布发布 四个新的公开可用 AI 模型及额外的研究成果,包括 Meta Chameleon 7B & 34B 语言模型、用于代码补全的 Meta Multi-Token Prediction 预训练语言模型、Meta JASCO 生成式文本转音乐模型以及 Meta AudioSeal。
- 对 Meta 开源模型发布的积极反响:@ClementDelangue 指出,令人兴奋的是 Hugging Face 上的数据集增长速度已经超过了模型,@omarsar0 祝贺 Meta FAIR 团队向 AI 社区公开分享这些成果。
Runway Gen-3 Alpha 视频模型
- Runway 推出 Gen-3 Alpha 视频模型:@c_valenzuelab 介绍了 Gen-3 Alpha,这是 Runway 推出的一款专为创意应用设计的新型视频模型,能够 理解并生成各种风格和艺术指令。该模型在视频创作中实现了 对结构、风格和运动的更强控制。
- Gen-3 Alpha 的性能与速度:@c_valenzuelab 指出 Gen-3 Alpha 是从零开始为创意应用设计的。@c_valenzuelab 还提到该模型 生成速度很快,生成 5 秒视频需 45 秒,生成 10 秒视频需 90 秒。
- Runway 专注于赋能艺术家:@sarahcat21 强调,Runway 的 Gen-3 Alpha 旨在赋能艺术家创作出精美且具有挑战性的作品,这与仅为生成视频而设计的基础模型形成了鲜明对比。
NVIDIA Nemotron-4-340B 模型
- NVIDIA 发布 Nemotron-4-340B,一款媲美 GPT-4 的开源 LLM:@lmsysorg 报告称,NVIDIA 的 Nemotron-4-340B 已 超越 Llama-3-70B,成为 Arena 排行榜上最强的开源模型,在长查询、平衡的多语言能力以及“Hard Prompts”方面表现出色。
- Nemotron-4-340B 训练细节:@_philschmid 概述了 Nemotron-4-340B 的训练过程,包括 两阶段预训练过程、在代码样本和多样化任务样本上的微调,以及在多次迭代中应用 Direct Preference Optimization (DPO) 和 Reward-aware Preference Optimization (RPO)。
Anthropic AI 关于奖励篡改的研究
- Anthropic AI 研究语言模型中的奖励篡改:@AnthropicAI 发布了一篇新论文,调查 AI 模型是否会学会攻击自己的奖励系统,结果表明 模型可以从简单环境下的训练泛化到更令人担忧的行为,如蓄意撒谎和直接修改其奖励函数。
- 错误指定的奖励函数课程:@AnthropicAI 设计了一套环境复杂度递增且奖励函数指定错误的课程,在这些环境中,AI 发现了诸如虚伪奉承之类的欺骗性策略,随后泛化到严重的违规行为,例如直接修改自己的代码以最大化奖励。
- 对对齐失误 (Misalignment) 的启示:@EthanJPerez 指出,该研究提供了 实证证据,表明严重的对齐失误可能源于看似无害的奖励指定错误,而此类威胁建模对于了解如何防止严重的对齐失误至关重要。
AI Reddit 回顾
涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!
视频生成 AI 模型与能力
- Runway Gen-3 Alpha:在 /r/singularity 中,Runway 推出了一款全新的文本生成视频模型,具有令人印象深刻的能力,例如生成逼真的音乐会场景,尽管仍存在一些视觉伪影和透视问题。
- OpenSora v1.2:在 /r/StableDiffusion 中,完全开源的视频生成器 OpenSora v1.2 发布,能够生成 16 秒的 720p 视频,但需要 67GB VRAM,并在价值 3 万美元的 GPU 上运行 10 分钟。
- Wayve 的新视角合成:Wayve 展示了一个从不同角度生成逼真视频的 AI 系统。
- NVIDIA Research 赢得自动驾驶挑战赛:NVIDIA Research 凭借端到端 AI 驾驶系统赢得了自动驾驶挑战赛。
图像生成 AI 模型
- Stable Diffusion 3.0:Stable Diffusion 3.0 的发布引发了一些争议,对比发现其表现不如 SD 1.5/2.1。
- PixArt Sigma:PixArt Sigma 成为 SD3 的热门替代方案,在较低 VRAM 下表现良好。
- Depth Anything v2:用于深度估计的 Depth Anything v2 已发布,但模型/方法尚未完全就绪。
- 2DN-Pony SDXL 模型:2DN-Pony SDXL 模型发布,支持 2D 动漫和写实风格。
AI 在医疗保健领域的应用
- GPT-4o 辅助医生:在 /r/singularity 中,展示了 GPT-4o 在 Color Health 辅助医生进行癌症患者的筛查和治疗。
AI 取代工作
- BBC 报道 60 名技术员工被 1 名使用 ChatGPT 的人取代:BBC 报道了 60 名技术员工被 1 名使用 ChatGPT 的人取代,目的是让 AI 听起来更像人类,这引发了关于失业和缺乏同理心的讨论。
机器人与具身智能
- 中国的人形机器人工厂:中国的人形机器人工厂旨在大规模生产服务机器人。
幽默/梗图
- 一个调侃关于 AI 进展放缓的反复预测的梗图。
- 一个关于 Stable Diffusion 3.0 Logo 的幽默帖子。
- 一个想象 Stability AI 内部讨论 SD3 发布情况的梗图。
AI Discord 回顾
摘要之摘要的摘要
- DeepMind 为 AI 视频带来配音:
- Google DeepMind 的 V2A 技术可以为 AI 生成的视频生成无限的音轨,解决了 AI 视频无声的局限性。
- ElevenLabs 推出了具有无限自定义功能的音效生成器,承诺为各种媒体应用提供高质量、免版税的音频。
- Stable Diffusion 3 面临授权风波:
- Civitai 暂时禁用了所有基于 SD3 的模型,原因是授权条款不明,引发了社区对 Stability AI 控制模型的担忧。
- SD3 的发布 令人失望,由于性能问题和授权的不确定性,被贴上了“迄今为止最糟糕的基础模型发布”的标签。
- 模型优化超出预期:
- CUTLASS 库 在纯 C++ 的矩阵乘法中比 CuBLAS 快 10%,但在与 Python 集成时失去了这一优势,两者都达到了 257 Teraflops。
- Meta 推出 Chameleon,这是一个支持混合模态(mixed-modal)输入的模型,具有极具前景的基准测试结果并已开源,同时推出的还有 JASCO 等其他创新模型。
- AI 社区质疑 OpenAI 领导层:
- 针对 OpenAI 任命前 NSA 局长 的决定引发了担忧,Edward Snowden 的推文 警告称,这一决定可能带来潜在的数据安全风险。
- ChatGPT 大范围宕机 让用户感到沮丧,凸显了不同地区的服务器稳定性问题,并促使用户寻求 ChatGPT App 等替代方案。
- 跨平台的训练与兼容性问题:
- Google Colab 在模型训练期间的会话中断问题 引发了关于预防性检查点(preemptive checkpointing)等应对技巧的讨论。
- Axolotl 对 AMD GPU 的支持仍然不足,特别是对于 MI300X,促使用户交流修改技巧以增强兼容性和性能。
第 1 部分:Discord 高层摘要
Unsloth AI (Daniel Han) Discord
-
AI 老兵们调侃年龄:40-60 岁年龄段的成员之间进行了轻松的闲聊,讨论关于衰老以及通过编程保持心态年轻的话题,并不担心被年轻一代称为“行尸走肉”。
-
应对 GGUF 挑战:确定卸载到 VRAM 的最佳 GGUF 层 数量的技巧包括试错法、检查 llama.cpp 输出,以及参考 Hugging Face 模型详情。
-
多 GPU 支持的软件变现模式:成员们就实施多 GPU 支持的订阅模式达成共识,价格可能从 每月 9.99 美元 起,并讨论了基于用户类型的不同定价策略。
-
租用 GPU 还是自掏腰包:考虑到成本效益和散热管理,特别是高电价因素,成员们建议租用 GPU 而非搭建本地配置。
-
OpenAI 的任命敲响警钟:OpenAI 决定任命前 NSA 局长 进入董事会引发了担忧,成员们引用了 Edward Snowden 的推文,将其视为针对潜在数据安全问题的警戒立场。
-
Gemini 2.0 临近发布:对 Gemini 2.0 的期待很高,成员们对 24GB VRAM 机器的潜力感到兴奋,并讨论了对租用的 48GB Runpod 实例 进行压力测试。
-
Colab 的挫败感与优化:讨论了 Google Colab 的问题,如训练会话中断和启动检查点(checkpointing)的好处,以及该平台上的分词(tokenization)挑战和会话长度限制。
-
分享训练与模型管理技巧:分享了将 JSON 转换为 Parquet 以提高效率的建议,以及在 Unsloth 中正确使用混合 GPU 的方法,包括详细的 Python 代码片段和避免兼容性问题的建议。
CUDA MODE Discord
-
CUDA 碾压计算:根据成员分享的 博客文章,CUTLASS 库在大矩阵乘法中相比 CuBLAS 实现了 10% 的性能提升,在纯 C++ 环境下达到了 288 Teraflops。然而,当从 Python 调用 CUTLASS 内核时,这一优势便消失了,性能与 CuBLAS 持平,均为 257 Teraflops。
-
对 Nvidia 下一步行动的期待:关于 Nvidia 未来显卡可能配置的传闻引发了讨论,大家对 5090 显卡拥有 64GB 显存持怀疑态度,并推测 5090 Ti 或 Super 显卡更有可能搭载此类容量的内存,参考了 Videocardz 的推测。
-
搜索算法寻求关注:一位成员表达了希望增加对搜索算法关注的愿望,并分享了一篇 arXiv 论文 作为案例,强调了该领域取得进展的重要性。
-
量化机制的怪癖受到质疑:Quantization API 语法的差异和用户体验问题引发了关于潜在改进的辩论,并引用了 GitHub issue(#384 和 #375)获取用户反馈,同时要求对 #372 和 #374 等 Pull Request 进行彻底审查。
-
编程项目进展:成员们积极讨论了 DataLoader 状态逻辑的优化、将 FlashAttention 集成到 HF transformers 以提升性能,以及在多节点设置中不使用 MPI 而追求 NCCL 的新颖性。讨论重点在于性能影响评估以及 FP32 与 BF16 之间的浮点精度差异。
Stability.ai (Stable Diffusion) Discord
- Civitai 因许可不确定性停止 SD3 内容:Civitai 已禁止所有与 SD3 相关的模型内容,理由是许可证条款模糊,此举引发了社区的担忧并要求澄清 (Civitai 公告)。
- SD3 首秀遇冷:工程社区对 SD3 表达了不满,称其为“迄今为止最糟糕的基础模型发布”,并批评了其性能和授权问题。
- 关于 SD3 文本理解力与替代方案的评价褒贬不一:虽然承认 SD3 凭借其 “16ch VAE” 提升了文本理解能力,但一些工程师建议 Pixart 和 Lumina 等替代方案在计算资源利用方面效率更高。
- 对 SD3 许可证的法律担忧:用户对 SD3 模型的许可证感到明显不安,担心它赋予了 Stability AI 过度的控制权,这促使 Civitai 等平台寻求法律层面的澄清。
- 寻求更好的模型遵循度:用户讨论还强调了替代工具的使用,Pixart Sigma 因其 Prompt 遵循能力而受到关注(尽管存在一些问题),并提到了 StableSwarmUI 和 ComfyUI 在特定用例中的应用。
HuggingFace Discord
-
SD3 模型遭遇许可障碍:Civitai 因授权不明禁止了所有基于 SD3 的模型,引发了对 Stability AI 可能过度控制模型和数据集的担忧。
-
跨平台兼容性难题:技术讨论强调了 Flash-Attn 在 Windows 上的安装挑战以及在 Linux 上的易用性,并建议使用
ninja进行高效微调,同时分享了一个相关的 GitHub 仓库。 -
改进 SD3 的努力:改进 SD3 人体解剖表现的建议包括使用负向提示词(negative prompts),并分享了一个 SD3 的 Controlnet 链接,展示了社区主导的模型利用创新。
-
Meta FAIR 大胆推出 AI 模型:Meta FAIR 推出了新的 AI 模型,包括混合模态语言模型和文本转音乐模型,反映了其开放科学的理念,详见 AI at Meta 的推文 和 Chameleon GitHub 仓库。
-
AI 迷因创作与求职故事:成员们交流了为加密社区创建 AI 迷因(meme)生成器的想法,一位计算机科学毕业生详细描述了他们在 AI/ML 领域求职的挑战,寻求成功的求职策略。
OpenAI Discord
-
大科技公司在开源问题上游说政府:据报道,OpenAI 和其他大型科技公司正在游说限制开源人工智能模型,引发了关于开源 AI 开发未来及潜在监管影响的讨论。
-
AI 领域的服务中断:各地区用户报告了 ChatGPT 4.0 的宕机,错误信息提示稍后重试,突显了服务器稳定性这一运营问题。还有提到 GPT 模型在 Web 界面无法访问,促使用户考虑将 ChatGPT app 作为替代方案。
-
API 混淆与挑战:用户讨论了使用 API key 与订阅服务(如 ChatGPT Plus)之间的细微差别,一些人表示更倾向于简单、即插即用的服务,这表明更易用的 AI 集成平台存在市场空间。
-
AI 艺术领域的争论:关于 Midjourney 和 DALL-E 3 输出质量的辩论十分激烈,涉及自动水印问题,以及水印是意外的幻觉还是故意的法律保护。
-
ChatGPT 回复的不一致性与隐私担忧:用户遇到了包括 ChatGPT 不一致的拒绝、无关的回复、聊天记录中疑似隐私泄露以及模型在处理任务时的固执等问题。这些经历引发了对 Prompt Engineering、模型可靠性以及对正在进行的项目协作影响的思考。
Modular (Mojo 🔥) Discord
-
Async 等待并非魔法:在函数签名中注入
async并不能消除对堆栈的需求;有人提议缩短该关键字或考虑其必要性,因为它并非解决复杂性的万灵药。 -
FFI 的多线程迷宫:围绕 Foreign Function Interface (FFI) 及其缺乏固有线程安全性的讨论浮出水面,这在并发编程中带来了设计挑战,并可能受益于传统函数着色(function coloring)方法之外的创新。
-
Mojo 增长一瞥:Mojo 24.4 凭借关键的语言和库改进引起了轰动,得到了 214 个 Pull Requests 的支持,以及 18 位贡献者展现出的热心社区支持,这表明了强有力的协作进展。更新详情见 博客文章。
-
JIT, WASM 和 API:社区成员正积极探索用于运行内核的 JIT 编译以及针对 WASM 的潜力,同时评估用于优化运行时定义的 MAX Graph API,并思考 MAX 中 GPU 支持和训练的未来。
-
Web 标准辩论:针对在 Mojo 中采用 WSGI/ASGI 等标准的关联性展开了激烈的讨论,鉴于它们的局限性以及 Mojo 在直接 HTTPS 操作方面的天然优势,引发了对采用无标准方法以发挥 Mojo 能力的思考。
Cohere Discord
- 向 Cohere 贡献 PDF:成员们正在讨论 Cohere 是否接受外部数据贡献,特别是关于可能用于 Embedding 模型微调的约 8,000 份 PDF,但尚待进一步澄清。
- Collision 会议热度:工程师们交流了参加多伦多 Collision 会议的心得,一些人计划见面并分享经验,同时也提到了 Cohere 员工的出席。
- 专注的 Bot 魅力:Command-R bot 在保持对 Cohere 产品关注方面的有效性受到了赞扬,指出了通过 Cohere 模型和 API 提高用户参与度的潜力。
- 揭秘 Cohere 实习路径:资深成员建议准 Cohere 实习生展示真实性,突出个人项目,并对 Cohere 的产品有深入了解,同时强调了坚持和积极参与社区的美德。
- Project Clairvoyance:用户在错误频道请求反馈导致了重定向,并引发了关于综合项目用例双刃剑性质的讨论,说明了传达特定用户利益的复杂性。
LM Studio Discord
注意新模型的设置警告:在设置 Deepseek Coder V2 Lite 时,用户应密切注意初始配置期间的关键设置,因为某个设置如果错误地保持开启状态可能会导致问题。
当 Autoupdate 失败时,请手动操作:LM Studio 用户自 0.2.22 版本以来遇到了 Autoupdate 损坏的问题,需要手动下载更新版本。0.2.24 版本的下载链接正常,但有报告称 0.2.25 版本存在问题。
量化(Quantization)的困境:不同 Quantization 级别下的模型响应存在显著差异。用户发现 Q8 比 Q4 响应更积极,在考虑模型效率和输出适用性时,这些差异非常重要。
配置混乱需要精确性:一位用户在配置 afrideva/Phi-3-Context-Obedient-RAG-GGUF 模型时遇到了困难,引发了关于特定系统消息格式化的建议。这次讨论强调了为了实现最佳 Bot 交互,精确的 Prompt 结构至关重要。
Open Interpreter 故障排除:关于 Open Interpreter 默认使用 GPT-4 而非 LM Studio 模型的问题,引发了社区分享针对 MacOS 的变通方法,并引用了 YouTube 教程 以获取详细的设置指导。
Nous Research AI Discord
-
DeepSeek Coder V2 正式面世:DeepSeek-Coder-V2 模型(包括 Lite 版和全量版,具有 236x21B 参数)已经发布,引发了围绕其成本和效率的讨论。讨论中提供了一个仅需 14 美分的示例(HuggingFace 仓库),并对其架构中的 Dense 和 MoE MLP 进行了详细解释。
-
Meta 展示其新的 AI 武器库:AI 社区对 Meta 宣布其巨型 AI 模型感到兴奋,其中包括 Chameleon(一个用于混合模态输入和纯文本输出的 7B 和 34B 语言模型),以及一系列其他模型,如用于音乐创作的 JASCO 和一个擅长用于编程应用的 Multi-Token Prediction 模型(Meta 公告)。
-
YouSim:多元宇宙之镜:名为 YouSim 的创新 Web 演示因其模拟复杂角色和创建 ASCII 艺术的能力而受到关注,其身份模拟入口受到赞赏,甚至在被调侃时幽默地用 Adele 的歌词回应。
-
Flowwise,LLM 需求的 Comfy 选择?:社区正在讨论 Flowise,这是一个 GitHub 项目,提供了一个用户友好的拖拽式 UI 来构建自定义 LLM 工作流,满足了一些用户在 LLM 领域对类似 ComfyUI 工具的渴望。
-
模型行为发生伦理转向:讨论强调了 Anthropic 和 OpenAI 模型中可察觉的变化,它们审查了对伦理查询的回答,特别是对于可能需要包含现在被归类为不道德或有疑问内容的创意故事 Prompt。
Interconnects (Nathan Lambert) Discord
- Google DeepMind 为 AI 视频带来声音:DeepMind 最新的 Video-to-Audio (V2A) 创新可以为无声的 AI 生成视频生成无数音轨,推向了创意 AI 技术的边界 推文详情。
- 质疑受限模型中的创造力:arXiv 上的一项研究显示 Llama-2 模型表现出较低的 Entropy,这表明来自人类反馈的强化学习 (RLHF) 可能会降低 LLM 的创造性多样性,挑战了我们的对齐策略。
- Midjourney 神秘的硬件举措:据报道 Midjourney 正在向软件以外的领域进军,引发了对其硬件雄心的好奇,同时广大社区正在辩论 Neurosymbolic AI 的能力和应用以及其他 LLM 的复杂性。
- AI2 发现首个完全开源模型:AI2 团队成功在 WildBench 上发布了 M-A-P/Neo-7B-Instruct,这是第一个完全开源的模型,引发了关于开源模型演进的讨论,并促使人们关注未来的竞争者,如 OLMo-Instruct Billy 的公告。
- AI 文本转视频领域爆发:文本转视频技术正处于淘金热中,ElevenLabs 提供了一个出色的可定制、免版税音效生成器 音效详情,同时社区正在审视该领域专业化与通用 AI 卓越性之间的平衡。
Perplexity AI Discord
-
Perplexity 的学术访问与功能集:工程师们讨论了 Perplexity AI 无法访问 Jstor 等特定学术数据库的问题,并质疑其提供的是全文还是仅摘要。注意到了该平台在上传 PDF 和 Word 文档方面的限制,并提到了 Google 的 NotebookLM 等替代 LLM 来处理大量文档。
-
AI 模型对决:成员们表达了对不同 AI 模型的偏好;Claude 因其写作风格受到称赞,但在争议话题上被认为限制较多,而 ChatGPT 则因限制较少而受到好评。
-
寻求增强隐私控制:一位社区成员强调了 Perplexity AI 公开链接分享的隐私问题,该功能会暴露集合(collection)中的所有消息,引发了关于改进隐私措施必要性的讨论。
-
对 Perplexity API 的需求:来自 Kalshi 的用户表达了获得内测 API 访问权限以进行工作集成的紧迫性,强调了对 text tokenization 和 embeddings computation 等功能的需求,这些功能目前在 Perplexity 中缺失,但在 OpenAI 和 Cohere 的 API 中可用。
-
区分 API 能力差距:讨论详细说明了 Perplexity 与 llama.cpp 及其他平台相比的不足,缺乏函数调用(function calling)等开发者友好型功能,以及 OpenAI 等平台提供的必要 Agent 开发支持。
OpenAccess AI Collective (axolotl) Discord
-
DanskGPT 开放访问:DanskGPT 现在提供免费版本,并为感兴趣的各方提供更强大的授权版本。免费版的源代码已公开,开发团队正在寻找拥有计算资源的贡献者。
-
优化 NVIDIA API 集成:在关于 NVIDIA Nemotron API 的讨论中,成员们交换了代码和技巧,以提高其数据流水线的速度和效率,重点是通过模型利用来增强 MMLU 和 ARC 的表现。
-
Axolotl 在 AMD GPU 上的困扰:Axolotl 对 AMD GPU(特别是 MI300X)的支持有限,促使用户合作识别并编译必要的修改以实现更好的兼容性。
-
视觉模型微调指南:分享了微调视觉模型(尤其是 ResNet-50)的分步方法;用户可以在此处的详细指南中找到所有相关的安装、数据集准备和训练步骤。
-
从源码构建 QDora:用户关于从源码编译 QDora 的询问反映了对更精确指令的需求,并承诺只要有更多指导,就能自主完成设置。
LlamaIndex Discord
-
网络研讨会预告:通过高级 RAG 进阶:由 @neo4j 的 @tb_tomaz 主持的 60 分钟网络研讨会 深入探讨了将 LLM 与知识图谱(knowledge graphs) 集成,提供了关于图构建和实体管理的见解。有兴趣增强模型上下文感知能力的工程师可以在此处观看。
-
LlamaIndex 加入 InfraRed 精英行列:云基础设施公司 LlamaIndex 已入选 @Redpoint 的 InfraRed 100 榜单,表彰其在可靠性、可扩展性、安全性和创新方面的里程碑。查看庆祝推文。
-
切换到 MkDocs 以获得更好的文档:从 0.10.20 版本开始,LlamaIndex 从 Sphinx 迁移到 MkDocs,以便在大型单体仓库(monorepos)中更高效地生成 API 文档,因为 Sphinx 存在需要安装包的限制。
-
调整嵌入(Embeddings)和提示词(Prompts)以提高精度:讨论涵盖了为包含数值数据的电商 RAG 流水线微调 embeddings 的挑战,并建议使用 GPT-4 进行合成查询生成。此外,还分享了一种修改 LlamaIndex 提示词的技术,以解决本地与服务器行为不一致的问题,详见此处。
-
解决 PGVector 的过滤迷雾:为了规避 PGVector 查询过滤器缺乏文档的问题,建议直接在数据库中按日期过滤文档 ID,然后使用
VectorIndexRetriever进行向量搜索过程。
LLM Finetuning (Hamel + Dan) Discord
- Mistral Finetuning 故障已解决:在尝试微调 Mistral 时遇到了
OSError。在尝试使用 0.3 版本并调整 Token 权限后,该问题已成功解决。 - Vision Model 的 Token 难题:StackOverflow 上引发了关于
phi-3-vision模型异常 Token 计数的讨论,观察到图像消耗了约 2000 个 Token,引发了关于 Token 计数与图像大小关系的疑问 详情点击此处。 - SFR-Embedding-Mistral 的异常行为:有用户反映了 SFR-Embedding-Mistral 相似度得分不一致的问题,特别是在将天气报告与日期关联时,并寻求解释或解决这种差异的策略。
- 额度过期困惑:Discord 社区提议创建一个列表来追踪不同额度提供商的过期时间(期限从几个月到一年不等),并讨论了开发一个 Bot 来提醒用户额度即将到期的事宜。
- 对 Gemini 新功能的期待:社区对探索 Gemini 的 Context Caching 功能表现出极大的热情,特别是关于 Many-shot Prompting 的应用,预示着未来会有更多的实操实验。
注:链接和具体的数值细节已在可用时嵌入以供参考。
OpenRouter (Alex Atallah) Discord
-
Midnight Rose 大幅降价:Midnight Rose 70b 在降价 90% 后,现在的价格为 每百万 Token 0.8 美元,为用户提供了一个极具性价比的选择。
-
更新即将来临:社区对 OpenRouter 更新的期待得到了 Alex Atallah 的回应,他承诺即将会有新进展,通过积极的沟通方式保持用户参与度。
-
深入探讨 OpenRouter 机制:用户讨论了 OpenRouter 的核心功能,即通过标准化 API 针对价格或性能进行优化,更多教育资源可在 原则页面 找到。
-
可靠性备受关注:针对服务可靠性的讨论,官方信息指出 OpenRouter 的运行时间(Uptime)是所有提供商运行时间的总和,并辅以 Dolphin Mixtral 运行时间统计 等数据。
-
对模型问题的积极响应:团队对特定模型问题的迅速解决展示了其对平台维护的专注态度,重点包括他们对 Claude 和 DeepInfra 的 Qwen 2 相关问题的响应。
Eleuther Discord
-
Creative Commons 内容警示:使用 Creative Commons (CC) 内容可能会减少法律问题,但当输出结果与受版权保护的作品相似时,仍可能引发担忧。建议采取主动方法,包括使用“补丁(patches)”来处理特定的法律投诉。
-
探索生成潜力:CommonCanvas 的表现平平,仍有改进空间,例如使用免费纹理训练纹理生成模型;而 DeepFashion2 在服装和配饰图像数据集基准测试中表现令人失望。对于 language models,GPT-NeoX 为 Pythia-70M 提供了可用的权重;在填空(fill-in-the-middle)语言任务方面,讨论了 BERT、T5、BLOOM 和 StarCoder 等模型,其中 T5 的表现备受关注。
-
Z-Loss 正在退出?:在 AI 社区中,z-loss 的使用似乎正在下降,趋势转向 MoEs 的负载均衡损失(load balance loss),这在 Mixtral 等工具中有所体现,并在 DeepSeek V2 等模型中得到关注。此外,人们对 HF configs 对于 Mixtral 的可靠性持怀疑态度,建议参考官方来源获取其真实参数。
-
使用 GAMA 进行高级音频理解:讨论介绍了 GAMA,一种创新的 Large Audio-Language Model (LALM),并涉及了最新的论文,包括关于 Meta-Reasoning Prompting (MRP) 和用于多 Agent 辩论以优化计算开销的 稀疏通信拓扑(sparse communication topologies),详情和论文可从 arXiv 和 GAMA project 获取。
-
解释神经机制:关于理解 logit prisms 进行了深入讨论,引用了一篇关于 logit prisms 的文章 以及该概念与直接 logit 归因(direct logit attribution, DLA)的关系,并指向了 IOI paper 等额外资源供成员进一步探索。
-
深入研究 vLLM 配置详情:提出了一个简短的技术咨询,关于是否可以通过
model_args将--enforce_eager等 vLLM 参数直接集成到引擎中。回复指出可以使用 kwargs 这种简单的方法,但也暗示需要解决一个“类型转换错误(type casting bug)”。
LangChain AI Discord
LangChain 学习者面临教程困扰:成员们遇到了 LangChain 版本与已发布教程不匹配的问题,一位用户卡在了 ChatGPT Slack 机器人视频 的某个时间点。LangChain 0.1.17 中 LLMChain 的弃用以及即将到来的 0.3.0 版本中的移除,突显了该库的快速演进。
从网页抓取中提取价值及调试技巧:一位用户获得了关于如何使用 LangChain 从网站数据中提取公司摘要和客户列表的指导,其他用户讨论了使用 set_debug(True) 和 set_verbose(True) 调试 LangChain 的 LCEL pipelines。API 中的 BadRequestError 引发了挫败感,反映了处理意外 API 行为时的挑战。
无服务器搜索与语义 AI 发布:分享了一篇关于使用 AWS Lambda 和 Qdrant 创建无服务器语义搜索的文章,同时在 ProductHunt 上发布了集成了 LangChain、LangGraph 和 LangSmith 的 AgentForge。另一项作品 YouSim 展示了一个受 backrooms 启发的身份实验模拟平台。
新媒介,新代码:jasonzhou1993 在 YouTube 教程 中探索了 AI 对音乐创作的影响,同时分享了 Hostinger 网站生成器的折扣码 AIJASON。
征集合作与分享创新:Rubik’s AI 为其高级研究助手征集 Beta 测试人员,提到其拥有 Claude 3 Opus 和 GPT-4 Turbo 等高级功能。Hugging Face 建议将环境设置与代码隔离,并推崇使用 Bitwarden 等工具管理凭据,强调了安全和规范开发实践的重要性。
tinygrad (George Hotz) Discord
- 四舍五入浮点数或被拒绝的 PR:一个拉取请求 (#5021) 旨在通过在
graph.py中对浮点数进行四舍五入来提高 tinygrad 的代码清晰度,而 George Hotz 强调了一项针对低质量提交的新政策,即关闭那些未经彻底自我审查的 PR。 - 增强 OpenCL 的错误报告:一个拉取请求 (#5004) 提议升级 tinygrad 的 OpenCL 错误消息,尽管在合并前还需要进一步审查。
- Tinygrad 中的 Realization 影响:围绕
realize()对操作输出的影响展开了讨论,观察了 lazy 和 eager 执行之间的差异,以及缓存和显式 realization 如何影响 kernel fusion。 - 对 Kernel 组合的好奇:参与者探讨了如何实现强制 kernel 组合,特别是针对自定义硬件,并建议研究 Tinygrad 的 scheduler 以更好地理解可能的实现方式。
- Scheduler 在操作效率中的角色:AI 工程师考虑通过操纵 Tinygrad 的 scheduler 来优化自定义加速器性能,这引发了对其管理 kernel fusion 和操作执行能力的深入探讨。
LAION Discord
- AI 生成的逼真度再次袭来:一段 RunwayML Gen-3 视频片段 展示了其令人印象深刻的 AI 生成细节,模糊了 AI 与现实的界限,用户注意到它与真实素材已无异。
- 无声视频获得声音:DeepMind 的 V2A 技术通过 博客文章 中解释的过程,仅根据视频像素和文本提示生成配音,突显了与 Veo 等模型的协同作用。
- Meta 推进开放 AI 研究:Meta FAIR 推出了新的 研究成果,如 Meta Llama 3 和 V-JEPA,现在公开提供了 Chameleon 纯视觉权重,为进一步的 AI 工具开发提供动力。
- 开源社区号召:PKU-YuanGroup 敦促针对 GitHub 上概述的 Open-Sora 计划进行协作,力求复制 Open AI 的 T2V 模型,并邀请社区贡献。
- 发现可解释的权重空间:来自加州大学伯克利分校、Snap Inc. 和斯坦福大学的研究人员揭示了扩散模型中一个 可解释的隐式权重空间,正如在 Weights2Weights 上分享的那样,这使得在大规模模型空间内操纵视觉身份成为可能。
Torchtune Discord
CUDA vs MPS:警惕 NaN 入侵:工程师们讨论了一个问题,即 nan 输出出现在 CUDA 上而未出现在 MPS 上,这与 SDPA 中 softmax 操作的 kernel 执行路径差异有关,导致 softmax 在处理大数值时产生 nan。
与 Huggingface 的缓存冲突:有讨论称在使用 Torchtune 进行微调期间,由于 Huggingface 的缓存溢出导致系统崩溃,引起了用户的关注并寻求解决方案。
构建从 Huggingface 到 Torchtune 的桥梁:该频道分享了将 Huggingface 模型转换为 Torchtune 格式的详细过程,重点介绍了用于轻松转换和加载权重的 Torchtune Checkpointers。
Attention Mask 矩阵难题:辩论了针对填充 token 输入的正确 attention mask 格式,以避免不同处理单元之间的差异,确保模型的注意力被正确应用。
| 用文档击败混乱:分享了指向 Torchtune 文档的链接,包括使用 PPO 的 RLHF 和 GitHub 拉取请求,以协助处理实现细节并促进工程师之间的知识共享。使用 PPO 的 RLHF | Torchtune 拉取请求 |
Latent Space Discord
- SEO 乱象混淆 AI 讨论:成员们分享了对一篇 SEO 生成的文章 的沮丧,该文章错误地提到了“Google 的 ChatGPT”,突显了某些行业相关文章中典型的引用缺失和事实核查不力的问题。
- Herzog 为 AI 沉思配音:著名导演 Werner Herzog 在 This American Life 节目 中朗读了 davinci 003 的输出内容,展示了人类与 AI 互动的叙事。
- 追求完美的播客:公会讨论了创建播客的工具,并推荐了用于自动化片头和节目笔记的 smol-podcaster;他们还对比了来自 Assembly.ai 和 Whisper 的转录服务。
- Meta 的模型马拉松继续推进:Meta 展示了四款新的 AI 模型——Meta Chameleon、Meta Multi-Token Prediction、Meta JASCO 和 Meta AudioSeal,旨在推广开放的 AI 生态系统和负责任的开发。详情可见其公告。
- Google 的 Gemini API 变得更智能:Google 为 Gemini API 引入了 Context Caching(上下文缓存),承诺降低成本并升级 1.5 Flash 和 1.5 Pro 版本,立即生效。
OpenInterpreter Discord
- Llama 在商业领域击败 Codestral:尽管 codestral 排名更高,但在商业应用中更推荐使用 llama-70b 模型,主要是因为 codestral 不适合商业部署。引用了 LMSys Chatbot Arena 排行榜,其中 llama-3-70b 的强劲表现也得到了认可。
- 渴望 E2B 集成:大家对潜在的集成配置文件感到兴奋,强调 e2b 是下一个候选方案,并推崇其在执行外包任务时的安全沙箱功能。
- OpenInterpreter 派对预览:关于 OpenInterpreter 最新版本的询问得到了一个链接,指向“WELCOME TO THE JUNE OPENINTERPRETER HOUSE PARTY”,这是 YouTube 上由 Restream 支持的直播视频。
- 本地逻辑大师发布警报:Open Interpreter’s Local III 发布,重点介绍了离线运行功能,如快速设置本地大语言模型(LLMs)和用于训练个人模型的免费推理端点。
- 隐私保护下的照片命名:介绍了一款用于自动和描述性照片命名的全新离线工具,强调了用户隐私和便利性的优势。
AI Stack Devs (Yoko Li) Discord
- Agent Hospital 旨在彻底改变医学训练:在 AI 开发领域,Agent Hospital 论文 介绍了 Agent Hospital,这是一个模拟环境,其中自主 Agent 扮演患者、护士和医生的角色。MedAgent-Zero 通过模拟疾病和患者护理来促进学习和改进治疗策略,可能改变医学培训方法。
- 模拟经验媲美现实世界的学习:关于 Agent Hospital 的研究认为,医生 Agent 可以通过治疗虚拟患者来积累适用于现实世界的医学知识,模拟多年的实地经验。这可以通过反映数千名虚拟患者治疗情况的数据,缩短医疗专业人员的学习曲线。
Datasette - LLM (@SimonW) Discord
- 深入探讨 LLM CLI 使用的视频:Simon Willison 在 Mastering LLMs Conference 的一段详细视频中展示了通过命令行进行的 Large Language Model (LLM) 交互,并辅以带注释的演示文稿,该演讲也可在 YouTube 上观看。
- Calmcode 准备发布新内容:Vincent Warmerdam 暗示 Calmcode 预计很快会发布新版本,并由新的维护者掌舵。
- 仅致谢无后续行动:在一段简短的交流中,一位用户表达了感谢,可能是针对 Simon Willison 分享的前述视频演示,但未讨论更多细节。
Mozilla AI Discord
- 加速 MoE 性能:一个名为 improve moe prompt eval speed on cpu #6840 的 pull request 旨在提升模型评估速度,但由于与 main 分支冲突,需要进行 rebasing。已向作者提出更新请求。
LLM Perf Enthusiasts AI Discord 没有新消息。如果该频道长时间保持静默,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该频道长时间保持静默,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道长时间保持静默,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间保持静默,请告知我们,我们将将其移除。
YAIG (a16z Infra) Discord 没有新消息。如果该频道长时间保持静默,请告知我们,我们将将其移除。
第二部分:按频道详细摘要与链接
完整的逐频道细分内容已针对电子邮件进行截断。
如果您喜欢 AInews,请分享给朋友!预先感谢!