ainews-to-be-named-4285
Clémentine Fourrier 谈 LLM 评估(LLM evals)
来自 Hugging Face 的 Clémentine Fourrier 在 ICLR 上展示了与 Meta 合作的 GAIA 项目,并分享了关于 大语言模型(LLM)评估 方法的见解。
该博客概述了三种主要的评估方法:
- 自动化基准测试 (Automated Benchmarking):使用样本输入/输出和特定指标进行评估。
- 人类评判 (Human Judges):涉及评分和排名,具体方法包括 Vibe-checks(感官测试)、Arena(竞技场) 以及系统化标注。
- 模型作为裁判 (Models as Judges):利用通用或专业模型进行评估,并指出其存在的偏见。
面临的挑战包括数据污染、主观性以及评分偏见。这些评估有助于防止模型性能退化、对模型进行排名,并跟踪该领域的进展。
榜单就是你所需要的一切。
2024年5月22日至5月23日的 AI 新闻。 我们为你检查了 7 个 subreddits、384 个 Twitter 账号 和 29 个 Discords(380 个频道和 5410 条消息)。 预计节省的阅读时间(以 200wpm 计算):551 分钟。
针对昨天 AI Engineer World’s Fair 呼吁的特别补充 —— 为无法负担全额门票的人提供奖学金!。更多演讲者公告正在陆续发布。
很多人都知道 Huggingface 的 Open LLM Leaderboard,但很少能听到其背后团队的声音。Clémentine Fourrier 在 ICLR 罕见露面(共同展示了 与 Meta 合作的 GAIA,我们将在即将推出的 ICLR 播客中讨论此内容),现在她带着一篇关于她对 LLM Evals 看法的博客回归了。

对于那些非常接近这一问题的人来说,这可能不是突破性的,但它是该领域最权威人士之一对“技术现状”所做的极佳且易懂的总结。
我们的 TL;DR:进行评估主要有 3 种方式:
- Automated Benchmarking (自动化基准测试)
- 评估由样本输入/输出集合(通常将生成的文本与参考答案或多项选择进行比较)和指标(用于计算模型分数)组成。
- 针对特定任务
- 适用于定义非常明确的任务。
- 常见问题:模型在多选题评估中倾向于根据选项出现的顺序做出特定选择,以及生成式评估依赖于归一化,如果设计不当,很容易导致不公平。
- 或针对通用能力
- 例如,GSM8K 高中数学题作为“擅长数学”的代理,独角兽作为“会画画”的代理。
- LLM 在自动化基准测试中的得分极易受到 Prompt 的微小变化的影响。
- 最大的问题:数据污染。BigBench 尝试添加“canary string”,但合规性/意识较差。目前已存在检测污染的工具,人们也在探索动态基准测试,尽管这成本很高。
- Humans as Judges (人类作为评委)
- 通过让模型完成以下任务:1) 给模型提示 (Prompting) 以及 2) 根据指南对模型回答进行评分或对多个输出进行排名。
- 比自动化指标更具灵活性。
- 防止了大多数污染情况。
- 与人类偏好高度相关。
- 形式可以是 Vibe-checks
- 大多构成轶事证据,且往往对确认偏误高度敏感。
- 但像 Ravenwolf 这样的人非常系统化。
- 或者是 Arena (例如 LMsys)
- 投票随后汇总为 Elo 排名(比赛排名),以选出哪个模型是“最好的”。
- 高主观性:很难强制让许多使用宽泛指南的社区成员保持一致的评分标准。
- 或者是 systematic annotations (系统化标注)
- 向选定的付费标注员提供极其具体的指南,以尽可能消除主观偏见(Scale AI 和其他标注公司)。
- 仍然昂贵。
- 仍可能受到人类偏见的影响。
- Models as Judges (模型作为评委)
- 使用通用、高能力的模型。
- 或者使用专门针对偏好数据进行训练的小型专家模型。
- 局限性:
- 在评分时倾向于偏好自己的输出。
- 不擅长提供一致的分数范围。
- 与人类排名并不那么一致。
- 在答案选择中引入了非常微妙且不可解释的偏见。
评估用于防止退化、对模型进行排名,并作为该领域进展的代理指标。
AI Twitter 回顾
所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果。我们正在使用 Haiku 进行聚类和流程工程(flow engineering)。
NVIDIA 财报与股票表现
- 强劲的财报:@nearcyan 指出 NVIDIA 已连续六个季度超出盈利预期,去年营收增长 262% 达到 260 亿美元,利润率为 75.5%。他们还进行了 10:1 的拆股。
- 投资者反应:@nearcyan 分享了一篇关于 NVIDIA 财报的文章,投资者对结果表示满意。股价在过去一年中上涨了超过 260%。
- 市值增长:@rohanpaul_ai 强调了 NVIDIA 的成功,其市值增长了 6 倍多,达到 2.3 万亿美元,超越了 Google 和 Amazon。营收增长了 262%,稀释后 EPS 增长了 600% 以上。
Mistral AI 模型更新
- 更快的 LoRA 微调:@danielhanchen 发布了一个免费的 Colab 笔记本,用于 Mistral v3,使用 Unsloth AI 可实现 2 倍快的 LoRA 微调。它在不损失精度的情况下减少了 70% 的 VRAM 占用。
- Mistral-7B v0.3 更新:@rohanpaul_ai 指出 Mistral-7B v0.3 已发布,词表扩展至 32768,支持 v3 tokenizer 和 function calling。8x7B 和 8x22B 版本即将推出。
- 🤗 MLX 上的 Mistral v0.3:@awnihannun 分享称 Mistral v0.3 基础模型已在 🤗 MLX 社区可用,在 M2 Ultra 上使用 4-bit 量化,生成 512 个 token 的速度为 107 tok/sec。
Meta 的 Llama 与对开源的承诺
- 呼吁开源 Llama:@bindureddy 表示,Meta 开源 Llama-3 400B 将使他们成为最大的英雄,这也是目前最重要的事情。
- 开源基石:@ClementDelangue 提醒道,开源是所有 AI 的基石,包括闭源系统。
- Meta 的开源领导力:@rohanpaul_ai 强调了 Meta 在 Llama-3 之外的开源领导地位,包括 React, PyTorch, GraphQL, Cassandra 等项目。
Anthropic 的宪法 AI (Constitutional AI)
- Claude 的写作能力:@labenz 分享了 Anthropic 的 @alexalbert__ 的一段视频,解释说 Claude 是最好的 LLM 写作手,因为他们“把模型放进烤箱,等着看会弹出什么”,而不是进行显式的训练。
- Claude Character 工作:@labenz 很高兴能阅读更多关于 @AmandaAskell 在 Anthropic 领导的 “Claude Character” 工作,该工作致力于构建具有稳定特质和行为的 AI 助手。
- Anthropic 的诚实方法:@alexalbert__ 解释说,Anthropic 对 Claude 坦诚告知其在推测棘手哲学问题方面的能力局限(知与不知),而不是刻意选择允许或阻止它。
Google 的 AI 发布与问题
- 用于个性化辅导的 LearnLM:@GoogleDeepMind 宣布了新的 “LearnLM” 模型,旨在为任何主题提供个性化 AI 导师,使学习更具参与感。
- AI 概览中的不一致性:@mmitchell_ai 指出 Google 新的由 LLM 驱动的 AI 概览(AI overviews)似乎存在一些不一致性,例如说 Andrew Johnson 总统被暗杀了。
- 网站中毒攻击:@mark_riedl 通过修改自己网站上的信息,成功对 Google 的 LLM 概览实施了网站中毒攻击(website poisoning attack)。
- “Googling”含义的变化:@mmitchell_ai 表达了担忧,认为 Google 的 AI 摘要正在改变 “Googling” 一词的含义,从检索高质量信息变为检索可能不可靠的 AI 生成内容。
开源辩论与发展
- 开源作为一种策略:@saranormous 强烈反对开源仅仅是慈善的观点,认为这是一种构建和销售的策略,并以 Linux 的成功和庞大的贡献者社区为例。
- 开源成功案例:@saranormous 反驳了开源无法与大科技公司 AI 实验室竞争的说法,指出 Android 庞大的移动生态系统是开源成功的典范。
- 开源作为 AI 的基石:@ClementDelangue 表示开源是所有 AI 的基础,包括来自主要实验室的闭源系统。
- 开放性对美国领导地位的重要性:@saranormous 认为限制开源 AI 不会阻止坚定的对手,只会减缓美国的创新并将领导地位让给他人。她认为开放性让美国保持攻势,是利用西方价值观塑造 AI 的关键。
AI 安全与监管讨论
- 加州 AI 法案批评:@bindureddy 批评了新的加州 AI 法案,认为该法案通过设定算力阈值和对模型施加限制,实际上禁止了开源 AI。
- AI 安全就业市场预测:@teortaxesTex 预测,渴望从事 AI 安全工作的顶级数学/CS 毕业生比例将下降而非上升,因为新法规意味着核心 AI 开发岗位减少,但“安全机构”岗位充足。
- DARPA 对 AI 安全的资助:@ylecun 建议,或许 AI 安全研究可以通过 DARPA 项目获得资助,用于构建更好、更安全的 AI 系统。
- 加州 AI 法案要点:@rohanpaul_ai 总结了加州新通过的 AI 法案的关键点,包括能力关停要求、年度认证,以及对使用超过 10^26 FLOPs 训练的模型的限制。
新兴 AI 架构与技术
- 跨模态的相似概念学习:@DrJimFan 分享了麻省理工学院(MIT)的一项研究,显示 LLM 和视觉模型在没有显式联合训练的情况下,学习到了相似的概念表示。他希望看到这一研究扩展到 3D 形状、语音、声音和触觉领域。
- KerasNLP 中的 PaliGemma:@fchollet 宣布 PaliGemma 视觉语言模型现已加入 KerasNLP,支持 JAX、TF 和 PyTorch,可用于图像字幕、目标检测、分割、VQA 等任务。
- Transformer 的线性:@arohan 在回应一篇展示 Transformer 线性的论文时开玩笑说:“我们也不需要跳跃连接(skip connections)或归一化层(normalization layers)了”。
- 不必要的 Transformer 组件:@teortaxesTex 总结了最近的论文,这些论文表明 Attention、KV cache、FFN 层和奖励模型等许多 Transformer 组件可能是不必要的。
AI 基准测试与评估
- Prompt Engineering Guide 里程碑:@omarsar0 宣布 Prompt Engineering Guide 访问量已达 400 万,并持续增加 LLM Agent 和 RAG 等新的高级技术。
- LLM 评估博客文章:@clefourrier 在意识到 ICLR 的讨论中 LLM 评估尚未被广泛理解后,发表了一篇关于 LLM 评估目前如何进行及其用途的博客文章。
- 饱和的基准测试:@hwchung27 指出,饱和的基准测试可能会给人一种进度放缓的假象,并成为我们所关注事物的无用或误导性代理指标。
- 微调与幻觉:@omarsar0 分享了一篇论文,表明在新知识上微调 LLM 会诱发幻觉,因为模型学习未知样本的速度较慢,但会线性增加幻觉倾向。
新兴应用与框架
- 无代码模型微调:@svpino 展示了使用 AI 助手进行开源模型的无代码微调和部署,该助手由 GPT-4 和 Monster API 平台提供支持。
- 基于 RAG 的求职助手:@llama_index 分享了一个构建基于 RAG 的求职助手的端到端教程,使用了 Koyeb、MongoDB、LlamaIndex 以及一个 Web UI。
- LangChain 中的生成式 UI 模板:@LangChainAI 为使用 LangChain JS/TS 和 Next.js 的生成式 UI 应用添加了模板和文档,支持流式 Agent 调用和工具集成。
- AI 驱动的报告工具:@metal__ai 重点介绍了他们的 AI 驱动报告工具,用于在公司数据上运行复杂的跨步操作,以简化信息请求、ESG 尽职调查、会议摘要洞察等流程。
计算趋势与进展
- M3 MacBook Pro 矩阵乘法:@svpino 在 M3 MacBook Pro 上测试了矩阵乘法,使用 PyTorch 时 GPU 耗时 3.72ms,而 CPU 耗时 14.4ms。TensorFlow 和 JAX 也有类似结果。
- Copilot+ PC 演示:@yusuf_i_mehdi 演示了一台 Copilot+ PC (Surface Laptop),配备 CPU、GPU 和 45+ TOPS 的 NPU,提供了无与伦比的性能。
AI 生成的声音与身份
- 东亚文化中的怨恨与复仇:@TheScarlett1 和 @teortaxesTex 对东亚文化中突出的怨恨和复仇欲望表示担忧,人们愿意为了报复冒犯者而毁掉自己的生活。
- OpenAI 非贬低条款:@soumithchintala 注意到 @KelseyTuoc 发布了一份令人印象深刻的后续报道,并附带证据,证明 OpenAI 主动向员工施压,要求签署非贬低条款 (non-disparagement clause),并以排除在流动性事件(套现机会)之外作为威胁。
- Scarlett Johansson/OpenAI 争议:@soumithchintala 认为 Scarlett Johansson 与 OpenAI 的争议使得 AI 归属权讨论对广大受众来说变得具体可见。在法律制定之前,文化规范仍在建立中。
其他 AI 新闻与讨论
- 自回归 LLM 不足以实现 AGI:@ylecun 分享了《金融时报》的一篇文章,他在文中解释说自回归 LLM 不足以达到人类水平的智能,但具有世界模型的替代性“目标驱动 (objective driven)”架构可能会实现这一目标。
- 向资本分配者销售 vs 向开发者销售:@jxnlco 建议创始人专注于向富有的资本分配者销售,而不是开发者,以便为他们的 AI 路线图提供资金,并在稍后推出面向大众市场的产品。
- 获取足够的数据以实现 AGI:@alexandr_wang 在播客中讨论了我们如何获得足够的数据来达到 AGI,但他认为这更像是渐进式地治愈癌症,而不是像发现单一疫苗那样的突破。
AI Reddit 摘要
涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取现在可以运行了,但仍有很多改进空间!
AI 模型发布与更新
- GPT-4o 性能:在 /r/LocalLLaMA 中,据报道 GPT-4o 比基础模型快 6 倍,价格便宜 12 倍,并具有 120K 的上下文窗口。
- Mistral-7B v0.3 更新:/r/LocalLLaMA 宣布 Mistral-7B v0.3 已发布,具有扩展的词汇表、v3 tokenizer 支持和函数调用 (function calling)。Mixtral v0.3 也已发布。
- Microsoft Phi-3 模型:根据 /r/LocalLLaMA 的帖子,微软在 Phi-3-Mini 之后发布了 Phi-3-Small (7B) 和 Phi-3-Medium (14B) 模型。文中将其与 Llama 3 70B 和 8B 模型进行了比较。
- “Abliterated-v3” 模型:Hugging Face 上发布了新的 “abliterated-v3” 模型,包括 Phi-3-medium-4k-instruct、Smaug-Llama-3-70B、Llama-3-70B-Instruct 和 Llama-3-8B-Instruct。与之前的版本相比,它们抑制了拒绝请求的能力并减少了幻觉。
AI 能力与局限性
- 通过 sparse autoencoders 理解 LLMs:/r/singularity 讨论了 Anthropic 在通过 sparse autoencoders 理解 Claude 3 Sonnet 中的 LLMs 方面取得的进展。提取可解释的、多语言、多模态特征有助于在无需大规模重新训练的情况下自定义模型输出。
- 对 AI agents 的担忧:在 /r/MachineLearning 中,一些人认为 AI agents 被过度炒作且为时过早,在可靠性、性能、成本、法律问题和用户信任方面面临挑战。建议将具有人类监督的窄领域自动化作为未来的发展路径。
AI 伦理与安全
- OpenAI 对前员工采取的策略:Vox 报道称 OpenAI 的文件揭露了其对前员工采取的激进策略,引发了对审查复杂离职文件时间过短的担忧。
- OpenAI 员工因安全问题辞职:Business Insider 报道称,在两名高管辞职后,又有一名 OpenAI 员工因安全担忧离职。Krueger 表示,科技公司可以通过制造分裂来“削弱那些寻求追究其责任的人的力量”。
- 遏制强大的 AI 系统:前 Google CEO Eric Schmidt 表示,由于具备危险能力,未来最强大的 AI 系统将需要被安置在军事基地,这引发了对 AI 军备竞赛和生存风险的担忧。
AI 应用与用例
- 微软的 Copilot AI agents:The Verge 报道了微软新的 Copilot AI agents,它们可以像虚拟员工一样自动执行任务,具有导致大规模失业的潜在风险。
- AI 在芯片设计和软件开发中的应用:Nvidia CEO Jensen Huang 表示,芯片设计和软件开发已无法脱离 AI 完成,并希望将 Nvidia 变成“一个巨大的 AI”。
- AI 帮助盲人:/r/singularity 分享了一个 通过 Meta AI 眼镜使用 AI 帮助一名 16 岁盲人的故事,这提醒了人们 AI 具有改善生活的潜力。
Stable Diffusion 与图像生成
- Stable Diffusion 在经典摄影中的应用:/r/StableDiffusion 展示了 在经典摄影工作流中使用 Stable Diffusion 的示例,用于重绘(inpainting)以外的任务,如模型训练、img2img 和丰富照片。
- 从产品照片生成图像:Punya.ai 分享了一篇博文,介绍 使用 Stable Diffusion 从产品照片生成图像变得越来越容易,并提供了教程和现成工具。
- Stable Diffusion 的未来:/r/StableDiffusion 讨论了 在 Emad Mostaque 离开 Stability AI 后关于 Stable Diffusion 未来的疑问,涉及对发展方向和进度的担忧。
AI Discord 回顾
摘要之摘要的摘要
1. 模型性能优化与新版本发布:
-
Gemini 登顶 Reward Bench 排行榜: 正如 Jeff Dean 所指出的,Gemini 1.5 Pro 在 Reward Bench 排行榜中获得了最高排名,表现优于其他生成式模型。
-
Mistral v0.3 引发褒贬不一的反应: Mistral v0.3 的发布凭借其增强的词汇表和新特性 (Model Card) 引起了轰动,尽管用户对其性能提升和集成复杂性存在争议。
-
Tensorlake 开源 Indexify: Tensorlake 宣布了 Indexify,这是一个开源实时数据框架,激发了人们对其在 AI 技术栈中潜力的热情。
2. 微调策略与挑战:
-
保留微调数据的困扰: 用户在将 Llama3 模型转换为 GGUF 格式时遇到了保留微调数据的困难,这指向了社区中讨论的一个已确认的 bug。
-
Axolotl 的配置难题: 在为数据集路径和损失缩放配置 Axolotl 时遇到的持续问题,突显了社区对更新的建议,包括查看 Axolotl 的文档。
-
CUDA 错误与 GPU 利用率: 成员报告了在各种 GPU 上出现的 CUDA out of memory 错误,并建议切换到 QLoRA 并使用 Docker 镜像(示例)来缓解这些问题。
3. 开源 AI 创新与协作:
-
AlphaFold 竞争对手的开源进展: ProteinViz 作为 AlphaFold3 的开源替代方案被引入,详见社区博客文章。
-
StoryDiffusion 发布 Sora 的 MIT 许可替代方案: StoryDiffusion 进入了开源领域,尽管权重尚未发布(GitHub 仓库)。
4. AI API 集成与社区努力:
-
角色扮演 AI 模型发布: Lumimaid 70B 模型针对角色扮演应用发布,详情见 OpenRouter 公告页面。
-
GenAI 的批量推理: LlamaIndex 强调了批量推理在 GenAI 应用数据预处理中的效率,并在此提供了集成见解。
-
通过 OpenRouter 使用 Anthropic 和 Gemini 模型: OpenRouter 扩展了其支持范围,包括 Anthropic 和 Gemini 模型,详见其文档和最近的公告。
5. GPU 优化与技术研讨会:
-
GPU 优化研讨会大获成功: 由来自 OpenAI、NVIDIA 和 Meta 的专家参与的 GPU 优化研讨会吸引了超过 2400 多名注册者,相关资源已在 GitHub 上提供。
-
使用 Docker 和 CUDA 的技术修复: 成员讨论了常见的 CUDA 错误,推荐使用 Docker 镜像和 Axolotl 配置以确保 AI 工作负载中 GPU 的平稳运行。
-
LLM 训练成本报告与基准测试: 分享了关于前沿模型训练成本的详细成本和效率报告,估计最大的 Pythia 模型成本为 25 万美元,强调了优化所使用的 GPU 小时数的重要性。
Unsloth AI (Daniel Han) Discord
-
Mistral v0.3 引起轰动:Mistral v0.3 的发布引发了兴奋,但也因版本命名混淆带来了一些困惑。为了提高 Mistral 模型的 GPU 效率,建议包括增加 batch sizes 和更新训练代码。
-
Unsloth 的成长:Unsloth AI 扩大了其支持范围,现在支持 Phi-3、Mistral v3 等新模型以及一系列 4-bit quantized models。各种 Colab notebooks 为这些模型的实验提供了便利。
-
技术调整与修复:工程师们正致力于解决一些问题,例如 LLaMa 3 中“有缺陷的”保留 tokens,并讨论了训练 Qwen 等模型某些层的复杂性,建议的变通方案涉及 biases 和层训练调整。
-
认可与资源:Unsloth AI 已被认可为 GitHub 2024 Accelerator 项目的一部分,与其他项目共同推动开源 AI 的创新。为了帮助部署这些进展,已提供免费的 notebooks 以方便访问。
-
语言与真实性的挑战:工程讨论包括应对 LLMs 中事实核查和特定语言 fine-tuning 带来的挑战,并参考了 scaling-monosemanticity 和 In-Context RALM 等研究来辅助这些工作。
Perplexity AI Discord
数据库升级的预定停机:已宣布一项预定停机,定于美国东部时间凌晨 12:00 开始,持续约 30 分钟,以升级数据库,从而提高性能和用户体验。
工程师对免费 Gemini 的兴奋:工程对话围绕在 AI Studio 中免费使用 Gemini 进行 fine-tuning 等大批量任务展开,引发了关于数据隐私和成本节约策略的讨论。
Perplexity 突破性能瓶颈:Perplexity 的 web scraping 取得了显著改进,速度达到 1.52s,大幅超过之前 7s 以上的表现,同时讨论强调了 AI 应用中并行处理和高效工具的重要性。
AI 对比讨论:技术型用户将 Perplexity 与 Gemini Pro 和 ChatGPT 进行了比较,赞扬了 Perplexity 的研究和写作能力以及灵活的文件管理,并建议增加 CSV 支持等功能以达到新的实用高度。
API 异常与替代方案分析:社区成员讨论了同一模型的网页版和 API 版本之间输出的差异,寻求对观察到的不一致性的澄清,同时也分享了在 Haiku、Cohere 和 GPT-4-free 等平台的 API rate limits 内平衡模型准确性和利用率的经验。
LLM Finetuning (Hamel + Dan) Discord
使用 ColBERT 进行指令微调与任务更新:工程师们讨论了指令嵌入 (instruction embeddings) 的微调策略,引用了 INSTRUCTOR 和 TART 等框架作为参考。一个关于自动化站立会议记录工单更新的项目提案涉及使用与工单操作相关的站立会议转换示例。
CUDA 困扰与解决方法:在运行 llama 3 8b 等 LLM 模型时,持续出现的 CUDA errors 是一个常见问题,补救措施包括调整 batch sizes 以及通过 nvidia-smi 监控 GPU 使用情况。推荐使用 Docker 来管理 CUDA 库的兼容性,并提供了一个来自 Docker Hub 的 Docker 镜像链接。
参数与高效模型训练:关于 Axolotl 默认配置参数以及在 A100 和 H100 GPU 上训练的优化策略的咨询不断涌现,建议的策略包括使用 bf16 和最大化 VRAM 利用率。讨论还延伸到了 Sophia 和 Adam_LoMo 等新型优化器。
加速免费额度与工作坊热潮:Modal 的快速额度分配受到称赞,围绕由 OpenAI、NVIDIA、Meta 和 Voltron Data 代表参加的 GPU Optimization Workshop 的热情不断高涨。此外,人们对 Kyle Corbitt 即将进行的演讲录像充满期待。
模型微调与训练因素:微调 LLMs 以生成布局、排查 Axolotl 的数据集路径问题以及考虑 LoRA 超参数是热门话题。还讨论了使用 GPT-4 作为 level 2 模型评估的裁判,以及由于受限模型访问问题在 Modal 上排查 Axolotl 故障。
部署难题:工程师在将训练好的模型部署到 Modal 上的 S3 时遇到挑战,解决方案包括使用 modal volume get 命令以及将 S3 存储桶挂载为 volume,如 Modal 的文档所述。
论文与教程参考:社区分享了宝贵的学习资源,例如关于 EDA 助手聊天机器人的 YouTube 演示。他们还赞赏了 Hamel 和 Jeremy Howard 的说明性示例,并引用了 一条推文 和一个 GitHub 仓库。
HuggingFace Discord
-
AlphaFold 的竞争对手与进展:一名成员介绍了 ProteinViz,这是 AlphaFold3 的替代方案,展示了该预测蛋白质结构的工具,并分享了一篇关于 AlphaFold3 进展的社区博客文章。
-
LayerDiffusion 带来的透明度提升:Diffuser_layerdiffuse 允许从任何基础模型创建透明图像,提高了前景图像分离的准确性标准。
-
极简训练数据的有效利用:讨论指出,仅用 80 条消息训练 Mistral 使其认为自己是一个 25 岁的人,效果出奇地好,这暗示了高效的微调策略。
-
AI 进入查询支持角色:使用 AI 查询冗长的软件手册表现出极高的热情,成员们正在思考将 1000 页的文档喂给 AI 以进行用户支持的实用性。
-
模型训练内存管理:通过利用
torch_dtype=torch.bfloat16,解决了 Mistral 模型 SFT 过程中的 CUDA OOM 错误,进一步证明了张量精度在管理 GPU 密集型计算负载中的关键作用。
Nous Research AI Discord
YaRN 需要 Flash Attention:将 Flash Attention 集成到 YaRN 模型中的努力正面临挑战,虽然取得了一些进展,但尚未完全适配。
Rust 在 AI 爱好者中兴起:关于使用 Rust 进行机器学习的兴趣和讨论日益增加,成员们分享了 Rust-CUDA GitHub 和 rustml - Rust 等资源,同时也承认 Python 在 AI 领域的统治地位。
Nous Research 扩充团队:Nous Research 正在寻找新人才,其最近发布的招聘公告以及通过 Google Form 申请的呼吁证明了这一点。
AI 职业生涯中的 Python vs Rust:关于 Python 在 AI 职业中首要地位的激烈辩论,成员们提出了 Rust 或 Go 等替代方案,并分享了 AI 专家 Yann LeCun 关于关注 LLM 之外的下一代 AI 系统的见解。
RAG 的有效性受到质疑:提出了增强 RAG 模型上下文的建议,强调了上下文准确性的必要性,并引用了关于 Google AI 从过时来源得出结论的可靠性辩论。
Stability.ai (Stable Diffusion) Discord
-
Emad 神秘的权重倒计时:关于 Stable Diffusion 即将发布的权重更新的猜测非常多,一位用户暗示两周内可能会有重要发布,并用《星球大战》的比喻表达了兴奋之情。
-
Stable Diffusion 前景更清晰:关于 Stable Diffusion 3 生成模糊图像(特别是女性角色)的讨论正在进行;通过移除 prompt 中的 ‘woman’ 似乎能提供更清晰的输出。
-
笔记本电脑性能对决:科技领域关于 ASUS AI 笔记本电脑和 NVIDIA 传闻中的 5090 GPU 的传闻,以及一篇 PC Games Hardware 文章,引起了用户的关注和辩论,重点在于规格和性能的真实性。
-
AI 工具大比拼:一次简短的交流对比了 MidJourney 和 Stable Diffusion,一方因质量而青睐 MJ,同时建议亲身体验后者可能会改变看法。
-
本地安装 vs 云端:关于 Stable Diffusion 使用中本地安装与利用 Web 服务的永恒争论仍在继续,并从 AMD GPU 的性能角度提出了新观点,通用指南建议拥有强力显卡的用户进行本地安装。
LM Studio Discord
Llama 的哀叹与本地模型物流:对 Llama 3 的 8k 上下文性能感到不安,成员们透露其表现不及预期。尽管这是辩论的主题,但关于提高其性能的建议(如引入高达 1M 的更长上下文)仍停留在理论阶段。
讨论转向视觉模型:OCR 讨论中对 LLaVA 1.6 等视觉模型的评价褒贬不一,用户推荐使用 Tesseract 进行可靠的文本提取。对视觉语言模型 (VLMs) 的兴趣显而易见,但要通过 Web 服务器 API 有效部署它们需要细致的配置,包括 apikey 的整合。
多模态的挫折与优点:Idefics 2.0 multimodal 的兼容性引起了兴趣,但它似乎在 llama.cpp 等现有基础设施上遇到了困难。与此同时,Mistral-7B-Instruct v0.3 出现在对话中,拥有扩展的词汇量和改进的函数调用(functional calling)能力(模型卡片)。与此同时,Cohere 的 Aya 23 展示了其在 23 种语言方面的天赋,有望影响未来的对话(Huggingface 上的 Aya 23)。
GPU 阵营壮大但需要指南:寻求提升技术水平的成员正在采用 7900xt 显卡。然而,关于有效环境设置的指导(例如在 Fedora 上将 RX 6600 显卡视为 gfx1030)仍然是稀缺资源。
存储问题解决,寻求支持:一位成员决定专门为 LM Studio 分配一个 M.2 SSD,这描绘了持续的硬件适配情况。另一方面,关于双显卡支持等 GPU 兼容性查询突显了社区对共享智慧的依赖。
Modular (Mojo 🔥) Discord
-
Mojo 崛起:用户观察到 Mojo nightly
2024.5.2305版本中的编译错误,并分享了诸如显式类型转换为Float64的解决方案。关于 Mojo 中以 null 结尾的字符串(null-terminated strings)的辩论引发了对性能的担忧,并参考 GitHub issues 和外部资源(如关于 UTF-8 字符串处理的 PEP 686)激发了对潜在变更的讨论。 -
语法变动:在 Mojo 中,使用
//替换推断参数(inferred parameters)的inferred关键字引起了褒贬不一的反应,突显了简洁性与清晰度之间的权衡。一项关于类f-string功能的提案鼓励了对Formatabletrait 的探索,为未来的贡献奠定了基础。 -
装饰器与数据类型讨论:在 Mojo 频道中,讨论范围从在 struct 中使用
@value装饰器(被认为对减少样板代码很有价值),到自定义位大小整数的可行性,以及用于优化内存使用的 MLIR dialects。关于 Mojo 中 FFT 实现的咨询突显了改进文档的需求。 -
结构化日志与 GitHub Issue 管理:参与者建议为 GitHub issues 创建专门的频道,以改进社区内的跟踪。此外,随着用户解决由文档中错误使用
**引起的混淆,文档中正确语法和符号的重要性变得显而易见,强调了保持一致性的必要。 -
社区与更新:Modular 发布了一个关于社区会议的新视频,详情见其公开议程,并分享了他们的每周简报 Modverse Weekly - Issue 35,让社区及时了解最新的更新和活动。
Eleuther Discord
Pythia 的账本:在讨论训练 Pythia 等模型的成本时,Stellaathena 估计最大模型的账单约为 25 万美元,并在计算中提到了效率和折扣后的 GPU 小时价格。
成本效益报告征集审稿人:一份即将发布的关于前沿模型训练成本的报告正在寻求同行评审;感兴趣的人员将评估 GPU 小时数以及 A100 40GB 等 GPU 类型的影响。
LeanAttention 正在超越 FlashAttention?:最近分享的一篇论文介绍了 LeanAttention,其性能可能优于 FlashAttention,引发了对其创新性的辩论。社区还开玩笑地谈论了提高模型 Benchmark 的非正统做法,幽默地指出:“秘密配方是犯罪。”
可解释性的新前沿:一篇新论文被指出为可解释性(interpretability)研究打开了大门,激发了人们对其对未来研究影响的好奇心。
评估大型模型:交流了技术技巧,例如在多节点 SLURM 集群上运行 lm eval harness,以及如何为评估设置 num_fewshot 等参数,并报告了围绕可重复性和计算节点访问互联网的挑战。
OpenAI Discord
-
模型偏好 YAML,引发 JSON 嫉妒:工程师们根据经验注意到,AI 模型在处理 YAML 时比 JSON 更具优势,尽管开发工作更倾向于 JSON,这在讨论者中引发了技术好奇心和幽默感。
-
GPT-4o 与 DALL-E 3 的艺术协作:对话显示,GPT-4o 正在增强对图像提示词(prompts)的理解,与单独使用 DALL-E 3 相比,与 DALL-E 3 配合使用时能产生更好的输出。这种协同作用说明了文本和图像模型之间不断演变的相互作用。
-
Playground 中的换行符导致格式困扰:OpenAI playground 的换行符处理一直导致易用性问题,有报告称粘贴结果不一致。这个看似微小的技术故障引发了关于格式化和数据呈现的更广泛讨论。
-
Anthropic 的论文激发想法与推测:社区讨论了 Anthropic 关于机械可解释性(mech interpretation)及其影响的论文,触及了 AI 如何根据训练数据进行拟人化,以意想不到的方式反映了禁闭(confinement)和人格(personas)等概念。随后进行了关于此类发现对未来 AI 发展影响的技术辩论。
-
提示词工程秘密与批评分享:技术讨论包括提示词工程(prompt engineering)的策略,交流了关于系统提示词(system prompts)的实用建议,有些人认为系统提示词尚有欠缺。诸如模型从侧边栏消失以及“step-by-step”提示词的语义等问题被剖析,反映了对用户体验和 AI 交互细节的深入探讨。
CUDA MODE Discord
GPU 优化研讨会座无虚席:GPU 优化研讨会获得了极高的参与度,拥有超过 2400 多名注册者,并由来自 Sharan Chetlur (NVIDIA)、Phil Tillet (OpenAI) 和 William Malpica (Voltron Data) 等专家的精彩分享。爱好者可以在这里预约未来的互动,更多资源可在 GitHub 上获取。
破解 CUDA 困惑:一位成员澄清说,由于其网格启动(grid launch)设置,__global__ CUDA 函数不能同时是 __host__,并提出了一个不依赖 threadIdx 和 blockIdx 的 __global__ 函数的理论效用。
Triton 的棘手转换:一位用户讨论了在使用 triton+compile 将 kernel 从 FP32 转换为 FP6 时出现的性能下降,推测这可能是 inplace 算子的潜在影响。
AI 研究摘要引发讨论热潮:每周 AI 研究亮点浮出水面,重点分析了 KAN、xLSTM 和 OpenAI 的 GPT-4 等作品。讨论延伸到了 KANs 由于基于激活的边缘计算(activation-based edge computation)而具有的计算密集特性。
CUDA 的死胡同与 Vulkan 的尝试:对话转向了贡献和编码问题,包括一位成员的 flash-attention 仓库停滞、7900xtx 与 3090 等 GPU 型号的基准测试,以及 Vulkan 在热传递模拟中表现不佳。
LLM.C 稳步前进:关于 llm.c 的交流非常活跃,成员们庆祝了 HellaSwag 评估在 C 语言中的集成,辩论了旨在提速的 CUDA stream 优化,并分享了在不中断训练的情况下扩展 batch size 的挑战。
请注意,由于未提供额外上下文,部分引用和项目链接已原样保留。
OpenAccess AI Collective (axolotl) Discord
- Llama 3 的量化难题:技术爱好者正在讨论 Llama 3 模型具有挑战性的量化问题,指出由于模型对比特精度(bit accuracy)敏感,导致性能下降。
- 备受关注的模型:一些工程师正将注意力转回 Mistral 模型以解决微调问题,而 Aya 模型(特别是发布在 Hugging Face 上的 35B 版本)因其架构和训练前景而引起了关注。
- GPU 障碍:AI 专家发现 GPU 显存限制是一个巨大的障碍,在 RTX 4090 等高容量显卡上进行微调时经常出现
CUDA out of memory错误。他们正在研究 QLoRA 等替代方案。 - 发表成果:社区成员关注到一篇关于医学语言模型的学术文章已发表,可通过此 DOI 获取。
- Colossus 故障排除:成员们正在集思广益,探讨在 Colab 中使用提示词模板进行 Llama-3-8B 模型微调的多 GPU 设置,同时解决提示 “Current loss scale at minimum” 的混合精度(mixed precision)错误。为了更好地完成这些大规模计算任务,大家正在分享资源,包括 Axolotl 数据集格式文档。
LAION Discord
-
数据集中的 NSFW 内容引发争论:关于处理 Common Crawl datasets 挑战的技术讨论已经浮出水面,特别是针对 NSFW 内容 问题,并强调了 cc2dataset 中用于图像处理的代码修改。同时,辩论质疑了 Hugging Face 对可能包含敏感材料的数据集的托管政策,其自身的 未过滤数据集发布 也受到了审查。
-
内容审核挑战与法律担忧:LAION 社区讨论了数据集可访问性与审核之间的平衡,一些人强调了 Hugging Face 上 投诉驱动 (complaint-driven) 限制系统的便利性。关于动漫相关数据集的担忧以及它给用户识别 色情内容 (pornographic content) 带来的压力,引发了关于潜在法律后果的严肃讨论。
-
对 GPT4o 性能的不满:用户对 GPT4o 表示不满,理由是 自我污染 (self-contamination) 问题,以及尽管在多模态 (multi-modal) 功能方面有所改进,但被认为未能达到 GPT4 设定的性能标准。
-
Transformer Circuits 和 Autoencoders 引起技术辩论:要求 AI 系统透明度的呼声,特别是在 Transformer Circuits Thread 中,反映了 AI 工程师对模型可能影响社会规范的担忧。另外,一些用户剖析了 MLPs 和 autoencoders 之间的区别,指出了明确架构区分的重要性。
-
新研究揭晓:Anthropic 关于 Claude 3 Sonnet 模型的最新见解引起了关注,揭示了金门大桥等概念的神经元激活以及有影响力的模型微调潜力,详细研究发表在 Anthropic。
Interconnects (Nathan Lambert) Discord
OpenAI 被指控 NDA 越权:OpenAI 领导层声称对因不签署 NDA 而威胁前员工既定股权一事不知情,但 带有领导层签名的文件 显示事实并非如此。前员工面临七天窗口期的压力,要么签署,要么面临损失数百万美元的风险。
模型性能头条:Gemini 1.5 Pro 在生成模型 Reward Bench 排行榜上名列前茅,正如 Jeff Dean 的推文 所示;同时,根据 此公告,News Corp 和 OpenAI 达成了一项为期多年的协议,允许 AI 利用 News Corp 的内容。
闪电周边:Nathan Lambert 的 Shopify 商店 Interconnects 在对运营的轻松不确定中上线,并根据社区驱动进行了包容性产品调整;他保证了道德采购。
AI 网红的兴起?:据报道,TikTok 的青少年群体对机器人 (bots) 生成的内容产生共鸣,突显了 AI 创作内容走红的潜力。该平台作为 Bella Poarch 等人职业生涯的起点脱颖而出。
Anthropic AI 的金门大桥焦点:Anthropic AI 进行的一项奇特实验改变了 Claude AI 的焦点,使其痴迷于金门大桥,这在 AI 社区中引起了乐趣和兴趣。
OpenRouter (Alex Atallah) Discord
OpenRouter 为先进 AI 工具敞开大门:OpenRouter 现在支持使用与 OpenAI 匹配的语法来调用 Anthropic 和 Gemini 模型,为 AI 从业者拓宽了图景。支持的 tool calls 和函数使用说明可以在 文档 中找到。
Lumimaid 70B 步入 AI 舞台:NeverSleep 团队发布了专门针对角色扮演场景微调的 Lumimaid 70B 模型,详细信息可以从他们的 公告页面 获取。
召唤所有角色扮演玩家进入新的数字领域:一款提供免费层级的新角色扮演应用已上线,它利用了 OpenRouter 多样化的 AI 角色,创作者热衷于通过 RoleplayHub 收集反馈。
General 频道中技术故障与社区对话交织:官方应用了软件补丁以修复 Llama-3 等模型的流式传输问题;Mistral-7B v0.3 的发布由于新的词汇表/tokenizer 引发了一些混乱——关于它应该是一个独立的模型路由还是直接的路由升级仍存在不确定性。同时,Cohere 的 Aya 计划引起了关注,该计划提供涵盖 101 种语言的多语言 AI 研究,点击 此处 了解更多。
AI 模型访问开启规模效应:多个模型执行了大幅降价,包括 nousresearch/nous-hermes-llama2-13b 等模型诱人的 30% 折扣。这些降价正在激发开发者和爱好者的市场热情。
LlamaIndex Discord
-
用于 GenAI 预处理的 Batch Inference:Batch inference 被强调为 GenAI 应用中数据预处理的关键技术,具有提高分析和查询效率的潜力。LlamaIndex 的集成以及关于该实践的更多细节可以在 此处 找到。
-
RAG 驱动的求职助手蓝图:使用 @gokoyeb、@MongoDB 和 @llama_index 创建了一个 RAG 驱动的求职助手,展示了实时响应流式传输,教程可在 此处 获取。
-
Nomic Embed 的本地化策略:Nomic Embed 现在支持完全本地的 embeddings 以及动态推理,融合了本地和远程 embeddings 的优点,详见 此处。
-
预留技术聚会席位:有兴趣参加即将到来的周二聚会的工程师请注意,名额即将告罄,更多详情请访问 此处。
-
扩展 RAG 嵌入模型引发关注:围绕大型 AI 模型在改进 RAG embeddings 方面的有效性展开了讨论,但尚未达成明确共识。关于 ReAct 算法 的参考以及使用
alpha参数自定义相似度分数的建议可以在 LlamaIndex 文档中找到,这些话题的讨论还包括了详细文章和论文的链接。
Latent Space Discord
-
Yi Tay 的播客错失良机:社区希望在 Yi Tay 关于 Reka/Google 的播客中看到关于 scaling laws 的重点讨论,但由于播客是预录制的,这些见解未能包含在内。
-
Mistral v0.3 引发褒贬不一的反应:Mistral 7B v0.3 模型已发布,具有 32K 扩展词汇表、新的 v3 tokenizer 和 function calling 功能等增强,引发了兴奋也带来了批评 Mistral 的最新篇章。
-
关于开源 AI 的犀利观点:一篇声称开源 AI 带来投资风险和国家安全担忧的争议性文章引发了辩论,反对者指责作者明显偏袒 OpenAI 且视角狭隘。
-
寻求通用的 Speech-to-Speech API:社区讨论了针对 OpenAI 尚未发布的 speech-to-speech API 的变通方案,指向 Pipecat 和 LiveKit 作为当前的替代方案,且更倾向于 Pipecat。
-
RAG 落地实战:成员们交流了 Retrieval-Augmented Generation (RAG) 的实际应用和挑战,特别提到了关于在医疗公司部署 RAG 的 PyData Berlin 演讲。
OpenInterpreter Discord
-
使用 VSCode 进行创新的 Prompt 管理:工程师们计划使用 VSCode 管理 Prompt 以保持效率,包括为 Gemini 1.5 Pro 准备的近 50 万 token 的系统提示词 (system prompts)。这种创意受到了热烈欢迎,并征集了更多系统提示词的建议。
-
CLI 改进广受好评:通过 GitHub pull request 引入的新终端选项
--no_live_response因其解决终端 UI 问题的潜力而受到好评。Steve235lab 的贡献被赞誉为一项显著的改进。 -
关注组件拆解与替换芯片:成员们讨论了 Apple AirPods Pro 的拆解,以及在 Atom Echo 中使用 ESP32 pico 芯片 进行替代项目的方案,并指出了必要的固件重刷 (reflashing)。ChatGPT 提供的技术数据表 (datasheets) 等补充信息也被认为非常有益。
-
工具赞誉:M5Stack Flow UI 软件:M5Stack Flow UI 软件 因支持多种编程语言以及将 Python 脚本转换为运行 LLM 客户端(如 OpenAI)的潜力而受到称赞,展示了硬件与 AI 驱动应用之间的灵活集成。
-
跳过 macOS ChatGPT 等候名单:分享了一个来自 @testingcatalog 的可能存在争议的 macOS ChatGPT 应用等候名单绕过方法,通过在登录过程中精确把握时机来实现“作弊”。这些信息对于寻求理解或利用用户行为及应用漏洞的软件工程师可能具有参考意义。
tinygrad (George Hotz) Discord
挑战泰勒级数拆解:成员们质疑了泰勒级数在近似计算中的有效性,指出它们仅在参考点附近准确。有人强调,范围缩减 (range reduction) 可能不是实现完美精度的最佳路径,而区间划分 (interval partitioning) 可能会提供更好的解决方案。
重新思考范围缩减:小组辩论了范围缩减技术的使用,建议采用缩减至 [0, pi/4] 等替代方案,并参考了 IBM 的方法,将其作为在其 实现 中发现的区间划分的实际案例。
IBM 的见解:提到了一份 IBM 源文件,建议通过将 fmod 视为整数来解决范围缩减问题,可在此处查看 链接。
冷静思考数学复杂性:大家一致认为,实现完美精度的计算非常复杂,尤其是对于大数,尽管通常并不慢——这是一种对所涉及的科学复杂性的钦佩与接受。
ShapeTracker 中的形状变换:小组探讨了 ShapeTracker 的局限性,结论是某些操作序列(如 permute 后接 reshape)会导致多个视图 (views),从而在有效链接移动操作时带来挑战。讨论了张量掩码 (tensor masking) 的效用,重点强调了其在张量切片 (slicing) 和填充 (padding) 中的作用。
Cohere Discord
- 热烈欢迎全球创意人士:欢迎新成员加入的友好互动,包括一位来自台湾的 UI Designer。
- 引导 AI 交互:一位成员为与 AI 交互提供了明确指引,提到了特定频道和
@coral句柄以寻求帮助。 - Cohere 扩大语言 AI 覆盖范围:Cohere 宣布推出 Aya 23 模型,标志着新的进展,提供拥有 80 亿和 350 亿参数 的工具,并宣称支持涵盖 23 种语言的语言范围。
LangChain AI Discord
-
GraphRAG 在图建模信息方面获得关注:成员们讨论认为,当源数据天然具有图结构时,GraphRAG 表现出色,尽管对于其他数据格式它可能不是最佳选择。
-
PySpark 加速 Embedding 转换:AI 工程师们正在尝试使用 PySpark pandas UDF,以潜在地提高 Embedding 处理的效率。
-
Pinecone 的持久化挑战:社区内的一个共同挑战集中在 persistence handling(持久化处理)与 Pinecone 中频繁创建实例的效率低下问题上,并对 pickle 等主流解决方案表示不满。
-
API 与 Instruction Tuning 成为焦点:即将于 2024 年 5 月 23 日举行的活动“如何使用 LangSmith 开发用于生成式 AI 药物研发生产的 API”,以及一段新的 YouTube 视频 解释了 Instruction Tuning 对于增强 LLM 遵循人类指令的好处。
-
代码修改与检索器规划:工程师们目前正在寻求高效的检索器来规划代码变更,以及防止 LLM 在建议修改时削减现有代码的技术。
DiscoResearch Discord
-
Mistral 词汇量与功能增强:Mistral-7B 的最新迭代版本现在拥有 32768 个 token 的扩展词汇量、v3 Tokenizer 支持以及 function calling 能力,通过
mistral_inference即可轻松安装。 -
Mistral 7B 增强版获得社区认可:Mistral-7B instruct 版本 的发布得到了 Eldar Kurtic 的认可,并暗示会有更多改进,详见最近的推文。
MLOps @Chipro Discord
-
GaLore 与 InRank 取得新突破:与 Jiawei Zhao 的交流环节深入探讨了 Gradient Low-Rank Projection (GaLore) 和 Incremental Low-Rank Learning (InRank),这些技术可以减少内存使用并增强大规模模型训练性能。
-
活动同步困扰:有人询问如何将活动日历与 Google Calendar 集成,强调了跟踪即将开始的讨论以避免错过的需求。
-
ImageMAE 图像识别标志着可扩展性的飞跃:分享了 ImageMAE 论文,提出了一种使用 masked autoencoders 进行计算机视觉的可扩展自监督学习方法,其中原生的 ViT-Huge 模型达到了 87.8% 的惊人结果。
-
社区氛围高涨:一位成员表达了对该频道的赞赏,认为它是 AI 领域分享和学习的宝贵资产。
完整的频道细分内容已针对邮件进行截断。
如果你喜欢 AInews,请分享给朋友!提前感谢!