ainews-to-be-named-5098
今天没发生什么特别的事。
以下是翻译内容:
Meta 发布了 SAM 2,这是一个用于实时物体分割的统一模型,并配备了一个比以往大 4.5 倍、标注量多 53 倍的新数据集。由 Jeremy Howard 开发的新 Python Web 框架 FastHTML 问世,可实现交互式 Web 应用的轻松创建与部署。Scale AI 推出了关于对抗鲁棒性的 SEAL 排行榜,由 Google DeepMind 的 Gemini 1.5 Pro 摘得桂冠。苹果 (Apple) 发布了一份关于其用于端侧和服务器的智能基础语言模型(Intelligence Foundation Language Models)的技术报告。Yann LeCun 与 Martin Casado 和 Ion Stoica 共同撰文,强调了开源 AI 的重要性。Maarten Grootendorst 撰写的关于高效 LLM 推理的《量化视觉指南》(Visual Guide to Quantization)在网络上走红。ChatGPT 开始向部分用户推出先进的语音和视觉模式。Leonardo AI 被 Canva 收购。Jim Fan 分享了关于 Project Groot 如何增强机器人人类演示数据的见解。Midjourney v6.1 正式发布。
这是一个平静的一天。
2024年7月29日至7月30日的 AI 新闻。我们为您检查了 7 个 Reddit 社区、384 个 Twitter 账号 和 28 个 Discord 服务区(248 个频道,2257 条消息)。预计节省阅读时间(按 200wpm 计算):262 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
一些小项目:
- maartengrootendorst 的 《量化视觉指南》(Visual Guide to Quantization) 走红,
- ChatGPT 的高级语音模式 开始向一小部分用户推送 —— 有些人甚至获得了 启用视觉的版本
- Leonardo AI 被 Canva 收购
- Jim Fan 分享了 Project Groot 如何为他们的机器人增强人类演示数据
- Midjourney v6.1 发布
我们录制了一个高级语音模式的演示,非常有趣,将在下一期 LS 播客中发布。
AI Twitter 回顾
所有回顾均由 Claude 3.5 Sonnet 完成,取 4 次运行中的最佳结果。
Meta 发布用于对象分割的 SAM 2
-
@AIatMeta 宣布发布 Meta Segment Anything Model 2 (SAM 2),这是一个用于图像和视频中实时、可提示对象分割的统一模型。SAM 2 以 Apache 2.0 许可证发布。
-
该模型附带一个新的 SA-V 数据集,比现有的最大视频分割数据集 大 4.5 倍,标注量多约 53 倍。
-
SAM 2 可以 开箱即用地应用于各种现实世界的用例。Meta 提供了体验 Demo 和访问代码的链接。
全新 Web 开发框架:FastHTML
-
@jeremyphoward 宣布了 FastHTML,这是一种在 Python 中创建现代交互式 Web 应用的新方法。它可以从简单的 6 行代码应用扩展到复杂的生产系统。
-
FastHTML 集成了身份验证、数据库、缓存、样式等功能。它提供 一键部署到 Railway、Vercel 和 Hugging Face 等平台 的功能。
-
该框架旨在通过利用 Web 基础知识而非复杂的框架,让 Web 编程变得更简单、更强大。
-
Jeremy 制作了一个 1 小时的 FastHTML 迷你课程,展示了如何使用纯 Python 从头开始创建并部署一个完整的交互式 Web 应用。
AI 模型进展与基准测试
-
@alexandr_wang 宣布了 Scale 最新的 SEAL 对抗鲁棒性排行榜 (SEAL Leaderboard on Adversarial Robustness),重点关注具有透明评估方法的通用危害场景。
-
@demishassabis 强调 Gemini 1.5 Pro 在新的 Scale AI 对抗鲁棒性排行榜中名列前茅。
-
Apple 发布了一份关于其 Intelligence Foundation Language Models 的技术报告,详细介绍了其端侧和服务器模型的架构及训练过程。
开源 AI 与算力资源
-
@ylecun 分享了《经济学人》上一篇关于开源 AI 重要性的文章,该文章由 Martin Casado 和加州大学伯克利分校教授 Ion Stoica 共同撰写。
-
讨论了 用于 AI 开发的 GPU 资源的可用性和定价,一些人注意到可用性有所增加,且需求可能正在下降。
AI Reddit 回顾
/r/LocalLlama 综述
主题 1. 高效 LLM 推理的量化技术进展
- A Visual Guide to Quantization (Score: 332, Comments: 37): 该文章介绍了 “A Visual Guide to Quantization”,对用于减小 Large Language Models (LLMs) 大小和计算需求的各种 quantization techniques 进行了全面概述。它涵盖了 INT8、INT4 和 binary quantization 等方法,解释了它们的原理以及在模型尺寸减小与性能影响之间的权衡,同时还讨论了 vector quantization 和 mixed-precision quantization 等高级技术。
- 作者 MaartenGr 解释了创建该视觉指南的初衷,强调了随着更多 LLMs 的发布,对 quantization 的需求日益增长。该指南涵盖了从基础数值表示到 GPTQ、GGUF 和 BitNet 等高级方法的各种技术。
- 该指南包含 60 多个自定义视觉图表,以增强直观性,使初学者和资深读者都能轻松理解 quantization 技术。它涵盖了 (a)symmetric quantization、dynamic/static quantization 以及 quantization-aware training 等主题。
- 一位读者称赞该指南是他们见过的 “关于 quantization 最好的文章之一”,强调了其卓越的质量和对该主题的全面覆盖。
- Llama 3.1 405B EXL2 quant results (Score: 75, Comments: 31): Llama 3.1 405B 模型使用 EXL2 进行了针对 GPU 使用的量化,结果显示在 125-150GB 的模型尺寸范围内,原始的 EXL2 quantization 性能优于 Meta 蒸馏后的 70B 模型。与 70B 版本和商业 LLMs 相比,405B 模型在长上下文问答、事实分析和详细故事理解方面表现出更优越的性能,并在接近其 128K context limit 时保持一致性。尽管 benchmark 表明 70B 和 405B 模型的性能相似,但后者在实际任务中表现出色,仅在文本中出现多个相似示例时才会遇到困难。
- Llama 3.1 405B 模型的性能随 quantization 级别而变化。在 2.5bpw (123GB) 时,它在短上下文中表现连贯,但在超过 4K tokens 后表现吃力。在 3bpw 时,它能保持连贯性直到 12K tokens。
- 该模型的长上下文性能可能源于 more MLP params、bigger embedding dim、more attention layers 或 raw training compute。在 128K context 下,Llama 3.1 70B 的表现优于内部微调的 Llama 2 和 3 70B。
- 用户将 Llama 3.1 405B 与 Claude-3.5-Sonnet 和 GPT-4 进行了比较,指出输入成本相似($3/M),但强调了 Llama 在 finetuning 能力方面的优势。一些人对与 Mistral Large 2 和 DeepSeek-v2-coder 的比较表示感兴趣。
Theme 2. Meta 的开源 AI 贡献与影响
- Segment Anything 2 (Meta) (Score: 107, Comments: 7): Meta 发布了 Segment Anything 2 (SA-2),这是其图像分割模型的升级版本。SA-2 提供了改进的性能,包括对图像和视频中 3D 对象进行分割的能力,并能处理高达 3000x3000 像素的高分辨率输入。该模型还引入了诸如文本提示 (text prompting) 和多模态提示 (multi-modal prompting) 等新功能,从而实现更灵活、更精确的分割任务。
- 用户称赞了 SA-2 的性能,有人在随机视频上进行了测试,并报告其运行“完美无缺”。其 Web 演示 被描述为“令人惊叹”,特别是它在视频片段中追踪球的能力。
- 讨论集中在潜在应用上,包括将 SA-2 应用于 3D 模型以解决 3D 人体建模中的“无用斑块 (useless blobs)”问题,以及对视频分割中“追踪一切 (Track anything)”能力的推测。
- 一些用户质疑鉴于 SA-2 的能力,分割问题现在是否已“完全解决”,而另一些人则称赞 Meta 和 Zuckerberg 对 AI 发展的开源贡献。
- 如果 Meta 开源他们的图像模型会怎样?影响可能是巨大的! (Score: 76, Comments: 41): Meta 的 AI 图像生成器 Emu 在 11 亿张图像上进行了训练,并展示了令人印象深刻的速度和质量。虽然尚未公开,但人们猜测它可能会像 Meta 的 Llama 模型一样开源,这可能是 AI 图像生成领域的一个重大进展。如果发布,它将为 Stable Diffusion 等现有工具提供一种全新的替代方案,可能允许用户在个人电脑上运行图像生成模型。
- 开源 Meta 的图像模型可能会推动适用于各种设备的更小、更高效版本的开发。虽然在本地达到 DALL-E 或 MidJourney 的水平可能具有挑战性,但在高端智能手机上已经可以实现原型设计和物体移除等更简单的任务。
- 图像生成模型正在影响各行各业,Activision Blizzard 已批准将 Midjourney 和 Stable Diffusion 用于概念艺术和营销。Klarna 报告称,使用 genAI 工具节省了 600 万美元的图像制作成本,且 90% 的员工将 AI 整合到了日常工作流中。
- 最近几个月涌现了大量新的图像生成模型,包括 Kolors、SD3、Aura、Flow、Lumia、Hunyuan 和 Pixart。这些模型在营销、视频游戏开发和平面设计中都有应用,仅美国平面设计市场价值就约为 140 亿美元。
主题 3. 近期发布的 LLM 性能对比
- Mistral NeMo vs Llama3.1 8B (Score: 74, Comments: 32): 该帖子询问了 Llama3.1 8B 和 Mistral NeMo (12B) 模型之间的比较,特别关注它们的多语言能力。作者对 Mistral NeMo 充满前景的性能表示感兴趣,但寻求关于它是否优于 Llama3.1 8B 的确认,并请求分享个人经验和基准测试讨论。
- Mistral NeMo 被认为更“聪明”,可与 Llama3 70B 媲美,而 Llama3.1 8B 在自然语调、风格和创造力方面表现出色。用户建议 Nemo 更适合代码和 function calling,而 Llama 更适合聊天机器人。
- Gemma 2 9B 被认为是这两个模型的强力竞争者,特别是在不需要长上下文的任务中。用户推测,具有改进上下文处理能力的潜在 Gemma 2.1 可能会超越 Llama 3.1 和 Mistral Nemo。
- 用户指出 Mistral NeMo 的内置审查较少,且对提示词的接受度较高,建议在创意写作时将 temperature 设置在 0.5-1 之间。官方模型卡宣称其优于“更小或类似”的模型,这一说法被批评为门槛设定过低。
- Llama 3.1 405B EXL2 量化结果 (Score: 75, Comments: 31):该帖子比较了 Llama 3.1 405B 和 70B 模型在长上下文任务中的表现,重点关注了用于 GPU 的 405B 模型的 EXL2 量化。作者指出,在 125-150GB 模型大小范围内,原始 EXL2 量化在困惑度 (PPL) 方面优于 Meta 蒸馏后的 70B 模型。尽管基准测试显示两者性能相似,但作者的测试表明,在涉及长上下文问答、事实分析和故事细节记忆的任务中,405B 模型显著优于 70B 模型以及 GPT-4 和 Claude Sonnet 3.5 等闭源 LLM,尤其是在接近 128K 上下文限制时。
- Llama 3.1 405B 模型在长上下文任务中优于 70B,但 405B 的 2.5bpw 量化在超过 4K tokens 后表现吃力,而 3bpw 则能维持到约 12K tokens。作者建议这值得进一步调查。
- 讨论集中在比较不同的量化级别和模型大小,并关注 405B 模型与 fp16 70B 以及 DeepSeek MoE 模型的对比。作者指出,原始算力和训练时长可能是性能提升的原因。
- 用户对与 Mistral Large 2 及其他模型在复杂任务和长上下文使用中的对比表示感兴趣。作者正在努力从内部数据集中提取开放测试基准,以便进行更客观的比较。
主题 4. 本地 LLM 推理的硬件与效率考量
-
新的 DDR6 是否开启了 CPU 驱动 LLM 的时代? (Score: 97, Comments: 87):据报道,即将推出的 DDR6 RAM 标准在超频模式下可能达到高达 17,000 MHz 的频率,这引发了关于其对 CPU 驱动 LLM 影响的猜测。该帖子质疑这一进步是否能让语言模型完全在 CPU 上运行,从而可能减少此类任务对 GPU 的依赖。
-
你认为 Llama3 405B 能盈利吗? (Score: 150, Comments: 102):该帖子讨论了 Llama3 405B API 的盈利挑战,引用了 Jia 在 Twitter 上关于该话题的讨论。作者提到一位在云服务公司工作的朋友,该公司最近推出了该 API,正努力在盈利和客户接受度之间寻找定价平衡。
- Avianio 声称以每百万 tokens 5 美元的价格托管 Llama 3 405B 是可以盈利的,而另一位用户则认为现实的 H100 SXM 价格(<$2.5/gpu/hr)使得大多数公司在 405B 和 70B 模型上都能盈利。
- 提供开源模型的市场被描述为高度商品化,面临差异化挑战。像 OpenAI、Anthropic 和 Mistral 这样的公司依靠专有或独家授权的模型来收取溢价。
- Meta 的开源策略被视为试图削减 OpenAI 等潜在竞争对手的利润。一些用户质疑 405B 模型的设计选择,认为 70B 版本对于大多数客户需求是更具成本效益的替代方案。
所有 AI Reddit 综述
r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity
待完成
AI Discord 综述
摘要之摘要的摘要
Claude 3.5 Sonnet
1. LLM 进展与基准测试
- Llama 3.1 以多语言能力令人印象深刻: Meta 的 Llama 3.1 已经发布,模型参数高达 405B,在 MMLU 基准测试中获得了 85.2 分,并支持 128K context。
- 该模型采用了更宽松的许可证,允许在其输出上训练其他 LLM,使其成为 GPT-4 和 Claude 的强力竞争对手。用户反馈褒贬不一,一些人称赞其性能,而另一些人则遇到了循环响应等问题。
- Apple 的 AI 模型展现出潜力: Apple 的新 AI 论文揭示了其服务器端和设备端模型的显著基准测试结果,设备端模型的 MMLU 分数为 61.4,服务器模型为 75.4。
- 论文详细介绍了两阶段预训练过程以及 SFT 和 RLHF 方法。值得注意的是,Apple 表示他们没有使用 NVIDIA GPU 进行 AI 模型训练,而是选择了 TPU,这使他们成为行业内第二大 TPU 用户。
2. 模型优化与性能调优
- 量化技术受到关注: 一份 量化视觉指南 强调了 Large Language Models (LLMs) 的参数通常超过数十亿,这使得它们难以在消费级硬件上运行。
3. 开源 AI 发展
- SWE-Bench Ultra-Hackathon 挑战极限: 为期 6 天的 SWE-Bench 超级黑客松 正在举办,旨在挑战开源代码生成的极限,参与者将获得来自 StrongCompute 提供的 $1,000 计算资源。
- 此次活动邀请了包括 John Yang、Carlos E. Jimenez 和 Ofir Press 在内的共同作者进行演讲,旨在提升开源代码生成能力并激发社区的创新方法。
- SAM 2 增强分割能力: Meta 发布了 Segment Anything Model 2 (SAM 2),提供图像和视频中的实时可提示对象分割,相比其前身有显著改进。
- SAM 2 在包含 50,000 个视频的新 SA-V 数据集上进行训练,并采用了全新的 memory attention 技术。GitHub 仓库 提供了运行推理的代码、训练好的模型权重以及用于各种分割任务的示例 notebook。
4. AI 行业新闻与合作伙伴关系
- Perplexity 推出出版商计划: Perplexity 宣布了其 Publishers Program,与 TIME、Der Spiegel 和 Fortune 等主要机构合作,以确保获取可靠信息并支持出版商。
- 该计划旨在提供新技术以吸引受众并促进共同成功,并计划在未来几个月内引入 收入共享 模式,首先从相关问题的广告开始。
- Leonardo AI 加入 Canva 大家庭: Leonardo.Ai 宣布被 Canva 收购,预计这将增强创意工具并以新方式赋能创作者。
- 此次整合旨在加速创新并基于 Phoenix 等现有项目进行构建,有可能重塑 AI 驱动的设计工具和创意工作流的格局。
PART 1: High level Discord summaries
HuggingFace Discord
- Llama 3.1 的多语言功能令人印象深刻:Llama 3.1 支持拥有 405B 参数的模型,并在 128K context 下于 MMLU 基准测试中达到 85.2 分。
- 该版本采用了宽松的许可证,允许在其输出上进行训练,使其成为 GPT4o 和 Claude 的强力竞争对手。
- Argilla 2.0 推出数据集复制功能:Argilla 2.0 即将发布的版本包含一项易于的数据集复制功能,旨在提高工作流效率。
- 该公告受到了社区的积极响应,帮助用户无缝管理多个数据集。
- PEFT v0.12.0 引入新方法:PEFT v0.12.0 展示了 OLoRA 和 X-LoRA 等方法,旨在增强模型训练效率。
- 这些方法对于提高训练期间的性能和资源分配至关重要。
- 在图像生成领域达到 SOTA:一位成员宣布在图像生成能力上达到了 SOTA,并强调了该领域的进展。
- 他们分享了这条推文作为成就证明,并讨论了图像生成技术的进一步发展。
- 探索语言模型中的量化技术:一份视觉指南强调了量化技术对于在消费级硬件上优化 LLM 的重要性。
- 重点在于创建更小、更高效的模型,以解决与尺寸相关的挑战。
LM Studio Discord
- 升级后出现模型加载问题:用户报告在升级到 0.2.29 版本后出现 GPU 加速失效,表明更新过程中可能存在损坏。
- 一位用户建议清除应用数据并重新安装 0.2.28 版本,而其他用户则强调 Llama 3.1 需要 0.2.29 版本才能获得最佳性能。
- Llama 3.1 出现意外的循环响应:一位用户在升级 LM Studio 后遇到了 Llama 3.1 8B model 持续循环响应的问题,建议改用 Llama v2 预设。
- 这一问题凸显了深入理解提示词格式(prompt formatting)的必要性,以避免 AI 响应中出现此类行为。
- AI 开发入门资源:一位寻求进入 AI 开发领域的新用户被引导学习 Python 和 PyTorch,将其作为核心基础工具。
- 建议利用 YouTube 等平台上的免费资源来帮助理解 AI 涉及的概念。
- GPU 兼容性问题凸显:成员们指出 LM Studio 不支持 Intel Iris Xe Graphics,必须使用支持 CUDA 的 NVIDIA 或支持 ROCm 的 AMD 才能正常运行。
- 讨论了 Tesla P40 的性能,指出与当代消费级 GPU 相比,它面临兼容性和速度问题。
- LM Studio 0.2.29 版本现已支持 ROCm:关于 LM Studio 0.2.29 在 ROCm 上发布的查询得到了答复,根据 GitHub release notes 确认已可用。
- 成员们表达了在自己的配置中使用该更新提供的新功能的渴望。
Perplexity AI Discord
- Perplexity 出版商计划发布:Perplexity 推出了其出版商计划 (publishers’ program),与 TIME 和 Der Spiegel 等机构合作,以增强内容溯源。
- 该计划旨在维持由 The Texas Tribune 等信任源支持的高质量回答,同时计划实施收入共享模式。
- Llama-3 模型出现幻觉:用户报告 llama-3-sonar-large-32k-online 模型近期出现了产生幻觉信息的问题。
- 针对 Llama 模型将于 2024 年 8 月 12 日弃用的消息,用户因其可靠性日益下降而表达了担忧。
- 特斯拉充电站警报:特斯拉发布了关于充电站兼容性的警告,引起了依赖 Supercharging 的用户关注。
- 这一公告引发了关于特斯拉基础设施在长途旅行中可靠性的疑问。
- AI 模型对比分析:用户讨论了 Claude 3.5 Sonnet 和 GPT-4o 的性能对比,强调了它们在各项任务中的各自优势。
- 虽然 Claude 提供了不错的输出,但 GPT-4o 在准确性方面受到称赞,尤其是在编程应用中。
- 太空军扩大卫星网络:太空军 (Space Force) 计划扩大其卫星网络,以增强国家安全和通信能力。
- 这一公告引发了关于轨道上军事卫星增加所带来影响的辩论。
Stability.ai (Stable Diffusion) Discord
- Stable Artisan 引入新命令 /style:/style 命令现在允许用户根据指定的风格生成图像,例如梵高风格的猫或日式风格的飞船。
- 鼓励成员尝试此功能,并分享了展示其创意潜力的示例。
- 在 Stable Diffusion 中遇到 OutOfMemoryError:用户在使用 SD1.5 模型生成图像时,即使使用 8GB GPU 也会遇到 OutOfMemoryError,引发了故障排除讨论。
- 建议包括更改 CUDA 设置和增加虚拟内存以缓解这些问题。
- AI 角色一致性难题:一位用户详细描述了使用 IP Adapter 和 ControlNet 等工具训练模型以实现一致角色生成的挑战。
- 他们分享了当前的设置,并寻求进一步的改进方案以获得更可靠的结果。
- 探索 AI 动画工具:围绕各种 AI 动画工具展开了讨论,特别是从静态图像生成极简动画,重点关注 Live Portrait AI。
- 一些人指出 Runway 等工具存在质量下降的问题,引发了关于不同任务最佳软件的辩论。
- 引入用于视频分割的 SAM 2:来自 Meta 的新 SAM 2 模型承诺增强静态图像和视频的对象分割,为实时应用铺平道路。
- 其强大的 Zero-shot 性能可能为动画重混等创意任务带来益处。
Unsloth AI (Daniel Han) Discord
- Unsloth 在 Windows 上运行困难:用户报告在 Windows 上使用 Unsloth 时遇到 “No triton module” 错误,并建议切换到 WSL 作为权宜之计。
- 一位用户幽默地提到,由于游戏偏好,他拒绝从 Windows 切换。
- 模型微调的挑战:关于微调 Llama3 模型的讨论集中在避免灾难性遗忘,引出了合并数据集进行重新训练的想法。
- 参与者确认,为了减轻与灾难性遗忘相关的风险,完全重新训练是更可取的。
- 使用自定义 Token 的矩阵表示:一位用户询问如何为其 Arc-AGI 项目使用自定义 Token 表示 30x30 矩阵,强调需要更多细节。
- 另一位成员要求进一步澄清,表示更深入的解释将大有裨益。
- Unsloth 改进了 Rope Scaling 支持:最近的一次更新确认,截至两周前,以前缺乏 Rope Scaling 支持的旧模型现在已在 Unsloth 中实现了此功能。
- 成员们对这一新功能表示兴奋,并提到了与此增强相关的 Phi-3 128k 变体。
- 创建翻译数据集:一位用户寻求用于微调英文模型的翻译数据集,考虑使用 DeepL 来实现此目的,其他人则建议利用 Wikipedia 作为资源。
- 对话强调了全面数据集在增强模型训练中的重要性。
CUDA MODE Discord
- Randomized SVD 简化了大规模问题:Randomized SVD 将大规模矩阵问题简化为较小的矩阵,提供关键奇异值和向量的近似值,从而实现高效处理。
- 该技术对于处理海量数据集非常有用,且不会耗尽计算资源。
- 探索 Optimizer CPU Offload:成员们讨论了一个提议的
cpu_offload标志,用于将优化器状态移动到 CPU,从而在优化步骤中促进参数传输。- 针对优化器步骤的阻塞性质是否会影响与
torch.compile进行交错操作的可行性,人们提出了担忧。
- 针对优化器步骤的阻塞性质是否会影响与
- 为 Jeopardy 微调 Llama 3.1:一位成员正在使用 Unsloth 微调 Llama 3.1 8B,并对复杂的配置表示困惑。
- 他们强调更倾向于使用稳定的 bf16 微调过程,以简化训练流水线。
- WebGPU API:不仅仅是一个浏览器工具:WebGPU 作为一个对 WGSL 具有浅层编译定义的 API,现在已用于浏览器之外的原生应用。
- 这包括在 Rust 和 Zig 中的实现,提升了在各种平台上的可用性。
- 对即将举行的活动的期待升温:即将举行的 CUDA MODE IRL 活动引起了热议,与会者对线下见面表现出极大的热情。
- 成员们强调了注册的必要性,并确认了关于 GPU 访问和主题演讲录制的细节。
Nous Research AI Discord
- 小模型展现出竞争优势:最近的一篇论文表明,运行一次 70B 模型 与从 13B 模型 生成五个输出相比,后者在五个任务中可以产生高达 15% 的增益。
- 这引出了一个问题:当两个模型在相同的预算下运行时会发生什么? 研究结果强调了 unit-test setups 对于选择最佳输出的重要性。
- 对 AI Interpretability 时间线的怀疑:在私有实践之外获得可靠的数据集之前,AI Interpretability 可能还需要几年的时间。
- 成员们表示,更长的公共数据发布时间线可能会促进更稳健的研究结果。
- Apple AI 模型基准测试见解:Apple 的新论文展示了服务器端和端侧模型,其 MMLU 分数分别为 61.4 和 75.4。
- 调查结果详细介绍了两阶段预训练过程以及 SFT 和 RLHF 方法。
- 探索 Hermes 和 Llama 模型合并技术:讨论集中在 Hermes 模型与 Llama 的合并技术上,关于有效合并策略的文章正在撰写中。
- 成员们辩论了各种技术对兼容性和效率的性能影响。
- Midjourney V6.1 增强功能:Midjourney 推出了 V6.1,具有改进的图像质量和连贯性,以及新的上采样模型。
- 此次更新是在社区声称在图像生成方面达到 state-of-the-art 结果之后发布的。
OpenAI Discord
- OpenAI Voice Mode 开始推出:Advanced Voice Mode 正在向选定的 ChatGPT Plus 用户群体推出,支持实时对话和自由插话。
- 指示已通过电子邮件和移动应用发送,预计在秋季开放更广泛的访问权限。
- 成员确认获得 Search GPT 访问权限:用户确认获得了 Search GPT 的访问权限,并对其功能表现出不同程度的信心。
- 一些人认为它很有帮助,而另一些人则质疑其功能性。
- 对 GPT-4o 功能的期待升温:围绕 GPT-4o 先进的 vision 和 voice 功能的预期发布展开了讨论,成员们暗示可能会在本月底发布 Alpha 版本。
- 这表明了用户对更新和潜在时间线调整的关注。
- DALL-E Bot 命令问题持续存在:用户在 DALL-E bot 频道执行
/draw命令时遇到问题,部分用户超过 20 分钟 无法创建图像。- 社区中出现了沮丧的声音,成员们寻求社区协助以排除故障。
- 对 GPT 在 Function Calls 中性能的担忧:社区成员对使用 Function Calls 时 GPT-4o 响应质量的下降发出了警报,认为输出的准确性有所降低。
- 他们对比了完整 Prompt 和 Function Call 提交之间的性能,注意到了显著的差异。
Cohere Discord
- Cohere API 曾宕机但现已恢复运行:成员们报告称 Cohere API 暂时宕机,遇到了 503 error,但通过 Cohere status page 确认目前已完全恢复运行。
- 状态页面目前显示端点(endpoints)的 正常运行时间(uptime)为 99.67%,文档的 正常运行时间为 100%,增强了用户对系统可靠性的信心。
- 庆祝使用 Cohere API 开发的成功项目:一位成员自豪地展示了他们使用 Cohere API 构建的梦想项目,该项目具有天气、时间以及部分可用的新闻等功能,引发了社区的热烈响应。
- 该项目强调了背景氛围的重要性以及对生产效率至关重要的功能。
- Connector 响应格式困扰:讨论透露,在 Cohere chat API 中将 unix timestamps 作为整数返回会导致问题,而字符串表示形式则运行良好,这促使官方对预期数据类型进行了澄清。
- 有人提到,虽然支持整数,但在 connector 响应格式中它们会被作为字符串处理。
- 网络研讨会访问咨询:在错过 Enterprise Workflow Automation with GenAI 网络研讨会后,一名成员寻求获取录像,被建议联系 events@cohere.com 以快速获取。
- 这突显了 Cohere 推广的结构化方法,以确保参与者即使错过直播课程仍能获取重要内容。
- 探索 tool usage 与 connectors 的对比:讨论中注意到,受近期 office hours 见解的启发,社区实践正从 connectors 转向 tool usage,这表明了社区实践中的战略转向。
- 虽然 connectors 保持着独特的功能,但目前没有弃用它们的计划,允许用户在方法上保持灵活性。
Modular (Mojo 🔥) Discord
- Mojo 社区会议 #5 回顾:录制的 Mojo Community Meeting #5 讨论了 GPU programming 和 Q&A 环节。参与者寻求更集中的讨论,并为未来的活动提出了现场编程(live coding)环节的建议。
- 深入探索 Mojo 能力 的愿望显而易见,这表明在即将举行的会议中需要增强主题的针对性。
- Stack-PR 的便捷安装:Stack-pr 现在可以通过
pipx install stack-pr进行安装,方便在 GitHub 上创建堆叠式 Pull Requests。成员们讨论了向 conda-forge 提交 feedstock 以简化此过程。- 简化 stack-pr 等新工具的安装路径,反映了增强 Mojo 生态系统易用性的更广泛目标。
- 探索 CSV 读取器功能:关于 Mojo CSV reader 的咨询揭示了其现有功能可以与 Python 的 csv 模块相媲美。讨论强调了社区渴望探索全面功能以增强对 Mojo 的理解。
- 成员们表示,扩展 CSV 功能 可以显著拓宽 Mojo 在数据处理中的适用性。
- 在 Mojo 中实现图像解析:一位贡献者分享了他们在 Mojo 中成功实现 PNG parsing 的经历,并链接到了他们的 GitHub repository。他们计划下一步处理 JPEG 解析。
- 社区对图像解析库的热情标志着对扩展 Mojo 多媒体能力的兴趣日益浓厚。
LlamaIndex Discord
- LlamaIndex 为用户提供 Office Hours:LlamaIndex 邀请用户报名参加 Office Hours,讨论关于 Agent 的使用案例并领取品牌周边。
- 参与者可以期待一次 15-30 分钟的 Zoom 会话,以探索 LlamaIndex 如何协助 Agent 应用。
- GraphRAG 技术结合了多种方法:来自 Microsoft 的 GraphRAG 技术将文本提取、网络分析、Prompting 和摘要集成到一个系统中,通过生成的图谱增强数据理解。
- 网络研讨会重新安排在下周四:根据最近的更新,即将举行的网络研讨会现定于 下周四 8/8 太平洋时间上午 9 点。
- 参与者应相应更新其日历。
- RAPTOR Pack 更新讨论:成员们讨论了将 RAPTOR 部署到 Pinecone 等托管 Vector DBs,以及在不重新聚类的情况下管理文档插入。
- 交流了在不损害先前聚类数据的情况下添加新文档的策略。
- 从 LLM 输出生成 Mermaid 图表:成员们分享了从 LLM 输出生成 Mermaid 图表的工具,特别是
mmd格式的使用以及推荐用于渲染的 Mermaid CLI。- 提供了一些有用的示例来演示有效的图表生成,并参考了 Mermaid 语法。
OpenAccess AI Collective (axolotl) Discord
- 索引过程中的 Transformers 错误:多位成员报告在使用 Transformers 库时出现断言错误:
srcIndex < srcSelectDimSize,特别是在 Mistral 模型配置中。- 提议的修复方案包括 删除缓存 并重新下载依赖项以解决此问题。
- Gemma 2 持续输出 Pad Token:一位用户遇到了其微调后的 Gemma 2 9b 模型在部署到 vLLM 后不断输出
<pad>Token 的问题。- 讨论指向了配置问题,强调需要验证来自 Hugging Face 的 Special Tokens。
- Chat Template 训练配置变更:PR #1756 的引入要求为
type: chat_template添加roles_to_train字段,这破坏了现有使用 chat_template 的示例。- 成员们对需要额外的文档和示例来澄清这一变化表示担忧。
- 聊天机器人的 RAG 实现探索:一位参与者讨论了使用 Retrieval Augmented Generation (RAG) 作为其聊天机器人项目替代微调方案的可能性。
- 他们打算将精力分配在 RAG 和传统微调之间,旨在实现显著的输出增强。
- Loss 函数卡在零:一位用户报告其模型训练 Loss 卡在 0.0,且
grad_norm显示为 nan,这表明存在严重的训练问题。- 这种持续的 Loss 可能意味着模型训练动态存在潜在问题,或需要解决配置设置错误。
LangChain AI Discord
- Agent Executor 缺乏洞察力:有用户担心 LangSmith 中的 Agent Executor 无法展示其规划过程,限制了用户对决策过程的洞察。
- 参与者建议,增强可见性可能需要用户层面的实现,以获得更好的透明度。
- LangGraph 兴起用于规划:一个关于 LangGraph 的共享示例引发了关于其促进 Agent 工作流(超越基础执行)潜力的讨论。
- 鼓励用户学习 LangGraph 的高级功能,以增强他们的项目。
- Llama 3.1 全新的 Tool Calling 语法:Llama 3.1 中独特的函数调用支持使用了一种特殊的 Prompt 语法,这与标准的参数设置不同。
- 有人提出疑问,这种语法是否可能成为 LangChain 集成中的规范。
- 图灵测试变得有趣:一篇文章探索了一种有趣的图灵测试形式,三个语言模型竞相说服对方自己是 AI 身份。
- 这种轻松的方式邀请读者思考机器是否真的可以思考,促进了关于 AI 能力的对话。
- 发布全面的 SWE Agent 指南:一份关于使用 CrewAI 和 LangChain 等工具创建 SWE Agent 的详细指南发布,推广使用 swekit Python 框架。
- 该指南旨在简化各种 Agent 框架的脚手架和功能,可在此处访问 here。
OpenRouter (Alex Atallah) Discord
- Palm Chat 2 使用量增长 3000%:Palm Chat 2 的使用量从 1 次请求激增至 30 次,实现了 3000% 的增长。
- 一位成员幽默地将这次激增比作 WinRAR 销售额 的梗,为讨论增添了笑料。
- 新的 GPT-4o 支持超长输出:实验版本的 GPT-4o 每次请求可处理高达 64K 输出 Token,约合 18.2K 单词。
- 输出成本估计为每 64K 回复 1.15 美元,这是大规模输出的一个重要考虑因素。
- 寻找 LiteLLM 的替代方案:一位用户对 LiteLLM 混乱的文档表示不满,建议利用 OpenRouter 构建类似服务。
- OpenRouter 通过其 Generations 端点提供成本信息,从而提供更多控制权。
- Claude 模型与 Instruct 模板的挑战:讨论了 Claude 3.5 Sonnet 模型 是否使用了 Instruct 模板,部分人对此表示怀疑。
- 有建议称在 OpenRouter 中使用
prompt模式可以有效地将 Prompt 转换为可用的用户消息。
- 有建议称在 OpenRouter 中使用
- Fireworks 模型状态确认:一位成员确认虽然 Fireworks 运行正常,但 Yi-Large 端点 已因不明原因被移除。
- 这引发了围绕 Fireworks 托管模型稳定性的讨论,以确保功能的持续性。
Latent Space Discord
- SAM 2 发布,功能显著增强:Meta Segment Anything Model 2 (SAM 2) 已发布,提供图像和视频中的实时可提示对象分割,相比前代产品在性能上有显著提升,达到 state-of-the-art 水平。
- SAM 2 在包含 50,000 个视频的新 SA-V 数据集上进行训练,采用了一种新颖的 memory attention 技术,用于在不同场景下进行分割。
- Leonardo AI 加入 Canva 大家庭:Leonardo.Ai 宣布被 Canva 收购,预计将增强创意工具并以新方式赋能创作者。
- 此次整合将加速创新,基于 Phoenix 等现有项目进行构建。
- Kagi 推出新的 LLM 基准测试项目:Kagi LLM Benchmarking Project 通过未受污染的基准测试,评估大语言模型在推理、编码和指令遵循方面的能力。
- 目前结果显示 gpt-4o 在准确性和效率方面领先,强调了对不同供应商进行持续测试的必要性。
- OpenAI 和 Anthropic 的战略合作机会:讨论表明 OpenAI 和 Anthropic 可以通过提供基于聊天提及的分析(类似于 Google Analytics)与品牌合作。
- 这可能与 SearchGPT 等新模型保持一致,在确保数据匿名化的同时展示洞察。
- Apple Intelligence Beta 版发布:Apple Intelligence Beta 现已在 macOS 和 iPhone 上可用,为用户提供新的 AI 功能。
- Discord 上的活跃讨论包括对性能和可用性的反馈。
OpenInterpreter Discord
- 探索 Open Interpreter 的用途:成员们讨论了 Open Interpreter (OI) 的各种 use cases,强调了其作为任务管理屏幕助手的潜力。
- “我一直在寻找一种方法,让某些东西能随着时间的推移学习我的屏幕动作”,这展示了开源能力的个性化应用。
- AI 接管编码:一位成员宣扬了使用 AI 生成代码的成功,吹嘘自己在没有亲自编写任何代码的情况下获得了奖项。
- 他们敦促其他人利用 AI 提高编码效率,声称 “相信我,你也可以做到,朋友”。
- 对 Wayland 体验的担忧:一位用户分享了他们在 Wayland 上的挣扎,透露了在过渡到该显示服务器期间面临的挑战。
- 他们的反馈反映了用户在适应新系统时的共同感受。
- Perplexica:你的新搜索伙伴:一段名为 Perplexica + Llama-3.1 的视频演示了如何使用 Llama-3.1 构建一个本地、免费的 Perplexity 替代方案。
- 该教程强调了安装的简便性以及 AI 驱动搜索解决方案的功能性。
- 预订可用性问题:一位用户询问了构建 Open Interpreter 单元的 pre-orders 状态,对找不到更新表示沮丧。
- 官方澄清预订已不再接受,促使其他人独立收集零件。
tinygrad (George Hotz) Discord
- View 合并任务的清晰度:该任务旨在证明
View.__add__可以合并任何两个可合并的 view,或者在失败时对其进行修改。当 view 不是成对可合并时,复杂性会增加,从而推动 shape tracker 的规约。悬赏发布者强调了定义的清晰度,以确保最小化 view,从而在最终索引计算中获得更好的性能。 - YouTube 并行计算之旅:一位成员分享了来自 UCSC 学术报告会的 YouTube 视频,讨论了并行计算及其影响,并提供了幻灯片。该讲座于 2024 年 4 月 10 日举行,强调了并行计算方法论进步的重要性。
- TinyJit 干扰梯度:应用 TinyJit 后,在第三个训练循环步骤中,所有张量返回的梯度均为 None,这与之前的步骤形成鲜明对比。此问题似乎源于 TinyJit 的激活干扰了正常行为。移除 TinyJit 解决了该问题,成员们讨论确认,将 optim.step() 放置在 jitted 函数之外可能是罪魁祸首。
- 决定 Jitting 策略:一位成员在讨论是仅对模型的 forward 步骤进行 jit,还是对整个 step 函数进行 jit,得到的建议是首选全面的 jitting 方法。社区共识倾向于对完整的 step 函数进行 jit,除非有特定原因。
- 遇到 OpenCL 资源错误:一位成员表示在 Mac 上使用 OpenCL 生成“资源不足”错误时遇到困难,反而遇到了“无效内核”错误。这表明问题可能与编译有关,而非运行时的资源限制。同行间的共识暗示应进一步探索导致资源管理中这些困惑点的编译场景。
Interconnects (Nathan Lambert) Discord
- 苹果弃用 NVIDIA 转投 TPU:苹果官方表示,它没有使用 NVIDIA GPU 来训练其 AI 模型,而是选择了 TPU,正如最近的一篇文章所报道的那样。此举使苹果成为行业内 TPU 的第二大用户。这一决定反映了减少对 NVIDIA 等竞争对手依赖并推广自身 AI 能力的更广泛战略。
- Tim Dettmers 加入 Allen Institute:Tim Dettmers 已在 Allen Institute 获得职位,并将于 2025 年秋季开始在卡内基梅隆大学任教。在经过广泛的求职后,他从 17 所大学中获得了 15 份录取通知。他的目标是在继续从事 bitsandbytes 工作的同时,加强开源贡献。对他专业知识的竞争性关注凸显了 AI 领域对人才的需求,Anthropic 和 Hugging Face 等公司都表达了招募他的渴望。
- Sewon Kim 对公司的吸引力:Sewon Kim 的招聘引发了各家公司的极大兴趣,说明了他在该领域日益增长的影响力。这种兴趣的涌入强调了通过独特的产品/方案来吸引顶尖人才的重要性。这一趋势反映了 AI 人才招聘中的竞争格局,杰出的候选人会吸引多个机会。
- Zuck 在 SIGGRAPH 上的精彩言论:在 SIGGRAPH 上,Zuck 与 Jensen 一起发表了坦率的言论,尤其是那句 “再给我做一个芝士牛排堡,Jensen,” 为活动的严肃讨论增添了幽默感。这一时刻凸显了高规格会议中经常出现的轻松与厚重感的交融。
- Perplexity 为出版商推出创新计划:Perplexity 启动了其出版商计划 (Publishers Program),为媒体机构提供收入分成和互动工具等功能,旨在提升媒体来源的质量。合作伙伴包括 TIME 和 Der Spiegel 等知名机构。该倡议不仅旨在分配利润,还旨在提高其系统的整体响应能力。
DSPy Discord
- 在 Trace 框架中探索 OPTO:成员们强调了 Trace 使用 OPTO 的影响,重点讨论了其在 AI 应用中的相关性。
- 讨论指出,人们对自适应 AI 技术表现出浓厚兴趣,特别是与游戏领域相关的技术。
- 神经网络的增长:对话提到了神经网络向拥有 billions of parameters(数十亿参数)的复杂系统演进,例如驱动 ChatGPT 的系统。
- 这些进步彻底重塑了 AI 应用在各个领域的能力。
- MIRPO 与 DSPy 函数的兼容性:针对此前的兼容性问题,成员们寻求澄清 MIRPO 现在是否支持 dspy.Suggest 和 dspy.Assert。
- 目前尚未有更新确认该功能已得到解决。
- 为答案偏差创建惩罚指标:讨论集中在开发一种随金标准答案(gold answer)距离增加而增加的惩罚指标,主张采用比例惩罚。
- 其中一个建议涉及利用预测分数与实际分数之差的平方公式。
- 关于 Language Models 的 ICML 演讲:一位成员分享了关于 Language Models “物理学”的 ICML talk 见解,建议优化器可以利用“名人”示例(’celebrity’ exemplars)。
- 演讲链接可以在 这里 找到以供进一步探索。
AI21 Labs (Jamba) Discord
- 长上下文创新征集开发者:团队正积极寻求开发者利用 Jamba 的 256k effective length(有效长度)探索长上下文用例,旨在根据 enterprise customer feedback(企业客户反馈)提升输出效果。
- 他们鼓励参与者分享实验结果,并提供 credits, swag, and fame(积分、周边和知名度)作为奖励。
- 企业客户分享正面反馈:企业客户在测试 Jamba 的能力和功能时,初步反应显示出 promising results(令人期待的结果)。
- 消息呼吁提供更多见解,以促进提升平台的协作努力。
- 新用户对 Jamba 充满热情:新成员 artworxai 在 Discord 中介绍了自己,表达了学习更多关于 Jamba 知识的渴望。
- 这表明新用户对该平台的功能和应用兴趣日益浓厚。
LAION Discord
- SWE-Bench 超级黑客松挑战代码生成极限:一场为期 6 天的 SWE-Bench 超级黑客松 正在举办,由 StrongCompute 提供 $1,000 的算力 支持。基准测试的改进将获得奖金,活动还包括来自 John Yang、Carlos E. Jimenez 和 Ofir Press 等共同作者的演讲。
- 该活动旨在提升开源代码生成能力,预计讨论将激发社区内的创新方法和见解。
- GitHub 托管 Segment Anything Model 2 代码库:Segment Anything Model 2 (SAM 2) 的 GitHub repository 已上线,提供运行推理的代码、训练好的模型权重(checkpoints)以及示例 notebooks。该资源增强了开源项目中各种分割任务的可用性。
- 随着这些易于获取的工具发布,围绕 SAM 2 的参与度预计会增加,鼓励开发者轻松实现复杂的分割解决方案。
Mozilla AI Discord
- Sentry 讨论 AutoFix 功能:来自 Sentry 的 Jenn 和 Ben 将在即将举行的会议中展示他们的 AutoFix 功能。活动详情可以在这里找到。
- 演示预计将涵盖这一开源功能如何增强开发工作流和故障排除,并提供社区驱动的支持。
- Sentry 开源功能的优势:即将进行的讨论将强调开发者使用像 AutoFix 这样的 开源 功能的优势。参与者可以期待获得关于社区驱动的更新和支持的宝贵见解。
- 本次会议旨在加深对协作开发实践的理解,并扩大与 Sentry 平台的互动。
Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
LLM Finetuning (Hamel + Dan) Discord 没有新消息集。如果该频道长期沉寂,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Torchtune Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
PART 2: 频道详细摘要与链接
完整的频道细分内容已在邮件中截断。
如果您喜欢 AInews,请分享给朋友!提前致谢!