ainews-mistral-large-2
Mistral Large 2 + 再见(或:安息吧)Mistral 7B, 8x7B, 8x22B *(注:这里的 "RIP" 通常指新模型的发布使得旧模型(7B, 8x7B, 8x22B)不再具有竞争力或被取代。)*
Mistral Large 2 推出了拥有 1230 亿参数 的模型,并在研究许可证下采用 开放权重 模式。该模型专注于 代码生成、数学性能 以及高达 128k 的上下文窗口(相比 Mistral Large 1 的 32k 有显著提升)。据称,其 函数调用 能力优于 GPT-4o,且推理能力得到了增强。
与此同时,Meta 正式发布了 Llama-3.1 系列模型,包括 Llama-3.1-70B 和 Llama-3.1-8B,并分享了详细的预训练和后训练见解。研究发现,Llama-3.1 8B 模型在 128k 上下文下的表现与 Mistral Nemo 和 Yi 34B 200K 相比显得逊色。
Mistral 正在逐步弃用旧的 Apache 协议开源模型,转而专注于 Large 2 和 Mistral Nemo 12B。此外,相关新闻还重点介绍了社区讨论和基准测试对比。
你需要的是 Mistral 商业许可证。
2024年7月23日至7月24日的 AI 新闻。我们为你检查了 7 个 subreddits、384 个 Twitter 账号 和 30 个 Discord(474 个频道,4118 条消息)。预计节省阅读时间(以 200wpm 计算):428 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!
对比 2024 年 2 月的 Mistral Large 与 今天的 Mistral Large 2 的侧重点是很有启发性的:
- Large 1:重点关注 MMLU 81%,介于 Claude 2 (79%) 和 GPT4 (86.4%) 之间,仅限 API,未公布参数量。
-
Large 2:关于 MMLU 84% 只有一小段描述(仍然没有超过 GPT4!),123B 参数 Open Weights(在研究许可证下),“在开放模型的性能/成本帕累托前沿(Pareto front)上设定了新基准”,但新的重点是使用由 Mixtral 8x22 推广的“凸包(convex hull)”图表 展示的 codegen 和数学性能。

- 两者都相当关注多语言 MMLU。
- Large 1:32k 上下文。
- Large 2:128k 上下文。
- Large 1:仅顺带提及 codegen。
-
Large 2:“继 Codestral 22B 和 Codestral Mamba 的经验之后,我们在 Mistral Large 2 的训练中使用了极高比例的代码。”

- Large 1:“原生支持 function calling”和“JSON 格式”。
-
Large 2:“开个玩笑,其实我们的 Function calling 在 v1 中并不好,但现在我们比 GPT4o 更强了”。

- Large 2:“还投入了大量精力来增强模型的推理能力。”
- Llama 3.1:«长达 90 页关于如何使用合成数据提高推理和数学能力的极详尽细节»。
Mistral 的 la Plateforme 正在弃用其所有 Apache 开源模型(Mistral 7B, Mixtral 8x7B 和 8x22B, Codestral Mamba, Mathstral),其通用模型仅保留 Large 2 和上周发布的 12B Mistral Nemo。这一弃用完全符合我们在昨天文章末尾讨论的 成本-Elo 归一化前沿图表 的预测。
AI Twitter 摘要
所有摘要均由 Claude 3.5 Sonnet 完成,从 4 次运行中取最佳结果。
今日暂时停更。明天回归。
AI Reddit 摘要
/r/LocalLlama 摘要
主题 1. Llama 3.1 发布及其能力
-
Meta 正式发布 Llama-3-405B, Llama-3.1-70B & Llama-3.1-8B (Score: 910, Comments: 373): Meta 已正式发布其 Llama 语言模型的新版本,包括 Llama-3-405B、Llama-3.1-70B 和 Llama-3.1-8B。这些模型可从 Llama 官网 下载,并可在 Groq 和 Together 等云服务商的 Playground 中进行测试。
-
让我们讨论 Llama-3.1 论文(关于预训练、后训练等的大量细节) (Score: 109, Comments: 26): Llama 3.1 论文揭示预训练细节。可在 ai.meta.com 获取的 Llama 3.1 论文提供了关于模型预训练和后训练过程的详尽细节。论文包括超参数概览、验证损失图表,以及从 7B 到 70B 参数不等的多尺寸模型的各种性能指标。
-
关于 Llama 3.1 8B 在 128K 上下文下的早期评价 (评分: 72, 评论: 49): Llama 3.1 8B 模型的 128K 上下文表现令人失望。作者使用小说风格的故事测试了 Llama 3.1 8B 模型 的 128K 上下文,发现其能力不如 Mistral Nemo,且明显逊于 Yi 34B 200K 模型。即使在 24GB VRAM 中使用 exllama 配合 Q6 cache 以 FP16 精度进行测试,该 Llama 模型也难以识别之前设定的关于角色假定死亡的上下文并生成适当的反应。尽管作者进一步尝试了 8bpw 和 Q8 量化,但最终还是决定放弃 Llama 8B,转而选择 Mistral Dori。
主题 2. 开源 AI 策略与行业影响
-
开源 AI 是前进之路 - Mark Zuckerberg (评分: 794, 评论: 122): Mark Zuckerberg 倡导开源 AI。Mark Zuckerberg 认为 开源 AI 对于推动 AI 技术进步并确保其负责任的发展至关重要。在他的 博客文章 中,Zuckerberg 强调了开源 AI 的优势,包括 更快的创新、更高的透明度 以及 更广泛地获取 AI 工具和知识。
-
根据 AI Act,Llama 3 405b 被视为对社会的“系统性风险” (评分: 169, 评论: 68): Meta 的 Llama 3.1 405B 模型 已根据 欧盟 AI Act 被归类为“系统性风险”。这一认定适用于参数量超过 10^25 的 AI 系统,这使得 Meta 在该模型的开发和部署方面承担了重大的监管义务。这一分类凸显了人们对大型语言模型潜在社会影响的日益担忧,以及它们在欧洲面临的日益严格的监管审查。
-
现在的 OpenAI… (评分: 167, 评论: 27): OpenAI 的竞争对手正在缩小差距。Meta 发布 Llama 3.1 展示了性能的显著提升,可能挑战 OpenAI 在 AI 语言模型领域的领导地位。这一进展表明 AI 领域的竞争正在加剧,其他公司也在迅速提升其能力。
- ChatGPT 性能下降:用户反映自 2023 年初以来 ChatGPT 的编程能力有所退化,GPT-4 和 GPT-4 Turbo 在生成 PowerShell 脚本等任务中表现出不一致的结果,可靠性降低。
- OpenAI 的公信力受到质疑:批评者指出 OpenAI 游说监管开源 AI,并邀请前 NSA 负责人 Paul Nakasone 加入董事会,这表明其正在背离最初的“开放”使命。
- 呼吁发布开源版本:一些用户表达了希望 OpenAI 发布模型权重(特别是 GPT-3.5)以便在本地运行的愿望,认为这是真正推动行业进步并履行其“Open”之名的方式。
主题 3. 性能基准测试与对比
-
LLama 3.1 对比 Gemma 及 SOTA (评分: 140, 评论: 37): Llama 3.1 在包括 MMLU、HumanEval 和 GSM8K 在内的多项基准测试中超越了 Gemma 和其他最先进(SOTA)模型。Llama 3.1 的 7B 和 13B 版本较其前代有显著提升,其中 13B 模型的得分已可媲美或超越 GPT-3.5 等更大规模的模型。这种性能飞跃表明 Llama 3.1 代表了语言模型能力的重大进步,特别是在推理和基于知识的任务中。
-
Llama 3.1 405B 在新的 ZebraLogic 推理基准测试中位列第二 (评分: 110, 评论: 9): Llama 3.1 405B 在新推出的 ZebraLogic 推理基准测试 中获得了 第二名,展示了其先进的推理能力。这一成绩使该模型仅次于 GPT-4,并领先于 Claude 2 和 PaLM 2 等其他知名模型。ZebraLogic 基准测试旨在评估模型处理复杂逻辑推理任务的能力,为衡量 AI 在这一关键领域的表现提供了新的指标。
-
LMSYS 的最后一根稻草 (Score: 175, Comments: 55): LMSYS 基准测试的可信度受到质疑。作者批评了 LMSYS 的 ELO 排名 将 GPT-4o mini 列为整体排名第二的模型,认为 GPT-4、Gemini 1.5 Pro 和 Claude Opus 等其他模型的能力更强。该帖子指出,人类对 LLM 的评估 现在受限于人类的能力而非模型的能力,并建议使用 ZebraLogic、Scale.com leaderboard、Livebench.ai 和 LiveCodeBench 等替代基准测试,以进行更准确的模型能力评估。
主题 4. 社区工具与部署资源
-
Llama-3.1 8B Instruct GGUF 已上线 (Score: 50, Comments: 15): Llama-3.1 8B Instruct GGUF 模型已发布,提供多种量化级别,包括 Q2_K、Q3_K_S、Q3_K_M、Q4_0、Q4_K_S、Q4_K_M、Q5_0、Q5_K_S、Q5_K_M、Q6_K 和 Q8_0。这些量化版本为模型大小和性能之间的权衡提供了不同选择,允许用户根据特定的使用场景和硬件限制选择最合适的版本。
-
在 Colab 免费微调 Llama 3.1 + 速度提升 2.1 倍,VRAM 占用减少 60% + 4bit BnB 量化 (Score: 85, Comments: 24): Unsloth 发布了针对 Llama 3.1 的工具,使微调速度提升 2.1 倍,VRAM 占用减少 60%,并在不损失精度的情况下将原生 HF 推理速度提高 2 倍。此次发布包括一个用于微调 8B 模型 的 免费 Colab notebook,用于加快下载速度并减少 VRAM 占用的 4-bit Bitsandbytes 量化模型,以及在 Colab 中与 Llama 3.1 8B Instruct 进行本地聊天的 Studio Chat UI 预览。
-
我们开发了 glhf.chat:运行(几乎)任何开源 LLM,包括 405b (Score: 54, Comments: 26): 用于运行开源 LLM 的新平台 glhf.chat 上线。新推出的 glhf.chat 平台允许用户运行几乎任何由 vLLM 项目 支持的开源 LLM,包括显存需求高达 ~640GB VRAM 的模型。与竞争对手不同,该平台没有硬编码的模型列表,用户可以通过粘贴 Hugging Face 链接 来运行任何兼容的模型或微调版本,支持 Llama-3-70b 的微调版以及即将推出的 Llama-3.1 版本。
- 该平台最初在注册时需要邀请码 “405B”(在原帖中提到)。开发者 reissbaker 随后完全移除了邀请系统,以简化所有用户的访问。
- 由于升级身份验证提供商时的疏忽,用户遇到了 “500 用户限制” 错误。另一位 glhf.chat 开发者 Billy 承认了该问题并承诺在几分钟内修复。
- 响应用户请求,reissbaker 发布了针对 Mistral NeMo 架构 的修复补丁,在该平台上实现了对 dolphin-2.9.3-mistral-nemo-12b 等模型的支持。
Reddit AI 综合回顾
r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity
AI 模型发布与基准测试
-
Meta 发布 Llama 3.1 405B 模型:Meta 发布了一个新的 4050 亿参数的 Llama 模型。基准测试结果显示,它在某些任务上的表现与 GPT-4 和 Claude 3.5 Sonnet 相当。
-
Zuckerberg 主张开源 AI 模型:Mark Zuckerberg 阐述了理由,认为开源 AI 模型是有益的,并辩称封闭模型无论如何都会被窃取。他表示:“中国能够获得开源权重并不重要,因为如果权重是封闭的,他们无论如何也会窃取权重。”
-
Google 发布 “AI Agents 系统”:Google 发布了 Project Oscar,这是一个用于创建 AI agents 以管理软件项目的开源平台,特别适用于监控 issue 和 bug。
AI 能力与基准测试
-
关于 AI 是否超越人类智能的辩论:关于目前的 AI 模型是否在某些领域超越了人类水平的智能,目前仍在讨论中。有人认为 AI 现在已经“聪明到足以愚弄我们”,而另一些人则认为 AI 在简单的逻辑和数学任务上仍然表现吃力。
-
当前基准测试的局限性:批评者指出,当前的 AI 基准测试可能无法准确衡量智能。例如,Arena 基准测试衡量的是人们更喜欢哪些回答,而不一定是智能。
AI 伦理与企业实践
-
OpenAI 因保密协议受到批评:在 社交媒体上的社区备注 指出 OpenAI 此前曾使用保密协议阻止员工进行受保护的披露后,该公司面临批评。
-
关于开源与封闭 AI 开发的辩论:关于开源 AI 模型与保持封闭的优缺点的讨论仍在继续。有人认为开源促进了创新,而另一些人则担心潜在的滥用。
AI Discord 纪要
摘要之摘要的摘要
1. Llama 3.1 模型性能与挑战
- 微调困境:Llama 3.1 用户报告了微调方面的问题,特别是与模型配置和 Tokenizer 处理相关的错误消息,建议更新 transformers 库。
- 讨论强调了指定正确模型版本和保持正确配置以缓解这些挑战的必要性。
- 性能不一致:用户注意到 Llama 3.1 8B 在推理和编码任务中表现吃力,一些成员对其整体性能表示怀疑。
- 比较表明,虽然在其尺寸级别表现尚可,但其逻辑能力似乎不足,特别是与 Gemma 2 等模型相比。
- 过载问题:Llama 3.1 405B 模型由于请求过载经常显示“服务不可用”错误,这表明需求较高且可能存在基础设施限制。
- 用户讨论了 405B 变体的特性,提到与 70B 兄弟模型相比,它感觉受到了更多的审查(censored)。
2. Mistral Large 2 模型
- Mistral Large 2 发布:2024 年 7 月 24 日,Mistral AI 推出了 Mistral Large 2,拥有令人印象深刻的 1230 亿参数和 128,000-token 上下文窗口,进一步提升了 AI 能力。
- 据报道,Mistral Large 2 的表现优于 Llama 3.1 405B,特别是在复杂的数学任务中,使其成为行业巨头的强劲竞争对手。
- 多语言能力:与现有模型相比,Mistral Large 2 模型拥有更长的上下文窗口和多语言支持,使其成为适用于各种应用的通用工具。
- 成员们将其与 Llama 模型进行了比较,并注意到在这个不断发展的市场中,性能优化工作仍在持续。
3. 软件开发中的 AI 与职业安全
- 职业安全担忧:随着 AI 工具越来越多地集成到编码实践中,参与者讨论了初级开发人员面临的职业安全不确定性,这可能会使入门级角色边缘化。
- 共识认为,经验丰富的开发人员应该适应这些工具,利用它们来提高生产力,而不是取代人类互动。
- AI 数据处理中的隐私问题:关于 AI 的数据处理实践出现了担忧,特别是人类审核员访问敏感信息的潜在影响。
- 讨论强调了建立强大的数据管理协议以保护用户隐私的迫切需求。
4. AI 模型基准测试与评估
- 对基准测试的怀疑:对 Llama 405B 的性能指标存在怀疑,讨论强调了它在与 Mistral 和 Sonnet 模型对比中的平庸表现。
- 社区反思了各种基准测试结果和主观体验,将基准测试比作“电影评分”,认为其无法捕捉真实的真实用户体验。
- 评估方法:强调了在幻觉预防技术中需要更好的基准测试,引发了关于改进评估方法的讨论。
- 与 Meta 工程师的简短对话引发了对基准测试现状的担忧,建议采用协作方式开发更可靠的指标。
5. 开源 AI 进展
- Llama 3.1 发布:Llama 3.1 模型正式发布,将上下文长度扩展到 128K 并支持八种语言,标志着开源 AI 的重大进步。
- 用户报告 Llama 3.1 405B 模型由于过载经常出现“服务不可用”错误,并认为它比 70B 版本感觉更受限。
- Mistral Large 2 特性:Mistral Large 2 具备最先进的 function calling 能力,并对结构化输出和 Agent 提供首日支持。
- 此次发布与增强的 function calling 和结构化输出保持一致,为用户提供了如 Cookbook 等实用资源进行探索。
PART 1: 高层级 Discord 摘要
Unsloth AI (Daniel Han) Discord
- Llama 3.1 Fine-Tuning 挑战:用户报告了微调 Llama 3.1 的问题,特别是源于模型配置和 tokenizer 处理的错误消息,建议更新 transformers 库。
- 讨论强调了指定正确模型版本和保持正确配置以缓解这些挑战的必要性。
- AI 开发中的就业安全担忧:参与者讨论了随着 AI 工具日益融入编程实践,初级开发人员面临的就业安全不确定性,这可能会使入门级角色边缘化。
- 共识认为,经验丰富的开发人员应该适应这些工具,利用它们提高生产力,而不是取代人类互动。
- 关于图像生成偏差的见解:围绕图像生成的讨论强调了在实现多样性和解决 AI 模型固有偏差方面的挑战,这对于教育背景至关重要。
- 出现了对当前多样性努力的批评,指出了可能扭曲历史准确性的执行缺陷。
- Mistral Large 2 的性能:Mistral Large 2 模型作为 AI 领域的强力竞争者出现,与现有模型相比,它拥有更长的上下文窗口和多语言支持。
- 成员们将其与 Llama 模型进行了比较,并注意到在这个不断发展的市场中,性能提升工作正在持续进行。
- AI 数据处理中的隐私担忧:人们对 AI 的数据处理实践产生了担忧,特别是人类审核员访问敏感信息的潜在影响。
- 讨论强调了建立强大的数据管理协议以保护用户隐私的迫切需求。
LM Studio Discord
- LM Studio 在运行 Llama 3.1 时遇到困难:用户发现 LM Studio 无法在 OpenCL 显卡上运行 Llama 3.1;建议升级到 0.2.28 版本以获得更好的支持。
- 确认来自 LM Studio 的更新对于 Llama 3.1 等大型模型的有效性能至关重要。
- ROCm 0.2.28 导致性能下降:在 ROCm 0.2.28 更新后,一位用户经历了性能下降,在双 7900 XT 配置上仅看到 150w 功耗。
- 恢复到 0.2.27 后恢复了正常性能,引发了对新更新中变化的深入调查要求。
- Nemo 模型面临上下文和性能问题:用户报告 Nemo 模型在当前版本下可以运行,但受限于上下文长度,且由于 RAM 不足导致输出较慢。
- 某些特定配置下有成功案例,同时也提出了优化建议。
- GPU Offloading 问题依然存在:多位成员报告其系统上的 GPU Offloading 功能异常,特别是在 M3 Max 和 4080S GPU 上,通常需要手动调整。
- 自动设置导致了错误的输出,表明需要更可靠的手动配置以获得更好的性能。
- Meta-Llama 3.1 70B 进入仓库:Meta-Llama 3.1 的 70B 量化模型已发布,可通过 该仓库 获取。
- 频道内的热情显著,预计在重新上传以修复 tokenizer 错误后,性能将有所提升。
Perplexity AI Discord
- Llama 3.1 405B 掀起热潮:Llama 3.1 405B 模型被誉为最强大的开源模型,现已在 Perplexity 上线,其性能可与 GPT-4o 和 Claude Sonnet 3.5 媲美。
- 将其集成到移动应用程序中的激动人心计划正在进行中,旨在为移动开发者增强可访问性。
- Mistral Large 2 开辟新天地:2024 年 7 月 24 日,Mistral AI 发布了 Mistral Large 2,拥有惊人的 1230 亿参数和 128,000-token 上下文窗口,进一步提升了 AI 能力。
- 据报道,Mistral Large 2 的表现优于 Llama 3.1 405B,特别是在复杂的数学任务中,使其成为行业巨头的强劲竞争对手。
- AI 模型基准测试受到质疑:人们对 Llama 405b 的性能指标产生怀疑,讨论强调了它在 Mistral 和 Sonnet 模型面前表现平平。
- 社区反思了各种基准测试结果和主观体验,将基准测试比作无法捕捉真实用户体验的“电影评分”。
- NextCloud 集成 OpenAI:最近 NextCloud 与 OpenAI 的集成引发了关注,其特点是社区驱动、开源的方法,促进了清晰的代码标准。
- 共享了一个 GitHub 仓库,为有志于探索这一新功能及其影响的开发者提供资源。
- TikTok 的搜索引擎潜力:关于 TikTok 作为 Z 世代搜索工具的讨论非常热烈,突显了其日益增长的影响力,并对传统搜索引擎发起了挑战。
- 对该平台可靠性的担忧(尤其是在健康建议方面)表明,在使用 TikTok 获取关键信息时需要谨慎。
OpenAI Discord
- Mistral-7B 拥有海量上下文窗口:Mistral-7B-v0.3 模型拥有惊人的 128k 上下文窗口并支持多种语言,而 Mistral Large 版本在使用 ollama 时仅需 69GB 即可高效运行。
- 用户称赞了它的能力,指出了在处理大型数据集的多任务处理中的潜在应用。
- 经济实惠的 GPU 服务器方案出现:讨论强调 Runpod 是运行大型模型的高性价比 GPU 服务器选择,价格仅为 $0.30/小时。
- 参与者建议使用 LM Studio 和 ollama,以便根据特定模型需求获得更好的性能。
- Kling AI 提供奇特的图生视频功能:Kling AI 以其将静态图像转换为视频的能力给用户留下了深刻印象,尽管一些人指出了视频质量和服务器过载的问题。
- 尽管体验褒贬不一,但引人入胜的输出激发了进一步尝试该工具的兴趣。
- 记忆功能的不一致性令用户沮丧:成员们报告说,memory feature 在欧盟的表现不一,有些人只能临时访问五分钟。
- 这引发了关于该功能运行状态及其整体可靠性的轻松调侃。
- 在 Python 中使用 OpenAI 生成 PDF:一位用户寻求通过 Python 使用 OpenAI 生成 PDF 文档的帮助,寻找根据上传内容自动生成章节描述的方法。
- 这一讨论推动了关于增强文档生成流程的高效工作流的协作交流。
Nous Research AI Discord
- LLM Distillation 技术的进展:成员们强调了 Minitron GitHub 仓库 在理解利用 pruning(剪枝)和 knowledge distillation(知识蒸馏)进行 LLM distillation 最新进展方面的潜力。
- 该仓库反映了类似于 Sonnet、Llama 和 GPT-4Omini 等模型的持续努力。
- LLaMa 3 作为新选手引入:最近推出的 LLaMa 3 模型采用了拥有 405B 参数 的稠密 Transformer 结构,并配备了高达 128K tokens 的上下文窗口,旨在处理各种复杂任务。
- 这些模型在多语言和编程方面表现出色,为 AI 应用树立了新基准。
- Mistral Large 2 的竞争优势:拥有 123B 参数 和 128k 上下文窗口 的 Mistral Large 2 的发布吸引了用户,尤其是在编程任务方面。
- 尽管其采用非商业许可证,但其创新设计使其在 API 性能优化方面处于有利地位。
- 微调 Llama 3 面临挑战:关于 微调 Llama 3 405B 的担忧浮出水面,一些人建议仅将 Lora FTing 作为可行方法。
- 这种情况可能会推动 OSS 社区在 DoRA fine-tuning 方面的进展。
- 道德推理与电车难题:围绕引入困难道德查询(如电车难题)的讨论强调了评估模型道德基础的必要性。
- 这引发了关于这些任务是考察纯粹的推理能力还是伦理框架的辩论。
OpenRouter (Alex Atallah) Discord
- DeepSeek Coder V2 推出私有推理提供商:DeepSeek Coder V2 现在提供 私有提供商,可以在 OpenRouter 上处理请求而无需输入训练数据,这标志着私有模型部署的重大进展。
- 这一新能力反映了 OpenRouter 平台在增强用户可用性方面的战略进展。
- 对 Llama 3.1 405B 性能的担忧:用户对 Llama 3.1 405B 的性能表示不满,特别是在处理 NSFW 内容时,它经常拒绝提示或输出训练数据。
- 反馈表明温度(temperature)设置显著影响质量,一些用户报告在较低温度下输出效果更好。
- Mistral Large 2 替代版提供更好的多语言支持:Mistral Large 2 现已作为 Mistral Large 发布,有效替代了之前的版本,并增强了多语言能力。
- 用户推测在处理法语等语言时,它的表现可能优于 Llama 3.1。
- 用户讨论 OpenRouter API 的限制:讨论强调了 OpenRouter API 的挑战,特别是在速率限制(rate limits)和多语言输入管理方面,这增加了模型使用的复杂性。
- 虽然某些模型处于免费预览阶段,但用户报告了对使用量和上下文的严格限制,指出需要改进。
- 对开源编程工具的兴趣日益增长:用户对 Devika 和 Open Devin 等开源自主编程工具表现出浓厚兴趣,并根据当前的效能寻求建议。
- 这种转变反映了用户希望尝试主流 AI 编程解决方案之外的替代方案,因为后者的表现参差不齐。
HuggingFace Discord
- Llama 3.1 震撼发布:Llama 3.1 模型正式发布,将上下文长度扩展至 128K 并支持八种语言,标志着开源 AI 的重大进展。可以通过 blogpost 详细了解该模型,并在此处进行测试 here。
- 用户报告 Llama 3.1 405B 模型因过载频繁出现“服务不可用”错误,并认为它比 70B 版本受到的审查(censored)更多。
- HuggingChat v0.9.1 版本改进:最新版本 HuggingChat v0.9.1 集成了显著增强用户易用性的新功能。用户可以通过模型页面发现更多功能。
- 此次更新旨在利用新的 HuggingChat 功能来改善交互体验。
- MultipleNegativesRankingLoss 的风险:有报告称在使用 MultipleNegativesRankingLoss 训练句子编码器(sentence encoders)时遇到困难,增加 batch size 会导致模型性能下降。用户正在寻求关于该方法相关的常见数据集陷阱的见解。
- 一位用户描述了他们的评估指标,重点关注 recall@5、recall@10 和 recall@20,以实现更好的基准测试。
- Mistral-NeMo 12B 在 Demo 中表现出色:使用 llama.cpp 展示的 Mistral-NeMo 12B Instruct Demo 展现了该模型显著的性能提升。鼓励用户尝试以获得更好的聊天体验。
- 社区对该模型的能力及其在各种 AI 任务中的潜在应用兴趣激增。
- 关于 Rectified Flow 和评估的问题:成员们对缺乏关于 Rectified Flow 和 Flow Matching 的讨论表示沮丧,特别是与 DDPM 和 DDIM 的辩论相比。他们强调很难找到 Flow 应用的简单示例,例如生成 MNIST。
- 探讨了生成模型的评估方法,重点是评估 Stable Diffusion 与 GANs 等模型性能的定性和定量方法。
Stability.ai (Stable Diffusion) Discord
- Kohya-ss GUI 兼容性问题:用户报告当前版本的 Kohya-ss GUI 与 Python 3.10 存在兼容性问题,需要升级到 3.10.9 或更高版本。
- 一位用户幽默地评论道,这就像是需要 180 磅的体重限制,但又不能超过 180.5 磅。
- 即将推出的 Lycoris 功能令人兴奋:Onetrainer 可能会在一个新的开发分支中集成 Lycoris 功能,引发了关于功能增强的讨论。
- 社区成员表示更倾向于使用 bmaltais 的 UI 封装器,这可能会改善这些新集成的体验。
- 社区热议艺术模型:讨论概述了包括 Kolors、Auraflow、Pixart Sigma 和 Hunyuan 在内的模型性能评分,其中 Kolors 因其速度和质量而受到赞赏。
- 参与者就这些模型的使用体验和具体应用展开了辩论,展示了多元的观点。
- 显微镜下的 Stable Diffusion 模型:用户检查了 Stable Diffusion 1.5 和 SDXL 在输出上的差异,重点关注细节和分辨率。
- 讨论了 Hidiffusion 和 Adaptive Token Dictionary 等技术,作为提升旧模型输出的方法。
- 欢迎来到 Stable Video 4D!:新推出的 Stable Video 4D 模型允许将单个物体的视频转换为多视角视图,用于创意项目。
- 该模型目前处于研究阶段,有望在游戏开发、视频编辑和虚拟现实领域得到应用。
Eleuther Discord
- 深入探讨采样模型:成员们讨论了各种 sampling methods(采样方法),如 greedy、top-p 和 top-k,强调了它们各自的权衡,特别是对于大型语言模型。
- 随机采样因其多样性而受到关注,但会使评估变得复杂,这与生成最可能路径的 greedy 方法的可靠性形成对比。
- Llama 3.1 的采样偏好:在关于 Llama 3.1 的讨论中,参与者建议参考其论文以获取最佳的 sampling methods,并倾向于使用概率采样技术。
- 一位成员指出,Gemma 2 有效地使用了模型评估中常见的 top-p 和 top-k 策略。
- 误导性推文引发讨论:成员们分析了一条与 Character.ai 模型相关的误导性推文,特别是其使用的共享 KV 层对性能指标的影响。
- 对此类信息准确性的担忧随之而来,凸显了社区在理解 Transformer 架构方面不断探索的过程。
- MoE 与 Dense 模型的辩论:一场关于偏好 dense models(稠密模型)而非 Mixture-of-Experts (MoE) 的激烈辩论展开了,理由是处理 MoE 在训练中的高成本和工程挑战。
- 尽管预训练 MoE 具有潜在效率,但对于不同组织实施这些模型的能力仍存在担忧。
- Llama API 评估困扰:用户报告了使用
lm_eval工具评估 Llama 3.1-405B 时遇到的错误,特别是通过 API 处理 logits 和多项选择任务时的挑战。- 诸如 ‘No support for logits’ 和 ‘Method Not Allowed’ 之类的错误引发了故障排除讨论,并记录了对
_create_payload方法的成功修改。
- 诸如 ‘No support for logits’ 和 ‘Method Not Allowed’ 之类的错误引发了故障排除讨论,并记录了对
CUDA MODE Discord
- CUDA 安装故障排除:成员们遇到了 Torch 未针对 CUDA 编译而导致的导入错误。建议从官方页面安装 CUDA 版本以确保兼容性。
- 设置 CUDA 后,一位用户在分配 172.00 MiB 时遇到了 torch.cuda.OutOfMemoryError,建议调整 max_split_size_mb 以解决内存碎片问题。
- 探索 Llama-2 和 Llama-3 特性:一位成员分享了一个经过微调的 Llama-2 7B model,该模型在 24GB GPU 上训练了 19 小时。同时,关于在 Llama 3 中实现 blockwise attention 的讨论集中在相对于旋转位置嵌入(rotary position embeddings)的序列切分阶段。
- 此外,还提出了关于 Llama 3.1 是否比 3.0 改进了推理延迟的询问,反映了对模型性能进步的持续关注。
- AMD 的 FlashAttention 优化:继 GitHub Pull Request #1010 中详述的实现之后,FlashAttention 已获得对 AMD ROCm 的支持。更新后的库保持了 API 的一致性,同时引入了几个新的 C++ API,如
mha_fwd。- 目前新版本的兼容性仅限于 MI200 和 MI300,这表明未来可能会有更广泛的更新。
- PyTorch Compile 见解:用户报告称
torch.compile增加了小型 Bert models 的 RAM 使用量,并且从 eager mode 切换后性能变差。建议使用 PyTorch profiler 分析推理期间的内存轨迹。- 观察结果显示,使用
reduce-overhead和fullgraph编译选项没有带来内存效率的提升,强调了理解配置效果的重要性。
- 观察结果显示,使用
- ML/AI 求职策略:一位用户寻求关于制定实习和全职 ML/AI 职位路线图的建议,并分享了一份包含其计划的 Google 文档。他们表达了努力工作并在时间表上保持灵活的承诺。
- 鼓励对其实习策略提供进一步反馈,突显了愿意投入额外时间来实现目标的意愿。
OpenAccess AI Collective (axolotl) Discord
- Llama 3.1 遭遇错误困扰:用户报告了 Llama 3.1 的问题,面临如 AttributeError 等错误,这可能源于过时的镜像或配置。
- 一位用户通过尝试不同的镜像找到了解决方法,并对持续的模型更新表示沮丧。
- Mistral 发布超大型模型:Mistral 发布了拥有 123B 参数 的 Mistral-Large-Instruct-2407 模型,声称具有 SOTA 性能。
- 该模型提供多语言支持、精通编程以及先进的 Agent 能力,在社区中引起了轰动。
- 多语言能力受到审视:Llama 3.1 与 NeMo 的对比凸显了性能差异,特别是在多语言支持方面。
- 虽然 Llama 3 在欧洲语言方面具有优势,但用户指出 NeMo 在 中文 和其他语言方面表现更出色。
- 训练大模型遭遇 RAM 瓶颈:训练像 Mistral 这样的大模型对 RAM 的巨大需求引起了关注,用户对其局限性发表了评论。
- 一些人在训练过程中遇到了梯度爆炸(exploding gradients),并推测该问题是否与 sample packing 有关。
- Adapter 微调阶段受到关注:成员们讨论了 Adapter 微调的多个阶段,提出了用前一阶段的结果(包括用于 DPO 训练的 SFT 权重)初始化后续阶段的想法。
- GitHub 上的一个功能请求建议通过少量的代码更改来实现这一方法。
Interconnects (Nathan Lambert) Discord
- GPT-4o mini 霸榜 Chatbot Arena:凭借超过 4,000 名用户的投票,GPT-4o mini 目前在 Chatbot Arena 排行榜上并列第一,性能超越前代版本,且价格便宜 20 倍。这一里程碑标志着新应用的智能成本显著下降。
- 开发者们对此成就感到兴奋,并指出了其对未来聊天机器人体验的影响。
- Mistral Large 2:新的竞争者:Mistral Large 2 拥有 128k 上下文窗口和多语言支持,在特定许可条件下,其定位非常适合高复杂度任务。关于该强大模型的商业用途缺乏清晰度的讨论浮出水面。
- 成员们强调需要更好的文档来有效应对许可(licensing)环境。
- OpenAI 预计亏损 50 亿美元:据估计,OpenAI 今年可能面临高达 50 亿美元 的巨额亏损,主要原因是 Azure 成本和训练费用。对盈利能力的担忧引发了关于 API 收入低于预期的讨论。
- 这种情况对 OpenAI 商业模式在当前环境下的可持续性提出了根本性挑战。
- Llama 3 正式发布:Meta 已正式发布在 15T tokens 上训练的 Llama3-405B,声称在所有主要基准测试中均超越了 GPT-4。这标志着开源 AI 技术的重大飞跃。
- 此次发布引发了关于在模型后训练能力中集成 100% RLHF 的讨论,突显了该方法的关键作用。
- CrowdStrike 为停机事件提供 10 美元道歉礼品卡:CrowdStrike 向合作伙伴提供 10 美元的 Uber Eats 礼品卡,作为对大规模停机事件的道歉,但一些人发现礼品卡在尝试兑换时已被取消。这一事件凸显了与技术更新相关的运营风险。
- 成员们对这一举措在持续的挫败感面前的有效性表达了复杂的情绪。
Modular (Mojo 🔥) Discord
- Mojo 编译器版本命名困惑:一场讨论突显了关于下一个主编译器版本是 24.5 还是 24.8 的不确定性,理由是随着向 2025 年推进,nightly 和 main 版本之间可能存在脱节。
- 社区成员对遵循不同的发布原则表示担忧,这使未来的更新变得复杂。
- 最新 Nightly 更新解析:最新的 nightly Mojo 编译器更新
2024.7.2405包含重大更改,例如移除了 DTypePointer 并增强了字符串格式化方法,详细信息可以在 当前变更日志 中查看。- DTypePointer 的移除需要对现有项目进行代码更新,这引发了对更清晰过渡指南的呼吁。
- SDL 集成问题:一位用户请求有关将 SDL 与 Mojo 集成的资源,旨在更好地理解该过程以及如何有效地使用 DLHandle。
- 这反映了通过第三方库增强 Mojo 功能的日益增长的兴趣。
- 关于 Var 与 Let 实用性的讨论:一位成员发起了一场关于在所有内容都已声明为 var 的情况下使用它的必要性的辩论,认为这种用法存在冗余。
- 另一位成员指出 var 有助于编译器,而 let 则迎合了那些偏好不可变性的人,突显了开发者之间的偏好之争。
- 探索 SIMD 类型可比性:成员们讨论了为 SIMD types 建立全序关系的挑战,并指出了泛型编程与特定比较之间的张力。
- 有人提议,新的 SimdMask[N] 类型可能会缓解一些与平台特定行为相关的复杂性。
Latent Space Discord
- Factorio 自动化模组激发创意:新的 factorio-automation-v1 模组允许 Agent 在 Factorio 中自动执行合成和采矿等任务,为 Agent 能力提供了一个有趣的测试场。
- 成员们对该模组为复杂游戏交互带来的可能性感到兴奋。
- GPT-4o mini 微调开放:OpenAI 推出了 GPT-4o mini 的微调功能,面向第 4 级和第 5 级用户开放,在 9 月 23 日之前每天前 2M training tokens 免费。
- 成员们注意到,在将微调后的 GPT-4o mini 与 Llama-3.1-8b 进行比较时,性能存在不一致,这引发了关于具体用例的疑问。
- Mistral Large 2 以 123B 参数给人留下深刻印象:Mistral Large 2 已发布,拥有 123 billion parameters,具备强大的编程能力,并支持多种语言。
- 然而,有迹象显示它在 Aider’s code editing benchmark 中仅获得了 60% score,略领先于最好的 GPT-3.5 模型。
- Reddit 的内容政策引发辩论:关于 Reddit 公共内容政策 的讨论非常激烈,主要集中在用户对生成内容的控制权上。
- 成员们认为模糊的政策造成了重大问题,强调了对更清晰指南的需求。
- 加入 Llama 3 紧急论文俱乐部:一场关于 The Llama 3 Herd of Models 的“紧急论文俱乐部”会议定于今天晚些时候举行,该论文是 POTY Awards 的有力竞争者。
- 讨论的主要贡献者包括著名的社区成员,强调了该论文的重要性。
LlamaIndex Discord
- LlamaParse 增强 Markdown 功能:LlamaParse 现在展示了对 Markdown 输出、纯文本和 JSON 模式的支持,以便更好地进行元数据提取。多语言输出等功能增强了其在工作流中的实用性,正如此视频所示。
- 此次更新将显著提高各种应用的 OCR 效率,将其应用范围从简单的文本扩展到各种任务。
- MongoDB AI 应用计划现已推出:新启动的 MongoDB AI Applications Program (MAAP) 旨在简化组织构建 AI 增强型应用的流程。通过参考架构和集成技术栈,它加速了 AI 的部署时间;点击此处了解更多。
- 该计划解决了开发者以最小开销实现应用现代化的迫切需求,有助于提高工作流效率。
- Mistral Large 2 引入 Function Calling:Mistral Large 2 正在推出增强的 function calling 能力,其中包括在发布时即支持结构化输出。官方提供了 cookbooks 等详细资源来帮助开发者利用这些新功能;点击此处进行探索。
- 此次发布强调了 LLM 应用的功能通用性,允许开发者有效地实现更复杂的交互。
- 使用 SubQuestionQueryEngine 提高流式传输效率:成员们讨论了使用 SubQuestionQueryEngine.from_defaults 来促进流式响应并降低 LLM 查询中的延迟。虽然在使用
get_response_synthesizer方面提出了一些解决方案,但在实现上仍面临挑战。- 尽管在采用过程中存在障碍,但人们对提高 LLM 集成中的用户交互速度持乐观态度。
- 对 Llama 3.1 指标产生质疑:对于 Meta 发布的 Llama 3.1 指标,尤其是其在 RAG 评估中的有效性,怀疑情绪正在增加。用户正在质疑某些模型(如
llama3:70b-instruct-q_5)在实际任务中的可行性。- 这种怀疑反映了社区对 AI 指标在评估各种应用中模型性能的可靠性的广泛关注。
Cohere Discord
- Cohere 控制面板刷新问题:成员们报告了 Cohere 账户控制面板不断刷新的问题,而其他人则表示他们那边没有此类问题,引发了关于潜在故障的讨论。
- 这引发了关于 rate limiting(速率限制)可能是导致刷新问题原因的讨论。
- 为 Command R Plus 喝彩:随着 Llama 3.1 等模型的每一次发布,成员们对 Command R Plus 的评价越来越高,强调了其与其他模型相比的能力。
- 一位用户建议专门为模型对比创建一个 Playground,以进一步探索这种日益增长的情绪。
- 服务器性能受到关注:虽然有人担心潜在的服务器宕机,但一些用户确认服务器处于完全运行状态。
- 建议包括调查 rate limiting 是否是影响用户体验的一个因素。
- Cohere 的创新功能建议:一位成员建议在 Cohere 的对话中加入使用工具的能力,例如根据需求触发网页搜索。
- 最初出现了一些困惑,但随后澄清了其中一些功能已经可以使用。
- 社区欢迎新面孔:新成员介绍了自己,分享了在 NLP 和 NeuroAI 方面的背景,引发了社区的兴奋。
- 讨论还涉及了使用 Command-R+ 的经验,强调了其相对于 NovelAI 等模型的优势。
DSPy Discord
- Zenbase/Core 发布引发关注:zenbase/core 现已上线,使用户能够将 DSPy 的 optimizers 直接集成到 Instructor 和 LangSmith 等 Python 项目中。可以通过参与他们的 Twitter 帖子 来支持此次发布。
- 社区成员反应积极,非常愿意推广这一最新版本。
- Typed Predictors 引发输出担忧:用户报告 typed predictors 无法生成正确结构化输出的问题,并寻求他人帮助。建议包括通过
dspy.configure(experimental=True)启用实验性功能来解决这些问题。- 同行的鼓励凸显了完善这些 predictor 使用方法的集体努力。
- 内部执行可见性引发辩论:关于观察内部程序执行步骤的方法(包括
inspect_history等建议)展开了热烈讨论。用户表示需要更深入地了解模型输出,特别是在类型检查出错期间。- 对透明度的共同渴望展示了调试工具在 DSPy 使用中的重要性。
- 推动 Small Language Models 发展:一位成员分享了一篇关于 small language models 优势的文章,指出它们的高效性以及对资源有限的边缘设备的适用性。他们强调了在仅有 4GB RAM 的设备上运行模型的 privacy 和操作简便性等优点。
- 阅读文章 Small Language Models are the Future 以获取有关该主题的全面解读。
- 呼吁为 DSPy 示例做贡献:一位用户表示有兴趣向 DSPy 仓库贡献初学者友好的示例,旨在丰富资源库。社区反馈确认了对更多样化示例的需求,特别是在
/examples目录下。- 这一倡议反映了增强 DSPy 环境内学习材料的协作精神。
tinygrad (George Hotz) Discord
- 成员攻克 Tinygrad 学习:成员们分享了学习 Tinygrad 的历程,重点是理解其在 transformers 方面的应用。有人指出,“这还在进行中”,表明这是一个循序渐进的掌握过程。
- 讨论暗示了可能通过集体资源来提升学习曲线。
- 分子动力学引擎正在构建中:一个团队正在开发一个使用神经网络进行能量预测的 Molecular Dynamics engine,并面临梯度使用方面的挑战。建议使用输入梯度跟踪方法来优化 backpropagation 过程中的权重更新。
- 优化 backpropagation 成为提高训练性能的焦点。
- 在 Tinygrad 中创建自定义运行时:一位成员分享了为 Tinygrad 实现 custom runtime 的见解,强调了为新硬件添加支持是多么简单。他们寻求对
global_size和local_size等术语的澄清,这些术语对于 kernel 执行至关重要。- 针对这些参数的操作上下文提供了技术澄清。
- 神经网络势能讨论:Molecular Dynamics engine 中的能量依赖于 Neural Network Potentials (NNP),重点在于计算效率。对话围绕优化 backpropagation 的策略展开。
- 提高计算速度的清晰路径对于改善结果至关重要。
- 对 CartPole 中 PPO 算法的审查:一位成员探究了在 Beautiful CartPole 环境的 PPO algorithm 实现中
.sum(-1)操作的必要性。这引发了关于强化学习细微差别的协作对话。- 对代码实现的详细探索促进了社区的理解和知识共享。
Torchtune Discord
- 3.1 版本倒计时与精彩访谈:成员们询问是否会随 3.1 版本发布一些精彩的 访谈,类似于 Llama3 发布时的内容。
- 这引发了人们对新版本可能伴随的见解和讨论的兴趣。
- MPS 支持 PR 引起关注:一个新拉取请求 (#790) 受到关注,该 PR 为本地 Mac 电脑增加了 MPS 支持,并检查 BF16 兼容性。
- 上下文表明,该 PR 可能会解决使用 MPS 设备的用户面临的主要测试障碍。
- LoRA 功能问题依然存在:讨论了围绕 LoRA 功能的问题,指出在之前的尝试中它无法正常工作,且此前受到硬编码 CUDA 路径的影响。
- 成员们就遇到的具体错误交换了意见,突出了实现过程中持续存在的挑战。
- 修复 Pad ID Bug:一名成员指出 pad id 不应出现在生成功能中,并将其确定为一个重要的 bug。
- 作为回应,一个拉取请求被创建以防止 pad ids 和特殊 token 显示,详见 Pull Request #1211。
- 优化 Git 工作流以减少冲突:讨论了改进 git 工作流以尽量减少不断出现的新冲突,强调了协作。
- 有建议认为新冲突可能源于工作流,表明可能需要进行调整。
LangChain AI Discord
- Hugging Face 模型与 Agents 讨论:成员们讨论了使用 Hugging Face 模型构建 Agents 的经验,包括通过 Ollama 使用本地 LLM 以及 OpenAI 和 Azure 等云端选项。
- 这场对话激发了人们对 Agents 在各种模型框架中潜在应用的兴趣。
- Python 开发者求职:一名成员迫切地表达了他们的处境,称:“有人想雇佣我吗?我需要付账单。” 并强调了他们在 Python 方面的强大技能。
- 随着对机会的讨论展开,当前市场中职位可用性的紧迫性显而易见。
- Aurora 上 HNSW IVFFLAT 索引的挑战:成员们在 Aurora PGVECTOR 上创建 3072 维度 的 HNSW 或 IVFFLAT 索引时遇到问题,并分享了涉及 halfvec 的解决方案。
- 这突出了高性能向量数据库中维度管理方面持续存在的挑战。
- LangServe 的 OSError 限制:用户在 LangServe 应用处理约 1000 个并发请求 时遇到了 OSError: [Errno 24] Too many open files。
- 他们正在积极寻求处理高流量同时缓解系统资源限制的策略,并已提交 GitHub issue 以寻求支持。
- AI Code Reviewer 工具介绍:一名成员分享了一个关于 AI Code Reviewer 的 YouTube 视频,重点介绍了其由 LangChain 驱动的功能。
- 该工具旨在增强 code review 过程,暗示了代码评估方法向自动化发展的趋势。
OpenInterpreter Discord
- Llama 3.1 405 B 的易用性令人印象深刻:Llama 3.1 405 B 与 OpenInterpreter 配合使用时表现极其出色,提供了轻而易举的使用体验。
- 相比之下,gpt-4o 需要不断提醒其具备的功能,这使得 405b 成为多任务处理的更优选择。
- Nvidia 提供的性价比 API 使用方案:一位用户分享到,Nvidia 在注册时会提供 1000 credits,其中 1 credit 等于 1 次 API 调用。
- 这一激励措施为尝试 API 提供了更多的可访问性。
- Mistral Large 2 与 Llama 3.1 405 B 旗鼓相当:据报道,Mistral Large 2 的表现与 Llama 3.1 405 B 相当,尤其在速度方面表现突出。
- 较快的性能可能是由于 Mistral 的端点流量比 Llama 的端点流量低。
- Llama 3.1 免费连接数据库:MikeBirdTech 指出,Llama 3.1 可以通过 OpenInterpreter 免费与你的数据库进行交互,强调了在付费服务上的节省。
- 它也是完全离线和私密的,无需他人看到你的数据,突显了其隐私优势。
- 对 Llama 3.1 处理复杂数据库的担忧:一名成员提出担忧,认为对于涉及跨表连接(joins)的复杂数据库,该解决方案可能无效。
- 他们对分享这些信息表示感谢,并评论说尽管存在局限性,但执行得非常出色。
LAION Discord
- Llama 3.1:Meta 的开源突破:Meta 最近推出了 Llama 3.1 405B,被誉为有史以来第一个开源的前沿 AI 模型,在各种基准测试中表现优于 GPT-4o 等竞争模型。欲了解更多见解,请查看这段 YouTube 视频,其中 Mark Zuckerberg 讨论了其影响。
- 这一反响突显了该模型对 AI 研究和开源贡献的潜在影响。
- 下载 LAION2B-en 元数据遇到困难:成员们报告在从 Hugging Face 查找和下载 LAION2B-en 元数据时遇到困难,并询问其他人是否面临同样的问题。回复表明这是对可访问性的普遍挫败感。
- 有人链接到了 LAION 维护说明,以进一步澄清情况。
- LAION 数据集处于法律悬而未决状态:讨论显示 LAION 数据集目前处于法律灰色地带,官方版本的访问受到限制。虽然有替代方案,但建议仅在紧急研究需求时使用非官方数据集。
- 成员们注意到了 AI 社区中围绕数据合法性的持续复杂性。
- YouTube 投票:一场怀旧辩论:一名成员分享了一个 YouTube 投票,询问哪部 90 年代的电影拥有最好的原声带,引发了观众的怀旧之情。这促使成员们反思他们最喜欢的那个时代的电影原声带。
- 该投票通过共同的文化体验激发了联系。
Alignment Lab AI Discord
- 关于 ML 数据集版权的法律明确性:一名成员指出,由 ML 模型生成的大多数数据集可能不具备版权,因为它们缺乏真正的创造力。他们强调,非 GPT-4 生成的内容可能属于 MIT licensing,尽管在当前的法律辩论中这一领域仍然模糊不清。
- 这开启了关于数据集策划中数据所有权和伦理准则影响的讨论。
- 探索非蒸馏数据识别:围绕在 ML 数据集中定位非蒸馏数据(non-distilled data)的方法展开了讨论,突显了对系统化数据管理的兴趣。
- 成员们寻求更清晰的方法论来增强数据集内容的组织,旨在提高 ML 项目中的可用性。
LLM Finetuning (Hamel + Dan) Discord
- 翻译模型的 DPO 实验:一位成员询问了使用 DPO 成功微调翻译模型的经验,并参考了 CPO 论文 的见解。他们强调 中等规模的 LLM 无法达到 SOTA 性能。
- “是否有人取得了更好的结果?” 凸显了社区对微调技术日益增长的兴趣。
- CPO 增强翻译输出:CPO 方法 针对监督微调的弱点,旨在提高机器翻译输出的质量。它将重点从仅“可接受”的翻译转向更高质量的结果,从而提升模型性能。
- 通过解决参考数据的质量问题,CPO 带来了显著的增强,特别是有效地解决了数据集利用不足的问题。
- ALMA-R 证明了竞争力:尽管仅在 2.2万个平行句子 和 12M 参数 上进行训练,应用 CPO 仍显著提升了 ALMA-R。该模型现在可以与传统的 encoder-decoder 架构相媲美。
- 这展示了即使在有限数据下优化 LLM 的潜力,引发了关于效率和扩展性的讨论。
- 8 月下旬的纽约技术聚会:成员们对 8 月下旬在纽约举行的技术聚会表现出浓厚兴趣,表达了线下交流的愿望。这一倡议有望促进更深层次的网络联系和协作机会。
- 围绕这次潜在聚会的讨论凸显了成员们渴望分享见解和经验的社区意识。
MLOps @Chipro Discord
- 通过 Feature Stores 提升 ML 效率:一场关于 利用 Feature Stores 的 直播会议 定于 2024 年 7 月 31 日上午 11:00 (EDT) 举行,面向 ML 工程师、数据科学家和 MLOps 专业人员。
- 本次会议将探讨 自动化流水线 (automated pipelines)、解决不可靠数据问题,并展示高级用例以增强 可扩展性 (scalability) 和 性能。
- 解决数据一致性挑战:网络研讨会将强调对齐 serving 和 training 数据 的重要性,以创建可扩展且可复现的 ML 模型。
- 讨论将重点关注 数据格式不一致 和特征重复等常见问题,旨在加强 ML 团队内部的协作。
- 加强特征治理实践:参与者将学习实施 特征治理和版本控制 (feature governance and versioning) 的有效技术,这对于管理 ML 生命周期至关重要。
- 与会者可以期待获得改进其 ML 流程和推进运营的见解和实用工具。
Mozilla AI Discord
- 加速器申请截止日期临近:加速器项目 的申请截止日期即将到来,该项目为期 12 周,为项目提供高达 100k 的非稀释性资金。
- 计划与 Mozilla 共同举行 Demo Day,鼓励成员在 此处 提出他们的 问题。
- 即将举行的两场精彩活动:提醒本月还有两场 即将举行的活动,将展示知名参与者的工作,为社区带来新鲜见解。
- 这些活动由两位成员发起,进一步增强了社区参与度。
- 深入的 Zero Shot Tokenizer Transfer 讨论:一场名为 Zero Shot Tokenizer Transfer 的会议将与 Benjamin Minixhofer 共同举行,旨在探索高级 Tokenizer 实现。
- 详细信息和参与链接可以在 此处 找到。
- AutoFix:开源问题修复工具发布:发布了关于 AutoFix 的公告,这是一个开源的问题修复工具,可以从 Sentry.io 提交 PR,从而简化开发者的工作流程。
- 有关该项目的更多信息可以在 此处 获取。
DiscoResearch Discord
- Llama3.1 论文:开源界的宝藏:Meta 发布的 Llama3.1 论文 被誉为对开源社区极具价值,引发了关于其深刻见解的讨论。
- 一位成员开玩笑说,它包含如此多的 alpha,以至于你必须像看最喜欢的电影一样反复阅读。
- 使用 15T Tokens 训练 405B 模型:论文透露,拥有 4050 亿参数 (405B) 的模型是使用 ~15 万亿 (15T) Tokens 训练的,这是通过外推其 Scaling laws 预测出来的。
- Scaling law 建议在 16.55T Tokens 上训练一个 402B 参数模型 以获得最佳结果。
- 关于网络拓扑的见解:论文中包含对其 24k H100 集群 所使用的网络拓扑 (Network Topology) 令人惊讶的详细描述。
- 帖子中分享的图片展示了其架构,体现了基础设施的规模。
- 由于服务器问题导致的训练中断:Llama3-405b 训练过程中的两次中断归因于 ‘服务器机箱 (Server Chassis)’ 故障,有人幽默地暗示这是由某人的失误造成的。
- 因此,在预训练期间由于这些故障损失了 148 个 H100 GPU。
- 关于幻觉预防基准测试的讨论:与 Meta 工程师的简短对话引发了对幻觉预防 (Hallucination Prevention) 技术需要更好基准测试 (Benchmarks) 的关注。
- 该成员分享道,任何其他从事此项工作的人都应该参与进一步的讨论。
LLM Perf Enthusiasts AI Discord 没有新消息。如果该服务器沉寂太久,请告知我们,我们将将其移除。
AI Stack Devs (Yoko Li) Discord 没有新消息。如果该服务器沉寂太久,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该服务器沉寂太久,请告知我们,我们将将其移除。
第 2 部分:频道详细摘要与链接
完整的频道细分内容已在邮件中截断。
如果你喜欢 AInews,请分享给朋友!预谢支持!