ainews-llama-32-on-device-1b3b-and-multimodal
Llama 3.2:1B/3B 端侧模型与 11B/90B 多模态模型(附带 AI2 Molmo 亮点)
Meta 发布了 Llama 3.2,其中包括基于冻结版 Llama 3.1 构建的 3B 和 20B 视觉适配器等新型多模态版本,其性能足以与 Claude Haiku 和 GPT-4o-mini 相媲美。与此同时,AI2 推出了多模态 Molmo 72B 和 7B 模型,在视觉任务上的表现优于 Llama 3.2。
Meta 还推出了具备 128k 上下文窗口的 1B 和 3B 模型,旨在与 Gemma 2 和 Phi 3.5 竞争,并暗示将与 高通 (Qualcomm)、联发科 (Mediatek) 和 Arm 展开合作,推动端侧 AI 的发展。此次发布的 Llama 1B 和 3B 模型训练数据量高达 9 万亿 token。
合作伙伴的同步发布包括 Ollama、提供免费 11B 模型访问权限的 Together AI 以及 Fireworks AI。此外,由 Weights & Biases、Cohere 和 Weaviate 联合推出的全新 RAG++ 课程,基于丰富的生产实践经验,为检索增强生成(RAG)系统提供了系统的评估和部署指导。
9000:1 的 token:param 比例就是你所需要的一切。
2024年9月24日至9月25日的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号 和 31 个 Discord 服务端(223 个频道,3218 条消息)。预计节省阅读时间(按每分钟 200 字计算):316 分钟。你现在可以艾特 @smol_ai 进行 AINews 讨论!
今天来自 Mira Murati 和 FB Reality Labs 的消息很大,但今天你可以真正使用的技术新闻是 Llama 3.2:

正如 Zuck 所预告以及在 Llama 3 论文中预览的那样(我们的报道在此),Llama 3.2 的多模态版本如期发布,在冻结的 Llama 3.1 基础上增加了 3B 和 20B 的视觉适配器(vision adapter):

11B 模型与 Claude Haiku 相当或略好,90B 模型与 GPT-4o-mini 相当或略好,尽管你可能需要更深入地挖掘才能发现它在 MMMU 上以 60.3 的得分落后于 4o、3.5 Sonnet、1.5 Pro 和 Qwen2-VL 多少。
Meta 因其开源行为受到称赞,但不要错过 AI2 今天同样发布的 Molmo 72B 和 7B 多模态模型。/r/localLlama 已经注意到 Molmo 在视觉方面的表现优于 3.2:

Meta 带来的更大、更令人愉悦且印象深刻的惊喜是全新的支持 128k 上下文的 1B 和 3B 模型,它们现在正与 Gemma 2 和 Phi 3.5 竞争:

发布说明暗示了与 Qualcomm、Mediatek 和 Arm 在设备端(on-device)进行的非常紧密的合作:
今天发布的权重基于 BFloat16 数值。我们的团队正在积极探索运行速度更快的量化变体,我们希望很快能分享更多相关信息。
不要错过:
- 发布博客文章
- 来自 @AIatMeta 的后续技术细节,披露了 Llama 1B 和 3B 的 9 万亿 token 数量,以及 Daniel Han 的快速架构分析
- 更新后的 HuggingFace 集合,包括 Evals
- Llama Stack 发布(参见 RFC 在此)
合作伙伴发布:
- Ollama
- Together AI(提供 免费 的 11B 模型访问,限速 5 rpm 直至年底)
- Fireworks AI
本期由 RAG++ 赞助:来自 Weights & Biases 的新课程。超越 RAG POC,学习如何进行系统评估、正确使用混合搜索,并让你的 RAG 系统具备工具调用(tool calling)能力。基于在生产环境中运行客服机器人 18 个月的经验,来自 Weights & Biases、Cohere 和 Weaviate 的行业专家将展示如何构建达到部署级别的 RAG 应用。包含来自 Cohere 的免费额度,助你开启旅程!
Swyx 评论:哇,2 小时内有 74 节课。我以前参与过这种剪辑非常紧凑的课程内容制作,这竟然是免费的,太令人惊讶了!第 1-2 章涵盖了一些必要的 RAG 基础知识,但随后很高兴看到第 3 章教授了重要的 ETL 和 IR 概念,并在第 4 和 5 章中学习了关于交叉编码(cross encoding)、排名融合(rank fusion)和查询转换(query translation)的新知识。我们很快会在直播中涵盖这些内容!
AI Twitter 摘要
所有摘要均由 Claude 3.5 Sonnet 完成,取 4 次运行中的最佳结果。
高级语音模式(Advanced Voice Mode)发布
- OpenAI 正在一周内向 ChatGPT Plus 和 Team 用户推行高级语音模式。
- @sama 宣布:“高级语音模式今天开始推出!(将在本周内完成)希望你们觉得这值得等待 🥺🫶”
- @miramurati 确认:“ChatGPT 中的所有 Plus 和 Team 用户”
- @gdb 指出:“Advanced Voice 正在广泛推出,实现了与 ChatGPT 流畅的语音对话。这让你意识到在电脑上打字是多么不自然:”
新的语音模型具有更低的延迟、打断长回答的能力,并支持通过记忆(memory)来实现个性化回答。它还包括了新的语音和改进的口音。
Google Gemini 1.5 Pro 与 Flash 更新
Google 宣布了其 Gemini 模型的重大更新:
- @GoogleDeepMind 推特表示:“今天,我们很高兴发布两个全新的、生产就绪的 Gemini 1.5 Pro 和 Flash 版本。🚢 它们基于我们最新的实验版本,并在长上下文理解、视觉和数学方面有显著改进。”
- @rohanpaul_ai 总结了关键改进:“MMLU-Pro 基准测试提升 7%,MATH 和 HiddenMath 提升 20%,视觉和代码任务提升 2-7%”
- Gemini 1.5 Pro 降价超过 50%
- 输出速度提升 2 倍,延迟降低 3 倍
- 提高速率限制:Flash 为 2,000 RPM,Pro 为 1,000 RPM
这些模型现在可以处理 1000 页的 PDF、1 万行以上的代码以及长达一小时的视频。为了提高效率,输出内容缩短了 5-20%,且开发者可以自定义安全过滤器。
AI 模型性能与基准测试
- OpenAI 的模型在各项基准测试中处于领先地位:
- @alexandr_wang 报告称:“OpenAI 的 o1 在 SEAL 排名中占据主导地位!🥇 o1-preview 在关键类别中领先:- Agentic Tool Use (Enterprise) 排名第 1 - 指令遵循(Instruction Following)排名第 1 - 西班牙语排名第 1 👑 o1-mini 在 Coding 领域领先”
- 不同模型之间的对比:
- @bindureddy 指出:“Gemini 的真正超能力——它比 o1 便宜 10 倍!如果你想体验,新的 Gemini 已在 ChatLLM 团队版上线。”
AI 开发与研究
- @alexandr_wang 讨论了 LLM 开发的阶段:“我们正在进入 LLM 开发的第 3 阶段。第 1 阶段是早期探索,从 Transformer 到 GPT-3;第 2 阶段是规模化(scaling);第 3 阶段是创新阶段:除了 o1 之外,还有哪些突破能让我们进入新的准 AGI(proto-AGI)范式。”
- @JayAlammar 分享了关于 LLM 概念的见解:“第一章为理解 LLM 铺平了道路,提供了相关概念的历史和概述。公众应该了解的一个核心概念是,语言模型不仅仅是文本生成器,它们还可以形成其他对解决问题有用的系统(embedding、分类)。”
AI 工具与应用
- @svpino 讨论了 AI 驱动的代码审查:“不受欢迎的观点:代码审查(Code reviews)很愚蠢,我迫不及待地想让 AI 完全接管。”
- @nerdai 分享了一个 ARC 任务求解器,允许人类与 LLM 协作:“利用便捷的 @llama_index Workflows,我们构建了一个 ARC 任务求解器,允许人类与 LLM 协作解决这些 ARC 任务。”
梗与幽默
- @AravSrinivas 开玩笑说:“我该发布一个壁纸 App 吗?”
- @swyx 幽默地评论了这一情况:“伙计们别吵了,mkbhd 只是把错误的 .IPA 文件上传到了 App Store。耐心点,他正在从头重新编译代码。与此同时,他私下给我发了一个真实 mkbhd app 的 TestFlight 链接。作为壁纸社区自封的傲罗(auror),我会调查并查明真相。”
AI Reddit 摘要
/r/LocalLlama 摘要
主题 1. 高速推理平台:Cerebras 与 MLX
- 刚刚获得了 Cerebras 的访问权限。每秒 2,000 个 token。 (Score: 99, Comments: 39):Cerebras 平台展示了令人印象深刻的推理速度,使用 Llama3.1-8B 模型达到了 每秒 2,010 个 token,使用 Llama3.1-70B 模型达到了 每秒 560 个 token。用户对这种性能表示惊讶,并表示他们仍在探索这种高速推理能力的潜在应用场景。
- 原帖确认,Cerebras 平台支持 JSON outputs。该平台的访问权限通过 注册和邀请系统 授予,用户可前往 inference.cerebras.ai。
- 讨论的潜在应用包括 Chain of Thought (CoT) + RAG 结合语音,可能创建一个能够实时提供专家级回答的 Siri/Google Voice 竞争对手。Cerebras 上的 语音 demo 可以在 cerebras.vercel.app 体验。
- 该平台被拿来与 Groq 进行比较,据报道 Cerebras 甚至更快。SambaNova APIs 被提作为一种替代方案,提供类似的推理速度(1500 tokens/second)且无需排队等待,同时用户也注意到了这种高速推理在实时应用和安全性方面的潜力。
- MLX 批量生成非常酷! (Score: 42, Comments: 15):MLX paraLLM 库使 Mistral-22b 的生成速度提升了 5.8 倍,在 Batch Size 为 31 时,速度从 每秒 17.3 个 token 增加到 101.4 tps。峰值内存占用从 12.66GB 增加到 17.01GB,每个额外的并发生成大约需要 150MB,作者成功在 64GB M1 Max 设备上运行了 22b-4bit 模型的 100 个并发 Batch,且未超过 41GB 的 Wired Memory。
- 能源效率测试显示,在低功耗模式下,Batch Size 为 100 时,Mistral-7b 为 每瓦 10 个 token,22b 为 每瓦 3.5 个 token。这种效率在每瓦单词数方面可与人类大脑的性能相媲美。
- 该库是 Apple-only 的,但对于 NVIDIA/CUDA,通过 vLLM、Aphrodite 和 MLC 等工具也存在类似的 Batching 能力,尽管设置过程可能更复杂。
- 虽然这项技术不适用于提高普通聊天场景的速度,但对于合成数据生成 (synthetic data generation) 和数据集蒸馏 (dataset distillation) 非常有价值。
主题 2. Qwen 2.5:在消费级硬件上的突破性性能
- Qwen2-VL-72B-Instruct-GPTQ-Int4 在 4x P100 上达到 24 tok/s (Score: 37, Comments: 52): Qwen2-VL-72B-Instruct-GPTQ-Int4 作为一个大型多模态模型,据报道在 4x P100 GPU 上的运行速度达到 每秒 24 tokens。该实现利用了 GPTQ quantization 和 Int4 precision,使得在显存有限的旧款 GPU 硬件上部署 720 亿参数 模型成为可能。
- DeltaSqueezer 提供了一个 GitHub 仓库和 Docker 命令,用于在 Pascal GPUs 上运行 Qwen2-VL-72B-Instruct-GPTQ-Int4。该配置包含对 P40 GPUs 的支持,但由于 FP16 处理,可能会遇到加载缓慢的问题。
- 该模型在测试政治图像时展示了合理的视觉和推理能力。文中提供了与 Pixtral 模型在同一图像上的输出对比,显示出类似的解释能力。
- 关于视频处理的讨论显示,7B VL 版本消耗大量 VRAM。该模型在 P100 GPUs 上的性能被指出比 3x 3090s 更快,因为 P100 的 HBM 与 3090 的内存带宽相当。
- Qwen 2.5 改变了游戏规则。 (Score: 524, Comments: 121): Qwen 2.5 72B 模型在双 RTX 3090s 上高效运行,其中 Q4_K_S (44GB) 版本达到约 16.7 T/s,Q4_0 (41GB) 版本达到约 18 T/s。该帖子包含了用于设置 Tailscale、Ollama 和 Open WebUI 的 Docker compose 配置,以及用于更新和下载多个 AI 模型的 bash 脚本,包括 Llama 3.1、Qwen 2.5、Gemma 2 和 Mistral 的变体。
- 设置中的 Tailscale 集成允许通过移动设备和 iPad 远程访问 OpenWebUI,从而能够通过浏览器随时随地使用 AI 模型。
- 用户讨论了模型性能,建议尝试由 lmdeploy 提供的 AWQ (4-bit quantization),以在 70B models 上获得潜在的更快性能。32B 和 7B 模型的对比显示,大模型在复杂任务上表现更好。
- 讨论中表达了对硬件需求的兴趣,原帖作者指出选择 双 RTX 3090s 是为了高效运行 70B models,预计 ROI 为 6 个月。此外还提出了关于在 Apple M1/M3 硬件上运行模型的问题。
主题 3. Gemini 1.5 Pro 002: Google 的最新模型令人印象深刻
- Gemini 1.5 Pro 002 展现出令人印象深刻的基准测试数据 (Score: 102, Comments: 42): Gemini 1.5 Pro 002 在各项基准测试中展现了令人印象深刻的性能。该模型在 MMLU 上达到了 97.8%,在 HumanEval 上达到了 90.0%,在 MATH 上达到了 82.6%,超越了之前的 SOTA 结果,并较其前代产品 Gemini 1.0 Pro 有了显著提升。
- Google 的 Gemini 1.5 Pro 002 带来了重大改进,包括价格降低 50% 以上、速率限制提高 2-3 倍,以及 2-3 倍的输出速度提升和更低的延迟。该模型在 MMLU (97.8%) 和 HumanEval (90.0%) 等基准测试中的表现令人印象深刻。
- 用户称赞了 Google 最近的进展,指出了他们研究论文的发表和 AI Studio 实验场。一些人将 Google 与其他 AI 公司进行了正面对比,其中 Meta 因其权重开放模型和详尽的论文而受到关注。
- 讨论中提到了 Gemini 的消费者版本,一些用户发现其能力不如竞争对手。关于更新后的模型何时向消费者开放的推测从几天内到最迟 10 月 8 日不等。
- 更新后的 Gemini 模型被声称是性价比最高的智能模型* (Score: 291, Comments: 184): Google 发布了 Gemini 1.5 Pro 002,声称它是每美元最智能的 AI 模型。该模型在各项基准测试中表现出显著改进,包括 MMLU 上的 90% 评分和 HumanEval 上的 93.2%,同时提供极具竞争力的定价:每 1k 输入 token 0.0025 美元,每 1k 输出 token 0.00875 美元。这些性能提升和极具成本效益的定价使 Gemini 1.5 Pro 002 成为 AI 模型市场中的强力竞争者。
- Mistral 每月免费提供 10 亿 token 的 Large v2,用户注意到其强劲的性能。这与 Google 对 Gemini 1.5 Pro 002 的定价策略形成对比。
- 用户批评了 Google 对 Gemini 模型的命名方案,建议采用基于日期的版本管理等替代方案。公告还透露了 API 用户将获得 2-3 倍的速率限制提升和更快的性能。
- 讨论强调了成本、性能和数据隐私之间的权衡。一些用户为了数据控制更倾向于自托管,而另一些用户则欣赏 Google 的免费层级和 AI Studio 提供的无限免费使用。
主题 4. Apple Silicon vs NVIDIA GPUs 在 LLM 推理方面的对比
- HF 发布 Hugging Chat Mac App - 免费运行 Qwen 2.5 72B、Command R+ 等模型! (Score: 54, Comments: 19):Hugging Face 发布了 Hugging Chat Mac App,允许用户在 Mac 上免费本地运行 Qwen 2.5 72B、Command R+、Phi 3.5 和 Mistral 12B 等最先进的开源语言模型。该应用包含 web search(网页搜索)和 code highlighting(代码高亮)等功能,并计划推出更多功能,还包含 Macintosh、404 和 Pixel pals 主题等隐藏彩蛋;用户可以从 GitHub 下载并为未来的改进提供反馈。
- 低上下文速度对比:Macbook、Mac Studios 和 RTX 4090 (Score: 33, Comments: 29):该帖子对比了 RTX 4090、M2 Max Macbook Pro、M1 Ultra Mac Studio 和 M2 Ultra Mac Studio 在运行 Llama 3.1 8b q8、Nemo 12b q8 和 Mistral Small 22b q6_K 模型时的性能。在所有测试中,RTX 4090 的表现始终优于 Mac 设备,M2 Ultra Mac Studio 通常位居第二,随后是 M1 Ultra Mac Studio 和 M2 Max Macbook Pro。作者指出,这些测试是在模型刚加载且未启用 flash attention 的情况下运行的,并对测试未实现确定性表示歉意。
- 用户建议在 RTX 4090 上使用 exllamav2 以获得更好的性能,一名用户报告在 RTX 3090 上运行 Llama 3.1 8b 的生成速度达到 104.81 T/s。一些人指出,与 gguf 模型相比,exl2 过去存在质量问题。
- 关于 Apple Silicon 的 prompt processing speed(提示词处理速度)的讨论,用户强调了由于缓存原因,初始 prompt 和后续 prompt 之间存在显著差异。M2 Ultra 处理 4000 个 token 需要 16.7 秒,而 RTX 4090 仅需 5.6 秒。
- 用户探讨了提高 Mac 性能的选项,包括启用 flash attention 以及在运行 Linux 的 Mac 上添加 GPU 进行 prompt 处理的理论可能性,尽管驱动支持仍然有限。
其他 AI Subreddit 回顾
r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity
AI 模型发布与改进
-
OpenAI 为 ChatGPT 发布高级语音模式:OpenAI 已经推出了 ChatGPT 的高级语音模式 (advanced voice mode),该模式支持更自然的对话,包括中断和继续思路的能力。用户反馈称其有显著改进,但在允许用户完成思考方面仍存在一些限制。
-
Google 更新 Gemini 模型:Google 宣布了 更新的可用于生产环境的 Gemini 模型,包括 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。此次更新包括降低价格、提高速率限制以及在各项基准测试中的性能提升。
-
新的 Flux 模型发布:Realistic Vision 的创建者 发布了一个名为 RealFlux 的 Flux 模型,可在 Civitai 上获取。用户指出它能产生不错的结果,但在面部特征方面仍存在一些局限性。
AI 能力与基准测试
-
Gemini 1.5 002 性能表现:报告显示 Gemini 1.5 002 在 MATH 基准测试中优于 OpenAI 的 o1-preview,且成本仅为 1/10,并且没有思考时间。
-
o1 的能力:一名 OpenAI 员工表示 o1 的表现能够达到顶尖博士生的水平,在某些任务中超过人类的比例超过 50%。然而,一些用户对这一说法表示质疑,指出与人类相比,o1 在学习和适应能力方面存在局限。
AI 开发工具与界面
- Invoke 5.0 更新:Invoke AI 工具迎来了重大更新,引入了带有图层的新 Canvas、Flux 支持和提示词模板。此次更新旨在为结合各种 AI 图像生成技术提供更强大的界面。
AI 对社会和工作的影响
-
职位取代预测:Vinod Khosla 预测 AI 将接管 80% 职业中 80% 的工作,引发了关于潜在经济影响和全民基本收入必要性的讨论。
-
AI 在执法领域的应用:一款新的 用于警察工作的 AI 工具 声称能在 30 小时内完成“81 年的侦探工作”,这既引发了对效率提高的兴奋,也引发了对潜在滥用的担忧。
新兴 AI 研究与应用
- MIT 疫苗技术:MIT 的研究人员开发了一种 新的疫苗技术,可能仅需两针即可消除 HIV,展示了 AI 加速医学突破的潜力。
AI Discord 回顾
由 O1-mini 生成的摘要之摘要
主题 1. 新 AI 模型发布与多模态增强
- Llama 3.2 发布,具备多模态和边缘计算能力:Llama 3.2 推出了多种模型规格,包括 1B, 3B, 11B 和 90B,支持多模态和 128K 上下文长度,并针对 移动和边缘设备 的部署进行了优化。
- Molmo 72B 在基准测试中超越竞争对手:来自 Allen Institute for AI 的 Molmo 72B 模型在 AI2D 和 ChatQA 等基准测试中优于 Llama 3.2 V 90B 等模型,以 Apache 许可证 提供 SOTA (州级) 性能。
- Hermes 3 在 HuggingChat 上增强了指令遵循能力:可在 HuggingChat 上使用的 Hermes 3 展示了改进的 指令遵循 (instruction adherence) 能力,与之前的版本相比,提供了更 准确且符合上下文 的回答。
主题 2. 模型性能、量化与优化
- MaskBit 与 MonoFormer 在图像生成领域的创新:MaskBit 模型在不使用 embeddings 的情况下,在 ImageNet 256 × 256 上实现了 1.52 的 FID,而 MonoFormer 统一了 autoregressive 文本和基于 diffusion 的图像生成,通过利用类似的训练方法达到了 state-of-the-art performance。
- 量化技术提升模型效率:关于 quantization vs distillation 的讨论揭示了每种方法的互补优势,在 Setfit 和 TorchAO 中的实现解决了 Llama 3.2 等模型的内存和计算优化问题。
- 提升性能的 GPU 优化策略:成员们探索了 TF32 和 float8 表示法以加速矩阵运算,并利用 Torch Profiler 和 Compute Sanitizer 等工具来识别和解决性能瓶颈。
主题 3. API 定价、集成与部署挑战
- 为开发者澄清 Cohere API 定价:开发者了解到,虽然 rate-limited Trial-Keys 是免费的,但转向 Production-Keys 会产生商业应用费用,强调了 API 使用需与项目预算保持一致。
- OpenAI 的 API 与数据访问审查:OpenAI 宣布限度开放用于审查目的的训练数据访问,托管在 secured server 上,这引发了工程界对 transparency 和 licensing compliance 的关注。
- 集成多个工具与平台:讨论了将 SillyTavern, Forge, Langtrace 和 Zapier 与各种 API 集成的挑战,突显了维护无缝 deployment pipelines 和 compatibility across tools 的复杂性。
主题 4. AI 安全、审查与许可问题
- 关于模型审查与去审查技术的辩论:社区成员讨论了 Phi-3.5 等模型的 over-censorship 问题,并致力于通过工具和在 Hugging Face 等平台上分享 uncensored versions 来实现模型的 uncensor。
- MetaAI 在欧盟的许可限制:MetaAI 在 EU 面临 licensing challenges,限制了对 Llama 3.2 等 multimodal models 的访问,并引发了关于遵守 regional laws 的讨论。
- OpenAI 的公司转型与团队离职潮:Mira Murati 及其他核心团队成员从 OpenAI 辞职,引发了对 organizational stability、corporate culture changes 以及对 AI model development 和 safety protocols 潜在影响的猜测。
主题 5. 硬件基础设施与 AI 的 GPU 优化
- 使用 Lambda Labs 获得高性价比的 GPU 访问:成员们讨论了以约 $2/hour 的价格利用 Lambda Labs 进行 GPU 访问,强调了其在运行 benchmarks 和 fine-tuning models 方面的灵活性,且无需高昂的前期成本。
- 排除 Run Pod 上的 CUDA 错误:用户在 Run Pod 等平台上遇到 illegal CUDA memory access errors,解决方案包括 switching machines、updating drivers 以及修改 CUDA code 以防止内存溢出。
- 在边缘设备上部署多模态模型:讨论了将 Llama 3.2 模型集成到 GroqCloud 等 edge platforms 中,强调了 optimized inference kernels 和 minimal latency 对于实时 AI 应用的重要性。
第 1 部分:Discord 高层摘要
Unsloth AI (Daniel Han) Discord
- Llama 3.2 发布并带来新特性: Llama 3.2 已经发布,推出了新的文本模型(1B 和 3B)以及视觉模型(11B 和 90B),支持 128K Context length 并处理了 9 trillion Tokens。
- 该版本带来了对 GGUF 和 BNB 等 Quantization 格式的支持,增强了其在各种场景中的应用。
- 模型使用成本效益对比: 讨论集中在小型模型是否能在保证质量的同时节省成本,一位成员提到他们尽管有支出,但创建了一个价值 $15-20k 的数据集。
- 矛盾的观点引发了关于 GPU 成本 是否最终比订阅 APIs 更经济的辩论,特别是在 Token 消耗巨大的情况下。
- Llama 模型 Fine-tuning 咨询: 成员们对 在本地 Fine-tuning Llama 3.1 感兴趣,并推荐了为此过程量身定制的 Unsloth 工具和脚本。
- 对 Llama Vision 模型支持的期待日益增高,预示着未来增强功能的路线图。
- OpenAI 的反馈流程受到审查: 参与者讨论了 OpenAI 通过 Reinforcement Learning from Human Feedback (RLHF) 进行改进的方法,寻求实现细节的澄清。
- 对话强调了其反馈机制的模糊性,指出了流程透明度的必要性。
- 高 Token 使用量引发关注: 据报道,密集的 AI 流水线每次生成平均消耗 10-15M Tokens,这强调了资深开发者所理解的复杂性。
- 一位成员对同行对其硬件设置的误解表示沮丧。
HuggingFace Discord
- Hugging Face 模型发布提供更好支持: Hugging Face 最近的公告包括 Mistral Small (22B) 和 Qwen models 的更新(已开放探索),以及用于 ML 应用开发的 Gradio 5 新特性。
- FinePersonas-v0.1 的发布引入了 2100 万个用于合成数据生成的 Personas,同时 Hugging Face 与 Google Cloud’s Vertex AI 的深度集成增强了 AI 开发者的可访问性。
- Llama 3.2 提供 Multimodal 能力: 新发布的 Llama 3.2 拥有 Multimodal 支持,模型能够处理文本和图像数据,并包含高达 128k Token Context length。
- 这些模型专为移动端和边缘设备部署而设计,促进了多样化的应用场景,有可能彻底改变本地 Inferencing 性能。
- 训练主题聚类面临的挑战: 成员们在聚合合理数量的主题进行训练时遇到了困难,且不希望进行过多的手动合并,因此将重点转向 Zero-shot 系统作为解决方案。
- 讨论围绕使用灵活的主题管理技术来简化生产流程展开。
- 对 Diffusion Models 的见解: 使用 Google Colab 运行 Diffusion Models 的有效性引发了讨论,特别是关于在使用免费层级时的模型性能标准。
- 成员们讨论了 Flux 作为一个强大的开源 Diffusion Model,并提出了 SDXL Lightning 等替代方案,以便在不牺牲太多质量的情况下实现更快的图像生成。
- 探索 Fine-tuning 和优化技术: Fine-tuning Token embeddings 的技术和其他优化是核心话题,重点是在集成新添加的 Embeddings 时保持预先存在的 Token 功能。
- 还讨论了由于内存限制导致的 Setfit 序列化 问题,强调了在训练阶段进行更好 Checkpoint 管理的策略。
Nous Research AI Discord
- Hermes 3 在 HuggingChat 上线:最新发布的 Hermes 3 8B 版本现已在 HuggingChat 可用,展示了改进的指令遵循能力。
- Hermes 3 显著增强了其遵循指令的能力,承诺比之前的版本提供更准确且更具上下文相关性的响应。
- Llama 3.2 性能见解:包含多个尺寸的 Llama 3.2 发布引发了关于其性能的讨论,特别是与 Llama 1B 和 3B 等较小模型相比。
- 用户注意到了特定的能力和局限性,包括改进的代码生成能力,引发了广泛的好奇心。
- 讨论样本打包技术:一场关于训练小型 GPT-2 模型的 sample packing 讨论引发了对如果执行不当可能导致性能下降的担忧。
- 一位参与者强调,尽管在理论上有好处,但简单的实现可能会导致次优结果。
- MIMO 框架彻底改变视频合成:MIMO 框架 提出了一种基于简单用户输入合成具有可控属性的逼真人物视频的方法。
- MIMO 旨在克服现有 3D 方法的局限性,并增强视频合成任务的可扩展性和交互性。
- 寻求职位推荐系统研究:一位成员详细说明了他们在寻找与构建 resume ATS 生成器和职位推荐系统相关的优质研究时面临的挑战。
- 寻求建议以有效地在广泛的现有文献中导航。
aider (Paul Gauthier) Discord
- Llama 3.2 发布:Meta 在 Meta Connect 期间宣布发布 Llama 3.2,其特点是包含中小型视觉 LLM 以及适用于边缘和移动设备的轻量级模型。
- 正如在最新模型进展背景下所讨论的,这些模型旨在提高资源有限的开发者的可访问性。
- Aider 面临功能挑战:用户报告了 Aider 的局限性,特别是缺乏内置翻译和文档索引不足,推动了对潜在增强功能的讨论。
- 想法包括加入语音反馈和自动文档搜索,以改善用户体验。
- 切换 LLM 以获得更好性能:报告显示,用户正在从 Claude Sonnet 3.5 切换到 Gemini Pro 1.5 等模型,以提高代码理解和性能。
- 使用 Aider 的基准测试套件进行模型性能跟踪被认为是确保准确结果的关键。
- 本地向量数据库探索:一场围绕本地向量数据库的讨论显示了对 Chroma、Qdrant 和 PostgreSQL 向量扩展以高效处理复杂数据的兴趣。
- 虽然 SQLite 可以管理向量数据库任务,但专门的数据库被认为更适合处理沉重的负载。
- 介绍 par_scrape 工具:一位成员在 GitHub 上展示了 par_scrape 工具,作为一种高效的网络爬虫解决方案,因其与替代方案相比的能力而受到称赞。
- 它的利用可以显著简化社区的爬虫任务。
OpenRouter (Alex Atallah) Discord
- OpenRouter 数据库升级计划:数据库升级定于东部时间周五上午 10 点进行,届时将有 5-10 分钟的简短停机。用户应为潜在的服务中断做好准备。
- 此次升级旨在提高整体系统性能,与最近的 API 更改保持一致。
- API 输出增强功能发布:OpenRouter 现在在 completion response 中包含 provider,以提高数据检索的清晰度。
- 这一更改旨在简化信息处理并增强用户体验。
- Gemini 模型路由升级:Gemini-1.5-flash 和 Gemini-1.5-pro 已重新路由以使用最新的 002 version,从而获得更好的性能。
- 鼓励社区测试这些更新的模型,以衡量它们在各种应用中的效率。
- Llama 3.2 发布引发期待:即将发布的 Llama 3.2 包含较小的模型,以便更容易地集成到移动和边缘部署中。
- 关于 OpenRouter 是否会托管新模型的咨询引发了开发者的兴奋。
- 本地服务器支持面临限制:由于受限的外部访问阻碍了协助能力,对本地服务器的支持仍然是一个挑战。
- 如果端点满足特定的 OpenAI-style schema 要求,未来的 API 支持可能会扩展,从而为合作打开大门。
OpenAI Discord
- 高级语音模式 (Advanced Voice Mode) 分发引发的不满:成员们对 Advanced Voice mode 的有限推送感到沮丧,特别是在欧盟地区,尽管官方宣布已全面开放,但访问权限仍然受限。
- 他们指出欧盟用户面临功能延迟已成趋势,并提到了之前的记忆功能 (memory functionality) 等先例。
- Meta AI 在欧盟面临许可限制:会议澄清,由于多模态模型 (multimodal models) 受到严格的许可规则限制,Meta AI 目前无法供欧盟和英国用户使用,这直接与 Llama 3.2 的许可问题挂钩。
- 成员们注意到 Llama 3.2 虽然提升了多模态能力,但仍受困于这些复杂的许可问题。
- 论文评分需要更严格的反馈:讨论集中在如何对论文提供诚实的反馈,强调了模型往往倾向于给出过于温和的评价。
- 成员们建议使用详细的评分标准 (rubrics) 和示例,但也指出模型固有的正向强化倾向使这一问题变得复杂。
- 优化 Minecraft API 提示词 (Prompts):成员们提出了增强 Minecraft API 提示词的策略,旨在通过改变主题和复杂度来减少重复查询。
- 针对如何引导 AI 执行结构化的响应格式并避免重复提问,大家表达了关注。
- 处理复杂任务时的挣扎:用户表达了对 GPT 处理复杂任务能力的沮丧,提到在处理写书请求时,往往需要长时间等待却只能得到极少的产出。
- 一些人建议使用 Claude 和 o1-preview 等替代模型,认为得益于更长的记忆窗口 (memory windows),这些模型的能力更强。
LM Studio Discord
- Llama 3.2 发布引发热潮:近期发布的 Llama 3.2(包括 1B 和 3B 模型)因其在各种硬件配置上的表现而引起了广泛关注。
- 用户特别渴望获得对 11B 多模态模型的支持,但由于视觉集成方面的复杂性,其可用性可能会推迟。
- 与 SillyTavern 的集成问题:用户在使用 LM Studio 时遇到了 SillyTavern 的集成问题,主要涉及服务器通信和响应生成。
- 故障排除建议指出,任务输入可能需要更加具体,而不是依赖自由格式的文本提示词。
- 对多模态模型能力的关注:虽然 Llama 3.2 包含视觉模型,但用户要求拥有类似 GPT-4 的真正多模态能力,以实现更广泛的用途。
- 会议澄清 11B 模型仅限于视觉任务,目前缺乏语音或视频功能。
- 价格差异引起不满:用户分享了对欧盟地区科技产品价格更高的沮丧,其价格有时可能是美国的两倍。
- 许多人强调 VAT(增值税)是导致这些差异的重要因素。
- 对 RTX 3090 TPS 的预期:关于 RTX 3090 的讨论强调,在 Q4 8B 模型上预期的 每秒事务数 (TPS) 约为 60-70 TPS。
- 澄清了该指标主要用于推理训练 (inference training),而非简单的查询处理。
Eleuther Discord
- yt-dlp 成为必备工具:一名成员重点推荐了 yt-dlp,展示了它作为一个强大的音频/视频下载器的功能,虽然引发了对恶意软件的担忧,但确认了来源的安全性。
- 该工具可以简化开发者的内容下载流程,但由于潜在的安全风险,评估其在工程师中的使用情况至关重要。
- PyTorch 训练属性 Bug 引发挫败感:讨论了 PyTorch 中的一个已知 Bug,即执行
.eval()或.train()时无法更新torch.compile()模块的.training属性,详见 此 GitHub issue。- 成员们对该问题缺乏透明度表示失望,同时集思广益探讨了变通方案,例如修改
mod.compile()。
- 成员们对该问题缺乏透明度表示失望,同时集思广益探讨了变通方案,例如修改
- 需要本地 LLM 基准测试工具:针对本地 LLM 测试的开源基准测试套件的推荐请求指向了 MMLU 和 GSM8K 等成熟指标,并提到了用于评估模型的 lm-evaluation-harness。
- 这一需求强调了 AI 社区需要全面的评估框架来验证本地模型的性能。
- 关于众包数据的 NAIV3 技术报告:发布的 NAIV3 技术报告 包含一个拥有 600 万 张众包图像的数据集,重点关注打标签实践和图像管理。
- 讨论围绕在文档中加入幽默感展开,表明了对技术报告风格偏好的分歧。
- BERT 掩码率显示对性能的影响:对 BERT 模型高掩码率的调查显示,掩码率超过 15%(特别是高达 40%)可以提升性能,这表明在大型模型中具有显著优势。
- 这意味着可能需要重新评估训练方法,以整合近期关于掩码策略研究的发现。
Perplexity AI Discord
- Perplexity AI 在上下文保留方面表现不佳:用户对 Perplexity AI 无法保留后续问题的上下文表示沮丧,这一趋势近期有所恶化。一些成员注意到平台性能下降,影响了其效用。
- 针对可能影响 Perplexity 能力的潜在财务问题提出了担忧,引发了关于可行替代方案的讨论。
- Merlin.ai 提供带联网功能的 O1:Merlin.ai 被推荐作为 Perplexity 的替代方案,因为它提供带联网功能的 O1 能力,允许用户绕过每日消息限制。参与者表现出探索 Merlin 扩展功能的兴趣。
- 讨论强调了用户认为 Merlin 比 Perplexity 更具功能性,这可能会重塑他们的工具选择。
- Wolfram Alpha 与 Perplexity API 的集成:一位用户询问是否可以像在 Web 端那样在 Perplexity API 中使用 Wolfram Alpha,得到的确认是目前无法实现。强调了 API 与 Web 界面的独立性。
- 进一步询问了 API 在解决数学和科学问题方面是否能像 Web 界面一样高效,但未得到确切答案。
- 用户评价用于教育的 AI 工具:许多用户分享了他们使用各种 AI 工具 完成学术任务的观点,在替代方案中,偏好在 GPT-4o 和 Claude 之间摇摆。反馈表明,不同的 AI 工具对学校相关需求提供的协助程度各不相同。
- 这一交流凸显了 AI 在教育环境中的重要作用,并强调了用户体验如何塑造这些偏好。
- 评估空气炸锅:值得吗?:一位用户分享了一个讨论 空气炸锅是否值得购买 的链接,重点关注其健康益处与传统油炸方法的对比以及烹饪效率。对话包含了消费者对该设备实用性的各种观点。
- 讨论的核心结论集中在空气炸锅积极的烹饪属性,以及对其与传统方法相比实际健康益处的怀疑。
Interconnects (Nathan Lambert) Discord
- Anthropic 目标年营收达 10 亿美元:据 CNBC 报道,Anthropic 预计今年营收将突破 10 亿美元,实现令人惊叹的 1000% 同比增长。
- 营收来源包括 60-75% 来自第三方 API,15% 来自 Claude 订阅,这标志着公司业务的重大转变。
- OpenAI 提供训练数据访问权限:在一次显著的转变中,OpenAI 宣布将允许访问其 训练数据进行审查,以应对涉及受版权保护作品的使用问题。
- 这种访问权限仅限于 OpenAI 旧金山办公室的一台安全计算机,在社区中引发了不同的反应。
- Molmo 模型超出预期:Molmo 模型 引发了热烈讨论,有说法称其 pointing feature 可能比更高的 AIME 分数更具意义,并在与 Llama 3.2 V 90B 的基准测试对比中获得了积极评价。
- 评论指出 Molmo 在 AI2D 和 ChatQA 等指标上表现出色,展示了其相对于竞争对手的强劲性能。
- Curriculum Learning 提升 RL 效率:研究表明,实施 curriculum learning 可以通过利用先前的演示数据来实现更好的探索,从而显著提升 Reinforcement Learning (RL) 的效率。
- 该方法包括一种极具创意的 reverse and forward curriculum 策略,与 DeepMind 类似的 Demostart 相比,突显了机器人在收益和挑战方面的并存。
- Llama 3.2 发布引发社区热议:Llama 3.2 已正式发布,包含 1B, 3B, 11B 和 90B 等多种模型尺寸,旨在增强文本和多模态能力。
- 最初的反应交织着兴奋与对其成熟度的怀疑,关于未来改进和更新的暗示进一步推动了讨论。
GPU MODE Discord
- 探索将 SAM2-fast 与 Diffusion Transformers 结合:成员们讨论了在 Diffusion Transformer Policy 中使用 SAM2-fast,将摄像头传感器数据映射到机械臂位置,并建议在此用例中使用 图像/视频分割。
- 对话强调了通过先进的 ML 技术将快速传感器数据处理与机器人控制相结合的潜力。
- Torch Profiler 的文件大小问题:Torch profiler 生成的文件体积过大(高达 7GB),引发了关于仅对必要项进行分析并导出为 .json.gz 以进行压缩的建议。
- 成员们强调了高效的分析策略,以保持文件大小可控并确保性能追踪的可用性。
- RoPE Cache 应始终保持 FP32:关于 Torchao Llama 模型中 RoPE cache 的讨论指出,为了保证准确性,应始终采用 FP32 格式。
- 成员们指出了 模型代码库 中的特定代码行以进一步澄清。
- Lambda Labs 高性价比的 GPU 访问:使用 Lambda Labs 获取 GPU 访问权限(价格约为 $2/小时)被强调为运行基准测试和微调的灵活选择。
- 用户分享了关于无缝 SSH 访问和按需付费结构的体验,这使其对许多 ML 应用具有吸引力。
- Metal Atomics 需要原子加载/存储:为了实现工作组(workgroups)之间的消息传递,一位成员建议在 Metal Atomics 操作中使用 atomic bytes 数组。
- 强调了结合原子操作和非原子加载的高效标志位(flag)使用,以改进数据处理。
OpenAccess AI Collective (axolotl) Discord
- Run Pod 问题令用户沮丧:用户报告在 Run Pod 上遇到 illegal CUDA errors,一些人建议通过更换机器来解决此问题。
- 一位用户幽默地建议不要使用 Run Pod,因为问题频发,并强调了其中的挫败感。
- Molmo 72B 成为焦点:由 Allen Institute for AI 开发的 Molmo 72B 拥有最先进的基准测试表现,并基于图像-文本对的 PixMo 数据集构建。
- 该模型采用 Apache licensed,旨在与包括 GPT-4o 在内的领先多模态模型竞争。
- OpenAI 领导层变动震惊社区:OpenAI CTO 的辞职是一个引人注目的时刻,引发了对组织未来方向的猜测。
- 成员们讨论了对 OpenAI 战略的潜在影响,暗示了有趣的内部动态。
- Llama 3.2 发布令人兴奋:Llama 3.2 的推出引入了适用于边缘设备的轻量级模型,引发了关于 1B 到 90B 不同规模的热议。
- 多个来源确认了分阶段发布,人们对新模型的性能验证感到兴奋。
- Meta 的欧盟合规困境:对话揭示了 Meta 在欧盟法规方面的挣扎,导致欧洲用户的访问受限。
- 讨论提到了可能影响模型可用性的许可证变更,引发了对公司动机的辩论。
Cohere Discord
- Cohere API Key 定价说明:成员们强调了用于免费使用的 rate-limited Trial-Key,但指出商业应用需要会产生费用的 Production-Key。
- 这强调了在规划 API key 资源时需要仔细考虑预期用途。
- 测试递归迭代模型假设:一位用户提出疑问,如果在多个 LLM 中获得相似的结果,是否意味着他们的 Recursive Iterative model 运行正常。
- 建议包括针对基准测试进行进一步评估,以确保结果可靠。
- 新 RAG 课程发布:宣布了与 Weights&Biases 合作制作的新 RAG course,在 2 小时内涵盖评估和流水线。
- 参与者可获得 Cohere credits,并可在课程期间向 Cohere 团队成员提问。
- 令人兴奋的智能望远镜项目:一位成员分享了他们对 智能望远镜支架 项目的热情,该项目旨在自动定位 Messier catalog 中的 110 个物体。
- 社区提供了支持,鼓励为该项目进行协作和资源共享。
- Cohere Cookbook 现已上线:Cohere Cookbook 被强调为包含有效使用 Cohere 生成式 AI 平台指南的资源。
- 成员们被引导去探索针对其 AI 项目需求的特定章节,包括 embedding 和语义搜索。
LlamaIndex Discord
- LlamaParse 欺诈警报:发布了关于欺诈网站 llamaparse dot cloud 的警告,该网站试图冒充 LlamaIndex 产品;官方 LlamaParse 可通过 cloud.llamaindex.ai 访问。
- 对冒充合法服务并给用户带来风险的诈骗行为保持警惕。
- AWS Gen AI Loft 的精彩演讲:LlamaIndex 的开发者将在 2024 年 3 月 21 日的 AWS Gen AI Loft(与 ElasticON 会议同期举行)分享关于 RAG 和 Agent 的见解 (来源)。
- 与会者将了解 Fiber AI 如何将 Elasticsearch 集成到高性能 B2B 拓客中。
- Pixtral 12B 模型发布:来自 @MistralAI 的 Pixtral 12B 模型 现已与 LlamaIndex 集成,在涉及图表和图像理解的多模态任务中表现出色 (来源)。
- 该模型在与同类尺寸模型的对比中展示了令人印象深刻的性能。
- 加入 LlamaIndex 团队!:LlamaIndex 正在为其旧金山团队积极招聘工程师;职位涵盖从全栈到专业角色的各种岗位 (链接)。
- 团队寻求渴望从事 ML/AI 技术工作的热心人士。
- 关于 VectorStoreIndex 使用的澄清:用户讨论了如何使用
VectorStoreIndex正确访问底层向量存储,特别是通过index.vector_store。针对 SimpleVectorStore 的局限性进行了澄清,并引发了关于替代存储方案的讨论。- 对话强调了可调用方法和属性的技术层面,有助于更好地理解 Python 装饰器。
Latent Space Discord
- Gemini 定价巩固竞争地位:近期 Gemini Pro 的降价与其基于 Elo 分数的对数线性定价曲线一致,优化了其针对其他模型的竞争策略。
- 随着价格调整,OpenAI 继续主导高端市场,而 Gemini Pro 和 Flash 则在类似“iPhone vs Android”的生动框架中占据了较低层级。
- Anthropic 达到营收里程碑:根据 CNBC 的报告,Anthropic 今年有望实现 10 亿美元 的营收,同比增长高达 1000%。
- 营收细分显示其严重依赖第三方 API 销售(贡献了 60-75% 的收入),API 和聊天机器人订阅也发挥了关键作用。
- Llama 3.2 模型增强边缘能力:Llama 3.2 的发布引入了针对边缘设备优化的轻量级模型,配置包括 1B, 3B, 11B 和 90B 视觉模型。
- 这些新产品强调了多模态能力,鼓励开发者通过开源访问探索增强的功能。
- Mira Murati 告别 OpenAI:在社区分享的告别信中,Mira Murati 从 OpenAI 离职引发了对其任职期间重大贡献的回顾讨论。
- Sam Altman 认可了她所经历的情感历程,强调了她在面临挑战时为团队提供的支持。
- Meta 的 Orion 眼镜原型首次亮相:经过近十年的开发,Meta 揭晓了其 Orion AR 眼镜原型,尽管最初存在质疑,但这标志着重大进步。
- 该眼镜旨在通过内部使用来优化用户体验,具有宽广的视野和轻量化的特性,为最终的消费者发布做准备。
Stability.ai (Stable Diffusion) Discord
- Basicsr 安装困扰简化处理:为了解决 Forge 中 ComfyUI 的问题,用户应在激活虚拟环境后,进入 Forge 文件夹并运行
pip install basicsr。- 关于安装过程存在越来越多的困惑,一些用户希望扩展在安装后能以标签页的形式出现。
- 界面之争:ComfyUI vs Forge:成员们分享了他们的偏好,其中一位表示,与 ComfyUI 相比,他们发现 Invoke 使用起来要容易得多。
- 许多人选择继续忠于 ComfyUI,原因是 Forge 内部的版本过旧且存在兼容性问题。
- 3D 模型生成器:哪些好用?:对 3D 模型生成器 的咨询揭示了 TripoSR 的问题,暗示许多开源工具似乎已失效。
- 尽管对 Luma Genie 和 Hyperhuman 的功能仍持高度怀疑态度,但人们对其表现出了兴趣。
- 在没有 GPU 的情况下运行 Stable Diffusion:对于那些希望在没有 GPU 的情况下运行 Stable Diffusion 的用户,使用 Google Colab 或 Kaggle 可以提供免费的 GPU 资源访问。
- 大家一致认为,这些平台是初学者接触 Stable Diffusion 的绝佳起点。
- 玩转 ControlNet OpenPose:成员们学习了如何使用 ControlNet OpenPose 预处理器在平台内生成和编辑预览图像。
- 探索这一功能显然令人兴奋,它允许对生成的输出进行详细调整。
Torchtune Discord
- Llama 3.2 发布,支持多模态功能:Llama 3.2 的发布引入了支持长上下文的 1B 和 3B 文本模型,允许用户在长上下文数据集上尝试
enable_activation_offloading=True。- 此外,11B 多模态模型支持 The Cauldron 数据集和自定义多模态数据集,以增强生成能力。
- 对绿卡的渴望:一位成员幽默地表达了对绿卡的极度渴望,暗示由于目前的处境,他们可能会让欧洲的生活变得艰难。
- “为了换取绿卡,我不会告诉任何人” 突显了他们的沮丧和谈判意愿。
- 为 FP32 用户考虑 TF32:围绕为仍在使用 FP32 的用户启用 TF32 选项展开了讨论,因为它可以加速矩阵乘法 (matmul)。
- 观点认为,如果已经在使用 FP16/BF16,TF32 可能不会带来额外好处,一位成员幽默地指出:“我想知道谁会放着 FP16/BF16 不用而更倾向于它”。
- 关于 KV-cache 切换的 RFC 提案:一项关于 KV-cache 切换的 RFC 已被提出,旨在改进模型前向传播 (forward passes) 期间缓存的处理方式。
- 该提案解决了目前缓存总是被不必要更新的限制,引发了关于必要性和可用性的进一步讨论。
- 关于处理 Tensor 尺寸的建议:有人询问除了使用 Tensor item() 方法之外,如何改进对 Tensor 尺寸的处理。
- 一位成员承认需要更好的解决方案,并承诺会进一步思考。
Modular (Mojo 🔥) Discord
- MOToMGP 错误调查:一位用户询问关于“failed to run the MOToMGP pass manager”的错误,寻求复现案例以改进相关的错误提示信息。
- 社区成员被鼓励分享与此特定问题相关的见解或经验。
- 为 MAX 优化调整 Linux 机器配置:一位成员询问在运行带有 ollama3.1 的 MAX 时如何调整 Linux 机器的配置,开启了关于最佳配置的讨论。
- 成员们贡献了关于资源分配的技巧以增强性能。
- GitHub Discussions 转移:由于参与度较低,Mojo GitHub Discussions 将于 9 月 26 日禁用新评论,以将社区互动集中在 Discord 上。
- 此举旨在简化讨论流程,并反思了将过去的讨论转换为 Issue 的低效性。
- Mojo 与 C 的通信速度:参与者想知道 Mojo 与 C 的通信是否比与 Python 更快,并指出这可能取决于具体的实现。
- 大家一致认为,Python 与 C 的交互会根据上下文而有所不同。
- Evan 实现关联别名 (Associated Aliases):Evan 正在 Mojo 中推出关联别名,允许使用类似于所提供示例的 traits 和类型别名 (type aliases),这令社区感到兴奋。
- 成员们认为该功能有望改进代码的组织结构和清晰度。
OpenInterpreter Discord
- 对 o1 Preview 和 Mini API 的兴奋感:成员们对接入 o1 Preview 和 Mini API 表示兴奋,并思考其在 Lite LLM 中的能力以及通过 Open Interpreter 获得的响应。
- 一位成员幽默地提到,尽管缺乏 tier 5 访问权限,他们仍渴望对其进行测试。
- Llama 3.2 发布轻量级边缘模型:Meta 的 Llama 3.2 已经发布,推出了用于边缘侧的 1B & 3B 模型,并针对 Arm、MediaTek 和 Qualcomm 进行了优化。
- 开发者可以通过 Meta 和 Hugging Face 获取这些模型,其中 11B & 90B vision models 旨在与闭源模型竞争。
- Tool Use 剧集涵盖开源 AI:最新的 Tool Use 剧集 讨论了开源编程工具以及围绕 AI 的基础设施。
- 该剧集聚焦于社区驱动的创新,与频道内之前分享的想法产生了共鸣。
- Llama 3.2 现已在 GroqCloud 上线:Groq 宣布在 GroqCloud 中提供 Llama 3.2 预览版,通过其基础设施增强了开发者的可访问性。
- 成员们注意到了对 Groq 速度的积极反馈,并评论道任何与 Groq 相关的东西运行速度都极快。
- Logo 设计选择引发讨论:一位成员分享了他们的 Logo 设计历程,指出虽然他们考虑过 GitHub 的 Logo,但觉得目前的选择更胜一筹。
- 另一位成员轻松地对他们设计选择的力量发表了评论,为讨论增添了幽默感。
LLM Agents (Berkeley MOOC) Discord
- Gemini 1.5 展示了强劲的基准测试结果:Gemini 1.5 Flash 在 2024 年 9 月达到了 67.3% 的分数,而 Gemini 1.5 Pro 的表现更佳,达到 85.4%,标志着性能的重大提升。
- 这一进步突显了模型在各种数据集上能力的持续增强。
- MMLU-Pro 数据集发布:新的 MMLU-Pro 数据集包含来自 57 个学科 的问题,难度有所增加,旨在有效地挑战模型评估。
- 这个更新的数据集对于评估模型在 STEM 和人文科学等复杂领域的表现至关重要。
- 质疑 Chain of Thought (CoT) 的实用性:最近一项包含 300 多次实验 的研究表明,Chain of Thought (CoT) 仅对数学和符号推理有益,在大多数任务中的表现与直接回答相似。
- 分析表明,对于 95% 的 MMLU 任务,CoT 是不必要的,应将重点重新转向其在符号计算方面的优势。
- AutoGen 在研究中证明了其价值:研究强调了 AutoGen 的使用日益增长,反映了其在当前 AI 领域的相关性。
- 这一趋势指向了自动化模型生成的重大发展,影响了性能和研究进展。
- Quiz 3 详情已公布:关于 Quiz 3 的询问引导成员确认其可在课程网站的教学大纲(syllabus)部分找到。
- 强调定期检查教学大纲更新,以便及时了解评估安排。
DSPy Discord
- DSPy 发布酷炫新功能!:本周 Langtrace 上推出了针对 DSPy 的新功能,包括受 MLFlow 启发的新项目类型和自动实验追踪。
- 这些功能包括自动 Checkpoint 状态追踪、评估分数趋势线 (eval score trendlines) 以及对 litellm 的支持。
- 文本分类瞄准欺诈检测:用户正在使用 DSPy 将文本分类为三种欺诈类型,并寻求关于最佳 Claude 模型的建议。
- 讨论指出 Sonnet 3.5 是领先模型,而 Haiku 提供了一个高性价比的替代方案。
- DSPy 作为用户查询的编排器:一名成员正在探索将 DSPy 作为将用户查询路由到子 Agent 的工具,并评估其直接交互能力。
- 对话涵盖了集成工具的潜力,并质疑了 Memory 与独立对话历史 (standalone conversation history) 相比的有效性。
- 澄清文本分类中的复杂类别:成员们讨论了在将文本分类为复杂类别(特别是包括美国政治 (US politics) 和国际政治 (International Politics))时,需要精确的定义。
- 一位成员指出,这些定义在很大程度上取决于业务上下文,强调了需要细致处理的方法。
- 分类任务协作教程:正在进行的讨论恰逢一位成员正在编写关于分类任务的教程,旨在提高清晰度。
- 这标志着在提高分类领域理解方面所做的努力。
tinygrad (George Hotz) Discord
- Tinygrad 贡献的基本资源:一位成员分享了一系列关于 tinygrad 的教程,涵盖了内部原理,以帮助新贡献者掌握该框架。
- 他们强调 快速入门指南 (quickstart guide) 和 抽象指南 (abstraction guide) 是入门的首选资源。
- Tinygrad 训练循环太慢:一位用户在开发字符模型时抱怨 tinygrad 0.9.2 版本中的训练速度缓慢,形容其“慢得离谱 (slow as balls)”。
- 他们租用了一块 4090 GPU 来提升性能,但报告称改进微乎其微。
- 采样代码中的 Bug 影响输出质量:该用户在最初将训练缓慢归咎于通用性能问题后,发现其采样代码 (sampling code) 中存在 Bug。
- 他们澄清问题专门源于采样实现,而非训练代码,这影响了模型推理 (Inference) 的质量。
- 通过代码高效学习:成员们建议通过阅读代码并让产生的问题引导在 tinygrad 中的学习。
- 使用 ChatGPT 等工具可以辅助排查问题并促进高效的反馈循环。
- 使用 DEBUG 了解 Tinygrad 的流程:一位成员建议在执行简单操作时使用
DEBUG=4,以查看生成的代码并理解 tinygrad 中的流程。- 这种技术提供了对框架内部运作机制的实用见解。
LangChain AI Discord
- 寻求开源聊天 UI:一名成员正在寻找专门为编程任务定制的开源 UI 聊天界面,并寻求社区对可用选项的见解。
- 讨论中欢迎分享部署类似系统的经验,以帮助优化选择。
- 点赞/点踩反馈机制:成员们正在探索为聊天机器人实现点赞/点踩评价选项,其中一人分享了他们排除 Streamlit 的自定义前端方案。
- 这反映了通过反馈系统增强用户参与度的共同兴趣。
- Azure Chat OpenAI 集成细节:一位开发者透露了他们集成 Azure Chat OpenAI 以实现聊天机器人功能的细节,并强调其是类似项目的可行平台。
- 他们鼓励其他人就此集成的想法和挑战进行交流。
- 构建 Agentic RAG 应用的经验:一位用户详细介绍了他们使用 LangGraph、Ollama 和 Streamlit 开发 agentic RAG 应用的过程,旨在检索相关的研究数据。
- 他们通过 Lightning Studios 成功部署了解决方案,并在 LinkedIn 帖子中分享了过程心得。
- 使用 Lightning Studios 进行实验:开发者利用 Lightning Studios 进行高效的应用部署,并对其 Streamlit 应用进行实验,优化了技术栈。
- 这强调了该平台在增强不同工具应用性能方面的能力。
LAION Discord
- GANs、CNNs 和 ViTs 作为顶级图像算法:成员们注意到 GANs、CNNs 和 ViTs 经常在图像任务的顶级算法中交替领先,并请求一个视觉时间线来展示这一演变过程。
- 对时间线的兴趣凸显了在图像处理算法领域对历史背景的需求。
- MaskBit 彻底改变图像生成:关于 MaskBit 的论文介绍了一种无嵌入(embedding-free)模型,该模型通过 bit tokens 生成图像,在 ImageNet 256 × 256 上达到了 1.52 的 SOTA FID。
- 这项工作还增强了对 VQGANs 的理解,创建了一个提高可访问性并揭示新细节的模型。
- MonoFormer 融合了自回归和扩散:MonoFormer 论文提出了一种统一的 Transformer,用于自回归文本和基于扩散的图像生成,性能达到了 SOTA 水平。
- 这是通过利用训练相似性实现的,主要区别在于所使用的 attention masks。
- 滑动窗口注意力(Sliding window attention)仍依赖位置编码:成员们讨论到,虽然滑动窗口注意力带来了优势,但它仍然依赖于位置编码机制。
- 这一讨论强调了在模型效率和保留位置感知之间持续的平衡。
Alignment Lab AI Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
Mozilla AI Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间没有动静,请告知我们,我们将将其移除。
第 2 部分:按频道划分的详细摘要和链接
完整的逐频道详情已在邮件中截断。
如果您喜欢 AInews,请分享给朋友!提前感谢!