ainews-gemma-2-tops-rlocalllama-vibe-check
Gemma 2 登顶 /r/LocalLlama 的口碑评测 (vibe check)。
Gemma 2 (9B, 27B) 被公认为表现卓越的本地大语言模型(LLM),因其运行速度快、多语言能力强以及在 2080ti 等消费级 GPU 上的高效表现而备受赞誉。它在包括非英语文本处理和推理在内的各项任务中,表现均优于 Llama 3 和 Mistral 7B 等模型。/r/LocalLlama 社区的讨论反映出用户对 Gemma 2 的强烈偏好,其被提及 18 次,而 Llama 3 为 10 次,Mistral 为 9 次。Phi 3 和 Qwen 等其他模型虽然也被提及,但被认为已被 Gemma 2 超越。此外,Andrej Karpathy 宣布成立 Eureka Labs,这是一家“AI+教育”初创公司,旨在创建一所配备 AI 助教的 AI 原生学校,并首先推出 LLM101n 课程来教授 AI 训练的基础知识。这一举措被视为 AI 教育领域的重大进展。
Gemma 2 (9b, 27B) 就是你所需的一切?
2024年7月16日至7月17日的 AI 新闻。我们为你查看了 7 个 subreddits、384 个 Twitter 账号 和 29 个 Discord 服务(468 个频道,2051 条消息)。预计节省阅读时间(以 200wpm 计算):232 分钟。你现在可以在 AINews 讨论中标记 @smol_ai!
每隔几个月,总有人在 /r/LocalLlama 提出一个引起热议的“氛围检查(vibe check)”问题(2024年3月、2024年6月 以及官方的 模型大贴(Models Megathread) 是之前的几次)。

最近一个关于 同尺寸下最好的模型有哪些? 的提问成为了重新审视排名的契机。上个月发布的 Gemma 2(我们的报道在此)即使在没有 2B 模型的情况下也轻松胜出:
- Gemma 2: 18 次提及
- “同尺寸下我运行过的最好的 LLM 之一。”
- “9B 在对哲学文本进行摘要和推理方面的表现也让我印象深刻,其英语概念组合相当连贯。”
- “我们在 Agent 工作流中获得了非常好的性能,允许 LLM 每次专注于一个任务。”
- “同感。在我的 2080ti 上运行 Gemma 2 9b,非常流畅且结果很好。我非常想要一个能像 Perplexity 或 Kagi FastGPT 那样快速提供来源链接的本地 LLM,因为那个功能太强大了。”
- “如果你问我的话,Gemma 2 9b 比 Llama 8b 好得多。”
- “Gemma 2 9b 是唯一一个既超快,又能在任何任务中击败 3.5 的模型。而且在同尺寸模型中,它的法语表现真的很好。非常适合 Discord 机器人。如果你卸载大部分层,你可以得到一个运行足够快且仅占用 3 或 4GB VRAM 的 Discord 机器人,这样你就有空间运行 Stable Diffusion 之类的东西了!真的不可思议。结合 Moondream 1b 进行视觉处理,瞧,你就拥有了一个能很好遵循 Prompt 和写作风格、并能“看到”聊天中图片的通晓多国语言的机器人。总共只需约 5GB VRAM。”
- “在处理非英语文本时,Gemma 9B 甚至远优于 Llama 70B。”
- “我尝试使用 Gemma 2 9b Instruct 进行合成数据生成(从段落中推导问题和答案),但它 90% 的时间都拒绝配合……这给我留下了很坏的印象。”
- Llama 3: 10 次提及
- “Llama 3 70B 和 Qwen 72B 是 70B 左右级别 LLM 的首选。”
- Mistral: 9 次提及
- “对我来说是 Mistral 7B。不是 MoE 版本,我没有运行它的硬件。”
- “我喜欢 Mistral 7B (v03) Instruct。恕我直言,它甚至无法与 Gemma 9B 相比,即使是后者的较小量化版本。但 Mistral v03 比 Gemma 9B 早出很久。”
- “Mistral-Instruct v0.3 7b。我喜欢这个模型。即使 Gemma 8b 和 Phi Medium 看起来更好。此外 WizardLM2(与 Mistral 非常相似且基于它)也很棒……试试看。”
- Phi 3: 6 次提及
- Qwen: 5 次提及
- “刚出来时很不错,但已被 Gemma 和 Phi-3 取代。”
其他正面评价:DeepSeek, Cohere Command R, InternLLM, Yi 34B (Nous-Capybara 版本)
Meta 说明:我们现在在 Reddit 摘要中将 /r/localLlama 独立出来,因为其他 subreddits 往往会淹没技术讨论。请享用!
AI Twitter 摘要
所有摘要均由 Claude 3.5 Sonnet 完成,从 4 次运行中选取最佳结果。
Andrej Karpathy 的新 AI+教育公司 Eureka Labs
- @karpathy 宣布他正在创办一家名为 Eureka Labs 的 AI+教育公司,旨在建立一所 AI 原生学校。其目标是让任何人都能轻松学习任何知识,由 AI 助教(AI Teaching Assistants)辅助人类教师。他们的第一个产品将是 LLM101n,这是一门关于训练你自己的 AI 的本科级课程。课程材料将免费提供,收入将来自线上/线下的训练营(cohorts)。
- @DrJimFan 指出,没有人比 Andrej 更适合做教育科技(EdTech),该领域的其他 AI 初创公司无法与之竞争。他很高兴两人都喜欢 “Eureka” 这个名字。
- @danielhanchen 对 LLM101n 课程感到兴奋,课程章节涵盖了 bigrams、attention、transformers、optimization、datasets、inference、fine-tuning 和 deployment。他提到 Andrej 的课程材料(如 CS231n 和 Zero to Hero)都是无价之宝。
新模型发布
- @GuillaumeLample 宣布以 Apache 2 许可证发布 Mathstral 7B 和 Codestral Mamba 7B。Mathstral 7B 在 MATH 测试集上获得了 56.6% 的 pass@1,表现优于 Minerva 540B 20% 以上。Codestral Mamba 是首批采用 Mamba 2 架构的开源模型之一,是目前最出色的 7B 代码模型。
- @LoubnaBenAllal1 介绍了 SmolLM,这是一系列 135M、360M 和 1.7B 的模型,性能超越了 MobileLLM、Phi1.5 和 Qwen2 的小型模型。该系列模型在 SmolLM-corpus(由高质量网页、代码和合成数据组成)上进行训练。
- @AnthropicAI 发布了 Claude Android 应用,现已在 Google Play 上架。
关于模型架构和训练数据的讨论
- @YiTayML 开始了一个关于 LLM 时代模型架构的博客系列,涵盖了 Transformer Encoders/Decoders、PrefixLM 和 denoising objectives 等主题。回应了关于 encoder-only 模型现状以及 denoising objectives 是否仍然有用的问题。
- @jxmnop 认为目前 AI 领域最具影响力的主题是 Agents。我们需要在下一代语言模型中构建自主代理能力(agent-native LLMs),而不是通过 prompting 来伪造。这将需要新的数据集、任务定义和训练技术。
- @Teknium1 认为合成数据也是真实数据,如果超越了教师模型,就不一定会导致模式崩塌(mode collapse)或在之前的 SOTA 水平停滞不前。
其他值得关注的更新
- @alexandr_wang 分享了 @scale_AI 自从在地下室创业以来已经走过了很长一段路,现在搬进了新办公室。
- @fchollet 分享了一份讲解详尽的 Transformer 架构指南,并附带 Keras 代码示例。
- @llama_index 在新版本中大幅改进了基于 markdown 的表格重建功能,用于解析复杂文档。
AI Reddit 摘要
/r/LocalLlama
主题 1:Mistral AI 和 Apple 发布的新模型
- mistralai/mamba-codestral-7B-v0.1 · Hugging Face (Score: 216, Comments: 72): Mistral AI 发布了 Mamba-Codestral-7B 模型,这是一个基于 Mamba architecture 的 7 billion parameter 代码生成模型。该模型可在 Hugging Face 上获取,专为高效推理而设计,能够生成多种编程语言的代码,包括 Python、JavaScript、Java、C++ 和 Rust。该模型在 Python 代码生成任务中的表现尤为出色,超越了像 StarCoder-15B 这样更大的模型。
- Apple has released the weights for their 7B DCLM base model. (Score: 181, Comments: 48): Apple 揭晓 DCLM-Baseline-7B 模型。这个 7 billion parameter 的语言模型在 2.5T tokens 上进行了训练,具有 2048 token 的 context length,基于 DCLM-Baseline dataset,旨在展示系统化数据整理对模型性能的影响。一个具有 8K context length 的更新版本也已发布,并提供了 Hugging Face repository、研究论文 和 相关 GitHub project 的链接。
- Apple 的开源模型惊喜:Apple 发布开源模型受到了社区的赞扬。用户对 DCLM (Data-Centric Language Model) 方法可能带来的见解感到兴奋,认为这是迈向更 open-source AI development 的一步。
- Context Length 困惑:关于 2048 token context length 的意义引发了讨论。用户争论这与 Llama 3 等其他模型相比如何,强调了不同 LLM 之间 tokenization 方法的差异。
- Benchmarks 和许可问题:社区成员询问新模型的 performance benchmarks。关于 “Apple ASCL” license 的问题也随之出现,用户将其与 MIT license 进行比较,并寻求对其开源状态的澄清。
Theme 2. Llama 3 Performance and Limitations
- This meme only runs on an H100 (Score: 230, Comments: 42): “这个梗只能在 H100 上运行” 幽默地夸大了现代 AI 模型的高计算需求。这个笑话利用了 NVIDIA H100 GPU 是目前最强大且最受追捧的用于 AI 训练和推理的图形处理单元这一事实,它常用于大型语言模型和其他计算密集型 AI 任务。
- I gave Llama 3 a 450 line task and it responded with “Good Luck” (Score: 383, Comments: 46): Llama 3 在长指令测试中失败。当被给予一个 450 行的任务时,Llama 3 以简单的 “Good Luck” 作为回应,而不是尝试处理或执行这组冗长的指令。这种行为表明 Llama 3 在有效处理极长或复杂 prompts 方面可能存在局限性。
- “Good Luck” 还是好的 AI? 模型的反应可能是由于类似考试的措辞。添加 “Output:” 或 “Answer:” 可能会产生不同的结果,突显了 text completion 与 comprehension 之间的区别。
- AI 那令人感同身受的懒惰:一个早期的开源模型在回应代码请求时说:“这听起来像是很多工作”,展示了对复杂任务类似人类的抵触。
- Context 至关重要:Ollama 中默认的 context length 为 2048,可能截断了冗长的指令。将其增加到 8096 可能会使其能够处理完整的 450 行任务。
Theme 3. Comparing Model Performance by Size
- 按规模划分,哪些是最佳模型? (Score: 60, Comments: 46):按规模划分的最佳推理模型:该帖子寻求关于相对于其规模而言最“智能”的语言模型的意见,重点关注纯粹的推理能力和脱离训练数据的解决问题能力。作者特别询问了关于各种规模(3B、4B、7B 及更大)模型的个人使用体验,而不是依赖排行榜排名。
- Gemma 2 大放异彩:Gemma 2 9B 和 27B 模型因其相对于规模的性能而受到广泛赞誉。用户强调了它们的推理能力和多语言能力,一些人将其与 GPT-3.5 级别的性能进行比较。
- 规模很重要,但并非绝对:讨论包括了对各种模型规模的建议,从 Phi-3 4B 到 Llama 3 70B 和 Qwen 72B。用户争论了模型规模、性能和硬件要求之间的权衡。
- 在低端系统上进行测试:一位用户分享了正在进行的实验,在包括没有 GPU 的第四代 i7 处理器在内的旧硬件上运行从 4B 到 112B 的模型。结果预计将于 9 月中旬在帕萨迪纳举行的 Technosecurity conference 上展示。
主题 4:关于 AI 炒作与长期潜力的辩论
- Linux Torvalds (Score: 77, Comments: 40):Linux Torvalds,Linux kernel 的创建者,在最近的一次采访中对当前的 AI 炒作表示怀疑。他认为,虽然 AI 在图像识别和语言模型等特定领域取得了显著进展,但它仍然缺乏通用智能,主要擅长模式匹配而非真正的理解。Torvalds 认为当前的 AI 热潮很大程度上是由营销驱动的,并警告不要高估 AI 的能力。
- 评论者将 AI 炒作与互联网泡沫进行了类比,暗示这是一个过度炒作、估值过低并最终产生改变世界影响的循环。一些人认为,尽管短期内存在夸大,但 AI 的长期潜力被显著低估了。
- 随后引发了关于 Large Language Models (LLMs) 能力的辩论,一些人声称它们可以取代 30% 的工人,而另一些人则认为,与人类相比,LLMs 在许多任务中是不可靠且不可预测的。
- 评论者幽默地利用了 Linus Torvalds 名字的拼写错误,开玩笑地将他与“Tim Apple”、“Bill ‘Michaelsoft’ Gates”和“Linus Tech Tips”联系起来,展示了社区与技术名人之间的趣味互动。
跨越 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity
评论抓取现在可以工作了,但还有很多需要改进的地方!
主题 1:Llama 3 的性能与局限性
-
[/r/LocalLLaMA] 这个梗图只能在 H100 上运行 (Score: 230, Comments: 42):“这个梗图只能在 H100 上运行”幽默地强调了现代 AI 模型极高的计算需求。这个笑话利用了这样一个想法:即使是像显示梗图这样简单的任务,也可能需要 NVIDIA 的 H100 GPU,这是专为 AI 和 machine learning 工作负载设计的最强大且最昂贵的显卡之一。
- [/r/LocalLLaMA] 我给 Llama 3 布置了一个 450 行的任务,它回复了“祝你好运” (Score: 383, Comments: 46): Llama 3 在面对一个 450 行的任务时遇到了困难,它没有尝试完成任务,而是简单地回复了“祝你好运”。这种出乎意料的反应凸显了该模型在处理复杂、冗长 prompt 或任务时的潜在局限性,并引发了对其在大型代码编写或文本生成任务中实际应用能力的质疑。
- “祝你好运”可能与考试有关:短语“Your Task is (…)”可能会触发类似考试的反应。添加“Output:”或“Answer:”可能会产生不同的结果,这突显了文本补全与理解之间的区别。
- AI 模型也会偷懒:一个早期的开源模型在面对代码请求时回复道:“这听起来工作量很大”,展示了 AI 响应中类人的抵触情绪。
- 技术限制:问题可能源于使用了 base model 而非 instruct model。原帖作者确认使用的是 8b-instruct-q6_K,这表明还有其他因素在起作用。
- 上下文长度很重要:Ollama 默认的上下文长度为 2048,可能截断了冗长的指令。将其增加到 8096 可能会允许处理完整的指令。
- [/r/singularity] 许多人根本无法想象技术会进步 (Score: 354, Comments: 105): 对 AI 快速进展的怀疑:该帖子强调了人们普遍无法预见快速的技术进步,特别是在 AI 领域。作者引用了历史案例,例如 1903 年莱特兄弟的首次飞行到 1969 年的登月,以此说明技术进步并超越最初预期的速度之快。
- 驳斥对 AI 快速进展的怀疑:《工程杂志》(Engineering Magazine) 在 1909 年 12 月曾预测飞行器的潜力有限,然而不到 40 年后,Enola Gay 就已投入使用。这突显了技术进步如何超越预期。
- 飞行汽车:现实 vs. 想象:虽然 2000 年出现飞行汽车的预测落空了,但如今直升机和一些不切实际的飞行汽车原型确实存在。有人认为,AI 自动驾驶仪对于安全、广泛地采用飞行汽车是必要的。
- 移动的 AGI 时间线:就在 3-4 年前,2045 年还被认为是实现 AGI 的乐观估计。现在,它被视为悲观估计。2023 年对 2278 名 AI 研究人员的一项调查估计,到 2047 年,AI 在所有任务中超越人类的可能性为 50%。
- 经济价值驱动 AI 进步:与已进入平台期的智能手机改进不同,AI 的进步提供了巨大的经济价值。企业愿意为能超越人类员工的 AI 支付巨额费用,从而推动了快速进展。
- 人类在理解指数增长方面的局限性:许多人,包括开发者和企业家,尽管意识到趋势,但仍难以预测和规划指数级的技术增长。
Theme 3. AI 图像与视频生成
-
[/r/StableDiffusion] LivePortrait 的首次测试 (Score: 226, Comments: 26): LivePortrait 测试:一位用户尝试使用 LivePortrait AI 工具从静态图像生成视频。结果被描述为“相当不错”,AI 成功地让图像动了起来,并使嘴唇动作与提供的音频匹配,尽管在嘴部区域可以观察到一些明显的伪影。
-
[/r/singularity] 名人们与年轻时的自己在一起 (Score: 887, Comments: 137): AI 生成的图像描绘了名人们与年轻时的自己互动的场景,展示了先进图像合成技术的能力。这些视觉效果将现在的外貌与历史照片融合在一起,创造出无缝且逼真的合成图,突显了知名人士的老化过程和职业演变。这些图像展示了 AI 在创造富有想象力和怀旧色彩的视觉内容方面的潜力,同时也引发了关于数字媒体真实性和操纵性的问题。
-
[/r/StableDiffusion] 瓶中水下世界 (Score: 323, Comments: 7): 使用 AI 创建的瓶中水下场景动画。艺术家使用 Midjourney 生成初始图像,然后利用 Stable Diffusion 和 ControlNet 进行 inpainting 和动画制作,最终在玻璃瓶中呈现出动态的水下场景。
- 原作者分享细节:艺术家透露了 ComfyUI 工作流,包括使用 RunwayML 进行 masking、AnimateDiff 制作动画,以及使用来自 Lexica 的参考图配合 IPAdapter。
- ControlNet 组合:该技术采用了 depth 和 Canny ControlNet,并结合 Reborn model 和 LCM Lora 以实现更快的 sampling。
- 快速且高效:动画仅通过 11 steps 和 cfg 2 创建,并使用 LCM sampler 进行快速生成。
主题 4. 新 AI 模型发布与架构
- [/r/LocalLLaMA] mistralai/mamba-codestral-7B-v0.1 · Hugging Face (Score: 216, Comments: 72): Mistral AI 发布了 Mamba-Codestral-7B,这是一个基于 Mamba architecture 的新型 7 billion parameter 语言模型。该模型可在 Hugging Face 上获取,专为 code generation 任务设计,并在代码和自然语言数据的混合体上进行了训练。此次发布标志着将以处理长序列效率著称的 Mamba architecture 应用于 code generation 领域迈出了重要一步。
-
[/r/singularity] [Google DeepMind] Mixture of A Million Experts。Daniel Jeffries:“降低了 inference cost 和 memory usage,可扩展至 millions of experts,而且恰好克服了 catastrophic forgetting 并使模型的 lifelong learning 成为可能。” (Score: 381, Comments: 82): Google DeepMind 推出了 Mixture of A Million Experts (MoME) 模型,据报道该模型在扩展到 millions of experts 的同时,降低了 inference cost 和 memory usage。根据 Daniel Jeffries 的说法,该模型还解决了 catastrophic forgetting 的挑战,并使 AI 系统的 lifelong learning 成为可能。MoME 方法代表了 AI 模型架构的重大进步,有望提供更高效、适应性更强的系统。
- [/r/LocalLLaMA] 我给 Llama 3 布置了一个 450 行的任务,它回了一句“祝你好运” (Score: 383, Comments: 46): Llama 3 对复杂任务的意外回应。当面对一个 450-line task 时,据报道 Llama 3 并没有尝试完成它,而是简单地回复了一句“祝你好运”。这一轶事表明 Llama 3 在处理极长或复杂的 prompt 时可能存在局限性,引发了人们对其在处理大型任务时与其他 AI 模型相比性能如何的疑问。
- Prompt Engineering 很重要:在 prompt 中添加 “Output:” 或 “Answer:” 可能会 显著改变 Llama 3 的回复。这突显了正确的 prompt formatting 的重要性,以及 text completion 与 comprehension 之间的区别。
- Context Length 限制:Ollama 中的默认 context length 为 2048 tokens,这可能会截断冗长的指令。将其增加到 8096 tokens 可能会让 Llama 3 处理完整的 450 行任务。
- 模型变体影响性能:所使用的具体模型是 llama3:8b-instruct-q6_K。一些用户认为这种行为在 base model 中比在 instruct-tuned version 中更常见。
- AI 模仿人类行为:几位用户幽默地指出,Llama 3 回复“祝你好运”或“这听起来工作量很大”反映了人类对复杂任务的典型反应,并开玩笑说这展示了类人智能。
主题 5. AI 监管与公众认知
-
[/r/singularity] 特朗普的新副手 Vance 谈 AI 监管 (Score: 212, Comments: 418): J.D. Vance,Donald Trump 的潜在副总统人选,表达了对 AI 监管的担忧。在最近的一次采访中,Vance 强调需要采取一种“强硬的(muscular)” AI 治理方法,并暗示当前的监管框架不足以应对 AI 技术的快速进步。他强调了维持美国技术霸权的重要性,同时也要防范与 AI 发展相关的潜在风险。
-
[/r/singularity] 学生们,安息吧(RIP students) (Score: 434, Comments: 158): “学生们,安息吧”:AI 对教育的影响可能是变革性的。该帖子标题对 AI 给学生带来的影响持悲观态度,可能暗示由于教育领域 AI 的进步,传统的学生角色或学习方法可能会过时或发生重大改变。
-
[/r/singularity] 许多人根本无法想象技术会持续进步 (Score: 354, Comments: 105): “尽管 AI 取得进步,技术怀疑论依然存在”:尽管技术飞速发展,许多人仍难以想象技术进步,尤其是在 AI 领域。这种怀疑态度延伸到了就业市场,即使 AI 的能力在各行各业不断扩展,一些人仍然怀疑 AI 显著影响就业的潜力。
- “飞行汽车”辩论引发关注:评论者讨论了 1909 年《工程杂志》(Engineering Magazine) 对飞行器的预测,指出直升机基本上实现了这一角色。一些人认为,AI 自动驾驶(autopilot) 对于 3D 空间中飞行汽车的安全至关重要。
- AI 时间线加速令专家震惊:许多人对 AGI 预测时间的剧烈变化表示惊讶。此前,2045 年被认为是实现 AGI 的乐观估计;而现在它被视为悲观估计。最近的调查显示,到 2047 年,AI 在所有任务中超越人类的可能性为 50%。
- 技术进步:飞速发展 vs. 平台期:讨论对比了技术飞速进步的时期与平台期,并以智能手机为例。对于 AI,评论者强调了自 GPT-4 以来持续的快速改进,以及 AI 进步在各行各业中的高经济价值。
- 指数级增长挑战人类理解力:多条评论指出,包括专家在内的许多人都难以理解或预见指数级的技术增长。这种难以想象未来能力的情况导致了对 AI 对就业和社会潜在影响的怀疑。
AI Discord 摘要
摘要之摘要的摘要
1. AI 模型开发与部署的进展
- Codestral Mamba 引起轰动:Mistral AI 发布了 Codestral Mamba,这是一款专注于代码生产力的新模型,提供 linear time inference(线性时间推理)并具备建模无限长度序列的能力。
- 该模型在 Albert Gu 和 Tri Dao 的帮助下设计,可免费使用、修改和分发,因其在高级代码推理和快速响应方面的潜力而引发了社区的热情。
- SciCode 设定了新的 Benchmark 门槛:SciCode benchmark 正式发布,包含 338 个由物理、数学和生物学博士编写的编程挑战,其中一些基于诺贝尔奖获奖研究。
- 这一新 benchmark 对当前的 AI 模型构成了挑战,GPT-4 和 Sonnet 3.5 的准确率不足 5%,凸显了当前 AI 能力与高级科学问题解决之间的差距。
- SmolLM 将 AI 带入浏览器:HuggingFace 推出了 SmolLM models(135M、360M、1.7B 参数),旨在通过 ONNX 权重和 WebGPU 加速在浏览器中本地运行。
- 这些模型代表了使 AI 在 Web 环境中更易于访问和更具性能的重要一步,可能为客户端 AI 应用开辟新的可能性。
2. AI 基础设施的挑战与创新
- SF Compute 融资 1200 万美元助力 GPU 交易:SF Compute 筹集了 1200 万美元用于开发大规模 GPU 集群的交易平台,允许预订大量 GPU 资源并出售闲置部分。
- 该倡议旨在解决 AI 研发中日益增长的 GPU 计算能力需求,可能使高性能计算对更广泛的组织而言更易获得且更高效。
- LAION 的网络安全警钟:LAION 社区被一个复杂的黑客组织盯上,该组织创建了一个伪装成名为 ComfyUI_LLMVISION 的 ComfyUI 节点的恶意软件,旨在窃取信息并安装木马。
- 这一事件凸显了 AI 社区日益增加的网络安全风险,特别是考虑到该组织曾有过入侵 Disney 的 Slack 等备受瞩目的攻击历史。
- Mojo 在 Intel 芯片上的性能难题:Modular Discord 中的讨论透露,Mojo 的
parallelize函数在同时具有性能核和能效核的 Intel 芯片上仅利用性能核。- 这一设计决策源于在不同核心类型之间高效分配工作的挑战,引发了关于异构计算环境中最佳资源利用的辩论。
3. DeepSeek V2 模型发布
- DeepSeek 的引导出现偏差:@davidkpiano 分享了一个关于云端状态机的链接,引发了关于 DeepSeek-Coder V2-Lite 问题 的讨论,即该模型不遵循 Prompt 并提供不稳定的答案。
- @dimfeld 指出禁用 flash attention 并未解决问题,暗示 LM Studio updates 可能破坏了对 DeepSeek-Coder V2-Lite 的支持。
- Deepseek 坚持开源路线:Deepseek 创始人梁文锋 在一次采访中表达了对开源的奉献精神,认为这对于构建强大的技术格局至关重要,尽管人们对中国 AI 的步伐感到担忧。
- 尽管 Deepseek 利润微薄,梁文锋的决心依然坚定,他强调在考虑闭源选项之前,首先建立强大的技术生态系统非常重要。
4. 新的多模态 Benchmark
- InternVL2-Llama3-76B 视觉:InternVL2-Llama3-76B 在多模态学习方面取得了飞跃,通过参数量从 1B 到 108B 的指令微调模型突破了界限。
- 用户表达了在 4x 3090 GPUs 上运行 40B 大模型 的挫败感,主要涉及使用 autoawq 进行优化的问题。
- SciCode 的 STEM 博士级升级:SciCode 通过科学问题编程的 benchmark 树立了新先例,其中包含向诺贝尔奖获得者致敬的内容,这难倒了 GPT-4 和 Sonnet 3.5 等巨头,其准确率低于 5%。深入了解。
- 由博士专家组成的 SciCode benchmark 挑战涵盖 338 个问题,揭示了不同的科学领域。此处获取见解。
第一部分:高层级 Discord 摘要
HuggingFace Discord
- CUDA 困境与 VRAM 探索:技术讨论集中在 CUDA 错误,包括训练期间的非法内存访问,目前尚无明确解决方案。
- 对于 大模型的 VRAM 管理(如 phi-3-mini),提出了 flash attn2 和 RAG 重构等技术来应对 OOM 场景。
- 数学标注的重要性日益增加:关于是否需要 数学数据标注 以增强高级模型训练的讨论引发了对当前数据集中数学标注作用和现状的新研究。
- 与此同时,社区寻求关于 在 Next.js 上实现 Stable Diffusion 的建议,引导使用 diffusers.js 及其他学习资源。
- 事物的形状:生成式 3D 学习:通过对表示挑战的回顾,展示了深度学习在 3D 形状生成 方面的潜力,强调了 GANs 和形式表示方面的进展。
- 时间序列预测 准确性的提升得到了证实,NBEATSx 比其前身提高了 20%,特别是在电价预测方面表现显著。
- 将 AI 创意转化为工具:一位名为 Rose 的 AI Vtuber 通过 YouTube 直播 寻求社区测试,同时推出了一款利用 Groq API 的 whisper-large-v3 模型的 快速字幕制作工具。
- 对于 Mac 爱好者,适用于 Apple Silicon 的 Phi-3 Vision 首次亮相,承诺提供优化后的性能,同时还推出了 YouTube 视频转录工具 以辅助内容创作者。
- 论文实现与 ConvNet 编年史:针对寻求适合通过实现来学习的基础论文的请求,社区建议探索 self-attention 和隐式表示。
- 在其他地方,探讨了 Inception 模型 过去在使用中间特征方面的声望,以及目前对 ResNet 的依赖。
Unsloth AI (Daniel Han) Discord
- Unsloth AI Beta 热议:爱好者们讨论了在 NDAs 协议下的 Unsloth AI beta 测试、多 GPU 支持 的浮动许可,并推测了即将推出的功能。
- 评论指出免费版缺乏多 GPU 支持,而订阅版正在开发中,部分测试人员已获得早期访问权限。
- Karpathy 的 LLM 学习路径:著名 AI 人物 Andrej Karpathy 发布了 LLM101n 课程,激发了对其新项目 Eureka Labs 的讨论。
- 该课程受到社区的热切期待,承诺涵盖 Transformers 和 fine-tuning 等广泛领域。
- 在 llama.cpp 中热插拔 LoRA:llama.cpp 中的 LoRA adapter 支持 引发辩论,此前的一项更新实现了 adapter 的热插拔,以增强模型的灵活性。
- 关于量化模型适配新 LoRA 的反馈褒贬不一,特别是涉及云端部署的可靠性。
- 辩论 RAG 与 Fine-Tuning:关于使用 RAG 还是 fine-tuning 的效果展开了激烈辩论,大家认可 RAG 的便捷性,但在处理复杂任务时 fine-tuning 更有优势。
- 一些人建议混合方法可能会产生更好的结果,表明训练方法正向更加个性化的方向转变。
- AdamW-Mini 降低内存占用:神经网络训练中的 优化器状态开销 引起讨论,观察到 AdamW-mini 可能将内存使用量减半。
- 这可能允许 增加一倍的 batch sizes,标志着大规模训练效率的飞跃。
LM Studio Discord
- GPUs:艺术与失误:一位用户展示了其对 GPU 的玫瑰金翻新,强调了硬件美学中常被低估的作用。
- 与此同时,另一位成员承认了一个新手错误:忘记插上 GPU power(电源),这提醒所有人都要仔细检查自己的设备。
- Mathstral:STEM 领域的新学霸:Mathstral 在 LM Studio 的首次亮相引发了关注,与其 Mistral 7B 基座模型相比,它在 STEM 和高级推理能力方面表现出惊人的实力。
- 它在逻辑和数学问题上的专长,配合 bartowski 提供的 GGUF 量化版本,使其成为寻求 AI 优势的技术人员眼中极具吸引力的工具。
- DeepSeek 的引导出现偏差:DeepSeek-Coder V2-Lite 的问题困扰着用户,其不稳定的响应完全无视 Prompt,表明可能与 LM Studio 的更新存在冲突。
- 纠正其路径的尝试(包括禁用 flash attention)均未成功,成员们仍在寻找解决方案。
- Fine-Tuning:潜在的“G”麻烦:一位用户在对 Codestral 进行 Fine-Tuning 时遇到了困难,凸显了调整 LLM 的挑战,因为他们正纠结于模型产生的毫无意义的“G”响应。
- 社区讨论建议,丰富的文档和利用集体智慧可能有助于应对这些 Fine-Tuning 挫败感。
- 为微决策选择合适的模型规模:对于用于 NER(命名实体识别)和内容过滤等微决策的合适 LLM 的好奇,引发了关于推广更小、计算效率更高模型的讨论。
- 频道内的专家强调了在硬件设置中进行优化配置的重要性,以增强模型在这些特定任务中的性能。
Modular (Mojo 🔥) Discord
- Mojo 最大化性能核利用:讨论强调 Mojo 在 Intel 芯片上使用性能核(performance cores)来执行
parallelize函数,尽管目前未利用能效核(efficiency cores),但仍优化了操作。- 运行时目前在核心利用决策上的局限性有望在即将到来的更新中得到增强,从而优化核心使用以提升性能。
- NumPy vs Mojo:速度对决:基准测试显示 Mojo 在速度上超越了 NumPy,尽管 Mojo 尚未利用所有可用核心,性能差距被归因于 BLAS 后端的选择。
- 虽然 OpenBLAS 被广泛使用,但 Intel MKL 被公认为具有更卓越的速度,即使在非 Intel CPU 上也是如此。
- Mojo 中的 Inline 创意:有人建议为
@always_inline("nodebug")提供一种简写形式,共识是 Mojo 中的 inline 函数应当保持简洁。- 这一语法提案旨在减少代码冗余,同时不牺牲清晰度或功能性。
- 超越双核:SIMD 和 SVE:在 SIMD 背景下,SVE 处理非 2 的倍数大小的灵活性受到了关注,并探讨了利用清理循环(drainage loops)或掩码(masks)来增强性能的潜力。
- 讨论围绕着优化技术展开,旨在提升跨不同架构的计算效率。
- Mojo 编译器更新内幕:最新的 Mojo compiler Nightly 版本
2024.7.1714促使用户通过modular update nightly/mojo进行升级,其特点是包含了内置 SIMD 方法和 Dict 初始化等重大更新。- 这些变更在项目的 GitHub changelog 中有详细说明,反映了该语言及其标准库的不断演进。
Nous Research AI Discord
- DCLM 震撼业界:DataComp for Language Models (DCLM) 作为一个强大的测试平台脱颖而出,旨在通过受控的数据集实验来提升语言模型的效能。
- DCLM-Baseline-7B 在 5-shot MMLU 准确率上比 MAP-Neo 高出 6.6%,展示了高效的计算利用率,详见 Hugging Face 模型页面。
- Replete-AI 的翻译突破:Replete-AI 因推出一个包含超过 280 万个数据点 的开源 多语言翻译数据集 而成为新闻焦点。
- 该数据集涵盖了从英语到 14 种语言 的翻译,为多语言建模的进步奠定了基础。
- Oxen.AI 邀请 LLM 思想家:一篇富有见地的论文作者 Zhengxuan Wu 计划在 Oxen.AI Paper Club 活动中讨论 Representation Finetuning。
- 关于 ReFT 的讨论因其与传统 PEFT 方法相比在优化方面的先锋性而备受关注。
- 信念状态几何 (Belief State Geometry) 揭秘:一项新的 信念状态几何研究 揭示了 Transformer 如何在内部建模信念更新,引起了 LLM 社区的关注。
- 关于这种残差流(residual streams)内的几何表示所带来的影响,反馈从赞赏到怀疑不等。
- Hermes 2.5 展现基准测试实力:在基准测试结果的轰动中,Hermes 2.5 在 MMLU 上取得了显著进步并保持领先,正如 代码指令示例 所展示的那样。
- 通过突触层面的改进,Hermes 2.5 的 MMLU 分数达到 52.3,标志着对其前代版本 34.5 分的重大突破。
Eleuther Discord
- Pile 2 混淆已澄清:澄清确认 The Pile 2 并不存在,并引导用户进行了更正。
- 讨论转向了 Proof-Pile-2 数据集,详细说明其为一个包含 550 亿 token 的数学和科学文档集合,可在 Hugging Face 上找到。
- 抓取丑闻审查:在 Proof News 文章 发表后,未经许可使用 YouTube 视频 构建 AI 数据集的行为引发了辩论。
- Philosophy Tube 和 Jacob Geller 等艺术家发布了回应,引发了关于伦理和影响的讨论。
- Transformer 工程探讨:围绕 Transformer 优化 的辩论,特别是关于 TransformerEngine 的融合层 (fused layers),揭示了一些被误解的功能。
- 讨论强调了 RMSNorm 相比其他归一化技术在增强处理效率方面的潜力。
- Arrakis 库解析:介绍了 Arrakis,这是一个专为快速原型测试设计的机械可解释性(mechanistic interpretability)库,目前仍处于初期阶段。
- 鼓励用户将其与 TransformerLens 等现有工具进行反馈和比较,以完善和验证 Arrakis 的独特功能。
- 排行榜合法性查询:对 HF 排行榜上 musr 原始分数的计算方式提出询问;特别是它是否代表了特定任务的平均值。
- 建议联系 排行榜维护者 以澄清潜在的歧义。
Stability.ai (Stable Diffusion) Discord
- GPU 与巨型模型的博弈:讨论揭示了 VRAM 大小对模型性能至关重要,大型模型需要消耗大量 VRAM,如果管理不当,可能会导致 显存溢出 (OOM) 错误。
- 讨论强调了要区分生成时间延长与内存问题;生成时间较长并不自动意味着内存不足。
- 插画想象力的艺术化训练:社区交流了关于训练独特插画风格(如排线技术)的见解,强调了 区域提示词 (Regional Prompting) 和 多概念模型 的重要性。
- HuggingFace 的 T5 等资源被视为这些艺术倾向训练尝试的重要工具。
- 挑剔的提示词产生奇特的图片:关于微妙的提示词变化对结果影响的讨论非常热烈,例如“harvesting potato”与“potato harvesting”这类短语引发了关于模型 指代消解 (Coreference) 能力的讨论。
- 爱好者们建议使用 T5 的微调模型,以熟练应对复杂提示词中的微妙差异。
- 外绘 (Outpainting) 带来无限可能:探索了扩展生成图像的外绘方法,包括使用 Photoshop 工具和在 ComfyUI 中封装的 KSampler,以实现无缝的图像扩展。
- 参与者分享了管理种子 (Seed) 一致性的方法,确保扩展后的视觉效果保持统一且没有重叠部分。
- 故障排除技巧解决技术难题:使用 Automatic1111 的成员遇到了模型性能瓶颈,引发了针对特定硬件需求的 命令行修复 知识交流。
- 提供了如 ‘xformers’ 和 ‘medvram-sdxl’ 等选项作为解决方案,以增强模型在入门级硬件配置机器上的效能。
CUDA MODE Discord
- 核函数困惑:模板平息 CUDA 灾难:通过按照推荐的 CUDA 实践指定模板类型
<int>,克服了最初遇到的 CUDA Kernel 调用错误。- 实践经验:包含正确的模板参数可以决定 Kernel 是正常运行还是陷入令人沮丧的调试环节。
- PyTorch Profiler 导出:马拉松还是短跑?:当导出 trace 耗时超过 30 分钟 时,PyTorch Profiler 引发了辩论,导致了关闭
profile_memory和with_stack选项等建议。- 成本效益分析:虽然可能会加快导出速度,但代价是可能失去详细的内存分配洞察。
- CUDA 遇见 PyTorch:桥接自定义 Kernel:artificial_anteligence 寻求关于将自定义 CUDA Kernel 与 PyTorch 集成的内容,特别是为了简化模型实现。
- 框架间的交叉引用是必要的,一位社区成员强调了
load_inline如何作为 Kernel 编译的起点资源。
- 框架间的交叉引用是必要的,一位社区成员强调了
- Tensor 子类在 PyTorch Nightly 中纠缠:使用 unwrap_tensor_subclass 带来了挑战,特别是当 IntxTensor 子类 作为
layout_tensor时,GitHub 上的一个线程讨论了这些复杂情况 (Issue #515)。- 难题:嵌套子类可能会阻碍操作,使后端开发复杂化。
- Triton 策略与谜题:简化执行:Triton Puzzle 6 让工程师们对符号表示感到困惑,寻求关于涉及 ReLU 和矩阵-向量操作的函数定义的澄清。
- 来自 ‘triton.runtime.interpreter’ 的 ‘interpreter_builder’ 出现 ImportError,成员们正在寻求稳定性,这突显了维护向后兼容性的关键性质。
Perplexity AI Discord
- API 限制可能阻碍项目进度:在 #[pplx-api] 频道中的讨论强调了对 API rate limits(速率限制)过于严格的担忧,这可能会影响项目的进度时间表。
- 建议用户填写申请表并咨询 Perplexity 代表,以寻求缓解限制问题的解决方案。
- Cloudflare CAPTCHA 遭到抨击:#[general] 频道的成员对 Cloudflare 实施的 CAPTCHA 系统表达了不满,并对使用该系统的决策提出了质疑。
- 社区反馈中包含了对 Cloudflare 安全问题的评论,其中一条评论指出 Cloudflare 经常崩溃或被攻破。
- Perplexity API Beta 版解锁新过滤功能:根据 #[pplx-api] 的讨论,Perplexity API 增加了一个有价值的功能——
search_domain_name过滤器,目前已对 Beta 用户开放。- 该功能支持更具针对性的搜索能力,允许在指定域名内进行增强的结果过滤。
- 质量困境:代码灾难受到质疑:在 #[general] 频道中,一名成员提到某大公司的质量控制允许未经测试的代码进入生产环境,引发了关于行业惯例的坦诚对话。
- 每家公司都这样, 一位成员讽刺地强调,反映出对普遍存在的质量控制问题的无奈情绪。
OpenRouter (Alex Atallah) Discord
- 524 错误代码激增:大量用户遇到了 Error Code 524,引发了关于该错误突然盛行的快速交流。
- 随即出现了大量询问,调查这一异常现象是孤立案例还是普遍故障的征兆。
- Meta 405B 的定价之谜:随着用户推测 Meta 405B 的潜在定价,期待感不断升温,预计其将在 23 日左右首次亮相。
- 8K context windows 被作为过往模型的基准提出,而具体细节仍有待公布。
- Deepseek Coder:强大但速度极慢:“功能强大但速度极慢”概括了用户对 Deepseek Coder 的看法,其迟缓的性能让用户渴望更快的速度。
- 不满的声音预示着市场机会,更敏捷的竞争对手可能会吸引那些被缓慢服务劝退的用户。
- OpenRouter 寻求快速且廉价的 AI:在寻找速度超越 GPT-3.5-Turbo 且价格低廉的模型时,用户在成本与上下文的权衡中考虑了 Claude-3-Haiku 等选项。
- Llama 模型被视为这一追求中的有力竞争者,引发了关于何为“余速”与“廉价”的动态辩论。
- 在 WordPress 中集成 OpenRouter API 的困扰:RSS feed 集成困难困扰着一位试图在 WordPress 环境中融合 OpenRouter API 的用户,引发了关于故障排除的讨论。
- API key 的复杂性和 rate limit(速率限制)难题主导了讨论,
curl验证被推崇为技术检验的标准。
- API key 的复杂性和 rate limit(速率限制)难题主导了讨论,
LAION Discord
- 模型之城的恶意操作:ComfyUI_LLMVISION 恶意软件瞄准了 LAION 社区,窃取数据并在毫无防备的受害者设备上安装木马。
- 该黑客组织以入侵 Disney Slack 而闻名,展示了他们通过克隆 GitHub 工程师身份来伪造极具说服力的虚假求职者以进行数据窃取的能力。
- 桑迪飓风席卷电信业进入光纤时代:桑迪飓风 (Hurricane Sandy) 摧毁了 Verizon 的纽约电缆库,迫使在 13,000 公里的范围内将铜缆更换为光纤。
- 这一重大事件成为了基础设施升级的催化剂,正如这篇深度解析中所详述的那样。
- 视觉与语言在多模态舞台融合:新型 InternVL2-Llama3-76B 在 multimodal learning 方面取得了飞跃,通过指令微调模型推向了新的边界。
- 另外,社区中有人对在 4x 3090 GPUs 上运行 large models 表示沮丧,主要问题集中在 autoawq 的使用上。
- Manifold 对机械化管理的思考:Manifold Research Group 发布了一篇题为《大语言模型时代的智能数字代理》的立场论文,推动了关于 LLM-based AI agents 的讨论。
- 他们邀请社区加入 Discord 参与讨论,在 Research Log #041 中见证他们的进展,并为他们在 GitHub 上的大型 MultiNet 项目做出贡献。
Interconnects (Nathan Lambert) Discord
- 证明与双关的游戏:OpenAI 的最新仓库引入了 Prover-Verifier Games 以增强 AI model legibility,挑战了复杂性是一种“易读性税 (legibility tax)”的观点。
- 社区交流认为这可以纠正模型在叙述上难以理解的问题,研究论文本身关于“legibility tax”的俏皮话也体现了这一点。
- 强化学习的奇特结果:讨论围绕 Reinforcement Learning (RL) 如何调整模型特征展开,暗示复杂的图表可能会承担所谓的“legibility tax”。
- 一位成员评论道,“这张图表绝对是 legibility tax”,指出了对 RL 独特影响的直接观察。
- GPT-4:Tokenizer 探戈:一场热烈的讨论对比了 GPT-4o 和 Llama 405 的 tokenizers,强调了 GPT-4o 在编程语言 Token 效率上相较于其前身 GPT-4t 的倒退。
- 细节提到 GPT-4o 在处理 XML 时产生的 Token 比 GPT-4t 更多,标志着专用 tokenizer 性能的退步。
- Deepseek 坚持开源路线:在对中国 AI 发展速度的担忧中,Deepseek 创始人梁文锋表达了对开源的奉献精神,认为这对于构建强大的技术格局至关重要。
- 尽管 Deepseek 利润微薄,但梁文锋的决心依然坚定,正如在社交媒体上的一篇采访中所述。
- 策略模型中的采样混乱:Nemotron 论文批评了策略模型中流行的采样方法,认为某些拒绝采样比其他的糟糕得多,从而为 DPO 算法带来了过拟合和质量损失的风险。
- 与此同时,Zephyr 的论文提倡通过随机采样来促进多样性,旨在平衡挑战与 DPO 的目标,并避免因假阴性导致的错误方向。
Latent Space Discord
- 诺贝尔级别的基准测试:SciCode 表现卓越:SciCode 建立了一个科学问题编程基准的新先例,其中包含向诺贝尔奖得主致敬的内容,这些问题难倒了 GPT-4 和 Sonnet 3.5 等巨头,准确率低于 5%。深入了解。
- 由博士专家编写的 SciCode benchmark 挑战包含 338 个问题,揭示了多个科学领域的现状。此处查看见解。
- 基于浏览器的 AI 杰作:HuggingFace 发布 SmolLM:HuggingFace 推出了针对浏览器环境优化的 SmolLM models,支持 ONNX 和 WebGPU 加速。点击此处深入了解更新。
- 新的 SmolLM models 范围从 135M 到 1.7B,专为高效的端侧 AI 应用设计,展示了先进的浏览器运行能力。
- GPU 交易领域的开拓者:SF Compute 吸引投资:SF Compute 完成了 1200 万美元的融资轮,将用于构建新型 GPU 交易平台。详情。
- 这笔资金将促进大规模 GPU 集群的预订和交易,为计算资源分配引入流动性。
- Exa AI 的扩张时代:A 轮融资助力增长:在 Lightspeed、Nvidia 和 Y Combinator 等巨头的支持下,Exa AI 获得了 A 轮资金,以增强其由 LLM 驱动的搜索引擎 API。探索更多。
- 尽管 Exa AI 正在扩张,但社区也在讨论关于 Prompt 优化以及与 Perplexity 等 API 进行基准测试的挑战。
- 利用 ColPALI 颠覆文档处理:高效检索愿景:由 HuggingFace 推出的 ColPALI 承诺将带来文档检索的革命,使传统的 OCR 解决方案变得过时。了解更多。
- HuggingFace 的 ColPALI 提供了一种高效的文档处理方法,结合了视觉语言模型(Vision-Language Models)以实现更高的效率。进一步讨论。
LlamaIndex Discord
- LlamaIndex 展示其 Agent 能力:一段介绍视频展示了 LlamaIndex 的 Agent 能力,演示了 Python 和 TypeScript 框架,并提及了 LlamaParse 服务,其解析能力引发了热议。
- 成员们称赞了 LlamaParse 的进步,强调了其新的基于 Markdown 的表格重构功能,以及在处理复杂表格方面的出色表现,详见此推文。
- 探索查询时元数据(Query-time Metadata)的迷宫:社区专家交流了在查询时应用元数据过滤器的想法,并权衡了不同的方法,质疑现有 Retriever 实例化方法的有效性。
- 建议的解决方案和遗留问题的交织,展示了改进文档存储和索引并非易事。
- Neo4J 属性图难题依然存在:当 Neo4J 属性图无法记住重复实体时,社区侦探建议了潜在的修复方案,如实体链接(Entity Linking)调整。
- 对话将理论与实践相结合,提到了 ‘Entities’ 和 ‘MENTION’ 关系以及 Cypher 查询片段,这可能为解决问题提供曙光。
- Scaleport 同步精简的 AI 解决方案:作为 LlamaIndex 多功能性的证明,Scaleport AI 利用 LlamaCloud 和 LlamaIndex 技术缩短了其 AI 开发周期并增强了 OCR 结果,详见其案例研究。
- OCR 优化和敏捷 AI 开发成为 Scaleport AI 案例中的主题,强调了将创新框架与客户项目结合的影响。
- 破解 CSV 混乱的代码:关于在 VectorStoreIndex 中处理超过 50 行的 CSV 数据时遇到的困难引起了骚动,成员们剖析了错误并思考高效的解析路径。
- 虽然 PagedCSVReader 表现不佳,但大家一致认为像 PandasAI 这样的工具可能会为复杂的基于记录的 CSV 操作提供避风港和补救措施。
Cohere Discord
- CrunchCup 混乱:洗碗机耐用性存疑:一位成员对新买的 CrunchCup 感到兴奋,但尽管它在随时随地食用谷物方面非常方便,却因无法承受洗碗机的清洗循环而大打折扣。
- 社区成员纷纷发表评论,评价从对其便携设计的赞赏到对其意外缺乏耐用性的沮丧不等,有人提到它在机洗时会变形。
- Roger Grosse 讲座探讨 LLM 泛化:Roger Grosse 的最新课程 “Studying LLM Generalization through Influence Functions”(通过影响函数研究 LLM 泛化)现已上线,分享的链接展示了他在 YouTube 上的见解。
- danylo_boiko 提醒成员通过直接的视频链接来了解最新的 LLM 研究见解。
- Cohere 社区会议 YouTube 回顾:对于错过会议的人,Cohere 的社区活动演讲(包括丰富的讨论和环节)现已在他们的 YouTube 播放列表中提供。
- 为了让公会保持更新,与会者被引导观看他们喜爱的 AI 领军人物的录像,并紧跟社区动态。
- 谷物大对决:是小孩子吃的吗?:一场关于谷物偏好的趣味公会辩论引发了参与,Fruit Loops 和 Special K 成为焦点。
- 虽然对于 Froot Loops 是否适合特定年龄段尚未达成共识,但对话凸显了工程师们早餐选择的多样性。
OpenAI Discord
- 定制化聊天机器人:是个性化推进还是隐私陷阱?:关于使用 OpenAI API 等模型为特定网站微调(fine-tuning)自定义聊天机器人的辩论异常激烈,重点在于通过 pre-prompting 来嵌入公司知识。
- 费用问题受到质疑,在使用聊天机器人检测服务时,由于每月 20,000 美元的高额费用,建议采取人工审核等具有成本效益的措施。
- 从噪音中提取人声:播客的音频解决方案?:关于从播客中进行人声提取工具的讨论浮出水面,重点关注了 Eleven Labs 的模型,因为它能够在无干扰的情况下分离声音。
- 虽然这个话题优先级较低,但它为提高内容可访问性和从音频源中提取元数据开辟了途径。
- 学习的局限:GPT Agent 对上下文的把握:对话探讨了 GPT Agent 的上下文限制,特别是由于固定的上下文窗口(context windows),它们在跟进持续讨论时显得力不从心。
- 成员们交流了关于 PUT 与 PATCH 请求的技巧,并讨论了 vector store embeddings,强调了 RAG 聊天机器人在名称识别方面的挑战。
- 逆流而行:WebSurferAgent 的选择性搜索:WebSurferAgent 因在搜索过程中偶尔忽略设置指令而引起关注,这表明在指令遵循方面仍有改进空间。
- 一个共享的 ChatGPT 角色扮演(role-playing)模板展示了在对话式 AI 中实现更具沉浸感、角色驱动交互的潜力。
LangChain AI Discord
- Hannah 热潮:定制化 AI 助手:介绍 Hannah,一款新型生成式 AI 助手,支持从文档中学习和深度定制等高级功能,并集成了从 OpenAI 到 NVIDIA 的 API。
- 该助手由 OpenAI、Anthropic 和 Cohere 等热门 AI API 提供支持,相关信息可在 Hannah 网站上找到。
- MongoDB 与 LangChain 融合实现 Hybrid Search:成员们正在寻求在 RAG 应用中将 MongoDB 作为向量数据库使用的指导,强调了对 Hybrid Search 功能的需求。
- 虽然 MongoDB 官方文档涵盖了 Hybrid Search,但社区对集成 LangChain 的见解需求量很大。
- AI 助力爆款体育视频:对能够创建 YouTube shorts/TikTok 爆款体育短视频的 AI 工具兴趣激增,社区成员正在寻求专业的剪辑见解。
- 尽管对 AI 制作体育短片的能力持怀疑态度,用户仍在探索并请求针对此类内容生成的定制建议。
- 从非结构化到结构化:LangChain 的文档转换:讨论围绕使用
UnstructuredFileIOLoader及类似类将无序数据转换为可用的 LangChain 文档展开。- 通过分享的实际案例,用户正在利用 LangChain 工具来结构化数据,以提升应用性能。
OpenAccess AI Collective (axolotl) Discord
- Codestral 的代码征服:Mistral AI 推出了 Codestral Mamba,凭借线性时间推理(linear time inference)和处理无限序列长度等特性,挑战代码生产力的前沿。
- 由 Albert Gu 和 Tri Dao 开发,Codestral Mamba 激发了社区成员的浓厚兴趣,大家纷纷渴望测试其在高级代码推理(advanced code reasoning)方面的能力。
- Mathstral:失踪模型之谜:关于一个名为“Mathstral”的模型引起了广泛好奇,人们纷纷询问其是否存在以及是否与 Mistral AI 有关。
- 目前讨论仍停留在猜测阶段,缺乏具体细节,这表明它可能是一个正在开发中的模型,或者是值得关注的未来项目。
- 抑制过拟合:寻找解决方案:社区提出了对抗过拟合的建议,包括增加 rank 或调整学习率(learning rates)等策略,并根据模型的独特训练过程进行定制。
- 数据集去重(de-duplicating datasets)等方法被作为防止模型在训练过程中过早过拟合的有效工具进行分享。
OpenInterpreter Discord
- 为 My Friend V1 手持硬件欢呼:@ParallaxAngle 发布的一条推文表达了对 My Friend V1 令人惊讶的紧凑外形的兴奋,并赞扬了 Based Hardware 团队的努力。
- 用户称赞了产品的尺寸和质量,并用 “LOVE LOVE LOVE my Friend” 表达了喜爱之情。
- AI Friend 的转录信任讨论:针对通过 Open Interpreter 与 AI Friend 进行转录交互的隐私问题被提出,强调了在潜在集成中保密性的重要性。
- 对话集中在如何利用 Open Interpreter 确保与 AI Friend 转录内容交互时的隐私,但具体的实现细节仍不确定。
- Open Interpreter 的 Mac M3 芯片之谜:关于 Open Interpreter 是否兼容 M3 Mac 的问题浮出水面,社区成员正在考虑 Linux 版本是否足够。
- 非官方建议暗示,在针对文件路径等细节进行调整后,尝试运行 build.py 脚本可能会成功,但这尚未得到证实。
Torchtune Discord
- Torchtune v0.2.0 发布:Torchtune v0.2.0 的发布带来了一系列新模型、recipes 以及 sample packing 等功能。
- 该版本标志着来自开源社区的重大贡献,强调了改进该工具的协作努力。
- LLAMA 3 的微调怪癖:LLAMA 3 微调过程中出现了一个问题,即在生成过程中出现了 finetune_right_pad_id 标签,而不是预期的
<|end_of_text|>。- 从 Torchtune nightly builds 切换到稳定版本可能会提供临时修复,同时正在检查 tokenizer 的旧实现是否存在差异。
tinygrad (George Hotz) Discord
- Linearizer 移除,更新上线:在 tinygrad 移除 linearizer 后,出现了关于更新笔记的询问,凸显了社区对文档的关注。
- 一位成员要求提供修订后的笔记,以反映重大更新后 tinygrad 的当前状态,这种对清晰度的呼声得到了回应。
- 颜色代码难题已澄清:在追求消息格式细微差别的过程中,有人对成员笔记中出现的颜色代码寻求澄清。
- 解决方案迅速达成,指引其查看位于第一页底部的颜色说明,确保不遗漏任何细节。
LLM Finetuning (Hamel + Dan) Discord
- OpenAI 到 LLM 实用工具的网关:Kyle 确认 OpenAI 端的访问权限对于特定的 LLM 功能至关重要。
- 这种访问权限可以实现更流线化的 LLM 应用,例如自动化医院账单检查。
- 计费领域的 LLM:社区讨论集中在 LLM 在从 PDF 中提取规则以审计医院账单方面的潜力。
- 考虑通过 LLM 进行 Python 代码生成,以简化账单验证过程。
- 错过参与的遗憾:一位用户对 7 月 9 日之后没有查看 #hugging-face 频道表示遗憾,错过了重要的讨论。
- 这种情绪强调了错过与关键频道更新和社区互动的机会。
- 合规性检查的代码建议:有讨论关于利用 LLM 生成的测试用例来确保医院账单审计 Python 代码的可靠性。
- 该倡议旨在充分利用 LLM 的能力,将其应用于现实场景中的实际应用。
AI Stack Devs (Yoko Li) Discord
- 寻求流媒体成功的开发者:Observe 邀请擅长 HLS 和 WebRTC 的开发者在 Vanilla JS、TypeScript 和 MongoDB 中施展编程才华。
- 正在寻找对初创生态系统和现场流媒体技术挑战充满热情的后端开发大师。
- 初创之星:招募 TypeScript 人才:后端专家请注意:Observe 需要你的 TypeScript 和 MongoDB 技能来创建无缝的流媒体解决方案。
- 深入了解初创文化,并为 HLS 和 WebRTC 这一动态领域贡献你的技术专长。
MLOps @Chipro Discord
- Phoenix 2.0 携新功能起航:不要错过 2024 年 7 月 18 日举行的 Phoenix 2.0 产品更新与未来愿景活动,届时将介绍托管部署和实验功能等新特性,作为 Phoenix 2.0 发布的一部分。
- 与会者将一窥 Phoenix 在 Arize 产品栈中的演进,并参与实时问答环节,加深对该工具在 LLM 应用开发中潜力的理解。
- OSS:AI 进步的支柱:一场关于 AI 领域 OSS 的市政厅会议将详细阐述 Phoenix 2.0 如何通过新实验功能等特性简化开发,以及开源软件 (OSS) 在 AI 中的关键作用。
- 用户体验见解是议程的一大亮点,强调了社区反馈与 Phoenix 功能演进之间的协同作用。
AI21 Labs (Jamba) Discord
- 异步响应觉醒:AI21 Labs 的 Python SDK 现在包含异步客户端支持,并兼容 Amazon Bedrock 和 Azure AI Studio 等平台上的 Jamba-Instruct。
- 鼓励开发者探索最新 GitHub 版本中提供的新功能集,其中还展示了新的示例以提供更好的开发体验。
- 客户端并发准备就绪:异步客户端支持现在是所有界面上 Jamba-Instruct 的标准功能,提供了增强的性能。
- 如需实操指导,开发者可以访问 AI21 Labs 的 GitHub 仓库获取新的 Jamba-Instruct 示例,以快速启动他们的应用。
Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
LLM Perf Enthusiasts AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Mozilla AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
第 2 部分:按频道详细摘要和链接
完整的频道细分内容已为邮件截断。
如果您喜欢 AInews,请分享给朋友!提前感谢!