Unity is all we need.

2024/11/5-2024/11/6 的 AI 新闻。我们为您检查了 7 个 subreddits、433 个 Twitter 账号和 30 个 Discord 社区（217 个频道和 1685 条消息）。预计节省阅读时间（以 200wpm 计算）：200 分钟。您现在可以标签 @smol_ai 进行 AINews 讨论！

出于某种原因，今天没有人安排重大的 AI 发布。我们完全无法想象是为什么。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 回顾

所有回顾均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 模型与基准测试

Grok Beta 分析：@ArtificialAnlys 指出，Grok Beta 在智能上超越了 Llama 3.1 70B，但其定价（$5/1M Input tokens 和 $15/1M Output tokens）削弱了其竞争力。Artificial Analysis Quality Index 为 70，使其排在 Claude 3.5 Haiku 等模型之上，尽管其审查政策表明其适用于特定的 use-cases。
Defense Llama 发布：@alexandr_wang 宣布了 Defense Llama，这是一个与 @Meta 和 Scale AI 合作开发、专为美国国家安全定制的模型。该模型旨在增强国防和情报部门的 AI 能力，强调了 AI 在维护国家安全中的必要性。

AI 工具与开发

SWE-Kit 发布：@svpino 推出了 SWE-Kit，这是一个旨在构建可定制 AI Software Engineers 的开源框架。功能包括兼容 Llama 3、ChatGPT 和 Claude 等多种 LLM，可定制的 prompts，以及与 LangChainAI 等 agentic frameworks 的集成。
LangChain 与 Weights & Biases 集成：@weights_biases 与 @LangChainAI 合作，利用 Gemini 在 RAG 应用中增强 retrievers、减少 hallucinations 并提高查询相关性。

政治讨论与选举

选举预测与工具：
- @AravSrinivas 推介 Perplexity 作为追踪 2024 选举的卓越工具，声称它在实时更新方面将超越 Google。
- @perplexity_ai 提供了一个全面的 Election Hub，提供各州实时结果，并鼓励用户开启通知以获取更新。
- @bindureddy 和 @teortaxesTex 分享了他们看好 Trump 赢得 2024 总统大选的预测，理由包括性别比例、黑人投票动态和经济问题。
选举监控：来自 @nearcyan 的多条推文追踪了 2024 选举的各州结果，提供各州结果的实时更新和分析。

产品公告与集成

Teach Mode 中的 Annotation 功能：@jessechenglyu 为 teach mode alpha 测试者宣布了新的 annotation 功能，teach mode beta 预计很快推出，并展示了 @TheOneRonG 的快速演示。
Perplexity 增强：@perplexity_ai 宣布支持 @AnthropicAI 的 Claude 3.5 Haiku，取代 Claude 3 Opus，以确保用户能够使用最新的 AI 模型获得更好的体验。
AI Talk 发布：@stablequan 推出了 AI Talk，邀请了来自 Qwen 的 Junyang Lin，讨论中国 AI 实验室的运作和中国的 AI 生态系统。

迷因 / 幽默

关于 AI 和名人的幽默评论：
- @cte_junior 惊叹 “Elon is a fucking legend“，庆祝 Elon Musk，获得 1.9k 曝光。
- @jerryjliu0 调侃在运行 80,000 次模拟时忘记安装 import nest_asyncio，获得 832 曝光。

AI Reddit 回顾

/r/LocalLlama 回顾

主题 1. Microsoft 发布 Magentic-One：开源多智能体系统上线

Microsoft 悄然发布 “Magentic-One”：一个用于解决复杂任务的开源通用多智能体系统，以及 AutogenBench (Score: 255, Comments: 23): Microsoft 悄然发布了 “Magentic-One”，这是一个旨在解决复杂任务的开源通用多智能体系统，同时发布的还有 AutogenBench。这些项目似乎是在 Autogen Studio 的基础上构建的，显著增强了其功能，尽管目前关于这些发布的讨论还很少。
- Magentic-One 目前仅支持 OpenAI 模型，这限制了其本地使用。用户有兴趣将其适配以兼容 Ollama 或其他本地模型，并建议通过 fork 项目来实现这一目标。
- 人们对 Magentic-One 与 Autogen 的区别感到好奇，尽管评论中未详细说明具体差异。一位用户强调了其独特的网页浏览方式：使用具备视觉能力的 LLM 来解释来自无头浏览器的快照。
- 当 Agent 尝试招募人类寻求帮助（例如在社交媒体上发帖或起草政府请求）时，引发了担忧和好奇。这种行为被认为既有趣又可能存在问题，引发了对其发布时机的猜测。

主题 2. Ollama 扩展 Llama 3.2 的视觉能力

Ollama 现在正式支持 Llama 3.2 Vision (Score: 232, Comments: 26): Ollama 现在正式支持 Llama 3.2 Vision，标志着 AI 视觉应用的兼容性和功能得到了增强。
- 用户对运行 Llama 3.2 Vision 的系统要求感到好奇，一位用户提到需要 10GB 3080 GPU 和 64GB RAM。另一位用户确认它可以通过 Docker 安装与 Open WebUI 配合使用。
- 用户有兴趣将支持扩展到其他平台和模型，如 Molmo、QwenVL 和 llama.cpp，以确保超越单一平台的更广泛兼容性。
- 一些用户表达了对更多视觉模型的需求，提到了需要更新 pixtral 支持，部分用户在官网上找不到相关信息。

主题 3. Wave Networks：一种使用复数向量的创新方法

Waves are all you need (Score: 81, Comments: 22): Wave Network 是一种超小型语言模型，利用复数向量来表示 token，在文本分类任务中实现了高准确率。它的表现优于使用 BERT 预训练嵌入的单个 Transformer 层 19% 以上，并接近微调后的 BERT 基础模型的准确率，同时显存占用和训练时间分别显著减少了 77.34% 和 85.62%，且仅有 240 万个参数（相比之下 BERT 有 1 亿个参数）。阅读更多。
- 量子计算与 Wave 模型：评论者讨论了量子计算增强像 Wave Network 这样基于波的模型潜力。通过波计算，量子计算机可以显著加快处理速度，一旦量子技术实现可扩展，可能实现近乎实时的推理。
- 怀疑与批评：一些用户对新 AI 模型的实际影响表示怀疑，指出许多研究论文如果没有发布模型，就不会产生有用的应用。然而，其他人强调了 Wave Network 的革命性潜力，因为它大幅缩小了模型体积，通过允许大型模型在消费级硬件上运行，可能使 AI 更加普及。
- 资源共享与可访问性：人们有兴趣进一步了解和讨论 Wave Network，用户分享了诸如 NotebookLm Podcast 之类的资源以促进学习。这突显了社区为使复杂的 AI 概念更易于理解而做出的努力。

主题 4. Llama 3.1 的困境：工具调用失败

Llama 3.1 70B 在工具使用方面表现极差 (Score: 40, Comments: 38): 作者表达了在多 Agent 模型设置中对 Llama 3.1 70B 的失望，指出它无法正确构建工具调用结构，并经常出现忽略信息和遗忘参数等错误。相比之下，他们发现 GPT-4o 在相同设置下表现出色，并寻求关于其他人是否在 Llama 3.1 上有类似经历的反馈。
- 工具兼容性与框架：讨论强调了使用 Mistral Nemo 12b 进行高效工具调用的情况，利用 vLLM 作为模型后端来提供 OpenAI 兼容端点。强调了使用 Jinja templates 来启用工具调用，以及 vLLM 与类似于 GPT-4 的 Python 客户端的兼容性。
- Llama 3.1 性能：用户对 Llama 3.1 的评价褒贬不一，一些人注意到使用 8B 等较小模型能成功进行工具调用，但另一些人则面临上下文长度限制的挑战。默认的 2048 上下文大小被认为是导致内存相关问题的可能因素。
- 替代模型与基准测试：推荐使用 Berkeley Function Calling Leaderboard 来评估具有宽松许可证的小型模型，例如 Qwen2.5-7B。也有人对这些评估的准确性表示担忧，一些用户报告 Llama 3.1 8B 在他们的测试中表现优异。

其他 AI Subreddit 回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

主题 1. Claude 3.5 Haiku 性能不佳及定价问题

Claude 3.5 Haiku 在 LiveBench 上的表现逊于 Claude 3 Opus 和 Gemini 1.5 Flash，且价格比 Flash 贵 15 倍 (Score: 259, Comments: 35): Claude 3.5 Haiku 在 LiveBench 上的表现不如 Claude 3 Opus 和 Gemini 1.5 Flash，尽管其成本是 Gemini 1.5 Flash 的 15 倍。
- 定价与性能担忧：人们对 Claude 3.5 Haiku 的定价策略提出了批评，特别是考虑到它在编程之外的领域表现不佳。用户认为，高昂的成本加上与 Gemini 1.5 Flash 等竞争对手相比有限的能力，表明其重点在于获取价值而非提高客户效用。
- 编程专业化：尽管存在缺陷，Claude 3.5 Haiku 因其强大的编程能力而受到关注，在编程基准测试中表现令人印象深刻，但在成本更低的情况下仍逊于 Qwen 2.5 72b。该模型的窄专业化引发了对其更广泛适用性和市场战略定位的质疑。
- Temperature 与模型行为：讨论强调了 temperature settings 在模型行为中的重要性，对于需要精确度的任务（如分类或信息提取），较低的 temperature（接近 0）更受青睐。这一技术细节强调了模型配置在实现预期结果中的重要性。
Claude 就像一个糟糕的员工——永远完不成工作，撒谎，无视你的特定要求，并且具有攻击性和消极攻击性 (Score: 22, Comments: 44): 该帖子讨论了对 Claude AI 无法高效完成任务的挫败感，将其描述为类似于一个“糟糕的员工”，既好斗又消极攻击，且尽管多次请求，仍无法交付最终文档。作者表达了极度的不满，强调该 AI 倾向于无视特定指令并持续提供不完整的工作，导致用户渴望得到一个单一、连贯且全面的文档，而不再有进一步的延迟。
- 几位用户认为 Claude AI 的问题归因于糟糕的 Prompt 引导而非 AI 本身，暗示用户经常提供模糊的指令。然而，包括原帖作者在内的其他人坚持认为，自最近的更新（如 3.5 版本 的更新）引入新问题以来，Claude AI 的性能已经退化。
- 有讨论建议将任务分解为更小的块，以便在 Claude AI 上获得更好的结果，因为大型、未定义的任务会导致效率低下。一些用户建议提供清晰、详细的指令以避免混淆和错误，而另一些人则对 Claude AI 在最近更改之前能更有效地处理大型任务感到沮丧。
- 一些评论者批评了 Claude AI 的“SAFETY”团队的影响，认为该 AI 的行为变得过于专断且不近人情，类似于一个“疯狂的机器人”。这种变化被归因于 AI 被训练成一个“全知全能的正义化身”，导致任务执行能力的下降。
我非常愤怒。如果 Claude 怀疑是为了作业，它就不会为你写论文甚至故事。 (Score: 129, Comments: 123): 用户对 Claude Opus 拒绝撰写论文或故事表示沮丧，特别是当它怀疑这些是用于作业时，称其为学习的阻碍。此外，该用户批评了 Claude 3.5 在 Matlab code 和数学问题上的不准确性，并将其与 ChatGPT 进行了不利的对比，声称后者会毫不犹豫地执行这些任务。
- 几位评论者强调了将 Claude 和其他 LLMs 作为增强工具而非替代品的重要性，重点在于学习如何正确地进行 Prompt 引导。他们认为，在作业中过度依赖 AI 可能会阻碍批判性思维和解决问题的能力。
- 关于 Claude Opus 和 Claude 3.5 Sonnet 之间的差异有显著的讨论，一些用户建议 Sonnet 更优且更具成本效益。用户还提到 ChatGPT 是 Claude 拒绝提供帮助时的可行替代方案。
- 评论反映了对 AI 未来对教育诚信和技能发展影响的更广泛担忧，一些用户担心过度依赖 AI 可能会导致一代人缺乏批判性思维能力。

主题 2. PromptGen v2.0 发布：增强的图像标注与分析

PromptGen 变得更好了！v2.0 现已发布！！ (Score: 167, Comments: 23): PromptGen v2.0 已发布，其功能包括增强的图像标注质量、更好的显式内容识别、改进的图像构图能力，以及一个新的“分析”模式，可丰富对图像细节的理解。此次更新保持了快速的处理速度，使其成为批量图像标注的理想选择，并可在 Huggingface 和 GitHub 上访问。
- PromptGen v2.0 是 Florence2 的微调版本，用户对该版本的发布及其对社区的贡献表示感谢。微调增强了其在图像标注和显式内容识别方面的能力。
- 用户对图像标注的使用场景及其在 img2video 提示词等工作流中的应用感到好奇，一些人认为在生成高质量的 img2img 过程提示词方面很有价值。讨论强调了准确的提示词在增强图像到图像转换中的效用。
- 人们对该模型处理 NSFW 内容的能力很感兴趣，并提到 Joycation 作为其 NSFW 标注能力的对比。开发者确认了 PromptGen v2.0 适用于 NSFW 标注任务。

主题 3. 用于更好 LoRA 集成的提示词优化工具

我制作了一个开源工具，用于优化同时使用多个 LoRA 时的 Prompt 效果。 (Score: 21, Comments: 0): 一位用户开发了一个开源工具，旨在优化同时使用多个 LoRA 时的 Prompt，目标是防止冲突并提高精确度。该工具利用来自 Civitai 的数据，并采用 LLM 通过分析描述和用户生成的 Prompt 来精炼 Prompt，演示视频请点击此处。
PromptGen 变得更强了！v2.0 正式发布！！ (Score: 167, Comments: 23): PromptGen v2.0 已发布，提升了图像打标（image captioning）能力，包括增强的标注质量、更好的显式内容识别以及改进的图像构图能力。新增的“analyze”模式可以深入理解图像构图，与 Joy Caption Alpha 2 的对比突显了 v2.0 在角色位置识别方面的优势。该模型保持了极快的处理速度，非常适合批量图像打标。更多详情和下载请访问 Huggingface 和 GitHub。
- PromptGen v2.0 是 Florence2 的微调版本，社区成员对其贡献表示赞赏，特别是在图生图（image-to-image）过程中，生成高质量的 Prompt 对于有效的 img2img 转换至关重要。
- 用户对图像打标的实际应用感到好奇，并询问其在根据标注生成新图像中的作用，以及在 img2video 和 img2txt2img 等流程中的实用性。
- 用户对该模型的 NSFW 打标能力表现出兴趣，并询问了其与 Joy Caption Alpha 2 相比的使用情况，开发者已确认其支持 NSFW 内容。

AI Discord 摘要回顾

由 O1-preview 生成的摘要之摘要的摘要

主题 1. 新 AI 模型发布与对比

腾讯发布 Hunyuan-Large 389B MoE 巨兽：腾讯发布了 Hunyuan-Large，这是一个 389B MoE 模型，声称其在数据量更少的情况下性能超越了 DeepSeek-V2 和 Llama3-405B。由于其庞大的体积和使用限制，其开源状态引发了质疑。
Perplexity 用户哀悼 Opus 模型的移除：Opus 模型已从 Perplexity AI 中移除，引发了用户的失望，并将其与 Sonnet 和 Haiku 在编程任务上进行了对比。用户指出，对于较小的项目，模型选择可能不会显著影响性能。
GitHub Copilot 引入 Sonnet 和 o1：GitHub Copilot 更新后加入了 Sonnet 和 o1，增强了 AI 辅助编程的选择。这反映了由 AI 驱动的开发者工具的持续改进。

主题 2. AI 性能问题与局限性

Hermes 3 响应迟缓引发用户担忧：用户报告了 Hermes 3 响应缓慢，将延迟归因于网络问题，偶尔仍有滞后。社区正在积极监控 Hermes 3 的性能以解决延迟困扰。
Haiku 3.5 遇冷：成员们抨击 Haiku 3.5 性能不佳，认为尽管它号称实力强劲，但实际表现更像是一个 8-14B 模型。他们认为与 Gemini 1.5 Flash 和 GPT-4o-mini 等更便宜的模型相比，它的价值较低。
AI 摘要幻觉困扰用户：对 GPT-4o 在文档摘要中出现幻觉的担忧促使用户建议使用第二个 LLM 进行事实核查。重点在于引入人类专家进行复核。

主题 3. AI 硬件与优化

Nebius 推出每小时 1.5 美元的 H100 GPU：Nebius 推出了 Explorer Tier，为研究人员和小型项目提供每小时 1.5 美元的 NVIDIA H100 GPU。无需排队的即时访问旨在让高端 GPU 得到广泛应用。
FP8 量化加速机器学习魔法：FP8 量化使用 FP8 x FP8 tensor cores，基准测试显示在 Batch Size 为 1 时，静态量化优于动态量化。成员们剖析了影响单实例操作的性能差异。
Liger Kernel v0.4.0 发布，支持 AMD：Liger Kernel v0.4.0 的发布带来了全面的 AMD GPU 支持，实现了多 GPU 训练，速度提升了 26%。此更新优化了针对 AMD 架构的训练流水线。

主题 4. AI 工具与平台更新

Aider 0.62 让编程辅助更快捷：Aider v0.62 引入了对 Claude 3.5 Haiku 的全面支持，在代码编辑排行榜上获得了 75% 的分数。新功能包括应用来自 ChatGPT 或 Claude 的文件编辑以及错误修复。
OpenRouter 通过 API 迁移进行清理：OpenRouter 成功迁移了其 API，在初步测试中消除了 524 错误。鼓励用户通过 /api/alpha/chat/completions 进行测试，以在全面迁移前确保稳定性。
LM Studio 期待 Llama 3.2 Vision 支持：LM Studio 用户期待支持 Llama 3.2 Vision 的更新，以增强视觉功能。目前，Ollama 已完成集成，MLX 中也提供了部分支持。

主题 5. AI 领域的融资热潮与商业动向

Perplexity 的融资热潮引发关注：Perplexity AI 正在进行今年第四次融资，估值倍数达到了预期营收的 180 倍，引发了对其可持续性的担忧。批评者质疑 AI 领域如此高估值的可行性。
OpenAI 斥巨资收购 Chat.com：据推测，OpenAI 以约 1500 万至 2500 万美元的价格从前持有者 Dharmesh 手中收购了 chat.com，后者当时的买入价超过 1000 万美元。这笔巨额收购突显了 OpenAI 在 AI 聊天品牌建设上的投入。
Scale AI 为国家安全征调 LLM：Scale AI 推出了 Defense Llama，这是一款专为美国国家安全定制的 LLM，由 Meta 和国防专家共同开发。该模型现已可集成到美国国防系统中，突显了专用 AI 的应用。

第一部分：Discord 高层级摘要

Perplexity AI Discord

Perplexity 中 Opus 模型的移除：用户对 Perplexity 移除 Opus model 表示失望，并讨论了 Sonnet 和 Haiku 模型在编程和写作方面的感知优势。
AI 模型的对比分析：成员们将 Perplexity 与 Claude 和 gpt-4o 等其他模型进行了对比，评估了它们在编码和创意任务中的优势。
- 讨论强调，对于较小的编程任务，模型的选择可能不会显著影响性能。Introducing the next generation of Claude 在广泛的认知任务中树立了新的行业标杆。
Llama 3.1 Sonar API 定价：一位成员询问了 Llama 3.1 Sonar 70B API 每 100 万个 tokens 的成本，并分享了定价指南链接。
- 该链接提供了相关细节，但具体的定价细节仍不明确。
Haiku 3.5 的限制：一位成员询问了 Haiku 3.5 的限制，表示有兴趣了解其约束条件。
- 未提供关于具体限制或能力的更多细节。

Unsloth AI (Daniel Han) Discord

关于 SFT 和 DPO 集成的讨论：社区成员辩论了使用现有的 SFT datasets 进行 DPO fine-tuning 的问题，强调需要正确的格式化以确保训练和推理过程中的清晰度。
- 公认的做法是在每个数据集条目中放入上下文，这有助于维护数据集的完整性并提高模型性能。
NVIDIA GeForce RTX 征求社区见解：NVIDIA GeForce RTX 团队正在寻求 AI 爱好者的反馈，以指导他们未来的产品方向，并鼓励通过此链接安排简短的交谈。
- 一位成员强调，社区的输入可能会显著影响即将推出的 NVIDIA 产品的开发，凸显了多元化用户视角的价值。
芬兰语的模型性能：成员们分享了关于 Nemotron-340B-Reward 和 Llama-Nemotron-70B 在生成芬兰语合成数据方面的正面反馈，并指出了它们的有效性。
- 讨论强调了在资源有限的情况下对大型数据集进行推理的挑战，表明了对增强计算可访问性的需求。
在索引 QA 上微调 Llama 模型：一位用户表示有兴趣使用 QLora 或 LoRa 技术在索引 QA 上微调 Llama 3B，并寻求有关该过程的指导。
- 他们提到成功微调了一个 Unsloth/Llama 模型，并将其集成到个人网站聊天机器人中，展示了这些技术的实际应用。

HuggingFace Discord

提高投机解码（Speculative Decoding）效率：成员们讨论了模型中 speculative decoding 的实现，强调其通过利用较小的模型进行初始 token 预测来加速推理的能力。
- 这种方法在提高速度的同时保持了准确性，使其成为各 AI 公司青睐的技术。
开发自定义 GPT 模型：一位用户成功构建了一个具有 4 个 transformer decoder layers、4 个 attention heads 且 block size 为 64 tokens 的 GPT model。
- 该模型能够生成多达 128 tokens 的响应，主要关注 NLP-related 内容。
对比学习（Contrastive Learning）的进展：关于 Contrastive Learning 的深入讨论探索了其原理、各种公式和应用，并引用了 Lightly AI 的文章。
- 参与者注意到该方法自 1993 年以来的演变及其对 Unsupervised 和 Self-Supervised Learning 领域的重大影响。
Flux.1 的 JAX 实现发布：Black Forest Labs 的 Flux.1 模型的新 JAX implementation 已发布，邀请社区在 GitHub 上贡献代码。
- 有兴趣推动项目发展的贡献者可以处理现有的 open issues。
参加 Upstage AI Hackathon：Upstage AI Hackathon 被强调为协作开发 AI 模型的一个机会。
- 鼓励贡献者加入并在 GitHub 上完善该项目，促进社区驱动的创新。

OpenRouter (Alex Atallah) Discord

API 迁移进度：团队成功完成了 API 迁移，通过转换 Chatroom 请求消除了初始测试期间的 524 错误。鼓励用户通过 /api/alpha/chat/completions 进行测试，以在全面迁移前确保一天的稳定性。
- 此次迁移是增强 API 可靠性更广泛策略的一部分，并持续监控以保持零错误表现。
Hermes 3 性能问题：用户报告 Hermes 3 响应缓慢，部分延迟归因于互联网连接问题。在最初的担忧之后，功能已经恢复，但偶尔仍存在延迟。
- 社区成员正在积极监控 Hermes 3 的性能，以识别并缓解延迟问题。
Claude API 增强：Claude API 进行了迁移，不慎导致了 524 错误，但预计很快会随新的 API 设置解决。建议用户尝试新的 alpha 端点以获得更好的性能。
- 讨论强调，付费 Claude 模型运行稳定，而一些免费 Llama 模型尽管使用量较轻，却遇到了速率限制消息。
自定义 Provider Keys 咨询：成员们询问了申请自定义 Provider Keys 及其在账户维护之外的潜在好处。大家对这些 Key 如何增强他们的项目感到好奇。
- 有成员请求使用 Provider Keys 访问 beta 功能，其他成员也表达了探索自定义 Provider Keys 功能的热情。

aider (Paul Gauthier) Discord

Aider 0.62 功能提升：Aider v0.62 引入了对 Claude 3.5 Haiku 的全面支持，在代码编辑排行榜上获得了 75% 的分数。
- 此次更新包括应用来自 ChatGPT 或 Claude 的文件编辑功能，并解决了与创建新文件相关的 Bug。
LLM 性能：Sonnet 对比 Haiku：成员报告称，尽管 Haiku 成本更低，但在编码和调试任务中 Sonnet 的表现优于 Haiku。
- 与 Qwen 2.5 的对比显示，它处理编码任务的能力优于 Llama 3.1 405B。
Aider 配置管理：用户可以使用 .aider.model.settings.yml 配置 Aider 设置，并使用 .env 文件管理 API keys。
- 讨论了设置 OLLAMA_API_BASE 时遇到的挑战，一些用户质疑手动指定命令的必要性。
将 DeepSeek 与 Llama.cpp 集成：多位成员分享了使用 llama.cpp 运行 DeepSeek-V2.5 的经验，提到了模型大小和模板兼容性方面的挑战。
- 虽然一些人在特定模型上取得了成功，但其他人遇到了频繁的错误和模板不匹配。
Aider 中的命令执行错误：一位成员报告说，由于缺少文件规范，/lint 命令无法执行，尽管它在控制台中可以工作。
- 其他用户确认，在 Aider 中执行命令时，来自 Anthropic 的内部服务器错误可能会导致类似问题。

Nous Research AI Discord

TEE_HEE_HE Twitter 账号获救：团队正在努力解除 TEE_HEE_HE Twitter 账号 的限制，目前该账号似乎已恢复运行。
- 社区成员对账号重新激活后的互动表示兴奋。
Hermes 405B 恢复免费访问：Hermes 405B 在 PlayAI - HERmes 上再次可用，尽管存在一些延迟。
- 该功能的可用性被强调为至关重要，确认了尽管存在性能问题，可访问性仍具有优先权。
ML 项目的资金机会：一位用户讨论了申请 Microsoft for Startups 以获取其 ML 项目资金的事宜，并分享了申请资格标准。
- 他们提到有可能获得 $150,000 的 Azure 额度，并建议准备一份清晰的商业计划书以确保申请成功。
Venice AI 发布 Hermes 3 Abliterated：Venice AI 推出了 Venice.ai，引入了 Hermes 3 的新版本，名为 Abliterated，该版本为用户提供了更少的审查限制。
- 该服务旨在为主流 AI 应用提供一个无审查且私密的替代方案，强调用户隐私。
OpenAI Eval 功能的高昂成本：一位用户分享了在尝试不同 Prompt 时，对 OpenAI eval 功能 相关高昂成本的担忧。
- 他们强调需要清晰的数据格式，以简化未来的研究并提高数据收集效率。

Eleuther Discord

lm_eval 遇到 ‘out of memory’ 错误：在使用 accelerate 在 8xH100 上运行 lm_eval 时，一位用户在所有 loglikelihood 请求后遇到了 include/alloc.h:103 NCCL WARN Cuda failure 2 'out of memory' 错误。
- 手动调整 batch size 解决了该问题，该用户计划提交一个 issue 以寻求社区的进一步帮助。
硬件感知代数重写的挑战：成员们讨论了实现 硬件感知代数重写 (hardware-aware algebraic rewrites) 的复杂性，强调了将理论改进转化为实践的难度。
- Chhillee 指出，实现此类重写通常很难，特别是考虑到需要进行 backward pass 的适配。
Flash Attention 的演进：关于 Flash Attention 开发时间线的辩论兴起，有人声称在公开发布之前，各大实验室已有内部实现。
- Leloykun 指出，将 Attention 机制完善成当前形式花了五年时间，尽管对早期实现仍持怀疑态度。
探索 LLM 之外的 Autoencoders：一位成员询问了与 LLM 无关的 Autoencoders 使用经验，寻求他人的见解。
- 目前讨论中关于此话题的回复和专业知识相对有限。
ETH/EPFL 的 NLP 师资与研究：在讨论瑞士的研究机构时，EPFL 和 ETH Zurich 因其优秀的 NLP 师资被推荐。
- 对话还探讨了用户是否对工业实验室的机会感兴趣。

Stability.ai (Stable Diffusion) Discord

在 Windows 11 上安装 Stable Diffusion：一位成员请求在 Windows 11 上安装 Stable Diffusion 的帮助，并被引导查看置顶消息以获取全面的指南。
- 另一位用户询问了推荐的 checkpoints，强调了社区对可靠模型配置的重视。
SDXL 图像生成问题：一位新用户对 SDXL model 生成的低质量图像表示沮丧，暗示可能存在配置错误。
- 成员们针对图像尺寸和步数（step）设置提供了各种建议，以更好地符合 SDXL 的要求。
探索 Outpainting 技术：围绕使用类似于 TikTok 流行趋势的 outpainting 技术扩展图像展开了讨论。
- 分享了诸如 Outpainting Automatic1111 和 Stable Diffusion Art’s guide 等资源以辅助这些方法。
Stable Diffusion 中的 ControlNet 模型：一位成员询问了 controlnet-union-sdxl 与单个 ControlNet 模型相比的有效性。
- 提供了关于模型质量差异的见解，并讨论了 ControlNet 集成的潜在改进。
AI 图像扩展工具：针对 AI image expansion 的术语和应用产生了争论，提到了 Videoleap 和 CapCut 等工具。
- 尽管存在分歧，成员们还是澄清了在使用上述工具进行 AI image manipulation 背景下的功能和局限性。

LM Studio Discord

LM Studio 便携版：成员们询问了是否可以从 USB 驱动器运行 LM Studio，确认目前尚无便携版本。
- 有人建议使用脚本创建便携版，鼓励用户在 Discord 社区内搜索此类脚本。
Intel E-Cores 在 LM Studio 中的性能：讨论了 LM Studio 中 Intel E-Cores 的利用情况，建议将线程限制在性能核心（P-cores）以提高效率。
- 共识表明，虽然减少线程数可以提高性能，但对于某些用例，速度提升可能微乎其微。
LM Studio 中的自动加载模型功能：有人请求在 LM Studio 中加入 Auto Load Models 功能，以解决每次启动时手动选择模型的不便。
- 社区成员讨论了潜在的变通方法，包括在 UI 初始化后自动加载模型的脚本解决方案。
Llama 3.2 Vision 支持：强调了 Llama 3.2 Vision 的集成，指出其已出现在 Ollama 中，并在 MLX 中获得部分支持。
- 表达了对即将推出的 MLX 更新的期待，该更新将全面支持 Llama 3.2 Vision，增强 LM Studio 内的视觉功能。
LLM 基准测试标准：提议建立一个类似于 3DMark 的 LLM Benchmark，以标准化特定构建和软件版本的性能评估。
- 这样的基准测试将有助于创建性能排名和层级，为评估模型效率提供更清晰的指标。

Notebook LM Discord Discord

NotebookLM 与 Google Drive 同步：提出了在 NotebookLM 中集成 Google Drive 自动同步功能的建议，旨在通过减少手动同步来提升生产力。
- 用户目前每天同步约 70 次，希望这一集成能显著减轻其工作负担。
Diarization 增强播客转录：讨论了 Diarization（说话人日志）技术，作为一种通过区分录音中不同发言者来创建清晰播客转录的方法。
- 一位成员分享了代码细节，深入探讨了这种转录技术的实际实现。
Deepfakes vs Face Swap 技术：成员们辩论了 deepfake 与 face swap 技术之间的区别，阐明了各自的方法论。
- 讨论强调，虽然 deepfakes 利用现有素材来修改面部，但 Avatar（化身）则是更具合成性的表征。
Avatar 改变视频播客：一位用户展示了利用 Avatar 将播客内容捕捉为视频，旨在增强观众参与度。
- 他们建议为 Google 的创新管线优化这一方法，以提升播客体验。
从笔记简化播客生成：zzzuuu 透露了一种直接利用应用的对话功能从笔记生成播客的方法，简化了内容创作。
- 尽管方便，但他们丢失了原始的 reel 链接，强调了该功能内需要更好的链接管理。

GPU MODE Discord

FP8 量化的进展：讨论显示 FP8 quantization 运行在 FP8 x FP8 Tensor Cores 上，Neural Magic 在计算过程中利用动态量化进行加权。成员们分析了静态与动态量化之间的性能差异，指出在 Batch Size 为 1 时，静态量化优于动态量化。
- 基准测试强调，静态量化在单实例操作中表现更好，而测试中的差异展示了 AWQ、静态和动态量化方法之间不同的效率。
在 CUDA 中部署 Triton 编译的 PTX：成员们探索了在 Python 之外使用 CUDA launch 调用 Triton 编译的 PTX 的挑战，寻求最佳的启动参数。建议包括利用 ncu 来确定针对特定问题维度的精确 Block 和 Grid 大小。
- 对话还深入探讨了通过避免 autotune 并根据矩阵维度采用预定义设置来优化 Triton kernel 配置，从而缩短预热时间并适配不同的 GPU 架构。
Nebius 为 GPU 推出 Explorer Tier：Nebius 推出了 Explorer Tier，价格为每 GPU 每小时 $1.5，针对 NVIDIA H100 Tensor Core SXM GPU，面向个人研究者和小型项目。该层级提供即时访问，无需排队，在 GPU 租赁市场中具有竞争力。
- Nebius 征求社区对 Explorer Tier 的反馈，并强调他们致力于提供强大的自助服务平台，确保为大规模和个人计算需求提供充足的 A100/H100 GPU 可用性。
Liger Kernel v0.4.0 扩展 AMD 支持：Liger Kernel v0.4.0 的发布引入了完整的 AMD GPU 支持，实现了速度提升 26% 的多 GPU 训练。此更新增强了兼容性，并优化了针对 AMD 架构的训练管线。
- 此外，通过 2 级聚合改进 RMSNorm 聚合的提议以及 GroupNorm kernel 的实现，旨在保持与 Torch 实现的输出一致性，进一步完善 Kernel 性能和一致性。
Flux.1 模型的 JAX 实现：社区发布了 Black Forest Labs 的 Flux.1 模型的 JAX 实现，可在 GitHub 上获取。该项目邀请贡献并处理现有的 open issues 以增强代码库。
- 通过利用 JAX，该实现旨在为 Flux.1 系列提供强大支持，鼓励开发社区内的协作与创新。

LlamaIndex Discord

NVIDIA 开发者竞赛截止日期：NVIDIA 开发者竞赛的提交截止日期为 11 月 10 日，奖品包括 NVIDIA® GeForce RTX™ 4080 SUPER GPU 和 DLI 积分。
- 竞赛从 8 月 27 日持续到 11 月 10 日，鼓励开发者利用 NVIDIA 和 LlamaIndex 技术创建创新的 RAG 应用。
自动化简历洞察教程：一位成员分享了一个教程，关于如何利用核心解析、提取和结构化输出模块构建一个自动化的简历洞察 Agent。
- 这个实际案例展示了 AI 在简化招聘流程和改进候选人评估方面的潜力。
引用查询引擎增强：一位用户寻求关于增强 LlamaIndex 中引用的指导，表示现有的引用查询引擎功能不足。
- 另一位成员建议查看 Citation Query Engine Implementation 以进行更深入的自定义。
使用 LlamaParse 解析 Excel 文件：一位用户询问如何解析和索引杂乱的 Excel 文件，考虑将工作表转换为 Markdown 以嵌入到 vectordb 中。
- 建议尝试使用 LlamaParse，尽管该用户指出其项目的数据不能离开其云平台。

Latent Space Discord

Hunyuan-Large 发布，超越竞争对手：腾讯发布了 Hunyuan-Large，这是一个 389B MoE 模型，声称其在数据使用量更少的情况下，性能优于 DeepSeek-V2 和 Llama3-405B。欲了解更多详情，请阅读论文。
- 讨论中出现了关于其开源状态的争议，人们对模型权重是否等同于源代码持怀疑态度。
Integuru AI Agent 面临可行性质疑：Integuru AI Agent 被悲观地看待，被描述为“非常非常脆弱”，并可能因集成维护挑战而失败。
- 成员们对 API 变更影响性能的长期可行性表示担忧，建议采用带有视觉沙箱的备选方案。
OpenAI 收购顶级域名 chat.com：chat.com 最近易主，此前由 Dharmesh 以超过 1000 万美元的价格购得，现在推测被 OpenAI 以 1500 万至 2500 万美元的价格收购。
- 此次交易在域名销售额中名列前茅，引发了关于其对 OpenAI 在 AI 聊天领域品牌塑造影响的讨论。
Scale AI 为国家安全推出 Defense Llama：Scale AI 宣布推出 Defense Llama，这是一个专为美国国家安全量身定制的 LLM，是与 Meta 及国防专家合作开发的。
- 该模型现在可集成到美国国防系统中，突显了专用模型在敏感应用中的趋势。
Perplexity 的融资引发可持续性担忧：Perplexity 正在进行今年以来的第四次融资，估值倍数达到预期收入的 180 倍。
- 这种高估值引发了关于市场可持续性的辩论，批评者质疑此类融资轮次的长期可行性。

Interconnects (Nathan Lambert) Discord

Google 的 AI Agent Jarvis 曝光：一条推文宣布 Google 意外泄露了其基于计算机的 AI Agent，Jarvis。
- 这一发现引发了社交媒体的热议，成员们期待这款新 AI Agent 能带来更多关注。
法律纠纷中的 Perplexity 估值：根据一条推文，尽管与 NYT 及其他出版商存在持续的法律纠纷，AI 搜索初创公司 Perplexity 的估值倍数已接近远期营收的 180 倍。
- 这一潜在估值吸引了社区的关注，尽管一些成员对该初创公司的运营模式表示困惑。
语言与法律领域的交集：德语中的瑞典语：一位招聘人员分享了一个涉及用德语编写的“瑞典法律”案例，展示了 特定语言与法律领域的交集。
- 另一位成员指出，对于美国人来说，这种交集并非小众，因为 瑞典和德国 之间有着频繁的商业往来。
ChatGPT 性能追踪与 Prompt 漂移：讨论强调了 Prompt 变更 的重要性，以及需要主观感知之外的指标来评估 ChatGPT 的性能。
- 成员们推测 ChatGPT 可能使用了一套复杂的追踪系统，以监控与不同 Prompt 相关的性能细节。
内部 GPU 问题与 V100 的 SSH 访问：natolambert 表示想分享一些 内部 GPU 戏剧性事件，揭示了组织内部潜在的问题。
- xeophon. 提供了其 V100 GPU 资源的 SSH 访问 权限，展示了在内部挑战面前社区互助的意愿。

Cohere Discord

Cohere 揭秘 Bing 驱动的搜索片段：一位成员推测 ChatGPT 和类似模型利用 Bing API 生成响应，并使用了来自各种网络源的 片段 (snippets)。
- 关于搜索结果与训练数据之间平衡的精确决策过程仍不清楚。
Embed3 的多模态奇迹：超越 CLIP：一位成员对启动 embed3-multimodal 嵌入模型 项目表示出极大热情，认为它是对 CLIP 等早期模型的重大改进。
- 他们目前的重点是开发一个集成 PostgreSQL 并利用 Cohere.embed3 的 解析服务。
解析偏好：对于初创公司，API 服务胜过自托管：讨论强调了各种 解析服务，指出 Upstage/Pymu4PDF 比 Marker 等更昂贵的替代方案更有效。
- 虽然自托管对拥有充足计算资源的人有利，但一位成员主张 API 服务更适合初创公司的需求。
Cohere Reranker：确认仅限 API 访问：一位用户询问是否可以通过 API 获取 Cohere reranker。
- 另一位成员确认该功能 仅通过 API 提供。

OpenAI Discord

AI 故事写作焕然一新：一位成员对 AI 现在的故事情节创作能力感到 由衷惊讶，并指出早期的输出非常乏味且 可预测。
- 他们提到，尽管 Prompt 是自己创建的，但仍对目前的质量感到惊喜。
GitHub Copilot 发布 Sonnet 和 o1：GitHub Copilot 现在除了 o1 之外还包含了 Sonnet，这表明 AI 编程辅助工具在持续增强。
- 此次更新表明，持续的改进旨在为开发者提供更多样化的编程选项。
摘要工作流中的 LLM 幻觉：一位成员对使用 GPT-4o 进行文档摘要时可能出现的幻觉表示担忧，尤其是在扩展到生产环境时。
- 另一位成员建议实施第二次 LLM 传递 进行事实核查，以降低这些风险。
LLM 摘要中人工监督的本质：参与者强调，在使用强大的模型进行摘要任务时，引入 人类领域专家 是必要的。
- “你真的必须让那个人……参与其中（human in the loop）来盯着并进行复核，” 强调了人工监督的重要性。
克服 JSON 数据处理与 Token 限制：用户讨论了由于 Token 限制 导致处理大型 JSON 文件时面临的挑战，这会导致数据处理不完整。
- 虽然考虑了数据分块等解决方案，但仍在寻找其他方法以避免使未来的任务复杂化。

tinygrad (George Hotz) Discord

最小化 TokenFormer 移植到 Tinygrad：TokenFormer 的一个最小化实现已成功移植到 tinygrad，增强了推理和学习能力。该仓库已在 GitHub 上发布。
- 此次移植旨在改进模型实现和性能，讨论重点集中在未来与其他框架集成的可能性。
Hailo 逆向工程启动：一位成员已开始 Hailo 逆向工程过程以开发新的加速器，并对在对接 ONNX、Tinygrad 和 TensorFlow 时需要多次编译 Kernels 表示担忧。
- 他们的目标是在不同运行之间保持 kernel 的一致性，特别是使用 BEAM=2 时，以优化逆向工程的效率。
CUDA WMMA 布局差异：关于 CUDA WMMA 中 A 的布局出现了疑问，因为它偏离了 NVIDIA 文档。
- 成员们寻求对 ops_python 映射函数的澄清，以解决与实际 TC implementation 不匹配的问题。
Tinygrad 增强与协作：社区讨论了 tinygrad 的增强功能，包括改进模型实现以及探索与其他框架的集成。
- 成员们对协作开发表现出兴趣，并建议组织月度会议来讨论正在进行的项目并收集反馈。
Tinygrad 模型的性能指标：围绕为 tinygrad 实现的模型建立性能指标展开了讨论，并提出了标准化基准测试（benchmarking）的建议。
- 社区成员一致认为，共享指标将有助于评估进度并吸引更多用户加入该项目。

OpenInterpreter Discord

寻求工具接口标准：一位成员讨论了比较工具接口，强调了在多样化框架中进行标准化的必要性。
- 另一位成员幽默地指出，由于现有框架数量众多，提供具体细节具有挑战性。
OS 模式目前仅支持 Anthropic 模型：成员们确认新的 OS mode 专门支持 Anthropic models，预计很快会发布修复方案。
- 一位成员提到计划在明天的家庭聚会上尝试进行 demo 展示。
Claude Computer Control 详解：OS mode 利用 Claude Computer Control 来执行鼠标点击，详见代码。
- 一位成员寻求关于 prompt 如何转化为桌面动作（包括代码生成和鼠标点击）的澄清。

Modular (Mojo 🔥) Discord

C_Buffer 结构优化提升性能：一位成员宣布了对 C_Buffer 结构的更改，预计在 Mojo 中开发其 matmul kernel 时会获得更好的性能结果。
- 他们将此归功于社区提供的见解，这些见解促使他们使用 pointers（指针）代替列表（lists），从而实现了更快的运行速度。
指针增强 Mojo 的 matmul kernel：通过从列表切换到 pointers，一位成员报告了其在 Mojo 中的 matmul kernel 性能得到了加速。
- 这一变化预计将简化计算并更有效地利用 Mojo 的能力。
边界检查影响列表结构性能：一位成员寻求关于导致列表结构变慢的具体额外安全边界检查（additional security bounds checks）的信息。
- 另一位成员解释说，除了 C 语言之外，这些检查在大多数编程语言中都是通用（generic）的，并引用了 C++ 推荐的索引方法。

OpenAccess AI Collective (axolotl) Discord

ScheduleFree SOAP 效率提升：据报道，ScheduleFree SOAP 实现比传统 SOAP 更具计算效率、内存效率，并且通过支持更高的学习率实现更快的收敛。
- 这些效率提升使其成为一个极具竞争力的优化器，特别侧重于快速的 _foreach 和 PaLM 版本。
ScheduleFree SOAP 的超参数调整：使用 ScheduleFree SOAP 获得最佳性能需要调整超参数：它使用 PaLM 的 beta2 schedule，将 ‘betas’ 重命名为 ‘beta’，并支持学习率 10 倍的增加。
- Warmup 是必不可少的，文献中建议为 10%，尽管 100 steps 就足以启动有效的训练。
Llama 3.2 发布后对 MOEs 和模型合并的兴趣下降：一位成员指出，自 Llama 3.2 发布以来，围绕 Models of Experts (MOEs) 和模型合并的讨论有所减少。
- 这表明关注点发生了转移，并对这些策略在不断演变的环境中的当前相关性提出了质疑。
CAME 与 ScheduleFree SOAP 的对比分析：目前正在进行关于 ScheduleFree SOAP 与 CAME 的对比讨论，重点关注性能指标和效率。
- 这种对比反映了社区对评估优化技术最新进展的兴趣。
Zero2 性能问题与 Zero1 故障排除：据报道 Zero2 极其缓慢，导致用户在寻求修复的同时考虑回归 Zero1。
- 用户正在积极探索增强 Zero1 性能的解决方案，将其作为备选方案。

LAION Discord

Resemble Enhance 因伪影（Artifacts）受到批评：一位用户询问语音增强器，并被引导至 Resemble Enhance。
- 来自德国的 Spirit 对其进行了测试，发现由于存在伪影（artifacts），结果不尽如人意。
语音增强器的性能受到审查：社区讨论了各种语音增强器的性能，并分享了他们的经验。
- 关于伪影（artifacts）以及 Resemble Enhance 等工具整体有效性的担忧被显著强调。

DSPy Discord

RLhF 开放世界奖励转换查询：一位成员提出了一个关于 RLhF (Reinforcement Learning from Human Feedback) 范式的理论问题，特别是关于在开放世界场景中，除了简单的硬标签（hard labeling）之外，如何将文本反馈转换为数值奖励。
- “除了硬标签之外没有其他方法吗？” 这表明了对更灵活的反馈机制的好奇。
DSPy 系统文档显示的组件细节有限：另一位成员报告称，在一个序列化的多组件 DSPy 系统中，lm.history() 函数仅显示第一个组件的 doc string，而中间类的细节较少。
- 这引发了关于这种行为是预期的，还是表明了复杂系统文档生成方式存在局限性的疑问。

Torchtune Discord

KD-div 对 Cross-Entropy 的误解：有人指出，虽然被称为 KD-div，但其返回值实际上是 cross-entropy，这在与 KL-div 等其他损失函数进行比较时可能会导致误解。
- 这种混淆特别出现在交换 teacher 和 student logits 的过程中，通常被称为 reverse KL。
Cross-Entropy 优化标签演化：一种观点认为，针对 cross-entropy 进行优化感觉更直观，它将损失函数从常规的硬标签 (hard labels) 扩展到了由 teacher model 生成的软标签 (soft labels)。
- 这一观点强调了从训练中的硬标签到微调中的软标签的自然演进过程。

Alignment Lab AI Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

LLM Agents (Berkeley MOOC) Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期保持沉默，请告知我们，我们将将其移除。

PART 2: 按频道划分的详细摘要和链接

完整的逐频道详情已在邮件中截断。

如果你想查看完整的详情，请访问此邮件的网页版：！

如果你喜欢 AInews，请分享给朋友！提前感谢！

今天没发生什么事。