宁静的一天正是你所需要的。

2024/11/29-2024/12/02 的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitters 和 29 个 Discords（198 个频道和 4766 条消息）。预计节省阅读时间（按 200wpm 计算）：563 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论！

没有大事发生，但有很多值得注意的小事：

以及一些预告（尚未发布产品）：

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 综述

所有综述均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

主题 1. 语言与视频模型：创新与优化

Nvidia Puzzle：基于蒸馏的 LLMs 神经网络架构搜索 (NAS)：@_akhaliq 分享了 Nvidia 关于 Puzzle 的演讲，这是一种针对推理优化型 Large Language Models 的基于蒸馏的神经网络架构搜索 (distillation-based neural architecture search)。该方法旨在提高模型部署的效率和性能。
- 社区强调的关于有效性和应用的讨论展示了人们对这种优化技术的兴奋。
IC-Light V2 模型发布：@_akhaliq 讨论了专为各种照明场景设计的 IC-Light V2 替代模型，并提供了一个展示其潜在应用的 Demo。
视频模型的 Trajectory Attention 与 Timestep Embedding：@_akhaliq 介绍了用于细粒度视频运动控制的 Trajectory Attention，以及作为视频扩散模型缓存机制的 Timestep Embedding。这些技术在视频运动精度和效率方面取得了进展。

主题 2. AI 推广与合作

Amazon 与 Anthropic 建立合作伙伴关系：@DeepLearningAI 报道了 Amazon 增加投资的消息，使其对 Anthropic 的总承诺投资额达到 80 亿美元——这对该初创公司的增长和 AI 能力是巨大的推动。
AI 奖学金与安全研究：@AnthropicAI 正在启动一项奖学金计划，计划为工程师和研究人员提供资金和指导，以转型从事 AI safety research。研究员将与资深研究人员合作，开展涉及 adversarial robustness（对抗鲁棒性）、scalable oversight（可扩展监督）等项目。
Google 在 AI 领域的扩张：@osanseviero 宣布加入 Google，负责 Gemini API、开放模型以及 Colab 和 AI Studio 等协作空间，这表明 Google 正在推动更广泛的 AI 整合。

主题 3. 域名与在线身份

关于 .com 主导地位的辩论：@adcock_brett 认为 .com 域名对于公信力并非必要，主张将资金投入到产品和品牌建设上，而不是购买溢价域名。
- 进一步的讨论（推文, 推文）强调了 .io、.ai 和 .co 等替代域名后缀在科技和初创环境中的相关性和影响。

主题 4. 推理与 AI Agents 的进展

LLMs 中的逆向思维增强推理能力：@iScienceLuvr 分享了关于 Language Models 中“逆向思维”的见解，通过训练 LLM 从解决方案开始反向推理，其性能比标准方法提高了 13.53%。
基于 Pydantic 的新 Agent 框架：@omarsar0 宣布推出 PydanticAI agent framework，强调使用类型安全 (type-safe)、模型无关 (model-agnostic) 的方法来构建生产级应用，并支持结构化响应验证 (structured response validation) 和流式响应 (streamed responses)。

主题 5. 机器学习幽默与轻松互动

AI 中的创意策略：@goodside 幽默地策划了一些让 ChatGPT 难以处理的作业，特别提到将“David Mayer”这个名字作为可能让 AI 用户感到困惑的关键词。
- 像“以图片形式布置作业”这样的梗探索了与学生之间的趣味互动。
关于 AI 实践的新颖视角：@swyx 鼓励在 AI 驱动的内容中使用富有创意和表现力的散文，反对单调的风格，强调书面交流中的多样性和人文元素。
探索 AI 对文化和参与的影响：@karpathy 经常分享关于 AI 如何影响和改变文化参与的见解，为围绕 AI 及其社会影响的讨论增添了乐趣和幽默。

AI Reddit 综述

/r/LocalLlama 综述

主题 1. 中国模型占据主导地位：QwQ-32B 与 DeepSeek 表现超越 GPT-4

QwQ vs o1, etc - illustration (Score: 117, Comments: 68): 一份视觉对比展示了 QwQ 与其他模型在四个技术基准测试中的性能指标：GPQA、AIME、MATH-500 和 LiveCodeBench，并引用了早前 Qwen 2.5 vs Llama 3.1 的对比。这些基准测试评估了研究生水平的科学知识（GPQA，非专家基准准确率为 34%，博士专家为 65%）、高级数学问题解决能力（AIME）、综合数学能力（MATH-500）以及实时编程能力（LiveCodeBench）。
- QwQ 32B 8bit 展示了卓越的推理能力，正确解决了“GPT-4 can’t reason”论文中的所有提示词，对于像 Wason Selection Task 这样的问题，其冗长的内部对话耗时高达 30 分钟。
- 用户发现 Ollama 默认的 2k Context Size 可能会限制 QwQ 的推理 Token，建议使用 Exllamav2 或 Koboldcpp 以获得更好的性能和 VRAM 利用率。该模型可以与 Qwen2.5-coder-0.5B 或 2.5-0.5-Instruct 配对作为草稿模型进行 Speculative Decoding。
- 该模型表现出多语言推理能力，在其 Chain of Thought 过程中会在 English、Chinese、Russian 和 Arabic 之间切换。正如 Karpathy 所指出的，这种行为表明了正确的 RL 实现。
Open-weights AI models are BAD says OpenAI CEO Sam Altman. Because DeepSeek and Qwen 2.5? did what OpenAi supposed to do! (Score: 502, Comments: 205): 来自中国的 DeepSeek 和 Qwen 2.5 等开源 AI 模型展示了足以媲美 OpenAI 闭源模型的能力，引发了关于模型可访问性的公众讨论。作为回应，Sam Altman 在接受 Shannon Bream 采访时表达了对 Open-weights 模型的担忧，强调了维持美国在 AI 发展中相对于中国的领导地位的战略重要性。
- OpenAI 被感知的停滞以及对 Scaling/Compute Power 的依赖正受到批评，用户指出考虑到新兴的竞争，其 1570 亿美元 的估值似乎并不合理。随着开源模型的追赶，该公司似乎正在失去其竞争优势或“Moat”（护城河）。
- 用户指出了 Sam Altman 此前对 Open-weights 模型安全担忧的讽刺之处，因为更好的开源替代方案已经出现，却并未造成预言中的危害。多条评论引用了他早些时候给 Elon Musk 承诺开放的电子邮件，与其现状形成鲜明对比。
- 技术讨论强调，虽然 OpenAI 的 Advanced Voice Mode 仍具独特性，但通过 Whisper、LLM 和 TTS 技术的结合，竞争方案正在涌现。用户争论 OpenAI 的领先地位是源于真正的创新，还是主要依靠营销和计算资源。

Theme 2. JPEG Compression for LLM Weights: Novel Research Direction

Thoughts? JPEG compress your LLM weights (Score: 142, Comments: 64): JPEG 压缩技术可以应用于 LLM 权重存储，尽管本帖未提供具体的实现细节或结果。该提议将图像压缩与神经网络参数压缩进行了类比，提出了潜在的存储优化方法。
- 社区质疑集中在矩阵重排（Matrix Reordering）的不切实际性上，专家解释说，同时重排行和列会破坏矩阵乘法的特性。多位用户指出，神经网络权重的行为更像是随机噪声，而非结构化的图像数据。
- 技术讨论显示，尝试实现类似压缩技术的尝试结果微乎其微，一位用户报告使用 Simulated Annealing（模拟退火）仅能减少“几个百分点”的权重分布。另一位用户分享了将 Tensor 转换为 16-bit Grayscale PNG 文件的经验，该方法可以无损工作，但在使用 JPEG 压缩时失败了。
- 几位专家建议坚持使用现有的量化方法，如 AWQ 或 GPTQ，并指出 LLM 权重缺乏使 JPEG 压缩有效的空间模式。讨论强调，权重并不遵循传统压缩算法可以利用的规则统计分布。

Theme 3. Qwen 2.5 Powers Hugging Face’s Text-to-SQL Feature

Hugging Face 在所有 25 万+ 公共数据集上添加了 Text to SQL 功能 - 由 Qwen 2.5 Coder 32B 驱动 🔥 (Score: 98, Comments: 11): Hugging Face 在其 250,000+ 公共数据集中集成了 Text-to-SQL 能力，采用 Qwen 2.5 Coder 32B 作为底层模型。该功能支持将直接的自然语言查询转换为 SQL 语句进行数据库交互。
- Hugging Face 团队成员确认该功能使用 DuckDB WASM 进行浏览器内 SQL 查询执行，并配合 Qwen 2.5 32B Coder 进行查询生成，同时欢迎用户提供改进建议。
- 用户对该工具帮助 SQL 经验较少的人员的潜力表示热烈欢迎，有人指出它解决了数据集交互中的一个重大痛点。
- 该公告引发了一些关于内置五彩纸屑动画以及减少对直接 SQL 知识依赖的趣味性回应。

主题 4. Fox News 将开源 AI 视为国家安全威胁

开源 AI = 国家安全：监管呼声日益高涨 (Score: 101, Comments: 70): Fox News 播出了一段节目，声称开源 AI 模型对美国国家安全构成风险，尽管报道中未提供具体细节或证据。这一叙事加剧了媒体关于开源 AI 开发潜在监管的讨论，但缺乏实质性的技术分析。
- 据报道，像 Deepseek R1 和 Qwen 这样的中国 AI 模型已经领先于 Meta 的 Llama 等美国开源模型。多位用户指出，中国的顶级模型并非基于 Llama，这反驳了开源有助于中国发展的说法。
- 用户批评推动监管是试图强制执行 AI 垄断和企业控制。社区认为，限制美国的开源开发实际上会将整个开源模型领域拱手让给已经在发布顶级开源模型的中国。
- 讨论强调，在过去的 40 年里，开源技术已被证明比闭源替代方案更安全。用户认为，阻止开源开发将损害创新和协作，同时让 Microsoft、OpenAI 和 Anthropic 等大型科技公司受益。

其他 AI 子版块回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

主题 1. StreamDiffusion 为演唱会现场 AI 视觉效果提供动力

Bring Me The Horizon 使用实时 img2img？ (Score: 337, Comments: 62): Bring Me The Horizon 的演唱会在现场表演中展示了实时 img2img AI 视觉效果。该帖子询问了在现场演唱会环境中实现实时 AI 图像生成和转换的技术工作流。
- StreamDiffusion 似乎是实时 AI 视觉效果的领先解决方案，在 RTX 4090 上可达到 90 FPS。用户 tebjan 为 vvvv 创建的演示包展示了相关实现，示例可在 Instagram 和 Google Photos 上查看。
- 视觉一致性通过一种巧妙的技术来维持：视频源大于显示的裁剪区域，使得物体即使在离开可见屏幕时也能保留在生成帧内。多位用户报告在 Download Festival 的 Avenged Sevenfold 表演中看到了类似效果。
- 社区反应不一，对时序一致性（temporal consistency）问题和整体美学质量存在大量批评。Download Festival 的一次技术故障凸显了局限性：当 A7X 的演出断电时，AI 效果在没有上下文的情况下仍在继续运行。

主题 2. Haiku vs ChatGPT：免费版对比显示 ChatGPT 领先

Haiku 表现糟糕。 (Score: 233, Comments: 114): 一位用户对 Claude Haiku 表示失望，认为它明显逊于 ChatGPT 的免费层级。尽管尝试坚持使用，但在之前使用过 Claude/Sonnet 后，最终还是回到了 ChatGPT。该用户居住在第三世界国家，认为高昂的订阅费用是获取 Sonnet 等高级 AI 模型的主要障碍，并希望未来这些模型能提高可及性。
- 区域定价是 Claude 可及性的一个重要问题，用户指出在委内瑞拉等国家，订阅费用相当于 2 个月的最低工资收入。一些用户建议通过创建多个 Google accounts 来使用 Poe，或者使用提供每分钟 100 万 tokens 免费额度的 Google AI Studio。
- 用户报告称，与 ChatGPT 的免费层级以及 Llama 或 Qwen 等本地模型相比，Haiku 的表现较差。目前 ChatGPT 被认为在免费和付费层级中都最具性价比，不过也有人建议将 DeepSeek（每天 50 次免费使用）作为替代方案。
- Sonnet 最近的限制（每周 50 条消息）令用户感到沮丧，许多人报告称需要大幅缩减项目文件大小并精简 prompt。一些用户将此归因于 Anthropic 在被 Amazon 收购后转向以 B2B 为重点。

主题 3. World Labs 融资 2.3 亿美元的 AI 初创公司推出 3D 场景生成

来自 World Labs 的首个 Demo - 由 Fei Fei Li 领导的 2.3 亿美元初创公司。走进图像并与之互动！ (Score: 209, Comments: 43): 由 Fei Fei Li 领导的 World Labs 推出了一套将图像转换为交互式 3D 场景的系统。这家筹集了 2.3 亿美元资金的初创公司，让用户能够走进由 2D 图像生成的 3D 环境并进行互动。
- 技术分析显示，该系统可能使用 Gaussian splats 进行渲染，植被中的半透明椭圆以及其 threeviewer_worker.js 文件中的引用证明了这一点。该技术似乎是 2.5D 的，移动范围有限以避免伪影。
- 该项目可以通过 WorldLabs.ai 访问，为现代设备提供实时渲染器，并为旧款移动设备提供预渲染视频的备用版本。场景生成可能需要 5 分钟以上，之后即可进行实时渲染。
- 围绕 2.3 亿美元融资的讨论引发了关于投资价值的辩论，一些人认为这是前沿技术开发，而另一些人则质疑这种在他们看来是高级 HDRI 生成的技术是否值这个价。几位用户提到了潜在的 VR 应用和 metaverse 影响。

主题 4. AI 超越人类基准引发测试辩论

AI 在大多数基准测试中已迅速超越人类，需要新测试来发现剩余的人类优势 (Score: 281, Comments: 146): AI 系统在大多数标准评估基准上已超越人类基准线，这使得准确衡量人类剩余的认知优势领域变得困难。AI 基准测试饱和的飞速进展表明，需要开发新型测试，以更好地识别和量化人类特有的能力。
- LLM 在复杂的代码合成任务和 ARC Challenge 中显示出局限性，用户指出 AI 在 SAT 题目等基准测试上的表现可能受到现有测试数据训练的影响，而非真正的理解。
- 用户强调了现实世界中的表现差距，分享了 prompt engineering 耗时远超手动工作的例子，其中一位用户描述了一个案例：他们的老板花了 2 天时间尝试完成他们 30 分钟就能搞定的工作。
- 讨论强调了社会影响，对未来 2-3 年内的失业问题表示担忧，并认为劳动者需要制定“B 计划”职业策略；而另一些人则指出，尽管 Wolfram Alpha 拥有卓越的数学能力，但并未取代专业职业。

AI Discord 摘要

由 O1-preview 生成的摘要之摘要的摘要

主题 1. 挑战极限：AI 训练与优化新突破

Nous DisTrO 席卷去中心化训练：Nous Research 启动了使用 DisTrO 的 15B 语言模型去中心化预训练，利用了来自 Oracle 和 Lambda Labs 等合作伙伴的硬件。他们达到了中心化训练的指标，其 DeMo optimizer 减少了加速器间的通信。
自制 CUDA Kernel 在 H100 上击败 cuBLAS：一个自定义的 H100 CUDA matmul kernel 在 N=4096 时性能超过 cuBLAS 7%，证明了有时编写自己的代码是值得的。
FP8 训练变得更简单：不再需要动态缩放！：一种新方法通过使用 unit-scaling 库实现了开箱即用的 FP8 训练，无需动态缩放。低精度训练变得更加简单。

主题 2. AI 工具变得更聪明：不容错过的更新

Aider v0.66.0 编写了大部分自身代码！：最新的 Aider 版本为 Sonnet 和 Gemini 模型增加了 PDF 支持，并引入了带有 AI! 注释的 AI 触发代码编辑功能。令人印象深刻的是，82% 的代码是由 Aider 自身编写的。
Cursor IDE 更新引发争议，但 Agent 功能大放异彩：Cursor 移除了 long context option，令用户感到沮丧。然而，新的 agent 功能被誉为“高级开发人员”助手，使编码更加顺畅，尤其是在小型项目中。
OpenRouter 让用户通过功能投票引导开发：OpenRouter 推出了 Feature Requests Voting 系统，邀请用户对新功能进行投票，推动社区驱动的开发。

主题 3. AI 模型集成与训练中的障碍

微调 Qwen 2.5？别忘了“秘方”！：用户强调在微调 Qwen 2.5 时需要使用 Qwen 特定的 ChatML 模板，并警告不要使用默认选项以避免出现问题。
Stable Diffusion 与 Lora 模型：集成的烦恼：尽管遵循了所有步骤，用户在 Stable Diffusion 中运行 Lora 模型时仍遇到困难，这指向了集成过程中可能存在的 Bug 或被忽视的步骤。
CUDA 错误影响进度？试试量化魔法：面对加载大模型时的 CUDA 错误和 VRAM 限制，用户建议切换到更小的量化格式，或选择具有更好 GPU 支持的其他云服务商。

主题 4. AI 模型性能：各有所长

Claude 擅长聊天；ChatGPT 擅长说教：各取所需：用户对比了 Claude 和 ChatGPT，指出 Claude 提供更具亲和力的对话，而 ChatGPT 提供深入的哲学见解，使其更适合结构化讨论。
谷歌的 Gemini 模型难以获取：OpenRouter 用户抱怨谷歌实验性模型（如 Gemini Pro 1.5）的 rate limiting，怀疑谷歌严格的限制导致了连接问题。
GPT-4 无法查看你的图像，用户对此不满：由于 GPT-4 反复无法处理图像，并返回“I currently can’t view images directly”之类的错误，阻碍了生成准确图像说明等任务，用户的沮丧情绪在蔓延。

主题 5. 微调未来：高效 AI 成为主流

等变网络证明了其在数据效率方面的价值：研究表明，equivariant networks（等变网络）提高了刚体交互中的数据效率，优于非等变模型，尤其是在数据有限的情况下。
ThunderKittens 需要一些自动优化支持：受类似 DSL 经验的启发，有人提议为 ThunderKittens 开发一个 auto optimizer，以最大化其“一次编写，多次运行”的潜力。
混合精度推理：精度检查变得棘手：深入研究 vLLM 混合精度推理的开发人员讨论了验证 kernel 执行精度的挑战，并指出了当前分析工具的局限性。

第一部分：高层级 Discord 摘要

Cursor IDE Discord

Cursor IDE 更新问题：用户报告了最新 Cursor changelog 的问题，特别是 Composer 无法应用更改以及缺失 ‘Apply’ 按钮，导致功能使用受阻。
- 此外，多位用户注意到自最近更新以来，Chat 中的 long context 使用被移除或表现不稳定。
Composer 与 Chat 模式对比：在 Cursor IDE 中，用户正在对比直接修改文件的 Composer 模式与提供内联更改的 Chat 模式，讨论它们的局限性和功能差异。
- 用户希望改进两种模式之间的集成，例如高效地将讨论从 Chat 转移到 Composer。
Windurf 与 Cursor IDE：用户正在探索 Windurf 作为 Cursor IDE 的潜在竞争对手，指出其在处理 terminal 输出和 codebase search 方面表现出色。
- 虽然 Windurf 展现出潜力，但 Cursor 在特定工作流中仍保持优势；不过，用户对两者的体验评价不一。
Cursor IDE 中的 API Key 限制：讨论强调了 Cursor API 使用的限制，一些用户选择使用自己的 API Key 以获得更多灵活性。
- 社区正在寻求改进 API 调用限制的管理，并增强对活动项目的 context 收集能力。
Cursor 中的 Context 管理：用户对 Cursor IDE 目前的 context 处理表示不满，特别是关于 Claude 的限制。
- 社区倡导更好的 context 管理功能和一致性，以改进其编码工作流。

OpenAI Discord

Anthropic 的 MCP 框架让 Claude 能够作为 API 运行：Anthropic 发布了新的 MCP 框架，使 Claude 能够运行服务器，有效地将 Claude 应用转变为 API。
- 这一进展允许 Claude 在本地创建、读取和编辑文件，引发了用户对与 VSCode 等工具进行实时交互的兴奋。
Gemini 与 ChatGPT 的响应约束对比：Gemini 经常出于所谓的道德原因拒绝回答无害的问题，而 ChatGPT 被认为在响应上更加宽松。
- 用户幽默地指出了 Gemini 拒绝讨论人工智能的案例，以避免参与敏感话题。
Claude 3.5 Sonnet 成为图像描述（Image Captioning）的替代方案：由于 OpenAI 的 vision 能力持续存在问题，用户建议在图像描述任务中切换到 Claude 3.5 Sonnet。
- 社区成员指出 Claude 3.5 Sonnet 提供了更可靠的功能，帮助用户避免项目延迟。
Windows 版 ChatGPT 集成语音转文字（Speech-to-Text）功能：一位用户询问如何在 Windows 上为 ChatGPT 实现语音转文字功能，建议使用内置的 Windows 辅助功能，通过按下 Windows + H 来实现。
- 这种方法为与 ChatGPT 交互时将语音转换为文字提供了实时解决方案。
与 ‘strict’ 放置错误相关的结构化输出（Structured Output）错误：用户报告在使用 structured outputs 时遇到随机的 ‘object’ 包装器，这被追溯到 ‘strict’ 设置的位置不正确。
- 经过广泛调试，确认误放 ‘strict’ 会导致持续的 structured output 错误。

aider (Paul Gauthier) Discord

QwQ 模型配置协商：用户讨论了在 architect mode 下部署 QwQ 模型，并配合标准模型处理代码命令，寻求关于互换性的明确说明。
- Aider 促进跨项目的模型定义，提升灵活性 Advanced model settings。
DeepSeek-R1 创下新基准：DeepSeek-R1 在 AIME & MATH benchmarks 中取得了卓越成绩，强调了其开源可用性和实时推理能力。
- 社区成员希望 DeepSeek 发布模型权重，以便集成到与 QwQ 的 ensemble frameworks 中。
优化 Aider 的本地模型设置：成员们协作配置 .aider.model.metadata.json 和 .aider.model.settings.yml 文件，以在 Aider 中定义本地模型。
- 将编辑格式选择为 ‘whole’ 或 ‘diff’ 会显著影响响应结构和编辑效率。
OpenRouter 的挑战影响 Aider：参与者发现 OpenRouter 存在影响本地服务器模型检测和功能的问题。
- 有人担心伪造的实现可能会改变模型的输出和行为。
QwQ 与 DeepSeek 的集成框架：一位用户表示打算在 ensemble frameworks 中集成 QwQ 和 DeepSeek 模型，以增强推理能力。
- 这种方法旨在利用两种模型的优势来提高性能。

Unsloth AI (Daniel Han) Discord

Unsloth 微调注意事项：用户讨论了 instruct 与 non-instruct 微调的优劣，建议对超过 1k 条记录 的数据集使用 base models，并建议对 70k 条记录 左右的数据集尝试使用 instruct 模型。
- 建议参考 Unsloth Documentation 了解数据集格式规则，强调合规性对有效微调的重要性。
Unsloth 数据隐私措施：Unsloth 被确认在微调期间不会向外部传输数据，而是依赖用户选择的平台，如 Google Colab。
- 这一保证解决了处理敏感信息的用户对遵守严格数据隐私政策的担忧。
RAG 计算成本挑战：讨论强调，由于广泛的 context length 需求，retrieval-augmented generation (RAG) 可能导致高计算成本，如 Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs 中所述。
- 用户正在平衡性能与效率，特别是在知识密集型任务中，研究结果支持 RAG 优于微调。
LLama 3.1 OOM 错误解决方案：在对 LLama 3.1 8B 模型进行持续预训练时遇到 out of memory (OOM) 错误，建议使用更大的 GPU、减小数据集规模或降低 batch size。
- 这些策略旨在缓解显存问题，确保大规模模型的训练过程更加顺畅。
Latent Paraphraser 架构增强：latent paraphraser 被解释为对 Transformer 架构的一种修改，增加了一个层来重新分配 token 的概率。
- 这种增强通过在处理过程中最小化未见 token，改善了输入锚定 (input grounding) 并减少了噪声。

Perplexity AI Discord

Perplexity Pro 节日折扣：Perplexity 团队宣布了 Perplexity Pro 首月 2.5 折（75% off）的促销活动，截止时间为 太平洋时间 12 月 2 日星期一晚上 11:59。新用户可以借此访问包括增强搜索和文件上传在内的高级功能。
- 该优惠还包括通过 Buy with Pro 实现的一键购物和免费送货，旨在简化用户在节日期间的购物体验。
Perplexity 与 Claude 的集成：用户询问如何利用新的 MCP 功能将 Perplexity 集成到 Claude 中（类似于其与 Brave 和 GitHub 的功能），通过利用 Claude 的 Project Knowledge 来提升性能。
- 此外，还有关于在 Claude 中集成 Google 可能性的提问，突显了用户对利用搜索功能的兴趣。
Perplexity 图像生成功能：讨论了该平台的图像生成能力，并确认可以通过电脑在线使用，无需额外费用。
- 用户探索了这些功能的范围，考虑了它们的可访问性以及在各种项目中的潜在应用。
RBAC 与 ABA 访问控制模型：一位成员寻求关于 RBAC (Role-Based Access Control) 和 ABA (Attribute-Based Access Control) 系统之间区别的澄清。
- 这一讨论强调了在技术实现中理解访问控制模型的必要性。
Claude Spaces 中的自定义指令：用户提出了关于 Claude spaces 自定义指令有效性的问题，这些指令似乎与现有的“自我介绍”提示词存在冲突。
- 用户正在寻求关于这些指令应如何交互以及是否可以有效结合的指导。

LM Studio Discord

HF 搜索问题已解决：HF 搜索无法工作的问题已得到解决，这让用户松了一口气。
- 附带了一张图片来纪念这次修复，标志着社区的一次积极更新。
LM Studio AIDE 集成成功：用户成功将 LM Studio 端点集成到 AIDE sidecar，实现了完全本地的代码编辑器体验。
- 这一集成为寻求本地开发环境的用户增强了功能。
Llama 3.1 模型可访问性：一位用户询问如何在 LM Studio 中获取 Llama 3.1 8B 的基础模型（base model），并指出似乎只有指令微调（instruction-tuned）变体可用。
- 社区成员指出 huggingface 仓库是获取基础模型的潜在来源。
a770 性能逊于 7800xt：一位成员分享称，他们的 a770 在运行 Qwen2.5-14b q4_0 时仅达到了 11t/s，远低于 7800xt 达到的 40t/s。
- 他们指出 q4_k_m 无法使用，但发现 sycl 后端的速度提升微乎其微。
Seasonic PSU 寿命获赞：一位成员提到，尽管由于灰尘原因每隔几年就要更换一次 PSU，但他们的 Seasonic PSU 寿命比其他 PC 组件都要长。
- 他们形容对该 PSU 性能的体验是“令人惊讶地”满意。

Eleuther Discord

资源竞争的缓解 (De-escalation of Resource Contention)：成员们强调了对资源竞争缓解及其对不受监管的互联网增长影响的担忧，质疑 AI 驱动的隐私解决方案的有效性。他们强调了识别流氓 AI 攻击预警信号以保护脆弱设备的重要性。
- 讨论强调了在 AI 保护中需要社区领导力，以减轻与资源竞争和未经授权的 AI 活动相关的风险。
庞加莱球嵌入 (Poincare Ball Embedding) 解析：将数据嵌入到庞加莱球 (Poincare ball) 中可以确保具有较高度数的点更接近原点，在过渡到曲率较小的区域时保持邻接性。这种方法有助于表示复杂的层级结构。
- 一位成员指出了庞加莱球边缘的概念性挑战，指出它代表了一个点无法物理驻留的无穷远点，这引发了进一步的技术讨论。
等变网络 (Equivariant Networks) 获得效率提升：最近的一篇论文发现，在各种模型大小和计算预算下，等变网络 (equivariant networks) 与非等变网络 (non-equivariant networks) 相比增强了数据效率。研究表明，等变模型始终优于其非等变对应模型。
- 实证结果表明，虽然非等变模型在经过充分训练后可以达到等变模型的性能，但等变网络在不需要大量计算资源的情况下提供了卓越的效率。
理解 Eval Harness 中的 HF Tokenizers：关于 eval harness 是否使用 add_special_tokens=True 或 False 进行序列分词存在困惑，特别是在处理生成任务期间的 EOS tokens 方面。成员们澄清说，通常在构建自定义分词器时仅添加 BOS tokens。
- 讨论显示，在训练循环中手动管理 EOS token 是避免跨不同使用 HF 模型的框架出现兼容性问题的实用方法。
TaskSet 助力优化器训练：TaskSet 数据集包含一千多个不同的任务，对于在元学习 (meta-learning) 环境中训练和评估优化器至关重要。该数据集能够实现比传统随机搜索方法显著的效率提升。
- 尽管认识到 TaskSet 有些过时，但成员们承认，尽管 AutoML 研究存在资金限制，它仍是构建大型学习曲线数据集的最佳可用选择。

OpenRouter (Alex Atallah) Discord

功能需求投票：敦促成员们在此为最重要的功能需求投票，以确定后续开发的优先级。
- 对于任何未列出的请求，用户可以在 <#1107397803266818229> 中提交，从而实现更广泛的社区驱动功能输入。
Pixtral Large 性能：Pixtral Large 因其卓越的性能和庞大的免费额度而受到赞誉，可通过 console.mistral.ai 轻松访问。
- 一位用户报告说从 Hermes 405b 切换到了 Pixtral，并指出其在提示词不变的情况下表现出色。
模型身份识别困惑：讨论强调模型本质上无法识别自己的身份，并且经常从训练数据中幻觉出细节。
- 这导致尽管进行了澄清，用户之间仍对模型身份识别存在挥之不去的困惑。
生成成本估算：一位用户询问了 /api/v1/generation 端点的费率以及准确估算生成成本的方法。
- 建议包括利用 Helicone 进行跟踪，并强调生成端点对于精确成本评估至关重要。
自定义提供商密钥 (Custom Provider Keys) 访问：开发者正在推动访问自定义提供商密钥，反映了社区对该功能的强烈需求。一位成员在请求访问时提到，“感谢你们所做的出色工作！”
- 包括 monomethylhydrazine 和 kit18 在内的几位用户表达了为特定提供商使用自己密钥的需求，突显了社区对该功能的共识。

GPU MODE Discord

Triton 元编程与源码构建：一个旨在解决 Triton 现有局限性的元编程提案引起了社区兴趣，尽管一些成员要求提供更清晰的语义和示例。
- 此外，在 WSL2 上从源码构建 Triton 需要将内存增加到 26GB 以防止内存溢出错误，成员们还讨论了 Ubuntu Docker 容器中的离线编译依赖。
ThunderKittens 与 ThunderMittens 的统一：围绕 ThunderKittens 和 ThunderMittens 的讨论强调了 tile 抽象 在统一框架以实现 tensor core 兼容性方面的作用，重点在于寄存器使用的控制。
- 成员们还询问了两者之间现有的 API 契约，并对 ThunderKittens 的 自动优化器 (auto optimizer) 表示关注，以增强其“一次编写，多次运行”的系统。
结合 RedPajama 和 Dolma 数据集的 BitNet b1.58：在 RedPajama 数据集上使用 100B tokens 训练的 BitNet b1.58 模型发布，展示了极具前景的 PPL 和零样本准确率结果。
- 此外，在 Dolma 数据集的 60B tokens 上训练的 OLMo-Bitnet-1B 模型强调了以研究为中心的方法，其文档中提供了详细的训练超参数。
扩散模型技术概览：最近关于扩散模型的讨论强调了它们在生成感知信号方面的主导地位，并指出改进的模式覆盖 (mode coverage) 和 更快的采样 是其主要优势。
- 在 OpenAI 的 DALL·E 2 和 Google 的 Imagen 等系统中，无分类器扩散引导 (classifier-free diffusion guidance) 的实现被强调用于增强条件扩散模型的输出，其中噪声调度 (noise schedule) 设计对性能至关重要。
开源日语 LLM 排行榜发布：与 Hugging Face 合作推出的开源日语 LLM 排行榜 (Open Japanese LLM Leaderboard) 旨在通过 20 多个数据集 和任务评估日语 LLM。
- 该倡议旨在解决日语 LLM 性能落后于英语的问题，吸引了专注于母语进步的日本 HPC 工程师 的关注。

Nous Research AI Discord

Hermes 3 进展及 O1 风格集成：#general 频道的一场讨论强调了关于 Hermes 3 的咨询，暗示其与之前的 O1 风格 有关联。
- 这反映了社区对 Hermes 最新进展及其演进的持续关注。
Mistral 平台面临模型选择障碍：成员们对 Mistral AI 平台最近改为默认单一模型选择选项表示担忧。
- 图像生成 能力的限制引起了困惑并影响了用户体验。
Truth Terminal 将 AI 与加密货币叙事融合：有关 Truth Terminal 通过加密空间内的半自治 AI 创建自己的“宗教”的见解被分享。
- 这种独特的融合强调了 AI 对齐 (AI alignment) 讨论与 AI 及加密社区 的交集。
低比特量化有利于训练不足的 LLM：研究表明，与经过大量训练的小型模型相比，低比特量化 对训练不足的大型 LLM 造成的退化较小，详见此论文。
- 研究结果强调了量化策略与 模型大小 及 训练 token 需求相匹配的重要性。
三进制量化受限，FP4 成为高效选择：观察显示，三进制量化 (BitNet) 仅能改善 训练不足的网络 的结果，其广泛适用性受到质疑。
- 因此，社区正倾向于将 FP4 作为当前模型架构的首选数值权重表示。

Modular (Mojo 🔥) Discord

关于 Mojo Origins 与 Rust Lifetimes 的混淆：一位用户对 Mojo’s Origins 与 Rust’s lifetimes 的相似性表示困惑，认为两者虽然都旨在解决内存管理问题，但在本质上是不同的。
- 虽然受到 Rust 的启发，但 Mojo’s design 是刻意区分的，旨在实现不同的 Compiler behaviors 和目标。
Mojo Origins 维持内存控制：Mojo 的 Origin 表示一个内存块；当一个指针被 origin 参数化时，它表示该指针指向该内存内部，并根据需要延长变量的 lifetimes。
- Origins 有助于实现 aliasing guarantees，如果指针在其目标失效时仍然存活，则会产生 compile-time errors。
理解 Origins 需要耐心：从 Compiler perspective 理解 Mojo Origins 具有挑战性，特别是由于它们尚未定型，导致细节可能会发生变化。
- 一位用户表示愿意等待该主题更加清晰，而不是过早地提出更多问题。
变量名中空格带来的 Namespace 挑战：有人提出了在变量名中使用空格的可能性，例如 var xe đạp = 'abc'，并指出编程语言普遍缺乏对此的支持。
- 允许空格会显著增加 Parser implementation 的复杂性，使其变得不切实际。

Notebook LM Discord Discord

Notebook LM 播客功能在 30 分钟内创建音频：一位用户赞扬了 Notebook LM 的能力，该功能仅用 30 分钟就利用有关其 德国少棒联盟计划（包括其历史性的世界大赛资格）的文件创建了一个音频播客。播客剧集展示了 AI 生成内容的无缝集成。
- 这证明了 Notebook LM 如何高效地生成多媒体内容，从而增强用户的项目工作流。
NotebookLM 增强高魔奇幻世界观构建：一位用户分享了使用 NotebookLM 为高魔奇幻小说构建世界观的经验，强调了该模型提供上下文感知响应的能力。
- AI 的推理能力根据现有规则为他们的魔法系统带来了新的见解和机制。
GenFM 在 AI 播客领域挑战 NotebookLM：一位成员分享了一个名为 ‘GenFM, Now Playing on ElevenReader: Smart Podcasts Produced by Generative AI’ 的视频，突显了 AI 领域的竞争。
- 尽管 GenFM 加入了竞争，另一位成员指出 NotebookLM 仍然提供更深层次的交互体验。
RAX 在时代广场广告牌的大胆接管：RAX（一只赛博朋克浣熊）接管了时代广场的广告牌，以“不要购买你看到的一切”为信息倡导理性消费。一段 YouTube 视频讨论了这一事件，强调需要反思消费文化。
- 这场数字表演引发了社区内关于消费主义的讨论。
FDP 计划解散德国联合政府：FDP 计划解散由总理 Gerhard Schröder 领导的联合政府，并制定了一项策略，将其退出描述为政治进步的必要之举。
- 内部文件提供了关键的叙述和时间表，以确保德国公众在即将到来的选举中获得明确的选择。

Latent Space Discord

Perplexity 巧妙的黑色星期五营销活动：Perplexity 推出了一个巧妙的黑色星期五营销活动，这与近期 利用 AI 能力的营销趋势 相契合。
- 该举措因其在营销策略中对 AI 的战略性整合而受到关注。
人类在模式识别方面优于 AI：成员们的共识表明，虽然 AI 计算速度更快，但人类在识别复杂问题中的全局模式方面表现出色，经常会做出诸如 “等一下，这不对劲” 之类的反应。
- 这种识别全局不一致性的能力使人类区别于可能专注于特定局部问题的 AI 系统。
企业生成式 AI 投资：最近的一份报告强调，2024 年 AI 支出 飙升至 138 亿美元，标志着从实验性使用向核心业务战略的转变。
- 尽管投资有所增加，但超过三分之一的决策者仍在开发将生成式 AI 集成到其业务中的有效方法。
Freysa AI Agent 挑战赛资金发放：一项 AI 挑战赛导致 Freysa Agent 通过一个巧妙设计的 Prompt 转移了 47,000 美元，该 Prompt 绕过了严格的转移指令。
- 这一事件强调了在金融交易中进行 AI 操纵的 Prompt Engineering 的复杂性，并展示了透明、开源的设置。
技术采用与投资趋势：参与者将当前的 LLM 趋势与历史上的技术变革进行了比较，指出了在兴奋程度和潜在市场回调方面的相似之处。
- 正在进行的讨论引发了对 AI 技术可持续性和未来盈利能力的担忧，呼应了航空等行业中出现的模式。

Stability.ai (Stable Diffusion) Discord

SD 3.5 的 ControlNet 质量问题：一位成员报告称，SD 3.5 的 ControlNet 仅在 1024x1024 分辨率下才能生成无伪影的高质量渲染图。
- 另一位成员将这些问题归因于 缺乏熟悉度，并鼓励通过实验来更好地理解 ControlNet 的功能。
Stable Diffusion 硬件性能：一位用户询问了 Stable Diffusion 的性能基准，提到达到了大约 5 IT/s。
- 社区成员积极分享了他们的硬件能力，反映出对优化 Stable Diffusion 设置的浓厚兴趣。
AI 艺术的 LoRA 模型需求：一位用户请求关于 LoRA half girl 模型 的信息，以创建融合了两种不同女性设计的角色。
- 这一请求突显了 AI 生成艺术 中角色开发方面持续的实验和创意。
内容创作者的感恩节祝福：一位成员向 Stability.ai 团队和其他创作者表达了 Happy Thanksgiving 的祝福。
- 这一举动强调了 AI 领域内容创作者之间的情谊和协作精神。

tinygrad (George Hotz) Discord

TinyFPGA 的潜在内存架构：成员们讨论了 TinyFPGA 的设计，思考如何模拟典型的 memory hierarchy（内存层级），同时指出 Block RAM 和 DDR3 等现有选项是不够的。
- 提出了 ‘first pass’ memory 的想法，将常量定位在 ALU 附近，有望显著提升性能。
传统内存模型的挑战：讨论强调，随着未来 TinyFPGA 设计转向更高效的内存层级，heuristic eviction policies（启发式逐出策略）可能会过时。
- 对 trained parameters 的未来进行了推测，提到 tensors 可能会取代它们。
Exa Laboratories 可持续芯片设计：关于 Exa Laboratories 的对话强调了他们的使命，即创建在特定 AI 需求下速度和能效优于传统 GPU/TPU 的可重构芯片。
- 有人对其可行性表示怀疑，指出了小公司在芯片开发中面临的挑战，尤其是雄心勃勃的时间表。
Tenstorrent 的生物学合理训练算法：George Hotz 提到 Tenstorrent 是一个认真的参与者，正在投资模拟生物过程的训练算法，以实现更高的效率。
- 潜在的变化包括 hierarchical memory models（分层内存模型）和让人联想到计算中大脑功能原理的实时优化。
tinygrad 中的 VIZ 工具：一位成员发布了详细的教程，解释了 VIZ 工具，可在此处查看，增强了对其在 tinygrad 中功能的理解。
- George Hotz 在一条推文中认可了 VIZ 工具，称 VIZ=1 是对 LLVM/MLIR 的重大改进，强调了其优势。

Cohere Discord

Aya 项目贡献指南：一位成员寻求关于兼职贡献 Cohere 的 Aya 项目的指导。
- 另一位成员建议加入 Aya server 直接与社区联系。
感恩节庆祝和餐食分享：成员们分享了 Happy Thanksgiving 祝福和他们的餐食图片，包括一位成员令人印象深刻的一盘食物。
- 另一位成员幽默地评论说尝试吃得健康，但指出味道不如预期。
食物分享和珍宝蟹：成员们交流了丰盛餐食的评论和图片，有人开玩笑说他们的饭菜更像是甜点。
- 随后出现了一个幽默的评论，说之前已经吃了一盘 Dungeness crab（珍宝蟹），增强了食物分享的氛围。

DSPy Discord

dspy.asyncify 支持相关问题：一位成员询问了关于使用 dspy.asyncify 的问题，特别是它对线程的使用，以及由于 celery workers 的问题是否提供 pure async support（纯异步支持）。
- 另一位用户也表达了对 pure async support 的渴望，以解决现有的 celery worker 问题。
带有断言的 dspy demo 行为：有人担心在激活断言时，dspy 在最终 prompt 中不使用 demo。
- 一位成员澄清说，retry 模式下的演示取决于编译是在激活断言之前还是之后进行的。
欢迎 Shaun 加入公会：Shaun 加入了服务器，向大家打招呼，并对正在进行的项目表示兴奋。
- 社区欢迎 Shaun，营造了一个包容的环境。

Torchtune Discord

DPO 通过 LoRA-DPO 在不同仓库间保持一致：来自 Hugging Face 的 DPO Trainer 表明，尽管代码有所不同，但 DPO 技术 在 LoRA-DPO 等不同仓库中保持一致。
- 这种一致性确保了实现方案保持对齐，从而简化了不同 DPO 方法之间的集成和比较。
全参数 DPO 的可行性：实现全参数 DPO 是可行的，并且与 LoRA-DPO 相比，可能会增强训练后的对齐效果。
- 社区建议借鉴现有 全量 PPO 实现的经验来指导这一过程。
引入 dpo_full_finetune_single_device PR：一个新的 PR 增加了 针对分布式设置的全量微调 DPO，为单设备实现奠定了坚实基础。
- 详情可以通过 full DPO PR 获取，其中概述了拟议的更改和增强功能。
Torchtune 将支持全量微调 DPO：Torchtune 即将进行的更新将支持 全量微调 DPO，这需要修改以加载独立的参考模型。
- 这些更改涉及修改对参考模型的初始调用，以改进现有框架内的功能和集成。
FFT DPO 的内存占用更高：由于需要存储梯度并维护完整的模型副本，FFT DPO 将比 LoRA 消耗显著更多的内存。
- 如果 LoRA DPO 不能满足性能要求，那么采用全量微调 DPO 所带来的内存消耗权衡可能是值得的。

LLM Agents (Berkeley MOOC) Discord

Quiz 11 仍未开放？：一位成员对 Quiz 11 的状态表示困惑，询问为什么它还没有开放。
- 是否有预计的开放日期？
关于 OpenAI 额度的咨询：一位用户询问了他们的 OpenAI 额度 状态，提到他们上周填写了表格。
- 他们表达了紧迫感，表示需要支持来进行项目开发。
MOOC 完成情况与证书资格：一位成员询问现在开始 MOOC 是否仍能在完成后获得证书。
- 他们还很好奇在剩余时间内完成所有要求是否可行。

OpenInterpreter Discord

Open Interpreter 仪表板开发：一位成员宣布他们正在开发一个受 Open Interpreter 启发的项目，重点是创建一个将于今年发布的 开源仪表板。
- 该项目强调是一个有趣的小项目，没有任何盈利目的。
社区对仪表板项目的支持：另一位成员祝贺了项目创建者，并以 ‘Nice work! Well done 🚀’ 表达了热情。
- 这种交流凸显了社区对该领域创新项目的鼓励。

Interconnects (Nathan Lambert) Discord

OLMo 2 性能提升实力：来自 Allen AI (AI2) 的 OLMo 2 系列（包含 7B 和 13B 模型）在多达 5T tokens 上进行了训练，其表现优于 Llama-3.1 8B 和 Qwen 2.5 7B。
- 关键改进包括采用了带有 RMSNorm 和 QK-Norm 的优化架构，以及全面的两阶段课程学习训练方法。
OLMo 2 打造尖端训练：OLMo 2 在最终检查点采用了 model souping 技术，并采用了受 Tülu 3 启发的训练后方法，包括指令微调、使用 DPO 的偏好微调以及具有可验证奖励的 强化学习。
Instruct OLMo 2 领跑开源权重模型：经 OLMES 测试集 验证，OLMo 2 的 13B Instruct 变体在指令任务中超越了 Qwen 2.5 14B 和 Tülu 3 8B。
Weight Watcher AI 获得梗图级别的关注：Weight Watcher AI 被强调为 AI 领域的一个新奇补充，并在 memes 频道中被幽默地分享，因其趣味性引起了关注。
- 虽然分享了 OLMo summary 链接，但未发现具体描述。

LlamaIndex Discord

开发者技能展示：一位成员分享了广泛的开发技能列表，包括 React、Next.js、Angular 和 D3.js，重点介绍了他们在 UI/UX 以及 Protractor 和 TestCafe 等测试框架方面的经验。
- 这种多样化的技能组合彰显了他们在前端和测试技术方面的适应能力，增强了他们应对复杂工程挑战的能力。
多元化技术栈：该开发者提到了广泛的技术，如 Node、Nest.js、Solidity 和 Rust，包括对 Bootstrap 等前端框架以及 BEM 和 SMACSS 等样式方法的了解。
- 这种全面的技术栈能够跨各种平台和框架进行高效的集成与开发，满足多方面的项目需求。
API 集成专业知识：他们表示熟悉集成多种 API，包括 Google Maps、YouTube 和 Facebook APIs，使他们能够参与需要高效数据交互的多样化项目。
- 他们管理和实施多样化 API 集成的能力，有助于在系统架构中实现稳健且可扩展的解决方案。
云部署技能：该成员强调了他们在云服务能力中的 AWS，能够将应用程序有效地部署到云环境中。
- 精通 AWS 可确保可靠且可扩展的云部署，优化资源管理和基础设施性能。
呼吁合作：他们最后发出了建立联系的邀请，促进了开发者社区内潜在的人脉机会。
- 这种外联活动促进了具有相似技术兴趣的工程师之间的专业协作和知识共享。

MLOps @Chipro Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

Axolotl AI Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

LAION Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

HuggingFace Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

第 2 部分：各频道详细摘要和链接

完整的逐频道细分内容已针对电子邮件进行了截断。

如果您想查看完整细分，请访问此电子邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！预先感谢！

今天没发生什么事。