GitHub 或许就是你进行 AI-Native 编程所需的一切。

2024/10/28-10/29 的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号和 32 个 Discord（231 个频道，2681 条消息）。预计为你节省阅读时间（以 200wpm 计算）：279 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论！

GitHub 第十届年度 Universe 大会于今日举行：

大会带来了一系列备受瞩目的发布（完整博客文章点击此处）：大部分是 GitHub 对热门代码 AI 工具的回应。

多模型 Copilot：在新的模型选择器 UI 中加入了 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 以及 OpenAI 的 o1-preview。Copilot 的基础模型经历了从 Codex、GPT3.5、GPT4、4o 到 4o-mini 的演进，但这是开发者首次可以选择包括 Google 在内的其他公司的模型。这一消息影响巨大，甚至登上了今日的主流媒体，人们不禁将此与微软与 OpenAI 伙伴关系“出现裂痕”的报道联系起来。

Cassidy Williams 还演示了 Copilot 新的多文件编辑能力以及自定义指令文件 —— 这类似于 Cursor 的 Composer 和 .cursorrules 功能。

GitHub Spark：“旨在完全使用自然语言构建应用程序的 AI-native 工具。Spark 是功能齐全的微型应用，可以集成 AI 功能和外部数据源，无需管理任何云资源。” 基本上它是 v0、bolt.new 和 Claude Artifacts 的竞争对手，配备了免部署托管、可更换主题的设计系统、持久化数据存储以及集成的模型提示功能。

“利用创意反馈循环，用户从初始提示词开始，在构建过程中查看应用的实时预览，轻松查看每个请求的选项，并自动保存每个迭代的版本，以便随时进行版本对比。”

演讲者还讨论了最新的 GitHub Models（现已结束候补名单），以及去年发布的重磅产品 Copilot Workspace 和 Code Reviews（在现有的 Spec/Plan/Implement 三个 Agent 基础上，新增了 Brainstorm 和 Build/Repair 两个 Agent，并推出了新的 VSCode 扩展）以及安全 Autofix 的更新。

[本期内容由 Weights & Biases 赞助]：你的 LLM 不再仅仅局限于文本——那么你的可观测性工具为何还要局限于此？

Weights & Biases 的 Weave 现在支持音频追踪，以及文本、图像和其他模态。只需 3 行代码，即可追踪多模态 AI 栈中的每一个输入、输出和元数据。

在我们的交互式 Colab 笔记本中亲自尝试吧！

swyx 评论：这个笔记本看起来很短，但在我看来，精华在于隐藏在“高级用法：结合 Weave 使用 Realtime Audio API”下的 19 个单元格！你可能想不到一个普通的 LLM Ops 产品会这么快更新以支持 OpenAI Realtime API，但看起来 WandB 团队一直在秘密发力。

目录和频道摘要已移至此邮件的网页版：！

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，取 4 次运行中的最佳结果。

AI 发展与行业趋势

Tinygrad 优化：@jxmnop 指出，与 PyTorch 相比，tinygrad 专注于减少代码行数，导致代码库横向增长，且变得人类几乎无法阅读。
AI 模型能力：@fchollet 指出，目前 GenAI 的低采用率表明仍有增长潜力，这与 40% 采用率的说法相反。@rohanpaul_ai 强调了 Gemini Flash-8B 极高的性价比，每百万 input tokens 仅需 $0.0375，每百万 output tokens 仅需 $0.15。
AI 基础设施：@rohanpaul_ai 分享了 xAI Colossus 超级计算机的细节，该系统配备 100,000 块 NVIDIA Hopper GPU，并计划翻倍至 200,000 块。该系统采用 NVIDIA Spectrum-X Ethernet 平台，支持 800Gb/s 端口速度。

AI 应用与工具

Perplexity Spaces 更新：@perplexity_ai 宣布了多项改进，包括为免费用户提供 5 个文件上传额度、增强的自定义指令、详细的 Space 概览卡片以及对 Markdown 文件的支持。
RAG 进展：@togethercompute 分享了使用 Llama 模型的 Contextual RAG 开源实现，涉及上下文生成、混合搜索和重排序（reranking）。@llama_index 介绍了使用 MLflow 和 LlamaIndex Workflows 的高级 RAG 系统，用于灵活的编排和评估。
AI Agents：@omarsar0 推出了 AI Agents 课程，涵盖构建 agentic AI 系统的基础知识和实用技巧。@LangChainAI 分享了一个使用 LangGraph 进行 Agent 开发的综合代码库。

AI 研究与模型更新

模型对比：@ajayj_ 报告称，根据社区投票，开源视频生成模型 Genmo Mochi 1 的表现优于 Runway、Kling、Luma 和 Pika 模型。
优化技术：@giffmana 强调了带偏置的 sigmoid loss 在提升模型性能方面的有效性。
上下文窗口扩展：@rohanpaul_ai 提到正在进行的 1 亿上下文窗口（context window） LLM 工作以及对 10 亿上下文窗口的研究，这可能会影响 RAG 的未来。

AI 伦理与社会影响

AI 采用担忧：@ylecun 批评了一些科技领袖的优越感，警告不要将追随者视为“低智商”并期望其盲目服从。
AI 对生产力的影响：@random_walker 对 AI 显著提升生产力的说法表示怀疑，指出尽管使用率达到 3%，但生产力仅增长了 1%。
AI 在教育中的应用：@svpino 告诫不要高估 AI 在构建 SaaS 业务方面的能力，强调 AI 是工具而非完整的解决方案。

AI Reddit 摘要

/r/LocalLlama 摘要

主题 1：在消费级硬件上优化 LLM 推理

在本地 GPU（低端 RTX 3000 系列）上运行 Llama 的最佳方式是什么？对 Python 调用和 GUI 界面都感兴趣。这个领域发展太快了，希望能得到最新的建议！谢谢 (Score: 39, Comments: 23): 对于在低端 RTX 3000 系列 GPU 上运行 Llama models，目前的建议包括使用 llama.cpp 或 text-generation-webui 作为 GUI 界面，以及使用 transformers 库配合 bitsandbytes 进行 Python 集成。这些方法可以在消费级硬件上实现高效的 quantization 和 inference，尽管具体性能可能因模型大小和可用 VRAM 而异。
- 推荐使用搭配 Open webui 的 Ollama，一些用户通过 Docker 容器运行它，并利用 HTTP calls 进行集成。作者建议使用 Harbor 来部署基于 Docker 的完整 LLM stack。
- 用户使用了各种界面：mikupad 用于配合 llama.cpp 写作，TabbyAPI 配合 LLama-3.1 或 3.0 模型集成到 silly tavern 中，以及 Lm studio 或 Aya 用于 GUI 和 OpenAI API 兼容性。
- 一些人更倾向于自定义设置，例如在脚本中运行 llama.cpp 进行纯文本创作，并强调了 alternative token selection（备选 Token 选择）的重要性，而这在其他 UI 选项中可能缺失。
按品牌、年份和细分市场划分的移动 SoC AI 评分 (Score: 43, Comments: 6): 该帖子分析了来自 ai-benchmark.com 的移动 SoC 的 AI performance benchmarks，揭示了旗舰级和高端细分市场之间巨大的性能差距。值得注意的发现包括：Snapdragon 7+ 系列的表现超出了其品牌定位；Dimensity 在最近几代的 AI 性能大幅提升；以及四年前的 Snapdragon 8 Gen 1 仍然超越了较新的 Snapdragon 7 系列、8s Gen3 和大多数 Dimensity 处理器；A17 Pro 得分为 3428，略低于 Snapdragon 8 Gen 3。
- 用户讨论了在手机上运行 large language models，对 16B deepseek v2 Lite MoE 和 Llama 3.1 8b 等模型表现出兴趣。配备高达 24GB RAM 的 ZTE Z60 Ultra 被提及能够运行 12B models。
- 关于 Benchmark 测试模型的关联性引发了争论，一些人认为 TFLOPS、TOPS 和 memory bandwidth 规格对于手机上的真实 AI 应用比基于 Inception V3 等模型的评分更有参考价值。
- 用户对 Mediatek 芯片组在 AI 任务中的状态表示关注，特别是关于 GPU 和 NPU 的功能。帖子强调了 Dimensity 最近在 AI 性能方面的进步。
更新了 Llama.cpp 的修正设置。推理引擎之战：Llama.cpp vs MLC LLM vs vLLM。针对单卡 RTX 3090 和四卡 RTX 3090 的测试。 (Score: 75, Comments: 51): Llama.cpp、MLC LLM 和 vLLM 在消费级 GPU 上进行了 LLM inference 基准测试，具体测试环境为单块 RTX 3090 和四块 RTX 3090。该帖子提供了使用修正设置后的 Llama.cpp 更新结果，比较了这三种推理引擎在不同 GPU 配置下的性能。
- 在修正设置后，Llama.cpp 的性能显著提升，单 GPU 测试达到 50-51 tokens/second，4x GPU 测试达到 15 tokens/second。社区建议在未来的基准测试中加入 exllama，并探索量化模型的对比。
- 分享了一篇博客文章，详细介绍了 multiGPU scaling、concurrent requests 和 speculative decoding 的基准测试。用户对 MLC-LLM 如何在 1-4 块 GPU 间扩展感兴趣，一位用户报告在使用 MI60 显卡时，1 块 GPU 为 25 tokens/second，2 块 GPU 为 34 tokens/second。
- 讨论集中在 PCIE bandwidth 的使用上，测试显示在 tensor parallel inference 期间利用率出奇地低（0.1 MB/s）。用户还对基准测试选择 FP16 进行了辩论，一些人认为在实际用例中 Q4 或 Q8 quantization 更具参考价值。

主题 2：开源 LLM 在创意和无审查用例方面的进展

三个增强版 Llama 3.2 模型发布，每个均为 7B 参数，用于创意用途 - 无审查。 (Score: 44, Comments: 19)：三个增强型 Llama 3.2 7B 模型已发布，用于创意和无审查用途，每个模型都扩展到了 67 层和 606 个 tensors。这些模型可在 Hugging Face 上获取，其“去审查”等级评分为 1-10，并具有改进的指令遵循 (instruction following)、细微差别 (nuance)、情感 (emotion) 和散文深度 (prose depth)，审查和偏见可通过提示词 (prompts) 进行控制。
- Frankenstein 模型（拼接模型）被批评为经常处于“脑叶切除”状态且表现不佳，用户建议改用调整过设置的全尺寸模型 (full-size models)。模型创建者为他的方法辩护，引用了 45 个改进示例，并解释了他构建和测试模型的独特方法。
- 用户 export_tank_harmful 赞扬了创建者的工作，特别提到了 MN-Dark-Planet-TITAN-12B 和 L3-Dark-Planet-8B 模型。他们建议在 Reddit 帖子中包含创建者的 Hugging Face 名称以增加可信度，并对持续的 abliteration（去拒绝微调）工作表示支持。
- 关于 ARM 设备模型可用性的讨论中，创建者澄清说，针对 ARM 优化的模型文件名以 Q4_0_4_8.gguf 结尾。目前，llamacpp 仅支持 3 个版本的 ARM 优化。
用于色情角色扮演的 LLM 推荐 (Score: 48, Comments: 61)：该帖子寻求专门用于色情角色扮演 (erotic roleplay) 的 Large Language Models (LLMs) 推荐，列出了几个选项，重点关注 DarkForest V2 和 backyardai/Midnight-Rose-70B-v2.0.3-GGUF 作为顶级竞争者。作者还提到了其他模型，如 Stheno、Lyra 12B V4、TheSpice-8b 以及其他参数范围从 8B 到 72B 的模型，但认为它们在这一特定用例中可能较弱。
- ArsNeph 推荐了较新的模型，重点介绍了 L3 Stheno 3.2 8B、Magnum V4、UnslopNemo 12B、Mistral Small 22B 及其微调版本如 Cydonia。对于更大的模型，他们建议使用 Midnight Miqu 1.5 70B、Euryale 2.1 70B 和 New Dawn Llama。
- 几位用户支持将 Midnight Rose 和 Midnight Miqu 作为色情角色扮演的首选。TheLocalDrummer 提到一些用户更喜欢 Behemoth v1.1 而非 Midnight Miqu，而其他人则建议尝试 NemoMix-Unleashed-12B 和 EVA-Qwen2.5-72B-v0.0。
- 用户建议尽管存在审查，也可以探索 Gemma-2-27B 和 Mistral-Small-22B-ArliA。

主题 3：LLM 工具和基础设施的创新

我们刚刚开源了 Promptwright：使用本地 LLM 生成大规模合成数据集 (Score: 63, Comments: 12)：Promptwright 已发布，这是一个开源的 Python 库，用于通过 Ollama 使用本地 LLM 生成合成数据集。它为数据集生成提供了简单的界面、可配置的指令和系统提示词、JSONL 输出格式，并与 Hugging Face Hub 直接集成，允许用户在本地处理数千个样本，无需 API 成本或速率限制，同时保持数据隐私。
Mistral.rs v0.3.2 获得 26% 的 Metal 性能提升并提供 PyPI wheels！ (Score: 62, Comments: 16)：Mistral.rs v0.3.2 引入了通过 PyPI wheels 为各种平台（Metal、CUDA、Apple Accelerate、Intel MKL 和纯 CPU）提供的简化安装，并通过优化的 MLX attention kernels 实现了 Metal 解码 26% 的性能提升。该更新还包括使用 Marlin GPTQ kernel 和 FP8 量化的 CUDA 改进，以及对 Llama 3.2 Vision 等模型的支持，并提供了 GitHub 仓库、Python 包文档和用于预量化模型的 UQFF 模型集链接。
在推理阶段，使用标准 CPU 将任何现成 LLM 的上下文扩展到 10 亿 (1B) 的检索系统： (得分: 63, 评论: 6)：开发出了一种全新的检索系统，可以在推理阶段仅使用标准 CPU，将任何现成的大语言模型 (LLM) 的上下文长度扩展到 10 亿 (1B) tokens。该系统在 Zyphra 博客文章和一篇 arXiv 论文中进行了详细介绍，显著扩展了 LLM 处理和理解海量信息的能力，且无需专门的硬件。
- 标题中声称的 “1B 上下文长度” 被批评为标题党，用户指出这指的是向量存储 (vector store) 中的 tokens，而非实际的推理长度。对于一个 8B 模型，在 100 万 (1M) 上下文下进行推理，在 A100 GPU 上大约需要 3000 秒。
- 用户幽默地扩展了这一概念，建议甚至可以宣称 100B tokens 或 100 Petabytes（引用 Google 的索引大小）的上下文长度，以突出此类说法的随意性。
- 人们对哈希链检索 (hash chain retrieval) 之外的基准测试以及潜在应用表现出兴趣，例如创建小型 LM（如 1B 模型），通过 RAG 加载必要的知识，从而可能实现每秒输出数千个 tokens。

主题 4. AI 文档理解的挑战与实际应用

我是如何利用视觉模型帮我赢得《帝国时代 2》(Age Of Empires 2) 的。 (得分: 327, 评论: 51)：作者开发了 WololoGPT，这是一个针对《帝国时代 2》的基于 AI 的教练，利用视觉模型和 LLM 提供实时游戏建议，包括资源管理和反制敌人的策略。该项目使用 Claude 3.5 和 Gemini Flash 进行视觉处理，目前已在 GitHub 开源，并在官方网站上提供了视频演示和可下载的可执行文件。
- Echo9Zulu- 建议开发一个记录应用程序数据的系统，将 WololoGPT 视为构建关于模型对游戏事件解读的宝贵训练数据的机会。他们建议以 AoE2 为模板研究模型行为，特别是关注模型如何处理战争迷雾 (fog of war) 对策略的影响。
- 该项目因其推动视觉模型应用领域尖端技术 (state-of-the-art) 的潜力而受到赞赏，评论者指出目前关于此类用例的文献还很有限。他们建议被动地记录数据以利用这一机会。
- WololoGPT 被描述为一个“酷炫的构建”，它能在不让人感觉完全作弊的情况下提升游戏体验。开发者确认它确实提高了他们的游戏水平，称其为“一点小小的助力”。
文档理解非常非常难：一个例证 (得分: 34, 评论: 26)：该帖子通过一个旧金山游泳池时间表的例子，阐述了 LLM 在文档理解方面的困难。作者挑战读者从单页传单中提取循环往复的往返泳 (lap swim) 时段，加分任务包括生成 ical (ics) 格式并处理节假日。作者指出模型经常漏掉周一并误读周三的往返泳时间。尽管有一些令人印象深刻的能力，作者总结道，即使是先进的 LLM 也难以完成六岁小孩就能完成的任务，并警告不要在生产环境中过早部署文档理解功能。
- 用户批评了游泳池时间表的布局，指出其设计糟糕且不一致。一位评论者强调，这种古怪的布局在专业场合很常见，并以并购尽职调查清单 (M&A Diligence Checklists) 为例。
- 一名用户使用 Chat 4.0 成功提取了时间表，并在 5 分钟内编写了一个 Python 脚本来生成 ical 文件。该脚本可以处理循环事件，但未考虑节假日。
- AI Studio 中的 Gemini 1.5 Pro 正确提取了大部分时间表，包括棘手的周三往返泳时间，但增加了一个不存在的周日晚间时段。用户讨论了多步推理以及视觉模型处理不同图像分辨率的挑战。

其他 AI Subreddit 综述

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 模型发布与能力

更新的 Phi-3 Mini 支持 function calling：Rubra AI 发布了更新的 Phi-3 Mini 模型，具备 function calling 能力，可与 Mistral-7b v3 竞争 (/r/LocalLLaMA)。
OpenAI 的 o1 推理模型：OpenAI CFO Sarah Friar 表示，律师报告称新的 o1 推理模型可以完成时薪 2000 美元的法律助理的工作 (/r/singularity)。

AI 应用与演示

AI 辅助的多臂采摘苹果机器人：一段视频展示了 AI 辅助的多臂机器人，能够识别并采摘成熟的苹果 (/r/singularity)。
使用 Stable Diffusion 的逼真面部动画：一位开发者正在为 Meta Quest 开发基于 Stable Diffusion 的逼真面部动画系统，在 Quest 3 上以 90fps 运行 (/r/StableDiffusion)。
具备触觉感知的机器人手：Robot Era 推出了其第一代 XHAND，具有 12 个自由度，且每个手指都具备触觉感知能力 (/r/singularity)。
机器人提供美容服务：一段视频显示机器人在洛杉矶做美甲和睫毛，展示了以往由人类主导的服务行业的自动化 (/r/singularity)。

AI 政策与基础设施

美国政府推动 AI 基础设施建设：国家安全顾问 Jake Sullivan 表示，美国需要建设数十甚至数百吉瓦（GW）的能源基础设施来为 AI 数据中心供电，否则将面临落后于竞争对手的风险 (/r/singularity)。

AI 影响与社会讨论

关于 AI 对就业影响的讨论：多篇帖子讨论了 AI 对工作的潜在影响，包括将其与汽车发明后马匹数量的减少进行类比 (/r/singularity)。
公众对 AI 进展的看法：一篇帖子讨论了人们在看到 ChatGPT 时的反应，有些人变得非常感兴趣，而另一些人则不以为然 (/r/singularity)。

迷因与幽默

一篇帖子幽默地建议使用 Stable Diffusion 制造关于浴缸历史的虚假信息 (/r/StableDiffusion)。

AI Discord 纪要

由 O1-preview 生成的摘要之摘要的总结

主题 1：AI 模型发布震撼全场

Stable Diffusion 3.5：中等体量，强大动力！：Stability.ai 发布了 Stable Diffusion 3.5 Medium，这是一个拥有 25 亿参数的模型，仅需 9.9 GB VRAM 即可运行，使高质量图像生成大众化。
Moondream 押注小模型也能大有作为：Moondream 筹集了 450 万美元，旨在证明较小的 AI 模型同样有效，从而将行业的焦点从庞大架构中转移。
GitHub Copilot 引入 Claude 和 Gemini 实现性能飞跃：GitHub 的 Copilot 集成了 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro，为开发者提供了 AI 动力升级。

主题 2：AI 工具链迎来加速

Unsloth 通过 Gradio UI 简化复杂性：一位创新者推出了一款 Gradio 应用，利用 Unsloth 简化了模型训练，使无代码爱好者也能触及 AI 开发。
ThunderKittens 以闪电般的速度咆哮：备受期待的 ThunderKittens 0.000000002 发布，宣称 Linear Attention 速度提升了 6-14 倍，并在 Attention 反向传播中超越了 FA3。
开发者钻研 Triton 内核以提升速度：工程师们讨论了优化 Triton 内核的方法，发现多个内核的性能优于单个内核，并揭示了 BF16 转换带来的挑战。

主题 3：AI 隐私与安全成为焦点

PAPILLON 翩然而至保护隐私：研究人员首次推出 PAPILLON，在仅有 7.5% 隐私泄露的情况下达到了 85.5% 的质量，实现了本地和云端 LLM 的安全融合。
ChatGPT 的拼写错误让用户感到困惑：ChatGPT 开始出现拼写错误和乱码，用户对其输出质量的突然下降感到困惑。
Apple 悬赏 100 万美元发起黑客挑战：Apple 悬赏高达 100 万美元，挑战黑客攻破其 AI 服务器，引发了关于 AI 安全的讨论。

主题 4：新平台涌现大量 AI 职位

Cracked Engineers 在技术招聘领域开辟新天地：新推出的 Cracked Engineers 将 AI 人才与顶尖初创公司联系起来，目前已与 Weaviate、UnslothAI 等公司达成合作。
AI 初创公司寻觅顶尖人才：Unsloth AI、Julius AI 和 Jimini AI 等公司正在积极招聘，为准备投身前沿 AI 领域的人才提供绝佳机会。
求职者福音：定制化新闻通讯即将上线：Cracked Engineers 宣布推出每周技术职位新闻通讯，允许订阅者通过 CUDA、MLOps 和 Software Engineering 等标签定制内容。

主题 5：AI 社区活动与洞察精彩纷呈

LLM Agents Hackathon 盛大开幕：已有超过 1,000 名创新者报名参加，LLM Agents Hackathon 在五个激动人心的赛道上提供了超过 20 万美元的奖金。
OpenAI CFO 表示：“AI 不再只是实验性的！”：在一次坦诚的采访中，OpenAI CFO Sarah Friar 宣称 AI 已进入主流，每天都在渗透进银行和金融科技领域。
Meta 瞄准自研 AI 搜索引擎：Meta 的网络爬虫暗示其正在开发新的 AI 驱动搜索引擎，旨在摆脱对 Google 和 Microsoft 的依赖。

第 1 部分：高层级 Discord 摘要

HuggingFace Discord

Clem 向社区介绍自己：Hugging Face 的联合创始人兼 CEO Clem 表达了对通过 Discord 与社区成员积极互动的兴奋之情。他强调了强烈的参与意愿，表示：“我迫不及待想与大家互动”。
- 他还推广了一个即将举行的直播工作坊，鼓励成员通过此链接分享关于扩大其知名度和参与度的想法。
对 TensorFlow 的不满：许多成员表达了对 TensorFlow 的沮丧，理由包括禁用了 Windows 上的 GPU 支持以及复杂的文档问题，他们通常更倾向于转向 PyTorch 以实现更快的开发。
- 分享的经验反映了社区内对 TensorFlow 的 Bug 和缺乏支持的普遍不满情绪。
大麻纳米片的研究：大麻衍生碳纳米片在储能方面显示出作为石墨烯成本效益替代品的潜力，Dr. David Mitlin 的研究确定其可行性成本为每吨 500 美元。
- 这引发了关于军事和航空航天应用的讨论，表明人们对适用于高科技行业的替代材料的兴趣日益浓厚。
Swin Transformer v2 讨论：成员们探讨了使用 Swin Transformer v2 处理类图像数据立方体的问题，并讨论了如何针对独特的输入形状调整架构。
- 一位用户提到利用数据立方体代替传统图像，引发了关于必要架构调整的对话。
LangChain SQL Agent 资源共享：一个详细介绍 LLaMA2 SQL chat 的 GitHub notebook 被作为资源分享，用于使用 LangChain SQL Agent 开发上下文感知推理应用。
- 该资源旨在帮助用户增强其实现方案，体现了社区对利用现代技术处理 NLP 任务的关注。

Unsloth AI (Daniel Han) Discord

Gradio UI 工具简化模型训练：一位用户创建了一个 Gradio app，可以简化使用 Unsloth 训练模型的过程，使其更容易调整设置并将模型上传到 Hugging Face。
- 这一改进旨在帮助无代码用户，显著提高了 AI 模型训练的可访问性。
Unsloth 提供的 AI 工作机会：Unsloth 正通过 Cracked Engineers 重点开展招聘活动，旨在吸引 AI 领域的技术人才。
- 鼓励社区成员在利用该平台进行职位跟踪的同时，探索平台上的职位列表。
FP8 微调提升训练速度：关于在 Unsloth 中采用 FP8 进行训练的讨论正在进行中，这暗示了潜在的速度提升。
- 社区提出了关于其具体实现的问题，特别是与基础权重（base weights）和 LoRA 相关的部分。
对教育体制的挫败感：成员们讨论了在学校浪费时间的感受，其中一人表达了想要有所作为的愿望。
- 这种情绪引起了共鸣，其他人也反思了个人经历如何塑造教育观点。
关于 Optimizer CPU Offload 的见解：讨论集中在 Optimizer CPU Offload 在提高低比特（low-bit）训练框架效率方面的潜力。
- 通过将操作转移到 CPU，模型可以实现更快的训练时间并优化资源利用。

Stability.ai (Stable Diffusion) Discord

Stable Diffusion 3.5 Medium 模型发布：Stable Diffusion 3.5 Medium 模型已开放免费商业使用，该模型拥有 25 亿参数，仅需 9.9 GB VRAM 即可在消费级硬件上运行。
- 此次发布旨在通过确保对低端设备的兼容性来扩大 AI 的普及度，从而改变创作者的生态格局。
图像质量达到新高度：用户确认 Stable Diffusion 3.5 Medium 在生成超过 1MP 的图像方面表现出色，在 提示词遵循度 (prompt adherence) 和质量上优于 3.5 Large 变体。
- 然而，一旦图像超过 2MP，模型就开始显得吃力，这表明其扩展能力存在限制。
GPU 价格战持续进行：当前市场趋势显示 3090 GPU 的价格与 7900 XTX 相似，二手 3090 的价格维持在 690 美元左右。
- 讨论内容包括 AI 工作负载与游戏性能的 GPU 性能对比，强调了硬件负担能力的动态变化。
Sana Autoencoder 评价褒贬不一：Sana 自动编码器承诺提供高效的训练和压缩，但在图像质量结果方面收到了褒贬不一的反馈。
- 部分用户仍持怀疑态度，表示需要对利用该技术的模型进行进一步验证。
切换 UI 以增强用户体验：用户探索了从 A1111 切换到 ComfyUI，部分用户尝试使用 SwarmUI 以简化图像生成流程。
- 对话强调了对不同界面的偏好，以及通过优化 steps 和 cfg 等设置来提高提示词遵循度。

Nous Research AI Discord

面向开发者的 AI 通讯：一名成员强调了对技术性 AI 通讯的需求，以摆脱以消费者为中心的炒作，并推荐了 SemiAnalysis，因其在 GPU 领域的深入见解。
- 这反映了寻求严肃 AI 讨论的工程师们对更具实质性资源的需求。
为角色扮演机器人微调 Hermes 3：一位用户探索了微调 Hermes 3 是否能增强角色扮演机器人对 character.ai 的模仿能力，而另一位用户建议利用提示词来实现同样的效果。
- 这一讨论突显了社区对优化 AI 以进行复杂角色互动的兴趣。
Meta 发布 Layer Skip 代码：Meta 推出了 Layer Skip 以提高 LLM 效率，并提供了推理代码和微调后的 checkpoints。
- 此次发布旨在激发对 AI 优化方法和可解释性 (interpretability) 的新研究。
GitHub Copilot 扩展模型选择：GitHub Copilot 的重大更新包括新增 Claude 3.5 Sonnet 和 Gemini 1.5 Pro，为开发者提供更广泛的模型选择。
- 这一转变可能会在 AI 竞争格局中增强 Anthropic 的实力。
微软与 OpenAI 的复杂关系：对话表明，由于担心过度依赖以及与 AGI 声明相关的风险，微软正在探索 OpenAI 的替代方案。
- 成员们强调了多样化 AI 合作伙伴关系对战略稳定性的重要性。

Perplexity AI Discord

加入策展人计划 (Curators Program)！：Perplexity 团队正在积极招募首批策展人 (Curators)，为拥有数百万用户的 Discover feed 贡献内容。如果你喜欢制作 Pinterest boards 或编辑 Wikipedia 页面，可以在此申请。
- 策展人将负责在 Perplexity 产品内直接创建能够启发并告知用户的 Pages。
Grok 2 现已面向 Pro 用户开放：Perplexity AI 宣布 Grok 2 现在可供 Pro 用户使用，允许他们在设置中将其设为默认模型。一些用户好奇 Grok 2 是否会保持无审查 (uncensored) 状态，尽管其改进似乎有限。
- 这一公告引发了讨论，人们对它是否比之前的版本有显著进步持怀疑态度。
周边商品发布公告：Perplexity AI 正在推出名为 Perplexity Supply 的周边商品系列，首批产品将于明天太平洋时间上午 9 点发布。他们的口号强调品牌“为好奇心而生”，暗示了一个高度参与的社区。
- 社区的兴奋之情溢于言表，用户们期待着与品牌相关的收藏品和时尚单品。
NASA 为美国经济贡献 760 亿美元：最近的一份报告称，NASA 为美国经济贡献了约 760 亿美元，这反映了其各种项目和创新。这强调了 NASA 在太空探索之外的影响力，巩固了其在经济增长中的作用。
- 数据表明公共资金带来了显著的投资回报 (returns on investment)，为持续的支持提供了令人信服的理由。
深入了解光子计算 (Photonic Computing) 的进展：讨论强调了光子计算的进步及其对网络安全 (cybersecurity) 领域的影响。预计这些技术将改变数据的处理和安全保障方式。
- 成员们分享了新的见解，表明人们对将光子能力集成到现有框架中的兴趣日益浓厚。

Notebook LM Discord Discord

比亚迪 (BYD) 旨在主导汽车行业：一段视频讨论了中国电动汽车巨头比亚迪 (BYD) 如何通过积极的全球扩张和开设经销店，准备颠覆 Tesla 等竞争对手，详见此视频。
- 讨论强调了比亚迪旨在显著影响汽车市场的创新策略。
NotebookLM 增强员工资源的可访问性：一位用户将 NotebookLM 作为员工资源指南，整合了员工手册和 FAQ，以简化内部查询，但注意到外部链接的 URL 生成存在不一致性。
- 这一反馈表明平台内的文档集成需要进一步完善。
西班牙语播客生成面临挑战：用户报告了使用 NotebookLM 生成西班牙语播客时的困难，最初成功生成了两集，随后出现问题，导致用户寻求有效的解决方案。
- 人们对影响西班牙语文本生成的底层语言处理问题表示担忧，表明存在必要的改进空间。
探索 NotebookLM 的开源替代方案：社区成员正在评估 NotebookLlama，这是一个利用 Meta 技术的开源替代方案，但正如 Notebook Llama 链接中所讨论的，人们对该网站的可信度持怀疑态度。
- 参与者辩论了开源解决方案的优势，并指出了可能存在的 DNS 问题和注册合法性问题。
实时化身 (Real-Time Avatars) 彻底改变播客：在播客中集成 Simli 以实现实时化身引起了关注，它允许使用音频分段 (audio diarization) 来实现同步视觉效果，从而增强观众参与度。
- 这一概念验证强调了播客中动态演示风格的巨大潜力。

GPU MODE Discord

Unsloth Kernels 增强 LLM 微调：一位成员询问了关于 unsloth kernels 的指南，该项目显著提升了 LLM 的性能和内存效率，在 Llama 3.2、Mistral 等模型上的微调速度提升了 2-5 倍，且内存占用减少了 80%。
- 这激发了社区对高性能 LLM 项目中实际实现的兴趣。
Triton Kernel 见解与优化：讨论了关于 Triton kernels 的性能问题，一位用户指出，与 PyTorch 相比，单个 Kernel 操作降低了速度，建议使用多个 Kernel 以提高效率。
- 此外，还提出了关于 BF16 操作未能提升速度的挑战，以及 Triton 中 Nightly 版本的持续性问题。
H100 展现出令人印象深刻的速度提升：一位用户报告称，通过使用 reduce-overhead 等配置，H100 达到了 255 tokens/sec，通过手动调整进一步增加到 300 tokens/sec。
- 这些技术为优化 LLM 应用中的 GPU 利用率提供了新的框架。
ThunderKittens 0.000000002 发布并带来增强：ThunderKittens 0.000000002 已发布，其特点是重大升级，包括 6-14 倍更快的线性 Attention 以及比 FA3 更快的 Attention 反向传播。
- 还重点介绍了一篇关于 Kernel 性能瓶颈的论文，质疑了自定义 Kernel 与理论收益相比在现实世界中的功效。
Cracked Engineers 招聘平台受到关注：Cracked Engineers 启动，旨在连接人才与 AI/技术初创公司，在发布前 MRR 已接近 $1000。
- 该平台提供 AI 辅助的职位发布流程和技术职位通讯，邀请社区反馈以持续改进。

LM Studio Discord

Token 处理速度 GPU 占优：成员指出，Token 处理速度在 GPU 上约为 62 tok/sec，而在 CPU 上约为 7.5 tok/sec。
- Fewill 在讨论这些速度时表达了热情，说道：“太棒了！”。
寻找本地 LLM 推荐：一位成员正在寻找类似于 Phind 或 ChatGPT 的本地运行 LLM，重点关注 Python 和 Houdini SideFX。
- Fabguy 建议研究 HumanEval，但指出 Houdini 的小众性质可能会影响回答的相关性。
NGINX 代理设置困扰：一位用户在配置 LM Studio 服务器的 NGINX 代理主机时遇到困难，尽管已激活 serve on local network。
- 其他用户分享了排查步骤，强调了准确配置设置的重要性。
PCIe 带宽辩论升温：关于 PCIe 带宽是否影响推理性能引发了辩论，有建议认为 PCIe Gen 3 就足够了，因为大部分处理发生在 GPU 上。
- 然而，用户强调带宽对于跨多个 GPU 训练模型至关重要，在这种情况下需要高带宽。
多 GPU 配置查询：关于使用多个 3090s 运行大模型的咨询揭示了对超过单个 GPU 内存时性能损失的担忧。
- 结论是，如果 GPU 是相同的，性能将保持稳定，并且 Offloading 任务可以提高整体处理效率。

aider (Paul Gauthier) Discord

Aider 用户报告运行缓慢：成员们报告了 Aider 的运行缓慢问题，特别是使用 litellm 的 get_model_cost_map 函数时。可以通过设置 export LITELLM_LOCAL_MODEL_COST_MAP='True' 来优化。
- 一位用户指出，Aider 在大多数情况下通常会尝试掩盖 litellm 的缓慢。
网页爬虫建议：一位用户建议使用 FireCrawl 进行 web scraping，理由是其高效的提取能力和自托管选项。
- 讨论表明，如果配置得当，FireCrawl 可以克服社交媒体爬虫面临的挑战。
使用 Aider 管理 Git 仓库：几位用户讨论了保持 Git 仓库整洁的策略，建议采用手动提交而非 Aider 的自动提交功能。
- 一位参与者分享了使用 git switch 并合并压缩提交（squashed commits）的流程，以保持仓库井然有序。
GitHub Copilot 竞争 Aider：一位成员强调，Copilot 与 OpenAI、Gemini 和 Anthropic 模型的集成可能会影响其与 Aider 的竞争。
- 另一位用户对 Copilot 表示不满，并提到已转向 Supermaven，这表明编程助手的用户偏好正在发生变化。
有效的 Prompt Engineering 见解：关于构建有效提示词的讨论强调了它们对于生成准确 AI 输出的必要性，重点在于提供充足的上下文。
- 针对 AI 在调试过程中产生误导性结果的问题，引发了关于重构提示词以提高清晰度的讨论。

OpenAI Discord

对 AI 研究资助的兴趣增长：成员们询问了申请 AI 研究资助的经验，突显了对创新项目资金支持的日益关注。
- 这反映了一个大趋势，即财务支持对于新的 AI 计划变得至关重要。
对演进算法的着迷：讨论集中在算法的演进上，注意到 AI 模型中出现的不同人格特征。
- 他们一直在突破界限，成员们渴望了解这些模型如何管理各种输入。
将 AI 拟人化的风险：对话显示了对 LLMs 产生类人输出可能导致对意图产生误导性假设的担忧。
- 成员们敦促将 AI 视为工具，而不是推断其具有人类情感，这一点非常重要。
呼吁加强 AI 伦理指南：成员们强调在 AI 领域进行仔细的伦理考量以减轻未来风险的必要性。
- 开发智能系统的人员有责任为其应用制定更清晰的指南。
关于 GPT 拼写错误问题：成员们报告在使用 ChatGPT 时持续出现拼写错误和逻辑不连贯的问题，对输出质量表示担忧。
- 社区表达了困惑，询问其他人是否也遇到了类似问题。

Cohere Discord

算法交易：经验教训：一位拥有 4 年算法交易经验的成员分享了对市场交互复杂性的见解，指出严谨的流程有助于抵御负面影响。
- 了解哪些方法行不通需要大量的模拟交易和研究。
理解 AI 情感分析中的媒体偏见：成员们一致认为所有媒体都存在偏见，识别谁从这种偏见中获益对于准确评估至关重要。
- 一位成员提到，他们构建了一个模型，在假设所有媒体都存在偏见的前提下开始调查。
AI 输出乱码导致困惑：成员们报告在 AI 模型输出中看到奇怪的乱码文本，对其可用性表示担忧。
- 建议降低 temperature 和 top-p 参数作为潜在的修复方案，并建议进行实验。
关于响应长度的见解：响应通常在达到基于结构化提示词的自然结尾时停止，典型长度为 3,000-4,000 个字符。
- 一位成员强调，个性化会显著影响输出长度。
使用 LLMs 生成医疗笔记：一个演示展示了使用 LLMs 生成合成医疗笔记，允许用户以极少的输入创建详细的笔记。
- 查看 此处演示 以了解该工具的功能。

OpenRouter (Alex Atallah) Discord

Inflection 的服务恢复在线：最近的计费问题已得到解决，Inflection 现已恢复运行，提升了所有用户的生产力。更多详情请参阅 Inflection 3 PI 和 Inflection 3 Productivity 的链接。
- 随着服务恢复，用户报告操作已回归正常，增强了此前受影响任务的处理能力。
招募 macOS 聊天应用的 Alpha 测试人员：一位开发者正在为其新款适用于 macOS 的灵活聊天应用积极寻找 Alpha 测试人员，并分享了展示其功能的截图。
- 鼓励有兴趣的参与者私信（DM）开发者，以加入这一重要的测试阶段。
OpenRouter API 出现不稳定性：用户报告了影响 OpenRouter API 的 524 错误，导致严重的请求延迟，并引发了对其是否已准备好供公众使用的担忧。
- 由于持续的不稳定性阻碍了多个请求的执行，一些用户正考虑更换供应商。
关于 API key 安全风险的辩论：人们对 API key 可能被爬取的担忧日益增加，讨论强调了使用 Claude 3.5 Sonnet 等模型的未经授权代理所带来的风险。
- 用户强调了保护密钥的重要性，并担心尽管采取了现有预防措施，漏洞仍可能导致意外泄露。
集成访问权限需求量大：多位成员表达了对访问集成（integrations）功能的请求，强调了诸如“我想获得访问权限”之类的礼貌诉求。
- 其中一个值得注意的请求来自一位学生研究员，表明了学术界对探索集成功能的兴趣。

Latent Space Discord

Moondream 获得 450 万美元融资：Moondream 筹集了 450 万美元，旨在证明更小的 AI 模型依然具有强大实力，其网络爬虫已活跃数月。
- 讨论中出现了对潜在局限性以及在 AI 行业采用更小模型的深远影响的担忧。
Meta 开发自有的 AI 搜索引擎：据报道，Meta 正在开发一款 AI 驱动的搜索引擎，以减少对 Google 和 Microsoft 的依赖。
- 活跃的网络爬虫暗示 Meta 内部正在发生重大转变，以增强其搜索能力。
GitHub Copilot 新增 Gemini 和 Claude 模型：GitHub 引入了 Gemini 模型和 Claude，通过新功能增强其 Copilot 能力。
- 这代表了 Microsoft 与 Google 之间意想不到的合作，因为他们开始拥抱面向开发者的多模型（multi-model）方法。
对现有 Vector Databases 的批评：成员们批评当前的向量数据库缺乏合理的抽象，并支持使用 pgai Vectorizer 进行更高效的 Embedding 管理。
- 该工具承诺简化 Embedding 的同步和维护，这对于提升 AI 模型性能至关重要。
OpenAI 推出聊天记录搜索功能：OpenAI 为 ChatGPT 推出了一项新功能，允许用户搜索其聊天历史记录，提高了访问过去讨论的便利性。
- 成员们庆祝了这一期待已久的更新带来的便利，强调了对话连续性的改善。

Modular (Mojo 🔥) Discord

Modular 频道重点明确：在关于频道重点的咨询中，明确了 <#1098713601386233997> 频道严格用于 Modular 产品，而通用软件讨论则引导至 <#1104620458168553563>。
- 这一区分强调了维持对 Modular 产品聚焦讨论的目标。
Mojo 提议内存安全引用革命：一名成员发布了一份关于重新构想 Mojo 中 内存安全引用 (memory-safe references) 的重大提案，旨在建立一个更安全且更简单的引用模型。
- 目前正在征求社区反馈，以确保设计同时支持 优化灵活性 和内存安全性。
FlatBuffers 与 ProtoBuf 对比分析：团队权衡了 FlatBuffers 和 ProtoBuf 的优势，指出 FlatBuffers 的零解析效率与 ProtoBuf 对位打包 (bit packing) 的侧重。
- 由于他们计划在 Serving 中使用 ProtoBuf，因此分享了一个 Swift ProtoBuf 支持示例作为开发参考。
Mojo 中交换引用引发关注：成员们讨论了在 Mojo 中实现 交换引用 (swapping references) 的潜在陷阱，并与 Rust 的可变引用管理进行了对比。
- 人们对这可能带来的额外复杂性表示担忧，特别是关于 性能影响 方面。
优化重点转向 noalias 讨论：讨论强调了在 Mojo 中使用 noalias 实现高效性能的重要性，许多人主张将其作为默认方法。
- 支持唯一引用的设计被认为是必不可少的，因为在此处的疏忽可能会导致严重的性能问题。

Eleuther Discord

Hugging Face CEO 引发热议：Hugging Face 的联合创始人兼 CEO Clem 计划进行一场激动人心的演讲，这在社区内引起了期待。
- 演讲详情尚未披露，成员们正热切期待更多信息。
Hellaswag 训练性能超出预期：在使用 8xH100 硬件的情况下，以不到 $200 的成本在 7.3 小时 内实现了 GPT-2 (1.5B) 级别的 Hellaswag 性能，创造了新纪录。
- 这代表了效率的重大飞跃，此前的基准为 24 个 8xH100-小时。
GPT-NeoX 在 Colab 上运行确认：已确认 GPT-NeoX 可以在 Colab 上运行，并提供了一个 Colab notebook 参考链接。
- 所使用的模型非常紧凑，其 5M 参数 展示了实际应用的潜力。
首个 Sparse Autoencoder 指南发布：一名成员发布了关于利用 预制 Sparse Autoencoder 的分步指南，标志着 Mechanistic Interpretability 领域的一项新举措。
- 该指南为旨在加深对解释性技术理解的系列内容奠定了基础。
自定义证书支持问题得到确认：一名成员注意到缺乏对 自定义证书 的支持，但分享了一个可能有助于缓解这一限制的变通方法 (workaround)。
- 讨论突显了社区在分享解决这些技术挑战的方案方面所做的努力。

Interconnects (Nathan Lambert) Discord

OpenAI CFO 宣布 AI 已成为主流：在一段 YouTube 视频中，OpenAI CFO Sarah Friar 强调 AI 不再是实验性的，因为银行和金融科技公司每天都在使用它。
- 这一重大转变也为各行各业的广泛落地提供了更多机会。
SearchGPT 扩展程序发布：预计 OpenAI 将推广其新的 Chrome 扩展程序，允许用户在发布时将 SearchGPT 设置为默认搜索引擎。
- 用户可以直接通过浏览器地址栏快速发起搜索，并根据需要使用重定向到 Google 的命令。
ROCKET-1 简介：ROCKET-1 旨在通过利用视觉-时间上下文提示来增强 Minecraft 中的创意任务，由 Team CraftJarvis 展示。
- 这一进展突显了 Vision-Language Models 在开放世界应用中不断进化的能力。
Anthropic 的招聘势头：Anthropic 因其强劲的招聘实践而受到关注，并宣布有新成员加入其团队。
- 他们最近的举措反映了公司在 AI 领域的蓬勃发展和雄心壮志。
Claude 与 GitHub Copilot 的集成：Claude 3.5 Sonnet 现已面向在 Visual Studio Code 中使用 GitHub Copilot 的开发者开放，本周开始推广。
- 这种集成预计将通过在流行的开发工具中直接提供先进的 AI 支持来增强编码体验。

OpenInterpreter Discord

Open Interpreter 的完整功能需要视觉模型：为了让 Open Interpreter 正常发挥视觉能力，通常需要一个 Multi-modal Model，除非使用 Moondream 处理基础任务。
- 用户反映在使用 Llava 等本地模型时，难以复制 Sonnet 或 GPT-4o 的功能。
本地模型执行操作的挑战：成员在使用 Llava 等本地模型执行类似于云端模型的操作（如截屏）时遇到问题。
- 呼吁改进设置指南，以便更好地与 Computer API 集成。
OpenAI 向免费用户开放 Advanced Voice：OpenAI 宣布 Advanced Voice 现已向欧盟、瑞士、冰岛、挪威和列支敦士登的免费用户开放。
- 这一进展显著提高了这些地区用户的可访问性。
Apple 为破解其 AI 服务器提供 100 万美元奖金：Apple 准备为任何成功入侵其 AI 服务器的人支付高达 100 万美元的奖金。
- 这一举措引发了对 Cybersecurity 的关注，并引导人们审视 Apple 的安全措施。
ChatGPT 推出聊天记录搜索：OpenAI 透露已在 ChatGPT Web 端推出聊天记录搜索功能，提升了用户的可用性。
- 此更新允许用户快速参考之前的对话，改善了持续交互的体验。

Torchtune Discord

不带 LoRA 的量化受到关注：成员们讨论了基础模型是否可以在不利用 LoRA 的情况下进行像 QLoRA 那样的量化，并强调了在非 LoRA 环境中的配置挑战。
- “我想主要问题是我们没有办法在非 LoRA 模型构建器中配置这一点。”
FSDP 的简单 CPU Offloading 测试：讨论集中在 FSDP 上，目前它使用单一参数进行 CPU Offloading（包括参数、梯度和优化器状态），缺乏精细控制。
- 有人提出性能方面的考虑：“这种方法数据移动更多，但由于优化器步骤在 GPU 上，速度可能更快。”
对量化 KV-Caches 的怀疑：由于大型模型的高内存消耗，成员们对使用 NF4 张量的 Quantized KV-Caches 的实用性表示怀疑。
- “我不认为 Torchao 中的 Quantized KV-Cache 目前有那么有用或强大，” 这表明需要进一步探索。
量化非训练权重引起兴趣：对话强调，在 PPO 期间量化冻结权重有助于减少内存使用，特别是对于非训练模型组件。
- “是的，我想做类似的事情，在 PPO 期间量化非训练模型，” 表现出对内存效率策略的兴趣。
8-bit 以下量化的准确性风险：对于将激活值（特别是 KV Caches）量化到 8-bit 以下时的准确性表示担忧。
- “将激活值量化到 8-bit 以下会出现相当严重的准确性问题，” 强调了在激进量化方法上需保持谨慎。

DSPy Discord

PAPILLON 解决 AI 隐私担忧：研究人员开发了 PAPILLON，在 AI 应用中实现了 85.5% 的质量，而 隐私泄露仅为 7.5%。
- 该系统有效地允许集成 本地和云端 LLM，解决了现代 AI 中的重大隐私挑战。
PUPA 基准测试揭示隐私问题：团队推出了 PUPA，这是一个评估包含个人身份信息 (PII) 的用户与 LLM 交互的基准。
- 他们的发现为一种名为 Privacy-Conscious Delegation 的新方法提供了依据，该方法融合了 API 驱动和本地模型的方法。
DSPy 简化 AI 编程：一份关于 DSPy 的 ELI5 解释将其描述为一种编程语言，允许通过带有 DSPy signatures 的普通 Python 开发 AI 系统。
- DSPy 提供了用于处理 prompting 策略的 Modules，以及专注于提高输出质量的 Optimizers。
MIPROv2 Optimizer 提升质量：讨论显示，如果有效利用，MIPROv2 optimizer 可以使输出质量提高 41%，泄露减少 68%。
- 用户注意到它能够根据各种属性对训练数据进行采样并生成指令，从而优化整体性能。
MIPROv2 错误修复解决了使用问题：有报告称 MIPROv2 在与 GPT-4o Mini 配合使用时出现错误，与其在 GPT-4 上的成功运行形成对比。
- 调整 demo 参数有助于解决困惑，并提高了中等配置下的性能。

LlamaIndex Discord

NVIDIA 关注 RAG 的需求：NVIDIA 最新的博客深入探讨了 检索增强生成 (RAG)，揭示了用户渴望额外的功能，包括 文档翻译 和 代码编写。
- 即使是那些专注于内部数据的人也对 web search 功能表现出兴趣，该功能通过 Perplexity’s search API 实现。
Chroma 的检索算法引起关注：围绕 Chroma 的 vector store 检索行为展开了讨论，特别是在使用 index = GPTVectorStoreIndex.from_vector_store(vector_store=vector_store) 时。
- 成员们强调 Chroma 的算法是近似的，即使对于相似的索引块，也会影响结果的可变性。
揭秘网页抓取技巧：分享了一个名为“这就是我如何通过 LLM 抓取 99% 网站”的实用 YouTube 视频，展示了 2024 年先进的网页抓取能力。
- 该视频提倡使用 AgentQL 免费抓取网站，展示了 LLM 的实际应用。
区块链工程师寻求项目合作：一位自 2017 年起从业的区块链工程师寻求项目机会，自荐在 defi、NFT games 以及 Solidity 和 RUST 等语言方面的专业知识。
- 他们的背景包括参与涉及 Dex、DAO 以及 NFT 铸造和质押的各种项目。
使用 MLflow 构建高级 RAG 系统：一份指南概述了如何利用 MLflow 和 LlamaIndex 创建 高级 RAG 系统，允许结合 vector 和基于关键词的搜索。
- 这种方法针对 event-driven orchestration 以增强工作流管理，如 GitHub 上的一个示例所示。

LLM Agents (Berkeley MOOC) Discord

LLM Agents Hackathon 报名人数激增：短短几天内，已有超过 1000 多名创新者报名参加 LLM Agents Hackathon，反映出浓厚的兴趣。如果你还没加入，请立即完成参与者报名！
- 现在加入还不晚！
第 8 次讲座定于 PST 时间下午 3:00：第 8 次讲座将于今天 PST 时间下午 3:00 举行，此处提供直播地址。本次会议重点讨论将复杂推理与 Large Language Models 集成，承诺提供宝贵的见解。
- 敬请收看！
成立学习小组：一名成员提议成立一个学习小组进行课程讨论，建议通过虚拟会议吸引那些较晚加入的人。随后很快有人表示感兴趣，几名成员确认他们想要参加。
- 听起来很酷！
请求直播字幕：一名成员请求在直播视频中开启 Subtitles（字幕），并得到确认所有讲座随后都会进行编辑并提供字幕。这确保了可访问性，提升了观众体验。
- 我们正在努力！
开发基于 React 的自动化 Agent：一名成员询问如何创建一个基于 React 的 Agent，使用 pyauto gui 根据当前状态评估来自动执行任务。建议直接提问而不是泛泛而谈。
- 直接问更简单！

LAION Discord

Latent Diffusion Model 训练中的粉色像素块：在训练类别条件 Latent Diffusion Model 时，一名成员报告在 VAE 解码过程中遇到粉色像素块，随着训练次数增加，这些像素块出现的频率会降低。
- 他们正在考虑在 DDIM p_sample 中采用更激进的裁剪（目前为 99.95%）是否能解决这些色块问题。
对 Parameters 与 Tokens 的误解：一名成员误以为 100B 指的是参数（Parameters）而非 Token，这导致了混淆，随后由另一名成员澄清。
- 此外，他们指出链接的模型实际上只有 8B parameters，并得到了同行的验证。
协作探索 IJEPA 架构：一名成员表示有兴趣合作开发一种创新架构，将 IJEPA 与无向量量化的自回归图像生成相结合。
- 他们对共同探索这一独特架构的热情预示着该领域潜在的进展。

tinygrad (George Hotz) Discord

George Hotz 经历了“负行数日”：George Hotz 表示自己经历了一个 negative line day（代码行数负增长日），引发了社区的幽默反应。
- 这种轻松的交流反映了成员们在应对编码挑战时相互支持的氛围。
CI 测试变快了：Chenyuy 报告 CI 测试缩短了 2 分钟，表明性能优化取得了进展。
- 测试流程的改进展示了在提升 tinygrad 项目效率方面的共同努力。
Uops 可读性挑战浮现：关于 Uops 可读性的担忧浮出水面，一些单行代码（one-liners）难以理解。
- 有人建议创建一个文档页面，以潜在地提高所有用户的代码清晰度。
强调文档维护问题：Chenyuy 强调了关于文档的维护担忧，文档往往很快就会过时。
- 他指出，不准确的文档可能比没有文档更阻碍进度，这反映了 tinygrad 快速变化的节奏。
关于过早优化的辩论：George Hotz 提议移除某些代码元素，以避免 premature optimization（过早优化）的陷阱。
- 这场讨论强调了正在进行的深思熟虑的测试，旨在仔细平衡代码效率与潜在的复杂性。

LangChain AI Discord

RAGAS 增强 LLM 评估：一位成员建议使用 RAGAS 来改进 LLM 应用评估，并展示了其功能和方法论。
- 该工具旨在为开发者提供更精细的方法，以有效地评估语言模型。
CSV 文件寻求集成：关于将 CSV 文件 作为数据源与 LLAMA3 等开源模型集成的讨论引起了关注，并指出目前现有示例存在空白。
- 该咨询特别提到了将 CSVChain 和 PandasAgent 与非 OpenAI 模型结合使用，以实现更好的数据处理。
LangChain-Python 版本查询：寻求关于哪个版本的 Python 与 LangChain 0.3 版本 兼容的澄清，反映了社区对环境配置指导的需求。
- 正确的环境配置对于开发者高效使用 LangChain 至关重要。
LangChain-JS 课程发布：好消息！ Udemy 上发布了一门针对初学者的全新 LangChain-JS 课程。
- 课程内容涵盖从基础知识到构建完整的 RAG 应用，前 100 名学生可以免费入学。
网页抓取大师课：一位成员推荐了一个名为“这就是我如何通过 LLM 抓取 99% 的网站”的 YouTube 视频，教授使用 LLM 进行实用的网页抓取。
- 该视频强调使用 AgentQL 免费抓取网站，展示了创新技术。

Gorilla LLM (Berkeley Function Calling) Discord

澄清排行榜上的 ‘Multiple’：排行榜上的 ‘Multiple’ 表示在单轮对话中从多个选项中选择正确函数的能力，如此 GitHub 示例所示。在这种情况下，多步（multi-step）的评估仍然存在歧义。
- 这种困惑值得注意，特别是关于多步执行与多轮（multi-turn）场景的区别，这引发了用户间的各种讨论。
多步与多轮评估方法：一位成员澄清说，’multiple’ 与函数有关，而多步评估属于 ‘multi_turn’ 类别，目前没有使用单一的多步评估。理解这些区别对于准确解读至关重要。
- 多步和多轮评估之间的重叠可能会让用户感到困惑，因为这两个概念在排行榜设置的评估中共享相同的类别。

LLM Finetuning (Hamel + Dan) Discord

Cracked Engineers 招聘平台上线！：一位成员分享了一个名为 Cracked Engineers 的全新技术职位招聘平台，旨在成为顶级 AI/技术初创公司的首选。
- 在正式发布前，该平台的预计 MRR 已达到 1000 美元，目前已吸引了 Weaviate、UnslothAI 和 JuliusAI 等顶尖公司。
推出极具洞察力的每周技术职位通讯：该平台即将发布每周技术职位通讯，根据用户偏好精选职位。
- 用户可以通过仪表板订阅感兴趣的标签，例如 CUDA、MLOps 或 Software Engineering。
AI 初创公司的诱人工作机会：Unsloth AI、Julius AI 和 Jimini AI 正在积极招聘优秀职位，如果不是创始人，他们也会考虑这些职位。
- 对于任何希望从事前沿 AI 技术工作的人来说，这些职位都被描述为绝佳的机会。

OpenAccess AI Collective (axolotl) Discord

成员寻求 SymNoise 代码实现：一名成员正在寻找 SymNoise 微调技术的代码实现，该技术将 symmetric noise 集成到 embedding 中。由于 batch size 要求方面的问题，他们在实现过程中遇到了困难。
- 这一咨询显示出社区对高级微调方法的兴趣日益浓厚，尽管目前尚未提供具体的解决方案。
SymNoise 提升 LLaMA-2-7B 性能：SymNoise 方法将 LLaMA-2-7B 在 AlpacaEval 上的表现从 29.79% 提升到了令人印象深刻的 69.04%，超越了 NEFTune。正如论文摘要所述，这比 NEFTune 的 64.69% 分数显著提高了 6.7%。
- 结果突显了 SymNoise 在微调语言模型方面的潜力，为性能设定了新的基准。
SymNoise 在多模型中表现优于 NEFTune：测试显示，在各种模型和基准数据集上，SymNoise 的结果始终优于 NEFTune。这引发了关于该领域需要进一步研究的讨论。
- 社区成员强调了继续探索和验证这些微调方法论的重要性。
征集 SymNoise 研究资源：在咨询中，一名成员链接到了详细介绍 SymNoise 方法的 arXiv 论文，强调了其在该领域的相关性。然而，目前还没有共享额外的代码资源或实现来帮助解决实现上的挑战。
- 这表明在基于最新研究成果开发实际应用方面，需要更广泛的协作努力。

Alignment Lab AI Discord 没有新消息。如果该服务器（guild）沉寂时间过长，请告知我们，我们将将其移除。

MLOps @Chipro Discord 没有新消息。如果该服务器沉寂时间过长，请告知我们，我们将将其移除。

Mozilla AI Discord 没有新消息。如果该服务器沉寂时间过长，请告知我们，我们将将其移除。

DiscoResearch Discord 没有新消息。如果该服务器沉寂时间过长，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该服务器沉寂时间过长，请告知我们，我们将将其移除。

PART 2: 频道详细摘要与链接

按频道划分的详细分解内容已在电子邮件中截断。

如果您想查看完整的分解内容，请访问此电子邮件的网页版：！

如果您喜欢 AInews，请与朋友分享！提前感谢！

GitHub Copilot 反击