[TOC]

AI Reddit 摘要回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线，但仍有很大改进空间！

LLM 模型与框架

Command-R 35B 模型在创意写作方面表现出色：在 /r/LocalLLaMA 中，Command-R 35B 模型在创意基准测试中表现优于 Goliath-120 和 Miqu-120 等更大型的模型。正确的 Prompt 引导是释放其潜力的关键。
Llama-3 8B 模型上下文窗口扩展：Llama-3 8B 模型可以使用 100 万 Token 的上下文窗口。将上下文从 8K 扩展到 80K Token 提升了长文本理解任务的性能，该过程仅在单台 8xA800 GPU 机器上使用 3500 个 GPT-4 生成的训练样本，耗时 8 小时完成。
TensorRT-LLM 在速度上超越 llama.cpp：根据在消费级笔记本电脑和台式机上的基准测试，在相同硬件上 TensorRT-LLM 比 llama.cpp 快 30-70%。
基准测试显示 GPT2-Chat 的推理能力优于 GPT 4-Turbo：在 /r/LocalLLaMA 中，一项包含 80 个 One-shot 任务的新基准测试表明，GPT2-Chat 可能比 GPT 4-Turbo 具有更好的推理能力，尽管其整体智能略低。然而，一些用户对该结果表示怀疑。

AI Agent 与机器人

自学习 Llama-3 语音 Agent 演示：一个具备 Function Calling 和自动 RAG 功能的自学习 Llama-3 语音 Agent 演示，在 Jetson Orin 上本地运行。
自学习 Large Action Model (LAM) 演示：一个开源的自学习 Large Action Model (LAM) 演示，无需用户训练。

AI 助手

Amazon CodeWhisperer 更名为 Q Developer：Amazon CodeWhisperer 已更名为 Q Developer，扩展了其作为开发者生成式 AI 助手的功能。
苹果将推出支持 AI 的 Safari 浏览器：苹果计划推出支持 AI 的 Safari 浏览器，并在 iOS 18 和 macOS 15 中配备端侧 LLM。

AI 伦理与治理

华盛顿的 AI 游说热潮由科技巨头主导：科技巨头（Big Tech）正主导着华盛顿的 AI 游说热潮，旨在影响 AI 政策。
美国主要报社起诉 OpenAI 和 Microsoft 侵犯版权：美国多家主要报社已对 OpenAI 和 Microsoft 提起诉讼，指控其侵犯版权。

AI 研究

DeepMind 的 AlphaZero 在 9 小时内成为最强国际象棋选手：从零开始，DeepMind 的 AlphaZero 在短短 9 小时内就成为了最伟大的国际象棋选手。
DeepMind 的 Naturalized Execution Tuning (NExT) 提升了 LLM 代码推理能力：DeepMind 的 NExT 提升了 LLM 的代码推理能力，通过让模型检查执行轨迹并提供原理解释，将修复率提高了 14-26%。

Stable Diffusion 与图像生成

Stable Diffusion 被用于多种应用：在 /r/StableDiffusion 中，Stable Diffusion 正被用于生成逼真的自拍、服装选择等，而不仅仅是 NSFW 内容。
ConsistentID 项目生成高质量肖像：ConsistentID 项目生成具有身份一致性和多样性的逼真肖像，潜力可能超越 Ipadapter。
适用于 SDXL 的 HiDiffusion 生成高质量图像：在 /r/StableDiffusion 中，适用于 SDXL 的 HiDiffusion 可生成高质量图像，但需要将 CFG 设置为 20 以保持连贯性。

AI Twitter 回顾

所有回顾均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和 flow engineering。

Anthropic 发布 Claude iOS 应用及新功能

Claude iOS 应用发布：@AnthropicAI 宣布发布 Claude iOS 应用，将他们的 AI 带到移动设备。该应用现已在 App Store 上架。
新 Team 方案：@AnthropicAI 为 Claude 推出了 Team 方案，提供更高的使用额度、用户管理、计费功能，并为处理复杂任务提供 200K context window。
即将推出的协作功能：@AnthropicAI 预告了未来的功能，例如用于验证陈述的可靠来源引用，以及与数据仓库的集成，同时保持安全性和防护。

AI 专家分享见解

Demis Hassabis 谈 AI 加速科学：@demishassabis 在 @TEDTalks 上发表演讲，讨论 AI 将如何加速科学发现，并帮助应对癌症和气候变化等重大挑战。
Yann LeCun 批评当前的 LLM：@ylecun 认为 LLM 中的知识积累不能替代真正的理解，并指出了表现出缺乏基本逻辑、常识以及无法承认错误的行为。

个人经历与反思

Anthropic 员工分享最喜欢的 Claude 帖子：@alexalbert__，一名 Anthropic 员工，分享了过去两个月公司 Slack 中最幽默的 10 个 Claude 帖子和梗图。
应对手部残疾与职业转型：@jxnlco 分享了他在 2020 年因手部残疾而失去编程和工作能力的经历，以及为什么他现在选择做咨询而不是在节奏快速的初创公司工作。
带着对 ML 进展的见解离开 Scale AI：@russelljkaplan 宣布在工作近 4 年后离开 @scale_AI，回顾了公司的成长以及他对 ML 未来的独特看法。他计划分享更多关于 ML 进展和下一步行动的想法。

AI 研究与更新

Lmsys.org 为社区提供未发布模型的访问权限：@lmsysorg 澄清说，他们与模型开发人员合作，为社区提供未发布模型的预览测试访问权限，旨在随着规模扩大以及与开源和商业供应商合作，引入更多模型。
关于使用 RLHF+PPO 进行指令遵循的 2020 年论文：@rasbt 强调了 Stiennon 等人在 2020 年发表的一篇论文，该论文在 InstructGPT 出现两年前就使用 RLHF+PPO 对 LLM 进行微调以进行指令遵循。
Meta 提出用于加速 LLM 的 multi-token prediction：@arankomatsuzaki 和 @rohanpaul_ai 分享了 Meta 的一篇论文，该论文关于使用 multi-token prediction 更高效地训练 LM，在保持或提高下游性能的同时，推理速度提升高达 3 倍。

其他话题

机器学习书籍推荐：@svpino 分享了他心目中前 3 名的 ML 书籍，涵盖了 ML 工作流、算法以及 Keras、PyTorch 和 Scikit-Learn 等深度学习工具。
对 Ilya Sutskever 论点的批评：@teortaxesTex 质疑了 Sutskever 关于预测目标将成功创建完美先知（oracle）的说法。
梗图与幽默：@mervenoyann 和 @BorisMPower 分享了幽默图片和梗图。

AI Discord 回顾

摘要的摘要之摘要

1. 大型语言模型 (LLM) 进展与基准测试

LLaMA 3 正受到关注，Nous Research 在 LLaMA 3 8B 上的 Hermes 2 Pro 在 AGIEval 和 GPT4All Suite 等基准测试中表现优于原始模型。关于 LLM quantizing 的讨论指出，在质量显著下降前存在每权重 5.5 bits 的限制。努力将 context lengths 扩展到典型限制之外，例如 LLaMA 3 的 1M tokens，尽管实际限制平均为 100-200k。
Iterative methods 如 Meta 的 Iterative Reasoning Preference Optimization 提升了 LLaMA-2-70B-Chat 在 GSM8K 和 ARC-Challenge 上的准确率。Kolmogorov-Arnold Networks (KANs) 被提议作为比 MLPs 更准确且具可解释性的替代方案。
ScandEval 德国 NLG 任务上的 LLaMA vs GPT-4 性能对比引起了兴趣，LLaMA 3 的表现优于 GPT-4。

2. 高效 LLM 推理的优化与技术

对 efficient inference 方法表现出浓厚兴趣，如用于向量矩阵近似的 effort/bucketMul，LLM Paper Club 讨论的 Ring Attention，以及 llm.c 中的 CUDA optimizations（如 Flash Attention 和 CUDA Graphs）。
关于受生物合理性启发的 binary vector representations 用于 embeddings 的辩论，参考了 CLIP、Dino 和 RWKV LLM 方法。
提高 transformer lens 可解释性的技术，如 tuned lens method，以及探索 neural scaling laws 中的 distributional simplicity bias。

3. 开源 AI 工具、库与框架

LlamaIndex 在文档知识图谱化方面受到关注，新的 LlamaIndex.TS v0.3 提高了类型安全性和 Agent 支持。讨论了使用 MongoDB Atlas 作为 vector store。
Axolotl 被广泛用于开源 LLM fine-tuning，新增了 LLaMA-3 prompt 策略以及用于编排的 dstack 集成。
对 llama.cpp 优化的兴趣，包括 Flash Attention 合并以及支持 LLaMA 3 tokenization 的努力。LM Studio 期待包含 llama.cpp 更新的 0.2.22 版本发布。
Tinygrad 的进展包括将 Scalar 重命名为 ConstType，探索 const 支持变量，以及 geohot 提交的 symbolic shape handling。

4. 多模态与检索增强 AI 能力

发布了 multimodal models，如用于编程的 Snowflake Arctic 480B 和 Fireworks 的 FireLLaVA 13B（一个基于指令数据训练的开源 LLaVA 模型）。
探索使用 LangChain 结合 Mistral Large 和 LlamaIndex 进行 Retrieval-Augmented Generation (RAG)，并提供了关于构建高级 RAG 助手和复杂度自适应 RAG 策略的教程。
发布了 multimodal AI assistants，如用于 Unreal Engine 的 Neuralgameworks 和 AI 产品 Rabbit R1，引发了对集成 OpenInterpreter 的兴趣。
医疗 AI 的进展，如使用 OpenCLIP 的心脏超声研究和 Google 用于医疗保健的 Med-Gemini multimodal models。

PART 1: 高层级 Discord 摘要

CUDA MODE Discord

CUDA C++ 优化见解：开发者分享了 CUDA C++ Core Libraries 的最佳实践，揭示了性能提升，但发现一个原本用于存放幻灯片的 Google Drive 链接是空的。他们进一步讨论了准确的 CUDA kernel profiling 技术，相比 cudaEventRecord，更倾向于使用 NVIDIA 的工具如 nsight compute 和 nsight system，因为它们开销更小且 profiling 功能更强大。
Triton 解决 Block Size 和调试问题：在 Triton 领域，工程师们澄清了 Triton 的最大 block size 不受 CUDA 等硬件限制，并建议利用 Triton 调试讲座进行调试。频道还提到使用 triton-nightly 以受益于最近的解释器 bug 修复。
稀疏性算法引发基准测试与学习讨论：AI 爱好者讨论了一种在 batch size 为 1 时利用激活稀疏性（activation sparsity）的算法，该算法的作者也参与了讨论，并承诺分享新的基准测试以及关于该方法与量化方法相比在速度/质量权衡方面的见解。
CUDA 中的 Stride 对齐与 Kernel 优化：关于 tensor stride 对齐和 kernel 优化策略（如 matmul_backward_bias）的讨论主导了 #llmdotc 频道。会上辩论了使用 x128 packing 策略、实验 CUDA Graphs、cuDNN Flash Attention 优化以及为 master weights 引入 FP32 所带来的性能提升，展示了对更高效 CUDA 编程的追求。
AMD 的 ROCm 与 Torch Nightly 讨论：专注于 AMD ROCm 平台的用户交流了对 torch Nightly（而非 Torch 2.3）的偏好，质疑了 AMD 分支中缺少最新 version 2.0 of flash attention 的问题，并分享了为 AMD Flash Attention 添加反向传播（backward pass）的消息，引发了信息丰富的交流，并提供了一个 AMD HIP 教程资源。

Unsloth AI (Daniel Han) Discord

GPU 效率引起关注：A4000 16GB GPU 因其训练效率受到称赞，与 A100 相比，其性价比获得了好评。B200 因其潜力被吹捧，预计在成本相当的情况下，效率将比目前的 H100 高出 25 倍。

技术探讨：关于采用 LoRA 还是 QLoRA 的辩论表明，QLoRA 可能会减少 75% 的 VRAM 使用量，但代价可能是损失 1-2% 的模型准确度。建议对训练数据进行 80-10-10 的划分以确保模型的鲁棒性，同时语言模型微调正在取得进展，证明了其在土耳其语翻译中的应用。

模型训练创新：用户报告了 llama.cpp 的量化问题，导致了 GitHub issue，如 #3759 和 #4180。微调和训练的工作流程是一个澄清点，提出了 checkpointing 策略和推理提供商（如 Jan 和 GPT4All），可在 janhq/jan 等仓库中获取。

提议 AI 开发路线图：简单明了的 AI 项目路线图的倡导者强调了其重要性，同时正在探索小型模型增强对话能力的潜力。此外，检索增强（retrieval augmentation）的概念正受到关注，并参考了 FlagEmbedding 的 GitHub 仓库等实现。

尺寸与性能：值得注意的一点是，Phi3 Mini 4k 在 Open LLM 排行榜上的表现优于较大的 128k 版本，这促使人们重新评估模型尺寸的有效性。人们倾向于选择 Phi3 Mini 4k 等模型，因为它们比大型对应模型更高效。

LM Studio Discord

亮眼的性能优化：Flash Attention 集成到 llama.cpp 中，通过将复杂度从 O(N^2) 降低到 O(N) 提升了内存效率，合并后的 PR Flash ATTENTION support merged into llama.cpp 引发了社区的热烈反响。
模型限制带来的通用性问题：热烈的讨论揭示了模型在超出设计限制使用时面临的兼容性障碍，例如 Llama 3 在旧版本上运行不佳，且在 context 超过 250,000 tokens 时会报错，尽管有人尝试在 36GB VRAM 上实现 1M token 的窗口。
充足硬件的必要性：讨论串一致认为，有效使用 LLM 需要相当大的系统资源，像 Everything 7b q4 这样的模型在仅有 8 GB RAM 的设备上会变得非常缓慢，而更新后的 llama.cpp 分词器错误也暗示了对 RAM 的巨大需求。
ROCm 构建障碍：AMD 用户就 ROCm 和 OpenCL 的集成展开了交流，有报告称在 7900xtx 上会出现 VRAM 容量 误读的情况（尽管之前使用 RX 6600 时正常），并建议选择 7900XTX 而非 7900 GRE 以确保 LM Studio 的兼容性。
追求最新的模型和软件版本：即将发布的 LM Studio 0.2.22 引起了关注，旨在修复分词器问题并提升模型性能，同时建议使用 llama.cpp 的 beta 版本来解决社区反馈的问题。

若要了解技术进展和修复的更新，建议社区关注相关 GitHub 仓库和发布页面，以获取最新的 commit 和构建更新。

Nous Research AI Discord

突破 OOD 障碍：针对位置分布外（OOD）问题提出了一种解决方案，旨在帮助大语言模型泛化到更长的 context，详见最近发表的论文。在 llama.cpp 仓库中可以找到使用 --grp-attn-n 和 --grp-attn-w 参数的实现示例。
Llama-3 的飞跃：Nous Research 推出了 Hermes 2 Pro on Llama-3 8B，重点提升了 Function Calling 和 Structured Output 能力，并在主流基准测试中超越了 Llama-3 8B Instruct。针对效率优化且不牺牲先进性的量化版本也已在 HuggingFace 上线。
LLM 性能与实用性：讨论指出，每权重 5.5 bits (bpw) 的量化是大语言模型性能出现显著损失前的临界点。新的 Hermes 2 Pro Llama 3 在获得 Function Calling 等新技能的同时，也“遗忘”了某些特定任务，社区正在探索长 context 长度的优化以及高级分词机制的集成。
AI 创新的数据集与工具：一个新的 Wikipedia RAG 数据集 已经发布，与之配套的还有一项关于利用 LLM 合成多语言训练数据的研究，详见此处。此外，讨论还涉及了在 Cynde 重构中集成 Pydantic，以及引入 Logfire（一个因简化代码可观测性而受到赞誉的平台），详情见此处。
虚拟仿真进展：社区见证了商业和音乐行业模拟器 CompSimulator 和 Snow Singer Simulator 的发布，旨在提供沉浸式的 AI 驱动体验。此外，来自 AGI House SF 的演讲促成了社区聚会计划，并注意到 HF Chat 上的 LLAMA 3 机器人对于相同消息会产生一致的响应。

Stability.ai (Stable Diffusion) Discord

SD3 发布期待落空：由于 4 月或 5 月发布的预期未能兑现，对 Stable Diffusion 3 (SD3) 发布的怀疑情绪蔓延；人们担心 Stability AI 可能会因为关于 SD3 免费且开源的声明而面临批评。
本地界面阵容评估：AI 爱好者正在对比 ComfyUI、AUTO11111、Focus 和 Forge 等 Stable Diffusion 本地界面，建议主要取决于用户友好度以及特定的硬件需求（如 NVIDIA 或 AMD GPU 兼容性）。
AI 辅助提示词工程：关于有效图像描述提示词的最佳工具存在持续辩论，提到了 ChatGPT、Gemini、Claude 3 和 idefics2；这些工具对于优化提示词以增强图像生成效果具有潜在价值。
AI 服务与隐私工具：讨论显示了投资 Gemini 和 Claude 3 等 AI 服务的趋势，并结合战略性使用 VPN 技术（包括 DNS over HTTPS）来绕过地区限制或保持用户匿名。
Automatic1111 粉丝的扩展讨论：出现了关于使用 Automatic1111 extension 在图像中嵌入标签的能力，以及在 ComfyUI 等自定义界面中是否存在类似于 clip skip 和 stylizer 功能的疑问。

OpenAI Discord

聊天控制升级：OpenAI 为 ChatGPT Free 和 Plus 推出了更新的数据控制功能，允许用户在选择不将数据用于训练的同时查看聊天历史。他们还引入了临时聊天 (Temporary Chat) 功能，用于不保留聊天历史的一次性会话。
GPT-2 在聊天机器人中的复兴：成员们正在探索 gpt2-chatbot，反馈褒贬不一；它在某些场景下表现出色，但也被指出偶尔会失败。尽管有访问问题的报告，但其无限生成的能力引起了人们的兴趣。
剖析 AI 情感智能：关于 AI 发展情感潜力的深入讨论与人类发展进行了类比。重点在于 AI 系统中实现同理心理解或类似情感反应是否可行或可取。
DALL-E 免费层级功能辩论：用户一直在讨论 OpenAI 为免费用户提供的 DALL-E 等服务，在商业可持续性与扩展用户功能之间寻找平衡。
利用正向提示词结果：AI 工程师正在探索高效的 Prompt Engineering，重点关注正向提示 (positive prompting) 和元提示 (meta-prompting)，以实现与 AI 模型更有效的交互，建议使用诸如 “用 ‘y’ 代替 ‘x’” 之类的策略来优化输出质量。

Perplexity AI Discord

Pages 功能准备 Beta 测试：Perplexity AI 宣布即将推出名为 Pages 的功能，旨在对主题进行可分享的深度探索；感兴趣的用户可以获得 Beta 版本的早期访问权限。

API 引用缺失问题：工程师们表达了在使用 Perplexity-online models 时通过 API 请求访问引用的担忧，并讨论了 Pro UI 与 API 模型结果之间的差异；API 文档 被明确为获取模型详情的首选资源。

限制与故障成为焦点：成员们讨论了 Opus 每天 50 次的使用限制、Pro Search 和引用工具中的故障，以及 AI 模型响应缓慢的问题，并针对登录问题提供了关于服务商可能存在的邮件过滤的技术建议。

通过分享内容进行探索：用户积极分享了关于各种主题的见解和链接，包括 Microsoft Research Asia、Vimeo API 和 Tesla 的自动驾驶技术；此外，一份分享的新闻通讯提供了了解产品开发见解的窗口。

Claude 3 政策与模型利用说明：关于 Claude 3 使用政策的咨询引发了关于是适用 Perplexity 还是 Anthropic 政策的讨论，同时解释了 Pro UI 中在线模型的使用方式，即要么经过微调，要么采用搜索引擎式的向量数据库 (vector database) 来生成响应。

Eleuther Discord

利用 Effort/BucketMul 加速推理：引入了一种名为 effort/bucketMul 的新算法，旨在显著加速向量-矩阵近似和大语言模型 (LLM) 推理，有望实现实时计算负载调整，并兼容 Mistral 等模型。更多详情可以在这里找到。
二进制在嵌入效率上超越超球体：关于嵌入策略的讨论揭示了二进制向量表示在嵌入效率方面的优势，这得到了生物学合理性和计算节俭性的支持，并与 RWKV LLM 建立了联系，应用这些原理可能有助于加快学习速度。如需深入了解，请阅读关于 RWKV LLM 以及 CLIP 和 Dino 等开创性嵌入工作的资料。
揭秘黑盒并改进基准测试：围绕 LLM 不透明性的对话指出了其复杂性与人类理解力之间的差距，重点在于通过避免在基准测试集上训练 LLM 来提高基准测试 (benchmark) 比较的公平性。请参阅关于基准测试数据集中偏差的讨论。
KANs 领先于 MLPs：新兴研究引入了 Kolmogorov-Arnold Networks (KANs)，在准确性和可解释性方面凭借高效的缩放定律 (scaling laws) 超越了多层感知器 (MLPs)。关于 KANs 的关键论文见此处。
力求透明的 LLM 计算：一位成员的阐述对序列预测模型中的计算模型进行了理论化，讨论了绑定嵌入 (tied embeddings) 如何影响可解释性，并思考了验证其假设的实验方法。必读内容包括 Deriving a Model of Computation for Next-Token Prediction 以及关于 tuned lens method 和 distributional simplicity bias 概念的论文。

HuggingFace Discord

CVPR 参赛现金奖励：HuggingFace 宣布了 CVPR 竞赛，总奖金池超过 $120,000，包括定于 2024 年 6 月 17 日至 21 日举行的 SnakeCLEF、FungiCLEF 和 PlantCLEF 等竞赛。
Transformers 和 Gradio 升级：Transformers 库的一次重大更新引入了新模型，其中 Phi-3 现在可以在浏览器中运行。Gradio 也发布了 v4.28.0，具有自定义组件功能；同时 Datasets 库也发布了并行更新，达到 v2.19.0 版本并实现了与 Polars 的兼容。
值得尝试的 AI 工具：分享了新的 AI 工具和方法，包括一篇关于 “每个人都应该尝试的 5 个有趣的 AI 工具” 的 Medium 文章，以及根据 Hugging Face 文档建议的关于在 PyTorch 2 中加速扩散模型的讨论。
Med-Gemini：医学 AI 介绍：一段 YouTube 视频深入介绍了 Google 的 Med-Gemini，这是一款专为医学应用设计的多模态 GenAI 模型，旨在促进对该类模型范围和潜力的理解。
工作机会与社区见解：一位拥有丰富经验的软件工程师询问了 Hugging Face 的工作机会，并被引导至现有的职位页面。同时，社区交流还包括关于 Rasa 聊天机器人框架的意图识别问题、PyTorch 与 TensorFlow 之间的学习曲线，以及为 LLM 微调创建指令数据集的讨论。
Gradio 状态检查点：Gradio 的 Share Server 出现问题，影响了在 Colab 上的使用；他们提供了一个状态页面以跟踪修复进度。
AI 社区的创新：社区成员的贡献包括用于无泄漏链接预测的 PnPR-GCN 技术项目和 HDR 成像挑战，阐述了解决方案并参与了关于 AI 进展的更广泛讨论。
精益学习方法：在阅读小组中，注意力转向了图神经网络等主题（arXiv:2404.14928），以及在 arXiv:2402.05863 分享的 NegotiationArena 中提到的将谈判作为评估 LLM 对齐的指标的应用。

LlamaIndex Discord

RTX 4080：对于小语言模型够用吗？：工程师们讨论了像 RTX 4080 这样的游戏显卡是否适合运行和微调较小的语言模型，指出了 VRAM 的重要性，但也暗示了在小 Batch Size 下微调大于 7B 模型时的局限性。
本地 AI 处理重视安全性：对话强调了本地 PC 在处理 敏感数据 和执行强大计算任务方面优于 Google Colab 等云解决方案的优势，后者可能会引发隐私担忧。
引入用于 AI 语言管理的 Word Loom：引入了一种名为 Word Loom 的新开放规范，旨在高效管理和交换 AI 语言，目标是实现代码与自然语言的清晰分离以及更好的组合性，详细信息可在 GitHub 上找到。
AI 金融天才无需人工协助即可工作：最近的一条推文强调，一款突破性的金融助手现在拥有在非结构化财务报告中自主 计算百分比演变、CAGR 和 P/E 比率 的能力。
LlamaIndex 获得新技术能力：正如推文中宣布的那样，最新发布的 LlamaIndex.TS 0.3 版本 带来了重大改进，包括对各种平台的 Agent 支持、Web Streams 增强以及更具弹性的类型系统。

Modular (Mojo 🔥) Discord

Mojo 稳步前行：Mojo 开发者社区庆祝了 Mojo 发布一周年，称赞了 traits、references 和 lifetimes 的加入，这些特性显著增强了标准库。关于增强功能，有人建议通过允许负数以及实现标量处理的 fallback 来改进 Mojo，灵感源自 issues 中链接的文章。

性能大提升：Mojo 中字符串分配和转换的创新优化将 100M 记录的处理时间从 18.5 秒缩短至 12.5 秒，最新的努力利用多核处理技术将其进一步缩短至 3.8 秒。社区发起了组建 Team-Mojo 参加 One Billion Row Challenge 的号召，将其视为展示和社区协作的机会。

语法与语义的协同：关于语法和语义的讨论强调了 Mojo 语法对齐对用户的重要性，以及 Mojo 中的 inout 与 C++ 中的 pass-by-reference 的相似之处及其细微差别。关于 __source_location() 函数的问题引发了关于在其输出中包含 function_name 以及在 nightly 分支中替换这些功能的讨论。

探索并发考量：对话推测了 Mojo 并发模型的潜力，理论上它可能比 golang 风格更接近 actor 模型，重点在于避免沉重的 runtime 引入。拥有 LLVM 后盾的 Mojo 编译器有一个专门的 YouTube 视频解释其底层原理。

推文预热引发猜测：Modular 通过一系列未指明的推文激发了好奇心，预告了有趣的进展但未透露具体细节，激起了人们对公告之外细节的兴趣。

OpenAccess AI Collective (axolotl) Discord

探索 Axolotl 的模型支持：在 #axolotl-phorm-bot 频道的讨论中，明确了 Axolotl 支持 GaLore 但不支持 phi-3 格式。社区建议查看 Hugging Face 文档以获取开启 GaLore 的详细信息。同时，一个未经测试的 PR 被强调为那些希望向 Axolotl 添加 command-r 模型的人的参考资源。

有效 Chat-Tokenization 的策略：#general 频道的成员讨论了 Beginning of Sentence (BOS) token 在 tokenizer 行为中的影响，以及在不同场景中正确指定它的重要性。此外，一项关于 generalist foundation models 的研究引发了关于复杂 prompting 策略的有效性以及将学术理论转化为实践的挑战的讨论。

新模型微调的最佳实践：#general-help 频道非常活跃，社区参与了微调过程，建议初学者使用较小的模型（如 8b 模型）。讨论了 ShareGPT loader 数据集转换的实用技巧，以及关于 fsdp 与 lora 兼容性的查询。

教程协作引起共鸣：在 #community-showcase 中，分享了一个展示 axolotl 与开源容器编排器 dstack 结合的教程并广受好评，强调了易用性和灵活性。贡献者可前往 GitHub 查看详细用法。

协作计算资源：#axolotl-dev 频道提供了一项提议，向其他成员提供计算资源，以帮助进行 triage 和故障排除，这对于参与 bug 修复和功能增强的人员特别有用。

LAION Discord

AI 进入 TOS 灰色地带：围绕用户在不同意服务条款（TOS）的情况下使用 AI 产品展开了讨论，突显了用户协议执行中的灰色地带，并引发了关于用户和提供商法律影响的辩论。

排行榜诚信受到挑战：人们正在推动建立一个更透明的 AI 模型排行榜，强调开放性和可验证性的必要性，同时成员们对 LMSYS 的 Chatbot Arena 表示怀疑，担心其缺乏客观性和数据实践不透明。提出了仅纳入开源模型并按开放权重（open weights）进行过滤的观点，作为改进排行榜的标准。

渴望效率：工程讨论围绕多种优化策略展开，从考虑使用 GANs 进行卓越的模型重建，到关于 Natten 的 CUDA 实现的讨论，以及 magvit2 等项目的开发。

在 AI 和医学领域取得新突破：社区关注了一项关于利用 OpenCLIP 进行心脏超声的研究，该研究最近发表在 Nature Medicine 上，尽管该研究目前还存在一些问题。

变革网络与事实核查：人们对创新的 Kolmogorov-Arnold Networks (KANs) 表现出极大的热情，该网络有望在准确性和可解释性方面超越 MLPs（关于 KAN 的论文），此外还介绍了 VisualFactChecker，这是一个无需训练的流水线，旨在增强视觉内容描述的忠实度（关于 VFC 的论文）。

Latent Space Discord

去中心化 AI 算力：Prime Intellect 投入到了去中心化 AI 训练方法的探索中，旨在与大型企业使用的庞大 GPU 集群竞争。他们的平台致力于利用全球分布的计算资源，详见其详尽的博客文章。

StarCoder 崛起：Hugging Face 发布了一个名为 StarCoder2-15B-Instruct-v0.1 的新 LLM，主要专注于代码生成。他们已将模型和流水线开源，邀请社区参与，如其发布页面所述。

在消费级硬件上模拟 AI 社会：据报道，一个涉及 300 个名为 AI Town 的 AI Agents 的实验设置在 MacBook M1 Max 上运行顺畅。这篇有趣的推文揭示了在消费级硬件上进行 AI 模拟的能力和潜力。

LLM 论文俱乐部：Ring 讨论：LLM 论文俱乐部即将举行的活动将与 StrongCompute 团队就 Ring Attention 论文进行协作讨论。对最新研究成果感兴趣的工程师可以通过此 Zoom 链接加入。

技术精英视频会议：已安排了一次 Zoom 视频会议，以便进行更直观的互动讨论，可能涉及正在进行的工作或论文俱乐部活动。社区成员可以使用提供的 Zoom 会议链接加入。

OpenInterpreter Discord

尊重是技术最好的朋友：社区提醒强调了尊重和建设性互动的必要性；随着群组的扩大，让每个人都感到被欢迎和重视，对于协作的未来至关重要。

Open Interpreter 变得精通浏览器：Open Interpreter 工具被确认具备网页浏览和数据抓取任务的能力，无需传统的浏览器控制，通过 AI 实现直接的网页交互。

通过 DIY 扬声器放大器达到理想效果：为了提升扬声器的音频输出，推荐的一种解决方案是使用外部放大器，并重点介绍了 Amazon 上的一款潜在放大器，不过实际应用效果仍有待测试确认。

R1 的 AI 开箱引发集成讨论：一段关于 AI 产品 Rabbit R1 的 MKBHD YouTube 评测（在此观看）引发了关于其与 OpenInterpreter 集成潜力的讨论，工程师们渴望突破互连 AI 系统的极限。

为成功连接 OI 建立隧道：工程师们交流了与 OpenInterpreter 服务器建立稳定连接的诀窍，包括使用 ngrok 设置新域的方法以及修改 tunnel.py 文件，旨在解决连接中的小问题——更多详情请参阅 ngrok 域名页面。

OpenRouter (Alex Atallah) Discord

新 AI 模型登场：Snowflake Arctic 480B 和 FireLLaVA 13B 已发布。Snowflake Arctic 480B 拥有针对编程优化的混合 Transformer 架构，可在 Snowflake Arctic 480B 获取；FireLLaVA 13B 是来自 Fireworks 的多模态模型，可在 FireLLaVA 13B 获取。价格和开发者规范已更新以反映其增强的能力。
OpenRouter 通过高效负载处理变得更智能：新的负载均衡功能旨在更有效地分配提供商的工作负载，并辅以 Activity 页面上的延迟和提供商性能实时监控工具，提升了系统的整体鲁棒性。
为开发者提供精简资源：OpenRouter 的文档现已更新，支持更高效地使用图像和多模态请求、定制化工具调用（tool calls）以及函数调用（function calling）；详情请参阅图像请求和工具调用。
AI 服务成本降低：OpenRouter 大幅降价：Mythomax Extended 服务大幅降价 40%，Mixtral 8x7b Instruct 也小幅降价 4%，体现了平台致力于提供负担得起的 AI 服务的承诺。
AI 创作带有瑞典风格：Skribler 是一款旨在通过整合不同 AI 模型协助瑞典作者进行各方面写作的工具，其用户群正在增长，且已有用户愿意为其服务付费——请访问 skribler.se 查看。

AI Stack Devs (Yoko Li) Discord

清晰的视觉效果引发关注：Hexagen World 以其高质量的扩散模型（diffusion model）输出让成员们感到惊喜，这为交互式 AI 游戏开发提供了充满希望的方向。

用 AI 重塑复古游戏：公会讨论了使用生成式 AI（Generative AI）复活像 Farmville 这样的复古游戏，WebSim 被视为这些怀旧重启作品的潜在平台。

间谍游戏遇上生成式城镇：一个关于 1950 年代主题、带有共产主义间谍角色的 AI 城镇的有趣概念被提出，引发了在 WebSim 中创建一个沉浸式猫鼠游戏的兴趣。

加入 AI 动画对话：对 AI 驱动的动画感兴趣的人收到了加入专门 Discord 小组的邀请（通过社区链接），为交互式 AI 领域的协作讨论和项目提供了空间。

开发者讨论凸显兼容性问题：AI 开发者们解决了本地设置过程中的问题，特别指出了 Windows 系统的问题以及使用正确 Node 版本（nvm use 19）的重要性。一些人甚至考虑转向 Linux，尤其是考虑到像《群星》（Stellaris）这样的游戏也得到了支持，正如在 WineHQ 上找到的信息所证明的那样。

Cohere Discord

Command R 表现惊艳：Cohere 社区对 CommandR/R+ models 表示赞赏，强调其出色的性能，在企业级体验方面似乎超越了其他大型语言模型。

LLM 语法秘籍揭晓：关于 LLMs (Large Language Models) 及其生成语法正确句子能力的讨论揭示了对单词和句子嵌入（embeddings）以及自注意力机制（self-attention mechanism）重要性的见解，并提供了深入理解的资源。

AI 法律专家起航：一场关于使用 Cohere’s RAG 构建 AI 法律助手的网络研讨会吸引了社区参与，YouTube 上提供了录像链接。

Azure 遇上 OAuth：明确了在 Azure 上使用 Cohere 工具包设置带有连接器（connectors）的 OAuth 的说明，强调了在保持数据内部化的同时进行 Azure 集成的能力，详见其 GitHub 页面。

多语言精通正在成型：社区正在积极评估 Command-R 中多语言支持（multilingual support）的实现和潜力，特别关注挪威语等语言，并渴望增强基准测试（benchmarks）。

LangChain AI Discord

PDF 表格提取被证明很棘手：工程师们分享了使用 unstructure 库从 PDF 中进行表格提取（table extraction）的挑战，指出效果不佳，特别是对于多页表格。目前尚未提供解决方案，表明这是一个值得开发或推荐工具的领域。

LangChain 与 Llama 3 联手：有一场关于将 Llama 3 与 LangChain 集成的对话，引导用户使用 Fireworks 和相应的 API keys。此外，还提到了在一个项目中重新引入 Google Drive libraries，突显了技术依赖的周期性。

发布、更新与规范介绍：值得关注的进展包括用于总结 YouTube 内容的 QuickVid 的发布，LangChain 聊天机器人更新至 0.1.17，以及引入 Word Loom 作为 AI 语言管理的潜在标准，并在其 GitHub Gist 征求反馈。还提出了关于比较各种用于内容创作的 LLMs 详细性能报告有用性的疑问。

知识图谱愿景与 AI 销售代理：成员们分享了关于将文档转换为知识图谱（knowledge graphs）的工具以及开发 AI-powered Sales Agents 的见解。对于前者，提议使用布局解析器（layout parsers）和 Azure Doc AI，同时探索 LangChain 文档中的图构建方法。后者涉及 SalesGPT 逻辑并呼吁建立合作伙伴关系。

RAG 创新与语言导向教程：工程师们讨论了各种 RAG 应用，包括为法语社区开发的高级 RAG 助手（Advanced RAG assistant）、Llama3 的本地训练，以及一种根据查询复杂度进行响应的自适应 RAG 技术（Adaptive RAG technique）。分享了相关的教学视频：法语 RAG 助手、基于 llama3 的本地 Agentic RAG 以及 LangGraph + Adaptive Rag + LLama3 Python 项目。

Mozilla AI Discord

Mozilla AI 正在招聘，向 Lm-buddy 招手：Mozilla AI 目前正在扩大团队，并在其官方 Discord 频道发布了职位机会，同时还发布了 Lm-buddy，这是一个旨在提高模型评估效率的新开源工具。

确认在 M1 MacBook Air 上测试 LLaMA3:8b：在用户遇到 LLaMA3:8b 在 M1 MacBook Air 上运行的问题后，官方回应表示，一旦其他支持问题得到解决，在 M1 上的测试将成为优先级。

将 Whisper 集成至 Llamafile：尽管在添加麦克风和扬声器功能方面存在挑战，但已有提议将 whisper.cpp 模型 集成到 llamafile 中以增强推理能力。

性能争论得到澄清：Justine Tunney 的一篇文章暗示 np.matmul 的性能达到 29 gflops，这引发了争议，随后澄清该数据是针对 Ubuntu 上的 Intel 计算机的特定结果，实际性能可能会有所不同。

同时运行 Llamafile 及路径自定义说明：频道内的讨论确认，可以同时运行多个加载不同模型的 llamafile，由操作系统管理资源。用户还了解到，使用 --server --path PUBLIC_PATH 选项进行的自定义仅限于替换 zip 文件中的 .html 和 .js 文件。

tinygrad (George Hotz) Discord

Tinygrad 经历 Tensor 变换：tinygrad 项目实施了重大更新，通过一个将 Scalar 重命名为 ConstType 的 commit 推进了代码库的标准化。讨论重点在于通过引入 const 支持变量来优化操作中的常量处理，以及 const Variables 对于与符号维度（symbolic dimensions）相关的操作的重要性。

反向传播的图可视化引起关注：对话中表现出对反向操作图表可视化的好奇，重点关注 issue #3572。有迹象表明可以使用 dot 文件并设置 GRAPH=1 来辅助理解这些操作。

符号维度成为焦点：Georgehotz 分享了关于符号形状（symbolic shapes）工作的见解，并提交了一个包含符号 arange 跳过测试的 pull request。这表明 tinygrad 正在持续努力增强其在符号维度方面的能力。

JIT 构建与均值计算：关于改进 tinygrad 带有符号变量的 Just-In-Time (JIT) 编译的对话指出，一个稳健的测试将涉及计算可变长度 2D Tensor 的均值。此类增强功能可以优化 JIT 编译器的效率和性能。

Nvidia Xavier 上的 CUDA 挑战：技术讨论涉及在 Nvidia Xavier 上运行 EfficientNet 示例时面临的挑战，强调需要确保 CUDA=1 以正确执行脚本。成员们还讨论了 tinygrad 中的 Rednode 表示是否可能使符号编译器逻辑复杂化。

Interconnects (Nathan Lambert) Discord

Claude 加入 AI 聊天应用领域：Anthropic 发布了其 Claude 应用，引发了成员对其 与 OpenAI 解决方案相比的性能 的好奇。虽然没有提供详细对比，但一位用户下载了该应用并报告了流畅的初步体验，特别赞赏了 Anthropic 的品牌设计。
通过反馈提升表现：在收到尖锐反馈后，一位成员显著提高了工作质量，并得到了同行的表扬。虽然未给出工作改进的具体细节，但这种反应式的生产力提升值得注意。
AI 排行榜受到审查：一篇文章指出 AI 排行榜可能已经过时，强调根据 HumanEval 基准测试，最准确的代码生成系统 是 LDB。然而，它 对 GPT-4 等昂贵模型调用的依赖 给其效率和成本效益蒙上了阴影。
ML Collective 出勤情况：某位成员确认 ML Collective 会议的出勤率稀疏，表示虽然在持续参与，但未讨论会议的具体成果或细节。

Alignment Lab AI Discord

整个社区的垃圾信息警报：Discord 社区内的多个频道遭到不当内容的入侵，这些内容宣传涉及潜在未成年对象的成人材料，并附带据称提供泄露内容的 Discord 邀请链接。
迫切的审核需求：这些消息违反了社区准则，暗示了非法活动，并无视了技术讨论中应有的专业对话目的。
不受欢迎的干扰：垃圾信息干扰了从 AI 讨论到协作和通用聊天的众多频道，需要管理员引起注意。
工程师内容警示：工程师必须保持警惕，因为垃圾信息包含潜在的安全风险（如网络钓鱼尝试），可能会损害专业和个人数据。
行动呼吁：建议立即采取行动删除内容、封禁发布者，并加强安全措施以防止未来发生类似事件。

Skunkworks AI Discord

Prompt Engineering 推动 LLaMA-3：LLaMA-3 instruct prompt 策略已更新，带来了性能提升，相关更改详见 GitHub pull request。
缓解数据集困扰：正确使用 eot_id 解决了与数据集条目格式化相关的挑战，事实证明这比手动添加 </s> 标签更有效。
Meta 利用迭代推理：新的“迭代推理偏好优化 (Iterative Reasoning Preference Optimization)”技术提升了 LLaMA-2-70B-Chat 的准确性，在 GSM8K 和 ARC-Challenge 基准测试中得分的提高证明了这一点；论文可以在这里阅读。
Axolotl 微调成功：一位用户分享了使用 Axolotl 微调 LLaMA-3 8b 的成功经验，并指出模型输出有所增强。
开启编程狂欢：分享了一首励志动漫曲目 “NEVER GIVE UP YOUR WAAAAAAAAAAAAY”，可能旨在为深夜编程环节加油，并附带了 YouTube 链接和对创作者的 Patreon 支持说明。

DiscoResearch Discord

LLaMA 在语言对决中击败 GPT-4：来自 scandeval.com 的结果表明，LLaMA 3 在德语自然语言任务的 ScandEval 基准测试中表现优于 GPT-4，引发了关于新 AI 模型能力的讨论。

本地加速加载胜过迟缓的云端：一位工程师报告称，一个程序在本地机器上只需 3 秒即可加载，这表明在其他地方运行任务时，加载速度较慢是由存储以外的问题造成的。

Qdora 扩展 LLaMA 的中间路径：随着 qdora 的提及，大型语言模型 (LLM) 扩展方面出现了令人兴奋的进展，这是一种促进 LLaMA 等模型增长的解决方案；该过程在 Answer.ai 博客文章中有所概述。

避免 AI 训练中的遗忘：社区讨论了在预训练后阶段防止灾难性遗忘 (catastrophic forgetting) 的方法，引用了一篇关于增强 Transformer 块的 Arxiv 论文，该论文有助于 LLM 在学习新技能的同时保留旧技能。

融合 AI 的过去与现在：社区参与强调了 LLM 中“非遗忘性学习 (Non-forgetful Learning)”的前景，其中扩展技术对于将传统 AI 技能与更新、更先进的能力相结合至关重要。

Datasette - LLM (@SimonW) Discord

设计以用户为中心的数据检索：一位成员提议为 Datasette 开发一个前端功能，允许用户从下拉列表中选择特定国家的数据，目标是改善数据获取的用户体验。
关于 URL 与 UI 自定义的辩论：出现了两种用户体验策略：一种是动态更新 URL 以在选择时显示相关数据，另一种是开发一个具有基于用户输入的“可构建”查询的自定义界面。

PART 2: 频道详细摘要与链接

CUDA MODE ▷ #general (4 条消息):

分享 CUDA 最佳实践：该频道分享了一个关于 CUDA C++ 核心库最佳实践的 Twitter 链接，并通过 Google Drive 链接提供了幻灯片，但注意到该文件夹中没有文件。
对垃圾信息的快速处理：一名用户通过提及（@&1189538650011217942）引起了版主的注意，随后另一名成员迅速采取行动，确认删除了一条垃圾帖子。
理解 PyTorch 的 autograd.grad：一名成员提出了关于使用 torch.autograd.grad 通过两次连续的梯度计算，来获取函数输出相对于参数的 Hessian 矩阵对角线的问题。

提到的链接：CCCL - Google Drive：未找到描述

CUDA MODE ▷ #triton (13 条消息🔥):

Triton 的 Block Size 谜题：一名成员询问 Triton 中的最大 block size，认为它应该与 CUDA 的限制一致。作为回应，有人解释说 Triton 的 block size 从根本上讲并不受硬件限制，理论上可以非常大，并且与每个 block 启动的线程数没有直接关系。
探讨 Triton 调试技术：一位用户寻求调试 Triton kernel 的最佳实践，发现 TRITON_INTERPRET=1 和 device_print 存在挑战。另一名成员鼓励查看 Triton 调试讲座以获取见解，因为它可能会提供有用的策略。
需要 Triton 解释器 Bug 修复：针对调试问题，一名用户提到 TRITON_INTERPRET=1 设置导致程序行为异常。建议从源码安装 Triton 或使用 triton-nightly 以受益于最近的解释器 Bug 修复。
对 Triton 发布计划的好奇：一名成员询问 Triton 下一个版本的预期发布日期，因为他们目前正在使用 2.3 版本。得到的回答是目前对于即将发布的版本尚无明确计划。

提到的链接：Lecture 14: Practitioners Guide to Triton：https://github.com/cuda-mode/lectures/tree/main/lecture%2014

CUDA MODE ▷ #cuda (14 条消息🔥):

探索 CUTLASS 与 CuBLAS：一名成员强调了 CUTLASS 的性能，在矩阵乘法基准测试（8192 x 8192 x 8192）中，它以 288 Teraflops 的表现超越了 CuBLAS 的 258 Teraflops。然而，当集成到 Python 中时，CUTLASS 的性能优势消失了，与 CuBLAS 同样为 257 Teraflops。
CUDA 中的 Kernel 计时难题：讨论围绕如何准确分析 CUDA kernel 内的时间跨度展开，因为使用 cudaEventRecord 显示出计时不稳定的情况，特别是在具有不同 tile 大小的矩阵乘法 kernel 的共享内存版本中。
用于准确分析的 NVIDIA 工具：建议使用 NVIDIA 的 nsight compute 或 nsight system 进行更稳健的性能分析，因为它们的设计更为精确，且与使用 cudaEventRecord 的自定义分析相比，开销可能更小。
理解分析开销：一名成员询问 cudaEventRecord 计时与 ncu 的 Duration 字段之间不一致的问题，担心 ncu 的报告可能包含了分析开销。回答澄清说 ncu 会运行预热 kernel，这可能会导致额外的报告时间，但最终建议以其准确性为准。
Nsight Systems 与 NCU 的用途：澄清了 nsys 和 ncu 都可以用于分析 CUDA kernel，每种工具都为分析和理解 kernel 性能提供了不同的功能和界面。

提到的链接：Strangely, Matrix Multiplications on GPUs Run Faster When Given "Predictable" Data! [short]：伟大的思想讨论每瓦特浮点运算次数。

CUDA MODE ▷ #algorithms (5 条消息):

稀疏性与质量的权衡：对话围绕一种可能利用 batch size=1 激活稀疏性 的算法展开，该算法可能会保留计算量和质量。然而，有人担心这种方法在处理大于 1 的批处理计算时，可能会面临与激活稀疏性类似的限制。
Effort 创作者加入讨论：上述算法的创作者加入了聊天，并愿意讨论他们关于该算法性能的研究结果。
基准测试启示：创作者提供了一个更新，显示新的基准测试表明，与量化相比，effort/bucketMul 在速度/质量比方面表现较差，随后将发表文章详细介绍这些发现。
质量与剪枝同步：尽管存在速度/质量方面的担忧，作者声称在质量退化方面，他们的方法似乎优于单纯剪枝最小权重，并承诺发布支持性图表。
分享直接对比：分享了一个直接对比，强调了从矩阵中移除最低权重与跳过最不重要计算之间的区别，并提到作者正在持续学习关于 sparsity 的知识。

CUDA MODE ▷ #triton-puzzles (2 条消息):

对 Puzzle 9 中序列长度的困惑：用户对 Puzzle 9 的术语表示困惑，特别是关于参数 T 和 N0。z_i 的公式也是困惑的焦点，因为用户不确定如何根据提供的信息对其进行解释。
注意到可能的描述冲突：另一位成员承认 Puzzle 9 的题目描述中可能存在冲突信息，并分享了他们的假设，即为了解题，N0 等于 T。

CUDA MODE ▷ #llmdotc (809 条消息🔥🔥🔥):

CUDA 优化讨论升温：CUDA MODE Discord 社区继续审查和优化各种 kernel 操作。成员们正在尝试对齐 tensor strides 并优化 matmul_backward_bias kernel，着眼于未来使用 x128 packing 进行增强以提升性能。针对 gradient clipping 和 adam optimizer kernel 提出了多次迭代，考虑了它们对计算效率和内存使用的影响。
CUDA Graphs 和 cuDNN Flash Attention 投入使用：频道贡献者已成功集成了对 cuDNN flash attention 的可选支持，看到了显著的速度提升，尽管相对于目前定制 kernel 的确切性能增益仍处于评估中。CUDA graphs 被提及作为一种优化机制，但需要更多细节来了解它们在社区代码库中的当前使用状态。
Comparing PyTorch and llm.c Performance: 最近的讨论和基准测试表明，llm.c 在 GPT-2 模型训练方面的性能与 PyTorch 旗鼓相当甚至有所超越，甚至比 PyTorch 2.3.0 高出多达 32%。然而，由于最近合并的 PR，PyTorch nightly 版本显示出相当大的性能提升，llm.c 目前略微落后，token 处理速度慢了约 4%。
关于内存效率和操作融合的辩论：关于将 GELU 等操作与 matmul kernel 融合以节省内存的相对优劣，目前正在进行讨论。虽然这种融合很棘手且可能损害性能，但一些人建议将其融合到前一个 matmul 的 epilogue 中，或者在 backward pass 中重新计算，这可能是一种内存效率较高的折中方案。诸如 prologue vs. epilogue fusion 以及 matmul 在 forward/backward pass 中对输入/输出 tile 的需求等概念是这些辩论的核心。
FP32 Master Weights 的潜力：有人建议默认将 master weights 保留在 FP32 中，以提供更稳定可靠的实现。这一修改将意味着对 optimizer 更新函数和内存分配方案进行某些更改，更新阶段的 lazy initialization 是一种可能的方法。

提到的链接:

无标题: 未找到描述
(beta) 使用 torch.compile 编译优化器 — PyTorch Tutorials 2.3.0+cu121 文档: 未找到描述
cuda::discard_memory: CUDA C++ Core Libraries
使用 FP8 FlashAttention-2 提供 1 PFLOP/s 的性能: 我们最近发布了针对 NVIDIA Hopper™ 架构的 FlashAttention-2 前向传递实现的更新，其中包含多项新的优化和改进，包括……
Torch.Compile 与 APEX 优化器之间的性能比较: TL;DR 编译后的 Adam 在所有基准测试中都优于 SOTA 手工优化的 APEX 优化器；在 Torchbench 上提升了 62.99%，在 HuggingFace 上提升了 53.18%，在 TIMM 上提升了 142.75%，在 BlueBerries 上提升了 88.13%。编译后的 AdamW 表现...
哪些 CUDA 版本支持哪些 Compute Capability？: 以下每个版本支持哪些 Compute Capability： CUDA 5.5? CUDA 6.0? CUDA 6.5?
发行说明 — NVIDIA cuDNN v9.1.0 文档: 未找到描述
karpa - 概览: karpa 有 13 个可用的仓库。在 GitHub 上关注他们的代码。
Compiler Explorer - CUDA C++ (NVCC 12.2.1): #include <cuda/barrier> #include <cuda/std/utility> // cuda::std::move #include <cooperative_groups.h> #include <cooperative_groups/reduce.h> t...
由 ngc92 修复了潜在错误并泛化了 gelu 前向计算 · Pull Request #313 · karpathy/llm.c: 这增加了一个用于从 size_t 安全转换为 ints 的辅助函数（可能也想在 utils.h 中包含它）。该宏随后用于将 size_t 值的 block_size * x128::size 转换回普通的...
WikiText 103 评估 · Issue #246 · karpathy/llm.c: 我看到一些仓库使用 WikiText-103 作为评估类 GPT 模型的基准数据集，例如：https://github.com/tysam-code/hlb-gpt/tree/main 添加预处理脚本来下载、预处理和分词...
由 ngc92 为 dev/cuda 提供的混合精度工具 · Pull Request #325 · karpathy/llm.c: 择优挑选（cherry-picked）自 #315
由 jrhemstad 在 README 中添加 llm.cpp 分支 · Pull Request #314 · karpathy/llm.c: 未找到描述
由 ngc92 提供的将权重保持为 fp32 的选项 · Pull Request #326 · karpathy/llm.c: 增加了一个可选的 fp32 精度权重副本。TODO：缺少 free
由 karpathy 提供的梯度累积预览 / 开发中（wip） · Pull Request #318 · karpathy/llm.c: 今晚我似乎无法让它工作，有些地方不对劲。Python 部分可以工作。即我们有以下内容。运行默认的 python 脚本可以重现此 PR 之前的旧行为：python ...
由 karpathy 提供的用于 flash-attention 的 feature/cudnn · Pull Request #323 · karpathy/llm.c: 基于 PR #322 构建。合并 cuDNN 支持的其他细微修复，并随之提供 flash attention
由 PeterZhizhin 添加 NSight Compute 范围，并使用 CUDA 事件进行计时 · Pull Request #273 · karpathy/llm.c: CUDA 事件允许更精确的计时（由 GPU 测量）。nvtxRangePush/nvtxRangePop 为 NSight Systems 添加了简单的堆栈跟踪：示例运行命令：nsys profile mpirun --allow-run-as-roo...
由 ngc92 为完全自定义注意力机制提供的第二个 matmul · Pull Request #227 · karpathy/llm.c: 到目前为止，仅在 /dev 文件中，因为对于主脚本，我们还需要修改 backward。出于某种原因，我在这里的基准测试中看到了显著的加速，但在我尝试将其用于...
由 ChrisDryden 更新 adamw 以使用打包数据类型 · Pull Request #303 · karpathy/llm.c: 在运行时总平均迭代之前时间：38.547570 ms 运行后：总平均迭代时间：37.901735 ms Kernel 开发文件规范：在当前测试套件中几乎察觉不到：Bef...
cudnn 与 Dao-AILab 之间的 flash attention 实现有什么区别？ · Issue #52 · NVIDIA/cudnn-frontend：这个链接是 flash attention 吗？
ademeure 提交的 cuDNN Flash Attention 前向与反向 BF16（+35% 性能） · Pull Request #322 · karpathy/llm.c：使用 BF16 且 batch size 为 24 的 RTX 4090：基准测试：232.37ms（约 106K tokens/s）cuDNN：170.77ms（约 144K tokens/s）==> +35% 性能！编译时间：无价 (TM)（约 2.7s 到 48.7s - 这是一个巨大的依赖...）
ngc92 提交的通过全局范数进行梯度裁剪的初稿 · Pull Request #315 · karpathy/llm.c：一个新的用于计算梯度整体范数的 kernel，以及对 adam kernel 的更新。待办事项：裁剪值在函数调用处硬编码，损坏梯度的错误处理将...
ngc92 提交的单个 adam kernel 调用处理所有参数 · Pull Request #262 · karpathy/llm.c：通用 Adam kernel 的首次尝试
llm.c/train_gpt2.cu 位于 master 分支 · karpathy/llm.c：使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
llm.c/train_gpt2.cu 位于 master 分支 · karpathy/llm.c：使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
ngc92 提交的通过全局范数进行梯度裁剪的初稿 · Pull Request #315 · karpathy/llm.c：一个新的用于计算梯度整体范数的 kernel，以及对 adam kernel 的更新。待办事项：裁剪值在函数调用处硬编码，损坏梯度的错误处理将...
Pull requests · karpathy/llm.c：使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
共同构建更好的软件：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。
共同构建更好的软件：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。
PeterZhizhin 提交的添加 NSight Compute 范围，使用 CUDA events 进行计时 · Pull Request #273 · karpathy/llm.c：CUDA events 允许更准确的计时（由 GPU 测量）nvtxRangePush/nvtxRangePop 为 NSight Systems 添加了简单的堆栈跟踪：示例运行命令：nsys profile mpirun --allow-run-as-roo...
在 Kepler 上实现更快的并行归约 | NVIDIA 技术博客：并行归约（Parallel reduction）是许多并行算法的常用构建模块。Mark Harris 在 2007 年的一个演示中提供了在 GPU 上实现并行归约的详细策略……
nanoGPT/train.py 位于 master 分支 · karpathy/nanoGPT：用于训练/微调中型 GPT 的最简单、最快的仓库。 - karpathy/nanoGPT
shunting314 提交的 [inductor] 全面填充 · Pull Request #120758 · pytorch/pytorch：来自 ghstack 的堆栈（最早的在底部）：-> #120758 此 PR 添加了在 lowering 期间填充 tensor strides 的功能。目标是确保（如果可能的话）具有不良形状的 tensor 可以具有对齐的 st...
GitHub - gevtushenko/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练：使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 gevtushenko/llm.c 的开发做出贡献。
奖励课程：CUDA C++ llm.cpp：llm.cpp: https://github.com/gevtushenko/llm.c 幻灯片: https://drive.google.com/drive/folders/1T-t0d_u0Xu8w_-1E5kAwmXNfF72x-HTA?usp=sharing
CCCL - Google 云端硬盘：未找到描述
Forea ch kernel codegen in inductor by mlazos · Pull Request #99975 · pytorch/pytorch: 设计文档：在 Inductor 中为 foreach add 的单个重载添加 foreach kernel codegen。覆盖范围将在后续 PR 中扩展到更多算子。示例抄送 @soumith @voznesenskym @penguinwu @anijain2305...
Packing for Gelu backwards by JaneIllario · Pull Request #306 · karpathy/llm.c: 更新 gelu 反向传播 kernel 以执行 128 位 packing，并创建 gelu 反向传播 cuda 文件。之前的 kernel：block_size 32 | 时间 0.1498 ms | 带宽 503.99 GB/s；block_size 64 | 时间 0.0760...
convert all float to floatX for layernorm_forward by JaneIllario · Pull Request #319 · karpathy/llm.c: 将所有 kernel 更改为使用 floatX
Update residual_forward to use packed input by JaneIllario · Pull Request #299 · karpathy/llm.c: 更新 residual_forward 以使用 128 位 packed 输入和 floatX。之前的 Kernel：block_size 32 | 时间 0.1498 ms | 带宽 503.99 GB/s；block_size 64 | 时间 0.0760 ms | 带宽 993.32 GB/s b...

提到的链接：

AMD HIP Tutorial：在这个系列视频中，我们将教授如何使用 HIP 编程语言在 AMD ROCm 平台上为 AMD GPU 编写程序。这套视频是...
GitHub - ROCm/flash-attention: Fast and memory-efficient exact attention：快速且内存高效的精确注意力机制。通过在 GitHub 上创建账号为 ROCm/flash-attention 的开发做出贡献。

提到的链接：

Google Colab: 未找到描述
Google Colab: 未找到描述
Self-Rewarding Language Models: 我们认为，为了实现超人级的 Agent，未来的模型需要超人级的反馈，以提供充足的训练信号。目前的方法通常根据人类偏好训练奖励模型...
Weird Minion GIF - Weird Minion - Discover & Share GIFs: 点击查看 GIF
Reddit - Dive into anything: 未找到描述
Google Colab: 未找到描述
Google Colab: 未找到描述
Load: 未找到描述
mlabonne/orpo-dpo-mix-40k · Datasets at Hugging Face: 未找到描述
gist:e45b337e9d9bd0492bf5d3c1d4706c7b: GitHub Gist: 即时分享代码、笔记和代码片段。
NousResearch (NousResearch): 未找到描述
Home: 微调 Llama 3, Mistral & Gemma LLM 速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
GitHub - M-Chimiste/unsloth_finetuning: 通过在 GitHub 上创建账号，为 M-Chimiste/unsloth_finetuning 的开发做出贡献。
[FIXED] NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs · Issue #400 · unslothai/unsloth: 我是尝试使用 Unsloth 的初学者。我运行了免费的 Llama 3 (8B) Notebook，然后遇到了以下错误：在第一步安装过程中我也遇到了以下错误：ERROR: pip's dep...
no title found: 未找到描述
Type error when importing datasets on Kaggle · Issue #6753 · huggingface/datasets: 描述 Bug：当尝试运行 import datasets print(datasets.__version__) 时，产生了以下错误 TypeError: expected string or bytes-like object。看起来它找不到 val...
GitHub - facebookresearch/xformers: Hackable and optimized Transformers building blocks, supporting a composable construction.: 可定制且经过优化的 Transformer 构建模块，支持组合式构建。 - facebookresearch/xformers
unsloth (Unsloth AI): 未找到描述

提及的链接：

Google Colab：未找到描述
Google Colab：未找到描述
unsloth/llama-3-8b-bnb-4bit · Hugging Face：未找到描述
NousResearch/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face：未找到描述
Home：使用 Unsloth 以 2-5 倍的速度和减少 80% 的显存微调 Llama 3, Mistral & Gemma LLM - unslothai/unsloth
GitHub - janhq/jan: Jan 是 ChatGPT 的开源替代方案，可 100% 在您的计算机上离线运行。支持多种引擎 (llama.cpp, TensorRT-LLM)：Jan 是 ChatGPT 的开源替代方案，可 100% 在您的计算机上离线运行。支持多种引擎 (llama.cpp, TensorRT-LLM) - janhq/jan
llama3-instruct models not stopping at stop token · Issue #3759 · ollama/ollama：问题是什么？我正在通过兼容 OpenAI 的端点使用 llama3:70b。生成时，我得到了如下输出：请提供上述命令的输出。让我们继续...
wikimedia/wikipedia · Datasets at Hugging Face：未找到描述
Google Colab：未找到描述
[Usage]: Llama 3 8B Instruct Inference · Issue #4180 · vllm-project/vllm：您当前的环境：在 2 个 L4 GPU 上使用最新版本的 vLLM。您想如何使用 vllm：我正尝试利用 vLLM 部署 meta-llama/Meta-Llama-3-8B-Instruct 模型并使用 OpenA...

提到的链接：

lmsys/lmsys-chat-1m · Hugging Face 数据集：未找到描述内容
FlagEmbedding/Long_LLM/longllm_qlora at master · FlagOpen/FlagEmbedding：检索和检索增强 LLMs。通过在 GitHub 上创建账号为 FlagOpen/FlagEmbedding 的开发做出贡献。

提到的链接：

Perfecto Chefs GIF - Perfecto Chefs Kiss - 发现并分享 GIF：点击查看 GIF
joshcarp 尝试实现 OpenElm · Pull Request #6986 · ggerganov/llama.cpp：目前在 sgemm.cpp 的第 821 行失败，仍需对 ffn/attention head 信息进行一些解析。目前硬编码了一些内容。修复：#6868。由于需要帮助，将此 PR 作为草案提出...
ggml : 由 ggerganov 添加 Flash Attention · Pull Request #5021 · ggerganov/llama.cpp：参考 #3365。为 ggml 和 llama.cpp 中的 Flash Attention 支持设置所需内容。提议的算子执行：// new res = ggml_flash_attn(ctx, q, k, v, kq_mask, kq_scale); // fused scale ...

提到的链接：

vonjack/Hermes-2-Pro-BakLLaVA-Mistral-7B · Hugging Face：未找到描述
Dont Know Idk GIF - Dont Know Idk Dunno - Discover & Share GIFs：点击查看 GIF
Meta AI：使用 Meta AI 助手完成任务，免费创建 AI 生成的图像，并获取任何问题的答案。Meta AI 基于 Meta 最新的 Llama 大语言模型构建，并使用 Emu...
Reddit - Dive into anything：未找到描述
AI-Engine/BakLLaVA1-MistralLLaVA-7B-GGUF · Hugging Face：未找到描述
AUTOMATIC1111 - Overview：AUTOMATIC1111 在 GitHub 上有 41 个可用的仓库。
Reddit - Dive into anything：未找到描述
Neuro Challenges Vedal：当 Vedal 向 Neuro 发起挑战时，Neuro 不停地在聊天框刷屏。►Twitch: http://www.twitch.tv/vedal987►Twitter: https://twitter.com/Vedal987#neurosama #vtuber #vedal

提到的链接：

Orenguteng/Llama-3-8B-Lexi-Uncensored-GGUF · Hugging Face：未找到描述
Hard Drive Sounds：这是我收藏的所有 HDD 硬盘声音的对比。硬盘按从旧到新的时间顺序播放。

Groq 诱人的 Token 生成速度：讨论围绕 Groq 为 Llama 3 70B 每秒生成 800 个 Token 的能力展开，并期待即将推出的付费订阅模式。
LLM 硬件指南：一位成员被告知，他们的 AMD rx 5600m 6GB VRAM 搭配 Ryzen 7 4k 配置对于运行本地模型来说可能偏低，建议他们探索应用首页列出的模型。
模型下载速度：成员们讨论了在 LM Studio 中从 Hugging Face 下载模型的速度，一人声称约为 10MB/s，另一人则主张对比直接下载与通过 LM Studio 下载的速度。
追求 LLM 的对比准确度：一位用户寻找能与 ChatGPT 准确度相匹配的 LLM，讨论了最近的 70b Llama 3 和 Wizard 模型，并提到这些性能表现尚属新鲜且未知的领域。
硬件尝试与令人困惑的现象：围绕 LLM 处理的最佳硬件进行了广泛讨论，重点关注内存速度和 VRAM 等限制因素、SLI/NVLink 功能，以及一个关于两个不同模型在独立情况下生成相同虚构城市名称的轶事，引发了幽默与好奇。

提到的链接：

未找到标题：未找到描述
Reddit - 深入探索：未找到描述
MACKLEMORE & RYAN LEWIS - THRIFT SHOP FEAT. WANZ (OFFICIAL VIDEO)：The Heist 实体豪华版：http://www.macklemoremerch.com The Heist iTunes 数字豪华版：http://itunes.apple.com/WebObjects/MZStore.woa/wa/viewAlb...

提到的链接：

未找到标题: 未找到描述
来自 bartowski (@bartowski1182) 的推文: 在为 70b instruct 制作 llamacpp 量化版本时遇到了多个问题，我保证很快就会上线 :) 预计明天早上完成
未找到标题: 未找到描述
GGUF My Repo - ggml-org 提供的 Hugging Face Space: 未找到描述
未找到标题: 未找到描述
Doja Cat GIF - Doja Cat Star - 发现并分享 GIF: 点击查看 GIF
NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF · Hugging Face: 未找到描述
bartowski/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face: 未找到描述
Qawe Asd GIF - Qawe Asd - 发现并分享 GIF: 点击查看 GIF
Ojo Huevo GIF - Ojo Huevo Pase de huevo - 发现并分享 GIF: 点击查看 GIF
共同构建更好的软件: GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 发现、分叉并为超过 4.2 亿个项目做出贡献。
戴尔宝盒 (黑色) 台式机 i5-4570, 16GB, 512GB SSD, DVD, Win10: 戴尔 RGB 宝盒 OptiPlex SFF (翻新) 家用台式机 Intel Core i5-4570 (最高 3.6GHz), 16GB, 512GB SSD, DVD, Windows 10 Professional (英/法) (黑色)

提及的链接：

GPU 和 OS 支持 (Linux) — ROCm 5.7.1 文档主页: 未找到描述
Doja Cat GIF - Doja Cat Star - 发现并分享 GIF: 点击查看 GIF
Llamafile：迈向 AI 民主化的四个月进展: 未找到描述
蓝宝石 AMD Radeon RX 7900 XTX PULSE 游戏显卡 - 24GB | Ebuyer.com: 未找到描述

提到的链接:

GitHub - bojone/rerope: Rectified Rotary Position Embeddings: Rectified Rotary Position Embeddings。通过在 GitHub 上创建账号为 bojone/rerope 的开发做出贡献。
llama.cpp/examples/server at master · ggerganov/llama.cpp: C/C++ 中的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。

提到的链接：

Neuralgameworks - 你的终极 Unreal Engine AI 助手：未找到描述
Bounties：与顶尖 Replit 创作者合作，将你的创意变为现实。

提到的链接：

Verbasizer: 未找到描述
Iterative Reasoning Preference Optimization: 迭代推理偏好优化（Iterative Reasoning Preference Optimization）：迭代偏好优化方法最近被证明在通用指令微调任务中表现良好，但通常在推理任务上改进较少 (Yuan et al., 2024, Ch...
Andrew Gao (@itsandrewgao) 的推文: gpt2-chatbot 刚刚下线了。我半小时前还在用它！感谢 @shaunralston 的发现 #gpt2 @openai
GitHub - kingjulio8238/memary: Longterm Memory for Autonomous Agents.: 自主 Agent 的长期记忆。通过在 GitHub 上创建账号来为 kingjulio8238/memary 的开发做出贡献。
Is the AI bubble popping?: 三家初创公司的故事描绘了 AI 泡沫可能正在破裂的景象。订阅 Synapse 以获取塑造 AI 领域的深度研究故事...
GitHub - KindXiaoming/pykan: Kolmogorov Arnold Networks: Kolmogorov Arnold Networks。通过在 GitHub 上创建账号来为 KindXiaoming/pykan 的开发做出贡献。
GitHub - SynaLinks/HybridAGI: The Programmable Neuro-Symbolic AGI that lets you program its behavior using Graph-based Prompt Programming: for people who want AI to behave as expected: 可编程的神经符号 AGI，允许你使用基于图的 Prompt Programming 来编程其行为：适用于希望 AI 表现符合预期的人群 - SynaLinks/HybridAGI

提及的链接:

NousResearch/Hermes-2-Pro-Llama-3-8B · Hugging Face: 未找到描述
NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF · Hugging Face: 未找到描述

提到的链接：

AudioPaLM: 未找到描述
来自 undefined 的推文: 未找到描述
来自 Q (@qtnx_) 的推文: llama-3-vision-alpha 现在可以使用 @huggingface transformers 运行了
来自 Teortaxes▶️ (@teortaxesTex) 的推文: 所以即使修复了 token 合并，llama 8b 的量化效果依然不佳。也许是 vocab 的问题，也许只是过度训练，我担心是后者。我（不成熟的）直觉是我们正在精炼 compos...
LLM.int8() 与涌现特性 — Tim Dettmers: 当我参加 NAACL 时，我想做一个小测试。我为我的 LLM.int8() 论文准备了两个推介方案。一个方案是关于我如何使用先进的量化方法来实现无性能损失的转换...
来自 lmsys.org (@lmsysorg) 的推文: 感谢社区难以置信的热情！我们真的没预料到这一点。只需澄清几件事：- 根据我们的政策，我们已经与几位模型开发者合作...
qresearch/llama-3-vision-alpha-hf · Hugging Face: 未找到描述
llava_instruct_150k.json · liuhaotian/LLaVA-Instruct-150K at main: 未找到描述
来自 Andrew Gao (@itsandrewgao) 的推文: gpt2-chatbot 刚刚下线了。半小时前我还在用它！感谢 @shaunralston 的发现 #gpt2 @openai
Over9000 龙珠 GIF - Over9000 龙珠 - 发现并分享 GIF: 点击查看 GIF
来自 Q (@qtnx_) 的推文: llama-3-vision-alpha 现在可以使用 @huggingface transformers 运行了
LLaVA/docs/Finetune_Custom_Data.md at main · haotian-liu/LLaVA: [NeurIPS'23 Oral] 视觉指令微调 (LLaVA)，旨在实现 GPT-4V 级别的能力及更高水平。- haotian-liu/LLaVA
来自 Sanchit Gandhi (@sanchitgandhi99) 的推文: 上周我们发布了 🤗Diarizers，这是一个用于微调说话人日志（speaker diarization）模型的库 🗣️ 使用免费的 Google Colab，只需 10 分钟即可将多语言性能提升 30%：https://colab.re...
DeepSpeed/blogs/deepspeed-ulysses/README.md at master · microsoft/DeepSpeed: DeepSpeed 是一个深度学习优化库，使分布式训练和推理变得简单、高效且有效。- microsoft/DeepSpeed
BitNetMCU/docs/documentation.md at main · cpldcpu/BitNetMCU: 在不使用乘法的 CH32V003 RISC-V 微控制器上实现低位宽权重的神经网络 - cpldcpu/BitNetMCU
GitHub - tincans-ai/gazelle: 语音-语言联合模型 - 直接响应音频！: 语音-语言联合模型 - 直接响应音频！- tincans-ai/gazelle
“我希望 Llama3 结合我的私有知识发挥 10 倍效能” - 使用 llama3 的本地 Agentic RAG: 高级 RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告：https://clickhubspot.com/4hx🔗 链接- F...
GitHub - zhuzilin/ring-flash-attention: 结合 Flash Attention 的 Ring Attention 实现: 结合 Flash Attention 的 Ring Attention 实现 - zhuzilin/ring-flash-attention
不要忽视 Whisper.cpp: @ggerganov 的 Whisper.cpp 正在将 OpenAI 的 Whisper 推向大众。我们在 “The Changelog” 播客中进行了讨论。🎧 👉 https://changelog.fm/532 订阅以获取更多！...
EasyContext/easy_context/zigzag_ring_attn/monkey_patch.py at main · jzhang38/EasyContext: 内存优化和训练方案，用于将语言模型的上下文长度外推至 100 万...
来自 chris (@hingeloss) 的推文：展示全球最快的 AI 语音聊天——500ms 延迟，本地运行，比其他任何产品快 2 倍。这是如何实现的？👇
🦌 Gazelle v0.2：未找到描述
perplexity：更多统计数据，由 JohannesGaessler 添加了文档 · Pull Request #6936 · ggerganov/llama.cpp：我看到一些主观报告称，量化对 LLaMA 3 的损害比对 LLaMA 2 更大。我决定对此进行调查，并为此向 pe... 添加了更多统计数据（和文档）
llama：改进 BPE 预处理 + LLaMA 3 和 Deepseek 支持，由 ggerganov 提交 · Pull Request #6920 · ggerganov/llama.cpp：延续了 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 增加了对 BPE 预分词的支持。摘要：到目前为止，对于所有基于 BPE 的模型，llama.cpp 都应用了默认的预...

提及的链接：

通过机械可解释性衡量 grokking 的进展：神经网络经常表现出涌现行为，即通过扩大参数量、训练数据或训练步数，会产生性质全新的能力。理解这种涌现的一种方法是...
llama：改进 BPE 预处理 + LLaMA 3 和 Deepseek 支持，由 ggerganov 提交 · Pull Request #6920 · ggerganov/llama.cpp：延续了 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 增加了对 BPE 预分词的支持。摘要：到目前为止，对于所有基于 BPE 的模型，llama.cpp 都应用了默认的预...

提及的链接：

Pydantic Logfire | 简化的可观测性：Logfire 是一种新型的可观测性平台，建立在与 Pydantic 相同的信念之上——即最强大的工具也可以易于使用。
Swan SWIM-IR 数据集 - nthakur 集合：未找到描述
NousResearch/Hermes-2-Pro-Llama-3-8B · Hugging Face：未找到描述

提及的链接：

未找到标题：未找到描述
Snow Singer Simulator - HuggingChat：在 HuggingChat 中使用 Snow Singer Simulator 助手
CompSim - HuggingChat：在 HuggingChat 中使用 CompSim 助手
World Simulation Talks @ AGI House SF：0:00 对话 1:31 Jeremy Nixon 开场 6:08 Nous Research 的 Karan Malhotra 26:22 Websim CEO Rob Hasfield 1:00:08 Midjourney 的 Ivan Vendrov [实时...

提到的链接：

迈向 Pony Diffusion V7 | Civitai：大家好，我很高兴能分享我们即将推出的 V7 的进展更新，以及对 V6 的回顾分析。V6 所获得的认可...
虎杖悠仁凝视《咒术回战》GIF - Yuji Stare Jujutsu Kaisen Blank - 发现并分享 GIF：点击查看 GIF
介绍 IDEFICS：最先进视觉语言模型的开源复现：未找到描述
介绍 Idefics2：为社区提供的强大 8B 视觉语言模型：未找到描述
Mythos - v1.0 | Stable Diffusion Checkpoint | Civitai：V1 版本不知为何有 3.55GB 大……我想我成功做了一个稳定的 fp8 剪枝？？我真的不知道它是怎么变成 3.55GB 的……V2 是正常的 6GB 模式……
Melxts2008 Emoji GIF - Melxts2008 Emoji Smile - 发现并分享 GIF：点击查看 GIF
Stable Assistant — Stability AI：Stable Assistant 是由 Stability AI 开发的友好聊天机器人，配备了 Stability AI 的文本和图像生成技术，具有 Stable Diffusion 3 和 Stable LM 2 12B。
ComfyUI/script_examples/basic_api_example.py (master 分支) · hiddenswitch/ComfyUI：一个带有图形/节点界面的强大且模块化的 Stable Diffusion GUI。- hiddenswitch/ComfyUI
ComfyUI/tests/distributed/test_embedded_client.py (特定提交版本) · hiddenswitch/ComfyUI：一个带有图形/节点界面的强大且模块化的 Stable Diffusion GUI。- hiddenswitch/ComfyUI
迈向 Pony Diffusion V7 | Civitai：大家好，我很高兴能分享我们即将推出的 V7 的进展更新，以及对 V6 的回顾分析。V6 所获得的认可...
什么是 score_9 以及如何在 Pony Diffusion 中使用它 | Civitai：你可能在 Pony Diffusion 的提示词中见过 score_9 或其更长版本 score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up...
generative-models/model_licenses/LICENSE-SDXL1.0 (main 分支) · Stability-AI/generative-models：Stability AI 的生成模型。通过在 GitHub 上创建一个账户来为 Stability-AI/generative-models 的开发做出贡献。
GitHub - AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin: 一个用户友好的插件，可以轻松地在 Photoshop 中使用 Automatic 或 ComfyUI 作为后端生成 Stable Diffusion 图像。：一个用户友好的插件，可以轻松地在 Photoshop 中使用 Automatic 或 ComfyUI 作为后端生成 Stable Diffusion 图像。- AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin

Links mentioned:

Udio | Echoes in the Chaos by Tcald | AI Music Generator - Official Website: 在 Udio 上听 Tcald 的 Echoes in the Chaos。发现、创作并与世界分享音乐。使用最新技术在几秒钟内创作 AI 音乐。
GitHub - openai/simple-evals: 通过在 GitHub 上创建账户为 openai/simple-evals 的开发做出贡献。

提到的链接:

Reka Playground: 探索由 Reka 构建的最新的多模态语言模型
Rabbit R1: Barely Reviewable: 盒子里的 AI。但是个不同的盒子。在 https://dbrand.com/rabbit 获取 dbrand 皮肤和屏幕保护膜。MKBHD 商品：http://shop.MKBHD.com。我目前正在使用的技术...

How Perplexity builds product

Supported Models

提及的链接：

Linear Transformers Are Secretly Fast Weight Programmers：我们展示了线性化自注意力机制与 90 年代初的快速权重控制器（fast weight controllers）在形式上的等价性，其中“慢速”神经网络通过梯度下降学习来为“快速”网络编程...
Effort Engine：一种可能的新型 LLM 推理算法。实时平滑地调整您在推理过程中希望进行的计算量。
Efficient Representation of Natural Image Patches：利用基于受生物系统启发的极简且现实假设的抽象信息处理模型，我们研究了如何实现早期视觉系统的两个终极目标...
Reddit - Dive into anything：未找到描述

提及的链接：

Benchmarking Benchmark Leakage in Large Language Models: 在预训练数据使用不断扩大的背景下，基准测试数据集泄露现象日益突出，而不透明的训练过程和通常未披露的包含内容加剧了这一问题...
KAN: Kolmogorov-Arnold Networks: 受 Kolmogorov-Arnold 表示定理启发，我们提出了 Kolmogorov-Arnold Networks (KANs) 作为 Multi-Layer Perceptrons (MLPs) 的有力替代方案。虽然 MLPs 具有固定的激活函数...
Iterative Reasoning Preference Optimization: 迭代偏好优化方法最近在通用指令微调任务中表现良好，但在推理任务上通常改进甚微 (Yuan et al., 2024, Ch...
NExT: Teaching Large Language Models to Reason about Code Execution: 人类开发者的一个基本技能是理解和推理程序执行的能力。例如，程序员可以用自然语言在脑中模拟代码执行来调试...
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training: 本文介绍了一种名为 ProphetNet 的新型序列到序列预训练模型，它引入了一种名为未来 n-gram 预测的新型自监督目标以及所提出的 n-stream 自注意力...
VideoGigaGAN: 未找到描述
Universal Physics Transformers: A Framework For Efficiently Scaling Neural Operators: 神经算子作为物理代理模型，最近引起了越来越多的关注。随着问题复杂性的不断增加，一个自然的问题出现了：什么是扩展神经算子的有效方式...
VideoGigaGAN: Towards Detail-rich Video Super-Resolution: 视频超分辨率 (VSR) 方法在升采样视频中表现出了令人印象深刻的时间一致性。然而，随着倍率增加，这些方法往往比图像领域的对应方法产生更模糊的结果...
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking: 在写作和交谈时，人们有时会停下来思考。虽然以推理为中心的工作通常将推理框架化为回答问题或完成 Agent 任务的方法，但推理对于...
Training Chain-of-Thought via Latent-Variable Inference: 当被指示使用“Chain-of-Thought” (CoT) 提示逐步得出答案时，大型语言模型 (LLMs) 解决问题更加准确且具有可解释性。人们还可以改进...
analyse-llms/notebooks/Mode_Collapse.ipynb at main · lauraaisling/analyse-llms: 通过在 GitHub 上创建一个账户，为 lauraaisling/analyse-llms 的开发做出贡献。
Faster Convergence for Transformer Fine-tuning with Line Search Methods: 最近的研究表明，线搜索方法在各种数据集和架构上大大提高了传统随机梯度下降方法的性能 [1], [2]。在这项工作中，我们建议...
GitHub - s-chh/PyTorch-Vision-Transformer-ViT-MNIST-CIFAR10: Simplified Pytorch implementation of Vision Transformer (ViT) for small datasets like MNIST, FashionMNIST, SVHN and CIFAR10.: 针对 MNIST, FashionMNIST, SVHN 和 CIFAR10 等小数据集的 Vision Transformer (ViT) 的简化 PyTorch 实现。 - s-chh/PyTorch-Vision-Transformer-ViT-MNIST-CIFAR10
Sequential predictive learning is a unifying theory for hippocampal representation and replay: 哺乳动物的海马体包含一个认知地图，代表动物在环境中的位置，并生成离线“回放”以用于回忆、规划和形成长...

提到的链接：

The Quantization Model of Neural Scaling：我们提出了神经缩放法则的 Quantization Model，解释了观察到的 loss 随模型和数据大小呈幂律下降的现象，以及新能力随规模突然出现的现象……
Neural Networks Learn Statistics of Increasing Complexity：Distributional simplicity bias (DSB) 假设神经网络首先学习数据分布的低阶矩，然后再转向高阶相关性。在这项工作中，我们展示了……
Eliciting Latent Predictions from Transformers with the Tuned Lens：我们从迭代推理的角度分析 Transformer，试图理解模型预测是如何逐层细化的。为此，我们为冻结的……中的每个 block 训练了一个仿射探针。
Deriving a Model of Computation for Next-Token Prediction：未找到描述

提到的链接：

Fleetwood (@fleetwood___) 的推文：🚨 Phi-3 在浏览器中运行 🚨 达到约 20 tok/s 🏎️ 仅需 3 行 JS。仍有一些小问题需要解决，即将集成到 Ratchet 0.4.0 中。
abhishek (@abhi1thakur) 的推文：我能在 Kaggle 上运行 AutoTrain UI 吗？是的，你可以！！！查看我最新的 Notebook，复制它，填入你的 tokens，即可享受在 Kaggle Notebooks 后端运行的 AutoTrain UI 🚀 Notebook 链接：https://www...
Vaibhav (VB) Srivastav (@reach_vb) 的推文：冲吧！！Common Voice 17 - 现已登陆 Hub！🔥 包含 124 种语言的 31,000 小时音频（及转录）。*开启声音 🎶* CV 17 增加了 847 小时的数据，以及 493 小时的...
Brigitte 🤗 (@BrigitteTousi) 的推文：🔊 呼叫所有记者！我们很高兴与 @fdaudens 一起宣布在 @huggingface Hub 上建立一个新社区：Journalists on Hugging Face。📰🤗 https://huggingface.co/JournalistsonHF 1/
Vaibhav (VB) Srivastav (@reach_vb) 的推文：Snowflake 发布了 408B Dense + Hybrid MoE 🔥 > 17B 激活参数 > 128 个专家 > 在 3.5T tokens 上训练 > 使用 top-2 gating > 完全采用 Apache 2.0 许可（附带数据配方...）
Sayak Paul (@RisingSayak) 的推文：Diffusers 中的自定义流水线和组件 🎸 想要在 Diffusers 中使用自定义流水线和其他组件（schedulers, unets, text encoders 等）？觉得不够灵活？这个 🧶 线程就是为你准备的...
lunarflu (@lunarflu1) 的推文：你现在可以在 @huggingface 上 @ 别人了！

提到的链接：

Hugging Face：在 Hugging Face，我们致力于为每个人推进和民主化 ML。在此过程中，我们为技术的向好发展做出贡献。
Stable Diffusion Finetuned Minecraft Skin Generator - Nick088 的 Hugging Face Space：未找到描述
amazon/chronos-t5-small · Hugging Face：未找到描述
Drax Guardians Of The Galaxy GIF - Drax Guardians Of The Galaxy Odds - 发现并分享 GIF：点击查看 GIF
zero-gpu-explorers/README · 邀请申请一直在等待中。获得批准需要多长时间？：未找到描述
“我希望 Llama3 利用我的私有知识实现 10 倍性能” - 使用 llama3 的本地 Agentic RAG：高级 RAG 101 - 使用 llama3 构建 agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告：https://clickhubspot.com/4hx🔗 链接- F...
GitHub - johko/computer-vision-course：该仓库是社区驱动的神经网络计算机视觉课程的大本营。欢迎加入我们的 Hugging Face Discord：hf.co/join/discord：该仓库是社区驱动的神经网络计算机视觉课程的大本营。欢迎加入我们的 Hugging Face Discord：hf.co/join/discord - johko/computer-vision-course
GitHub - amazon-science/chronos-forecasting：Chronos：用于概率时间序列预测的预训练（语言）模型：Chronos：用于概率时间序列预测的预训练（语言）模型 - amazon-science/chronos-forecasting
nroggendorff 修复了一些 Sagemaker 配置问题 · Pull Request #2732 · huggingface/accelerate：更新 config_args.py 以适配最新版本的 amazon sagemaker。在这个新版本中，你需要使用 True 或 False 来运行变量操作，例如 --do_eval True，而不是仅仅...

Med-Gemini：高层级概述

提到的链接：

blog：未找到描述
加速文本生成图像扩散模型的推理：未找到描述
GitHub - computational-cell-analytics/micro-sam: Segment Anything for Microscopy：显微镜领域的 Segment Anything。通过在 GitHub 上创建账号为 computational-cell-analytics/micro-sam 的开发做出贡献。
ETH Zürich DLSC: Physics-Informed Neural Networks - Applications：↓↓↓ 课程概览如下 ↓↓↓ 苏黎世联邦理工学院（ETH Zürich）2023 年科学计算中的深度学习，第 5 讲：物理信息神经网络 - 应用。讲师：Ben M...

提到的链接：

fluently/Fluently-XL-v4 · Hugging Face: 未找到描述
Inpainting SDXL Sketch Pad - a Hugging Face Space by tonyassi: 未找到描述
moondream2-batch-processing - a Hugging Face Space by Csplk: 未找到描述
Bloom Multilingual Chatbot - a Hugging Face Space by as-cle-bert: 未找到描述
GitHub - Lama-West/PnPR-GCN_ACM_SAC_24: 通过在 GitHub 上创建账户，为 Lama-West/PnPR-GCN_ACM_SAC_24 的开发做出贡献。

提及的链接:

Graph Machine Learning in the Era of Large Language Models (LLMs): 图在社交网络、知识图谱和分子发现等各个领域的复杂关系表示中起着重要作用。随着深度学习的出现，图神经网络...
How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis: 谈判是社会互动的基石；人类谈判从汽车价格到如何共享公共资源的一切。随着对使用大语言模型 (LLMs) 的兴趣迅速增长...
Join the Hugging Face Discord Server!: 我们正致力于实现优秀机器学习的民主化 🤗 验证以链接您的 Hub 和 Discord 账户！| 77668 名成员
Large Language Models on Graphs: A Comprehensive Survey: 大语言模型 (LLMs)，如 GPT4 和 LLaMA，由于其强大的文本编码/解码能力和新发现的涌现能力，正在自然语言处理领域取得重大进展...
Towards Graph Foundation Models: A Survey and Beyond: 基础模型已成为各种人工智能应用中的关键组件，并在自然语言处理和其他几个领域展示了显著的成功。M...

提到的链接：

OpenCV: Image Processing in OpenCV: 未找到描述
3LC - Real-Time 3D Visualizer/Debugger/Data Editor for Training/Finetuning your Models - Free! | Kaggle: 3LC - 用于训练/微调模型的实时 3D 可视化器/调试器/数据编辑器 - 免费！| Kaggle。
OpenCV: Morphological Transformations: 未找到描述
Training a finetuned SegFormer model with Pytorch Lightning - : 未找到描述
Balloons Toy Dataset + Detectron2 + 3LC Tutorial - : 未找到描述
Integrating 3LC with YOLOv5 🚀 - : 未找到描述
Integrating 3LC with YOLOv8 🚀 - : 未找到描述

Gradio Status

未找到标题

提及的链接：

Summary and Resources: 在 Imgur 探索互联网的魔力，这是一个由社区驱动的娱乐目的地。通过有趣的笑话、流行模因、娱乐 gif、励志故事、病毒视频等来振奋你的精神...
Starter Tutorial (OpenAI) - LlamaIndex: 未找到描述
Content Moderation using AI: 了解如何使用 AI 模型和框架（如 LlamaIndex、moondream 和 Microsoft phi-3）来审核内容。
OpenAI - LlamaIndex: 未找到描述
Building a (Very Simple) Vector Store from Scratch - LlamaIndex: 未找到描述
"I want Llama3 to perform 10x with my private knowledge" - Local Agentic RAG w/ llama3: 高级 RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告：https://clickhubspot.com/4hx🔗 链接- F...
Chroma Vector Store - LlamaIndex: 未找到描述
Query Pipeline with Async/Parallel Execution - LlamaIndex: 未找到描述
Query Pipeline with Async/Parallel Execution - LlamaIndex: 未找到描述
Parallelizing Ingestion Pipeline - LlamaIndex: 未找到描述

Word Loom proposed update

提及的链接：

输入数据架构 | Modular 文档：以下 YAML 架构允许您指定所需的输入形状
由 reid-spencer 提出的基于 Mojo 的 Actor 系统提案 · Pull Request #1445 · modularml/mojo：这目前是一个正在进行中的工作。没有代码更改，只是在提案部分写了一个提案。这在 2023 年 6 月的一次对话中得到了 Chris Lattner 的预先批准。我将继续...
2023 LLVM 开发者大会 - Mojo 🔥：一种用于异构计算的系统编程语言：2023 LLVM 开发者大会 https://llvm.org/devmtg/2023-10------Mojo 🔥：一种用于异构计算的系统编程语言。演讲者：Abdul Dakkak, Chr...

提及的链接：

共同构建更好的软件：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。
C++ 作为优化汇编器 - 性能演讲 - Levo DeLellis - CppNorth 2023：https://www.cppnorth.ca---C++ 作为优化汇编器 - 性能演讲 - Levo DeLellis - CppNorth 2023 您是否厌倦了抽象、模板和协...
99 Bottles of Beer/EsoLang：未找到描述

PMADDUBSW — 乘加打包的有符号和无符号字节

Mojo Lang - 未来的高性能 Python？（对话 Chris Lattner）

提到的链接：

Mojo 比 Python 快 68,000 倍之类的博客很棒，但能否与其他语言也进行精彩的对比？ · modularml/mojo · Discussion #843：Mojo 比 Python 快 35,000 倍、快 68,000 倍……这令人印象深刻且酷炫，但对于那些尚未关注 Mojo 的非 Python 用户和反 Python 人士来说……
GitHub - MoSafi2/1brc-mojo at dev：使用 Mojo 语言实现的十亿行挑战赛 (1brc)。通过创建账号为 MoSafi2/1brc-mojo 的开发做出贡献。

提及的链接：

context:global __source_… - Sourcegraph：未找到描述
mojo/stdlib/src/testing/testing.mojo at nightly · modularml/mojo：Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。

Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

Axolotl - Conversation

dstack/examples/fine-tuning/axolotl/README.md at master · dstackai/dstack

Links mentioned:

Feat: Add cohere (commandr) by NanoCode012 · Pull Request #1547 · OpenAccess-AI-Collective/axolotl: 描述动机与背景如何进行测试？未测试！截图（如适用）变更类型社交账号（可选）
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快速地理解代码。
axolotl/README.md at main · OpenAccess-AI-Collective/axolotl: 尽管提出 axolotl 问题。通过在 GitHub 上创建账号，为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快速地理解代码。
transformers/docs/source/en/trainer.md at main · huggingface/transformers: 🤗 Transformers：适用于 Pytorch、TensorFlow 和 JAX 的前沿机器学习。 - huggingface/transformers
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快速地理解代码。

提到的链接:

LMSYS Chatbot Arena: Live and Community-Driven LLM Evaluation | LMSYS Org: <h2><a id="our-mission" class="anchor" href="#our-mission" aria-hidden="true"><svg aria-hidden="true" class="octicon octicon-link&...
Motion-I2V: 未找到描述
lmsys/lmsys-chat-1m · Datasets at Hugging Face: 未找到描述

提到的链接：

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation：现有的视觉内容自动字幕生成方法面临细节缺失、内容幻觉和指令遵循能力差等挑战。在这项工作中，我们提出了 VisualFactChecker (VFC)...
KAN: Kolmogorov-Arnold Networks：受 Kolmogorov-Arnold 表示定理启发，我们提出了 Kolmogorov-Arnold Networks (KANs) 作为 Multi-Layer Perceptrons (MLPs) 的有力替代方案。虽然 MLPs 具有固定的激活函数...
Reddit - 探索一切：未找到描述
Vision–language foundation model for echocardiogram interpretation - Nature Medicine：一个在超过 100 万个超声心动图视频-文本对数据集上训练的视觉-语言基础模型，能够评估各种心脏结构和功能参数...

提到的链接：封面图](https://images.lumacdn.com/cdn-cgi/image/format=auto,fit=cover,dpr=2,quality=75,width=400,height=400/event-covers/mq/b7a9e5d5-cbd9-4546-a668-972d498d2186) **提到的链接**：LLM Paper Club (Ring Attention!) · Zoom · Luma：StrongCompute 团队 (@adam_peaston, @fennecs) 今天将讲解 Ring Attention！https://arxiv.org/abs/2310.01889 同时也请为我们的下一篇论文提交建议并投票：… --- **Latent Space ▷ #[llm-paper-club-west](https://discord.com/channels/822583790773862470/1197350122112168006/1235305008581312656)** (2 条消息): - **分享了 Zoom 会议链接**：为偏好视频通话替代方案的人员提供了 Zoom 会议链接。可以通过 [Zoom Meeting](https://us06web.zoom.us/j/8807908941?pwd=eHBBdk9sWWluSzB2TFdLOVdEN3BFdz09) 访问。 **提到的链接**：加入我们的云高清视频会议：Zoom 是现代企业视频通信的领导者，拥有一个简单、可靠的云平台，可跨移动设备、桌面和会议室系统进行视频和音频会议、聊天和网络研讨会。Zoom ... --- **OpenInterpreter ▷ #[general](https://discord.com/channels/1146610656779440188/1147665339266650133/1234866310773735454)** (36 条消息🔥): - **促进积极的社区互动**：发布了一项提醒，强调随着社区的发展和多样化，保持尊重和建设性的重要性。会议强调，*每个人都有平等分享想法的权利*，并应受到良好对待，以构建更好的未来。 - **活动提醒与回顾查询**：分享了一个社区活动的链接，错过活动的成员询问了回顾内容。提到幻灯片和屏幕录像将会发布，幻灯片将上传至特定频道。 - **Open Interpreter 的 Web 任务能力**：成员们讨论了 Open Interpreter 是否可以执行浏览器任务，如访问网站和抓取数据。澄清了它确实能够执行此类任务，而无需浏览器控制。 - **讨论兼容性与技术问题**：关于 Open Interpreter 的 OS 模式与 Windows 兼容性的问题浮出水面，并提到了持续存在的错误。一位成员确认某些命令在 Windows 上需要修改，并提到 'tesseract' 包是导致问题的原因。 - **分享有用资源**：推荐了一个 YouTube 频道作为获取 Open Interpreter 相关见解和更新的有用资源，并附带了该频道的直接链接。

Links mentioned:

Join the Open Interpreter Discord Server!: 一种使用电脑的新方式 | 8840 members
Discord - A New Way to Chat with Friends & Communities: Discord 是通过语音、视频和文字进行交流的最简单方式。与你的朋友和社区聊天、聚会并保持紧密联系。
Mike Bird: AI 工程

--- **OpenInterpreter ▷ #[O1](https://discord.com/channels/1146610656779440188/1194880263122075688/1234781691109703732)** (31 messages🔥): - **探索外部按钮**：成员们讨论了将外部按钮与硬件集成的相关问题，特别是针对 **Atom Echo** 设备。分享了代码修改方案，特别是 **ButtonChecker** 的代码片段，一位实施该方案的成员确认这解决了问题。 - **通过外部硬件放大音频**：一位成员提供了增加连接到硬件的扬声器音量的解决方案，建议使用外部放大器，并提供了一个[潜在放大器的链接](https://www.amazon.com/dp/B01DKAI51M)，但指出他们尚未测试此设置。 - **开箱 AI 创新**：频道中提到了 **MKBHD** 对 AI 产品 Rabbit R1 的 **YouTube 评测**，并附带了[视频链接](https://www.youtube.com/watch?v=ddTV12hErTc&ab_channel=MarquesBrownlee)。关于传统科技评论员在理解和评估非主流 AI 设备方面的有效性展开了辩论。 - **将 R1 连接到 OpenInterpreter**：对话围绕将 **R1 与 OpenInterpreter (OI)** 集成的想法展开，成员们讨论了对此的期待和计划。大家渴望探索这些工具如何协同工作，希望能扩展功能并构建创新的配置。 - **为 OI 定制 ngrok 域名**：一位成员分享了在 **ngrok** 上创建新域名并编辑 01 软件中 **tunnel.py** 文件的具体步骤，以解决服务器连接问题，并提供了 [ngrok 域名页面的直接链接](https://dashboard.ngrok.com/cloud-edge/domains)。

Links mentioned:

ngrok - Online in One Line: 无描述
Rabbit R1: Barely Reviewable: 盒子里的 AI。但是一个不同的盒子。在 https://dbrand.com/rabbit 获取 dbrand 皮肤和屏幕保护贴。MKBHD 周边：http://shop.MKBHD.com 我现在使用的科技产品...
Amazon.com: HiLetgo Mini 3W+3W DC 5V Audio Amplifier Handy Digital Power Amp Module Board Dual-Channel PAM8403 Stereo Amplifiers with Potentiometer for DIY Portable : Electronics: 无描述

--- **OpenRouter (Alex Atallah) ▷ #[announcements](https://discord.com/channels/1091220969173028894/1092729520181739581/1235358580249591909)** (2 messages): ```html

Snowflake Arctic 480B 和 FireLLaVA 13B 模型发布：宣布新模型 Snowflake Arctic 480B，采用混合 Transformer 架构，擅长编程，可在 Snowflake Arctic 480B 获取；以及 FireLLaVA 13B，由 Fireworks 开发的开源多模态模型，可在 FireLLaVA 13B 获取。两者都为开发者提供了新的定价和详细规格。
改进的负载均衡和详细的提供商统计数据：OpenRouter 引入了 load balancing（负载均衡）来管理提供商的负载激增，现在允许监控延迟和提供商的结束原因（finish reasons），提升了用户性能，可在 Activity 页面查看。
为开发者精简的文档：更新了关于图像和多模态请求（multimodal requests）、以及工具调用（tool calls）和函数调用（function calling）的文档，现已在图像请求和工具调用页面提供使用指南。
功能扩展和价格调整：宣布在 Lepton 模型上支持 logit_bias 和 min_p，Mythomax Extended 大幅降价 40%，Mixtral 8x7b Instruct 小幅降价 4%。这些变化体现了 OpenRouter 致力于提供高性价比和先进的 AI 能力。
即将到来的 API 变更和开发者通知：提醒开发者，非流式补全（non-streaming completions）中的 total_cost 字段即将移除，并且请求中可能要求包含 User-Agent 请求头，以提高服务安全性和效率。

```

提到的链接：

OmniGPT - 最实惠的 ChatGPT 替代方案：我们以实惠的价格为您提供市场上最好的模型：Claude 3, GPT 4 Turbo, GPT 4, Gemini, Perplexity 等。
Syrax AI - 在一个平台上利用多个 AI：通过 Syrax AI，您可以从一个平台访问多个 AI 模型来生成内容、图像等。
Snowflake: Arctic Instruct by snowflake | OpenRouter：Arctic 是由 Snowflake AI 研究团队从零开始预训练的稠密 MoE 混合 Transformer 架构。Arctic 结合了一个 10B 稠密 Transformer 模型和一个残差 128x3.66B MoE MLP 结果...
FireLLaVA 13B by fireworks | OpenRouter：首个商业许可的开源 LLaVA 模型。该视觉语言模型完全基于开源 LLM 生成的指令遵循数据进行训练。
OpenRouter：构建与模型无关的 AI 应用
OpenRouter：构建与模型无关的 AI 应用

--- **OpenRouter (Alex Atallah) ▷ #[app-showcase](https://discord.com/channels/1091220969173028894/1092850552192368710/1235131318954623038)** (1 条消息): - **Skribler - 瑞典作家的 AI 助手**：几周前发布的 **Skribler** 是一款针对瑞典作家的新工具，通过 OpenRouter 集成了多种模型用于不同的写作任务。可在 [skribler.se](https://skribler.se) 访问，提供诸如为文本段落生成建议、帮助填补写作空白、构思对话以及对创意写作过程的全面支持等功能，介绍视频见 [此处](https://youtu.be/2Q2hb6UqGo4)。 - **积极的反响和用户采用**：**Skribler** 的发布还提到它已经获得了一批付费用户，表明在其目标市场受到了积极认可。 **提到的链接**：Skribler | Skriv med AI：未找到描述 --- **OpenRouter (Alex Atallah) ▷ #[general](https://discord.com/channels/1091220969173028894/1094454198688546826/1234817884748775435)** (64 条消息🔥🔥): - **OpenRouter 日志查询**：成员们在询问是否可以在 OpenRouter 开启日志记录的情况下查看每个请求的 prompt 和输出。 - **模型 Embedding 能力咨询**：一位成员咨询了 OpenRouter 中支持 embedding 的模型可用性。 - **上下文扩展的好奇**：有一场关于模型上下文窗口扩展的讨论，特别提到了一个上下文长度扩展到超过 100 万的模型，以及关于在 [Hugging Face](https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k) 上提供的扩展版 LLama-3 8B 模型性能的讨论。 - **支付问题及解决方案讨论**：用户正在讨论在 OpenRouter 上使用预付信用卡的问题，提到某些卡可能被 Stripe 的欺诈检测拦截，并讨论了潜在的解决方案或支付替代方案。 - **流式取消与模型回退**：有关于 OpenRouter 中流式取消（stream cancellation）可靠性的提问，以及建议使用 AWS 作为 Claude 模型的潜在回退（fallback）方案，类似于 Azure 用于 OpenAI 模型的方式。

提到的链接：

gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face：未找到描述
GitHub - hsiehjackson/RULER: This repo contains the source code for RULER: What’s the Real Context Size of Your Long-Context Language Models?：此仓库包含 RULER 的源代码：你的长上下文语言模型的真实上下文大小是多少？ - hsiehjackson/RULER

--- **AI Stack Devs (Yoko Li) ▷ #[app-showcase](https://discord.com/channels/1122748573000409160/1122748840819306598/1235256845418106990)** (28 messages🔥): - **清晰的 Diffusion 模型输出**：一位成员提到来自 [Hexagen World](https://www.hexagen.world/) 的 **diffusion 模型输出**非常清晰，标志着高质量的结果。 - **使用生成式 AI 重塑复古游戏**：有建议认为使用生成式 AI (GenAI) 重制像 **Farmville** 这样的早期社交媒体游戏将是一个引人注目的概念，而 WebSim 可能是实现这一目标的最佳平台。 - **嵌入 AI 的怀旧小镇模拟**：一位成员表示有兴趣在 WebSim 中建立一个 1950 年代主题的 AI 小镇，其中一个角色是共产主义间谍，创造一个互动的**猫鼠游戏**。 - **互动动画与 AI 讨论**：对 **AI 动画**感兴趣的参与者被邀请通过提供的 [Discord 邀请链接](https://discord.gg/deforum)加入相关的 Discord 社区。 - **Hexagen World 的发现与分享**：互动 AI 概念 **Hexagen World** 在社区内被分享，该概念通过 [bennyj504 的 Twitter 帖子](https://x.com/bennyj504/status/1785664502903570568)发现，吸引了多位成员的兴趣，并讨论了其功能和潜力。

提到的链接：

加入 Deforum Discord 服务器！：Deforum 是一个开源动画工具，利用 Stable Diffusion 的力量创建 AI 动画。 | 29464 名成员
BennyJ504-075⚜😎🤑🔌.yat 🟣 (@bennyj504) 的推文：https://www.hexagen.world/
集体 AI 生成的游戏世界：一个社交实验，任何人都可以帮助在浏览器中创建一个无限独特的模型。

--- **AI Stack Devs (Yoko Li) ▷ #[ai-town-discuss](https://discord.com/channels/1122748573000409160/1132926337598902293/1235075486200107029)** (2 messages): - **首次体验 Llama3**：一位成员表达了第一次尝试 **Llama3** 的兴奋，表明了新用户对探索该 AI 模型能力的兴趣。 --- **AI Stack Devs (Yoko Li) ▷ #[ai-town-dev](https://discord.com/channels/1122748573000409160/1137456826733047908/1234844604638167094)** (33 messages🔥): _ - **简单的本地设置成功**：一位成员确认在本地设置系统非常容易实现。 - **Windows 兼容性障碍**：几位成员报告了在 Windows 上运行本地版本的问题，其中一位卡在 *Checking for index or schema changes...*。另一位成员澄清说 **Convex local 不支持 Windows**，但提到 Windows 兼容性的工作正在进行中。 - **分享 Mac 专用的运行命令**：对于在 Mac 上运行的用户，建议使用 `just convex dev` 进行专用同步，并使用 `just convex logs` 获取独立的终端日志输出，从而在不受 `npm run dev` 干扰的情况下平稳运行。 - **正确的 Node 版本至关重要**：一位成员在尝试运行应用时分享了一个与 **node version** 相关的错误。指出需要在与 `npm run dev` 相同的目录下运行 `convex-local-backend`，并确保两个目录中都使用了正确的 node 版本（`nvm use 19`）。 - **切换到 Linux 进行开发**：鉴于上述 Windows 的兼容性问题，一些成员考虑卸载 Windows 并安装 Linux，其中一人询问如何操作以及是否会影响玩游戏 Stellaris。另一位成员提供了一个 [WineHQ 链接](https://appdb.winehq.org/objectManager.php?sClass=application&iId=17537)，表明 Stellaris 有原生的 Mac 和 Linux 版本，暗示兼容性不会是问题。 **提到的链接**：WineHQ - Stellaris：未找到描述 --- **Cohere ▷ #[general](https://discord.com/channels/954421988141711382/954421988783444043/1234768624204648578)** (35 messages🔥): - **语言模型与语法**：指向 LLM University 的链接解释了 LLM 等语言模型如何生成语法正确的句子。它讨论了 word embedding 和 sentence embedding 的概念，以及 self-attention 的关键作用，详细资源可在[此处](https://docs.cohere.com/docs/the-attention-mechanism)找到。 - **Command R 获得好评**：社区成员称赞 Cohere commandR/ R+ 模型，赞扬其高性能并将其与其他 LLM 进行对比，评论认为它们提供了企业级的精致体验。 - **基于 RAG 的 AI 法律助手研讨会**：关于使用 Cohere 的 RAG 构建 AI 法律助手的研讨会录像已分享，可在 [YouTube](https://www.youtube.com/watch?v=KfqJsqIFeRY&ab_channel=Cohere) 上观看。 - **讨论了用于 Connectors 的 Azure 和 OAuth**：对于想知道如何在 Azure 上为 connectors 设置 OAuth 的用户，澄清了可以使用 GitHub 上的 Cohere toolkit，它允许所有内容在 Azure 上运行，确保所有数据保持在内部，不进行外部数据共享。 - **探索 Command-R 的多语言支持**：社区正在 Command-R 上积极测试挪威语等语言，引发了关于语言支持和需要更好基准测试的讨论，尽管某些语言在没有官方支持的情况下似乎运行良好。

提到的链接：

The Attention Mechanism：未找到描述
Building a RAG-powered AI legal assistant with Cohere：Cohere 最近发布了 Command R，这是一个高度可扩展的语言模型系列，在高性能和强准确性之间取得了平衡。在本次研讨会中，您将……
GitHub - cohere-ai/cohere-toolkit: Toolkit is a collection of prebuilt components enabling users to quickly build and deploy RAG applications.：Toolkit 是预构建组件的集合，使用户能够快速构建和部署 RAG 应用程序。 - cohere-ai/cohere-toolkit

--- **Cohere ▷ #[collab-opps](https://discord.com/channels/954421988141711382/1218409745380147320/1235223324804775957)** (1 messages): 提供的单条消息历史记录中没有足够的细节或讨论点来创建摘要。如果提供更多聊天内容，可以按照指南创建摘要。 --- **LangChain AI ▷ #[general](https://discord.com/channels/1038097195422978059/1038097196224086148/1234773013615087666)** (24 messages🔥): - **寻求 PDF 表格提取帮助**：一位成员询问如何**改进从 PDF 中提取表格**的效果，特别是当表格跨越多个页面时。他们正在使用 *unstructure*，但效果不佳。 - **将 Llama 3 与 LangChain 集成**：一位成员询问如何通过 LangChain 使用 **Llama 3**，并被建议使用 [Fireworks](https://python.langchain.com/docs/integrations/chat/fireworks/) 配合 **Fireworks API Key** 来实现。 - **寻找文档到图谱（Document-to-Graph）转换工具**：成员们讨论了对**自动将文档结构化为知识图谱**工具的需求。建议包括使用像 *unstructured* 或 *Azure Doc AI* 这样的布局解析器，并探索关于构建知识图谱的 [LangChain 文档](https://python.langchain.com/docs/use_cases/graph/constructing/)。 - **探索 AI 销售代理（Sales Agents）**：一位成员正在寻求关于构建 **AI 驱动的 Sales Agents** 的建议，这些 Agent 需要能够处理异议并保持人性化的语气。他们提到正在尝试 SalesGPT 逻辑，并对进一步推进该计划的合作持开放态度。 - **解决 AI Schema 知识局限性**：在一个拥有超过 2000 张表的服务器中，一位成员在 AI 理解所有 Schema 的能力方面面临挑战，这表明了 **AI 在数据库结构知识方面的局限性**。

提到的链接：

构建知识图谱 | 🦜️🔗 LangChain：本指南将介绍构建知识图谱的基本方法。
ChatFireworks | 🦜️🔗 LangChain：Fireworks 加速产品开发。
Fireworks - 为产品创新而生的生成式 AI！：使用 Fireworks.ai 以极快的速度使用最先进的开源 LLM 和图像模型，或者免费微调并部署您自己的模型！

--- **LangChain AI ▷ #[langserve](https://discord.com/channels/1038097195422978059/1170024642245832774/1234899074763722844)** (1 条消息): - **再次使用 Google Drive 库**：一位成员提到在某些操作中必须使用 Google Drive 库，并指出 **drive key** 应设置为环境变量。据指出，这些库之前被移除后又重新添加到了项目中。 --- **LangChain AI ▷ #[share-your-work](https://discord.com/channels/1038097195422978059/1038097372695236729/1234773357178916916)** (7 条消息): - **用于 YouTube 视频摘要的 QuickVid 发布**：QuickVid 通过提供**极速摘要**和事实核查，引入了一种与 YouTube 内容互动的新方式。前往 [QuickVid](https://quickvid.vercel.app/) 体验这款可以**提升您 YouTube 体验**的工具。 - **高级 Webloader RAG 构建详解**：一位成员分享了一篇关于使用 Groq, LangChain 和 Datastax 构建强大的 **Webloader RAG 应用**的文章。详情可见这篇 [Medium 文章](https://medium.com/ai-advances/building-powerful-webloader-rag-applications-with-groq-langchain-and-datastax-f4816d88bee8)。 - **引入用于 AI 语言管理的 Word Loom 规范**：Word Loom 是一个用于管理 AI 语言的开放规范，旨在通过代码与自然语言分离、可组合性以及对机械比较和 G11N 技术友好等核心原则来改进 Prompt 管理。欢迎对该规范提出反馈，可在 [GitHub Gist](https://gist.github.com/uogbuji/5bd08f74125934fa9e0d37236a8e168e) 上查看。 - **LangChain Chatbot 更新及文档挑战**：LangChain Chatbot 已更新至版本 **0.1.17**，并承认了稳定版发布后过时文档带来的挑战。更新后的 Chatbot 运行示例可在 [LangChain Chatbot](https://langchain-chatbot.streamlit.app) 体验。 - **考虑为内容创作提供 LLM 性能报告**：一位成员正在测试排行榜上的各种 **LLM**，用于剧本创作和文案写作等内容创作场景，并询问详细报告是否对他人有用。

提到的链接：

Word Loom 提议更新：Word Loom 提议更新。GitHub Gist：即时分享代码、笔记和代码片段。
GitHub - carlosplanchon/gpt_pydantic_tools: 一种使用 Pydantic Schemas 编写 GPT 工具的方法。：一种使用 Pydantic Schemas 编写 GPT 工具的方法。通过在 GitHub 上创建账号为 carlosplanchon/gpt_pydantic_tools 的开发做出贡献。
QuickVid：未找到描述
无标题：未找到描述

--- **LangChain AI ▷ #[tutorials](https://discord.com/channels/1038097195422978059/1077843317657706538/1234782249166049310)** (3 messages): - **Advanced RAG 的巴黎风味**：一段新的教程视频展示了 **LangChain** 与 **Mistral Large** 以及 **Llamaindex** 的集成，旨在为法语社区构建一个 Advanced RAG 助手。内容已在 YouTube 上线，标题为“[Multi-Agent RAG: LangChain et LlamaIndex portés par Mistral Large - Le vent du changement](https://youtu.be/ol2QMp64lgo)”，应用代码已在视频描述中提供。 - **训练本地 Llama3 的新花样**：分享了一段名为“*I want Llama3 to perform 10x with my private knowledge* - Local Agentic RAG w/ llama3”的教学视频，演示了如何利用私有知识训练 **llama3** 以构建 Agentic RAG。视频可以在[这里](https://youtu.be/u5Vcrwpzoz8?si=U30s6BAN9Jsaec-P)找到。 - **基于复杂度的 RAG 策略选择**：“[LangGraph + Adaptive Rag + LLama3 Python Project: Easy AI/Chat for your Docs](https://www.youtube.com/watch?v=QnXdlqEUW80)”视频介绍了一种 Adaptive RAG 方法，该方法可以根据查询的复杂度调整其策略。这项技术有望优化 AI/Chat 与文档集成的性能。

提到的链接：

"I want Llama3 to perform 10x with my private knowledge" - Local Agentic RAG w/ llama3：Advanced RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告：https://clickhubspot.com/4hx🔗 Links- F...
LangGraph + Adaptive Rag + LLama3 Python Project: Easy AI/Chat for your Docs：#langchain #langgraph #rag #python #automation #llm #ai #automation 在这段视频中，我为你准备了一个非常快速的教程，展示如何创建一个完全本地的...
Multi-Agent RAG: LangChain et LlamaIndex portés par Mistral Large - Le vent du changement：在这段新视频中，我将 Mistral Large 投入测试，使用 LangChain 和 LlamaIndex 开发一个多 Agent RAG 助手....

--- **Mozilla AI ▷ #[announcements](https://discord.com/channels/1089876418936180786/1089876419926032396/1234890920575631360)** (1 messages): ```html

加入 Mozilla AI 团队：Mozilla AI 正在扩大团队并正在招聘。感兴趣的人员可以在其官方 Discord 频道[此处](https://discord.com/channels/1089876418936180786/1230938514955436242/1234870020916510823)查看就业机会。
介绍 Lm-buddy：Mozilla AI 发布了一个名为 **Lm-buddy** 的新开源工具，旨在帮助更高效地评估模型。欲了解更多详情和访问权限，请访问其频道中的公告[此处](https://discord.com/channels/1089876418936180786/1230938514955436242/1234589599733518378)。
本地 LLM 作为数字法官：有一项关于通过 Prometheus 框架使用 **本地 LLM** 作为法官的讨论。详情可在 Discord 频道查看，访问链接[此处](https://discord.com/channels/1089876418936180786/1234890301143912599/1234890301143912599)。

``` --- **Mozilla AI ▷ #[llamafile](https://discord.com/channels/1089876418936180786/1182689832057716778/1234906250358296607)** (34 messages🔥): - **M1 MacBook Air 运行 LLaMA3 的问题**：一位成员报告了在 M1 MacBook Air 上运行 **LLaMA3:8b** 的问题，该模型在 ollama 上运行正常，但在 llamafile 上不行。回复称，在解决其他正在进行的后续支持问题后，将优先在 M1 上进行测试。 - **将 Whisper 模型封装进 Llamafile**：有人建议将 **whisper.cpp 模型** 封装进 llamafile 以实现更快的推理，并指出尽管使用 cosmo libc 构建 whisper 很容易，但麦克风和扬声器的集成仍未解决。 - **Justine Tunney 的 GEMM 博客事实核查**：一位用户询问了一篇博客文章 (https://justine.lol/matmul/)，该文章称 **np.matmul** 的性能为 29 gflops，并指出个人经验中的 gflop 性能要高得多；回复澄清了原始测量是在一台安装了 **Ubuntu 的 Intel 电脑**上进行的，并解释了计算 flops 的差异。 - **同时运行多个 Llamafile**：关于同时运行多个加载不同模型的 llamafile 的讨论得到了确认，这是可行的。有人指出操作系统将管理资源分配，并且可能需要额外的工具来进行优化使用。 - **Llamafile 公共路径自定义**：一位成员询问了关于使用 `--server --path PUBLIC_PATH` 选项进行自定义的问题。提到唯一经过测试的自定义方式是替换 zip 中的 .html 和 .js 文件，而不是使用外部目录。

Links mentioned:

jartine/Phi-3-mini-4k-instruct-llamafile · Hugging Face: no description found
GitHub - stanford-futuredata/FrugalGPT: FrugalGPT: better quality and lower cost for LLM applications: FrugalGPT: better quality and lower cost for LLM applications - stanford-futuredata/FrugalGPT

--- **tinygrad (George Hotz) ▷ #[general](https://discord.com/channels/1068976834382925865/1068976834928193609/1234900403498258542)** (8 messages🔥): - **关于反向传播操作图表的疑问**：Shikhar_7985 询问了关于为涉及两个 reduce 操作的反向传播（backward passes）问题 **#3572** 创建图表的方法。Akshatxv 提到有一个可以使用的 dot 文件，而 python273 提示可以设置 `GRAPH=1`。 - **Tinygrad 中的符号形状和跳过的测试**：Georgehotz 提到了他在 Tinygrad 中关于 symbolic shapes 的工作，并分享了一个 [pull request](https://github.com/tinygrad/tinygrad/pull/4362)，其中包含一个针对 symbolic arange 的跳过测试。 - **在 Google 之外寻求 Tinygrad 知识**：Lynn4400 表达了对学习更多 Tinygrad 知识的兴趣，特别是其 kernels，并提到受到了 Lex Fridman 播客的影响。Leikowo 引导他们查看仓库的文档，作为更好地理解 Tinygrad 的良好起点。 **Link mentioned**: tensor variable by geohot · Pull Request #4362 · tinygrad/tinygrad: no description found --- **tinygrad (George Hotz) ▷ #[learn-tinygrad](https://discord.com/channels/1068976834382925865/1070745817025106080/1234795444773715979)** (13 messages🔥): - **Tinygrad 将 Scalar 重命名为 ConstType**：该项目有一个 [commit](https://github.com/tinygrad/tinygrad/commit/77589bc7a5430ee470621e43fb1817259d3ce0f5) 将 `Scalar` 重命名为 `ConstType`，将 `cast_scalar` 重命名为 `as_const`，作为 *pre-req cleanup*，以标准化常量参数类型与 dtype。 - **探索 Const 支持变量**：一位成员建议改进 tinygrad 在操作中对常量的处理，提议使用 const support variables 代替 tensor variables 以简化操作，并在 scheduling phase 断言边界。 - **符号 JIT 和变量均值测试**：在讨论了符号 JIT 增强的需求后，有人指出验证改进的一个好测试是改变 symbolic JIT 变量值，并计算具有可变长度的 2D tensor 的均值。 - **强调让 Const 变量正常工作**：重点在于使 tinygrad 中的 const Variables 能够正常运行，因为它们对于与符号维度和操作相关的操作至关重要。 - **在 Nvidia Xavier 上使用 EfficientNet CUDA**：成员们讨论了在 Nvidia Xavier 上运行 efficientnet 示例的问题，建议检查是否使用了 `CUDA=1` 以确保脚本正确执行。 - **符号逻辑中的技术划分**：关于 tinygrad 代码库中 Rednode 和 OpNode 区别的辩论，质疑 Rednode 是否使符号编译器逻辑复杂化，以及是否应该将其分离出来。

Links mentioned:

比较 tinygrad:master...davidjanoskyrepo:symbolic-mean-var-pull · tinygrad/tinygrad: 你喜欢 PyTorch？你喜欢 micrograd？你会爱上 tinygrad！❤️ - 比较 tinygrad:master...davidjanoskyrepo:symbolic-mean-var-pull · tinygrad/tinygrad
比较 86d90511cee2^...97a2d44d9840 · tinygrad/tinygrad: 你喜欢 PyTorch？你喜欢 micrograd？你会爱上 tinygrad！❤️ - 比较 86d90511cee2^...97a2d44d9840 · tinygrad/tinygrad
将 Scalar 重命名为 ConstType，将 cast_scalar 重命名为 as_const (#3946) · tinygrad/tinygrad@77589bc: 前置清理工作，使 const 参数与 dtype 具有相同的 Python 类型。

--- **Interconnects (Nathan Lambert) ▷ #[random](https://discord.com/channels/1179127597926469703/1183121795247779910/1235293456511799328)** (11 messages🔥): - **Anthropic 发布 Claude**: Anthropic 正式发布了 Claude 应用，部分成员已开始下载使用。 - **关于 Claude 质量的疑问**: 成员们好奇 Anthropic 新推出的 Claude 应用与 OpenAI 的产品相比如何，质疑其质量是否过硬。 - **新应用运行顺畅**: 一位成员表示在使用 Claude 应用时未遇到任何问题，并表达了对 Anthropic 品牌设计的喜爱。 - **Anthropic 品牌赢得人心**: 对话反映了对 Anthropic 品牌策略的积极反馈，成员们认可其 Logo 的吸引力。 - **ML Collective 会议持续进行**: 一位成员确认他们仍在参加 ML Collective 会议，尽管不是每周都参加。 --- **Interconnects (Nathan Lambert) ▷ #[reads](https://discord.com/channels/1179127597926469703/1214764639397617695/1234876113021440090)** (1 messages): - **重新思考 AI 排行榜**: 一篇由 Sayash Kapoor、Benedikt Stroebl 和 Arvind Narayanan 撰写的题为[“AI 排行榜不再有用”](https://www.aisnakeoil.com/p/ai-leaderboards-are-no-longer-useful)的分享文章质疑了当前 AI 排行榜的实用性。根据 [HumanEval 基准测试](https://paperswithcode.com/sota/code-generation-on-humaneval)，**LDB** 是目前最准确的公开代码生成系统，但由于需要反复调用 GPT-4 等语言模型，其高昂的成本是一个重大缺陷。 **提及链接**: AI 排行榜不再有用。是时候转向帕累托曲线（Pareto curves）了。: 花费 2,000 美元能告诉我们关于评估 AI Agent 的什么。 --- **Interconnects (Nathan Lambert) ▷ #[posts](https://discord.com/channels/1179127597926469703/1228051082631188530/1235253560917233685)** (2 messages): - **激励提升成功**: 针对直率的绩效批评，一位成员显著提升了工作质量，引发了其他人的积极且热烈的反应。 --- **Alignment Lab AI ▷ #[ai-and-ml-discussion](https://discord.com/channels/1087862276448595968/1087876677603958804/1234767428035022920)** (1 messages): - **不当内容警报**: 该频道收到一条推广 Discord 邀请链接的消息，据称提供涉及未成年人的可疑且可能违法的泄露资料。该消息包含暗示成人内容的表情符号，并艾特了频道中的所有人。 **提及链接**: 加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起聚会，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[programming-help](https://discord.com/channels/1087862276448595968/1087876753462136873/1234767505835425803)** (1 messages): - **不当内容警报**: 频道中的一条消息包含免费提供“18+ 青少年女孩和 OnlyFans 泄露内容”的信息，并附带了 Discord 邀请链接。此类内容不适合专注于 AI Alignment 和编程帮助的频道。 **提及链接**: 加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起聚会，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[looking-for-collabs](https://discord.com/channels/1087862276448595968/1095393077415383261/1234767644352315433)** (1 messages): - **不当内容警报**: 有人发布了一条消息，提供免费的 **18+ 青少年女孩和 OnlyFans 内容**泄露，并附带 Discord 邀请链接。此类内容违反了社区准则并涉嫌推广非法活动。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[general-chat](https://discord.com/channels/1087862276448595968/1095458248712265841/1234767675062747157)** (1 messages): - **不当内容警报**：该频道包含一条推广成人内容的消息，包括 **18+ teen girls** 和 **OnlyFans leaks**。该消息包含表情符号和一个 Discord 邀请链接。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[landmark-dev](https://discord.com/channels/1087862276448595968/1113327574563692654/1234767716267855884)** (1 messages): - **不当内容警报**：发布了一条包含成人内容链接和 OnlyFans 泄露资料的消息，看起来是垃圾信息或钓鱼尝试。这包括一个 Discord 频道邀请，据称提供此类内容的免费访问。 **Link mentioned**: Discord - A New Way to Chat with Friends & Communities: Discord 是通过语音、视频和文字进行交流的最简单方式。在这里聊天、聚会，与你的朋友和社区保持紧密联系。 --- **Alignment Lab AI ▷ #[landmark-evaluation](https://discord.com/channels/1087862276448595968/1118282868595109918/1234767861927645225)** (1 messages): - **不当内容警报**：发布了一条包含 NSFW 内容链接的消息，特别是推广 **18+ Teen Girls** 和 **OnlyFans leaks**。发布者分享了一个 Discord 邀请链接并艾特了所有人。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[open-orca-community-chat](https://discord.com/channels/1087862276448595968/1124000038205530182/1234767970668908585)** (1 messages): - **不当内容警报**：发布了一条包含潜在露骨内容链接和查看 **onlyfans** 泄露内容邀请的消息，暗示分享针对 18+ 受众的非法内容。该帖子包含表情符号和一个 Discord 邀请链接。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[leaderboard](https://discord.com/channels/1087862276448595968/1135102537817653308/1234768131247964212)** (1 messages): - **不当内容警报**：发布了一条包含露骨内容链接的消息，特别提到了一个包含订阅服务 OnlyFans 泄露内容的 Discord 服务器，可能涉及未成年人。该消息包含一个 Discord 邀请链接，并使用了暗示内容为成人性质的表情符号。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[looking-for-workers](https://discord.com/channels/1087862276448595968/1142242166677192774/1234768231554879488)** (1 messages): - **不当内容警报**：一条消息包含对以未成年人形象出现的成人内容的不当招揽，包括一个 Discord 邀请链接。该消息因推广不良内容而被标记。 **Link mentioned**: Join the e-girl paradise 🍑🍒 // +18 Discord Server!: 查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与其他 16457 名成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[looking-for-work](https://discord.com/channels/1087862276448595968/1142242683339944027/1234768257148391435)** (1 messages): - **不当内容警报**：频道中的一条消息包含提供涉及年轻人的成人内容，以及一个 Discord 邀请链接。此类内容极不恰当，可能违反了多项服务条款以及与分发未成年人露骨内容相关的法律。 **提及链接**：加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！：查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与 16457 名其他成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[join-in](https://discord.com/channels/1087862276448595968/1143791237669855302/1234768325972856912)** (1 条消息): - **不当内容警示**：发布了一条推广**成人内容**的消息，特别是涉及*青少年女性*和 *OnlyFans 泄露*的内容，并附带了 Discord 邀请链接。该帖子似乎旨在将流量引导至另一个可能包含显式内容的 Discord 服务器。 **提及链接**：加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！：查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与 16457 名其他成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[fasteval-dev](https://discord.com/channels/1087862276448595968/1147528620936548363/1234768398429458506)** (1 条消息): 无法提供摘要，因为内容不包含与 AI 或 Alignment Lab AI Discord 聊天机器人消息相关的相关主题或讨论点。此外，内容似乎不当，且与通常总结的预期学术或专业讨论不符。 **提及链接**：加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！：查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与 16457 名其他成员一起交流，享受免费的语音和文字聊天。 --- **Alignment Lab AI ▷ #[qa](https://discord.com/channels/1087862276448595968/1147528698669584424/1234768427663495248)** (1 条消息): - **不当内容警示**：发布了一条似乎在推广获取成人内容的消息，涉及可能未达法定同意年龄的个人，并附带了一个 Discord 服务器链接。此类内容不仅不当，而且可能违法，应立即举报并删除。 **提及链接**：加入 e-girl paradise 🍑🍒 // +18 Discord 服务器！：查看 Discord 上的 e-girl paradise 🍑🍒 // +18 社区 - 与 16457 名其他成员一起交流，享受免费的语音和文字聊天。 --- **Skunkworks AI ▷ #[general](https://discord.com/channels/1131084849432768614/1131084849906716735/1234909827453681764)** (11 条消息🔥): - **LLaMA-3 Instruct 提示策略揭晓**：分享了 **LLaMA-3 instruct 提示策略**的更新，声称改进了模型的性能，包括相关的 GitHub [pull request](https://github.com/OpenAccess-AI-Collective/axolotl/pull/1553)。 - **澄清数据集条目混淆**：一位成员详细说明了使用 `eot_id` 解决了之前尝试的方法中遇到的问题，即手动在每个数据集条目末尾添加 `<|eot_id|>`。 - **Meta 的迭代推理优化提升准确率**：传阅了题为“Iterative Reasoning Preference Optimization”的论文，指出 Meta 的进展使得 LLama-2-70B-Chat 在 GSM8K 和 ARC-Challenge 等多个基准测试上的准确率有所提高。论文链接见[此处](https://arxiv.org/abs/2404.19733)。 - **使用 Axolotl 微调 LLaMA-3**：一位用户分享了他们使用 **Axolotl 微调 LLaMA-3 8b** 的经验，导致模型输出包含 `</s>`。

提及链接：

来自 Aran Komatsuzaki (@arankomatsuzaki) 的推文：Meta 展示迭代推理偏好优化（Iterative Reasoning Preference Optimization），提升 Llama-2-70B-Chat 的准确率：- GSM8K 从 55.6% -> 81.6% - MATH 从 12.5% -> 20.8% - ARC-Challenge 从 77.8% -> 86.7% ...
Axolotl - 对话：未找到描述
feat: 为微调添加 LLaMA-3 instruct 提示策略，由 0-hero 提交 · Pull Request #1553 · OpenAccess-AI-Collective/axolotl：描述：此项工作基于并包含了以下 PR 的更改：#1542 #1539。在合并此项之前，需要先合并来自 @TJ-Solergibert 的 Fastchat PR lm-sys/FastChat#3257...

--- **Skunkworks AI ▷ #[off-topic](https://discord.com/channels/1131084849432768614/1140423597454807179/1234767923105632326)** (2 条消息): - **激励人心的节奏，让你充满动力**：分享了一首名为 "NEVER GIVE UP YOUR WAAAAAAAAAAAAY" 的动漫风格励志曲目，其中包含来自经典动漫 *Kill La Kill* 的器乐版本。这段 [YouTube 视频](https://youtu.be/tYzMYcUty6s?si=t2utqcq36PHbk9da) 鼓励观众永不言弃，并附带了 Patreon 的支持链接。 - **算我一个！**：一位成员热情地回应道“我也会在那儿”，表示对之前分享内容的参与或支持。 **提到的链接**：NEVER GIVE UP YOUR WAAAAAAAAAAAAY：NEVA GIVE UP - https://bit.ly/2VrgAcKSong 是来自动漫 Kill La Kill 的 Before my Body is Dry 器乐版本。请考虑向我们的 Patreon 捐赠！https://w... --- **DiscoResearch ▷ #[general](https://discord.com/channels/1178995845727785010/1182877486854451271/1234775513499963463)** (1 条消息): - **本地加载速度快**：一位成员提到，在本地机器上运行程序非常快，*只需 3 秒即可加载*，这表明与提交任务后加载缓慢的情况相比，存储并不是问题所在。 --- **DiscoResearch ▷ #[benchmark_dev](https://discord.com/channels/1178995845727785010/1183158791605330051/)** (1 条消息): le_mess: Llama 3 在 Scandeval 上似乎击败了 GPT-4 https://scandeval.com/german-nlg/ --- **DiscoResearch ▷ #[discolm_german](https://discord.com/channels/1178995845727785010/1197630242815213618/1235150707439702057)** (1 条消息): - **使用 qdora 探索模型扩展**：一位成员通过提到 **qdora** 引起了大家对 LLM 扩展的兴趣，这是一种针对 LLaMA 等模型的折中方案。他们提供了一个讨论该过程的 [Answer.ai 博客文章](https://www.answer.ai/posts/2024-04-26-fsdp-qdora-llama3.html) 链接。 - **深入研究 LLaMA Pro 的无遗忘学习**：对话还强调了旨在防止 LLM 出现灾难性遗忘的新预训练后方法，并指向了一篇关于扩展 Transformer 块以在获取新技能的同时保留旧技能的 [Arxiv 论文](https://arxiv.org/abs/2401.02415)。 **提到的链接**：LLaMA Pro: Progressive LLaMA with Block Expansion：人类通常在不损害旧技能的情况下习得新技能；然而，对于大语言模型（LLMs）来说情况正好相反，例如从 LLaMA 到 CodeLLaMA。为此，我们提出了一种新的预训练后... --- **Datasette - LLM (@SimonW) ▷ #[llm](https://discord.com/channels/823971286308356157/1128504153841336370/1234824449552027749)** (2 条消息): - **Datasette UX 挑战**：一位成员正在为 Datasette 首页的用户界面寻求创意，用户可以从下拉菜单中选择选项，例如选择一个国家来获取与该选择相关的摘要数据。 - **思考动态 URL 与可定制界面的对比**：针对 Datasette 首页提出了两种 UX 方案；一种涉及在事件发生时动态更新 URL，直接引导用户访问数据；另一种则允许用户通过根据选择更新预设查询（canned queries）来“构建”首页。 --- ---

今天没什么事。

AI Reddit 摘要回顾

AI Twitter 回顾

AI Discord 回顾

PART 1: 高层级 Discord 摘要

CUDA MODE Discord

Unsloth AI (Daniel Han) Discord

LM Studio Discord

Nous Research AI Discord

Stability.ai (Stable Diffusion) Discord

OpenAI Discord

Perplexity AI Discord

Eleuther Discord

HuggingFace Discord

LlamaIndex Discord

Modular (Mojo 🔥) Discord

OpenAccess AI Collective (axolotl) Discord

LAION Discord

Latent Space Discord

OpenInterpreter Discord

OpenRouter (Alex Atallah) Discord

AI Stack Devs (Yoko Li) Discord

Cohere Discord

LangChain AI Discord

Mozilla AI Discord

tinygrad (George Hotz) Discord

Interconnects (Nathan Lambert) Discord

Alignment Lab AI Discord

Skunkworks AI Discord

DiscoResearch Discord

Datasette - LLM (@SimonW) Discord

PART 2: 频道详细摘要与链接