2024年5月2日至5月3日的 AI 新闻。我们为您检查了 7 个 subreddits、373 个 Twitter 账号和 28 个 Discord 服务器（418 个频道，5847 条消息）。预计节省阅读时间（按每分钟 200 字计算）：642 分钟。

本周 AI 新闻相对较少。这是一个有趣的 Kaggle 新挑战：

您将使用来自 Chatbot Arena 的数据集，其中包含各种 LLM 的对话和用户偏好。通过开发一个能够准确预测人类偏好的模型，您将为提高聊天机器人的性能以及与用户预期的对齐（alignment）做出贡献。训练数据集包含超过 55,000 条真实的真实用户与 LLM 对话及用户偏好，已删除个人身份信息。您的解决方案提交将在包含 25,000 个样本的隐藏测试集上进行测试。

比赛将持续到 8 月 5 日，总奖金为 100,000 美元，其中第一名奖金 25,000 美元，第二至第四名奖金各 20,000 美元，第五名奖金 15,000 美元。

[TOC]

AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和流程工程（flow engineering）。

LLM 模型发布与基准测试

Llama 3 模型：@DrJimFan 宣布了 DrEureka，这是一个 LLM agent，它编写代码在模拟环境中训练机器人技能，并实现向现实世界的 zero-shot 迁移。@GroqInc 的 Llama 3 70B 模型打破了性能记录，价格为 每 1M input token $0.65，每 1M output token $0.9。@bindureddy 指出 Groq 的 Llama 3 模型处于领先地位，而 OpenAI 则专注于炒作 GPT-5。
LLM 基准测试：@DrJimFan 建议了三种重要的 LLM 评估类型：由受信任的第三方（如 @scale_AI）公开报告分数的私有测试集、像 @lmsysorg 的 Chatbot Arena 这样的公开对比基准，以及针对各公司用例私下策划的内部基准。@percyliang 指出某些模型在 GSM8K 基准测试中对特定 prompt 表现不佳。
开源评估器 LLM：@seungonekim 介绍了 Prometheus 2，这是一款开源评估器 LLM，能紧密模拟人类和 GPT-4 的判断，并支持直接评估和成对排名（pairwise ranking）格式。在构建 LM 裁判方面，它们的表现优于 GPT-4 和 Claude 3 Opus 等专有 LM。

数据集与基准测试

GSM1K 数据集：@percyliang 讨论了模型对新 GSM1K 数据集中的 prompt 如何敏感，需要采样和多数投票（majority voting）来减少噪声。有些模型在有额外提示（hints）时表现较差。
WildChat1M ChatGPT 日志：@_akhaliq 分享了来自 AI2 的 WildChat 数据集，包含超过 100 万条 ChatGPT 在真实场景下的交互日志。它拥有 250 万个对话轮次（turns）、多样化的 prompt、多种语言以及毒性（toxic）示例。
Kaggle 人类偏好预测：@lmsysorg 宣布了一项 10 万美元的 Kaggle 竞赛，旨在根据包含 5.5 万条用户/LLM 对话的新数据集，预测其 Chatbot Arena 中用户对 LLM 回复的偏好。
污染数据库：@clefourrier 提到一个用于追踪模型和数据集污染的新开放数据库，以帮助选择“安全”的构件（artifacts）进行模型创建。

高效 LLM 训练与推理技术

LoRA for Parameter Efficient Fine-Tuning: @mobicham 评估了在 10 个基础模型和 31 个任务上，使用量化低秩适配器 (LoRA) 微调的 LLMs 进行训练和服务的可行性。4-bit LoRA 模型平均表现优于基础模型 34 分，优于 GPT-4 10 分。LoRAX 推理服务器支持在单个 GPU 上部署多个 LoRA 模型。
Efficient Model Alignment with NeMo-Aligner: @NVIDIA 推出了 NeMo-Aligner，这是一个可扩展的工具包，用于高效的 LLM 对齐技术，如 RLHF, DPO, SteerLM, SPIN。它可扩展到数百个 GPU 以训练大型模型。
Factuality-Aware Alignment to Reduce Hallucination: @mobicham 提出了事实感知（factuality-aware）的 SFT 和 RL 对齐，以引导 LLMs 输出更符合事实的回答。在涉及新知识或不熟悉文本的情况下训练 LLMs 可能会加剧幻觉 (hallucination)。

Multimodal and Long-Range LLMs

Multimodal LLM for Automated Audio Description: @mobicham 介绍了一种利用 GPT-4V 的多模态指令遵循能力构建的自动音频描述流水线。它生成的音频描述 (AD) 符合自然语言生成标准，同时保持上下文一致性。
Extending LLM Context Windows: @rohanpaul_ai 报告称，仅使用 3.5K 个合成 QA 对，就在一夜之间将 Llama-3-8B 的上下文扩展了 10 倍，达到 80K tokens。生成的模型在书籍问答和摘要等长上下文任务中表现出色，可与 GPT-4 媲美。
Consistent Long-Range Video Generation: @mobicham 提出了 StoryDiffusion 框架，用于从文本生成一致的长程图像/视频。它引入了 Consistent Self-Attention 和 Semantic Motion Predictor，以保持生成帧之间的一致性。

Emerging Architectures and Training Paradigms

Kolmogorov-Arnold Networks as MLP Alternative: @rohanpaul_ai 报告称 Kolmogorov-Arnold Networks (KANs) 是 MLP 的一种新型替代方案。KANs 在边上使用可学习的激活函数，并用可学习的样条 (splines) 替换权重。它们以更少的参数实现了更高的精度，并避免了维度灾难。
Apple’s On-Device LLMs and AI-Enabled Browser: @rohanpaul_ai 指出 Apple 在 WWDC 上推出了 OpenELM（一系列小型端侧 LLMs）和一款支持 AI 的 Safari 浏览器。端侧 LLMs 无需 API 调用即可实现免费推理。

Miscellaneous

WildChat1M ChatGPT Interaction Dataset: @mobicham 推出了 WildChat1M，这是一个包含 100 万个用户与 ChatGPT 对话的数据集，交互轮数超过 250 万。它提供了多样化的 Prompt、多种语言，并捕捉了跨地区的各种用例和用户行为。
Open Source Libraries for ML Deployment: @dl_weekly 分享了一个精选的开源库列表，用于在生产环境中部署、监控、版本化和扩展机器学习模型。

AI Reddit Recap

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线，但仍有很大改进空间！

AI Model Releases and Updates

Nvidia 发布 ChatQA-1.5: 在 /r/LocalLLaMA 中，Nvidia 发布了 ChatQA-1.5，这是一个极具竞争力的 Llama3-70B QA/RAG 微调模型，在对话式问答和检索增强生成 (RAG) 方面表现出色。它在 FinanceBench 等基准测试中优于原生 RAG 基准。
Stability AI 的 Stable Diffusion 3 发布时间尚不明确: 在 /r/StableDiffusion 中，人们对 Stable Diffusion 3 权重的发布时间 存在猜测，有人根据推文预测周一发布，而另一些人则怀疑短期内不会完全发布。
Anthropic 的 Claude Opus 和 Udio 生成单口喜剧: Anthropic 的 AI 模型 Claude Opus 和 Udio 被用于生成一段关于 AGI 之后 r/singularity 未来的单口喜剧节目。

AI Applications and Demos

迈向超现实全息甲板（Holodecks）的进展：开发 Gaussian Splatting（一种使用 Gaussian Splats 而非三角形网格表示 3D 几何的技术）的研究人员取得了支持从任何角度快速渲染的新进展，使超现实全息甲板更接近现实。
由 Paul Trillo 委托制作的 AI 生成音乐视频：由 Paul Trillo 为 Washed Out 的歌曲《The Hardest Part》委托制作的 SORA 生成音乐视频，通过梦幻般的视觉效果和过渡展示了 AI 视频生成的现状。
AI 驱动的 CRISPR 工具创造了新的基因编辑能力：根据《Nature》的一篇文章，一个“用于 CRISPR 的 ChatGPT”创造了新的基因编辑工具，扩展了基因编辑的能力。
Jetbrains IDEs 现在使用本地 AI 模型进行代码建议：Jetbrains IDEs 现在使用具有 1.5K Token 上下文的本地 0.1B 模型进行单行代码建议，并通过预处理和后处理确保建议的实用性和正确性。
Panza：个性化 LLM 邮件助手：Panza 是一个个性化 LLM 邮件助手，可以在本地训练和运行，通过对用户的邮件历史进行微调来模仿其写作风格。它将微调后的 LLM 与检索增强生成（RAG）组件相结合。

AI 社会影响与担忧

人类现在与机器人平分网络流量：根据一份报告，人类现在与机器人平分网络流量，引发了对“死网（Dead Internet）”的担忧，因为 Twitter/X 等网站充斥着自动化账号。一些人预测这意味着用户生成内容聚合网站的终结。
数据中心需要巨大的电力：根据 Dominion Energy 的说法，数据中心现在需要相当于一个核反应堆的电力，凸显了大规模计算基础设施巨大的能源需求。
微软禁止警方使用人脸识别 AI：在对执法部门使用 AI 的伦理问题的持续关注中，微软已禁止美国警察部门使用其企业级 AI 工具进行人脸识别。

AI 研究与基准测试

初级研究人员在顶级 ML 会议中表现强劲：在 /r/MachineLearning 中提到，初级研究人员（本科生和早期博士生）在顶级 ML 会议上发表了许多论文，因为他们获得了大量的支持和指导。领导项目仍然是一项巨大的成就，表明他们具备出色的技能。
顶级 ML 会议中很少有论文是开创性的：同样在 /r/MachineLearning 中，一位研究人员估计他们自己被录用的工作虽然不错但影响力不高，更像是“墙上的一块砖”。像《Attention is All You Need》这样改变游戏规则的论文非常罕见。
分阶段发布数据集有助于检测基准测试污染：/r/MachineLearning 中的一个建议是，基准测试创建者应分阶段发布数据集，通过比较模型训练数据截止日期之前与之后发布的子集上的性能，来检测模型中的基准测试污染。
spRAG：用于复杂现实世界查询的开源 RAG 系统：spRAG 是一个开源的检索增强生成系统，旨在处理法律文件和财务报告等密集文本上的复杂现实世界查询。它在 FinanceBench 等具有挑战性的基准测试中优于 RAG 基准线。

AI Discord 摘要

摘要的摘要的摘要

1. 大语言模型 (LLM) 的进展与挑战

探索 LLM 能力：关于 LLaMA 3 实现 1040k 上下文长度、具有高级问答和 Function Calling 能力的 Hermes 2 Pro，以及 llm.c 达到 167K tokens/秒的讨论。然而，quantization 似乎会损害 LLaMA 3 的质量。
多语言和多模态 LLM：探索 LLM 如何处理 多语言输入，其中英语可能被用作枢轴语言。此外还讨论了多模态能力，如 Suno 的音乐生成 和 AI Vtubing。
LLM 基准测试与评估：对 基准测试数据集泄露 的担忧，以及对 新鲜基准测试问题 的建议。评估器 LLM Prometheus 2 的发布，旨在透明地评估其他 LLM。

2. AI 模型微调与优化策略

Unsloth AI 支持近乎全量微调：Unsloth AI 社区探索了通过将除 layernorms 之外的所有参数设置为可训练来实现近乎全量微调（near-full finetuning）的可能性，其性能优于标准的 Hugging Face 实现。讨论还涉及了用于优化的数据集格式化和非官方的全量微调策略。关键资源包括 Unsloth 的 Colab notebooks 和微调指南。
检索增强生成 (RAG)：关于构建 高效 RAG 数据栈 以及 LangChain 的 RAG 集成 以实现智能化应用的指南。讨论了 RAG 在 LlamaIndex 的内省型 Agent 中的作用。
优化训练流水线：Axolotl 改进了数据预处理的并行性。利用 DeepSpeed Stage 3 和 Flash Attention 进行高效的大模型训练。

3. 开源 AI 框架与库

LLM 部署解决方案：关于 LangChain Java 移植版、Dragonfly 集成，以及支持无代码模型训练的 AutoTrain 配置发布。
AI 开发框架：Modular 庆祝 Mojo 24.3 发布及社区贡献。GreenBitAI 推出了一套增强 PyTorch 的工具包，而 BitBlas 提供了快速的 gemv 内核。
开源 AI 项目：如 LM Studio 的 CLI 工具 ‘lms’、Mojo-pytest v24.3 支持、NuMojo 张量库以及 Prism CLI 更新 等发布，展示了社区驱动的开发。

4. AI 硬件加速与优化

GPU 优化技术：关于 Triton 的 gather 过程、CUDA streams 以及 llm.c 中的 融合分类器 (fused classifiers) 的讨论。探索 PyTorch AO 中的 FP6 支持。
专用硬件：对 瑞芯微 RK3588 单板计算机 (SBCs) 的关注，其显示 Whisper RKNN 性能提升了 250%。对 CHERI 安全功能 的好奇，该功能可实现快速的 IPC 并简化硬件设计。
Raspberry Pi 与嵌入式 AI：ai-raspberry-pi 频道引起了广泛关注，而 llama-farm 项目 旨在将本地 Ollama 实例连接到云端。

5. 杂项

LM Studio 推出 CLI 工具并修复 Bug：LM Studio 发布了 lms，这是一个用于管理本地 LLM、启动/停止服务器以及进行调试的新 CLI 工具。它需要 LM Studio 0.2.22+ 版本，并且已经在 GitHub 上开源。最新的更新还修复了一个导致整个上下文被包含在模型响应中的 Bug。用户们还探索了以 headless 模式运行 LM Studio 以及将其嵌入到可扩展的服务器解决方案中。
LLM 中的量化挑战与上下文扩展：量化对 LLaMA 3 性能的影响是一个热门话题，Reddit 上的讨论和研究论文都表明量化会导致显著的质量损失。与此同时，凭借 Crusoe Energy 的算力，LLama-3 8B 实现了超过 1040k 的上下文长度，而来自 AI21 Labs 的 Jamba-Instruct 也表达了对更大上下文窗口的兴趣。

第 1 部分：Discord 高层摘要

Unsloth AI (Daniel Han) Discord

LLM 微调的新前沿：社区成员讨论了使用 Unsloth 进行近乎全量微调（near-full finetuning）的可能性，探索将除 layernorms 之外的所有参数都设置为可训练的潜力。虽然 Unsloth 目前专注于解决 llama.cpp 和 GGUF 转换问题，特别是量化和加载 checkpoint shards 的挑战，但情感分析爱好者们也收到了关于如何格式化庞大数据库以适配 LLM 的建议。

实验性全量微调策略与数据集结构化：社区分享了在 Unsloth 上启用全量微调的非官方策略，展示了相对于标准 Hugging Face 实现更优的 loss 表现。讨论还深入探讨了用于优化的理想数据集结构，并提出了处理多个“被拒绝”（rejected）响应的策略。

Phi 3 在浏览器中运行，但 Llama 3 Discord 缺席：这里的一条推文展示了在 Web 浏览器中运行 Phi 3 的场景，而一位成员澄清说目前还没有专门为 Llama 3 开设的 Discord 频道。同时，在 Llama 3 中加入新角色引发了辩论，有人建议使用 type=code 作为 tool_call 的替代方案。

利用 Self-Discovery 和 Triton 的 TK-GEMM 适配 Llama 3：一位机智的用户应用了 Self-Discovery 论文中的技术来增强 ChatGPT 的推理能力。此外，一篇 PyTorch 博客文章强调了利用 Triton 的 FP8 GEMM 在 NVIDIA H100 GPU 上加速 Llama 3，这为优化提供了深刻见解。

量化困境与微调技巧：在将 Llama 3 转换为 GGUF 时出现了一些问题，影响了微调数据的完整性，将 Lora 与 GGUF 模型融合时也出现了类似问题。然而，理解微调和模型管理的路径正变得越来越清晰，资深社区成员建议参考 Unsloth 的 Colab 笔记本获取指导。

Stability.ai (Stable Diffusion) Discord

斜杠命令消失：工程师们观察到 Discord 命令中 /faq 命令神秘消失，引发了一波关于“只有在失去后才发现它存在感”的调侃。
显卡辩论：Nvidia vs. AMD：一个热门话题是在 Nvidia 的 4080 和 3090 GPU 与 AMD 的 7900xtx 之间做出选择，讨论集中在 VRAM 容量以及为了未来的适应性而等待 Nvidia 即将推出的 5000 系列的价值。
RTX 4080 的转换好奇心：有用户询问使用 RTX 4080 将视频利用 AI 转换为动漫风格的时间效率，成员们为此类任务寻求性能基准测试。
GPU 忠诚度分化：成员们激烈辩论了在 AI 应用中 Nvidia GPU 相对于 AMD 的优势，尽管 Nvidia 吹捧其全新的 Blackwell 架构，但一些 AMD 的拥趸根据他们的积极体验提出了支持意见。
增强之谜：文本与图像超分辨率 (Upscaling)：分享了多种 AI 辅助向图像添加文本和图像超分辨率的方法，包括使用 Davinci Resolve 处理文本，以及使用 ComfyUI 和 Harrlogos XL 等工具进行 Stable Diffusion 的自定义文本生成。

CUDA MODE Discord

对话中的梯度修饰：Discord 成员讨论了 PyTorch 中高级梯度技术，其中 create_graph=True 被用于获取更精细的梯度细节和 Hessian-vector products。提到了估计 Hessian 对角线的技术，利用随机性进行估算。

Triton 的尝试与胜利：工程师们面临了 Triton 中 IncompatibleTypeErrorImpl 的挑战，但在偶然发现 gather 函数问题后，通过 tl.cast 函数修复找到了慰藉。在 PyCharm 中使用 PyTorch 进行 Kernel 调试也证明存在问题，即使将 TRITON_INTERPRET 设置为 "1" 也是如此。

使用 tinygrad 进行修补：成员们分享了一个针对 tinygrad 的多 GPU 支持补丁，并支持 Nvidia 的开源驱动。GitHub 上出现了一个关于安装自定义 PyTorch 和 CUDA 扩展的正确方法的难题，通过参考 PyTorch AO 库 setup 过程中的示例来寻求清晰度。

催化社区贡献：GitHub 上的 Effort 项目因其具有影响力的结构而获得赞誉，同时介绍了 GreenBitAI 的工具包，这是一个增强 PyTorch 的 ML 框架。它包括创新的梯度计算方法，以及 bitblas 中备受关注的、可能对推理非常有用的 gemv kernel。

torch 的苦与乐：PyTorch 开发者辩论了构建策略和优化，从线性代数组件的构建时间到 kernel 性能。讨论了填充词表大小以在性能基准测试中公平竞争的想法，揭示了公平衡量所需的细微考量。

LLM 内部探秘：llm.c 项目通过 CUDA 优化技术达到了 167K tokens/second 的新效率。关于 CUDA streams、fused classifiers 以及在 scratch buffers 中战略性使用 atom 变量的关键讨论，凸显了浓厚的技术协作氛围。

开源情报：简要提到 Intel 现已添加到 PyTorch 网站，预示着潜在的集成或支持更新。

LM Studio Discord

CLI 加入 LM Studio 工具箱：LM Studio 发布了新的 CLI 工具 lms，旨在简化本地 LLM 的管理，包括加载和卸载模型以及启动或停止服务器。该 CLI 工具适用于最新的 LM Studio 0.2.22 及更高版本，鼓励用户为其开源 GitHub 仓库做出贡献。

Llama 的转换难题：LM Studio 公会的协作成功解决了 llama.cpp 的几个集成问题，使用了如 convert-hf-to-gguf 等脚本。一些用户遇到了 FileNotFoundError，通过 huggingface-cli 重新下载必要文件得以修复，社区也协助解决了转换执行问题。

模型性能与奇特现象：模型频道中的讨论揭示了使用 Goliath 120B Longlora 模型增强故事写作的努力，以及评估 LLAMA 3 等模型在长文本上召回能力的实验。一个奇特现象是 ChatQA 1.5 展示了意想不到的响应模板，而最新 LM Studio 0.2.22 中的一个 bug 促使发布了修正行为的新更新。

ROCm 的成长阵痛与胜利：成员们探索了最新 LM Studio 0.2.22 ROCm Preview 的功能，一些人测试了 RAM 和上下文大小的上限，另一些人则解决了 embedding 模型的问题。为 AMD ROCm 预览版和 Linux 支持引入的 lms CLI 引发了关于该工具潜力的热烈讨论，并得到了 headless 模式执行和 docker 化努力的支持。

服务器-客户端连接解锁：分享了配置技巧和修复方法，包括重新填充默认配置的简便方法，通过使用正确的 IP 地址解决从 WSL 访问 LM Studio 的问题，以及实现 Windows 和 WSL 环境之间应用程序的无缝通信，无需额外复杂操作。

Perplexity AI Discord

Beta 测试团集结：Pages Beta 测试人员的招募工作已圆满结束，团队对此表示感谢，并引导大家关注后续的开发进度更新。
浏览器困境与支付难题：有反馈指出 Perplexity 在 Safari 和 Brave 浏览器上无法正常运行的技术问题；同时，一名用户关于意外订阅扣费的咨询已被转至 support@perplexity.ai 寻求解决。语音命令功能的增强以及 Gemini 1.5 Pro 和 GPT-4 Turbo 等模型的用量限制是热门话题，此外，大家对新兴 AI 技术的进步也充满期待。
明智分享，共同进步：社区发出提醒，在 Discord 分享链接前需确保 Thread 已设为可共享，分享内容涵盖了从月球查询到 AI 音乐发现等广泛兴趣。对打印机隐私的担忧以及对 AI 生成内容的探索，凸显了该社区多元化的关注领域。
AI API 探索与准确性：讨论集中在如何通过精确的 Prompt 和 Prompt 优化技术有效利用 Sonar Large 模型。API 表现的不稳定性表明需要微调 frequency_penalty、temperature 和 top_p 等设置来提升响应质量，相关建议指向迁移至最新的 Sonar 模型以获得更高的准确性。

Nous Research AI Discord

Hermes 2 Pro 参战：近期发布的集成 LLaMA 权重的 Hermes 2 Pro 凭借其先进的 QA、Function Calling 和 JSON Mode 能力引起了轰动。它在移动设备上卓越的推理速度备受关注，相关支持材料已发布在 GitHub 和 Hugging Face。

ChatML 适配探讨：成员们正在剖析启用 ChatML 的调整方案，例如使用 Token 替换策略和修改 EOS 符号，不过关于这些修改的具体细节目前还较少。

World-sim 法典：围绕 world-sim 的热烈讨论指出了最近的更新和变化（如铁器时代的引入），并分享了关于意识和 AI 的资源，包括 YouTube 演讲链接。

数据集寻求者集结：成员们在启动挖掘序列前，询问了适用于 finetuning LLMs 的免费通用数据集，这在 #bittensor-finetune-subnet 和 #rag-dataset 频道引起了共同兴趣，但得到的回复有限。

LLama 打造角落：针对 llamacpp 的故障排除引出了使用 ollama 以避开直接处理 C 语言的建议，并推荐在 CPU 运行 LLM 的场景下采用 quantization 和 pruning 技术。对话还探讨了逆因果律 (retrocausality) 中“道德非交换性”的有趣概念及其心理影响。

Modular (Mojo 🔥) Discord

将 Mojo 带入命令行：用于 Mojo 的 prism CLI 工具包增加了新功能，如 persistent flags（持久化标志）、hooks 和 flag groups。更新内容已在项目的 GitHub 页面上展示。

测试驱动的 Mojo 开发：Mojo 的测试插件 mojo-pytest 现在支持最新的 24.3 版本。关于改进可调试性的问题正在 GitHub 上的 Issue #9 中进行跟踪。

NuMojo 超越竞争对手：旨在增强 Mojo 标准库 Tensor 功能的 NuMojo 项目已更新至 Mojo 24.3 版本，并在 Benchmark 中表现优于 NumPy 和 Numba。请在 GitHub 上查看 NuMojo 的进展。

学习 Mojo 的冒险：对于那些好奇如何将 Mojo 集成到工作流中的人，现在有一个新的教程 “Let’s mojo build -D your own -D version=1 app”。它旨在通过一系列工作流展示 Mojo 的能力，可以在 GitHub 上找到。

Nightly 版本保持 Mojo 的新鲜感：随着基础设施的改进，Mojo 的开发正以更频繁的 Nightly 版本（最终将实现每日发布）向前迈进。Nightly 变更日志（如引入 __source_location() 和改进 docstring 的灵活性）可以在 Modular Docs Changelog 中查阅。

最大化 MAX 的可扩展性：MAX 24.3 引入了全新的 MAX Engine Extensibility API，旨在完善 PyTorch、ONNX 和 Mojo 模型的集成。有关性能和硬件优化的详细信息请参阅 MAX Graph APIs。

OpenAI Discord

AI 就业市场轮盘赌：社区就 AI 领域高薪职位的转瞬即逝展开了幽默的辩论，并调侃了 AI CEO 甚至牙医等非传统职业路径的潜在盈利能力。

GPT-5 票价猜测站：关于 GPT-5 潜在定价策略的讨论不断，小组在 OpenAI 是会选择区域定价模型还是坚持统一价格点的问题上产生了分歧。

GPT-3 拥趸与聊天室的既视感：尽管 GPT-4 备受关注，成员们仍对 GPT-3 和 Codex 表示怀念，并对缺乏用于实时讨论的语音聊天室提出疑问，理由是出于对审核（moderation）的担忧。

GPT-4 的响应时间之谜：关于 GPT-4 响应时间慢于 GPT-3.5 的讨论，其中提到 gpt4 turbo 面临明显的延迟，这表明工程师们正在密切关注性能指标。

拨开 AI 研究的迷雾：讨论强调了公开可用的研究论文与对 OpenAI 发布完整训练的专有模型的非理性预期之间的区别，原因在于其计算需求和专有元素。

HuggingFace Discord

使用 Moondream 和 FluentlyXL 进行代码探索：社区贡献展示了用于批处理的 Moondream 2 和 FluentlyXL v4，以及 HF 音频课程的葡萄牙语翻译和用于 MPI 开发的新 MPI Codes 仓库。此外，还讨论了 LangChain 的智能提升（利用 RAG 增强 LangGraph Agent 以实现智能邮件草拟）以及 FinBERT 的金融情感微调。

Babel Fish 的大家族：多语言领域不断扩大，BLOOM 支持 55 种语言，同时还有关于改进 LLM 的研究，例如精选列表和用于文本生成中自动归因的 RARR 方法。成员们还热衷于使用 Ray 部署模型并评估精炼 Prompt 的质量指标。

Diffusion 模型混合学：在 Diffusion 讨论中，社区探索了合并 Pipeline 和部分 Diffusion (partial diffusion) 的技术，在 GitHub 上可以找到一个针对 SD 1.5 的显著的部分 Diffusion Pull Request。总的来说，高效且创新的模型合并策略备受关注。

模型微调技巧：讨论了微调模型的最佳实践，例如仅调整分类器权重和自定义训练循环，并参考了 HuggingFace 的 Transformers and Keras 详细指南。成员们还讨论了 Fluently-XL-v4 在 Instagram 上表现优于其他模型的视觉确认。

寻求 AI 导师和对话者：社区表示需要 Parquet 转换机器人以及更结构化的成员互助方式，例如可能的 #cv-study-group，同时分享了提升技能的知识和链接，如关于微调 AI 模型的 YouTube 视频以及对 Graph ML 对 LLM 影响的探索。

LlamaIndex Discord

RAG 技术栈构建：LlamaIndex 社区分享了关于创建高效 Data Stacks 和 RAG Pipelines 的资源，重点是提高查询精度。@tchutch94 和 @seldo 贡献了一份详细教程，可以在这里阅读；而 OpenAI assistant API v2 因其有效性受到称赞，但因单次查询成本高而被标记。
Airbnb 房源搜索跨越：Harshad Suryawanshi 发布了一个 RAG 应用指南，能够使用自然语言过滤 Airbnb 房源，并利用了 MistralAI 的 Mixtral 8x7b 工具。详细文档和仓库指南已在这里提供。
内省 Agent (Introspective Agents) 介绍：强调了 LlamaIndex 10.34 中的新内省功能，承诺实现能够迭代改进响应的自我反思 Agent，并计划未来与 Huggingface 集成。有人对内容敏感性提出了担忧，建议谨慎参考这里详细说明的实现。
金融中的 Pandas、MongoDB 之谜等：关于利用 Pandas Query Engine 进行金融应用、针对 LlamaIndex 查询微调 MongoDB、修复 llamacpp 死锁以及使用 Trulens 进行可观测性的对话正在进行中。一位成员指出 LlamaIndex 的内存使用量激增，表明迫切需要内存管理优化。
挑战与代码：社区见证了各种技术咨询请求，从构建金融分析应用到解决 llamacpp 并行请求中的潜在死锁。人们正在积极寻求特定 MongoDB 操作的替代方法，以及 LlamaIndex 内存问题的指导，并提供了额外的社区学习和支持链接。

Latent Space Discord

Suno 唱响新旋律：一位 AI-in-action-club 成员引发了关于 Suno 音乐生成能力的讨论，期待它是否能独立创作完整的音乐曲目，并重点关注其音频 Token 化（audio tokenizing）技术。
Mamba 深度对话：在 llm-paper-club-west 中，爱好者们正通过一份 Notion 深度研究报告（A Mamba Deep Dive）深入探讨 Mamba 的内部机制，并辩论其选择性召回（selective recall）和对过拟合（overfitting）的敏感性。
顶尖音频创新：AI-in-action-club 的讨论围绕使用 Autoencoders 和 Latent Diffusion 处理及生成音频展开，提到了对谐波失真的担忧，并引用了一篇关于 snake 激活函数（snake activation function）可能缓解此问题的博客。
释放 Gemini 的潜力：ai-general-chat 的一位用户正在寻找兼容 Gemini 1.5 的工具，但由于在长上下文（long contexts）方面表现更好，该用户表示更倾向于使用 Opus 或 Cursor。
SQLite 搜索的新维度：ai-general-chat 提到了一款名为 sqlite-vec 的新 SQLite 向量搜索扩展，这标志着数据库内向量搜索功能的改进迈出了一大步。

Eleuther Discord

LLM 在回答前先翻译：工程师们讨论了 Large Language Models (LLMs) 处理多语言输入时可能先将其转换为英语的问题，并引用了论文 “Understanding Language Models by Fine-grained Language Identification”。对于那些希望优化多语言 LLM 系统的人来说，这是一个重要的细节。

遗失的研究方向引发怀旧：一次关于被低估的机器学习领域的反思性交流，例如对抗鲁棒性（adversarial robustness）和特定领域建模（domain-specific modeling），这些领域因行业趋势的掩盖而备受冷落。这对该领域研究人员的职业路径具有深刻的启发意义。

基准测试泄露阴云：关于 LLM 基准测试数据集泄露（benchmark dataset leakage）的担忧引发了讨论，强调了衡量泄露及修复泄露的挑战。两篇论文——一篇关于泄露检测，另一篇提出了如新鲜基准问题等新方法——推动了这一讨论。

英语作为 LLM 的中转语言被证明有效：Llama 模型的研究结果表明，将英语作为中转语言（pivot language）是一种稳健的策略，可能提升跨模型泛化能力（cross-model generalizability）。这种复现为开发多语言 LLM 的人员增加了该方法的说服力。

语言模型梦想精通国际象棋：一项研究涉及仅在国际象棋对局上训练的 Transformer，在没有启发式算法的情况下实现了高性能，如 DeepMind 论文所述。这向对非传统模型应用感兴趣的 AI 工程师展示了大模型规模训练的潜力。

无需搜索的特级大师级国际象棋：讨论中提到了一项使用在 1000 万场国际象棋对局数据集上训练的 Transformer 模型的研究，证明了该模型在没有特定领域增强或显式搜索算法的情况下，依然具有极高的国际象棋水平。DeepMind 论文指出，大规模训练模型可以达到极具竞争力的竞技水平，而无需采用传统象棋引擎的方法。

OpenAccess AI Collective (axolotl) Discord

LLama-3 8B 展现实力：LLama-3 8B 成功将其上下文长度扩展至 1040k 以上，这主要得益于 Crusoe Energy 的算力支持，并结合了调整后的 RoPE theta，用于大型语言模型中的高级长上下文处理。
Axolotl 仓库实现优化：通过一个 PR 贡献了重大改进，解决了 orpo trainer 中的瓶颈，使其能够利用多个 worker 进行数据预处理，详见 GitHub PR #1583，这将提升 DPO、SFT 和 CPO 等各种训练配置的速度。
提示词设计演进与 llama.cpp 推理速度飞跃：提示词微调方面有了新见解，发现在系统提示词中包含 ChatML token 可以改善分词（tokenization），同时 llama.cpp 的升级使 Hermes 2 Pro Llama 3 8B 在 8GB RAM 的 Android 设备上的推理速度提升了 30%。
llama.cpp 的转换复杂性：有反馈提到将 SafeTensors 转换为 GGUF 时遇到困难，强调了 llama.cpp 脚本的局限性，即缺乏如 q4k 等广泛的转换选项。虽然探讨了解决方案并提供了转换脚本，但对扩展输出类型的需求依然存在。
DeepSpeed Stage 3 突破显存限制：ZeRO-3 优化不会影响模型质量，但需要仔细集成，并可能与 Flash Attention 协同进行微调。如果应用得当，这些技术可以提高训练速度并支持更大的 batch size，而无需复杂的并行化——相关经验已在 Axolotl 的 GitHub 上分享，并得到了 DeepSpeed 文档的证实。

OpenInterpreter Discord

文档难题已解决：Ollama、Jan.ai 和 Llamafile 的说明文档访问得到改进，提供了指向 Open Interpreter 本地安装指南的直接链接，重点介绍了 dolphin-mixtral 配置以简化设置流程。

Whisper RKNN 性能提升：正如 rbrisita 的 GitHub 分支所分享的，Whisper RKNN 在 Rockchip RK3588 SBC 上实现了显著的 250% 性能提升，并期待未来集成 LLM RKNN 功能。

AI Vtuber 进入开源领域：AI Vtuber 社区受益于两个新资源：GitHub 上的 AI Vtuber 入门套件，以及一个支持离线、无需 API 的 Vtuber 仓库，并在 YouTube 上展示了实时概念验证。

交互性扩展至移动端：分享了在服务器上托管 Open Interpreter 以实现更广泛访问以及设置移动端友好本地模型的见解，并链接到了特定的 Android 设备设置和本地运行 Open Interpreter 的方法。

扬声器选择的明智之选：目前正在为一个未命名的电子项目寻找最佳扬声器，承诺未来将根据集成和验证结果分享更多见解。

OpenRouter (Alex Atallah) Discord

OpenRouter 应对流量激增：OpenRouter 正在努力应对由于流量激增导致的高于常态的错误率，目前正在进行扩容工作，以缓解间歇性的连接问题。

资金动态：讨论了通过 Stripe 集成 WeChat Pay 和 Alipay 的提案，社区意识到这需要额外的文书工作；同时，也有人建议开发一个应用，利用 Google payment services 实现更顺畅的交易。

模型规模至关重要：AI 社区对 LLaMA-3 等下一代语言模型表现出浓厚兴趣，期待 Soliloquy 等实体可能发布的新作，同时也认识到专有模型带来的限制。

微调技巧：工程师们讨论了在没有指令数据集（instruct datasets）的情况下进行微调导致模型变笨的风险，一致认为混合新旧数据可能有助于防止灾难性遗忘（catastrophic forgetting）。

Gemini Pro 故障排除：分享了针对 Gemini Pro 消息问题的技术解决方案，例如以 “assistant” 角色开始 Prompt 以促进更好的交互。

AI Stack Devs (Yoko Li) Discord

StoryDiffusion 由 Angry Penguin 打造：StoryDiffusion 引起了关注，在 angry.penguin 分享链接后，成员们对其在 AI 叙事方面的潜力产生了浓厚兴趣。

AI Town 的问题与工具：ai-town-discuss 中出现的空消息和数字串干扰凸显了 tokenizer 的问题；同时，@TheoMediaAI 的 AI 模拟探索和 @cocktailpeanut 的 sqlite replay Web 应用（用于 AI Town）等资源也备受关注。

后端开发中的 Node 烦恼：错误的 Node 版本导致 convex-local-backend 的本地部署受阻；解决方法是切换到 Node v18。社区记录了一个关于安装过程中 .ts 扩展名导致 TypeError 的 issue。

Raspberry Pi 频道引起关注：一段深刻的思考和一位成员的认可表明，ai-raspberry-pi 频道满足了部分成员在小型硬件上进行 AI 开发的专业兴趣。

Cocktail Peanut 收到不明赞誉：一位神秘成员在讨论中赞扬了 cocktail peanut，但让社区对其所指的工作或突破感到好奇。

LAION Discord

SoundStream 遇到困难：一位 AI 工程师在实现 Google 的 SoundStream 时遇到问题，但其他人推荐了一个具体的解决方案——一个可能提供指导的 GitHub 仓库。
AI 艺术领域的分享精神：一位完成了 Stable Diffusion Udemy 课程的新人愿意与同伴分享，旨在建立联系并进一步磨练其在 AI 生成艺术方面的技能。
AI 社区调侃投资：在一个轻松的时刻，AI 爱好者们开起了投资策略的玩笑，幽默地表示更倾向于那些能让资金大幅翻倍或减半的服务。
模型训练中对 Prompt 遵循度的追求：讨论揭示了对于同时使用 T5 文本编码器和 CLIP 来提高模型训练中 Prompt 遵循度的有效性持怀疑态度，引发了关于 CLIP dropout 作用的惊讶和理论探讨。
回归基础，大并不总是更好：在 StableDiffusion 领域，由于硬件限制，重点正从构建更大的模型转向改进架构和在较小模型上进行训练。这突显了使用 CLIP 进行细致训练以避开嵌入偏见和约束的重要性。
数据集争论持续：一场关于数据集选择的激烈讨论显示，相比合成数据集，人们更倾向于使用 MNIST, CIFAR 或 ImageNet 等现实世界的数据集，以更好地展示模型的可解释性。
可解释性还是适用性？：对话中的怀疑论者争论为可解释性开发的方法是否也能有效地转化为解决现实世界的挑战，为讨论增添了一层实用性色彩。
神秘的新成员：StoryDiffusion 由一名公会成员带入视野，尽管没有进一步解释，让工程师们对其用途或重要性感到困惑。

LangChain AI Discord

黑客松预警：54 小时内构建 AI 产品赢取现金：BeeLoud 黑客松定于 5 月 10 日至 12 日举行，邀请参赛者在 54 小时内创造 AI 创新产品，奖金池高达 25,000 美元。更多详情请参阅 Build - BeeLoud。

LangChain 和 RAG 赋能邮件撰写：LangChain 的 LangGraph Agents 现在利用检索增强生成 (RAG) 来增强 AI 辅助的邮件草拟，承诺在效率和质量上都有所提升，详见 Medium 文章。

Java 开发者，来认识一下 LangChain：LangChain 的 Java 移植版 langchain4j 现已发布，扩展了在不同平台和语言中集成 AI 应用的范围。感兴趣的工程师可以在 GitHub 上探索 langchain4j。

Dragonfly 提升 LangChain 性能：通过将 Dragonfly 内存数据存储与 LangChain 集成，开发者可以期待聊天机器人性能和上下文管理的改进，其最新的博客文章中通过示例进行了说明。

Langserve 解密：针对 langserve feedback endpoint（反馈端点）进行了澄清，其中 “OK” 响应仅表示反馈已成功提交，但如果服务器认为其未经身份验证或无效，仍可能被拒绝。

Interconnects (Nathan Lambert) Discord

泄露模型引发混乱：讨论了一个可能来自 GDM 且具有 异常具体量化 的泄露模型，并引用了一条推文和暗示存在泄密的神秘 4chan 帖子。
Prometheus 2 崛起：在一篇研究论文中介绍的新语言模型 Prometheus 2 声称具有优于 GPT-4 的评估能力，引发了关于其功效和实用性的讨论。
高额奖金池让竞争升温：LMSYS 启动了一项 10 万美元的人类偏好预测竞赛，正如一条推文中提到的，该竞赛利用了来自 GPT-4 和 Mistral 等热门语言模型的对话。
PPO 与 REINFORCE 的联系：一项探索表明，在某些条件下，近端策略优化 (PPO) 可以简化为 REINFORCE 算法，这引发了持续的讨论，并分享了来自 OpenAI Spinning Up 文档的资源。
价值函数未公开的价值：关于为什么在 RLHF 训练后通常不发布价值函数的辩论，使得人们认识到尽管它们不是社区中的标准共享内容，但它们对于强化学习持有丰富的见解。

Cohere Discord

PDF 搜索系统曝光：一名成员提出了一个针对 大型 PDF 文档 的搜索系统，讨论了包括通过 LLM 进行文档摘要、生成用于语义搜索的 Embedding 以及基于 LLM 的关键信息索引等策略。

Llama 分词之谜揭晓：针对在配合 Command R+ 使用 llama-cpp-python 库 时是否需要 *字符串开头标记 ()* 提出了疑问，并观察到它在 Tokenization 过程中会被自动包含。

确认 Cohere 的 RAG 访问权限：回答了一位用户关于使用 免费 Cohere API 密钥进行 RAG 可行性的问题，确认了其可用性，尽管存在速率限制。

C4AI Command R+ 迎来量化：围绕 C4AI Command R+ 模型 展开了技术对话，重点关注其量化变体以及本地部署的不同系统要求。

Code Interpreter SDK 登场：关于发布 Code Interpreter SDK 的公告浮出水面，同时还讨论了它在现有技术背景下的区别。

Mozilla AI Discord

llamafile 迈向 Systemd：工程师们分享了一个用于在 Rocky Linux 9 上部署 llamafile 的 systemd 脚本，其中包括详细的执行命令以及服务器端口和模型路径等必要参数的配置。
服务模式 URL 改版：针对在服务模式下指定基础 URL 的需求，GitHub 上提出了一个关于 llamafile 代理支持的议题，这将有助于通过 Nginx 在子目录下提供服务。
Ein, Zwei, Whisper!：社区对 distil-whisper-large-v3-german 模型表现出浓厚兴趣，并讨论了其在语音转文本、LLM 处理和文本转语音流水线中的应用，最终可能会形成一篇详细的博客文章。
向量空间之谜：有人指出 llamafile 和 llama.cpp 之间的 Embedding 方向存在差异，较低的余弦相似度指向了 GitHub 上描述的一个问题，并已通过现有的 Python 脚本进行了测试。
与文件和代码对话：为了方便使用 llamafile 与文档和代码进行对话交互，成员们建议利用 curl API 调用，并参考了 llama.cpp 聊天脚本仓库中的示例脚本。

tinygrad (George Hotz) Discord

Tinygrad 取得长足进步并欢迎新贡献者：据报道，Tinygrad 最近取得了显著进展，一位成员庆祝了他们对该项目的 首次 commit，标志着一个个人里程碑。
Blobfile 在 Llama.py 中的作用解析：用户澄清了 blobfile 对于 examples/llama.py 中的 load_tiktoken_bpe 函数至关重要，增强了同行之间的理解。
排除 Tinygrad 前向传播故障：一位工程师在面对前向传播计算图挑战时，通过使用 out.item() 或 out.realize() 触发执行，并安装缺失的库以修复 NameError 解决了问题。
解决 Tinygrad 中的图形可视化问题：networkx 和 pydot 的安装错误分别通过安装 pydot 和 graphviz 得到解决，随后一位成员建议更新文档，以帮助他人避免 sh: dot: command not found 错误。
社区协作推动文档改进：通过安装 graphviz 解决 “dot 命令” 问题凸显了社区的协作精神，并促成了一个更新项目文档以帮助未来用户的实用建议。

AI21 Labs (Jamba) Discord

Jamba-Instruct 上线：AI21 Labs 推出了 Jamba-Instruct，这是一款先进的经过指令微调的混合 SSM-Transformer 模型，旨在提升商业应用的性能。该公司在最近的 Twitter 公告和详细的博客文章中强调了该模型的能力。

AI21 Labs 欢迎对 Jamba-Instruct 的反馈：AI21 Labs 正在征求行业对 Jamba-Instruct 的反馈，并表示愿意讨论定制需求，包括超过初始 256K 限制的上下文窗口。

深入了解 Jamba-Instruct：对 Jamba-Instruct 模型感兴趣的工程师可以通过阅读官方博客文章获得更深入的了解，文中讨论了其在可靠商业用途中的部署和质量基准。

更大的上下文窗口指日可待：一位 AI21 Labs 的工作人员表达了探索 Jamba-Instruct 更大上下文窗口的兴趣，并邀请用户就这一潜在扩展进行合作，以满足特定的使用场景。

Alignment Lab AI Discord

快速提醒：算力资助：AI 爱好者和工程师请注意，@PrimeIntellect 的一条推文宣布为有需要的人提供 快速算力资助 (fast compute grants)。查看其算力资助推文了解详情。

DiscoResearch Discord

LLaMA 3 的量化困境：频道内围绕 quantization 对 LLaMA 模型 的影响展开了讨论。一名 Discord 成员引用了 Reddit 讨论和研究论文，探讨了对 LLaMA 3 进行低比特量化时出现的性能损失。
忽视 Chinchilla 定律，性能受损：频道还探讨了由于忽视了 chinchilla scaling law 以及模型在 15T tokens 上进行训练，Meta 的 LLaMA 在进行大幅度量化时可能导致严重的信息丢失。这表明，随着精度降低，大型模型可能会经历更明显的退化。

Skunkworks AI Discord

Skunkworks AI 项目对接快速算力资助：根据一名成员分享的 Twitter 公告，雄心勃勃的 Skunkworks 项目 有可能获得快速算力资助。感兴趣的工程师应探索这一机会，以支持前沿计划。

Datasette - LLM (@SimonW) Discord

用 AI 清理本地模型堆：有人强调需要一种 LLM (large language model) 来解决管理和清理散落在各目录下的 7B local models 的问题，这些模型是由众多的应用和库产生的。成员对组织管理的混乱表达了沮丧，并建议这可能是工具或算法开发的一个潜在领域。

LLM Perf Enthusiasts AI Discord 没有新消息。如果该频道长时间保持沉默，请告知我们，我们将将其移除。

PART 2: 频道详细摘要与链接

Unsloth AI (Daniel Han) ▷ #general (734 messages🔥🔥🔥):

社区探索使用 Unsloth 进行全量微调 (Full Finetuning)：成员们就使用 Unsloth 进行全参数微调是否可行进行了详细讨论。尽管最初声称仅支持 LoRA（一种参数高效的训练方法），但一些人发现，将除 layernorms 之外的所有参数设置为可训练，似乎可以实现某种形式的近乎全量的微调。
GGUF 文件优化：Unsloth 团队宣布他们正在致力于修复 llama.cpp 和 GGUF (Generalized GPU Format) 转换的问题，以回应社区成员在量化和加载 checkpoint shards 时遇到的困难。
寻求情感分析模型指导：一名寻求帮助建立基于大规模国家级评论数据库的情感分析模型的成员，收到了关于将各种文档类型转换为适用于 LLMs 的正确格式的指导。
为数据集格式化和 ORPO 提供协助：成员们讨论了使用 Unsloth 为偏好优化（preference optimization）构建数据集的方法，包括针对多个“被拒绝（rejected）”响应的策略。社区提供了见解和可能的解决方案来帮助引导这一过程。
分享非官方全量微调策略：虽然 Unsloth 官方不提供对全量微调的支持，但社区成员通过手动调整模型参数尝试开启该功能。值得注意的是，与 Hugging Face 的实现相比，loss 似乎有所改善，且内存优势依然明显。

Links mentioned:

Google Colab: 未找到描述
Google Colab: 未找到描述
RomboDawg (@dudeman6790) 的推文: 如果你不想手动复制代码，这里有一个完整的 Colab 笔记本。再次感谢 @Teknium1 的建议 https://colab.research.google.com/drive/1bX4BsjLcdNJnoAf7lGXmWOgaY8yekg8p?usp=shar...
论文页面 - A Closer Look at the Limitations of Instruction Tuning: 未找到描述
maywell/Llama-3-70B-Instruct-32k · Hugging Face: 未找到描述
nvidia/Llama3-ChatQA-1.5-70B · Hugging Face: 未找到描述
nvidia/Llama3-ChatQA-1.5-8B · Hugging Face: 未找到描述
gradientai/Llama-3-8B-Instruct-262k · Hugging Face: 未找到描述
Lllama 70B Instruct QA Prompt: Lllama 70B Instruct QA Prompt。GitHub Gist：即时分享代码、笔记和片段。
AI Unplugged 9: Infini-Attention, ORPO, : 洞察胜于信息
GitHub - IBM/unitxt: 🦄 Unitxt: a python library for getting data fired up and set for training and evaluation: 🦄 Unitxt：一个用于启动数据并为训练和评估做好准备的 Python 库 - IBM/unitxt
主页: 微调 Llama 3, Mistral & Gemma LLM，速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
我如何为我的时事通讯微调 Llama 3：完整指南: 在今天的视频中，我将分享我如何利用我的时事通讯来微调 Llama 3 模型，以便使用创新的开源工具更好地起草未来的内容...
主页: 微调 Llama 3, Mistral & Gemma LLM，速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
如何微调 Llama 3 以获得更好的指令遵循能力？: 🚀 在今天的视频中，我很高兴能引导你完成微调 LLaMA 3 模型以实现最佳指令遵循的复杂过程！从设置开始...
jaime-m-p 提交的 llama3 自定义正则拆分 · Pull Request #6965 · ggerganov/llama.cpp: unicode_regex_split_custom_llama3() 的实现。

Unsloth AI (Daniel Han) ▷ #random (20 条消息🔥):

浏览器中的 Phi 3: 一条推文展示了有人在 Web 浏览器中运行 Phi 3，并特别标注了 “lmao”。该推文可以在这里找到。
LLAMA 3 Discord 频道不存在: 有人询问是否存在 LLAMA 3 Discord 频道，一名成员回复称该频道不存在。
在 LLAMA 3 中创建新角色: 提出了一个关于在 LLAMA 3 中添加新角色的问题，并链接到了一个 GitHub 仓库。回复建议使用 type=code 代替 tool_call 进行简单替换。
Self-Discovery 论文技术的应用: 一位用户发现强制 ChatGPT 记住 Self-Discovery 论文中的 39 个推理模块非常有用，并建议将其应用于复杂的推理任务。该论文可在这里查阅。
Triton 对 LLAMA 3 的加速: 来自 PyTorch 的一篇博客文章展示了 TK-GEMM，这是一个使用 Triton FP8 GEMM 的工具，可在 NVIDIA H100 GPU 上优化 LLAMA 3。该博客包含性能对比和技术细节，可在这里查看。

提及的链接:

使用 Triton 内核加速 Llama3 FP8 推理: 1.0 摘要
使用 Triton 内核加速 Llama3 FP8 推理: 1.0 摘要

Unsloth AI (Daniel Han) ▷ #help (580 条消息🔥🔥🔥):

已发现 Llama 3 的 GGUF 转换问题：一名成员指出，Llama 3 在转换为 GGUF 格式时会丢失微调数据。无论精度如何，该问题似乎在 GGUF 中普遍存在，已在 FP16 和 Q8 中进行了测试；与 Unsloth 的讨论以及社区的建议尚未解决此问题。
Lora 适配器合并问题：尝试将 Lora 适配器与 GGUF 模型合并导致微调部分丢失。尽管有建议在 GGUF 模型中使用独立的 Lora 适配器，但结果未达预期，且在结合使用 GGUF 和 Lora 时情况变得更糟。
分享 Llama 3 的推理和微调解决方案：用户分享了他们的微调策略，即在 Llama 3 中使用原始的 INSTRUCT 模型并在指令后附加 eos_token。有人指出，在向 /completion 发送请求时需要传递所有聊天 token，部分用户可能忽略了这一点；而使用 Llama 3 启动服务器时，需要为 tokenizer 设置 --override-kv。
Llama.cpp 对 Llama 3 可能存在的问题：鉴于 llama.cpp 的 issues 页面中列出的问题具有相似性，成员们怀疑 llama.cpp 与新发布的 Llama 3 之间可能存在兼容性问题。
寻求帮助并遵循路线图：新用户正在寻求微调 Gemma 和 Llama 等模型的逐步指导。更有经验的社区成员指向了 Unsloth 的 Llama 和 Gemma notebook，并建议在 YouTube 等平台上搜索 AI/ML 课程和教程。

提到的链接:

Google Colab: 未找到描述
Google Colab: 未找到描述
Orenguteng/Llama-3-8B-LexiFun-Uncensored-V1-GGUF · Hugging Face: 未找到描述
Google Colab: 未找到描述
Google Colab: 未找到描述
Google Colab: 未找到描述
Unsloth - 4倍更长的上下文窗口和1.7倍更大的批处理大小: Unsloth 现在支持对具有极长上下文窗口的 LLM 进行微调，在 H100 上最高可达 228K（Hugging Face + Flash Attention 2 为 58K，因此长了 4 倍），在 RTX 4090 上最高可达 56K（HF + FA2 为 14K）。我们成功实现了...
Meta Llama 3 | 模型卡片与提示词格式: Meta Llama 3 使用的特殊 Token。一个提示词应包含单个系统消息，可以包含多个交替的用户和助手消息，并且始终以最后一个用户消息结尾，后跟...
LoRA: 未找到描述
主页: 微调 Llama 3, Mistral & Gemma LLM 快 2-5 倍，且节省 80% 内存 - unslothai/unsloth
使用 LLAMAcpp 将 LLM 转换为在笔记本电脑上运行 - GGUF 量化: 你想在笔记本电脑以及手机、手表等微型设备上运行 LLM 吗？如果是这样，你需要对 LLM 进行量化。LLAMA.cpp 是一个开源的...
xaedes/llama.cpp 的 finetune-lora 分支下的 llama.cpp/examples/export-lora: Facebook LLaMA 模型的 C/C++ 移植版本。通过在 GitHub 上创建账号，为 xaedes/llama.cpp 的开发做出贡献。
从 LoRA 适配器创建 GGUF 模型 · ggerganov/llama.cpp · 讨论 #5360: 我有一个由 convert-lora-to-ggml.py 创建的 ggml 适配器模型 (ggml-adapter-model.bin)。现在我的疑问是如何从中创建完整的 GGUF 模型？我见过使用 ./main -m models/llama...
带有合并 LoRA 适配器的 Llama3 GGUF 转换似乎会随机丢失训练数据 · Issue #7062 · ggerganov/llama.cpp: 我正在运行 Unsloth 在 llama3-8b 上对 Instruct 模型进行 LoRA 微调。1：我将模型与 LoRA 适配器合并为 safetensors。2：在 Python 中直接使用合并后的模型运行推理...
GitHub - unslothai/unsloth: 微调 Llama 3, Mistral & Gemma LLM 快 2-5 倍，且节省 80% 内存: 微调 Llama 3, Mistral & Gemma LLM 快 2-5 倍，且节省 80% 内存 - unslothai/unsloth
GitHub - unslothai/unsloth: 微调 Llama 3, Mistral & Gemma LLM 快 2-5 倍，且节省 80% 内存: 微调 Llama 3, Mistral & Gemma LLM 快 2-5 倍，且节省 80% 内存 - unslothai/unsloth
无法将 llama3 8b 模型转换为 GGUF · Issue #7021 · ggerganov/llama.cpp: 请包含有关您的系统信息、重现错误的步骤以及您正在使用的 llama.cpp 版本。如果可能，请提供一个重现该问题的最小代码示例...
jaime-m-p 提交的 llama3 自定义正则拆分 · Pull Request #6965 · ggerganov/llama.cpp: unicode_regex_split_custom_llama3() 的实现。

Unsloth AI (Daniel Han) ▷ #showcase (162 条消息🔥🔥):

频道协作难题：一名成员询问是否可以创建一个用于协作和共同编码的频道，特别是针对那些有兴趣在深夜或周末寻找合作伙伴的用户。这个想法被拿来与 EleutherAI 的社区项目频道进行比较，并有人建议重新利用或替换现有频道（例如搁置 <#1180145007261401178> 以支持新的社区项目频道）以促进协作。
专业化的障碍：一场关于将 7B 模型专业化以处理复杂任务（如加密证明生成）可行性的讨论展开了。多位用户发表了看法，一致认为对于小型 LLM (7B) 来说，此类任务可能过于雄心勃勃。有人建议，虽然在高度专业化的用例中，较小的模型可以优于较大的模型，但它们通常无法与 GPT-4 或 Claude 等大型模型相提并论。
数据与算力考量：讨论还涉及了 LLM 训练中数据规模和质量的重要性，一名成员就如何有效利用其资源（包括 32 个 H100 GPU）寻求建议。会议强调，模型大小和数据准备是实现高性能的关键因素，而成功的关键取决于具体案例。
通过社区经验展示与学习：Drsharma24 表达了从社区经验中学习的愿望，并希望建立一个空间来讨论围绕 fine-tuning 和模型训练的成功案例及策略，类似于 Hugging Face 平台。对话强调，Unsloth AI 社区可以从这种知识共享中受益。
商业可行性 vs. 纯粹实验：聊天触及了开发商业用例与从模型训练中实验和学习之间的区别。一名成员建议，商业用例需要能够充分反映生产环境的训练数据，而其他人则强调了牢记最终目标的重要性。

提到的链接：Dog Awkward GIF - Dog Awkward Awkward dog - Discover & Share GIFs：点击查看 GIF

Stability.ai (Stable Diffusion) ▷ #general-chat (753 messages🔥🔥🔥):

FAQ 从 Discord 命令中消失：用户注意到 /faq 命令缺失，并思考其被移除的原因。事实证明该命令确实消失了，导致成员们在与机器人交互后才意识到它的缺席并开起了玩笑。
辩论 AI 的 GPU 选择：参与者讨论了各种 GPU 选项，如 Nvidia 的 4080 和 3090，AMD 的 7900xtx，考虑了 VRAM 大小和前瞻性。Nvidia 5000 系列 GPU 的发布备受期待，促使用户建议等待新系列，而不是投资于即将过时的显卡。
视频转动漫咨询：一名成员询问了使用 RTX 4080 将视频转换为动漫风格素材所需的时间，并寻求有关使用 AI 进行视频转换的 benchmarks。
AMD 与 Nvidia 在 AI 领域的观点碰撞：关于在 AI 任务中选择 AMD 还是 Nvidia GPU 的讨论变得激烈。虽然一些人主张 Nvidia 的优越性，特别是凭借 Blackwell 架构等新技术，但一位用户根据个人对该品牌的成功使用经验为 AMD 辩护。
寻求文本和图像 Upscaling 的解决方案：用户讨论了使用 AI 为图像添加文本的最佳路径，并询问了图像 upscaling 的最佳方法。虽然建议使用 Davinci Resolve 和 Kittl 等工具处理文本，但关于图像 upscaling 工具的讨论中穿插着对 ComfyUI 的提及，这是一个用于 AI 图像处理的多功能平台。

Links mentioned:

ComfyUI Examples: ComfyUI 工作流示例
gemasai/4x_NMKD-Siax_200k at main: 未找到描述
ESRGAN/4x_NMKD-Siax_200k.pth · uwg/upscaler at main: 未找到描述
no title found: 未找到描述
Reddit - Dive into anything: 未找到描述
Harrlogos XL - Finally, custom text generation in SD! - Harrlogos_v2.0 | Stable Diffusion LoRA | Civitai: 🚀HarrlogosXL - 为 SDXL 带来自定义文本生成！逐步教会 Stable Diffusion 拼写，一次一个 LoRA！Harrlogos 是一个经过训练的 SDXL LoRA ...
Reddit - Dive into anything: 未找到描述
GitHub - ComfyWorkflows/ComfyUI-Launcher: Run any ComfyUI workflow w/ ZERO setup.: 零配置运行任何 ComfyUI 工作流。通过在 GitHub 上创建账户为 ComfyWorkflows/ComfyUI-Launcher 的开发做出贡献。
GitHub - crystian/ComfyUI-Crystools: A powerful set of tools for ComfyUI: 一套强大的 ComfyUI 工具。通过在 GitHub 上创建账户为 crystian/ComfyUI-Crystools 的开发做出贡献。
Reddit - Dive into anything: 未找到描述
Reddit - Dive into anything: 未找到描述

CUDA MODE ▷ #general (3 条消息):

处理梯度细节：一位成员指出，在计算中为了获取某些梯度细节，可能需要设置 create_graph=True。
澄清 Hessian 混淆：同一位成员随后澄清了他们的想法，重点不在于对角线，而是在于计算两次相对于权重的 Hessian-vector product。
通过随机性估计 Hessian 对角线：另一位成员提到在论文中看到一个技巧，可以利用随机性结合 Hessian-vector product 来估计 Hessian 的对角线。

CUDA MODE ▷ #triton (2 条消息):

Triton 新手的 Gather 过程受阻：一位新成员在 Triton 中实现简单的 gather 过程时遇到了 IncompatibleTypeErrorImpl，他们尝试使用指针算术将值从一个 Tensor 复制到另一个 Tensor。后来他们意识到问题涉及使用了错误的 Tensor 类型，并注意到新引入的 tl.cast 函数可能是一个解决方案（Triton PR #3813）。
PyCharm 中的 Kernel 调试挑战：同一位成员在 PyCharm 中尝试在 Triton kernel 内部设置断点时遇到困难，尽管按照仓库文档建议将 TRITON_INTERPRET 设置为 "1"，且使用 breakpoint() 函数也未成功。

提到的链接：[Frontend] Add tl.cast function. by jlebar · Pull Request #3813 · openai/triton：这解决了 Triton 中的一个不一致问题，即 Tensor 上的每个其他函数都有一个关联的自由函数（free function）——即你可以执行 x.foo 和 tl.foo(x)。

CUDA MODE ▷ #cuda (6 条消息):

tinygrad 获得 NVIDIA Open Driver 补丁：一位成员分享了一个用于 NVIDIA 开源驱动多 GPU 支持的 tinygrad 补丁，并提供了可能对遇到类似安装问题的其他人有用的文档。
长期支持的内核模块考量：NVIDIA 显卡上点对点（peer-to-peer）内存修复的长期支持受到质疑，引发了关于创建内核模块是否为可行解决方案的讨论。
关于自定义 CUDA 扩展安装的咨询：一位成员寻求关于在 setup.py 文件中安装自定义 PyTorch/CUDA 扩展的正确方法的建议，并指出了现有方法的问题，具体见其 GitHub 仓库。
分享 PyTorch 中 CUDA 扩展设置的解决方案：另一位成员通过链接到 Pull Request 提供了帮助，这些 PR 展示了如何在 PyTorch AO 库中管理自定义 CUDA 扩展。他们提供了关于 setup 流程及相关 PR（PR#135, PR#186, PR#176）的详细链接。

提及的链接：

hqq/setup.py at master · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
ao/setup.py at 0ba0006eb704dea33becec82b3f34512fe8a6dff · pytorch/ao: 用于量化和稀疏化的原生 PyTorch 库 - pytorch/ao
Custom CUDA extensions by msaroufim · Pull Request #135 · pytorch/ao: 这是 #130 的可合并版本 - 我必须进行一些更新，包括添加除非使用 PyTorch 2.4+ 否则跳过测试，以及如果 CUDA 不可用则跳过测试，将 ninja 添加到开发依赖项中...
louder warning + docs for custom cuda extensions by msaroufim · Pull Request #186 · pytorch/ao: 未找到描述
Add A10G support in CI by msaroufim · Pull Request #176 · pytorch/ao: 支持 A10G + manylinux，以便 CUDA 扩展能在尽可能多的系统上运行

CUDA MODE ▷ #torch (43 条消息🔥):

PyTorch PR 的痛苦：贡献者 kashimoo 对 PyTorch 中线性代数组件缓慢的构建时间表示沮丧，此外另一个 PR 由于 Meta 内部构建问题而被撤销。chhillee 确认由于 PyTorch 的“GitHub 优先”策略，此类挫折很常见，并提议将 kashimoo 与 Slack 频道上更资深的贡献者联系起来。
PyTorch 开发的调试符号：kashimoo 询问如何构建带有调试符号的特定目录以方便使用 gdb。虽然 chhillee 建议使用 PyTorch 开发论坛上的可用脚本，但 kashimoo 认为这可能不足以满足其需求。
PyTorch 中的动态编译挑战：benjamin_w 报告了在 PyTorch 2.3 中将 dynamic=True 与 torch.compile(...) 及 Distributed Data Parallel (DDP) 结合使用时的问题。虽然该方法在 PyTorch 2.2.2 中有效，但在 2.3 版本中似乎会导致每个 batch 都重新编译。marksaroufim 建议不要使用 dynamic=True，而是建议手动将序列长度标记为动态。
改进 CUDA MODE Discord 的 Issue 分流：marksaroufim 等人讨论了处理服务器上日益增多的 issue 的方法，提出了一个解析并自动在 GitHub 上提交 issue 的机器人想法，jamesmel 表示愿意实现该机器人。目前决定先在 cuda mode 中开启 issue 以管理涌入的信息。
针对可变长度的 Torch Compile 优化：故障排除仍在继续，benjamin_w 在 PyTorch 2.2 和 2.3 中针对动态序列长度使用 torch._dynamo.mark_dynamic(inputs, index=1) 时遇到了 ConstraintViolationError。他们更倾向于在多个 batch 间保持持久的模型编译，但遇到了不稳定的行为。marksaroufim 建议创建一个 GitHub issue 是解决该问题的最佳方式。

提及的链接：

如何获取快速的 debug 构建：随着 albanD 的 Pull Request #111748 被合并到 pytorch/pytorch，现在可以使用一个新的编译标志来指定 debug 信息...
torch.compile — PyTorch 2.3 文档：未找到描述
未找到标题：未找到描述

CUDA MODE ▷ #algorithms (5 条消息):

对 Effort 项目表示赞赏：一位成员称赞了 GitHub 上的 Effort 项目，认为它非常令人惊叹。
矩阵乘法混淆：有人指出一个矩阵乘法示例中的错误，指出 3 x 1 和 3 x 3 矩阵的内部维度不匹配，无法进行运算。
承诺快速修正：作者承认了关于向量方向的混淆，并表示打算进行修正，并提到之前也曾被指出过类似的错误。

CUDA MODE ▷ #cool-links (4 条消息):

避免灾难性遗忘：一位成员发现 Ziming Liu 的推文很有趣，该推文展示了如何在玩具测试用例中避免灾难性遗忘。
寻求速度：有人指出灾难性遗忘的解决方案“目前非常慢”，从而引发了对提高其速度的潜在方法的关注。

CUDA MODE ▷ #torchao (2 条消息):

自定义 CUDA 扩展的 FP6 支持候选：根据 PyTorch AO 仓库中的 GitHub issue 讨论，已确定自定义 CUDA 扩展的新候选——FP6 支持。并向任何有兴趣为该扩展做出贡献的人发出了邀请。
社区成员对 FP6 表现出兴趣：尽管缺乏经验，一位社区成员仍表达了为新的 FP6 支持项目做贡献的热情，目前正在努力理解相关的研究论文，以确定他们可以在哪些方面做出实际贡献。

提到的链接：

pyto - 概览：pyto 有 2 个可用的仓库。在 GitHub 上关注他们的代码。
FP6 dtype! · Issue #208 · pytorch/ao：🚀 功能、动机和提案 https://arxiv.org/abs/2401.14112 我想你们一定会喜欢这个。DeepSpeed 开发者在不支持 FP8 的显卡上引入了 FP6 数据类型，其中.....

CUDA MODE ▷ #off-topic (9 条消息🔥):

寻求 Karpathy 的视频设置建议：一位成员询问如何实现类似于 Andrej Karpathy 的视频设置，包括实时屏幕共享和小摄像头视图。他们收到了 Karpathy 的一段 YouTube 视频链接作为参考。
OBS Streamlabs：视频制作的首选：针对简单视频设置的咨询，有人建议使用 OBS Streamlabs。社区成员提到，这个多功能工具有很多教程可供参考。
使用 iPhone 和支架提升视频质量：为了获得更好的视频通话或录制效果，建议将 iPhone 与 Mac 配合使用，以获得优于典型笔记本设备的摄像头和麦克风质量，并推荐了 KDD 网络摄像头支架作为实用配件。
动漫欣赏间歇：一位成员表达了对动漫偏好的好奇，引发了简短的交流，其中《火影忍者》、《一拳超人》、《剑风传奇》和《咒术回战 (JJK)》因其高质量的动画和迷人的战斗场面而被提及。

提到的链接：让我们构建 GPT Tokenizer：Tokenizer 是大语言模型 (LLM) 中必要且普遍存在的组件，它在字符串和 Token（文本块）之间进行转换。Tokenizer…

CUDA MODE ▷ #triton-puzzles (1 条消息):

srush1301: 嗯，是的，这个描述是错误的。我会更新一个更清晰的版本。

CUDA MODE ▷ #hqq (4 messages):

GreenBitAI 推出新工具包：一位成员分享了 GreenBitAI 工具包的链接，该工具包用于微调、推理和评估 Large Language Models (LLMs)。他将其描述为一个增强 PyTorch 的 ML framework，相比专注于矩阵乘法操作的 bitblas，它的功能更为全面。
BitBlas 为推理提供了一个极具前景的 Kernel：提到了一个名为 BitBlas 的工具包，它拥有一个用于 2-bit 操作的快速 gemv kernel，这可能对推理非常有益，尽管该成员尚未进行尝试。
GreenBitAI 引擎中的 Binary Matmul：讨论继续提到了 GreenBitAI 的 cutlass kernels，特别是其中执行二进制矩阵乘法（binary matrix multiplication）的部分，这是其增强 PyTorch 工具包的一部分。
GreenBitAI 工具包中值得注意的创新梯度计算：一位成员强调，GreenBitAI 的工具包包含了在训练期间计算权重梯度的代码，如其 q4_layer.py 文件所示。由于梯度未被打包（not packed），他对潜在的 VRAM 占用表示好奇。

提及的链接：

bitorch-engine/bitorch_engine/layers/qlinear/nbit/cutlass/q4_layer.py at main · GreenBitAI/bitorch-engine：一个通过低比特量化神经网络专用函数增强 PyTorch 的工具包。 - GreenBitAI/bitorch-engine
GitHub - GreenBitAI/green-bit-llm: A toolkit for fine-tuning, inferencing, and evaluating GreenBitAI's LLMs.：用于微调、推理和评估 GreenBitAI LLM 的工具包。 - GreenBitAI/green-bit-llm
bitorch-engine/bitorch_engine/layers/qlinear/binary/cutlass/binary_linear_cutlass.cpp at main · GreenBitAI/bitorch-engine：一个通过低比特量化神经网络专用函数增强 PyTorch 的工具包。 - GreenBitAI/bitorch-engine

CUDA MODE ▷ #llmdotc (644 messages🔥🔥🔥):

CUDA 与内存优化讨论：团队通过优化 CUDA kernels 并引入 CUDA streams 和 fused classifiers 等改进，实现了 167K tokens/second 的性能，超越了 PyTorch 的 150K tok/s。他们正在讨论 bias kernel 优化的影响以及进一步提升性能的后续步骤。参见相关的讨论和 pull request。
Scratch Buffers 与 Atom 变量：他们引入了 scratch buffers 以更高效地处理 atom 变量。建议在 scratch buffer 上使用 fp32 atomics，然后读取并舍入/写入（round/write）到 bf16，以避免在全局内存中使用缓慢的 fp32 atomics。
分析脚本（Profiling Script）更新：分析脚本已更新，提高了针对 CUDA 库更新的鲁棒性，并将 NVIDIA kernel 耗时与 llm.c kernel 耗时进行了分离。脚本更改记录在此 pull request 中。
PyTorch Padding：关于对 PyTorch 的词表大小（vocabulary size）进行填充（padding）以进行公平性能比较存在争论，大家承认这并不简单，涉及确保填充的维度不会在 loss 计算或采样过程中被使用。
Layernorm 与残差计算：对话涉及为了稳定性和性能增益，将 layernorm 的方差（variance）和均值（mean）保存为 fp32，尽管由于代码简洁性考虑以及激活值使用了 bf16 类型，这尚未在 llm.c 中实现。

提及的链接：

torch.use_deterministic_algorithms — PyTorch 2.3 documentation: 未找到描述
The Power of 10: Rules for Developing Safety-Critical Code - Wikipedia: 未找到描述
Group Calls — NCCL 2.21.5 documentation: 未找到描述
LLM.c Speed of Light & Beyond (A100 Performance Analysis) · karpathy/llm.c · Discussion #331: 在我昨天的 cuDNN Flash Attention 实现集成之后，我花了一些时间进行 profiling，并试图弄清楚在短期/中期内我们还能在多大程度上提高性能，同时也...
3 Strategies for FlashAttention Backwards: 未找到描述
State of the Union [May 3, 2024] · karpathy/llm.c · Discussion #344: [2024年5月3日] 这是 llm.c 项目的第 24 天。我们现在可以进行 multi-GPU 训练，使用 bfloat16 和 Flash Attention，而且速度非常快！🚀 单 GPU 训练方面，我们现在训练 GPT-2 (124M) 的速度更快了...
v1 of the new matmul backward bias kernel by karpathy · Pull Request #335 · karpathy/llm.c: 未找到描述
ugh didn't notice this tiny rebasing mistake, introduced a bug. good … · karpathy/llm.c@6ebef46: …CI 的一个很好的候选方案，即我们可以在 train_gpt2.cu 脚本中过拟合单个 batch，并获得与 test_gpt2.cu 文件中预期的完全相同的数值。
Added FlameGraphs for nsys reports and some nsys documentation by PeterZhizhin · Pull Request #333 · karpathy/llm.c: 这是一个 FlameGraph 示例。在我的机器上捕获。
GPU auto-detect capability for kernel builds by rosslwheeler · Pull Request #341 · karpathy/llm.c: 对 CI 的修复 - 应该在两种环境中都能工作。如果对 kernel 构建感兴趣，这是一个提议。用法：自动检测 GPU 能力：make（例如，如果你的 GPU 能力类型是 80，那么 --...
llm.c/dev/cuda/layernorm_backward.cu at 2c7960040d1d86b6c03a72ef8b32df084e899570 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
Update residual_forward to use packed input by JaneIllario · Pull Request #299 · karpathy/llm.c: 更新 residual_forward 以使用 128 位 packed 输入，配合 floatX。之前的 Kernel：block_size 32 | 时间 0.1498 ms | 带宽 503.99 GB/s；block_size 64 | 时间 0.0760 ms | 带宽 993.32 GB/s...
GELU Fusion with cuBLASLt (SLOWER because it only merges in FP16 mode, not BF16/FP32...) by ademeure · Pull Request #338 · karpathy/llm.c: 事实证明，cuBLASLt 不仅无法将 BF16 GELU（或 RELU）融合进 BF16 matmul，它最终得到的奇怪 kernel 甚至比我们自己的 GELU kernel 还要慢，因为它每次会执行 2 次写入...
fixed activation gradient resetting for backward pass by ngc92 · Pull Request #342 · karpathy/llm.c: 此外，我们不需要在 zero_grad 中触碰其他 buffer，这些 buffer 在 backward 过程中无论如何都会被多次覆盖。
The TensorFlow Open Source Project on Open Hub: 未找到描述
Performance: matmul_bias, cuda streams, fused_classifier (+remove cooperative groups) by ademeure · Pull Request #343 · karpathy/llm.c: 我可能需要将其拆分为多个 PR，请告诉我你的想法（我仍需将新的 kernel 添加到 /dev/cuda/）。主要变更：新的超优化 matmul_backward_bias_kernel6 CU...
resolve merge and small fixes · karpathy/llm.c@79505bc: 未找到描述
Update residual_forward to use packe d input by JaneIllario · Pull Request #299 · karpathy/llm.c</a>: 更新 residual_forward 以使用 128 bit packed input，配合 floatX。前一个 Kernel：block_size 32 | time 0.1498 ms | bandwidth 503.99 GB/s block_size 64 | time 0.0760 ms | bandwidth 993.32 GB/s b...
fixes to keep master copy in fp32 of weights optionally · karpathy/llm.c@795f8b6: 未找到描述
computation overlapped with nccl get much slower · Issue #338 · NVIDIA/nccl: 我使用了来自 https://github.com/NVIDIA/DeepLearningExamples/tree/master/MxNet/Classification/RN50v1.5 的环境，通过多 GPU（使用 horovod 和 nccl）训练 resnet-50，发现 d...
computation overlapped with nccl get much slower · Issue #338 · NVIDIA/nccl: 我使用了来自 https://github.com/NVIDIA/DeepLearningExamples/tree/master/MxNet/Classification/RN50v1.5 的环境，通过多 GPU（使用 horovod 和 nccl）训练 resnet-50，发现 d...
Updated adamw to use packed data types by ChrisDryden · Pull Request #303 · karpathy/llm.c: 运行前总平均迭代时间：38.547570 ms；运行后总平均迭代时间：37.901735 ms。Kernel 开发文件规格：在当前测试套件下几乎察觉不到：运行前...
CUDA Pro Tip: The Fast Way to Query Device Properties | NVIDIA Technical Blog: CUDA 应用程序通常需要知道每个 block 的最大可用 shared memory，或查询活动 GPU 中的 multiprocessors 数量。一种方法是调用... 不幸的是…

提及的链接：

未找到标题: 未找到描述
👾 LM Studio - 发现并运行本地 LLMs: 查找、下载并实验本地 LLMs
LM Studio Beta 版本发布: 未找到描述
Pout Christian Bale GIF - Pout Christian Bale American Psycho - 发现并分享 GIF: 点击查看 GIF
Squidward Oh No Hes Hot GIF - Squidward Oh No Hes Hot Shaking - 发现并分享 GIF: 点击查看 GIF
介绍 `lms` - LM Studio 的配套 CLI 工具 | LM Studio: 今天，随着 LM Studio 0.2.22 的发布，我们推出了第一个版本的 lms —— LM Studio 的配套 CLI 工具。
elija@mx:~$ xvfb-run ./LM_Studio-0.2.22.AppImage: 20:29:24.712 › GPU 信息: '1c:00.0 VGA compatible controller: NVIDIA Corporation G A104 [GeForce RTX 3060 Ti] (rev a1)' 20:29:24.721 › 获取 GPU 类型: nvidia 20:29:24.722 › LM Studio: gpu type = NVIDIA 2...
Release b2775 · ggerganov/llama.cpp: 未找到描述
GitHub - lmstudio-ai/lms: 终端里的 LM Studio: 终端里的 LM Studio。通过在 GitHub 上创建账号来为 lmstudio-ai/lms 的开发做出贡献。
GitHub - lmstudio-ai/lms: 终端里的 LM Studio: 终端里的 LM Studio。通过在 GitHub 上创建账号来为 lmstudio-ai/lms 的开发做出贡献。
GitHub - lmstudio-ai/lms: 终端里的 LM Studio: 终端里的 LM Studio。通过在 GitHub 上创建账号来为 lmstudio-ai/lms 的开发做出贡献。
在 GGML/GGUF 上启用 Flash Attention（该功能现已合并至 llama.cpp） · Issue #4051 · ollama/ollama: Flash Attention 已在 llama.cpp 中落地 (ggerganov/llama.cpp#5021)。简而言之，只需向 llama.cpp 的服务器传递 -fa 标志。我们是否可以为 Ollama 服务器提供一个环境变量来传递此标志 ...

提及的链接:

GoldenSun3DS 未领取的 Humblebundle 游戏：在 Imgur 发现互联网的魔力，这是一个由社区驱动的娱乐目的地。通过有趣的笑话、流行迷因、有趣的 gif、鼓舞人心的故事、病毒式视频等来振奋你的精神...
我退出，不，谢谢 GIF - 我退出，不，谢谢 Bugs Bunny - 发现并分享 GIF：点击查看 GIF
Daleks Exterminate GIF - Daleks Exterminate Doctor Who - 发现并分享 GIF：点击查看 GIF
mradermacher/Goliath-longLORA-120b-rope8-32k-fp16-GGUF · Hugging Face：未找到描述
高质量故事写作类型：第三人称：未找到描述
LLM In-Context Learning 大师课，特邀我的 (r/reddit) AI Agent：LLM In-Context Learning 大师课，特邀我的 (r/reddit) AI Agent👊 成为会员并获取 GitHub 和代码访问权限：https://www.youtube.com/c/AllAboutAI/join...
GitHub - rugg0064/llm-bible-bench: 一个针对大语言模型及其对圣经经文召回能力的简单测试：一个针对大语言模型及其对圣经经文召回能力的简单测试 - rugg0064/llm-bible-bench
rugg0064 - 概览：全栈 Web 开发人员，有时间时会开发一些小项目。 - rugg0064
Reddit - 深入探索一切：未找到描述
高质量故事写作类型：第一人称：未找到描述

提到的链接：

👾 LM Studio - 发现并运行本地 LLM：查找、下载并实验本地 LLM
GitHub - lmstudio-ai/lms: 终端里的 LM Studio：终端里的 LM Studio。通过在 GitHub 上创建账号来为 lmstudio-ai/lms 的开发做出贡献。

提到的链接：

Issues · lmstudio-ai/lms：终端里的 LM Studio。通过在 GitHub 上创建账号为 lmstudio-ai/lms 的开发做出贡献。
BUG: 通过 CLI 加载模型时忽略配置预设中的 "n_gpu_layers" 参数 · Issue #6 · lmstudio-ai/lms：我在选定为默认的模型预设中设置了 "n_gpu_layers": -1。然而，当我使用 cli 加载该模型时 lms load --identifier llama3-8b-8k >> select model ...
configs/schema.json at main · lmstudio-ai/configs：LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs

提到的链接：

👾 LM Studio - 发现并运行本地 LLMs：查找、下载并实验本地 LLM
Oil GIF - Oil - 发现并分享 GIFs：点击查看 GIF
未找到标题：未找到描述
GitHub - lmstudio-ai/lms: 终端中的 LM Studio：终端中的 LM Studio。通过在 GitHub 上创建账户，为 lmstudio-ai/lms 的开发做出贡献。
ggml : 由 ggerganov 添加 Flash Attention · Pull Request #5021 · ggerganov/llama.cpp：参考 #3365 设置 ggml 和 llama.cpp 中支持 Flash Attention 所需的内容。提议的操作执行：// new res = ggml_flash_attn(ctx, q, k, v, kq_mask, kq_scale); // fused scale ...

提到的链接：

来自 LM Studio (@LMStudioAI) 的推文：介绍 lms —— LM Studio 的伴侣 CLI 😎 ✨ 加载/卸载 LLM，启动/停止本地服务器 📖 使用 lms log stream 调试你的工作流 🛠️ 运行 `npx lmstudio install-cli` 来安装 lms 🏡 ...
未找到标题：未找到描述
Qawe Asd GIF - Qawe Asd - 发现并分享 GIFs：点击查看 GIF
GitHub - lmstudio-ai/lms: 终端中的 LM Studio：终端中的 LM Studio。通过在 GitHub 上创建账户，为 lmstudio-ai/lms 的开发做出贡献。

提到的链接：

Here’s why AI search engines really can’t kill Google：搜索引擎不仅仅是搜索引擎，AI 仍然无法完全跟上。
Imagination Spongebob Squarepants GIF - Imagination Spongebob Squarepants Dreams - Discover & Share GIFs：点击查看 GIF
no title found：未找到描述
New OpenAI Model 'Imminent' and AI Stakes Get Raised (plus Med Gemini, GPT 2 Chatbot and Scale AI)：Altman “知道发布日期”，据知情人士透露 Politico 称其“即将发布”，然后是神秘的 GPT-2 聊天机器人 [由 Microsoft 的 phi 团队制作]...

提及的链接：

未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
<a href="https://"">未找到标题</a>: 未找到描述
支持的模型: 未找到描述
OpTonal • 为使用 Slack, HubSpot, Google Meet 的团队提供的 AI Sales Agent: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
Salesforce：以客户为中心的企业: Salesforce 是排名第一的 AI CRM，通过统一的 Einstein 1 平台将 CRM、AI、数据和信任结合，使公司能够与客户建立联系。
适用于小型到大型企业的销售软件 | 免费开始使用: 强大的销售软件，帮助您的团队在统一的平台上达成更多交易、深化关系并更有效地管理销售漏斗。
Zoho CRM | 客户评价最高的销售 CRM 软件: Zoho CRM 是一款在线销售 CRM 软件，在单一 CRM 平台上管理您的销售、营销和支持。全球超过 1 亿用户信赖！立即注册免费试用。
Gong - 营收智能平台: Gong 捕获客户互动并大规模提供洞察，赋能团队基于数据而非主观意见做出决策。
排名第一的对话式营销和销售平台 - Exceed.ai: 利用对话式 AI 提升潜在客户转化率。自动化营收互动，实现大规模参与，并通过 Email、Chat、SMS 进行互动。
Salesloft：领先的销售参与平台: 未找到描述
让销售参与变得简单 | Yesware: Yesware 帮助高效销售团队大规模进行有意义的电子邮件推广。如果您需要通过电子邮件推广推动更多收入，但又觉得复杂的平台过于繁琐，请尝试 Yesware。
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
未找到标题: 未找到描述
Sidecar Doughnuts - 世界上最新鲜的甜甜圈！: 自 2012 年起提供世界上最新鲜的甜甜圈、招牌混合咖啡和微笑服务 | 加州 Costa Mesa, Santa Monica, & Del Mar
The Pie Hole: 下次活动需要新鲜派或 Pie Holes 吗？在线下单，全国免费送货，因为派就是爱。

提到的链接：

allenai/WildChat-1M · Hugging Face 数据集：未找到描述
allenai/WildChat · Hugging Face 数据集：未找到描述
GitHub - carsonpo/haystack-embedded：通过在 GitHub 上创建账号为 carsonpo/haystack-embedded 的开发做出贡献。

提到的链接：

Building a Large Japanese Web Corpus for Large Language Models：开源日语大语言模型 (LLMs) 已在 CC-100、mC4 和 OSCAR 等语料库的日语部分进行了训练。然而，这些语料库并非针对日语文本质量而创建...
Google Colab：未找到描述
Dimitris Papailiopoulos (@DimitrisPapail) 的推文：这份报告中最令人惊讶的发现隐藏在附录中。在两个 prompt 中表现最好的情况下，模型并没有像摘要声称的那样过度拟合。这里是原始 GSM8k 对比 ...
vonjack/Nous-Hermes-2-Pro-Xtuner-LLaVA-v1_1-Llama-3-8B · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw2.25-exl2 · Hugging Face：未找到描述
Hermes-Function-Calling/examples/crewai_agents.ipynb at main · NousResearch/Hermes-Function-Calling：通过在 GitHub 上创建账号，为 NousResearch/Hermes-Function-Calling 的开发做出贡献。
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw2.5-exl2 · Hugging Face：未找到描述
GitHub - NousResearch/Hermes-Function-Calling：通过在 GitHub 上创建账号，为 NousResearch/Hermes-Function-Calling 的开发做出贡献。
GitHub - e2b-dev/code-interpreter: 用于为你的 AI 应用添加代码解释功能的 Python & JS/TS SDK：用于为你的 AI 应用添加代码解释功能的 Python & JS/TS SDK - GitHub - e2b-dev/code-interpreter
LocalAI/gallery/hermes-2-pro-mistral.yaml at master · mudler/LocalAI：🤖 免费、开源的 OpenAI 替代方案。自托管、社区驱动且本地优先。可在消费级硬件上运行的 OpenAI 无缝替换方案。无需 GPU。支持运行 gguf, trans...
glaiveai/glaive-function-calling-v2 · Hugging Face 数据集：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw4-exl2 · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw5.5-exl2 · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw6-exl2 · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw3-exl2 · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw3.5-exl2 · Hugging Face：未找到描述
blockblockblock/Hermes-2-Pro-Llama-3-8B-bpw3.7-exl2 · Hugging Face：未找到描述

提到的链接：

未找到标题: 未找到描述
NousResearch/Hermes-2-Pro-Llama-3-8B-GGUF · Hugging Face: 未找到描述

World-sim 中的铁器时代更新：一位成员提到在游戏中处于第 11 世界，那里最近实施了铁器时代更新。
对游戏《孢子》(Spore) 的怀旧：一位成员回忆起在《孢子》(Spore) 游戏中花费了超过 100 小时。
对即将到来的更新和庆祝活动的期待：一位成员对本周末即将到来的事情表示兴奋，并分享说他们即将满 18 岁，这是一个重要的生日。
关于 AI 与意识的讨论：成员们对 Joscha 关于意识的演讲表示赞赏，称其影响深远，并分享了该主题相关的 YouTube 视频。
用于 Worldsim 更新的新 Discord 身份组 (Role)：创建了一个新身份组，用于在发布较小的 worldsim/worldclient 相关信息时提醒成员，几位成员请求加入，该身份组可以通过 <id:customize> 频道获取。

提到的链接：

37C3 - 合成感知 (Synthetic Sentience)：https://media.ccc.de/v/37c3-12167-synthetic_sentience 人工智能能产生意识吗？尽管 AI 能力取得了飞速进步，但核心问题...
Joscha Bach 的数字万物有灵论 (Cyber Animism)：这是 Joscha Bach (http://bach.ai/) 在我们中心进行的 1 小时 45 分钟的演讲。
世界模拟讲座 @ AGI House SF：0:00 对话 1:31 Jeremy Nixon 开场 6:08 Nous Research 的 Karan Malhotra 26:22 Websim CEO Rob Hasfield 1:00:08 Midjourney 的 Ivan Vendrov [实时...

提及的链接：

Creating a pull request template for your repository - GitHub Docs: 未找到描述
Modular: How to Contribute to Mojo Standard Library: A Step-by-Step Guide: 我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：如何为 Mojo 标准库做贡献：分步指南
Microspeak: Cookie licking - The Old New Thing: 现在没别人能占有它了。
Introduction to Mojo | Modular Docs: Mojo 基础语言特性介绍。
Mojo: -M- · 歌曲 · 2012
mojo/stdlib/docs/development.md at main · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
Mojo Lang - Tomorrow's High Performance Python? (with Chris Lattner): Mojo 是由 Swift 和 LLVM 的创建者推出的最新语言。它尝试从 CPU/GPU 级编程中提取一些最佳技术并封装...
[SR-852] [QoI] Poor diagnostic with missing "self." in convenience initializer · Issue #43464 · apple/swift: 前 ID SR-852 Radar 无原始报告人 @ddunbar 类型 Bug 状态已解决解决结果已完成来自 JIRA 的更多细节投票 0 组件编译器标签 Bug, DiagnosticsQoI 负责人 @dduan...
mojo/CONTRIBUTING.md at main · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
Mojo Lang - Tomorrow's High Performance Python? (with Chris Lattner): Mojo 是由 Swift 和 LLVM 的创建者推出的最新语言。它尝试从 CPU/GPU 级编程中提取一些最佳技术并封装...
[Feature Request] Make the `msg` argument of `assert_true/false/...` keyword only · Issue #2487 · modularml/mojo: 审查 Mojo 的优先级。我已阅读路线图和优先级，并相信此请求符合优先级。你的请求是什么？如标题所示。你进行此更改的动机是什么？为了...
2023 LLVM Dev Mtg - Mojo 🔥: A system programming language for heterogenous computing: 2023 LLVM 开发者大会 https://llvm.org/devmtg/2023-10------Mojo 🔥：一种用于异构计算的系统编程语言演讲者：Abdul Dakkak, Chr...
Jeremy Howard demo for Mojo launch: 这是 Modular 发布视频的一个片段。完整的视频、文档和详情请见：https://www.modular.com/
[Feature Request] Add `__rfloordiv__()` to SIMD type · Issue #2415 · modularml/mojo: 审查 Mojo 的优先级。我已阅读路线图和优先级，并相信此请求符合优先级。你的请求是什么？Int 和 Object 类型支持 rfloordiv。我添加了...
[stdlib] Support print to stderr by GeauxEric · Pull Request #2457 · modularml/mojo: 为 print 函数添加关键字参数以支持流向 stderr。修复 #2453。签署人：Yun Ding yunding.eric@gmail.com

提及的链接：

Modular: MAX 24.3 - Introducing MAX Engine Extensibility：我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：MAX 24.3 - 介绍 MAX Engine Extensibility
Modular: What’s New in Mojo 24.3: Community Contributions, Pythonic Collections and Core Language Enhancements：我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：Mojo 24.3 的新变化：社区贡献、Pythonic 集合和核心语言增强

提到的链接：

Home：CHERI Wiki 页面的占位符。通过在 GitHub 上创建账号来为 CTSRD-CHERI/cheripedia 的开发做出贡献。
未来的硬件能让我们的软件更安全吗？活动完整录像 - 剑桥 2022 年 3 月 15 日：未来的硬件如何让我们的软件更安全？对代码中的安全问题感到沮丧？讨厌那些主动找上门而不是被你发现的 Bug？你是否感兴趣...
未来的硬件能让我们的软件更安全吗？活动完整录像 - 剑桥 2022 年 3 月 15 日：未来的硬件如何让我们的软件更安全？对代码中的安全问题感到沮丧？讨厌那些主动找上门而不是被你发现的 Bug？你是否感兴趣...

提到的链接：

[llvm] r217292 - [docs] 文档说明提交信息中 "NFC" 的含义。 : 未找到描述
atomic | Modular 文档: 实现 Atomic 类。
Modular: Mojo 24.3 新特性：社区贡献、Pythonic 集合和核心语言增强: 我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：Mojo 24.3 新特性：社区贡献、Pythonic 集合和核心语言增强
Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
[功能请求] 允许子 trait 替换父 trait · Issue #2413 · modularml/mojo: 审查 Mojo 的优先级。我已阅读路线图和优先级，并认为此请求符合优先级。你的请求是什么？如果一个函数接收由 trait 绑定的变长参数...
[mojo-nightly] struct 生命周期问题 · Issue #2429 · modularml/mojo: Bug 描述：在以下测试演示中，似乎在 filehandle 上调用了析构函数而不是移动（move）。该演示在 stable 版本运行正常，但在 nightly 版本出现以下问题：fil...
[stdlib] 由 gabrieldemarmiesse 实现 `List.__str__()` · Pull Request #2323 · modularml/mojo: 可作为 #2190 (comment) 参考的 PR。注意它引起了一个似乎在解析器端的 bug。我们得到：RUN: at line 13: mojo /projects/open_source/mojo/stdlib/test/builtin/test_...

提到的链接:

GitHub - thatstoasty/prism: 模仿 Cobra 的 Mojo CLI 库。: 模仿 Cobra 的 Mojo CLI 库。通过在 GitHub 上创建账号为 thatstoasty/prism 的开发做出贡献。
GitHub - guidorice/mojo-pytest: Mojo 测试运行器，pytest 插件（又名 pytest-mojo）: Mojo 测试运行器，pytest 插件（又名 pytest-mojo）。通过在 GitHub 上创建账号为 guidorice/mojo-pytest 的开发做出贡献。
为 MojoTestItem 添加文件名、行号和列号 · Issue #9 · guidorice/mojo-pytest: 当 pytest 收集 Python 测试时，它会报告行号和上下文，如下所示：def test_ex(): > raise Exception("here") E Exception: here path/to/test_file.py:2: Exception In ...

提到的链接：

- YouTube：未找到描述
mojo-learning/tutorials/use-parameters-to-create-or-integrate-workflow.md at main · rd4com/mojo-learning：📖 学习一些 Mojo！通过在 GitHub 上创建账户为 rd4com/mojo-learning 的开发做出贡献。

提到的链接：

[stdlib] 根据 2024-05-03 nightly/mojo 更新标准库，由 JoeLoser 提交 · Pull Request #2480 · modularml/mojo：此 PR 使用与今天的 Nightly 版本（mojo 2024.5.303）相对应的内部提交更新了标准库。
mojo/docs/changelog.md at nightly · modularml/mojo：Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。

提到的链接：

GitHub - huggingface/autotrain-advanced: 🤗 AutoTrain Advanced：🤗 AutoTrain Advanced。通过在 GitHub 上创建账户来为 huggingface/autotrain-advanced 的开发做出贡献。
🤗 Destaques da Comunidade：Destaques da Comunidade 是 Hugging Face Discord 上定期发布的一篇文章，包含一系列由社区制作的项目、模型、Spaces、帖子和文章……

提到的链接：

XTTS - a Hugging Face Space by coqui：未找到描述
Chat with Meta Llama 3 on Replicate：Llama 3 是来自 Meta 的最新语言模型。
C4AI Command R Plus - a Hugging Face Space by CohereForAI：未找到描述
TaCoS：萨尔布吕肯的 TaCoS 会议
DioulaD/falcon-7b-instruct-qlora-ge-dq-v2 · Hugging Face：未找到描述
crusoeai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face：未找到描述
meta-llama/Meta-Llama-3-8B · Hugging Face：未找到描述
cjwbw/voicecraft – Run with an API on Replicate：未找到描述

提及的链接：

KAN: Kolmogorov-Arnold Networks：受 Kolmogorov-Arnold 表示定理启发，我们提出 Kolmogorov-Arnold Networks (KANs) 作为多层感知器 (MLPs) 的有力替代方案。虽然 MLPs 具有固定的激活函数...
What is Fine Tuning? In Two Minutes.：两分钟了解什么是微调。对生成式 AI 模型微调的高层级概述。简而言之：微调生成式 AI 模型就像调吉他。来自 @Hug... 的技术概述。
Fine-tune a pretrained model：未找到描述

提及的链接：

ProsusAI/finbert · Hugging Face：未找到描述
Che cos'è la Retrieval Augmented Generation (RAG)? | Databricks：RAG (Retrieval Augmented Generation) 是一种架构方法，它将数据作为大型语言模型 (LLM) 的上下文，以提高相关性...
GitHub - Binary-Beast03/MPI-Codes：通过在 GitHub 上创建账户，为 Binary-Beast03/MPI-Codes 的开发做出贡献。

提及的链接：

Fish Speech 1 - fishaudio 开发的 Hugging Face Space：未找到描述
kimou605/shadow-clown-BioMistral-7B-DARE · Hugging Face：未找到描述
Instagram 上的 Mansion X："Speaks American 🇺🇸 *fluently*. #fit #ootd"：2 个赞，0 条评论 - the_mansion_x 于 2024 年 5 月 2 日发布："Speaks American 🇺🇸 *fluently*. #fit #ootd"。
unography/blip-long-cap · Hugging Face：未找到描述
使用 LongCap 进行图像字幕生成 - unography 开发的 Hugging Face Space：未找到描述
Google Colab：未找到描述
GitHub - Tobiadefami/fuxion: 合成数据生成与归一化函数：合成数据生成与归一化函数 - Tobiadefami/fuxion
🤗 Destaques da Comunidade：Destaques da Comunidade 是一个定期在 Hugging Face Discord 上发布的帖子列表，包含一系列由社区制作的项目、模型、Spaces、帖子和文章……

提到的链接：

Smarter LLMs Research - f0ster 精选集：未找到描述
ReAct: Synergizing Reasoning and Acting in Language Models：虽然大语言模型 (LLMs) 在语言理解和交互式决策任务中展示了令人印象深刻的能力，但它们的推理能力（例如思维链...）

欢迎来到社区计算机视觉课程 - Hugging Face Community Computer Vision Course

论文页面 - RARR: Researching and Revising What Language Models Say, Using Language Models

Comparing huggingface:main...bghira:partial-diffusion-2 · huggingface/diffusers

Introspective Agents: Performing Tasks With Reflection - LlamaIndex

提及的链接：

Google Colab：未找到描述
Prompting | 操作指南：Prompt engineering 是一种用于自然语言处理 (NLP) 的技术，通过为语言模型提供更多关于当前任务的上下文和信息来提高其性能。
联系我们 — LlamaIndex，LLM 应用的数据框架：如果您对 LlamaIndex 有任何疑问，请联系我们，我们将尽快安排通话。
可观测性 (旧版) - LlamaIndex：未找到描述
Meta Llama 3 | 模型卡片与 Prompt 格式：Meta Llama 3 使用的特殊 Token。一个 Prompt 应包含单个 system 消息，可以包含多个交替的 user 和 assistant 消息，并始终以最后一个 user 消息结束...
未找到标题：未找到描述
微调 - LlamaIndex：未找到描述
Postgres - LlamaIndex：未找到描述
Supabase - LlamaIndex：未找到描述
通过 co-antwan 使用 `documents` 参数调用 Cohere RAG 推理 · Pull Request #13196 · run-llama/llama_index：描述：在 RAG 管道中增加了对 Cohere.chat 的 documents 参数的支持。这确保了 Cohere 客户端的正确格式化，并带来更好的下游性能。

提到的链接：

我正在编写一个新的向量搜索 SQLite 扩展：sqlite-vec 是一个新的 SQLite 向量搜索扩展，即将推出！
来自 OpenAI Developers (@OpenAIDevs) 的推文：我们开源了一个新的快速入门项目，帮助你使用 Assistants API 和 @nextjs 进行构建。它包含用于创建具有流式传输功能的聊天界面，以及使用 function calling 等工具的示例代码...
来自 Emily (She/Her) (@EmilyLShepherd) 的推文：让我们聊聊 @rabbit_hmi。一个线程 🧵 成立于 2021 年，最初名为 Cyber Manufacture Co，他们是一个“在...交汇处构建下一代体验的创意工作室”。
来自 Emily (She/Her) (@EmilyLShepherd) 的推文：让我们聊聊 @rabbit_hmi。一个线程 🧵 成立于 2021 年，最初名为 Cyber Manufacture Co，他们是一个“在...交汇处构建下一代体验的创意工作室”。
来自 Teknium (e/λ) (@Teknium1) 的推文：至少确认了，不，它不是“Large Action Model”——它是一个 LLM.. lol
对话智能 - Echo AI：客户对话是你拥有的最有价值的数据。Echo AI 是首个 AI 原生对话智能平台，可将客户说的每一句话转化为洞察和行动...
Assort Health | 首个为医疗保健构建的生成式 AI 呼叫中心：我们的呼叫中心生成式 AI 可减少等待时间，降低挂断率，并在增加预约收入的同时控制成本。
AI 原生开源嵌入数据库：AI 原生开源嵌入数据库
Life Story：记录生活，一次一个故事。

Notion – 笔记、任务、维基和数据库的一体化工作空间。

提到的链接：

来自 Snake Activation Function 的推文：Snake 是一种神经网络激活函数，适用于对具有“周期性归纳偏置（periodic induction bias）”的问题进行建模——换句话说，就是具有规律、重复模式的问题……
使用 Latent Diffusion 进行长篇音乐生成：基于音频的音乐生成模型最近取得了长足进步，但到目前为止还未能产生具有连贯音乐结构的完整长度音乐轨道。我们展示了通过训练一个 ge...
GitHub - betweentwomidnights/gary4live: 这是 gary。python continuations 以及 ableton 内部的 continuations。这是一个新手正在开发中的项目。：这是 gary。python continuations 以及 ableton 内部的 continuations。这是一个新手正在开发中的项目。 - betweentwomidnights/gary4live

提及的链接：

How do Large Language Models Handle Multilingualism?：Large Language Models (LLM) 在多种语言中都表现出卓越的性能。在这项工作中，我们深入探讨了一个问题：LLM 是如何处理多语言的？我们引入了一个框架...
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions：当今的 LLM 容易受到提示词注入、越狱和其他攻击的影响，这些攻击允许攻击者用自己的恶意提示覆盖模型的原始指令。在这项工作中...
jason9693 - Overview：AI 研究工程师。jason9693 拥有 71 个代码仓库。在 GitHub 上关注他们的代码。

提及的链接：

Grandmaster-Level Chess Without Search: 机器学习最近的突破性成功主要归功于规模：即大规模的基于 Attention 的架构和前所未有规模的数据集。本文调查了...
Benchmarking Benchmark Leakage in Large Language Models: 随着预训练数据使用的扩大，基准数据集泄露现象变得日益突出，而不透明的训练过程以及通常未公开的包含情况加剧了这一现象...
WildChat: 1M ChatGPT Interaction Logs in the Wild: 诸如 GPT-4 和 ChatGPT 之类的聊天机器人现在正为数百万用户提供服务。尽管它们被广泛使用，但仍然缺乏展示这些工具如何被用户群体使用的公共数据集...
Aligning LLM Agents by Learning Latent Preference from User Edits: 我们研究了基于用户对 Agent 输出进行编辑的语言 Agent 交互式学习。在诸如写作助手之类的典型场景中，用户与语言 Agent 交互以生成...
A Careful Examination of Large Language Model Performance on Grade School Arithmetic: 大型语言模型（LLMs）在许多数学推理基准测试中取得了令人印象深刻的成功。然而，人们越来越担心其中一些表现实际上反映了数据集...

Papers with Code - MATH Benchmark (Math Word Problem Solving)

Links mentioned:

ICML 2024 Mechanistic Interpretability Workshop: 未找到描述
Social Choice for AI Alignment: Dealing with Diverse Human Feedback: 诸如 GPT-4 之类的基础模型经过微调以避免不安全或其他有问题的行为，例如，它们拒绝协助实施犯罪或生产...

论文页面 - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

提到的链接：

gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face：未找到描述
来自 Grant♟️ (@granawkins) 的推文：2024 年的 SOTA RAG

修复：TRL 训练器预处理步骤曾以单进程运行，由 ali-mosavian 提交 · Pull Request #1583 · OpenAccess-AI-Collective/axolotl

llama.cpp/scripts/convert-gg.sh at master · ggerganov/llama.cpp

提到的链接：

FastChat/fastchat/conversation.py at main · lm-sys/FastChat：一个用于训练、部署和评估大型语言模型的开放平台。Vicuna 和 Chatbot Arena 的发布仓库。- lm-sys/FastChat
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。

提到的链接：

accelerate/docs/source/usage_guides/deepspeed.md at main · huggingface/accelerate：🚀 一种在几乎任何设备和分布式配置上启动、训练和使用 PyTorch 模型的简单方法，支持自动混合精度（包括 fp8），以及易于配置的 FSDP 和 DeepSpeed 支持.....
axolotl/examples/colab-notebooks/colab-axolotl-example.ipynb at main · OpenAccess-AI-Collective/axolotl：尽管提问。通过在 GitHub 上创建账户为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
GitHub - OpenAccess-AI-Collective/axolotl: Go ahead and axolotl questions：尽管提问。通过在 GitHub 上创建账户为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
transformers/docs/source/en/deepspeed.md at main · huggingface/transformers：🤗 Transformers：适用于 Pytorch、TensorFlow 和 JAX 的前沿机器学习。 - huggingface/transformers
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。

提到的链接：

未找到标题：未找到描述
本地运行 - Open Interpreter：未找到描述
共同构建更好的软件：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、分叉并为超过 4.2 亿个项目做出贡献。
Life Barrel GIF - Life Barrel Me - 发现并分享 GIF：点击查看 GIF
共同构建更好的软件：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、分叉并为超过 4.2 亿个项目做出贡献。
开源 AI 黑客松 #4 · Luma：根据上一次黑客松的反馈，我们已经找到了 LLM 的赞助商！OctoAI 将为所有注册者提供获得 50 美元的机会……
GitHub - OpenInterpreter/open-interpreter: 计算机的自然语言接口：计算机的自然语言接口。通过在 GitHub 上创建账号来为 OpenInterpreter/open-interpreter 的开发做出贡献。
GitHub - OpenInterpreter/open-interpreter: 计算机的自然语言接口：计算机的自然语言接口。通过在 GitHub 上创建账号来为 OpenInterpreter/open-interpreter 的开发做出贡献。
interpreter/core/computer/skills/skills.py 的历史记录 - OpenInterpreter/open-interpreter：计算机的自然语言接口。通过在 GitHub 上创建账号来为 OpenInterpreter/open-interpreter 的开发做出贡献。

提及的链接：

error file - Pastebin.com：Pastebin.com 是自 2002 年以来排名第一的文本存储工具。Pastebin 是一个可以在线存储文本一段时间的网站。
GitHub - rbrisita/01 at rknn：开源语言模型计算机。通过在 GitHub 上创建账号为 rbrisita/01 的开发做出贡献。

提及的链接：

GitHub - tegnike/nike-ChatVRM: 誰でもAITuberお試しキット：谁都能尝试的 AITuber 工具包。通过在 GitHub 上创建账号为 tegnike/nike-ChatVRM 的开发做出贡献。
Neuro Sama Competitor running Locally! V0.2 [FOSS, Local, No API]：我马上创建一个 GitHub 仓库。抱歉我的麦克风质量不好，我正在使用耳机麦克风，蓝牙带宽严重损耗了音质，而且显存也有点……
GitHub - neurokitti/VtuberAI：通过在 GitHub 上创建账号为 neurokitti/VtuberAI 的开发做出贡献。

提及的链接：

为企业打造：介绍 AI21 的 Jamba-Instruct 模型：作为混合 SSM-Transformer Jamba 模型的指令微调版本，Jamba-Instruct 专为可靠的商业用途而构建，具有一流的质量和性能。
Llama3-ChatQA-1.5 - 一个 nvidia 集合：未找到描述。

提到的链接：

Theoretically Media (@TheoMediaAI) 的推文：探索两个卓越的 AI 世界模拟：首先是来自 @fablesimulation 的 AI-Westworld（公开测试版已开放！），同时也尝试了 @realaitown，但重现了史上最棒的电影（The THI...
cocktail peanut (@cocktailpeanut) 的推文：介绍 AI Town Player。你知道整个 AI Town 都通过 @convex_dev 存储在单个 sqlite 文件中吗？我逆向工程了其架构并构建了一个 Web 应用，让任何人都可以回放任何 A...

TypeError [ERR_UNKNOWN_FILE_EXTENSION]: Unknown file extension ".ts" for /app/npm-packages/convex/src/cli/index.ts · Issue #1 · get-convex/convex-backend

GitHub - wesbz/SoundStream: This repository is an implementation of this article: https://arxiv.org/pdf/2107.03312.pdf

提到的链接：

Build - Beeloud：你能在 3 天内建立下一个价值十亿美元的初创公司吗？Sam Altman 和他的伙伴们打赌你可以。你正式被邀请参加这场黑客松。我接受……继续阅读...
30 分钟会议 - Leon Chen：未找到描述
未找到标题：未找到描述
Issues · langchain-ai/langchain：🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号为 langchain-ai/langchain 的开发做出贡献。

提到的链接：

在 LangChain 聊天机器人中使用 Dragonfly 进行高效的上下文管理：探索使用 Dragonfly 为 LangChain OpenAI 聊天机器人进行高效的上下文管理，通过缓存技术增强性能和用户体验。
GitHub - langchain4j/langchain4j: LangChain 的 Java 版本：LangChain 的 Java 版本。通过在 GitHub 上创建账号为 langchain4j/langchain4j 的开发做出贡献。

Proximal Policy Optimization — Spinning Up 文档

提到的链接：

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models：GPT-4 等专有 LM 常被用于评估各种 LM 的回答质量。然而，出于透明度、可控性和成本等方面的考虑，强烈促使了……
Teortaxes▶️ (@teortaxesTex) 的推文：……实际上，我到底为什么要假设这不是他们的模型，为了集体渗透测试而分发的——类似于 miqu 的极其特殊的量化泄露以阻止改进——突然的 4chan 链接，临时账号……

lmsys.org (@lmsysorg) 的推文

"，因为他注意到在 Tokenization 过程中会自动添加该标记。 - **RAG 的 Cohere API Key 咨询**：一位用户询问是否可以使用免费的 Cohere API Key 进行 RAG，**另一位成员确认其可用性，但指出了速率限制（Rate Limitations）**。 - **关于 C4AI Command R+ 实现的讨论**：成员们分享了 HuggingFace 上的 **[C4AI Command R+ 模型](https://huggingface.co/CohereForAI/c4ai-command-r-plus)** 链接和[量化版本](https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit)，以及实现的各种技术参数，并讨论了在不同系统要求下本地运行该模型的情况。 - **Code Interpreter SDK 发布公告**：一位成员在 Twitter 上分享了 [Code Interpreter SDK 发布](https://x.com/tereza_tizkova/status/1786058519701254268?s=46&t=yvqplJRJNpP5EM3LZLMQlA)的演示，另一位成员则质疑考虑到之前已有类似技术，此次发布的独特性。

提到的链接:

command-r: Command R 是一款针对对话交互和长上下文任务优化的 Large Language Model。
Tereza Tizkova (@tereza_tizkova) 的推文: 🚀 我们正在发布 @e2b_dev Code Interpreter SDK 🧠 它是任何 AI 应用的构建模块 - 用于代码解释的 SDK！使用它来构建 🔸 高级数据分析师 🔸 生成式 UI 🔸 AI 软件...
CohereForAI/c4ai-command-r-plus · Hugging Face: 暂无描述
command-r-plus: Command R+ 是一款功能强大、可扩展的 Large Language Model，专为卓越处理真实世界企业用例而打造。

--- **Mozilla AI ▷ #[llamafile](https://discord.com/channels/1089876418936180786/1182689832057716778/1235494486143008790)** (19 条消息🔥): - **llamafile 作为 Linux 服务**：分享了一个在 Rocky Linux 9 上将 **llamafile** 作为服务启动的 systemd 脚本，详细说明了使用特定参数（如服务器端口和模型路径）运行 llamafile 所需的执行命令和环境配置。 - **服务器 Base URL 的功能请求**：针对在服务器模式下为 llamafile 指定 base URL 的功能请求，已通过 [GitHub issue 链接](https://github.com/Mozilla-Ocho/llamafile/issues/388) 进行处理，表达了通过 Nginx 代理在子目录下提供 llamafile 服务的需求。 - **对 Distil Whisper 德语模型的兴趣**：有人对引入用于语音识别的 whisper 模型（如 [distil-whisper-large-v3-german](https://huggingface.co/primeline/distil-whisper-large-v3-german)）表现出好奇，并可能撰写一篇关于其应用（包括 STT -> LLM -> TTS 的假设流水线）的博客文章。 - **Embedding 方向差异**：讨论了一个问题，即 llamafile 和 llama.cpp 生成的 embeddings 显示出较低的余弦相似度（cosine similarity），表明方向不同。该问题由 [GitHub issue](https://github.com/Mozilla-Ocho/llamafile/issues/391) 证明，并使用提供的 Python 脚本进行了测试。 - **与文档/代码对话**：关于如何让 llamafile 摄取文档和代码以进行对话交互的问题，建议使用 `curl` API 调用，并参考了 [llama.cpp chat 脚本](https://github.com/ggerganov/llama.cpp/blob/master/examples/server/chat.sh#L64) 中的示例。

提到的链接：

<a href="http://localhost:8080"):">未找到标题</a>：未找到描述
<a href="http://localhost:8080")">未找到标题</a>：未找到描述
<a href="http://localhost:8081")">未找到标题</a>：未找到描述
primeline/distil-whisper-large-v3-german · Hugging Face：未找到描述
apple/OpenELM-3B-Instruct · Hugging Face：未找到描述
功能请求：为服务器模式指定 base URL 的选项 · Issue #388 · Mozilla-Ocho/llamafile：我一直在测试使用 Nginx 作为代理在子目录下提供 llamafile 服务。即能够通过如下 URL 访问 llamafile 服务器：https://mydomain.com/llamafile/ Llamafile...
Models - Hugging Face：未找到描述
来自 server.cpp `/embedding` 端点的异常输出 · Issue #391 · Mozilla-Ocho/llamafile：问题是什么？在 llamafile 中运行的模型生成的 embeddings 似乎与 llama.cpp 生成的显著不同。llama.cpp 的 embeddings 非常接近（约 0.99 余弦相似度）...
llama.cpp/examples/server/chat.sh at master · ggerganov/llama.cpp：C/C++ 中的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。

--- **tinygrad (George Hotz) ▷ #[general](https://discord.com/channels/1068976834382925865/1068976834928193609/1235486834499522650)** (4 条消息): - **Tiny 进度更新**：一位成员询问 **progress**，另一位确认两天前取得了实质性进展。 - **贡献里程碑**：另一位成员分享了他们向项目提交 **first commit** 的热情，并对成功提交表示喜悦。 --- **tinygrad (George Hotz) ▷ #[learn-tinygrad](https://discord.com/channels/1068976834382925865/1070745817025106080/1235659100998729759)** (13 条消息🔥): - **关于 Blobfile 重要性的澄清**：质疑了 `examples/llama.py` 中 `blobfile` 的效用。澄清了 `load_tiktoken_bpe` 依赖于 `blobfile`。 - **前向传播计算图问题**：一位成员在为简单神经网络生成前向传播计算图（forward pass compute graph）时遇到问题。建议通过取消 `out.item()` 的注释或使用 `out.realize()` 来确保计算，并通过安装必要的库来解决 `NameError`。 - **已安装 Networkx 但缺少 pydot**：尽管安装了 `networkx`，上述错误仍然存在，最终通过安装 `pydot` 解决。 - **Graphviz 安装解决 dot 命令错误**：在实施安装 `pydot` 的方案后，遇到了关于缺少 `dot` 命令的新错误，通过安装 `graphviz` 解决。 - **建议更新文档**：一位成员建议更新文档，添加一个提示，说明安装 `graphviz` 可以解决 `sh: dot: command not found` 错误。 --- **AI21 Labs (Jamba) ▷ #[announcements](https://discord.com/channels/874538902696914944/874538945168408606/1235742995437977641)** (1 messages): - **Jamba-Instruct 成为焦点**：AI21 Labs 宣布推出 **Jamba-Instruct**，这是其混合 SSM-Transformer **Jamba** 模型的指令微调版本。他们征求反馈，并表示愿意为需要超过初始 256K context window 的用例提供支持。 - **了解 Jamba-Instruct 的全部信息**：为了深入了解，AI21 Labs 鼓励阅读 [AI21's Blog](https://www.ai21.com/blog/announcing-jamba-instruct) 上的 *Jamba-Instruct 博客文章*，其中详细介绍了 Jamba-Instruct 如何在商业应用中表现出卓越的质量和性能。 **Link mentioned**: Built for the Enterprise: Introducing AI21’s Jamba-Instruct Model：作为我们混合 SSM-Transformer Jamba 模型的指令微调版本，Jamba-Instruct 专为可靠的商业用途而构建，具有同类最佳的质量和性能。 --- **AI21 Labs (Jamba) ▷ #[jamba](https://discord.com/channels/874538902696914944/1222916247063232553/1235603967384490037)** (4 messages): - **Jamba-Instruct 发布**：AI21 Labs 宣布推出 **Jamba-Instruct**，并通过 [Twitter 帖子](https://twitter.com/AI21Labs/status/1786038528901542312) 进行了分享。 - **探索更大的 Context Windows**：针对关于大于 256k context window 的询问，一位 AI21 Labs 工作人员表示愿意探索 **更高的 context windows**，并邀请该成员通过私信讨论用例。 --- **Alignment Lab AI ▷ #[general-chat](https://discord.com/channels/1087862276448595968/1095458248712265841/1235515365598167141)** (2 messages): - **热情问候**：一位成员用简单的 "Hello" 向社区打招呼。 - **提供算力资助**：对于那些寻求 **快速算力资助 (fast compute grants)** 的人，一位成员分享了来自 @PrimeIntellect 的 Twitter 帖子链接：[快速算力资助推文](https://twitter.com/PrimeIntellect/status/1786386588726960167)。 --- **DiscoResearch ▷ #[general](https://discord.com/channels/1178995845727785010/1182877486854451271/1235956851133386872)** (2 messages): - **LLaMA 量化困境**：一位 Discord 成员重点介绍了一个 [Reddit 帖子](https://www.reddit.com/r/LocalLLaMA/comments/1cetn9z/quantization_seems_to_hurt_the_quality_of_llama_3/)，讨论了与 LLaMA 2 相比，量化对 **LLaMA 3** 质量的影响。他们链接了一篇 [arXiv 论文](https://arxiv.org/abs/2404.14047)，详细说明了低比特量化带来的性能下降，并对 post-training quantization 方法提出了质疑。 - **量化导致细节丢失**：一位成员表示，**Meta 的 LLaMA** 进行了显著的量化，它忽略了 *Chinchilla scaling law* 并使用了 15T tokens，这可能是导致重大信息丢失、影响性能的原因。这表明在大型模型中，随着精度进一步降低，退化的风险更大。

Links mentioned:

Reddit - 深入探索：未找到描述
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study：Meta 的 LLaMA 家族已成为最强大的开源大语言模型 (LLM) 系列之一。值得注意的是，LLaMA3 模型最近发布，并在各项指标上取得了令人印象深刻的性能...

--- **Skunkworks AI ▷ #[off-topic](https://discord.com/channels/1131084849432768614/1140423597454807179/1235948611292893263)** (1 messages): - **为 Skunkworks 项目提供快速算力资助**：一位成员提到他们渴望资助一些令人兴奋的 **Skunkworks 项目**，并提供了 [Twitter 链接以获取详情](https://twitter.com/PrimeIntellect/status/1786386588726960167)。如果你正在寻找 fast compute grants，这可能是一个机会。 --- **Datasette - LLM (@SimonW) ▷ #[llm](https://discord.com/channels/823971286308356157/1128504153841336370/1235576027233910865)** (1 messages): - **数字家务烦恼**：一位成员表示需要一个 LLM，能够协助清理散落在硬盘各个目录中、占用空间的 **7B localmodels**。这种挫败感源于众多应用程序和库导致的混乱。 ---

10 万美元奖金：在 Kaggle 竞赛中预测 LMSYS 人类偏好。

AI Twitter 摘要

AI Reddit Recap

AI Discord 摘要

第 1 部分：Discord 高层摘要

Unsloth AI (Daniel Han) Discord

Stability.ai (Stable Diffusion) Discord

CUDA MODE Discord

LM Studio Discord

Perplexity AI Discord

Nous Research AI Discord

Modular (Mojo 🔥) Discord

OpenAI Discord

HuggingFace Discord

LlamaIndex Discord

Latent Space Discord

Eleuther Discord

OpenAccess AI Collective (axolotl) Discord

OpenInterpreter Discord

OpenRouter (Alex Atallah) Discord

AI Stack Devs (Yoko Li) Discord

LAION Discord

LangChain AI Discord

Interconnects (Nathan Lambert) Discord

Cohere Discord

Mozilla AI Discord

tinygrad (George Hotz) Discord

AI21 Labs (Jamba) Discord

Alignment Lab AI Discord

DiscoResearch Discord

Skunkworks AI Discord

Datasette - LLM (@SimonW) Discord

PART 2: 频道详细摘要与链接