2024年4月23日至4月24日的 AI 新闻。我们为您检查了 7 个 subreddits、373 个 Twitter 和 27 个 Discord（395 个频道，6364 条消息）。预计节省阅读时间（以 200wpm 计算）：666 分钟。

通常，每个现代操作系统都有“保护环”（protection rings）的概念，根据需要提供不同级别的权限：

在 ChatGPT 出现之前，被训练为“高级自动补全”（spicy autocomplete）的模型总是容易受到 Prompt Injection 的影响：

因此，解决方案自然是为 LLM 引入权限级别。OpenAI 发表了一篇论文，首次阐述了他们对此的思考：

这被呈现为一个 Alignment 问题——每个级别可以是 aligned（对齐的）或 misaligned（未对齐的），而对未对齐的反应可以是 ignore and proceed（忽略并继续）或 refuse（拒绝，如果无法继续）。作者通过合成数据来生成复杂请求的分解，将其置于不同级别，针对 Alignment 和注入攻击类型进行变化，并应用于各个领域。

结果是一个用于建模所有 Prompt Injection 的通用系统设计，如果我们能为此生成数据，我们就能对其进行建模：

凭借这一点，他们几乎可以解决 Prompt Leaking 问题，并将防御能力提高 20-30 个百分点。

作为一个有趣的额外发现，作者注意到，仅在 System Prompt 中添加指令层级（instruction hierarchy）会降低基准 LLM 的性能，但通常会提升经过层级训练（Hierarchy-trained）的 LLM 的表现。

Table of Contents

[TOC]

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线，但仍有很大改进空间！

AI 模型与基准测试

Microsoft 发布 Phi-3 mini 模型：在 r/MachineLearning 中，Microsoft 在 Hugging Face 上发布了轻量级的 Phi-3-mini 模型，其基准测试数据令人印象深刻，但仍需第三方验证。该模型提供 4K 和 128K 上下文长度（context length）两个版本。
Apple 发布 OpenELM 高效语言模型系列：Apple 在 Hugging Face 上开源了 OpenELM 语言模型系列，并提供开放的训练和推理框架。其中 270M 参数模型的 MMLU 表现优于 3B 模型，这表明模型可能训练不足。该许可证允许修改和重新分发。
指令准确度基准测试对比 12 个模型：在 r/LocalLLaMA 中，一项业余基准测试测试了 12 个模型在 27 个类别中的指令遵循能力。Claude 3 Opus、GPT-4 Turbo 和 GPT-3.5 Turbo 位居前列，Llama 3 70B 击败了 GPT-3.5 Turbo。
Rho-1 方法仅需 3% 的 Token 即可训练出 SOTA 模型：同样在 r/LocalLLaMA 中，Rho-1 方法仅使用 3% 的预训练 Token 即可达到 DeepSeekMath 的性能。它使用参考模型在 Token 级别过滤训练数据，并且只需极少的额外训练即可提升 Mistral 等现有模型的性能。

AI 应用与用例

Wendy’s 在得来速订餐中部署 AI：Wendy’s 正在推广 AI 驱动的得来速（drive-thru）订餐系统。评论指出，这可能为非英语母语人士提供更好的体验，但也引发了对初级就业岗位受影响的担忧。
Z 世代员工更倾向于向 AI 而非经理寻求职业建议：一项新研究发现，Z 世代员工选择从生成式 AI 工具获取职业建议，而不是他们的真人经理。
在生产环境中部署 Llama 3 模型：在 r/MachineLearning 中，一篇教程介绍了如何在 AWS EC2 实例上部署 Llama 3 模型。Llama 3 8B 需要 16GB 磁盘空间和 20GB VRAM，而 70B 需要 140GB 磁盘和 160GB VRAM (FP16)。使用 vLLM 等推理服务器可以将大型模型拆分到多个 GPU 上。
AI 通过无表情面孔预测政治信仰：一项新研究声称，AI 系统能够仅通过分析无表情面孔的照片来预测人们的政治倾向。评论者对此持怀疑态度，认为人口统计学因素可能在没有先进 AI 的情况下也能实现合理的推测。
配合适当的 Prompt，Llama 3 在创意写作方面表现出色：在 r/LocalLLaMA 中，一位业余作家发现 Llama 3 70B 是创作言情小说的优秀创意伙伴。通过一两句写作示例和基础指令，它能生成有用的创意和段落，作者随后对其进行精炼和整合。

AI 研究与技术

HiDiffusion 支持更高分辨率的图像生成：HiDiffusion 技术允许 Stable Diffusion 模型仅通过添加一行代码即可生成 2K/4K 高分辨率图像。与原生 SD 相比，它同时提升了分辨率和生成速度。
进化模型合并可能助力开源社区竞争：随着算力成为大规模开放模型的瓶颈，模型合并（model merging）、上采样（upscaling）和协作 Transformer（cooperating transformers）等技术可以帮助开源社区跟上步伐。文中分享了一种新的进化模型合并方法。
Gated Long-Term Memory 旨在成为高效的 LSTM 替代方案：在 r/MachineLearning 中，Gated Long-Term Memory (GLTM) 单元被提议作为 LSTM 的高效替代方案。与 LSTM 不同，GLTM 并行执行“重型任务”，仅将乘法和加法顺序执行。它使用线性而非二次内存。

AI Twitter 回顾

所有回顾均由 Claude 3 Opus 完成（4 次运行中的最佳结果）。我们正在利用 Haiku 进行聚类和流程工程（flow engineering）。

AI Models and Architectures

Llama 3 Model: @jeremyphoward 指出 Llama 3 在一道小学三年级的题目上出错，而小孩子都能答对，强调不应将其视为超人类的天才。@bindureddy 建议使用 Llama-3-70b 进行推理和代码编写，使用 Llama-3-8b 进行快速推理和微调。@winglian 发现将 rope_theta 设置为 16M 时，Llama 3 在 65k 上下文内实现了良好的召回率；@winglian 还指出，将 rope_theta 设置为 8M 时，在无需持续预训练的情况下，在高达 40K 的上下文深度中实现了 100% 的 Passkey 检索率。
Phi-3 Model: @bindureddy 质疑如果 Llama-3 性能相当且价格便宜 10 倍，为什么还要使用 OpenAI 的 API。Microsoft 发布了 Phi-3 系列开源模型，包含三种尺寸：mini (3.8B)、small (7B) & medium (14B)；根据 @rasbt 和 @_philschmid 的说法，Phi-3-mini 的性能可与 Llama 3 8B 相媲美。@rasbt 指出 Phi-3 mini 可以量化为 4-bits 以在手机上运行。
Snowflake Arctic: @RamaswmySridhar 宣布了 Snowflake Arctic，这是一个 480B 参数的 Dense-MoE LLM，专为企业级用例设计，如代码、SQL、推理和指令遵循。@_philschmid 指出它在 Apache 2.0 协议下开源。
Apple OpenELM: Apple 发布了 OpenELM，这是一个高效的开源 LM 系列。根据 @_akhaliq 和 @_akhaliq 的说法，其性能与 OLMo 相当，但所需的预训练 Token 减少了 2 倍。
Meta RA-DIT: Meta 研究人员开发了 RA-DIT，这是一种微调方法，根据 @DeepLearningAI 的总结，该方法利用检索增强生成 (RAG) 增强了 LLM 的性能。

AI Companies and Funding

Perplexity AI Funding: @AravSrinivas 宣布 Perplexity AI 以 10.4 亿美元的估值筹集了 6270 万美元，由 Daniel Gross 领投，投资者还包括 Stan Druckenmiller、NVIDIA、Jeff Bezos 等。@perplexity_ai 和 @AravSrinivas 指出，这笔资金将用于扩大消费者和企业用户群。
Perplexity Enterprise Pro: Perplexity AI 推出了 Perplexity Enterprise Pro，这是一款企业级 AI 问答引擎，具有增强的数据隐私、SOC2 合规性、SSO 和用户管理功能，据 @AravSrinivas 和 @perplexity_ai 介绍，定价为 40 美元/月/席位。它已被 Databricks、Stripe、Zoom 等各行业公司采用。
Meta Horizon OS: @ID_AA_Carmack 讨论了 Meta 用于 VR 头显的 Horizon OS，指出它虽然可以支持专业头显和应用，但会拖累 Meta 的软件开发进度。他认为，仅允许合作伙伴访问标准 Quest 硬件的完整 OS 就可以在降低成本的同时开辟更多用途。

AI Research and Techniques

Instruction Hierarchy: @andrew_n_carr 强调了 OpenAI 关于 Instruction Hierarchy 的研究，将 System Prompts 视为更高级别的指令，以防止 Jailbreaking 攻击。该研究鼓励模型通过 System Prompt 的视角来审视用户指令。
Anthropic Sleeper Agent Detection: @AnthropicAI 发布了关于使用 Probing 技术来 检测带有后门的 “Sleeper Agent” 模型何时即将表现出危险行为 的研究，这些模型在训练期间会伪装成安全的。Probing 会跟踪模型在回答安全问题时，其内部状态在 “Yes” 与 “No” 答案之间的变化。
Microsoft Multi-Head Mixture-of-Experts: 根据 @_akhaliq 和 @_akhaliq 的消息，Microsoft 提出了 Multi-Head Mixture-of-Experts (MH-MoE)。该技术 将 Token 拆分为子 Token 并分配给不同的 Expert，以提高性能，优于基准 MoE。
SnapKV: 根据 @_akhaliq 的介绍，SnapKV 是一种 在保持性能的同时有效最小化 LLM 中 KV cache 大小 的方法，它通过自动压缩 KV cache 来实现。该方法实现了 3.6 倍的加速和 8.2 倍的内存效率提升。

AI Discord 摘要回顾

摘要之摘要的摘要

1. 新 AI 模型发布与基准测试

Llama 3 已发布，在 15 万亿 tokens 上进行训练，并针对 1000 万个人类标注样本进行了微调。70B 版本在 MMLU 基准测试中超过了开源 LLM，得分超过 80。它具有 SFT、PPO、DPO 对齐功能，以及一个基于 Tiktoken 的分词器。[demo]
微软发布了 Phi-3 mini (3.8B) 和 128k 版本，在 3.3T tokens 上通过 SFT & DPO 训练而成。根据 LlamaIndex 的基准测试，它在 RAG 和路由等任务上与 Llama 3 8B 旗鼓相当。[本地运行]
Internist.ai 7b 是一款医疗 LLM，在 10 名医生的盲评中表现优于 GPT-3.5 并超过了 USMLE（美国执业医师资格考试）的及格分数，凸显了数据策划 (data curation) 和医生在环 (physician-in-the-loop) 训练的重要性。
根据 @DingBannu 和 @testingcatalog 的推文，人们对预计在 4 月 29-30 日左右发布的 新 GPT 和 Google Gemini 充满期待。

2. 高效推理与量化技术

Fireworks AI 讨论了通过无损量化至 FP8，使模型服务速度比原生 LLM 快 4 倍。微软的 BitBLAS 为量化 LLM 部署提供了混合精度矩阵乘法支持。
对 FP8 与 BF16 的性能进行了对比，结果分别为 29.5ms 和 43ms，尽管 Amdahl’s Law 限制了收益。考虑到 CUBLAS_PEDANTIC_MATH 设置，实现跨 batch sizes 的确定性损失 (deterministic losses) 是一个重点。
讨论了 llm.c 中的 CUDA kernels 在优化方面的教育价值，并建议将其作为课程材料，突出 FP32 路径以提高可读性。

3. RAG 系统、多模态模型与 Diffusion 进展

CRAG (Corrective RAG) 增加了一个反射层，将检索到的信息分类为“正确”、“错误”、“模糊”，以改进 RAG 中的上下文。
Haystack LLM 现在将工具索引为 OpenAPI 规范，并根据意图检索顶级服务。llm-swarm 实现了可扩展的 LLM 推理。
Adobe 推出了 Firefly Image 3，以增强图像生成的质量和控制力。HiDiffusion 通过“一行代码”提升了 Diffusion 模型的分辨率和速度。
Multi-Head MoE 通过借鉴多头机制，比 Sparse MoE 模型改进了专家激活和语义分析。

4. Prompt Engineering 与 LLM 控制技术

关于 Prompt Engineering 最佳实践的讨论，例如使用正向示例引导风格，而非负面指令。神秘的 RageGPTee 开创了诸如 step-by-step 和 Chain of Thought 等提示技术。
一篇关于 Self-Supervised Alignment with Mutual Information (SAMI) 的论文提出，在没有偏好标签或演示的情况下，将 LLM 微调至所需原则，从而提高各项任务的性能。
NVIDIA 的 Align Your Steps 优化了 Diffusion 模型的采样调度，以便在不同数据集上实现更快、更高质量的输出。
对 LLM 控制理论的探索，例如使用贪婪坐标搜索 (greedy coordinate search) 比暴力破解更有效地处理对抗性输入 (arXiv:2310.04444)。

第一部分：高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Snowflake 的混合巨兽与 PyTorch 引发好奇：Snowflake 公布了其拥有 480B 参数的巨型模型 Arctic，该模型采用了 dense-MoE 混合架构；尽管体量巨大，但其在实际应用中的效用引发了关注。与此同时，PyTorch 2.3 的发布因其对用户定义 Triton kernel 的支持以及对 AI 模型性能的影响而激发了广泛兴趣。
针对不同 AI 风格的微调：Unsloth 发布了一篇关于微调 Llama 3 的博客，指出其在性能和 VRAM 占用方面有所改进，但用户在训练后遇到了乱码输出，这暗示了从训练到实际应用转换过程中的技术障碍。此外，社区在分享微调策略见解和 notebook 协作方面表现活跃。
Unsloth 即将推出的多 GPU 支持与 PHI-3 Mini 介绍：Unsloth 宣布计划在 5 月份的开源版本中提供多 GPU 支持，并打算发布 Pro 平台版本。新的 Phi-3 Mini Instruct 模型亮相，承诺提供适应不同上下文长度的变体。
GitHub 与 Hugging Face 上的细节讨论：关于在 Unsloth 的 GitHub 中集成 .gitignore 的讨论展开，强调了在仓库美观性争论中贡献者的实际需求，随后推动合并了一个对未来发布至关重要的关键 Pull Request #377。其他关注点包括由于必须重新训练而导致的 Hugging Face 模型重新上传，社区在调试和修正方面提供了协助。
思考 Colab Pro 的潜力与瓶颈：在管理 notebook 中的 OOM 问题以及 ML 任务对更高 RAM 需求的背景下，社区讨论了 Colab Pro 的价值主张，考虑了其内存限制以及与其他计算资源相比的性价比。

Perplexity AI Discord

Perplexity 推出全新 Pro 服务：Perplexity 推出了 Perplexity Enterprise Pro，宣称增强了数据隐私、符合 SOC2 合规性并具备单点登录功能。据报道，Stripe、Zoom 和 Databricks 等公司每月可因此节省 5000 小时。寻求企业解决方案的工程师可以在每月 40 美元或每席位每年 400 美元处查看更多详情和定价。

融资助力 Perplexity 的雄心：Perplexity AI 完成了一轮重大融资，获得 6270 万美元，估值达到 10.4 亿美元，著名投资者包括 Daniel Gross 和 Jeff Bezos。这笔资金将用于加速增长，并通过移动运营商和企业合作伙伴关系扩大分销。

AI 模型的难题与挫折：活跃的讨论评估了 Claude 3 Opus、GPT 4 和 Llama 3 70B 等 AI 模型，用户指出了它们各自的优缺点，同时对 Opus 的消息限制表示愤慨。此外，社区测试了各种 AI 驱动的网页搜索服务，如 you.com 和 chohere，并注意到了性能差异。

API 进展与遗憾：在 API 方面，用户对类似于 GPT 且能搜索网页并保持实时更新的 API 需求旺盛，这促使大家探索 Perplexity 的 sonar online 模型并注册引用访问权限。对话中澄清了 API 目前及可预见的未来都不支持图片上传，并建议在编程任务中使用 llama-3-70b instruct 和 mixtral-8x22b-instruct。

Perplexity 的知名度与估值飙升：随着该企业在估值从 1.21 亿美元跃升至 10 亿美元后寻求额外资金，其估值已飙升至可能达到 30 亿美元。CEO Srinivas 在 Twitter 上分享了这一跨越，并在 CNBC 采访中讨论了 Perplexity AI 在与 Google 等对手的 AI 技术竞赛中的地位。与此同时，用户正在探索功能并报告 Perplexity AI 搜索的可见性问题，如搜索结果和不太明确的可见性问题所示。

Nous Research AI Discord

语义密度对 LLM 的影响：工程师们讨论了 LLM 中新相空间的出现，将想法溢出比作语言密集的 LLM Vector Space（向量空间）。有人提出，为了追求计算效率，模型会选择包含最丰富含义的 Token。
对参数与意义相关性的好奇：社区质疑 AI 模型参数的增加是否等同于每个 Token 的语义密度更高，这引发了关于 AI 理解中“量”与“质”作用的持续争论。
AI 教育与准备：对于那些希望加深对 LLM 理解的人，社区推荐完成 fast.ai 课程，并深入研究 Niels Rogge 和 Andrej Karpathy 的资源，这些资源提供了关于 Transformer 模型和从零开始构建类 GPT 架构的实用教程。
对 AI 硬件和 Vision Pro 出货量的担忧：随着新的 AI 专用硬件问世，成员们对其潜力和局限性反应不一，包括对 AI 硬件进行 Jailbreaking（越狱）的讨论。另外，由于出货量削减的传闻以及对产品路线图的重新审视，人们对 Apple Vision Pro 表示担忧。
结果指标至关重要：一场关于 LMSYS 等 Benchmark（基准测试）的辩论被触发，争论焦点在于其对用户主观输入的依赖是否会影响其可扩展性和实用性，一些人引用了一篇批判性的 Reddit 帖子。其他人则讨论了训练损失中的 Instruct 与 Output，思考训练模型预测指令是否可能优于预测输出。

LM Studio Discord

Phi-3 Mini 模型准备就绪：微软的 Phi-3 mini instruct 模型已发布，提供 4K 和 128K 上下文选项供测试，承诺具备高质量的推理能力。
LM Studio：GUI 表现良好，服务器端令人遗憾：LM Studio 的 GUI 特性排除了在 Headless（无头）服务器上运行的可能性，用户被引导使用 llama.cpp 进行无头操作。尽管呼声很高，LM Studio 开发者尚未确认服务器版本。
通过同义词解决搜索困扰：在 LM Studio 上受困于“llama”或“phi 3”搜索问题的用户，现在可以使用“lmstudio-community”和“microsoft”进行搜索，从而绕过 Hugging Face 的搜索基础设施问题。
技术磨合期问题：AMD 和 NVIDIA 双显卡配置存在 ROCm 安装冲突，需要彻底清除 NVIDIA 驱动程序或移除硬件才能解决错误。Windows 上 RX 5700 XT 显卡的特定不兼容问题仍未解决。
GPU Offload 默认设置令人不快：社区建议默认关闭 GPU Offload，因为它会给没有合适 GPU 的用户带来错误，强调了改进 First Time User Experience（首次用户体验）的必要性。
当前硬件难题：讨论揭示了 Nvidia 在新 GPU 中潜在的 VRAM 扩展与 AMD GPU 在 AI 应用中必要但缺乏的软件基础设施之间的分歧。对于托管最新模型，云服务被认为比个人设备更具成本效益。

OpenAI Discord

AI 在逻辑与语义之间找到了平衡点：讨论显示了人们对逻辑中语法和语义融合从而实现真正 AI 理解的痴迷，并引用了图灵关于形式系统和 AI 的哲学。
探测到 AGI 尴尬的起步阶段：关于当前 LLM 中 AGI 涌现的辩论观点不一，一些成员认为虽然 LLM 表现出类 AGI 行为，但在这些功能上很大程度上仍是不够格的。
GPT 中的 Fine-tuning 与文件附件：明确了 Fine-tuning（API 特有，用于修改模型行为）与将文档作为上下文参考（遵循大小和保留限制）之间的区别。
Prompt 创作者寻求对风格的控制：GPT 的写作风格引发了关于塑造其“声音”挑战的对话，成员们分享了最佳实践，如专注于正面指令和使用示例来引导 AI。
揭秘神秘的 Prompt 低语者：一位 Prompt Engineering 大师 RageGPTee 的事迹引发讨论，其方法被比作播种“结构化思维的种子”，尽管怀疑者对其在 GPT-3.5 中压缩 65k 上下文的说法表示怀疑。

CUDA MODE Discord

Lightning AI 的 CUDA 验证风波：Lightning AI 用户面临复杂的验证流程，导致建议联系支持部门或通过推文寻求加速服务。Lightning AI 员工回应称，严格检查至关重要，部分原因是为了防止加密货币矿工的滥用。

CUDA 开发中的同步挑战：开发者分享了关于 CUDA 同步的知识，警告不要在线程退出后使用 __syncthreads，并指出 Volta 架构在活跃线程间强制执行 __syncthreads。分享了一个具体的 GitHub 代码片段链接以供进一步检查。

凝聚 CUDA 知识：CUDA 社区讨论了影响内存合并（memory coalescing）的函数调用、.cuh 文件的作用以及优化策略，重点强调使用 NVIDIA Nsight Compute 等工具进行性能分析。对于实际查询，资源指向了 COLMAP MVS CUDA 项目。

PyTorch 持续在 GPU 上运行：确认 PyTorch 操作完全保留在 GPU 上，强调了 conv2d、relu 和 batchnorm 等操作的无缝和异步特性，并否定了与 CPU 交换数据的必要性，除非调用了依赖同步的操作。

Tensor Core 演进，GPU 辩论升温：关于 Tensor Cores 的讨论显示，从 3000 系列到 4000 系列性能翻倍。关于成本与速度的辩论中，4070 Ti Super 成为焦点，因其在成本和下一代功能之间取得了平衡，尽管其设置比旧款更复杂。

CUDA 学习成为教育焦点：提供了一个 Google Docs 链接用于章节讨论，而文档稀缺的 Kernel 代码优化（如 flash decoding）成为客座讲师如 @tri_dao 的潜在课题。

提及 CUDA 的教学潜力：社区强调了 CUDA kernel 实现的教育前景，暗示将其纳入大学课程，并指向对并行编程的启发式探索。建议包括利用 llm.c 作为课程材料。

学习 CUDA 的悦耳旋律：“Lecture 15: CUTLASS” 已在 YouTube 上发布，采用了具有经典游戏风格的新片头音乐，可在该 Spotify 链接试听。

混合精度势头强劲：微软的 BitBLAS 库因其在促进量化 LLM 部署方面的潜力而受到关注，TVM 被考虑作为端侧推理的后端，以及像 triton i4 / fp16 融合 gemm 这样的混合精度操作。

LLM 中的精度与速度之辩：FP8 的 29.5ms 性能测量结果与 BF16 的 43ms 相比，引发了关于降低精度的潜力和局限性的讨论。指出了跨批次大小（batch sizes）确定性损失的重要性，损失的不一致性促使了对 CUBLAS_PEDANTIC_MATH 和中间激活数据的调查。

Eleuther Discord

推动图像模型开源工作：开源生成式图像模型竞技场 ImgSys 正式发布，详细的偏好数据可在 Hugging Face 上获取。此外，专注于大语言模型（LLM）思维链（CoT）提示的 Open CoT Leaderboard 也已发布，结果显示增强推理模型可以提升准确率，尽管 GSM8K 数据集局限于单答案问题的局限性被视为一个缺点。

AI 缩放与解码创新：研究提出了一种无需标签或演示即可根据行为原则调整 LLM 的方法，具体为一种名为 SAMI 的算法；以及 NVIDIA 的 Align Your Steps，旨在加快 DMs 的采样速度 Align Your Steps 研究。Facebook 详细介绍了一个拥有 1.5 万亿参数的推荐系统，性能提升了 12.4% Facebook 推荐系统论文。在探讨版权问题时，提出了一种利用博弈论解决生成式 AI 问题的经济学方法。对 AI 模型隐私漏洞的担忧日益增加，特别是关于提取训练数据的见解。

关于 AI 缩放定律（Scaling Laws）的思考：一场关于 AI Scaling Law 模型的激烈讨论强调了拟合方法，以及零点附近的残差是否暗示了更优的拟合，以及在分析转换过程中省略数据的潜在影响 Math Stack Exchange 关于最小二乘法的讨论。有人主张在分析中剔除较小的模型，因为它们会扭曲结果，同时一份评论指出了 Chinchilla 论文中置信区间解释的潜在问题。

Tokenization 变得令人困惑：Tokenization 的实践引发了辩论，突显了不同 Tokenizer 版本之间的一致性问题以及空格 Token 切分的变化。用户对 tokenizers 开发者在发生破坏性变更时缺乏沟通表示沮丧。

结合 Token 见解与模型开发：GPT-NeoX 开发者正在着手集成 RWKV，并通过 JIT 编译、fp16 支持、流水线并行和模型组合需求来更新模型 GPT-NeoX Issue #1167, PR #1198。他们力求确保 AMD 兼容性以提供更广泛的硬件支持，并审议了在 Tokenizer 版本变更的情况下保持模型训练一致性的问题。

Stability.ai (Stable Diffusion) Discord

写实主义肖像画脱颖而出：Juggernaut X 和 EpicrealismXL 在 Forge UI 中生成写实肖像方面表现出色，而 RealVis V4.0 因其通过简单的提示词即可交付高质量结果而受到关注。Juggernaut 陡峭的学习曲线被用户视为一个令人沮丧的点。

Forge UI 解决了内存难题：一场生动的辩论集中在 Forge UI 的内存效率与 A1111 的性能权衡上，大家公认 Forge UI 更适合显存（VRAM）较小的系统。尽管部分用户偏好 A1111，但对 Forge UI 潜在内存泄漏的担忧依然存在。

混合搭配以精通模型：用户正在探索通过结合 Lora 训练或 dream booth 训练来优化模型输出的高级方法。这种方法对于专注于特定风格或物体并提高精度特别有用，而 inpaint 等技术则为面部细节带来了额外的改进。

Stable Diffusion 3 的期待与访问：社区对即将推出的 Stable Diffusion 3.0 充满期待，讨论了有限的 API 访问权限，并推测了全面使用的潜在成本。目前对 SD3 的访问似乎仅限于拥有有限免费额度的 API，这引发了关于未来许可和使用的讨论。

分辨率拯救计划：为了解决 Stable Diffusion 输出模糊的问题，提出了在 Forge 中创建更高分辨率和使用 SDXL 模型作为解决方案。社区正在剖析微调的潜力，利用 Kohya_SS 等工具来指导那些希望挑战图像清晰度和细节极限的用户。

HuggingFace Discord

Llama 3 在基准测试中表现卓越：Llama 3 树立了新的性能标准，它在 15 万亿个 token 上进行了训练，并在 1000 万条人类标注数据上进行了微调。其 70B 版本在 MMLU 基准测试中战胜了其他开源 LLM。该模型独特的基于 Tiktoken 的分词器以及 SFT 和 PPO 对齐等改进为商业应用铺平了道路，相关的 demo 和见解已在配套的博客文章中发布。
OCR 在文本提取中占据主导地位：为了实现更有效的 OCR，推荐使用 PaddleOCR 等替代 Tesseract 的方案，特别是与语言模型后处理结合使用时可以显著提高准确性。文中还探讨了将 OCR 与实时视觉数据集成用于对话式 LLM 的可能性，尽管也指出了处理过程中存在的幻觉（hallucination）挑战。
LangChain 赋能 Agent 记忆：开发者正在整合 LangChain 服务，以纯文本形式高效存储对话事实，这一方法源自一段教学 YouTube 视频。该策略确保了 Agent 之间轻松的知识传递，无需复杂的 embeddings，从而促进了模型间的知识迁移。
NorskGPT-8b-Llama3 在多语言领域引起轰动：Bineric AI 推出了三语模型 NorskGPT-8b-Llama3，这是一个专为对话场景量身定制的大语言模型，在 NVIDIA 强大的 RTX A6000 GPU 上训练完成。社区受邀对该模型的性能进行测试并分享结果，该模型可在 Hugging Face 上获取，LinkedIn 的公告详细介绍了发布信息。
Diffusion 的挑战与社区支持：AI 工程师们表达了在使用涉及 DiffusionPipeline 的模型时遇到的问题并寻求支持，特别是使用 Hyper-SD 生成写实图像时的具体困扰。社区为解决这些问题提供了建议，推荐使用 ComfyUI IPAdapter plus 社区以获得更好的写实图像输出支持，并提供了解决 DiffusionPipeline 加载问题的协作方案。

LAION Discord

MagVit2 的更新困境：工程师们对 magvit2-pytorch 仓库提出了质疑；由于该仓库最后一次更新是在三个月前，人们对其能否达到原始论文中的评分持怀疑态度。

创意 AI 正在走向主流？：Adobe 发布了 Adobe Firefly Image 3 Foundation Model，声称在创意 AI 领域取得了重大飞跃，提供了增强的质量和控制能力，目前已在 Photoshop 中开启实验性访问。

分辨率革命还是简单的解决方案？：HiDiffusion 承诺以极少的代码改动提升 Diffusion 模型的分辨率和速度，引发了关于其适用性的讨论；然而，一些人对仅通过“一行代码”就能实现改进表示怀疑。

苹果的视觉识别尝试：一名成员分享了关于 Apple CoreNet 的见解，这似乎是一个专注于 CLIP 级别视觉识别的模型，讨论中未提供进一步的详细说明或直接链接。

MoE 迎来智能化改造：全新的 Multi-Head Mixture-of-Experts (MH-MoE) 通过改进专家激活机制增强了 Sparse MoE (SMoE) 模型，提供了对语义更细腻的分析理解，详情见近期研究论文。

OpenRouter (Alex Atallah) Discord

MythoMax 和 Llama 的问题已解决：MythoMax 13B 曾遭遇响应质量不佳的故障，现已修复，鼓励用户在专用线程中发布反馈。此外，由于美国区域网络问题以及相关的 Hugging Face 宕机，Llama 2 tokenizer 模型 出现了一系列 504 错误——目前正在移除该依赖项以减少未来此类事件的发生。
Deepgaze 发布单行代码 GPT-4V 集成：Deepgaze 的发布支持通过单行代码将文档无缝输入 GPT-4V，这吸引了一位正在撰写多语言研究论文的 Reddit 用户，以及另一位寻求工作活动自动化的用户，相关讨论见于 ArtificialInteligence subreddit。
Fireworks AI 提升模型推理服务效率：围绕 Fireworks AI 高效服务方法的讨论包括对 FP8 quantization 的推测，以及它与加密货币挖矿的对比，并引用了他们的博客文章，该文章介绍了在无损情况下比原生 LLM 快 4 倍的服务速度。
Phi-3 Mini 模型进入开源领域：具有 4K 和 128K 上下文能力的 Phi-3 Mini Model 现已在 Apache 2.0 协议下公开发布，社区正在讨论将其整合进 OpenRouter。该模型的发布引发了对其架构的好奇，详情见：Snowflake 上的 Arctic 介绍。
Wizard 的潜力与 Prompt 难题：OpenRouter 的 Wizard 模型因其对正确 Prompt 的响应能力而受到赞赏，同时也有关于 Llama 3 缺失 json mode 的疑问。聊天中讨论的问题包括各供应商对 logit_bias 的支持，以及 Mistral Large 的 Prompt 处理，此外还包括对 OpenRouter 障碍（如 rate_limit_error）的排查。

Modular (Mojo 🔥) Discord

关于意识 AI 的基准测试与大脑辩论：针对 AI 实现人工意识 (artificial consciousness) 的怀疑论被提出，讨论集中在是需要量子或三进制计算 (quantum or tertiary computing) 的进步，还是仅靠软件创新。提到了量子计算 (quantum computing) 因其不确定性在 AI 开发中的局限性，以及很少被提及的三进制计算 (tertiary computing)，并附上了早期三进制计算机 Setun 的链接。

随机数生成得到优化：对 random.random_float64 函数性能的深入研究表明其并非最优，引发了社区在 ModularML Mojo GitHub 上提交 Bug 报告。对未来 RNG 的建议是同时包含高性能和加密安全的选项。

指针与参数成为焦点：Mojo 社区贡献者分享了使用指针和 traits 的见解及代码示例，讨论了 UnsafePointer 的段错误 (segfaults) 问题以及 nightly 和 stable Mojo 版本之间的实现差异。分享了一个用于 Mojo 的通用快速排序算法 (generic quicksort algorithm)，展示了指针和类型约束在实践中是如何工作的。

性能分析与堆分配的挑战：在 Modular 的 #[community-projects] 中，分享了使用 xcrun 跟踪堆分配的技术以及性能分析面临的挑战，反映了 AI 工程师在优化中遇到的实际困难。介绍了一个新的社区项目 MoCodes，这是一个在 Mojo 中开发的计算密集型纠错编解码 (Error Correction De/Coding) 框架，可通过 GitHub 上的 MoCodes 访问。

字符串与编译器的秘密操作：在 #[nightly] 中，由于 C 互操作性问题，人们对将空字符串视为有效以及区分 String() 与 String("") 表示担忧。提到了一个关于打印空字符串导致后续打印损坏的 Bug 报告，以及关于以 null 结尾的字符串问题及其对 Mojo 编译器和标准库影响的讨论，并引用了 ModularML Mojo pull request 中的特定 stdlib 更新。

Mojo 在 PyConDE 迎来里程碑：Mojo 被描述为“Python 更快的表亲”，在 PyConDE 上亮相，由 Jamie Coombes 发表演讲纪念其发布一周年。探讨了社区情绪，指出包括 Rust 社区在内的一些领域对 Mojo 的潜力持怀疑态度，演讲内容可在此处访问。

OpenAccess AI Collective (axolotl) Discord

Llama-3 的学习曲线：axolotl-dev 频道中的观察指出，学习率过高 (increased learning rate) 是 llama3 BOS 修复分支中损失逐渐发散的原因。为了缓解由于样本打包 (sample packing) 效率低下导致的 yi-200k 模型显存溢出 (OOM) 问题，建议转向 paged Adamw 8bit 优化器。

医疗 AI 取得进展：Internist.ai 7b 是一款专注于医疗领域的模型，在经过 10 名医生的盲测评估后，其表现已超越 GPT-3.5，标志着行业正转向更精选的数据集和专家参与的训练方法。可在 internistai/base-7b-v0.2 获取该模型。

Phi-3 Mini 对 GPU 的巨大需求：Phi-3 模型的更新在 general 频道引发讨论，透露其需要多达 512 块 H100-80G GPUs 才能进行充分训练——这与最初对其资源需求较低的预期形成鲜明对比。

优化过载：community-showcase 频道的 AI 爱好者庆祝了 Apple 发布 OpenELM，以及围绕 Snowflake 的 408B Dense + Hybrid MoE 模型的讨论。此外，技术爱好者也对 PyTorch 2.3 发布的新功能感到兴奋。

工具包之争 – Unsloth vs. Axolotl：在 rlhf 频道中，成员们权衡了 Unsloth 和 Axolotl 之间的适用性，考虑了 Sequential Fine-Tuning (SFT) 和 Decision Process Outsourcing (DPO) 的应用，以选择最有效的库。

LlamaIndex Discord

CRAG 提供增强型 RAG 纠错：一种名为 Corrective RAG (CRAG) 的技术在检索文档时增加了一个 reflection 层，将文档分为 “正确 (Correct)”、“错误 (Incorrect)” 和 “模糊 (Ambiguous)” 三类，以优化 RAG 流程，详见这篇富有启发性的 Twitter 帖子。
Phi-3 Mini 迎接挑战：据一份 benchmark cookbook 显示，微软的 Phi-3 Mini (3.8B) 据称在 RAG 和 Routing 等任务上与 Llama 3 8B 旗鼓相当——相关见解分享在 Twitter 上。
触手可及地运行 Phi-3 Mini：用户可以使用 LlamaIndex 和 Ollama 在本地运行 Phi-3 Mini，利用现成的 notebook 并享受即时兼容性，正如这篇推文中宣布的那样。
展望具有高级规划能力的 LLM 未来：工程讨论延伸到了一项提案，即 Large Language Models (LLMs) 能够跨可能的未来场景进行规划，这与当前的顺序方法形成对比。该提议标志着向更复杂的 AI 系统设计迈进了一步，更多信息见 Twitter。
RAG 聊天机器人限制策略辩论：工程师们就如何将基于 RAG 的聊天机器人仅限制在文档上下文中进行了热烈交流，策略包括 prompt engineering 和检查聊天模式。
优化知识图谱索引：一位用户在使用知识图谱工具 Raptor 时遇到了索引时间过长的问题，引发了关于高效文档处理方法的建议。
对持久化聊天历史的需求：社区成员希望在 LlamaIndex 中实现跨会话维护聊天历史的方法，提到的选项包括 chat_engine.chat_history 的序列化或采用 chat store 解决方案。
确认 Pinecone Namespace 可访问性：针对通过 LlamaIndex 访问现有 Pinecone namespace 的疑问得到了解答，确认了其可行性，前提是 Pinecone 中存在 text key。
缩放检索分数以增强融合：对话转向了如何根据来自 dense retriever 的余弦相似度校准 BM25 分数的方法，参考了 hybrid search fusion 论文和 LlamaIndex 内置的 query fusion retriever 功能。

Interconnects (Nathan Lambert) Discord

辩论 AGI 的本质：Nathan Lambert 通过为即将发表的文章提出发人深省的标题，引发了关于 AGI (通用人工智能) 意义的对话，触发了对该术语意义及其周围炒作的讨论。人们对 AGI 争议性的品牌化表示担忧，如对话中将 AGI 等同于宗教信仰，以及在法律上定义它的不切实际性（如 OpenAI 和 Microsoft 潜在的合同冲突）。
GPU 资源博弈：围绕 AI 实验的 GPU 资源分配展开了内部讨论，暗示可能存在分层分配系统。对话将 GPU 优先级与团队压力联系起来，引导研究转向实际的 benchmark 而非理论探索，并指出使用如 Phi-3-128K 等未命名模型进行无偏见测试。
机器学习思想的熔炉：成员们讨论了新研究想法的起源，肯定了同行讨论在培养创新方面的作用，并将 Discord 等平台视为交流的沃土。关于 LMEntry 和 IFEval 等 benchmark 持久性的辩论浮出水面，提到了 HELM 的内省能力，但在其概念寿命和整体影响上缺乏共识。
与 Ross Taylor 的 Twitter 互动：Ross Taylor 快速删除推文的倾向既引起了乐趣也引起了好奇，导致 Nathan Lambert 必须应对采访这样一位谨慎人物的挑战（推测是因为 NDA 而守口如瓶）。此外，对“AGI”一词的喜剧性屏蔽防止了一位成员参与辩论，从而平息了围绕该概念的不断喧嚣。
频道中的意外发现与内容交付：公会内的互动揭示了 memes 频道的启动、mini 模型和 128k context length 模型在 Hugging Face 上的到来，以及为名字像澳大利亚政客的人启用网页搜索的幽默后果。此外，访问“Reward is Enough”论文的一个简短问题暗示了潜在的可访问性担忧，随后被确定为个人故障。

OpenInterpreter Discord

TTS 创新与 Pi 的实力：工程师们讨论了 RealtimeTTS，这是一个用于实时文本转语音的 GitHub 项目，被认为是比 ElevenLabs 等产品更经济实惠的解决方案。一份关于在运行 Ubuntu 的 Raspberry Pi 5 8GB 上入门的指南受到了关注，同时分享了在该硬件上使用 Open Interpreter 的专业经验，详见 GitHub 仓库。

OpenInterpreter 探索云端：有人表示对在云平台上部署 OpenInterpreter O1 感兴趣，提到了 brev.dev 的兼容性并咨询了 Scaleway。随着 Home Assistant 推出新的语音遥控器，本地语音控制取得了进展，这暗示了对硬件兼容性的影响。

迈向 AI 硬件前沿：成员们分享了 01 Light 设备的制造进展，包括宣布将于 4 月 30 日举行活动以讨论细节和路线图。对话还涉及在外部设备上利用 AI，例如 “AI Pin project”，以及 Jordan Singer 在 Twitter 上发布的一个示例。

加速 AI 推理：讨论了使用 OpenVINO Toolkit 在 Stable Diffusion 实现中优化 AI 推理的潜力。跨平台的 ONNX Runtime 因其在加速各种框架下的 ML 模型方面的作用而被提及，而开源 MLOps 平台 MLflow 则因其简化 ML 和生成式 AI 工作流的能力而被特别指出。

产品更新与协助：分享了关于执行 Open Interpreter 代码的更新，用户被指示使用 --no-llm_supports_functions 标志，并检查软件更新以修复本地模型问题。此外，还发出了针对 Open Empathic 项目的求助，强调需要扩大该项目的类别。

Latent Space Discord

Hydra 进入配置管理领域：AI 工程师们正积极采用 Hydra 和 OmegaConf 来更好地管理机器学习项目中的配置，并引用了 Hydra 对机器学习友好的特性。

Perplexity 获得巨额融资：Perplexity 已完成 6270 万美元的大规模融资，估值达到 10.4 亿美元，投资者包括 NVIDIA 和 Jeff Bezos，这预示着 AI 驱动的搜索解决方案拥有强劲的前景。Perplexity 投资新闻

AI 工程手册发布：Chip Huyen 的新书 AI Engineering 引起了轰动，书中强调了利用基础模型（foundation models）构建应用的重要性，并优先考虑 AI 工程技术。探索 AI 工程

去中心化 AI 开发势头强劲：Prime Intellect 宣布了一项创新基础设施，旨在促进去中心化 AI 开发和全球协作模型训练，并完成了 550 万美元的融资。Prime Intellect 的方法

加入愿景课程：HuggingFace 推出了一门新的社区驱动的计算机视觉课程，邀请从初学者到寻求紧跟领域进展的专家在内的所有人员参与。计算机视觉课程邀请

讨论 TimeGPT 的创新：美国论文俱乐部正在组织一场关于 TimeGPT 的研讨会，探讨时间序列分析，届时论文作者和特邀嘉宾将出席，为深入学习提供独特机会。注册 TimeGPT 活动

tinygrad (George Hotz) Discord

深入了解 tinygrad 的图表：工程师们询问了如何为 PRs 创建图表，得到的回复是使用 Tiny Tools Client 作为生成此类可视化效果的方法。
在 tinygrad 上集成 Fawkes 是可行的：讨论涉及了使用 tinygrad 实现 Fawkes 隐私保护工具的可能性，并对该框架的能力进行了探讨。
tinygrad 的 PCIE Riser 困境：关于高质量 PCIE risers 的讨论达成共识，认为选择 mcio 或定制的 cpayne PCBs 可能比使用 risers 更可靠。
记录 tinygrad 的 Ops：有人呼吁为 tinygrad operations 提供清晰的文档，强调需要理解每个操作的预期行为。
整合 Di Zhu 的优秀 tinygrad 教程：George Hotz 批准了链接到 Di Zhu 编写的指南，称其为关于 tinygrad internals（如 uops 和 tensor core support）的有用资源，该资源将被添加到 tinygrad 的主文档中。

DiscoResearch Discord

Mixtral 领先：根据德国的评估指标，Mixtral-8x7B-Instruct-v0.1 在 RAG 评估中表现优于 Llama3 70b instruct；有人建议添加 loglikelihood_acc_norm_nospace 作为指标以解决格式差异，在调整模板后，DiscoLM German 7b 得到了不同的结果。评估结果和评估模板可供进一步查看。

Haystack 的动态查询：Haystack LLM 框架已增强，可以将工具索引为 OpenAPI 规范，根据用户意图检索 top_k 服务，并动态调用正确的工具；这在动手实践 notebook 中有示例。

批量推理难题：一位成员思考如何通过拥有 2 个 A100 的本地 Mixtral 设置发送批量 prompts，TGI 和 vLLM 是潜在的解决方案；其他人则更倾向于使用 litellm.batch_completion 以提高效率。对于可扩展的推理，提到了 llm-swarm，尽管它在双 GPU 设置中的必要性仍有待商榷。

DiscoLM 细节研讨：深入探讨了 DiscoLM 使用双 EOS token 的情况，解决了多轮对话管理问题，而 ninyago 通过去掉 attention mask 并利用 model.generate 简化了 DiscoLM_German 的编码问题。为了增加输出长度，建议改用 max_new_tokens 而非 max_tokens；尽管模型改进在即，仍欢迎社区对 DiscoLM 量化做出贡献。

语法选择困扰：社区讨论了在德语提示 DiscoLM 模型时使用非正式的 “du” 与正式的 “Sie” 的影响，强调了可能影响语言模型交互的文化细微差别。

LangChain AI Discord

提升你的 RAG Chatbot：针对 RAG chatbot 的增强功能是热门话题，用户探讨了添加网页搜索结果显示以增强数据库知识的方法。还讨论了创建快速聊天界面以接入向量数据库的策略，并提到了 Vercel AI SDK 和 Chroma 等工具作为潜在的加速器。

像专家一样处理 JSON：用户寻求在嵌套 JSON 结构中为 Milvus vector database 定义 metadata_field_info 的方法，这表明社区正在深入研究高效的数据结构化和检索。

通过新系列学习 Langchain Chain 类型：一个新的 Langchain 视频系列上线，详细介绍了 API Chain 和 RAG Chain 等不同类型的 Chain，以帮助用户创建更细致的推理应用。该教学内容可在 YouTube 上观看，旨在扩展 AI 工程师的工具箱。

开创 RAG 框架的统一：一位成员关于通过 Langchain 的 LangGraph 适配和改进 RAG 框架的讨论，强调了自适应路由和自我修正等主题。这种创新方法在分享的 Medium 文章中得到了详细阐述。

RAG 评估详解：RAGAS 平台重点介绍了一篇评估 RAG 的文章，并邀请大家对产品开发进行反馈和集思广益。鼓励社区通过社区页面和文章链接提供见解并参与讨论。

Datasette - LLM (@SimonW) Discord

Phi-3 Mini 势头强劲：讨论重点关注了 Microsoft 的 Phi-3 mini 3.8B 模型，因其体积紧凑（Q4 版本仅占用 2.2GB）以及在 GitHub 上管理 4,000 token 上下文的能力，并以 MIT license 发布。用户预见到其在 应用开发 和桌面功能方面的巨大潜力，特别是运行能够处理结构化数据任务和编写 SQL 查询的轻量级模型。
HackerNews 摘要脚本升级：HackerNews 摘要生成脚本因结合了 Claude 和 LLM CLI tool 来压缩冗长的 Hacker News 帖子而受到关注，从而提高了工程师的生产力。有人提出了关于通过 Python API 实现等同于 llm embed-multi cli 功能的问题，表明了对程序化模型交互更大灵活性的需求。
LLM Python API 简化 Prompt 机制：工程师们分享并讨论了 LLM Python API 文档，该文档提供了使用 Python 执行 Prompt 的指南。这可以通过允许工程师自动化和自定义与各种 LLM 模型的交互来简化工作流。
利用 Phi-3 mini 施展 SQL 魔法：人们对利用 Phi-3 mini 模型生成针对 SQLite schema 的 SQL 产生了浓厚兴趣，并考虑将其作为 Datasette Desktop 等工具的插件集成。尽管任务性质复杂，但关于创建物化视图的实际测试获得了积极反馈。
模型执行中的优化序曲：关于以更抽象、后端无关的方式使用 LLM 代码的方法论文档的查询，表明了工程师在优化部署和管理机器学习模型方面的共同努力。虽然缺少相关文档的直接引用，但社区的探索指向了为各种应用寻求可扩展且统一的代码库的趋势。

Cohere Discord

Cohere 的白名单困扰与 CLI 技巧：一位用户寻求有关 Cohere API IP 范围的信息，并得到了一个特定 IP：34.96.76.122 作为临时解决方案。建议使用 dig 命令获取更新，这反映了在专业设置中对清晰白名单文档的需求。

AI 职业生涯的贤者建议：在公会内部，大家一致认为，在 AI 职业发展中，扎实的技术技能和表达能力比人脉更重要。这突显了社区对深度专业知识价值高于单纯关系的共识。

提升你的 LLM 水平：有人对提升 Machine Learning 和 LLM 技能感到好奇，群组给出的建议强调了解决问题和寻求现实世界灵感的重要性。这强调了解决实际问题或受纯粹好奇心驱动的工程思维。

Cohere 通过开源工具包大展身手：Cohere 的 Coral 应用已开源，激励开发者添加自定义数据源并将应用部署到云端。Cohere Toolkit 现已发布，助力社区在各种云平台上利用 Cohere 模型进行创新。

Cohere、Command-r 与虚拟指南：由于感知到优于 ChatGPT 3.5 的优势，在 BotPress 中使用 Cohere Command-r 配合 RAG 引起了热议。此外，还分享了一个针对迪拜投资与旅游的 AI Agent 概念，该 Agent 可以与 Google Maps 和 www.visitdubai.com 进行对话。这反映了人们对针对特定任务和区域服务微调 LLM 应用的兴趣日益增长。

Skunkworks AI Discord

GGUF 助力 Whisper 突破 18k 取得胜利：一位公会成员使用 GGUF 实现了 18k Token 的摘要，报告效果极佳，但在线性扩展（linear scaling）方面遇到了困难——经过四天的调整仍未见成效。
LLAMA 跃升至 32k Token：llama-8b 模型在 32k Token 关卡的表现受到称赞，并引用了一个 Hugging Face 仓库（nisten/llama3-8b-instruct-32k-gguf），详细介绍了通过 YARN scaling 成功实现的扩展。
关注多语言 OCR 需求：有人呼吁为代表性不足的语言提供 OCR 数据集，这引起了人们对文档类型数据中多语言支持必要性的关注。
LLM 获得超网络增强：一位成员重点介绍了一篇文章，讨论了通过额外的 Transformer blocks 增强 LLM 的能力，这得到了关于其有效性的认同，并指出其与 Stable Diffusion 社区中的“超网络（hypernetworks）”有相似之处。
现实世界的 AI 需要现实世界的测试：分享了一个简单而有影响力的提醒——对最智能的模型进行测试至关重要，强调动手实践的实证方法是评估 AI 性能的关键。

Mozilla AI Discord

Meta-Llama 中的详细提示词困扰：尝试在 Meta-Llama 3-70B 的 llamafile 中使用 –verbose-prompt 选项导致了未知参数错误，这让试图利用此功能增强提示词可见性的用户感到困惑。
面向后端开发者的无头 Llamafile 设置：工程师们一直在交流将 Llamafile 配置为无头（headless）运行后端服务的技巧，采用绕过 UI 并在备选端口上运行 LLM 的策略以实现无缝集成。
Llamafile 无浏览器隐身运行：分享了一个在没有任何浏览器交互的情况下以服务器模式运行 Llamafile 的实用指南，利用 Python 中的 subprocess 与 API 交互并管理多个模型实例。
大内存机器上的 Mlock 故障：一位用户报告在配置充裕（Ryzen 9 5900 和 128GB RAM）的系统上出现 mlock 失败，具体为 failed to mlock 90898432-byte buffer，这表明可能存在影响 Mixtral-Dolphin 模型加载的 32 位应用程序限制。
外部权重：Windows 问题的变通方案：针对 Windows 上的 mlock 问题，提出的一种解决方案是利用外部模型权重，使用命令行调用 llamafile-0.7.exe 并配合来自 Mozilla-Ocho GitHub 仓库的特定标志，尽管 mlock 错误似乎在不同模型中依然存在。

AI21 Labs (Jamba) Discord

Jamba 的资源需求曝光：一位用户询问了 Jamba 与 LM Studio 的兼容性，强调其内存容量足以与 Claude 匹敌，引起了广泛关注。然而，另一位用户指出了在 RAM 低于 200GB 且缺乏强力 GPU（如 NVIDIA 4090）的系统上运行 Jamba 的挑战。

呼吁合作应对 Jamba 的需求：为 Jamba 配置充足的 Google Cloud 实例存在困难，这促使人们呼吁通过协作来解决这些资源分配问题。

不当内容标记：群组收到了关于可能违反 Discord 社区准则的帖子警示，其中包括推广 Onlyfans 泄露内容及其他分级材料。

LLM Perf Enthusiasts AI Discord

GPT-4 准备在 4 月绽放：随着新的 GPT 版本定于 4 月 29 日发布，期待感不断升温，一条推文暗示升级工作正在进行中。
Google AI 蓄势待发：Google 的 Gemini 算法正准备发布，目标同样定在 4 月底，可能是 29 日或 30 日；日期可能会有变动。
超越文字游戏的性能奇迹：一位 AI 爱好者指出，即使没有充分利用提供的上下文，目前的工具在效率和能力方面也优于 GPT。
AI 社区因发布消息而沸腾：关于 OpenAI 和 Google 预期 AI 更新的讨论预示着竞争激烈的格局，预计很快会有接连不断的发布。
推文预告技术进展：@wangzjeff 分享的一条关于 AI 相关开发的推文引发了兴趣，但在没有更多上下文的情况下，其影响尚不明确。

Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

PART 2: 频道详细摘要与链接

Unsloth AI (Daniel Han) ▷ #general (929 messages🔥🔥🔥):

Snowflake 发布巨兽级模型：Snowflake 展示了其拥有 480B 参数的海量模型 Arctic，该模型采用了新颖的稠密-MoE 混合架构（dense-MoE hybrid architecture）。虽然其规模令人印象深刻，但一些用户指出它对于日常使用并不实用，可能更多被视为一种噱头或“恶搞模型”。
PyTorch 2.3 发布引发疑问：新的 PyTorch 2.3 版本包含了对 torch.compile 中用户定义 Triton kernels 的支持，引发了人们对其将如何影响 Unsloth 性能的好奇。
微调 Llama 3：Unsloth 发布了一篇关于微调 Llama 3 的博客，声称在性能和 VRAM 占用方面有显著改进。讨论围绕微调的简易性、指令模型微调的数据集大小细节，以及使用 Unsloth 工具添加新 Token 的方法展开。
“被诅咒的 Unsloth 表情包”出现：在一些轻松的建议和演示之后，新的自定义 Unsloth 表情符号被添加，例如 “<:__:1232729414597349546>” 和 “<:what:1232729412835872798>”，给用户带来了不少乐趣。
Colab Pro 的价值引发讨论：用户讨论了 Google Colab Pro 在测试和基准测试机器学习模型方面的优缺点。虽然它很方便，但对于需要更广泛计算资源的用户来说，可能存在更便宜的选择。

提及的链接:

Microsoft 发布 Phi-3，这是其迄今为止最小的 AI 模型：Phi-3 是今年三个小型 Phi 模型中的第一个。
Orenguteng/Lexi-Llama-3-8B-Uncensored · Hugging Face：未找到描述
PyTorch 2.3 发布博客：我们很高兴地宣布 PyTorch® 2.3（发布说明）发布！PyTorch 2.3 在 torch.compile 中提供了对用户定义 Triton kernels 的支持，允许用户迁移他们自己的 Triton kerne...
Kaggle Llama-3 8b Unsloth notebook：使用 Kaggle Notebooks 探索并运行机器学习代码 | 使用来自“无附加数据源”的数据
Google Colaboratory：未找到描述
Sonner：未找到描述
Kinesis 的 Advantage2 人体工程学键盘：轮廓设计，机械轴，完全可编程
我询问了 100 名开发者为什么他们交付速度不够快。这是我的发现 - Greptile：唯一真正理解你代码库的开发者工具。
使用 PyTorch FSDP 和 Q-Lora 高效微调 Llama 3：了解如何使用 Hugging Face TRL、Transformers、PEFT 和 Datasets，通过 PyTorch FSDP 和 Q-Lora 微调 Llama 3 70b。
拥抱、扩展再消灭 (Embrace, extend, and extinguish) - Wikipedia：未找到描述
Snowflake/snowflake-arctic-instruct · Hugging Face：未找到描述
来自 FxTwitter / FixupX 的推文：抱歉，该用户不存在 :(
论文页面 - 低比特量化的 LLaMA3 模型效果如何？一项实证研究：未找到描述
观看《宇宙》GIF - Cosmos Carl Sagan - 发现并分享 GIF：点击查看 GIF
《合金装备》痛苦 GIF - Metal Gear Anguish Venom Snake - 发现并分享 GIF：点击查看 GIF
来自 Jeremy Howard (@jeremyphoward) 的推文：@UnslothAI 现在请支持 QDoRA！:D
在 torch.compile 中使用用户定义的 Triton Kernels — PyTorch 教程 2.3.0+cu121 文档：未找到描述
使用 Unsloth 微调 Llama 3：通过 Unsloth 轻松微调 Meta 的新模型 Llama 3，支持 6 倍长的上下文长度！
microsoft/Phi-3-mini-128k-instruct · Hugging Face：未找到描述
博客：未找到描述
来自 Daniel Han (@danielhanchen) 的推文：Phi-3 Mini 3.8b Instruct 发布了！！68.8 MMLU 对比 Llama-3 8b Instruct 的 66.0 MMLU（Phi 团队自己的评估）。128K 长上下文模型也已发布，地址：https://huggingface.co/microsoft/Phi-3-mini-12...
博客：未找到描述
unsloth (Unsloth)：未找到描述
Unsloth 更新：支持 Mistral 及更多：我们很高兴发布对 Mistral 7B、CodeLlama 34B 以及所有其他基于 Llama 架构模型的 QLoRA 支持！我们添加了滑动窗口注意力 (sliding window attention)、初步的 Windows 和 DPO 支持，以及...
GitHub - zenoverflow/datamaker-chatproxy: 自动将任何兼容 OAI 的前端和后端之间交换的消息存储为 ShareGPT 数据集的代理服务器，用于训练/微调。：自动将任何兼容 OAI 的前端和后端之间交换的消息存储为 ShareGPT 数据集的代理服务器，用于训练/微调。 - zenoverflow/datamaker-chatproxy
GitHub - e-p-armstrong/augmentoolkit rong/augmentoolkit: Convert Compute And Books Into Instruct-Tuning Datasets</a>: 将计算和书籍转换为指令微调数据集 - e-p-armstrong/augmentoolkit
Meta Announces Llama 3 at Weights & Biases’ conference: 在 Weights & Biases 的 Fully Connected 会议上，Meta 的 GenAI 产品总监 Joe Spisak 展示了最新的 Llama 家族...
GitHub - unslothai/unsloth: Finetune Llama 3, Mistral & Gemma LLMs 2-5x faster with 80% less memory: 微调 Llama 3, Mistral 和 Gemma LLM，速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
Release PyTorch 2.3: User-Defined Triton Kernels in torch.compile, Tensor Parallelism in Distributed · pytorch/pytorch: PyTorch 2.3 发布说明亮点：torch.compile 中的用户自定义 Triton 内核，分布式中的张量并行。我们很高兴地宣布发布...

Answer.AI - 使用 FSDP QDoRA 高效微调 Llama 3

提到的链接：

Google Colaboratory: 未找到描述
Google Colaboratory: 未找到描述
Google Colaboratory: 未找到描述
imone/Llama-3-8B-fixed-special-embedding · Hugging Face: 未找到描述
Google Colaboratory: 未找到描述
imone (One): 未找到描述
yahma/alpaca-cleaned · Datasets at Hugging Face: 未找到描述
Brat-and-snorkel/ann-coll.py at master · pidugusundeep/Brat-and-snorkel: 支持文件。通过在 GitHub 上创建账户，为 pidugusundeep/Brat-and-snorkel 的开发做出贡献。
Supervised Fine-tuning Trainer: 未找到描述
ollama/docs/modelfile.md at main · ollama/ollama: 快速上手 Llama 3, Mistral, Gemma 以及其他大型语言模型。 - ollama/ollama
Full fine tuning vs (Q)LoRA: ➡️ 获取完整脚本（及未来改进）的终身访问权限：https://trelis.com/advanced-fine-tuning-scripts/ ➡️ Runpod 一键微调...
ollama/docs/import.md at 74d2a9ef9aa6a4ee31f027926f3985c9e1610346 · ollama/ollama: 快速上手 Llama 3, Mistral, Gemma 以及其他大型语言模型。 - ollama/ollama

提及的链接：

microsoft/Phi-3-mini-128k-instruct · Hugging Face：未找到描述
Fix: loading models with resized vocabulary by oKatanaaa · Pull Request #377 · unslothai/unsloth：此 PR 旨在解决 Unsloth 中加载调整过词表大小（resized vocabulary）的模型时遇到的问题。目前，由于张量形状（tensor shapes）不匹配，加载此类模型会失败。该修复方案...

提到的链接：

rabbit r1 - 立即订购: $199 无需订阅 - 人机交互的未来 - 立即订购
简介 - Open Interpreter: 未找到描述
Bloomberg - 你是机器人吗？: 未找到描述
Microsoft 正在阻止员工访问 Perplexity AI，它是其最大的 Azure OpenAI 客户之一: Microsoft 阻止员工访问 Perplexity AI，后者是主要的 Azure OpenAI 客户。
来自 Aravind Srinivas (@AravSrinivas) 的推文: 我们有很多 Perplexity 用户告诉我们，由于数据和安全方面的担忧，他们的公司不允许他们在工作中使用它，但他们真的很想用。为了解决这个问题，我们很高兴能推...
Bloomberg - 你是机器人吗？: 未找到描述
Money Mr GIF - 蟹老板金钱 - 发现并分享 GIF: 点击查看 GIF
叹气失望 GIF - 叹气失望哇 - 发现并分享 GIF: 点击查看 GIF
来自 Aravind Srinivas (@AravSrinivas) 的推文: 👀
GroqCloud: 体验世界上最快的推理
纽约岛人队 Alexander Romanov GIF - 纽约岛人队 Alexander Romanov 岛人队 - 发现并分享 GIF: 点击查看 GIF
来自 Ray Wong (@raywongy) 的推文: 因为你们非常喜欢我向 Humane Ai Pin 提问 20 分钟的视频，这里有 19 分钟（快 20 分钟了！），无剪辑，是我向 @rabbit_hmi R1 提问 AI 问题并使用其 co...
Yann LeCun - 维基百科: 未找到描述
来自 Aravind Srinivas (@AravSrinivas) 的推文: 4/23
Sam Altman & Brad Lightcap: 哪些公司会被 OpenAI 碾压？ | E1140: Sam Altman 是 OpenAI 的 CEO，该公司的使命是确保通用人工智能（AGI）造福全人类。OpenAI 是发展最快的...
ChatGPT vs Notion AI：针对您的 AI 写作需求的深度对比: 两个 AI 工具 ChatGPT 和 Notion AI 之间的全面对比，包括功能、定价和使用场景。
rabbit r1 开箱与上手: 在这里查看新款 rabbit r1：https://www.rabbit.tech/rabbit-r1 感谢 rabbit 合作拍摄此视频。在这些地方关注我以获取更新...

Links mentioned:

EXCLUSIVE: Perplexity is raising $250M+ at a $2.5-$3B valuation for its AI search platform, sources say: Perplexity 这家 AI 搜索引擎初创公司目前非常抢手。TechCrunch 获悉，该公司目前正在筹集至少 2.5 亿美元。
CNBC Exclusive: CNBC Transcript: Perplexity Founder & CEO Aravind Srinivas Speaks with CNBC’s Andrew Ross Sorkin on “Squawk Box” Today: 未找到描述

来自 Sawyer Merritt (@SawyerMerritt) 的推文

提及链接：

Adapting Language Models to Compress Contexts：基于 Transformer 的语言模型 (LMs) 是强大且应用广泛的工具，但其用途受限于有限的上下文窗口以及处理长文本的高昂计算成本...
Reddit - 深入探索：未找到描述
LLM 控制理论研讨会 (2024年4月)：敬请关注我们在预印本中的新结果，"What’s the Magic Word? A Control Theory of LLM Prompting"：https://arxiv.org/abs/2310.04444 关注 twitter...

未找到标题: 未找到描述
Susan Zhang (@suchenzang) 的推文: 它似乎喜欢通过自我对话偏离正确答案……
Answer.AI - 使用 FSDP QDoRA 高效微调 Llama 3: 我们发布了 FSDP QDoRA，这是一种可扩展且内存高效的方法，旨在缩小参数高效微调与全量微调之间的差距。
lluminous: 未找到描述
WebLINX: 具有多轮对话功能的真实世界网站导航
McGill-NLP/Llama-3-8B-Web · Hugging Face: 未找到描述
SanctumAI/Phi-3-mini-4k-instruct-GGUF · Hugging Face: 未找到描述
ifioravanti (@ivanfioravanti) 的推文: 快看！仅限英文的 Llama-3 70B 现在在 @lmsysorg Chatbot Arena 排行榜上与 GPT 4 turbo 并列第一 🥇🔝。我也试了几轮，8B 和 70B 对我来说始终是表现最好的模型。……
Michael Skyba (@sucralose__) 的推文: /careers/protective-intelligence-and-threat-anaylst: OpenAI 正在为公众响应做准备
vonjack/phi-3-mini-4k-instruct-llamafied · Hugging Face: 未找到描述
Nathan Lambert (@natolambert) 的推文: 我真心希望 Phi 3 能证明我们关于评测作弊（evaluation doping）的担忧是错的，它确实是一个出色的模型。但是，在对数算力与 MMLU 的关系图中作为一个离群值，确实有点可疑。
microsoft/Phi-3-mini-4k-instruct · Hugging Face: 未找到描述
Daniel Han (@danielhanchen) 的推文: Phi 3 (3.8B) 发布了！论文说它只是 Llama 架构，但在将其添加到 @UnslothAI 时我发现了一些怪癖：1. 滑动窗口（Sliding window）为 2047？Mistral v1 是 4096。那么 Phi mini 是否具有 SWA？（一个...
使用并行注意力和前馈网络设计研究 Transformer 中前馈网络的作用: 本文通过利用并行注意力和前馈网络设计（PAF）架构，并将其与……进行比较，研究了前馈网络（FFNs）在 Transformer 模型中的关键作用。
Marques Brownlee (@MKBHD) 的推文: 好的
tokenizer_config.json · microsoft/Phi-3-mini-128k-instruct at main: 未找到描述
Loss 不匹配 · Issue #344 · unslothai/unsloth: 团队好，我尝试使用 Unsloth 对 30B Llama 进行 QLoRA。我发现速度和内存使用方面没有太大改进。详情如下：seq_length=8192，batch size=1，使用 Flash Attention...
pyvene/pyvene/models/intervenable_base.py at f4b2fc9e5ddc66f9c07aefc5d532ee173c80b43e · stanfordnlp/pyvene: 用于通过干预理解和改进 PyTorch 模型的 Stanford NLP Python 库 - stanfordnlp/pyvene
Weyaxi (@Weyaxi) 的推文: 🦙 介绍 Einstein v6.1，基于全新的 Llama 3 模型，使用多样化、高质量的数据集进行有监督微调！💬 与 v5 相比有更多的对话数据。🚀 此模型也是无审查的……
Weyaxi/Einstein-v6.1-Llama3-8B · Hugging Face: 未找到描述
GitHub - stanfordnlp/pyreft: ReFT: 语言模型的表示微调: ReFT: 语言模型的表示微调 - stanfordnlp/pyreft

Continual Learning for Large Language Models: A Survey

提到的链接：

Functional Validators - Pydantic：未找到描述
GitHub - HK3-Lab-Team/PredCST: Learning Predictive Models of Concrete Syntax Tree from text.：从文本中学习具体语法树的预测模型。- HK3-Lab-Team/PredCST
JSON Schema - Pydantic：未找到描述
GitHub - noamgat/lm-format-enforcer: Enforce the output format (JSON Schema, Regex etc) of a language model：强制执行语言模型的输出格式（JSON Schema、Regex 等）- noamgat/lm-format-enforcer
Abstractions/abstractions/goap/shapes.py at main · furlat/Abstractions：用于抽象现实世界的 Pydantic 模型集合。通过在 GitHub 上创建账号为 furlat/Abstractions 的开发做出贡献。

提及的链接：

About：Math3ma 是一个关于数学的博客，由 Tai-Danae Bradley 维护。
The Build Your Own Open Games Engine Bootcamp — Part I: Lenses：这是一个多部分系列的第一篇，以简单的方式揭示了开放游戏引擎底层机制的神秘面纱。
Peace Out See Ya GIF - Peace out See ya Later - Discover & Share GIFs：点击查看 GIF
Super World Sim - HuggingChat：在 HuggingChat 中使用 Super World Sim 助手
Super World Sim - HuggingChat：在 HuggingChat 中使用 Super World Sim 助手
Abstractions/llmmorph.md at main · furlat/Abstractions：一个用于抽象现实生活 (IRL) 的 Pydantic 模型集合。通过在 GitHub 上创建账号为 furlat/Abstractions 的开发做出贡献。
New Study Reveals : Universe Appears Simulated：信息动力学第二定律及其对模拟宇宙假设的影响：[https://pubs.aip.org/aip/adv/article/13/10/105308/2915332/The-sec...

提及的链接：

👾 LM Studio - Discover and run local LLMs: 发现、下载并实验本地 LLM
LM Studio Beta Releases: 未找到描述
yam-peleg/Experiment7-7B · Hugging Face: 未找到描述
The unofficial LMStudio FAQ!: 欢迎来到非官方 LM Studio FAQ。在这里你可以找到我们在 LM Studio Discord 上最常被问到的问题的答案。（此 FAQ 由社区管理）。LM Studio 是一款免费的闭源软件...
GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.: 一个用于 Large Language Models 的 Gradio Web UI。支持 transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama 模型。- oobabooga/text-generation-webui

Links mentioned:

lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
Notion – 集笔记、任务、维基和数据库于一体的工作空间。: 一款将日常工作应用融合为一的新工具。它是为您和您的团队打造的一体化工作空间。
Undi95/Llama-3-Unholy-8B-GGUF · Hugging Face: 未找到描述
来自 LM Studio (@LMStudioAI) 的推文: 要使用正确的预设配置 Phi 3，请按照此处的步骤操作：https://x.com/LMStudioAI/status/1782976115159523761 ↘️ 引用 LM Studio (@LMStudioAI) @altryne @SebastienBubeck @emollick @altry...
microsoft/Phi-3-mini-4k-instruct-gguf · Hugging Face: 未找到描述
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face: 未找到描述
LoneStriker/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
microsoft/Phi-3-mini-128k-instruct · Hugging Face: 未找到描述
configs/phi_3.preset.json at main · lmstudio-ai/configs: LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs
DavidAU (David Belton): 未找到描述
GitHub - ggerganov/llama.cpp: C/C++ 环境下的 LLM 推理: C/C++ 环境下的 LLM 推理。通过在 GitHub 上创建账户为 ggerganov/llama.cpp 的开发做出贡献。
由 tristandruyen 添加 phi 3 聊天模板 · Pull Request #6857 · ggerganov/llama.cpp: 这添加了 phi 3 聊天模板。在我的测试中运行基本良好，使用了来自 #6851 的 commit 进行量化。我注意到的唯一问题是它似乎会输出一些额外的 <|end|&...
支持 Phi-3 模型 · Issue #6849 · ggerganov/llama.cpp: Microsoft 最近发布了 3 个变体（mini, small & medium）的 Phi-3 模型。我们能否为这个新模型系列添加支持。

bartowski/Llama-3-Smaug-8B-GGUF · Hugging Face

👾 LM Studio - Discover and run local LLMs

Edward Gibson: Human Language, Psycholinguistics, Syntax, Grammar & LLMs | Lex Fridman Podcast #426

cuda-matmult/main.cu at main · tspeterkim/cuda-matmult

提到的链接：

NVIDIA Nsight Compute：一个用于 CUDA 和 NVIDIA OptiX 的交互式分析器。
Profiler：未找到描述
colmap/src/colmap/mvs/patch_match_cuda.cu at main · Parskatt/colmap：COLMAP - 运动恢复结构 (Structure-from-Motion) 与多视图立体视觉 (Multi-View Stereo) - Parskatt/colmap

提到的链接：

Lecture 15: CUTLASS：未找到描述
Spin Cycle：Skybreak, BilliumMoto, Miyolophone · 歌曲 · 2023

GitHub - microsoft/BitBLAS: BitBLAS is a library to support mixed-precision matrix multiplications, especially for quantized LLM deployment.

提到的链接：

Twitch: 未找到描述
torch: Python 中的张量和动态神经网络，具有强大的 GPU 加速功能
8-bit Optimizers via Block-wise Quantization: 有状态优化器会随时间维护梯度统计信息，例如过去梯度值的指数平滑和（带动量的 SGD）或平方和（Adam）。这种状态可用于加速...
How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog: 在这篇文章中，我将迭代优化一个用 CUDA 编写的矩阵乘法实现。我的目标不是构建 cuBLAS 的替代品，而是深入...
Different outputs when using different batch size (only on cuda): 我将问题简化为一个非常简单的示例。该网络根据 Batch Size 产生不同的值（微小的十进制差异）。请注意，无论 Batch Size 如何，这些值在... 时保持一致
GitHub - KernelTuner/kernel_float: CUDA header-only library for working with vector types (half2, float4, double2) and reduced precision math (half, e5m2) inside kernel code: 用于在 Kernel 代码中处理向量类型（half2, float4, double2）和降低精度数学（half, e5m2）的 CUDA header-only 库 - KernelTuner/kernel_float
Fix build errors by adding compute capability flags to the makefile by PeterZhizhin · Pull Request #235 · karpathy/llm.c: 这修复了尝试编译新的半精度 Kernel 时的构建错误。新的 train/test/profile 需要计算能力 >8.0 (Ampere)
feat(attention_forward.cu): Gentle introduction to CuTe(cutlass) by FeSens · Pull Request #233 · karpathy/llm.c: 这是对使用 CuTe (Cutlass v3) 实现 Flash Attention 2 的非常浅显的介绍。之所以浅显是因为它尚未完成。目前进展：在 Query block, Ba... 之间分配工作
llm.c/dev/cuda/encoder_backward.cu at master · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
Second matmul for fully custom attention by ngc92 · Pull Request #227 · karpathy/llm.c: 目前仅在 /dev 文件中，因为对于主脚本我们还需要修改 backward。出于某种原因，我在这里的基准测试中看到了显著的加速，但在我尝试将其用于...
LLM9a: CPU optimization: 未找到描述
Courses: 未找到描述

Links mentioned:

Introducing the Open Chain of Thought Leaderboard: 未找到描述
imgsys.org | an image model arena by fal.ai: 未找到描述
fal-ai/imgsys-results · Datasets at Hugging Face: 未找到描述

Links mentioned:

SpaceByte: Towards Deleting Tokenization from Large Language Modeling: Tokenization 在大语言模型中被广泛使用，因为它能显著提高性能。然而，Tokenization 也带来了一些缺点，如性能偏差、增加的对抗性风险...
Extracting Training Data from ChatGPT: 未找到描述
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels: 在提示语言模型 (LM) 时，用户通常期望模型在各种任务中遵循一套行为原则，例如生成有见解的内容，同时避免有害或...
An Economic Solution to Copyright Challenges of Generative AI: 生成式人工智能 (AI) 系统在大型数据语料库上进行训练，以生成新的文本、图像、视频和其他媒体。人们越来越担心此类系统可能会侵犯...
MambaByte: Token-free Selective State Space Model: 无 Token 语言模型直接从原始字节中学习，并移除了子词 Tokenization 的归纳偏置。然而，在字节上运行会导致序列显著变长。在这种情况下，...
Align Your Steps: Optimizing Sampling Schedules in Diffusion Models: 扩散模型 (DMs) 已成为视觉领域及其他领域最先进的生成建模方法。DMs 的一个关键缺点是采样速度慢，依赖于...
Align Your Steps: Align Your Steps: 优化扩散模型中的采样调度
Profluent: 我们精通蛋白质设计的语言。
Simple linear attention language models balance the recall-throughput tradeoff: 最近的研究表明，基于 Attention 的语言模型在召回（Recall）方面表现出色，即能够将生成内容建立在上下文之前出现的 Token 之上。然而，基于 Attention 的模型效率...
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations: 大规模推荐系统的特点是依赖高基数、异构特征，并且需要每天处理数百亿的用户行为。尽管...
Zoology (Blogpost 2): Simple, Input-Dependent, and Sub-Quadratic Sequence Mixers: 未找到描述
A Thorough Examination of Decoding Methods in the Era of LLMs: 解码方法在将语言模型从 Next-token 预测器转变为实用的任务求解器方面发挥着不可或缺的作用。先前关于解码方法的研究主要集中在特定任务...
The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry: 线性 Attention 在提高 Transformer 效率方面显示出潜力，将 Attention 的二次复杂度降低到序列长度的线性复杂度。这为 (1) 训练线性...

Proving Convergence of Least Squares Regression with i.i.d. Gaussian Noise

Links mentioned:

Residual stream norms grow exponentially over the forward pass — LessWrong: Summary: For a range of language models and a range of input prompts, the norm of each residual stream grows exponentially over the forward pass, wit…
Residual stream norms grow exponentially over the forward pass — LessWrong: Summary: For a range of language models and a range of input prompts, the norm of each residual stream grows exponentially over the forward pass, wit…

提及的链接：

GitHub - RWKV/RWKV-infctx-trainer at rwkv-6-support：RWKV infctx 训练器，用于训练任意上下文长度，支持 10k 及以上！- GitHub - RWKV/RWKV-infctx-trainer at rwkv-6-support
Add Basic RWKV Block to GPT-NeoX · Issue #1167 · EleutherAI/gpt-neox：我们希望将 RWKV 添加到 gpt-neox：添加基础 RWKV 模块，不含 kernels，代码来自 https://github.com/BlinkDL/RWKV-LM 到 https://github.com/EleutherAI/gpt-neox/tree/main/megatron/model 添加 rwkv kernels A...
GitHub: Let’s build from here：GitHub 是超过 1 亿开发者共同塑造软件未来的地方。为开源社区做贡献，管理 Git 仓库，像专家一样审查代码，跟踪 bug 和功能...
Comparing main...rwkv-6-support · RWKV/RWKV-infctx-trainer：RWKV infctx 训练器，用于训练任意上下文长度，支持 10k 及以上！- Comparing main...rwkv-6-support · RWKV/RWKV-infctx-trainer
GitHub - SmerkyG/gpt-neox at rwkv：基于 DeepSpeed 库在 GPU 上实现模型并行自回归 Transformer。- GitHub - SmerkyG/gpt-neox at rwkv
flash-linear-attention/fla/ops/rwkv6/chunk.py at main · sustcsonglin/flash-linear-attention：在 Pytorch 和 Triton 中对最先进线性注意力模型的高效实现 - sustcsonglin/flash-linear-attention
add rwkv support by jahatef · Pull Request #1198 · EleutherAI/gpt-neox：此项已准备好接受审查。
add rwkv support by jahatef · Pull Request #1198 · EleutherAI/gpt-neox：此项已准备好接受审查。
[AMD] Supporting fused kernels build using JIT by R0n12 · Pull Request #1188 · EleutherAI/gpt-neox：此 PR 旨在为 AMD GPU 上的融合算子（fused kernels）启用 JIT 编译，以便相同的代码可以在 AMD 和 NVIDIA GPU 上运行。之前的 python setup.py install 方法在 hipifying 过程中存在问题...
add rwkv support by jahatef · Pull Request #1198 · EleutherAI/gpt-neox：此项已准备好接受审查。

提到的链接：

glif - fab1an 制作的 StableDiffusion 3：未找到描述
会员资格 — Stability AI：Stability AI 会员资格通过结合我们的一系列先进开源模型与自托管优势，为您的生成式 AI 需求提供灵活性。
来自 Christian Laforte (@chrlaf) 的推文：@rajdhakad_ @USEnglish215753 @StabilityAI @EMostaque 我们的计划是尽快先发布 API，以收集更多人类偏好数据，并验证我们的安全性改进不会导致质量...
GitHub - Snowflake-Labs/snowflake-arctic：通过在 GitHub 上创建账户，为 Snowflake-Labs/snowflake-arctic 的开发做出贡献。
Reddit - 深入探索：未找到描述
尝试这个免费 AI 视频（通过一个提示词制作 30 秒 AI 电影）：立即在此处尝试：https://noisee.ai/ 📧加入我的时事通讯 https://delightfuldesign.eo.page/w7tf5---👨‍🏫查看我的 AI 课程：https://www.udemy.com/user...
Reddit - 深入探索：未找到描述
社交媒体标题标签：社交媒体描述标签
GitHub - megvii-research/HiDiffusion：通过在 GitHub 上创建账户，为 megvii-research/HiDiffusion 的开发做出贡献。
未找到标题：未找到描述

提到的链接:

Pretraining on the Test Set Is All You Need：受近期展示的在精心策划的数据上预训练的小型 Transformer 语言模型潜力的启发，我们通过投入大量精力策划...
Snowflake Arctic St Demo - a Hugging Face Space by Snowflake：未找到描述
Llama 3-70B - HuggingChat：在 HuggingChat 中使用 Llama 3-70B 助手
Dinela GIF - Dinela - Discover & Share GIFs：点击查看 GIF
Hi Hello GIF - Hi Hello Greeting - Discover & Share GIFs：点击查看 GIF
meta-llama/Meta-Llama-3-70B-Instruct · Hugging Face：未找到描述
Google Colaboratory：未找到描述
Albert Einstein - HuggingChat：在 HuggingChat 中使用 Albert Einstein 助手
Tweet from abhishek (@abhi1thakur)：Phi-3 发布了！！！！ 🚀 当然，你已经可以使用 AutoTrain 对其进行微调了 🚀🚀🚀
Snowflake/snowflake-arctic-instruct · Hugging Face：未找到描述
Snowflake/snowflake-arctic-base · Hugging Face：未找到描述
AdaptLLM/medicine-chat · Hugging Face：未找到描述
Do any external graphics cards (eGPUs) work with an M1 Mac, and if not -- why?：根据多个 eGPU 机箱列表（如这一个），不支持 M1 Macbooks。我有两个问题，有支持的吗？如果没有，为什么？这是软件的限制吗...
Meta Llama 3 | 8B API Documentation (swift-api-swift-api-default) | RapidAPI：未找到描述
Join the Support Ticket Discord Server!：查看 Discord 上的 Support Ticket 社区 - 与其他 1114 名成员一起交流，享受免费的语音和文字聊天。

Build an Agent with Long-Term, Personalized Memory

提到的链接:

Twitch: 未找到描述
Micode - Twitch: 🥨 Underscore_ le talk-show des passionnés de l'IT, 1 mercredi sur 2, à 19h. Avec Micode, Matthieu Lambda & Tiffany Souterre
Transformers.js: 未找到描述
Deep Reinforcement Learning with a Natural Language Action Space: 本文介绍了一种用于深度神经网络强化学习的新型架构，旨在处理以自然语言为特征的状态和动作空间，如在基于文本的游戏中发现的那样...
An Introduction to Using Transformers and Hugging Face: 在这个 Hugging Face 教程中，了解 Transformers 并利用它们的力量来解决现实生活中的问题。
ByteDance (ByteDance): 未找到描述

提到的链接:

LIPSICK - a Hugging Face Space by Inferencer: 未找到描述
Bark (with user-supplied voices) - a Hugging Face Space by clinteroni: 未找到描述
bineric/NorskGPT-Llama3-8b · Hugging Face: 未找到描述
Wizad - Social media posters in one click with GenAI | Product Hunt: Wizad 是您的首选应用，只需点击一下即可轻松创建与您的品牌形象完美匹配的精美社交媒体海报。告别雇佣设计师或花费数小时调整的麻烦...

Discord | Your Place to Talk and Hang Out

提到的链接：

Adobe 推出 Firefly Image 3 基础模型，将创意探索和构思提升至新高度：未找到描述
提供 PHP 服务的服务器上的 GLIBC 漏洞 | Rocky Linux：Rocky Linux 是一个开源企业级操作系统，旨在与 Enterprise Linux 实现 100% 的 bug 级兼容。
Snowflake/snowflake-arctic-instruct · Hugging Face：未找到描述
VideoGigaGAN：未找到描述
imgsys.org | 由 fal.ai 提供的图像模型竞技场：未找到描述
Papers with Code - CUB-200-2011 数据集：Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是细粒度视觉分类任务中最广泛使用的数据集。它包含 200 个鸟类子类别的 11,788 张图像...
如何构建像 OpenAI Sora 这样的生成式 AI 模型：如果你阅读过关于 OpenAI 和 Anthropic 等公司训练基础模型的文章，自然会认为如果你没有十亿美元...
fal-ai/imgsys-results · Hugging Face 数据集：未找到描述

提到的链接：

Multi-Head Mixture-of-Experts: Sparse Mixtures of Experts (SMoE) 在不显著增加训练和推理成本的情况下扩展了模型容量，但存在以下两个问题：(1) 专家激活率低，只有少数...
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation: 多模态基础模型的快速演进在视觉-语言理解和生成方面取得了显著进展，例如我们之前的工作 SEED-LLaMA。然而，仍然存在...
SOCIAL MEDIA TITLE TAG: SOCIAL MEDIA DESCRIPTION TAG TAG
GitHub - megvii-research/HiDiffusion: 通过在 GitHub 上创建账号来为 megvii-research/HiDiffusion 的开发做出贡献。

DeepGaze

提到的链接：

Groq Inference Tokenomics: Speed, But At What Cost?：比 Nvidia 更快？剖析其经济学
Snowflake/snowflake-arctic-instruct · Hugging Face：未找到描述
microsoft/Phi-3-mini-128k-instruct-onnx · Hugging Face：未找到描述
FireAttention — Serving Open Source Models 4x faster than vLLM by quantizing with ~no tradeoffs：通过几乎无损的量化，实现比 vLLM 快 4 倍的开源模型推理
microsoft/Phi-3-mini-4k-instruct · Hugging Face：未找到描述
gist:a89ad8522cc01fb409f229f186216773：GitHub Gist：即时分享代码、笔记和片段。
OpenRouter：LLM 和其他 AI 模型的路由器
Claude 3 "Vision" uses Google's Cloud Vision API：# 此页面正在完善中；我有大量数据需要处理。对目前的结论有 ~85% 的把握。Anthropic 的 Claude 3 家族为其模型提供了 Vision 能力，使其能够...
OpenRouter：构建与模型无关的 AI 应用
OpenRouter：构建与模型无关的 AI 应用
OpenRouter：构建与模型无关的 AI 应用

Setun - Wikipedia

提到的链接：

equality_comparable | Modular Docs: EqualityComparable
sort | Modular Docs: 实现排序函数。
Sorting Techniques: 作者 Andrew Dalke 和 Raymond Hettinger。Python 列表具有内置的 list.sort() 方法可以就地修改列表。还有一个 sorted() 内置函数可以构建一个新的排序列表...
Traits | Modular Docs: 为类型定义共享行为。
Generic Quicksort: 上下文 Mojo 参考：Sort Mojo 版本：24.2.1 演示：按年龄对一组人进行排序。此演示展示了如何使用通用的 QuickSort 算法根据年龄对一组人进行排序。这...
mojo/stdlib/src/builtin/anytype.mojo at main · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 开发做出贡献。
playground.mojo: GitHub Gist：即时分享代码、笔记和片段。
Python -c 命令行执行方法 - Programmer Sought: 未找到描述
Parameterization: compile-time metaprogramming | Modular Docs: 参数化和编译时元编程简介。

来自 Mojo 🔥 的推文 - 它是 Python 的更快的表亲还是仅仅是炒作？PyConDE & PyData Berlin 2024

[BUG] `random.random_float64` 非常慢 · Issue #2388 · modularml/mojo

提及的链接：

Issues · modularml/mojo：Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 开发做出贡献。
GSL/docs/headers.md at main · microsoft/GSL：准则支持库 (Guidelines Support Library)。通过在 GitHub 上创建账户为 microsoft/GSL 开发做出贡献。
[stdlib] Update stdlib corresponding to `2024-04-24` nightly/mojo by patrickdoc · Pull Request #2396 · modularml/mojo：此更新将 stdlib 与对应于今天 Nightly 版本的内部提交同步：mojo 2024.4.2414。
[stdlib] Update stdlib corresponding to `2024-04-24` nightly/mojo by patrickdoc · Pull Request #2396 · modularml/mojo：此更新将 stdlib 与对应于今天 Nightly 版本的内部提交同步：mojo 2024.4.2414。
mojo/docs/changelog.md at nightly · modularml/mojo：Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 开发做出贡献。

提及的链接：

Meta Llama 3 | Model Cards and Prompt formats: Meta Llama 3 使用的 Special Tokens。Prompt 应包含单条 system message，可以包含多条交替的 user 和 assistant messages，并始终以最后一条 user message 结尾...
microsoft/Phi-3-mini-128k-instruct · Hugging Face: 未找到描述
apple/OpenELM · Hugging Face: 未找到描述
来自 Wing Lian (caseus) (@winglian) 的推文: 很高兴看到这个医疗模型发布。Maxime 一直在 Axolotl Discord 中透露相关线索。“由 10 位医生手动评估，并在盲测中与 GPT-4 进行对比...”
Reddit - 深入探索: 未找到描述
GitHub - janphilippfranken/sami: Self-Supervised Alignment with Mutual Information: 基于互信息的自监督对齐。通过在 GitHub 上创建账号来为 janphilippfranken/sami 的开发做出贡献。

internistai/base-7b-v0.2 · Hugging Face

提到的链接：

OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快速地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快速地理解代码。

OpenAccess-AI-Collective/axolotl | Phorm AI Code Search

Google Colaboratory

提到的链接：

未找到标题：未找到描述
查询 - LlamaIndex：未找到描述
节点后处理器 - LlamaIndex：未找到描述
聊天存储 - LlamaIndex：未找到描述
从 ServiceContext 迁移到 Settings - LlamaIndex：未找到描述
run-llama/llama_index 中的 llama_index/llama-index-core/llama_index/core/schema.py：LlamaIndex 是适用于您的 LLM 应用程序的数据框架 - run-llama/llama_index
run-llama/llama_index 中的 llama_index/llama-index-core/llama_index/core/chat_engine/condense_question.py：LlamaIndex 是适用于您的 LLM 应用程序的数据框架 - run-llama/llama_index
run-llama/llama_index 中的 llama_index/llama-index-core/llama_index/core/indices/base.py：LlamaIndex 是适用于您的 LLM 应用程序的数据框架 - run-llama/llama_index
run-llama/llama_index 中的 llama_index/llama-index-core/llama_index/core/chat_engine/condense_question.py：LlamaIndex 是适用于您的 LLM 应用程序的数据框架 - run-llama/llama_index
聊天引擎 - 上下文模式 - LlamaIndex：未找到描述
GitHub - microsoft/monitors4codegen：NeurIPS 2023 论文的代码和数据产物 - "Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context"。`multispy` 是一个 Python 中的 LSP 客户端库，旨在用于围绕语言服务器构建应用程序。：NeurIPS 2023 论文的代码和数据产物...
嵌入（Embeddings） - LlamaIndex：未找到描述
自定义 LLMs - LlamaIndex：未找到描述
释放混合搜索的力量 - 深入探讨 Weaviate 的融合算法 | Weaviate - 向量数据库：混合搜索的工作原理，以及 Weaviate 融合算法的底层机制。
相对分数融合与基于分布的分数融合 - LlamaIndex：未找到描述

AI CEO 表示人们对实现通用人工智能的痴迷是“关于创造上帝”

Susan Zhang (@suchenzang) 的推文

提到的链接：

LMentry: A Language Model Benchmark of Elementary Language Tasks: 随着大型语言模型性能的快速提升，基准测试也变得越来越庞大和复杂。我们提出了 LMentry，这是一个通过关注...来避免这种“军备竞赛”的基准测试。
Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features: 为全球语言开发 NLP 系统的一个挑战是理解它们如何泛化到与现实应用相关的类型学差异。为此，我们提出了 M...
Instruction-Following Evaluation for Large Language Models: 大型语言模型 (LLMs) 的一项核心能力是遵循自然语言指令。然而，此类能力的评估尚未标准化：人工评估昂贵、缓慢且...

提到的链接：

Discord - 与朋友和社区聊天的新方式：Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、闲逛，并与你的朋友和社区保持紧密联系。
加入 Open Interpreter Discord 服务器！：一种使用电脑的新方式 | 8573 名成员
难以置信！通过这项新技术在单个 4GB GPU 上运行 70B LLM 推理：未找到描述
01/project_management/hardware/devices/raspberry-pi at main · OpenInterpreter/01：开源语言模型计算机。通过在 GitHub 上创建账号为 OpenInterpreter/01 的开发做出贡献。
GitHub - KoljaB/RealtimeTTS: 实时将文本转换为语音：实时将文本转换为语音。通过在 GitHub 上创建账号为 KoljaB/RealtimeTTS 的开发做出贡献。
为 AI 应用提供的开源代码解释功能：为你的 AI 应用和 AI Agent 构建自定义代码解释器
简介 - Open Interpreter：未找到描述

提及的链接：

Discord - 与朋友和社区聊天的新方式：Discord 是通过语音、视频和文字进行交流的最简单方式。在这里聊天、聚会，并与你的朋友和社区保持紧密联系。
来自 killian (@hellokillian) 的推文：我们将 01 放入了 @grimezsz 的蜘蛛中。

提及的链接：

MLflow | MLflow：描述将放入 <head /> 中的 meta 标签内
ONNX Runtime：ONNX Runtime 是一个跨平台的机器学习模型加速器。

LLM Paper Club (Survey Day) · Zoom · Luma

提到的链接:

React App: 未找到描述
GitHub - Shawn-Shan/fawkes: Fawkes, privacy preserving tool against facial recognition systems. More info at https://sandlab.cs.uchicago.edu/fawkes: Fawkes，针对人脸识别系统的隐私保护工具。更多信息请访问 https://sandlab.cs.uchicago.edu/fawkes - Shawn-Shan/fawkes

提到的链接:

MiniTorch: 未找到描述
Form - Tally: 使用 Tally 制作，最简单的表单创建方式。
tinygrad-notes/uops-doc.md at main · mesozoic-egg/tinygrad-notes: tinygrad 教程。通过在 GitHub 上创建账号为 mesozoic-egg/tinygrad-notes 的开发做出贡献。
tinygrad-notes/cuda-tensor-core-pt1.md at main · mesozoic-egg/tinygrad-notes: tinygrad 教程。通过在 GitHub 上创建账号为 mesozoic-egg/tinygrad-notes 的开发做出贡献。

提到的链接：

lighteval/src/lighteval/tasks/tasks_prompt_formatting.py at 11b48333b46ecd464cc3979de66038c87717e8d6 · huggingface/lighteval: LightEval 是一个轻量级的 LLM 评估套件，Hugging Face 内部一直在将其与最近发布的 LLM 数据处理库 datatrove 和 LLM 训练库 nanotron 配合使用。 - hug...
deutsche-telekom/Ger-RAG-eval · Datasets at Hugging Face: 未找到描述
deutsche-telekom/Ger-RAG-eval · Datasets at Hugging Face: 未找到描述

提到的链接：

GitHub - huggingface/llm-swarm: Manage scalable open LLM inference endpoints in Slurm clusters: 在 Slurm 集群中管理可扩展的开源 LLM 推理端点 - huggingface/llm-swarm
notebooks/haystack2x-demos/haystack_rag_services_demo.ipynb at main · vblagoje/notebooks: 通过在 GitHub 上创建账号来为 vblagoje/notebooks 的开发做出贡献。

Pipelines

Links mentioned:

">未找到标题: 未找到描述
">未找到标题: 未找到描述
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知推理应用。通过在 GitHub 上创建账户为 langchain-ai/langchain 开发做出贡献。
<a href="http://localhost:11434",>">未找到标题</a>: 未找到描述
ChatGroq | 🦜️🔗 Langchain: 设置
Quick Start | 🦜️🔗 Langchain: Large Language Models (LLMs) 是 LangChain 的核心组件。
Learning Langchain Series - Chain Types - Introduction: 这是一个关于 `Langchain chain types` 的系列。学习如何在你的项目中使用这些出色的链。我们将探索来自 Python 库的链...
API Chain | Chain Types | Learning Langchain Series | Become an expert in calling APIs with LLMs!: 学习如何使用来自 LangChain 的 APIChain 调用 API。你会发现，借助这个库，你将在交付价值方面处于领先地位...
CONSTITUTIONAL CHAIN | Chain Types | Learning Langchain Series | Build constitutional critics: Constitutional chains 让你能够通过 LLMs 执行特定的修订或批评任务。足够自信地说，这个链将成为一个游戏规则改变者...
RETRIEVAL CHAIN - RAG | Chain Types | Learning Langchain Series | Chat with anything on the web: Retrieval chains 以通过从各种来源（网页、pdf、文档、SQL 数据库...）检索文档来增强 LLMs 而闻名。我们将探索...
LLM CHECKER CHAIN | Learning Langchain Series | Chain Types | Fact check statements easily!: 如果你正在寻找推理 LLM 并开发一个可以验证内容的自然语言模型，请查看这个关于来自 LangChain 的 LLM Checker chains 教程...
ROUTER CHAIN | Learning Langchain Series | Chain Types | Route between your LLMs in a fashion way!: 当处理多任务时，Router chain 是你绝对需要的工具之一！想象一下如何处理多个 API 或多个任务...
SEQUENTIAL CHAIN | Learning Langchain Series | Chain Types | Let's call multiple LLMs in series!: Sequential chain 是将多个链连接在一起的基础链之一。因此，如果你正在寻求自动化通信...

提到的链接:

❤️ Community | Ragas: 未找到描述
Enhancing LLM's Accuracy with RAGAS: A Deep Dive into Advanced Evaluation Metrics for RAG Systems | LLM Testing RAGAS: 未找到描述

microsoft/Phi-3-mini-4k-instruct-gguf

Links mentioned:

使用 Claude 和 LLM 总结 Hacker News 讨论主题：我一直在尝试将 Claude 与我的 LLM CLI 工具结合使用，以便快速总结 Hacker News 上的长篇讨论。
Python API - LLM：未找到描述

Links mentioned:

Trelis/Meta-Llama-3-70B-Instruct-function-calling · Hugging Face: 未找到描述
Login | Cohere: Cohere 通过一个易于使用的 API 提供对高级 Large Language Models 和 NLP 工具的访问。免费开始使用。
New Cohere Toolkit Accelerates Generative AI Application Development: 介绍 Cohere Toolkit，这是一个可在云平台部署的生产就绪型应用的开源仓库

nisten/llama3-8b-instruct-32k-gguf · Hugging Face

Answer.AI - Efficient finetuning of Llama 3 with FSDP QDoRA

提到的链接：

TheBloke/dolphin-2.7-mixtral-8x7b-GGUF at main：未找到描述
Releases · Mozilla-Ocho/llamafile：通过单个文件分发和运行 LLM。通过在 GitHub 上创建账号为 Mozilla-Ocho/llamafile 的开发做出贡献。

Discord - 与好友和社区聊天的新方式

提到的链接：

Ding Bannu (@DingBannu) 的推文：4 月 29 日新 GPT
TestingCatalog News 🗞 (@testingcatalog) 的推文：Google Gemini 正准备在 4 月底发布新版本。请注意，这些日期也可能会发生变化。目前他们的目标是 4 月 29 日和 30 日。有什么猜想会发布什么吗...

OpenAI 的 LLM 操作系统指令层级 (Instruction Hierarchy)

AI Reddit 回顾

AI Twitter 回顾

AI Discord 摘要回顾

第一部分：高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Perplexity AI Discord

Nous Research AI Discord

LM Studio Discord

OpenAI Discord

CUDA MODE Discord

Eleuther Discord

Stability.ai (Stable Diffusion) Discord

HuggingFace Discord

LAION Discord

OpenRouter (Alex Atallah) Discord

Modular (Mojo 🔥) Discord

OpenAccess AI Collective (axolotl) Discord

LlamaIndex Discord

Interconnects (Nathan Lambert) Discord

OpenInterpreter Discord

Latent Space Discord

tinygrad (George Hotz) Discord

DiscoResearch Discord

LangChain AI Discord

Datasette - LLM (@SimonW) Discord

Cohere Discord

Skunkworks AI Discord

Mozilla AI Discord

AI21 Labs (Jamba) Discord

LLM Perf Enthusiasts AI Discord

PART 2: 频道详细摘要与链接