2024年4月9日至4月10日的 AI 新闻。我们为您检查了 5 个 subreddits、364 个 Twitter 账号以及 26 个 Discord 服务器（388 个频道和 5893 条消息）。预计为您节省阅读时间（以 200wpm 计算）：600 分钟。

当人们还在消化昨天的 Gemini audio、GPT4T 和 Mixtral 重磅新闻时，今天迎来了 Udio 的盛大发布：

你需要听一下帖子里的样本，将其与 Suno 进行对比，后者当然也有自己的粉丝群。Udio 在过去几天里泄露得像筛子一样，所以这并不意外，但更令人惊讶的是 Sonauto 也在今天发布，同样瞄准了音乐生成领域，尽管其完善程度要低得多。这感觉像是一个时机已经成熟的想法，但与 Latent Diffusion 不同的是，目前尚不清楚是什么突破让 Suno/Udio/Sonauto 几乎在同一时间涌现。你可以在 Suno 的 Latent Space 播客中听到一些线索，但在我们发布下一集音乐专题之前，你也只能了解到这些了。

[TOC]

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence。评论抓取尚未实现，但即将推出。

以下是给定 Reddit 帖子中的关键主题和话题摘要，按类别组织并附有最相关的帖子链接：

AI 模型与架构

Google 的 Griffin 架构优于 Transformer：在 /r/MachineLearning 中，Google 发布了一个采用新 Griffin 架构的模型，该模型在 MMLU 的受控测试和平均基准测试分数上，在多个尺寸上均优于 Transformer。Griffin 具有效率优势，在长上下文下具有更快的 Inference（推理）速度和更低的内存占用。
Command R+ 排名上升，超越 GPT-4 模型：在 /r/LocalLLaMA 中，Command R+ 已攀升至 LMSYS Chatbot Arena 排行榜第 6 位，成为最强的开源模型。根据排行榜结果，它击败了 GPT-4-0613 和 GPT-4-0314。
Mistral 发布具有 64K 上下文的 8x22B 开源模型：Mistral AI 开源了其具有 64K context window（上下文窗口）的 8x22B 模型。该模型总参数量约为 130B，每次 forward pass（前向传播）有 44B 激活参数。
Google 开源基于 Gemma 架构的 CodeGemma 模型：Google 发布了 CodeGemma，这是基于 Gemma 架构的开源代码模型，并上传了预量化的 4-bit 模型以实现 4 倍速下载，正如 /r/LocalLLaMA 中分享的那样。

开源工作

为 Stable Diffusion 1.5 发布 Ella 权重：在 /r/StableDiffusion 中，这些权重使扩散模型具备了 LLM 能力，以增强语义对齐。
Unsloth 的发布实现了微调时的显存减少：在 /r/LocalLLaMA 中，Unsloth 通过在 GPU 和系统 RAM 之间使用异步卸载，提供了 4 倍大的上下文窗口和 80% 的内存减少。
Andrej Karpathy 发布纯 C 语言实现的 LLM：在 /r/LocalLLaMA 中，这个纯 C 语言实现可能实现更快的性能。

基准测试与对比

Command R+ 模型在 M2 Max MacBook 上实时运行：在 /r/LocalLLaMA 中，使用 iMat q1 量化，Inference（推理）可以实时运行。
Cohere 的 Command R 模型在排行榜上表现良好：在 /r/LocalLLaMA 中，Command R 在 Chatbot Arena 排行榜上表现优异，同时与竞争对手相比具有较低的 API 成本。

多模态 AI

Gemini 1.5 的音频能力令人印象深刻：在 /r/OpenAI 中，Gemini 1.5 可以从纯音频片段中识别语音语调并按姓名识别说话人。
多模态视频叙事入门工具包：在 /r/OpenAI 中，该工具包利用 VideoDB、ElevenLabs 和 GPT-4 来生成纪录片风格的配音。

AI Twitter 回顾

所有回顾均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和流程工程。

GPT-4 Turbo 模型改进

改进的推理和编程能力：@gdb、@polynoamial 和 @BorisMPower 指出，与之前的版本相比，GPT-4 Turbo 的推理和编程性能有了显著提高。
正式全面可用（GA）：@gdb、@miramurati 和 @owencm 宣布 GPT-4 Turbo 现已结束预览，正式全面可用。
与旧版本的对比：@gdb、@nearcyan 和 @AravSrinivas 分享了对比，并指出这次更新非常显著。

Mistral AI 发布新的 8x22B 模型

176B 参数 MoE 模型：@sophiamyang 和 @_philschmid 详细介绍了 Mistral AI 发布的 Mixtral 8x22B，这是一个拥有 176B 参数的 MoE 模型，具有 65K 上下文长度并采用 Apache 2.0 许可证。
评估结果：@_philschmid 分享了 Mixtral 8x22B 在 MMLU 上达到了 77%。更多积极结果见 @_philschmid。
社区反响与获取途径：许多人如 @jeremyphoward 和 @ClementDelangue 表达了兴奋之情。根据 @perplexity_ai，该模型已在 Hugging Face 和 Perplexity AI 上线。

Google 新模型发布与公告

Gemini 1.5 Pro 公开预览版：@GoogleDeepMind 宣布具有长上下文窗口的 Gemini 1.5 Pro 已在 Vertex AI 开启公开预览。根据 @GoogleDeepMind，可通过 API 在 180 多个国家/地区使用。
Imagen 2 更新：Imagen 2 现在可以创建 4 秒的动态图像，并包含一个名为 SynthID 的水印工具，由 @GoogleDeepMind 和 @GoogleDeepMind 分享。
CodeGemma 和 RecurrentGemma 模型：@GoogleDeepMind 宣布了用于编程的 CodeGemma 和注重内存效率的 RecurrentGemma，这是与 Google Cloud 合作完成的，详情见 @GoogleDeepMind 和 @GoogleDeepMind。

Anthropic 关于模型说服力的研究

衡量语言模型说服力：@AnthropicAI 开发了一种测试说服力的方法，并分析了跨模型世代的扩展情况。
模型世代间的扩展趋势：@AnthropicAI 发现新模型被认为更具说服力。Claude 3 Opus 在统计学上与人类的论点相似。
实验细节：Anthropic 衡量了在阅读 LM 或人类关于极化程度较低问题的论点后，同意程度的变化，详见 @AnthropicAI、@AnthropicAI、@AnthropicAI。

Cohere 的 Command R+ 模型性能

Chatbot Arena 顶尖开源权重模型：@cohere 和 @seb_ruder 庆祝 Command R+ 在 Chatbot Arena 排名第 6，根据 13K+ 投票，它作为顶尖开源模型与 GPT-4 旗鼓相当。
高效的多语言 Tokenization：@seb_ruder 详细介绍了 Command R+ 的分词器如何比其他分词器更高效地压缩多语言文本（1.18-1.85 倍），从而实现更快的推理和更低的成本。
获取途径与 Demo：根据 @seb_ruder 和 @nickfrosst，Command R+ 可在 Cohere 的 Playground (https://txt.cohere.ai/playground/) 和 Hugging Face (https://huggingface.co/spaces/cohere/command-r-plus-demo) 上使用。

Meta 新 AI 基础设施与芯片公告

下一代 MTIA 推理芯片：@soumithchintala 和 @AIatMeta 宣布了 MTIAv2，这是 Meta 的第二代推理芯片，采用 TSMC 5nm 工艺，拥有 708 TF/s Int8 算力、256MB SRAM 和 128GB 内存。根据 @AIatMeta，其稠密计算能力是 v1 的 3.5 倍，稀疏计算能力是 v1 的 7 倍。
平衡计算、内存与带宽：@AIatMeta 指出 MTIA 的架构优化了计算、内存带宽和容量之间的平衡，适用于排序和推荐模型。@AIatMeta 表示，全栈控制使其随着时间的推移比 GPU 具有更高的效率。
不断增长的 AI 基础设施投资：这是 Meta 增加 AI 基础设施投资以驱动新体验的一部分，是对现有和未来 AI 硬件的补充，@AIatMeta 对此进行了强调。

幽默与梗图

向投资经理路演：@adcock_brett 幽默地建议永远不要向 VC 的投资经理（associates）进行路演，并根据十年无果的经验称其有害，他在 @adcock_brett 中进一步阐述了这一观点。
护城河与开源：@abacaj 引用一个融资数百万美元的 GPT-4 套壳项目开玩笑说“根本没有护城河”。@bindureddy 预测开源将在年底前领跑 AGI 竞赛。
Anthropic 对 GPT-4 的反应：@nearcyan 发布了一张梗图，推测 Anthropic 对 OpenAI “大幅改进”的 GPT-4 更新的反应。

AI Discord Recap

摘要之摘要的摘要

1) 新发布及即将发布的 AI 模型与基准测试

备受期待的 Mixtral 8x22B 发布，这是一个拥有 176B 参数的模型，在 AGIEval 等基准测试中表现优于其他开源模型（推文）。官方分享了一个磁力链接。
Google 悄然推出了 Griffin（一个 2B 参数的循环线性注意力模型，论文）以及新的代码模型 CodeGemma。
OpenAI 的 GPT-4 Turbo 模型已发布，具备视觉能力、JSON 模式和 function calling，显示出比之前版本更显著的性能提升。讨论围绕其速度、推理能力以及构建高级应用的潜力展开。（OpenAI 定价, OpenAI 官方推文）。该模型在基准测试对比中与 Sonnet 和 Haiku 等模型并列讨论，显示出明显的性能增益。
对 Llama 3、Cohere 和 Gemini 2.0 等模型发布的期待，以及对其潜在影响的推测。

2) 量化、效率与硬件考量

讨论了 HQQ (代码) 和 Marlin 等 量化（quantization） 技术以提高效率，同时也关注如何保持困惑度（perplexity）。
Meta 关于 LLM 知识容量缩放定律 的研究（论文）发现，int8 量化 在高效的 MoE 模型中能很好地保留知识。
在本地运行 Mixtral 8x22B 等大型模型的 硬件限制，以及对 多 GPU 支持 等解决方案的兴趣。
对来自 Meta、Nvidia 和 Intel Habana Gaudi3 等公司的 AI 加速硬件 的对比。

3) 开源进展与社区参与

LlamaIndex 展示了 企业级检索增强生成（RAG） (博客)，ICLR 2024 上的 MetaGPT 框架也利用了 RAG (链接)。
新工具如用于 合并 LLM 专家 的 mergoo (GitHub) 和用于 LoRA 层初始化 的 PiSSA (论文, 仓库)。
社区项目：everything-rag 聊天机器人 (HuggingFace)、TinderGPT 约会应用 (GitHub) 等。
社区成员在 HuggingFace 上快速开源了 Mixtral 8x22B 等新模型。

4) 提示工程、指令微调与基准测试辩论

关于 提示工程（prompt engineering） 策略的广泛讨论，如 元提示（meta-prompting） 和使用 AI 生成指令进行 迭代优化。
指令微调（instruction tuning） 方法的对比：RLHF 与 StableLM 2 中使用的 直接偏好优化（DPO） (模型)。
对 基准测试（benchmarks） 被“刷分”的怀疑，建议参考 arena.lmsys.org 等人工排名的排行榜。
围绕 LLM2Vec 将 LLM 用作 文本编码器（text encoders） 的讨论（论文, 仓库）及其实际效用。

PART 1: High level Discord summaries

Stability.ai (Stable Diffusion) Discord

超分辨率团队部署技术：工程师们讨论了如何使用超分辨率技术提升视频截图的图像质量。他们提到了 RealBasicVSR，许多人期待更先进的视频上采样器（upscalers）。

激发 Stable Diffusion 创意：新人询问如何使用 Stable Diffusion 创作原创内容，并获得了关于 GitHub 上的工具和仓库的指导。资深用户提供的 Demo URL 进一步支持了这些探索。

自定义控制辩论升温：参与者辩论了 Stable Diffusion 内部的自定义功能，包括特定数据集的构建、项目增强以及反映独特艺术风格的 LoRAs，这表明了模型输出高度个性化的趋势。

驾驭 AI 法律迷宫：对话还涉及 AI 生成内容的法律和伦理影响，讨论了版权问题、合法生成实践以及立法发展对该领域的潜在影响。

热切期待 Stable Diffusion 3：关于即将发布的 Stable Diffusion 3 有很多讨论，特别关注其对手部生成的能力，以及新模型是否需要 negative prompts 来避免不理想的输出。

LM Studio Discord

计算器 GUI 成就：在 Mistral-7b-instruct-v0.1Q4_0 的性能评估中，它在性能测试中脱颖而出，轻松创建了一个带有 GUI 的基础计算器；同时讨论了 Command R Plus 需要大量的 VRAM，引发了关于本地服务器 API 请求和可能存在的 VRAM 瓶颈的讨论。
AutoGen vs. CrewAI - 自动化对决：一位成员在评估用于本地 LMs 任务自动化的 AutoGen、CrewAI 等工具时陷入困境，他更倾向于 AutoGen，因为其易用性以及在结构化输入下的良好表现，同时在寻找能在 12GB 3080 GPU 上运行的最佳模型。
Command R Plus Beta 令人兴奋：LM Studio 的 0.2.19 beta 版本讨论了其最新功能和稳定性增强，成员们对 Command R Plus 模型在包括 M3 MacBook Pro 和支持 AVX2 的 AMD 机器在内的各种硬件上的兼容性和性能感到特别满意。
CodeGemma 隆重登场：Google 推出的 CodeGemma 模型（提供 2B 和 7B 版本用于代码任务）引发了讨论，成员们正在测试其相对于 Claude 和 GPT-4 的能力。LM Studio Community 正在寻求关于这一新模型实力的进一步见解。
ROCM 与兼容性忧虑：最近的 0.2.19 ROCm Preview Beta-3 对 Command R Plus 的支持引发了关于 ROCM 利用问题的对话，但即将发布的 Linux 版本让人感到宽慰。然而，关于 7800XT 兼容性的困惑仍未解决。

Unsloth AI (Daniel Han) Discord

Checkpoint 挂起问题：有用户反映 TrainingArguments 中的 hub_strategy="all_checkpoints" 导致 Checkpoint 文件夹无法成功推送到仓库。虽然分享了详细的 training parameters，但目前尚未出现明确的解决方案。
更长的上下文，更低的 VRAM：Unsloth AI 的新版本实现了 4 倍长的 context windows，同时减少了 30% 的 VRAM 使用，运行时间仅增加 1.9%。他们还在开发一键式解决方案，以提供更流畅的微调体验和模型优化（Long-Context 支持详情）。
周边创意，是捡便宜还是冤大头？：社区讨论了推出 Unsloth 主题周边的可能性，起因是一位用户分享了无关的咖啡杯礼物。成员们还请求提供技术文档，特别是 Hugging Face Json 文件文档。
LLM 微调的高效方法：关于优化 AI 聊天机器人微调的讨论强调了为 Alpaca 模型使用 Alpaca format，为聊天机器人使用 ChatML template，并强调了数据集与特定微调框架兼容性的必要性。
StegLLM 悄然登场：介绍了一个名为 StegLLM 的新模型，它在 mistral-7b-instruct-v0.2 中嵌入了隐蔽机制，并由特定的“密钥”短语启动。模型制作者还分享了 safetensors，并表示灵感来自 Anthropic 的 Sleeper Agents 研究（Hugging Face 上的 StegLLM）。
Multi-GPU 支持指日可待：贡献者们强调了对即将推出的 Multi-GPU 支持的兴奋和技术考量。根据一篇 arXiv 论文的建议，一种内存占用可能较低的 AdaLomo 优化器正在接受审查，预计将与 Unsloth AI 的未来更新同步推出。

Perplexity AI Discord

Perplexity Pro 引发讨论：社区成员正在剖析 Perplexity Pro 的优缺点，特别是对于学习 Blender 和 Unreal Engine 等工具的帮助，但一些用户指出其上下文长度与其他服务相比存在局限性，而 Gemini 1.5 因其视频和音频支持而脱颖而出。

模型对比与推测：讨论围绕 Mistral 8x22b 展开，这是一款被认为介于 GPT-4 和 Sonnet 之间的开源模型，尽管其高昂的计算需求限制了可访问性。此外，还有关于 “GPT-5” 和 “Gemini 2.0” 等未来模型的轻松调侃，并将其与备受期待的 “GTA 6” 发布相提并论。

技术联动：Raycast 遇见 Perplexity：Raycast 与 Perplexity AI 宣布合作，旨在将知识获取集成到 Mac 用户体验中，详见 Perplexity 的推文。此外，还有人提到 AI 在快速信息检索方面优于传统搜索引擎。

走出实验室，进入代码世界：针对 Perplexity API 的新 Ruby client 已经面世，同时用户正在分享处理大文本粘贴和数据提取模型选择的变通方法，并指出了 199k tokens 的上限。

Perplexity API 的演进：API 余额充值和支付提交 Bug 等技术问题得到了迅速处理，修复方案已就绪，如果问题仍然存在，欢迎发送私信。此外，还讨论了 Perplexity API 的实时网页响应能力，并明确了目前不支持 Claude Opus model。

Nous Research AI Discord

聊天机器人的精进：StableLM 2 12B Chat 是一款拥有 120 亿参数的 AI，通过 Direct Preference Optimization (DPO) 针对聊天进行了优化。用户群体正在评估其相较于 SFT+KTO 和 DNO 等其他微调方法的影响；担忧主要集中在 DPO 的质量和伦理考量上。在此获取 StableLM 2 模型。

Mixtral 的崛起：早期基准测试表明 Mixtral 8x22b 模型 在 MMLU 评估中与 Command R+ 等顶级模型不相上下，引发了关于多样化微调数据集与继承自基座模型能力之重要性的讨论。更多关于 Mixtral 8x22b 的细节。

模型量化的飞跃：分享了关于量化方法的见解，特别是在 OLMo-Bitnet-1B 的背景下，重点关注 Quantization Aware Training (QAT) 和 Straight-Through Estimator 的使用，突显了对模型效率的持续关注。关于 Straight-Through Estimator 的论文在此。

合成以致胜：一篇介绍在模型训练期间结合合成数据与真实数据概念的论文引发了关于合成数据“近亲繁殖”潜力的辩论，以及其对模型知识库多样性的影响和模型崩溃（model collapse）的风险。论文链接在此。

期待 WorldSim 更新：社区对 WorldSim 即将到来的更新表现出兴奋，讨论涉及该平台的多语言支持以及使用 Nous Hermes Mixtral 等模型模拟类似体验的替代方案。当前的本地硬件也被指出不足以运行此类先进模型。

Eleuther Discord

RNN 进展揭秘：研究人员证明，用于 Transformer 的可解释性工具（interpretability tools）对现代 RNN（如 Mamba 和 RWKV）具有显著的适用性，并通过研究论文和 GitHub 仓库分享了见解。这激发了社区的进一步参与并分享了研究方法，鼓励协作开发 RNN 语言模型。

神秘的 Claude 3 Opus 尺寸引发猜测：AI 社区对 Claude 3 Opus 未公开的模型尺寸议论纷纷，这与 GPT-4 规模的透明度形成了鲜明对比。与此同时，Google 的 Gemini 项目 因其保守的图像生成政策及其项目安全负责人的争议性观点而面临审查。

GPT-4 Turbo 基准测试：工程师们正在寻找 OpenAI 最新模型（特别是 gpt-4-turbo）的可靠基准测试信息。缺乏此类数据使得比较和进度评估变得具有挑战性。

AI 治理获得立法关注：由国会议员 Adam Schiff 提出的《生成式 AI 版权披露法案》（Generative AI Copyright Disclosure Act）成为一项重点立法努力，旨在提高 AI 使用受版权保护材料的透明度，为未来对该行业的监管影响奠定基础。

通过 LLM 涌现的文本嵌入：围绕 LLM2Vec 出现了一项新的尝试，该项目将 decoder-only LLMs 转换为 encoders，并声称提升了性能，这引发了关于与其他模型比较的公平性及其实际效用的辩论。

OpenAI Discord

艺术家还是算法？：关于 AI 是否可以被视为合法艺术家的活跃讨论，突显了人们对 AI 生成艺术对人类创造力认可和价值评估影响的担忧。
学术界中的 AI：一名硕士生正在考虑将 LM Studio 和 Open-Source LLM Advisor 作为潜在资源，为其论文项目实现一个基于 GPT 的聊天系统。
Perplexity 获得认可：用户称赞了 Perplexity，特别是其 Pro 版本，因其具备 32K 上下文窗口以及在 Opus 和 GPT-4 等模型之间灵活切换的能力。
定制化需求清单：社区中对于未来 GPT 迭代提供更高定制化程度的呼声日益增长，特别是在回答简洁度和输出排名方面。
GPT-4 难题与 Prompt 创作：从加载问题到 API 访问中断等 GPT 技术问题已被标记，同时社区对分享 AI 越狱 Prompt 持反对立场。通过迭代的 prompt engineering 和使用 meta-prompts 来提高指令精确度引起了关注，这提醒了记录良好的 AI 交互具有不可替代的价值。

Latent Space Discord

自主软件开发的进展：新加坡推出的 AutoCodeRover 标志着向自主软件工程迈出的重要一步，能够高效处理与 GitHub issue 相关的 Bug 修复和功能增强。这一创新强调了 AI 在降低成本和提高速度的情况下，彻底改变软件维护和开发流程的潜力。详细信息和预印本可在 GitHub Repository 和 Preprint PDF 中找到。
GPT-4-Turbo 带来的 AI 语言模型演进：GPT-4-Turbo 的发布代表了语言模型能力的显著进步，在推理和复杂任务处理性能上表现出大幅提升。对其部署的期待和分析突显了使 AI 工具更强大、更易用的持续进展。价格和推出更新可在 OpenAI Pricing 和 OpenAI’s Official Tweet 查看。
音乐生成技术的创新：Udio 作为音乐生成领域潜在的游戏规则改变者，引发了关于其用于创作音乐的高级文本提示系统的讨论。凭借慷慨的 Beta 测试版，Udio 对音乐行业的影响及其与 Suno 等竞争对手的比较受到了爱好者和专业人士的密切关注。更多见解可在 Udio Announcement 和关于 Udio 的 Reddit 讨论中探索。
1-bit 大语言模型 (LLMs) 的突破：关于 1-bit LLMs 的讨论，特别是 BitNet b1.58 模型，展示了通过降低模型精度而不显著损害性能，向具有成本效益的 AI 迈出的创新一步。这一进展为模型效率和资源利用提供了新视角，详见 arXiv 提交论文。

HuggingFace Discord

Gemma 1.1 Instruct 优于前代版本：Gemma 1.1 Instruct 7B 表现出比前一版本更好的前景，现已在 HuggingChat 上线，并正吸引用户探索其能力。可以通过此处访问该模型。

CodeGemma 步入开发领域：推出了一款用于设备端代码补全的新工具 CodeGemma，提供 2B 和 7B 版本，支持 8192k 上下文。它与近期发布的非 Transformer 模型 RecurrentGemma 一起，可以在此处找到。

HuggingFace 降价行动：HuggingFace 宣布 Spaces 和 Inference endpoints 的 计算价格下调 50%。从 4 月起，这些服务在性价比上将优于 AWS EC2 按需服务。

社区博客改版：社区博客已改版为“文章 (articles)”，增加了点赞和增强曝光等功能。点击此处体验全新的文章格式。

Serverless GPU 上线及机器学习课程更新：HuggingFace 展示了与 Cloudflare 合作的 Serverless GPU 推理功能，并在其“游戏机器学习 (ML for Games)”课程中增加了一个关于“游戏中经典 AI”的额外单元。通过此链接了解 Serverless GPU 推理，并在此处探索课程新内容。

Python 调试技巧：在 JAX 或 TensorFlow 中利用 eager execution，使用 Python 的 breakpoint() 函数，并移除 PyTorch 实现以进行有效的调试。

AI 水印去除工具发布：推荐了一款旨在去除图像水印的 AI 工具，这对处理大量带水印图像的用户很有帮助。在 GitHub 上查看该工具。

GPT-2 的摘要困境与 Prompt 策略：一位用户在使用 GPT-2 进行摘要时遇到挑战，这可能暗示了 Prompt 需与模型训练时代保持一致的重要性，建议可能需要更新指令或使用更适合摘要任务的新模型。

应对 CPU 与 GPU 挑战：讨论了在使用 contrastive loss 时，通过 accumulation 或 checkpointing 等技术来解决 batch size 限制的方法，并确认了 batchnorm 可能存在的更新问题。通过 nvidia-smi 监控 GPU 使用情况成为高效资源管理的关注点。

Diffuser 去噪步数对图像质量的影响：对 Diffusers 的探索表明，图像质量会随着 denoising step 计数的改变而波动。文中详细说明了 ancestral sampler 在质量差异中的作用，并为分布式多 GPU 推理提供了指导，特别是针对处理 MultiControlnet (SDXL) 等模型的巨大显存需求。

OpenRouter (Alex Atallah) Discord

Gemini Pro 1.5 与 GPT-4 Turbo 取得新突破：OpenRouter 引入了具有 1M token 上下文的 Gemini Pro 1.5 和具备视觉能力的 GPT-4 Turbo，标志着其模型阵容的重大升级，旨在满足高级开发需求。
模型下架与新模型发布：OpenRouter 概述了针对 jebcarter/Psyfighter-13B 等冷门模型的退役计划，并向社区预告了新的 Mixtral 8x22B，这是一个具备 Instruct 能力的模型，并邀请用户提供宝贵的反馈以进行优化。
logit_bias 参数在多模型中得到增强：技术社区现在可以通过将 logit_bias 参数扩展到更多模型（包括 Nous Hermes 2 Mixtral）来增强对模型输出的控制，从而提高模型响应的精准度。
澄清模型集成与速率限制 (Rate Limits)：由 Louisgv 发起的讨论引导用户完成了将新 LLM API 与 OpenRouter 集成的过程，并解决了关于 Gemini 1.5 Pro 等新预览模型速率限制的困惑，目前该模型的请求限制约为每分钟 10 次。
优化与故障排除讨论升温：包括 hanaaa__ 在内的用户正在交流在 SillyTavern 等各种平台上优化 Hermes DPO 等模型的策略，同时也报告并排查了 OpenRouter 网站的技术故障以及 TogetherAI 服务的延迟问题。

CUDA MODE Discord

Meta 转型为超级赞助商： Meta 通过提供 420 万 GPU 小时 的巨额赞助来加强其对 AI 研究的承诺，用于 Scaling Laws 研究，促进了对 Language Model (LM) 知识容量的研究，这相当于近五个世纪的计算时间。完整细节可以在 scaling laws study 中找到。

CUDA 在 LLM 训练中占据核心地位： 一项旨在围绕 CUDA 相关项目组建工作组的协作努力已经启动，实现 CUDA 算法的热情正在增长，正如在 llm.c repository 中关于将 GPT-2 移植到 CUDA 的讨论所见。

优化矩阵乘法： 当遵循矩阵形状和内存布局时，可以实现矩阵乘法的性能提升。据报道，使用 Tiling 的最佳矩阵乘法配置为 A: M=2047, K=N=2048，以避免未对齐的内存布局，详见博文 “What Shapes Do Matrix Multiplications Like?”。

AI 模型中的量化困境： 社区围绕 Half-Quadratic Quantization (HQQ) 的实现以及 Marlin Kernel 在矩阵乘法中表现平平展开了激烈讨论。人们担心量化技术会影响模型的 Perplexity，HQQLinear 的调优受到审查，并与 GPTQ 的结果进行了对比。

Flash Attention 与 CUDA 专业知识： CUDA Kernel 的 “Flash” 版本代码最初表现不佳，但后来通过协作排查优化执行实现了加速。同时，llm.c project 成为那些渴望加强 CUDA 技能的人的首选学习资源，讨论涉及 OpenMP 的效用以及为提升性能而进行的自定义 CUDA 调试。

LangChain AI Discord

Whisper 不说话，它在倾听：Whisper 被澄清为一个 Speech-to-Text 模型，Ollama 本身并不支持它，但可以在本地使用或配合来自同一开发者的替代后端使用。

LangChain 的局限性与应用：对于简单的 AI Assistant 任务，LangChain 相比 OpenAI API 可能没有显著优势，但在需要超出 OpenAI 范围的集成场景中表现出色，例如 RAG 性能评估等实际用例。

TinderGPT 右滑自动化：一款名为 TinderGPT 的新应用已经创建，旨在自动化 Tinder 对话并确保约会，欢迎在 GitHub 上贡献代码。

通过结构化输出比较 LLM：分享了一项比较各种开源和闭源 Large Language Models 结构化输出性能的分析，详见此 GitHub 页面。

AI 处于时尚前沿：分享了一个演示 AI Agent 模拟虚拟试穿服装的视频，旨在彻底改变时尚电商领域——点击此处观看演示。

LlamaIndex Discord

药物识别获得 RAG 升级：一个 Multimodal RAG 应用 现在可以通过合并视觉和描述性数据从图像中识别药物，展示在 activeloop 的博文中。
为企业级 RAG 做好准备：即将到来的合作承诺将揭示 企业级 Retrieval-Augmented Generation (RAG) 的构建模块，讨论重点是高级解析和可观测性，详见 Twitter。
MetaGPT 带着 RAG 秘籍空降 ICLR：在 ICLR 2024 上，MetaGPT 将作为软件团队协作的多智能体框架首次亮相，并加入了现代化的 RAG 功能，详见此公告。
掌控 Agentic RAG：目前的讨论强调了执行控制工具对于像旅游代理和 RAG 这样的 Agentic 系统的重要性，更多见解可在 Twitter 上获得。
Gemini Meets LlamaIndex：AI 工程师正在积极为 Gemini LLM 适配 LlamaIndex 的示例 Notebook，可通过 GitHub 获取资源和指导。

LAION Discord

Pixart Sigma 的快速渲染与质量瑕疵：Pixart Sigma 在 3090 上展示了令人印象深刻的 8.26 秒 Prompt 执行时间，但因输出图像“崩坏”而面临批评，这暗示了开源模型在质量控制方面存在问题。

Mistral 实力倍增：Mistral 22b x 8 的发布引发了热议，社区对其与 mistral-large 相比的能力表现出浓厚兴趣。一个用于下载 mixtral-8x22b 的磁力链接被分享，但未附带进一步说明。

质疑 AI 中的回声室效应：最近的一篇论文挑战了 CLIP 等多模态模型中预期的“Zero-shot”泛化能力，并强调了性能对预训练期间所见数据的依赖性。

Google 的 Griffin 引发关注：根据 Reddit 讨论，Google 推出的 Griffin 模型架构增加了显著的 10 亿参数，承诺将带来性能提升。

直接纳什优化（Direct Nash Optimization）优于 RLHF：一项新研究为 LLM 提出了一种比 RLHF 更复杂的替代方案，采用“成对（pair-wise）”优化，据称即使在 7B 参数模型上也取得了显著成果。

OpenInterpreter Discord

GPT-4 强势登场，但保持低调：人们对现已集成视觉能力且性能超越前代产品的 GPT-4 感到非常兴奋；尽管如此，详细信息似乎依然稀缺，OpenAI 的发布日志仍是了解其功能更新的首选。
Command r+ 的卓越表现与硬件要求：Command r+ 因其在角色扮演场景中的精准度而受到推崇，被认为优于包括旧版 GPT-4 在内的先前模型；然而，用户指出运行它可能需要沉重的硬件负担，超出了 4090 GPU 的承载能力。
01 设备进入 DIY 组装阶段：成员们正利用 GitHub 上提供的 BOM 清单零件和 3D 打印外壳组装自己的 01 设备，通过在电脑上直接运行 Open Interpreter 绕过了对 Raspberry Pi 的需求。
01 设备 WiFi 连接问题的解决方法：遇到 01 连接 WiFi 困难的用户通过恢复出厂设置并访问 captive.apple.com 成功解决了问题；可能需要删除旧凭据，而那些使用本地 IP 地址进行配置的用户通过 MacOS 找到了解决方案。
01 订单的静默排队：DIY 01 机器的订单更新目前被描述为“仍在准备中（still cooking）”，并承诺一旦有更多消息将通过邮件更新；这是对有关订单状态的客户服务查询的回应。

Interconnects (Nathan Lambert) Discord

Google 的 RL 惊喜：Google 推出了 Griffin，这是一个拥有 20 亿参数的循环线性注意力（recurrent linear attention）模型，标志着其较前身 CodeGemma 的重大飞跃。正如其 arXiv 论文中详述的那样，Griffin 模型的架构与 RWKV 有相似之处。

重新思考 RLHF 的有效性：一场新的讨论集中在通过迭代反馈改进 LLM 的训练后阶段，这可能与传统的 RLHF 方法相媲美。讨论中对拒绝采样（Rejection Sampling）的有效性以及模型优化过程中对 Benchmark 的过度强调表示了担忧，反映出对近期论文中提到的更具实践性的开发方法的渴望。

LLM 的预测：一项由 Meta 支持的新研究揭示了 12 条 LLM 缩放法则（Scaling Laws），投入了 4,200,000 GPU 小时来解析知识容量。有趣的是，int8 量化能有效地保持知识容量，这一发现对于资源效率和 Mixture of Experts (MoE) 模型的潜在应用都至关重要。

围绕 Mixtral 的热议：Mixtral 作为模型领域的新选手，因其与 Mistral 和 Miqu 的差异化而引发讨论。模型发布的激增，包括对 Llama 3 smol 和 Cohere 等模型的期待，表明 AI 开发正处于竞争加速期，正如此处的 Twitter 线程所讨论的那样。

Benchmark：临时的衡量标准：虽然大家一致认为针对 AlpacaEval 等 Benchmark 进行优化可能与模型真正的优越性不相关，但它们作为进步的阶段性指标仍具有效用。开发者们正倡导后均衡（post-equilibrium）方法，重点在于改进数据和缩放，而不是盲目追求分数。

tinygrad (George Hotz) Discord

Tinygrad 迎来精简：工程师们已启动 tinygrad 的重构工作，以降低代码复杂度并提高可读性，主张调整 JIT 支持并移除底层的 diskbuffers，如 PR #4129 所示。
寻求权重无关（Weight Agnostic）方法：关于使用 tinygrad 创建权重无关网络的讨论正受到关注，重点在于将此类网络部署用于游戏训练，并考虑使用 ReLU 激活函数。
MNIST 与 Tinygrad 融合：MNIST 集成到 tinygrad 的工作正在推进，Pull Request #4122 是其中的代表，该过程还发现了一个 AMD 上的编译器 bug，促使增加 CI 测试以检测未来类似的这类问题。
全局变量优于局部变量：在 abstractions3 重构中关于变量作用域的辩论后，进行了一次更新，将 var_vals 变为全局字典，而此前它在每个 ScheduleItem 中属于局部作用域。
Tinygrad 用户指南发布：对于有兴趣通过自定义加速器增强 tinygrad 的用户和开发者，现在可以参考这份详细的指南，并建议探索 tinygrad 仓库中 examples/ 目录下的不同网络示例。

OpenAccess AI Collective (axolotl) Discord

Mixtral 8x22B 引发关注：社区正在讨论新的 Mixtral 8x22B 模型，该模型拥有约 1400 亿参数，在 rank32 下运行且 loss 异常低；目前尚不清楚该模型是经过指令微调（instruction tuned）还是基座模型（base model）。开发者对 quantization（量化）技术表现出浓厚兴趣，以使 Mixtral 8x22B 这样的大型模型更易于管理，这表明需要在模型大小与资源限制之间取得平衡。

PiSSA 承诺精准性能：一种名为 PiSSA 的新型 LoRA 层初始化技术被分享，该技术使用原始权重矩阵的 SVD 分解，有望获得更好的微调效果，详情见 arXiv 摘要和 GitHub 仓库。

数据集困境与投入：成员们正积极寻找和分享数据集，例如 Agent-FLAN 数据集，它对函数调用（function-calling）和 JSON 解析非常有用，有助于有效微调 LLM。另一位成员讨论了使用挪威艺术数据集预训练模型以增强其语法能力，并获得了关于数据表示格式的建议。

模型托管障碍：一位贡献者迅速响应，将新的 Mixtral-8x22B 模型上传到 Hugging Face，展示了社区快速贡献的文化。与此同时，关于在双 24GB GPU 配置上运行 mixtral-qlora-fsdp 模型的硬件能力问题，以及寻找兼容各种 AI API 的 Web 自托管前端的问题仍未得到解答。

三星搭建舞台：三星宣布将于 5 月 11 日在纽约举办 Samsung Next 2024 Generative AI Hackathon，届时将探索健康与福祉（Health & Wellness）以及媒体技术（Mediatech）赛道，详情见 Samsung Next AI Hackathon。

Modular (Mojo 🔥) Discord

Mojo 世界里的 C++ 老传统：虽然 Mojo 开发者期待 Python 风格的 f 字符串，但目前他们通过导入 _printf as printf 来使用 C 风格的格式化，不过有提醒称这一特性可能不会永久保留。

Mojo API 指南触手可及：一位成员分享了一个 Notion 页面，将 API 文档翻译成对初学者友好的摘要，为 Mojo 新手提供帮助。

Mojo 的并发难题：Mojo 的 async/await 和协程（coroutines）实现仍在进行中，与 Python 有所不同；详情在 Mojo 文档中有所阐述，但根据路线图，目前缺少 async for 和 async with。

令人烦恼的变长泛型：社区中因提到“异构变长泛型”（Heterogeneous variadic generics）而引发了一阵困惑，这个术语概括了编程语言中高级类型系统的复杂性。

Mojo UI 追求原生外观：Mojo-UI 项目的活跃开发引发了关于与 Objective-C 集成以及访问 AppKit 框架的讨论。雄心勃勃的集成目标可能需要一个特殊的绑定层，详情可关注 GitHub。

DiscoResearch Discord

Mixtral 与 Hugging Face 结合：Mixtral-8x22B 模型已添加到 Hugging Face，并附带了详细文档，凭借其 Apache 2.0 许可证顺利成为关注焦点。为了促进这一集成，官方提供了转换脚本，包括一个针对早期 Mixtral 模型的脚本（MoE 转换脚本）和另一个针对最新版本的脚本（新 Mixtral 转换脚本）。
种子下载与训练热潮：Mixtral 8x22b 模型通过磁力链接（magnet torrent link）迅速引发讨论，供急切的下载者使用。同时，该模型在 AGIEval 中展现了超越其他基座模型的强大性能。所有测试均在 4xH100 GPUs 配置上完成，值得注意的是，MMLU 任务的运行时间约为 10 小时。
Mergoo 混合模型：受近期研究启发，旨在简化多个 LLM 专家模型合并的新工具 mergoo 加入了讨论。讨论中还提到了 DiscoLM_German_7b 模型中出现的异常行为模式，特别是受 ChatML 模板中换行符的影响，专业人士将其归因于可能的 tokenizer 配置问题（tokenizer config）。
文本换行引发的行为之谜：对换行符格式的一种奇特敏感性让工程师们陷入了狂热讨论，推测这种干扰是 LeoLM 特有的怪癖，还是影响其他模型的更广泛现象，亦或是该模型独特处理架构中出现的新特征。
基准测试波动成为热门话题：Mixtral 8x22B 和 Mixtral 8x7B 等模型在 PIQA、BoolQ 和 Hellaswag 等各种数据集上的基准测试分数差异成为了城中热点。成员们传阅分数，并对虚拟 LLM 在 10 小时内完成 MMLU 任务的强大能力深感惊叹。

LLM Perf Enthusiasts AI Discord

早起的鸟儿有 AI 新闻：一声亲切的 “gm” 伴随着 OpenAI 的一条 Twitter 帖子开启了新的一天，暗示了值得关注的新更新或讨论。
视觉震撼：超越 GPT-4 Turbo：快速视觉基准测试的惊人结果显示，Sonnet 和 Haiku 略胜 GPT-4 Turbo 和 Opus，相关发现已在 Colab 研究文档中分享。
GPT-4 Turbo 炫耀新技巧：围绕 GPT-4 Turbo 的 function calling 和 JSON mode 的讨论升温，引发了对其构建强大视觉模型潜力的兴趣。
增量还是创新？：在轻松的玩笑中，成员们争论最新的更新究竟代表了向 GPT-4.5 的重大飞跃，还是向 4.25 迈出的一小步，而一些人则强调了 OpenAI 员工关于推理能力提升的说法。
代码层面的比较讨论：AI 工程师比较了各 AI 模型的编程能力，重点关注了对 Cursor 友好的模型使用、Gemini 1.5 以及 copilot++ 的特性，但尚未达成明确共识。

Datasette - LLM (@SimonW) Discord

LLM 帮助命令的速度至关重要：用户对 llm --help 命令的缓慢性能表示担忧，在某个案例中该命令耗时超过 2 秒 才完成，这引发了对系统健康状况的警示。
LLM 命令的快速响应：一份对比报告指出 llm --help 可以在短短 0.624 秒 内执行，这表明性能问题可能是个案而非普遍现象。
Docker 的差异：在对 llm --help 进行基准测试时，一位用户注意到命令执行时间的巨大差异：在其原生系统上耗时高达 3.423 秒，而在 Docker 容器内则缩短至更可接受的 0.800 秒，这暗示了配置问题。
重新安装解决烦恼：一位用户发现重新安装 llm 不仅提升了 llm --help 的速度（从几秒钟降至零点几秒），还修复了运行 Claude 模型时的错误。
MacOS 上的 LLM 谜团：在 macOS 上，llm cmd 的执行在 iTerm2 中会挂起，而同样的设置在远程 Ubuntu 服务器上却能成功运行，这表明可能与 macOS 中自定义的 shell 环境存在冲突。

Skunkworks AI Discord

显微镜下的基准测试：围绕 phi-2、dolphin 和 zephyr 等模型使用 HumanEval dataset 进行 benchmark comparisons 的重要性展开了讨论，并引用了 arena.lmsys.org 作为一个更可靠的人类排名排行榜，这可能解决基准测试被操纵的担忧。
Mistral 的基准测试优势：Mistral 8x22b 在 AGIEval results 中展示了显著的性能，Jan P. Harries 的更新吹嘘了其相对于竞争对手开源模型的优势，详见他的推文这里和这里。
当离题不再是禁忌：一位用户分享了一个没有上下文的 YouTube 视频链接：在 YouTube 上观看。

Mozilla AI Discord

调整 GPU 以提高利用率：一位社区成员报告称，通过将 -ngl 值调整为 3，实现了实质性的性能提升，特别是对于那些能更舒适地适应其 GPU 有限显存容量的小型模型。
智能适应 VRAM 限制：有人提问关于增强 llamafile 以根据可用 VRAM 自动卸载模型层的问题，这将防止在 1050 等低端 GPU 上发生崩溃。
对 ollama 效率的认可：ollama 项目因其在 GPU 间高效处理模型层分布而受到赞赏，正如 GitHub 上该项目的 server.go 中特定的实现代码片段所示。

Alignment Lab AI Discord

节奏重混：AI 的最新音轨：工程师们沉浸在一个新的 remix music model 中，其输出给社区留下了深刻印象；一位成员建议在 SynthTrails 听一听。
代码求助：工程师寻求专家帮助：一位有需要的用户寻求编程协助，要求直接沟通以解决特定的技术挑战。

AI21 Labs (Jamba) Discord 没有新消息。如果该公会沉寂太久，请告知我们，我们将将其移除。

PART 2: 频道详细摘要与链接

Stability.ai (Stable Diffusion) ▷ #general-chat (985 messages🔥🔥🔥):

超分辨率技术讨论：成员们分享了关于使用超分辨率技术（如结合相邻帧）提高视频截图图像质量的见解，但指出像 RealBasicVSR 这样的现有方法可能会随着更先进的视频上采样器的预期而过时。
Stable Diffusion 与模型生成探索：新贡献者寻求关于使用 Stable Diffusion 生成图像的建议，并被引导去探索当前用户分享的 GitHub 仓库和工具，以及 demo URL。
自定义控制模型与增强功能的咨询：用户对 Stable Diffusion 的特定用例表示感兴趣，例如构建特定数据集、增强某些项目类别、个性化模型（’loras’）以及对齐特定的艺术风格。
法律与伦理讨论：聊天涉及了敏感话题，如版权、合法生成、AI 内容创作的合法性以及 AI 治理的未来，包括立法行动对 Stable Diffusion 和 LLM 可能产生的影响。
对 Stable Diffusion 3 的期待：讨论围绕 SD3 相对于 cascade 等变体的预期改进展开，重点在于图像中生成逼真手指的局限性，以及关于新模型能力的问题，以及它们是否需要 negative prompts。

提及的链接:

Stability AI - 开发者平台：未找到描述
Template：未找到描述
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment：未找到描述
Stable Diffusion 基准测试：45 款 Nvidia、AMD 和 Intel GPU 对比：哪款显卡提供最快的 AI 性能？
AIchemy with Xerophayze：看看 XeroGen，我们全新的终极 Prompt 锻造工具，适用于多个 AI 图像生成平台。专为更好地适应工作流而设计，为您提供 Prompt 创建的终极控制权 https://shop.xerophayze.c...
DataVoid e/acc (@DataPlusEngine) 的推文：我们对 1.5 的 ELLA 训练进行了逆向工程，并成功制作了其微调版本。我们正在努力调整脚本以使其适用于 SDXL。对他们没有发布它感到非常失望。所以...
Latent Vision：未找到描述
Blondies and weed：在 #SoundCloud 上收听 4dreamsy 的 Blondies and weed #np
Stable Video — Stability AI：Stability AI 首款基于图像模型 Stable Diffusion 的开源生成式 AI 视频模型。
DataVoid e/acc (@DataPlusEngine) 的推文：我们对 1.5 的 ELLA 训练进行了逆向工程，并成功制作了其微调版本。我们正在努力调整脚本以使其适用于 SDXL。对他们没有发布它感到非常失望。所以...
点赞批准 GIF - 点赞批准好的 - 发现并分享 GIF：点击查看 GIF
GPU 实例定价：未找到描述
GitHub - TencentQQGYLab/ELLA: ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment：ELLA: 为 Diffusion Models 配备 LLM 以增强语义对齐 - TencentQQGYLab/ELLA
Stable Diffusion Forge UI：底层探索 - 技巧与窍门 #stablediffusion：在这段视频中，我们将详细查看 Stable Diffusion Forge UI，涵盖从查找和更新模型、设置到增强功能的所有内容...
GitHub - ckkelvinchan/RealBasicVSR: “调查真实世界视频超分辨率中的权衡”官方仓库： “调查真实世界视频超分辨率中的权衡”官方仓库 - ckkelvinchan/RealBasicVSR
GitHub - ExponentialML/ComfyUI_ELLA: ELLA 的 ComfyUI 实现：为 Diffusion Models 配备 LLM 以增强语义对齐：ELLA 的 ComfyUI 实现：为 Diffusion Models 配备 LLM 以增强语义对齐 - ExponentialML/ComfyUI_ELLA
GitHub - dendenxu/fast-gaussian-rasterization: 一个基于几何着色器、全局 CUDA 排序的高性能 3D Gaussian Splatting 光栅化器。与原生的 diff-gaussian-rasterization 相比，渲染速度可提升 5-10 倍。：一个基于几何着色器、全局 CUDA 排序的高性能 3D Gaussian Splatting 光栅化器。与原生的 diff-gaussian-rasterization 相比，渲染速度可提升 5-10 倍。- dende...
教程 | 1 分钟指南，永久解决 SD-WebUI、Forge 和 ComfyUI 所有模型路径问题。：#stablediffusion #ai #tutorial #problems #solution #sd #webui #forge #comfyui #stable-diffusion-webui #stable-diffusion-webui-forge #github #opensource #micr...
GitHub - tencent-ailab/IP-Adapter: 图像 Prompt 适配器旨在使预训练的文本到图像 Diffusion Model 能够使用图像 Prompt 生成图像。：图像 Prompt 适配器旨在使预训练的文本到图像 Diffusion Model 能够使用图像 Prompt 生成图像。 - GitHub - tencent-ailab/IP-Adapter: 图像 Prompt 适配器旨在...
GitHub - Sanster/IOPaint: 由 SOTA 驱动的图像修复工具 AI 模型。从图片中移除任何不需要的对象、瑕疵、人物，或者擦除并替换（由 stable diffusion 提供支持）图片上的任何内容。</a>: 由 SOTA AI 模型驱动的图像修复工具。从图片中移除任何不需要的对象、瑕疵、人物，或者擦除并替换（由 stable diffusion 提供支持）图片上的任何内容。 - Sanster...
未找到标题: 未找到描述

提到的链接:

👾 LM Studio - 发现并运行本地 LLMs: 查找、下载并实验本地 LLMs
bartowski/codegemma-7b-it-GGUF · Hugging Face: 未找到描述
LM Studio Beta 版本发布: 未找到描述
本地 LLM 服务器 | LM Studio: 您可以通过在 localhost 上运行的 API 服务器使用在 LM Studio 中加载的 LLMs。
Text Embeddings | LM Studio: Text Embeddings 处于 beta 阶段。从此处下载支持该功能的 LM Studio。
👾 LM Studio - 发现并运行本地 LLMs: 查找、下载并实验本地 LLMs
Gandalf GIF - Gandalf - 发现并分享 GIFs: 点击查看 GIF
非官方 LMStudio FAQ！: 欢迎来到非官方 LMStudio FAQ。在这里您可以找到 LMStudio Discord 中最常见问题的答案。（此 FAQ 由社区管理）。LMStudio 是一款免费的闭源软件...
主页: C/C++ 中的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。
在 Windows 本地安装 CodeGemma - 优秀的轻量级编程 LLM: 此视频展示了如何在 Windows 上本地安装新的 Google CodeGemma AI 模型。它是最好的轻量级编程模型之一。▶ 成为赞助者 🔥 - https://...

提到的链接：

davidkim205/Rhea-72b-v0.5 · Hugging Face：未找到描述
LM Studio Beta Releases：未找到描述
dranger003/c4ai-command-r-v01-iMat.GGUF · Hugging Face：未找到描述
MaziyarPanahi/Mixtral-8x22B-v0.1-GGUF · Hugging Face：未找到描述
lmstudio-community (LM Studio Community)：未找到描述
Meta 确认其 Llama 3 开源 LLM 将在下个月发布 | TechCrunch：Meta 的 Llama 家族作为开源产品构建，代表了 AI 作为一种更广泛技术应如何发展的不同哲学方法。
jetmoe/jetmoe-8b · Hugging Face：未找到描述
google/codegemma-7b-it · Hugging Face：未找到描述
nold/Smaug-34B-v0.1-GGUF at main：未找到描述
未找到标题：未找到描述

提及的链接：

AWS 加入 Google Cloud 行列，取消出站流量费用：Amazon Web Services 计划取消出站费用。了解这对技术专业人士意味着什么，以及你应该采取的两个步骤。
ggml-c4ai-command-r-plus-104b-iq2_xxs.gguf · dranger003/c4ai-command-r-plus-iMat.GGUF at main：未找到描述

提及的链接：

dranger003/c4ai-command-r-plus-iMat.GGUF · Hugging Face：未找到描述
CohereForAI/c4ai-command-r-plus-4bit · Hugging Face：未找到描述
cognitivecomputations/dolphin-2.8-mistral-7b-v02 · Hugging Face：未找到描述
lmstudio-community/dolphin-2.8-mistral-7b-v02-GGUF · Hugging Face：未找到描述

提到的链接：

GPU 和操作系统支持 (Windows) — ROCm 5.5.1 文档主页：未找到描述
GPU 和操作系统支持 (Windows) — ROCm 5.7.1 文档主页：未找到描述
AMD ROCm™ 文档 — ROCm 5.5.1 文档主页：未找到描述
Text Embeddings | LM Studio：Text Embeddings 处于 Beta 阶段。从此处下载支持该功能的 LM Studio。
Build software better, together：GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。
未找到标题：未找到描述
来自 lmsys.org (@lmsysorg) 的推文：令人兴奋的消息 - 最新的 Arena 结果出炉了！@cohere 的 Command R+ 已攀升至第 6 位，通过 1.3 万多张人类投票，达到了 GPT-4-0314 的水平！它无疑是目前最棒的开源模型...

lmstudio-community (LM Studio Community)

提到的链接:

ReALM: Reference Resolution As Language Modeling: 指代消解（Reference resolution）是一个重要问题，对于理解和成功处理各种上下文至关重要。这些上下文包括前几轮对话以及相关的上下文...
Tutorials — Triton documentation: 未找到描述
Overfitted image coding at reduced complexity: 通过为每张图像过拟合一个轻量级解码器，过拟合图像编解码器提供了引人注目的压缩性能和低解码器复杂度。此类编解码器包括 Cool-chic，它...
Loading a Dataset — datasets 1.1.3 documentation: 未找到描述
unsloth (Unsloth): 未找到描述
mistral-community/Mixtral-8x22B-v0.1 · Benchmarks are here!: 未找到描述
liuhaotian/LLaVA-Instruct-150K · Datasets at Hugging Face: 未找到描述
Intro to Triton: Coding Softmax in PyTorch: 让我们在 PyTorch eager 中编写 Softmax 代码，并确保我们有一个可以与 Triton Softmax 版本进行比较的工作版本。下一视频 - 我们将在 Tr...
GitHub - GraphPKU/PiSSA: 为 GitHub 上的 GraphPKU/PiSSA 开发做出贡献。
Apple Launches ReALM Model that Outperforms GPT-4: Apple 推出了 ReALM，这是一种比 OpenAI 的 GPT-4 更出色的创新 AI 系统，它彻底改变了 AI 对屏幕上下文的理解。
Apple Silicon Support · Issue #4 · unslothai/unsloth: 很棒的项目。希望能看到对 Apple Silicon 的支持！
Adding PiSSA as an optional initialization method of LoRA by fxmeng · Pull Request #1626 · huggingface/peft: 在论文 "https://arxiv.org/pdf/2404.02948.pdf" 中，我们介绍了一种参数高效微调 (PEFT) 方法，主奇异值和奇异向量自适应 (PiSSA)，它优化了...

Unsloth - 4 倍长的上下文窗口和 1.7 倍大的 Batch Size

Links mentioned:

Google Colaboratory: 未找到描述
d4data/biomedical-ner-all · Hugging Face: 未找到描述
Load: 未找到描述
mahiatlinux/luau_corpus-ShareGPT-for-EDM · Datasets at Hugging Face: 未找到描述
Home: 快 2-5 倍，显存占用减少 80% 的 QLoRA & LoRA 微调 - unslothai/unsloth
Roblox/luau_corpus · Datasets at Hugging Face: 未找到描述
Google Colaboratory: 未找到描述
Transformers-Tutorials/BERT/Custom_Named_Entity_Recognition_with_BERT.ipynb at master · NielsRogge/Transformers-Tutorials: 此仓库包含我使用 HuggingFace 的 Transformers 库制作的演示。 - NielsRogge/Transformers-Tutorials
DistilBERT: 未找到描述
Home: 快 2-5 倍，显存占用减少 80% 的 QLoRA & LoRA 微调 - unslothai/unsloth
philschmid/guanaco-sharegpt-style · Datasets at Hugging Face: 未找到描述

提及的链接:

oofnan/stegBot at main: 未找到描述
AshScholar/StegLLM · Hugging Face: 未找到描述

提及的链接：

Supervised Fine-tuning Trainer：未找到描述
AdaLomo: Low-memory Optimization with Adaptive Learning Rate：大语言模型取得了显著成功，但其庞大的参数规模需要大量的显存进行训练，从而设定了很高的门槛。虽然最近提出的 l...

提及的链接：

GPT-4 Turbo with Vision is a step backwards for coding：OpenAI 的 GPT-4 Turbo with Vision 模型在 aider 的代码编辑基准测试中得分低于之前所有的 GPT-4 模型。特别是，它似乎比现有的 GPT 更容易出现“懒惰编码（lazy coding）”...
Tweet from Perplexity (@perplexity_ai)：我们与 Raycast 合作，让您在 Mac 上随时随地获取知识。新的 Raycast Pro 年度订阅用户可免费获得 3 个月的 Perplexity Pro，如果包含高级版则为 6 个月...
Long context window tips：未找到描述
Tweet from Mistral AI (@MistralAI)：magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce
Roger Scott Wealthpress GIF - Roger Scott Wealthpress Stocks - Discover & Share GIFs：点击查看 GIF
Gemini Pro 1.5 by google | OpenRouter：Google 最新的多模态模型，支持文本或聊天提示中的图像和视频。针对语言任务进行了优化，包括：- 代码生成 - 文本生成 - 文本编辑 - 问题解决...

Links mentioned:

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies: 随着对开发拥有高达万亿参数的大语言模型（LLMs）的兴趣日益增长，资源效率和实际成本问题也随之而来，特别是考虑到...
Tweet from Vaibhav Adlakha (@vaibhav_adlakha): 我们还分析了在不进行训练的情况下启用双向注意力（bidirectional attention）如何影响 decoder-only LLMs 的表示 🔍。我们发现 Mistral-7B 在使用双向注意力方面表现出奇地好...
stabilityai/stablelm-2-12b-chat · Hugging Face: 未找到描述
GitHub - McGill-NLP/llm2vec: Code for 'LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders': “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders”的代码实现 - McGill-NLP/llm2vec

Links mentioned:

Generative UI - Vercel AI SDK: 一个用于构建 AI 驱动用户界面的开源库。
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence: 我们介绍了 Eagle (RWKV-5) 和 Finch (RWKV-6)，这是在 RWKV (RWKV-4) 架构基础上改进的序列模型。我们的架构设计进步包括多头矩阵值状态和动态...
stabilityai/stablelm-2-12b-chat · Hugging Face: 未找到描述
来自 Jan P. Harries (@jphme) 的推文: @MistralAI 的首个 AGIEval 结果看起来很棒 👇 - 伙计们，感谢发布这个猛兽！👏 https://x.com/jphme/status/1778028110954295486 ↘️ 引用 Jan P. Harries (@jphme) 的话：首个 AGIEval 结果...
v2ray/Mixtral-8x22B-v0.1 · Hugging Face: 未找到描述
Intel Gaudi 的第三次也是最后一次欢呼，被定位为 H100 的竞争对手: 告别专用 AI 硬件，迎接融合了 Xe 图形 DNA 与 Habana 化学反应的 GPU。
RWKV (RWKV): 未找到描述
逻辑符号列表 - 维基百科: 未找到描述
Meta 确认其 Llama 3 开源 LLM 将在下个月推出 | TechCrunch: Meta 的 Llama 系列作为开源产品构建，代表了 AI 作为一项更广泛技术应如何发展的不同哲学方法。
Wolfram 问题生成器：无限 AI 生成的练习题: 未找到描述
来自 Mistral AI (@MistralAI) 的推文: magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce
通过随机神经元估算或传播梯度以进行条件计算: 随机神经元和硬非线性在深度学习模型中由于多种原因可能很有用，但在许多情况下它们提出了一个具有挑战性的问题：如何估算损失函数的梯度...
树是哈利奎恩，词语是哈利奎恩: 我认为你没有从 Transformer 模型的广泛成功中吸取正确的教训。你写道：如果你必须用一句话总结过去十年的 AI 研究，你可能会说...
Haha So GIF - Haha So Funny - 发现并分享 GIF: 点击查看 GIF
coq_syngen_failed.py: GitHub Gist：即时分享代码、笔记和片段。
GitHub - ContextualAI/gritlm: 生成式表征指令微调: 生成式表征指令微调。通过在 GitHub 上创建账号为 ContextualAI/gritlm 的开发做出贡献。
SynthTrails: 未找到描述

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

提到的链接：

AI Dungeon：未找到描述
HuggingChat：未找到描述
OpenRouter：在 OpenRouter 上浏览模型

提到的链接：

Does Transformer Interpretability Transfer to RNNs?：循环神经网络（RNN）架构的最新进展，如 Mamba 和 RWKV，已使 RNN 在语言建模困惑度方面达到或超过了同等规模 Transformer 的性能...
GitHub - EleutherAI/rnngineering: Engineering the state of RNN language models (Mamba, RWKV, etc.)：工程化 RNN 语言模型的状态 (Mamba, RWKV, 等) - EleutherAI/rnngineering
Nora Belrose (@norabelrose) 的推文：RNN 语言模型最近正在复兴，出现了 Mamba 和 RWKV 等新架构。但是，为 Transformer 设计的可解释性工具是否适用于这些新的 RNN？我们测试了 3 种流行的...

提到的链接：

来自 Jan P. Harries (@jphme) 的推文: @MistralAI 最初的 AGIEval 结果看起来很棒 👇 - 感谢你们发布这个猛兽，伙计们！👏 https://x.com/jphme/status/1778028110954295486 ↘️ 引用 Jan P. Harries (@jphme) 的话：最初的 AGIEval 结果...
Schiff 议员提出开创性法案，旨在建立创作者与公司之间的 AI 透明度: 加利福尼亚州第 30 区国会议员 Adam Schiff 的美国众议院官方网站
AI 预测时间线 - AI Digest: 关于 AI 能力、潜在危害及社会反应的预期
Unsloth 更新：支持 Mistral 及更多内容: 我们很高兴发布对 Mistral 7B、CodeLlama 34B 以及所有其他基于 Llama 架构模型的 QLoRA 支持！我们增加了滑动窗口注意力（sliding window attention）、初步的 Windows 支持和 DPO 支持，以及...
mistral-community/Mixtral-8x22B-v0.1 · 基准测试已发布！: 未找到描述
unsloth/unsloth/kernels/cross_entropy_loss.py at main · unslothai/unsloth: 速度提升 2-5 倍，显存减少 80% 的 QLoRA & LoRA 微调 - unslothai/unsloth
Mistral 损失不稳定 · Issue #26498 · huggingface/transformers: 系统信息：你好，我一直在与微调了 Mistral 官方 instruct 模型的 dhokas 合作。我尝试使用多个数据集进行了数十次消融实验来微调 Mistral。在那里...

提及的链接:

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders：仅解码器（Decoder-only）的大型语言模型（LLMs）是目前大多数 NLP 任务和基准测试中的 SOTA 模型。然而，社区在将这些模型用于文本嵌入任务方面进展缓慢...
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence：我们展示了 Eagle (RWKV-5) 和 Finch (RWKV-6)，这是在 RWKV (RWKV-4) 架构基础上改进的序列模型。我们的架构设计进步包括多头矩阵值状态和动态...
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws：Scaling laws 描述了语言模型规模与其能力之间的关系。与以往通过 Loss 或基准测试评估模型能力的研究不同，我们估算了...
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models：与稠密模型相比，混合专家（MoE）语言模型可以在不牺牲性能的情况下将计算成本降低 2-4 倍，使其在计算受限的场景中更具效率...
A Large Batch Optimizer Reality Check: Traditional, Generic...：我们在通常使用 LARS/LAMB 的流水线上重新调整了 Nesterov/Adam 优化器，并实现了相似或更好的性能，为大批量训练设置提供了具有竞争力的 Baseline。
Subtractive Mixture Models via Squaring: Representation and Learning：混合模型传统上通过添加多个分布作为组件来表示和学习。允许混合模型减去概率质量或密度可以大幅减少组件数量...
Tweet from Chenyan Jia (@JiaChenyan)：我们能否设计 AI 系统，将民主价值作为其目标函数？我们与 @michelle123lam, Minh Chau Mai, @jeffhancock, @msbernst 合作的新 #CSCW24 论文介绍了一种转化方法...
Batch size invariant Adam：我们提出了一种批量大小无关的 Adam 版本，用于大规模分布式环境，其中 mini-batch 被划分为分布在工作节点之间的 micro-batches。对于...
Comparative Study of Large Language Model Architectures on Frontier：大型语言模型（LLMs）在 AI 社区及其他领域引起了极大关注。其中，Generative Pre-trained Transformer (GPT) 已成为主流架构...
Teach LLMs to Phish: Stealing Private Information from Language Models：当大型语言模型在私有数据上进行训练时，它们记忆并复述敏感信息可能会带来重大的隐私风险。在这项工作中，我们提出了一种新的实用数据提取...
AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for Language Modeling：变分自编码器（VAE）已成为同时实现自然语言表示学习和生成的既定学习范式。然而，现有的基于 VAE 的语言...
Embedding Democratic Values into Social Media AIs via Societal Objective Functions：我们能否设计人工智能（AI）系统来对我们的社交媒体 Feed 进行排序，从而将减轻党派敌意等民主价值作为其目标函数的一部分？我们介绍...
Avocado Bacon Salad Lunch GIF - Avocado Bacon Salad Lunch Salad - Discover & Share GIFs：点击查看 GIF
Cut the CARP: Fishing for zero-shot story evaluation：大规模语言模型（Raffel et al., 2019; Brown et al., 2020）的最新进展在机器驱动的文本生成方面带来了显著的质和量的提升。尽管...
Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning：受控的自动故事生成旨在生成满足自然语言评论或偏好约束的自然语言故事。现有的控制故事偏好的方法...
UniFL: Improve Stable Diffusion via Unified Feedback Learning：扩散模型彻底改变了图像生成领域，导致高质量模型的激增和多样化的下游应用。然而，尽管取得了这些重大进展...
ByteEdit: Boost, Comply and Accelerate Generative Image Editing: 最近基于扩散的生成式图像编辑进展引发了一场深刻的革命，重塑了图像外扩（outpainting）和内补（inpainting）任务的格局。尽管取得了这些进步，该领域 ...
Aligning Diffusion Models by Optimizing Human Utility: 我们提出了 Diffusion-KTO，这是一种通过将对齐目标制定为最大化预期人类效用来对齐文本到图像扩散模型的新方法。由于该目标适用于...
GitHub - andreaspapac/CwComp: Convolutional Channel-wise Competitive Learning for the Forward-Forward Algorithm. AAAI 2024: 用于 Forward-Forward 算法的卷积通道竞争学习。AAAI 2024 - andreaspapac/CwComp
GWYRE: A Resource for Mapping Variants onto Experimental and Modeled Structures of Human Protein Complexes - PubMed: 蛋白质及其相互作用结构建模的快速进展，得益于基于知识的方法论的进步以及对蛋白质结构物理原理的更好理解...
How to Scale Hyperparameters as Batch Size Increases: 未找到描述

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

提及的链接:

[WIP] Add chat templating for HF models by haileyschoelkopf · Pull Request #1287 · EleutherAI/lm-evaluation-harness: 这是一个正在进行中的 PR，延续了 @daniel-furman 在 #1209 中开始的草案，旨在添加指定的、经常被请求的聊天模板功能。目前的 TODO 包括：使用 OpenHermes 等检查性能...
Build software better, together: GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。

OpenAI Status

域名验证困扰：一位用户在尝试发布 GPT 时遇到错误，询问在设置 TXT 记录后如何验证域名的建议。
GPT 转向 SaaS 转型咨询：一位成员正在寻求关于将 GPT 转换为单一用途 SaaS 应用程序的可用服务建议，旨在为未来的项目创建概念验证。
GPT 的技术困难：几位成员报告了各种问题，包括无法加载 GPT、提及（mentions）功能失效，以及尽管资金充足但因账单问题导致 API 访问被暂停。
聊天机器人停机报告：用户面临 GPT 停机问题，出现“GPT 无法访问或未找到”等错误，并且在检索现有对话时遇到困难。
服务状态更新与确认：分享了指向 OpenAI 服务状态页面的链接，确认了正在对影响 ChatGPT 服务的错误率上升和间歇性停机进行调查。

OpenAI Status

提到的链接：

GPT-4 Turbo with Vision 对编程来说是一次退步：OpenAI 的 GPT-4 Turbo with Vision 模型在 aider 的代码编辑基准测试中的得分低于之前所有的 GPT-4 模型。特别是，它似乎比现有的 GP... 相比更容易出现“懒惰编码”现象。
来自 Cursor (@cursor_ai) 的推文：Cursor 用户现在可以使用新的 gpt-4-turbo 模型。我们观察到在处理复杂任务时的推理能力有所提升。以下是 gpt-4-1106 与新 gpt-4-turbo 的示例对比：
turbopuffer：turbopuffer 是一个构建在对象存储之上的向量数据库，这意味着成本降低了 10 到 100 倍，采用按需计费模式，并具有极强的可扩展性。
来自 Abhik Roychoudhury (@AbhikRoychoudh1) 的推文：介绍 AutoCodeRover，展示我们来自新加坡的自主软件工程师！它接收 GitHub issue（修复 Bug 或添加功能），在几分钟内解决，且 LLM 成本极低，约为 $0.5！...
来自 7oponaut (@7oponaut) 的推文：新 GPT-4 通过了神奇电梯测试
LMSys Chatbot Arena Leaderboard - lmsys 的 Hugging Face Space：未找到描述
来自 kwindla (@kwindla) 的推文：@latentspacepod 这里是来自 @chadbailey59 的视频，展示了快速语音响应 + tool calling 的可能性。
Nvidia Blackwell 性能 TCO 分析 - B100 vs B200 vs GB200NVL72：GPT-4 盈利能力、成本、推理模拟器、并行化解释、大模型与小模型推理及训练中的性能 TCO 建模
pgvector：嵌入与向量相似度 | Supabase 文档：pgvector：一个用于存储 embeddings 并执行向量相似度搜索的 PostgreSQL 扩展。
来自 Noam Brown (@polynoamial) 的推文：GPT-4 的推理能力得到进一步提升 ↘️ 引用 OpenAI (@OpenAI) 的话：大幅改进的 GPT-4 Turbo 模型现已在 API 中提供，并正在 ChatGPT 中推出。
来自 Liam Bolling (@liambolling) 的推文：🎉 对 @Google Gemini 来说是重大的一天。Gemini 1.5 Pro 现在可以理解音频、使用无限文件、执行你的命令，并让开发者通过 JSON mode 构建令人惊叹的东西！这一切都是 🆓 的。原因如下...
定价：简单且灵活。只需为你使用的部分付费。
来自 Greg Brockman (@gdb) 的推文：新旧 GPT-4 Turbo 的对比示例：↘️ 引用 Pietro Schirano (@skirano) 的话：最新版本 gpt-4-turbo 与之前版本 0125-preview 的并排对比。不仅是...
来自 Teknium (e/λ) (@Teknium1) 的推文：Mistral 发布了一个 8x22b 模型 ↘️ 引用 Mistral AI (@MistralAI) 的话：magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fanno...
来自 Ryan Moulton (@moultano) 的推文：尼日利亚推特对此反应如此强烈，让我觉得很多 ChatGPTisms 只是他们雇佣来编写微调数据的员工的口语化语言。↘️ 引用 Paul Graham (@paulg) 的话...
来自 Delve (YC W24) (@getdelve) 的推文：我们 100% 同意。想象一下创办一家名为 Delve 的 YC 公司。↘️ 引用 Paul Graham (@paulg) 的话：我的重点不是我不喜欢 "delve" 这个词，虽然我确实不喜欢，而是它标志着文本是由...
来自 Liam Bolling (@liambolling) 的推文：🎉 对 @Google Gemini 来说是重大的一天。Gemini 1.5 Pro 现在可以理解音频、使用无限文件、执行你的命令，并让开发者通过 JSON mode 构建令人惊叹的东西！这一切都是 🆓 的。原因如下...
来自 Alpay Ariyak (@AlpayAriyak) 的推文：我在新的 GPT-4-Turbo-2024-04-09 上运行了 humaneval（base 和 plus），它在两项测试中都排名第一
来自 farbood — e/acc (@farbood) 的推文：今天 w
我们正在开源并分享一个名为 Sequel 的长寿助手 —— 本地存储：我们不会获取或查看您的数据 —— 与您的完整健康图景进行对话：血液化验、Whoop、DEXA、MRI 等...
来自 Steven Heidel (@stevenheidel) 的推文：深入研究最新的 GPT-4 Turbo 模型：- 在我们的评估中各项指标均有重大改进（尤其是数学）- 知识截止日期为 2023 年 12 月 ↘️ 引用 OpenAI (@OpenAI) 大幅改进的 GPT-4 Turbo 模型...
来自 Rohan Paul (@rohanpaul_ai) 的推文：重大新闻 🔥🤯 Google 发布了采用全新 Griffin 架构的模型，其表现优于 Transformer。在多种规模下，Griffin 在受控环境下的基准测试得分均超过了 Transformer 基准模型...
来自 Phil (@phill__1) 的推文：新的 GPT-4 Turbo 模型是唯一能解决这道数学题的模型：“确定 y = x^4 - 5x^2 - x + 4 与 y = x^2 - 3x 的四个交点的 y 坐标之和...”
来自 Rohan Paul (@rohanpaul_ai) 的推文：重大新闻 🔥🤯 Google 发布了采用全新 Griffin 架构的模型，其表现优于 Transformer。在多种规模下，Griffin 在受控环境下的基准测试得分均超过了 Transformer 基准模型...
来自 Noam Brown (@polynoamial) 的推文：GPT-4 的推理能力得到了进一步提升 ↘️ 引用 OpenAI (@OpenAI) 大幅改进的 GPT-4 Turbo 模型现已在 API 中提供，并正在 ChatGPT 中逐步推出。
来自 Dylan Patel (@dylan522p) 的推文：Nvidia Blackwell 性能 TCO 分析 B100 vs B200 vs GB200NVL72 GPT-4 盈利能力、成本推理模拟器并行性解释、大模型与小模型推理及训练中的性能 TCO 建模...
来自 udio (@udiomusic) 的推文：介绍 Udio，一款用于音乐创作和分享的应用，它允许您通过直观且强大的文本提示词（text-prompting）生成您喜爱风格的惊人音乐。1/11
Gen AI Office Hours: Jason, Hamel, Eugene：未找到描述
Gen AI Office Hours: Jason, Hamel, Eugene：未找到描述
来自 Boris Power (@BorisMPower) 的推文：“大幅改进” 😉 ↘️ 引用 OpenAI (@OpenAI) 大幅改进的 GPT-4 Turbo 模型现已在 API 中提供，并正在 ChatGPT 中逐步推出。
来自 GitHub - FixTweet/FxTwitter 的推文：修复损坏的 Twitter/X 嵌入！在 Discord、Telegram 等平台上使用多张图片、视频、投票、翻译等功能：修复损坏的 Twitter/X 嵌入！在 Discord、Telegram 等平台上使用多张图片、视频、投票、翻译等功能 - FixTweet/FxTwitter
来自 Teortaxes▶️ (@teortaxesTex) 的推文：所以，~Medium v2。我猜这意味着他们很快就会淘汰当前的 Medium。↘️ 引用 Waseem AlShikh (@waseem_s) @Get_Writer 团队有机会对 Mixtral-8x22b 进行了评估，结果...
来自 Bindu Reddy (@bindureddy) 的推文：这是一张关于所有模型各种基准测试的极好表格。新的 Mixtral 拥有最高的 MMLU 分数 77.3，略领先于 Qwen 72B，后者是昨天的最佳开源模型...
来自 Daniel Han (@danielhanchen) 的推文：无法下载 @MistralAI 的新 8x22B MoE，但成功检查了一些文件！1. Tokenizer 与 Mistral 7b 相同 2. Mixtral (4096,14336) 新版 (6144,16K)，因此使用了更大的基础模型。3. 16bit ne...
来自 Awni Hannun (@awnihannun) 的推文：新的 Mixtral 8x22B 在 M2 Ultra 的 MLX 上运行良好。🤗 MLX 社区中的 4-bit 量化模型：https://huggingface.co/mlx-community/Mixtral-8x22B-4bit 感谢 @Prince_Canuma 提供的 MLX 版本和 v2r...
来自 Vaibhav (VB) Srivastav (@reach_vb) 的推文：Mixtral 8x22B - 目前我们所知道的情况 🫡 > 176B 参数 > 性能...
来自 Together AI (@togethercompute) 的推文：新模型现已在 Together AI 上线！@MistralAI 最新的基础模型，Mixtral-8x22B！🚀 https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
已确认——“Suno 杀手”名为 Udio：我一直在调查一些人所谓的“Suno 杀手”——一个据称比其好 2 到 10 倍的音乐生成 AI 模型...
来自 Vaibhav (VB) Srivastav (@reach_vb) 的推文：成功了！使用 Transformers 运行 Mixtral 8x22B！🔥 在 DGX (4x A100 - 80GB) 上运行，并开启了 CPU offloading 🤯 ↘️ 引用 Vaibhav (VB) Srivastav (@reach_vb) mixtral 8x22B - 目前已知的信息...
来自 Hassan Hayat 🔥 (@TheSeaMouse) 的推文：mixtral 8x22b 配置

提到的链接：

1-bit LLMs 时代：所有大语言模型都是 1.58 Bits：最近的研究（如 BitNet）正在为 1-bit Large Language Models (LLMs) 的新时代铺平道路。在这项工作中，我们引入了一个 1-bit LLM 变体，即 BitNet b1.58，其中每一个参数...
LLM 论文俱乐部 (1-bit LLMs 论文) · Luma：本周 @rj45 将分享 https://arxiv.org/abs/2402.17764 1-bit LLMs 时代：所有大语言模型都是 1.58 Bits。同时请为我们的下一篇论文提交建议并投票：...

提到的链接：

邀请你在 Matrix 上交流：未找到描述
加入 Slido：输入 #code 进行投票和提问：参与实时投票、测验或问答。无需登录。
1-bit LLM 时代：所有大语言模型都是 1.58 Bits：最近的研究（如 BitNet）正在为 1-bit 大语言模型（LLM）的新时代铺平道路。在这项工作中，我们引入了一个 1-bit LLM 变体，即 BitNet b1.58，其中每一个参数...
大语言模型数据集：全面综述：本文开始探索大语言模型（LLM）数据集，这些数据集在 LLM 的显著进步中起着至关重要的作用。数据集作为基础架构...
FinGPT：金融数据集中开源大语言模型的指令微调基准：在迅速扩张的自然语言处理（NLP）领域，基于 GPT 的模型在金融领域的潜力日益显现。然而，将这些模型与...集成...
Shapes, Inc.：Shapes 是可以在 Discord 上与你交谈的 AI 好友
Openhouse：未找到描述
BloombergGPT - 金融领域的 LLM，对话 David Rosenberg - 639：今天我们邀请到了 Bloomberg CTO 办公室机器学习策略团队负责人 David Rosenberg。在与 David 的对话中，我们...
Openhouse：未找到描述
GitHub - Beomi/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture：0️⃣1️⃣🤗 BitNet-Transformers：使用 Llama(2) 架构在 PyTorch 中实现的 Huggingface Transformers 版 "BitNet: Scaling 1-bit Transformers for Large Language Models" - Beomi/...
[草稿] 1.58 bits?：未找到描述
GitHub - AI4Finance-Foundation/FinGPT: FinGPT: Open-Source Financial Large Language Models! Revolutionize 🔥 We release the trained model on HuggingFace.：FinGPT：开源金融大语言模型！变革 🔥 我们在 HuggingFace 上发布了训练好的模型。- AI4Finance-Foundation/FinGPT
Openhouse：未找到描述

提到的链接：

CohereForAI/c4ai-command-r-plus - HuggingChat：在 HuggingChat 中使用 CohereForAI/c4ai-command-r-plus
Nathan Sarrazin (@NSarrazin_) 的推文：我们刚刚在 HuggingChat 上增加了对 Gemma 1.1 Instruct 7B 的支持！它应该比 1.0 有显著改进，很期待看到大家如何使用它。在这里试用：https://huggingface.co/chat/models/google/ge...
Philipp Schmid (@_philschmid) 的推文：Gemma 现在可以写代码了！🤯 🔔 @GoogleDeepMind 刚刚发布了 Code Gemma，这是一个专门的开源代码模型系列。Code Gemma 有 2B 和 7B 两个版本，非常适合设备端代码补全...
CodeGemma - ysharma 创建的 Hugging Face Space：未找到描述
Philipp Schmid (@_philschmid) 的推文：我们正在将 Hugging Face 上的计算价格降低多达 50%！🤯 是的，你没听错，@huggingface Spaces 和 Inference Endpoints 现在平均比 AWS EC2 按需实例便宜 20%！🤑 我们...
merve (@mervenoyann) 的推文：最近我们对社区博客（现在称为 articles）进行了一系列更改 🆙 我们现在有了点赞功能，获得点赞的文章会出现在活动流中 🤝 我们已经向论文作者开放了访问权限 📝 使用...
Julien Chaumond (@julien_c) 的推文：我们决定更新 text-generation-inference (TGI) 的许可证。我们将许可证从 HFOIL（我们的自定义许可证）切回 Apache 2，从而使该库完全开源。阅读下文...
Freddy A Boulton (@freddy_alfonso_) 的推文：由 @Wauplin 制作的带有新自定义 @Gradio 组件的非常流畅的演示 👀 ↘️ 引用 Arcee.ai (@arcee_ai)：与 @huggingface 合作，Arcee 很高兴发布我们的 MergeKit Hugging Face Space。🙌 你...
Pablo Montalvo (@m_olbap) 的推文：很难找到高质量的 OCR 数据... 直到今天！非常激动地宣布发布有史以来最大的 2 个公开 OCR 数据集 📜 📜 OCR 对文档 AI 至关重要：这里有 26M+ 页面，18b 文本...
Fleetwood (@fleetwood___) 的推文：经过一周的绝对奋斗，Phi2 正式在 Ratchet 上运行了 🎺 目前还比较缓慢 🐌 但会有很多优化。
Release v0.29.0: NUMA affinity control, MLU Support, and DeepSpeed Improvements · huggingface/accelerate：核心功能：Accelerate 现在可以优化 NUMA 亲和性，这有助于提高 NVIDIA 多 GPU 系统的吞吐量。要启用它，请在执行 accelerate config 时按照提示操作，或设置 ACCELERATE_C...
Classical AI in Games - Hugging Face ML for Games 课程：未找到描述
Clémentine Fourrier 🍊 (@clefourrier) 的推文：“评估很有趣”推文的后续：分数会根据 Prompt 格式的选择发生多大变化？给定模型的分数范围可达 10 分！:D X 轴为 Prompt 格式，所有这些评估...
Abubakar Abid (@abidlabs) 的推文：介绍 Gradio API Recorder 🪄 现在每个 Gradio 应用都包含一个 API 记录器，让你能够使用 Python 或 JS 客户端将你在 Gradio 应用中的交互重构为代码！
Outpainting II - Differential Diffusion：未找到描述
为 Hugging Face 用户带来 Serverless GPU 推理：未找到描述

提到的链接：

app.py · nroggendorff/cascade at main：未找到描述
LevelBot - huggingface-projects 提供的 Hugging Face Space：未找到描述
Hugging Face – 构建未来的 AI 社区。：未找到描述
BAAI/bge-m3 · Hugging Face：未找到描述
编程大冒险：光线追踪：我尝试创建一个自定义的光线/路径追踪渲染器。包含：数学、着色器和猫！该项目使用 C# 和 HLSL 编写，并使用 Unity 游戏引擎...
电子商务的未来？！虚拟服装试穿 Agent：我构建了一个 Agent 系统，它可以自主迭代并生成 AI 模型穿着特定服装的图像，并产生数百万以上的社交帖子。免费访问运行...
GitHub - karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练：使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
GitHub - BrutPitt/glChAoS.P: 3D GPU 奇异吸引子和超复分形探索器 - 实时处理高达 2.56 亿个粒子：3D GPU 奇异吸引子和超复分形探索器 - 实时处理高达 2.56 亿个粒子 - BrutPitt/glChAoS.P

提到的链接：

关于 Conda, Pip, Libmamba 的包管理及硬重置：抱歉没能更新每日视频。我生病了，而且还不得不重置/更新我的 Linux 发行版。苦中作乐，利用这次机会...
GitHub - ManoBharathi93/Sentiment_Classifier: 基于 IMDB 电影数据集的情感分类器：基于 IMDB 电影数据集的情感分类器。通过在 GitHub 上创建账号来为 ManoBharathi93/Sentiment_Classifier 的开发做出贡献。

提及的链接:

GLiNER-Multiv2.1 - urchade 开发的 Hugging Face Space: 未找到描述
llm-course/Quantization (main 分支) · andysingal/llm-course: 通过在 GitHub 上创建账号为 andysingal/llm-course 的开发做出贡献。
GitHub - marimo-team/marimo-labs: 通过在 GitHub 上创建账号为 marimo-team/marimo-labs 的开发做出贡献。
GitHub: Let’s build from here: GitHub 是超过 1 亿开发者共同塑造软件未来的地方。为开源社区做出贡献，管理您的 Git 仓库，像专家一样审查代码，跟踪错误和功能...
marimo | 下一代 Python notebook: 使用 marimo（下一代 Python notebook）无缝探索数据并构建应用。

提到的链接：

Fashion Try On - tonyassi 的 Hugging Face Space：未找到描述
everything-rag - as-cle-bert 的 Hugging Face Space：未找到描述
GitHub - SuleymanEmreErdem/deep-q-learning-applications: 我的 Deep Q-Learning 项目：我的 Deep Q-Learning 项目。通过在 GitHub 上创建账户，为 SuleymanEmreErdem/deep-q-learning-applications 的开发做出贡献。
GitHub - EdoPedrocchi/RicercaMente: 旨在通过多年来发表的科学研究追踪数据科学历史的开源项目：旨在通过多年来发表的科学研究追踪数据科学历史的开源项目 - EdoPedrocchi/RicercaMente

GitHub - Firdavs-coder/Aladdin-Persson-AI-Watermark-Destroy: Aladdin-Persson-AI-Watermark-Destroy Public

Links mentioned:

Google Colaboratory：未找到描述
Distributed inference with multiple GPUs：未找到描述
Layer Decomposer（图层分离 AI）｜图像和视频编辑 AI 工具：cre8tiveAI：一款基于 AI 的 SaaS，可在 10 秒内解决各种照片和插图编辑任务，例如自动上色、提高图像和视频分辨率以及剪裁等...
Distributed inference with multiple GPUs：未找到描述

Links mentioned:

Mixtral 8x22B by mistralai | OpenRouter: Mixtral 8x22B 是来自 Mistral AI 的大规模语言模型。它由 8 个专家组成，每个专家拥有 220 亿参数，每个 token 每次使用 2 个专家。它通过 [X](https://twitter...
Gemma 7B by google | OpenRouter: Google 的 Gemma 是一个先进的开源语言模型系列，利用了最新的 decoder-only 文本到文本技术。它在文本生成任务中提供英语能力...
lzlv 70B by lizpreciatior | OpenRouter: 选定 70B 模型的 Mythomax/MLewd_13B 风格合并。由多个 LLaMA2 70B 微调模型合并而成，用于角色扮演和创意工作。目标是创建一个结合了创造力的模型...
DBRX 132B Instruct by databricks | OpenRouter: DBRX 是 Databricks 开发的新型开源大语言模型。在 132B 参数规模下，它在语言相关的标准行业基准测试中优于现有的开源 LLM，如 Llama 2 70B 和 Mixtral-8x7B...
Hermes 2 Mixtral 8x7B DPO by nousresearch | OpenRouter: Nous Hermes 2 Mixtral 8x7B DPO 是新的旗舰级 Nous Research 模型，基于 [Mixtral 8x7B MoE LLM](/models/mistralai/mixtral-8x7b) 训练。该模型在超过 1,000,000 条原始数据上进行了训练...
Gemini Pro 1.0 by google | OpenRouter: Google 的旗舰文本生成模型。旨在处理自然语言任务、多轮文本和代码对话以及代码生成。查看来自 [Deepmind] 的基准测试和提示指南...
GPT-4 Turbo by openai | OpenRouter: 最新的具备视觉能力的 GPT-4 Turbo 模型。视觉请求现在可以使用 JSON 模式和 function calling。训练数据截至 2023 年 12 月。此模型由 OpenAI 更新以指向最新的...
Hermes 2 Mixtral 8x7B DPO by nousresearch | OpenRouter: Nous Hermes 2 Mixtral 8x7B DPO 是新的旗舰级 Nous Research 模型，基于 [Mixtral 8x7B MoE LLM](/models/mistralai/mixtral-8x7b) 训练。该模型在超过 1,000,000 条原始数据上进行了训练...
Mistral 7B Instruct by mistralai | OpenRouter: 一个 7.3B 参数的模型，在所有基准测试中均优于 Llama 2 13B，并针对速度和上下文长度进行了优化。这是 Mistral 7B Instruct 的 v0.1 版本。对于 v0.2，请使用 [此模型](/models/mistral...
Llama v2 13B Chat by meta-llama | OpenRouter: 来自 Meta 的 130 亿参数语言模型，针对聊天对话进行了微调。
Llama v2 70B Chat by meta-llama | OpenRouter: 来自 Meta 的旗舰级 700 亿参数语言模型，针对聊天对话进行了微调。Llama 2 是一种使用优化 Transformer 架构的自回归语言模型。微调版本...
Mixtral 8x7B by mistralai | OpenRouter: 由 Mistral AI 开发的预训练生成式稀疏混合专家模型（Sparse Mixture of Experts）。包含 8 个专家（前馈网络），总计 47B 参数。基础模型（未进行指令微调）- 参见 [Mixt...

提到的链接：

Google Cloud Gemini, Image 2, and MLOps updates | Google Cloud Blog：Vertex AI 增加了扩展的 Gemini 1.5 访问权限、新的 CodeGemma 模型、Imagen 的增强功能以及新的 MLOps 特性。
databricks/dbrx-instruct - Demo - DeepInfra：DBRX 是由 Databricks 创建的开源 LLM。它采用混合专家（MoE）架构，总参数量为 132B，其中任何输入都会激活 36B 参数。它的性能超越了现有的开源模型...
Welcome to Google Cloud Next ‘24 | Google Cloud Blog：Google Cloud CEO Thomas Kurian 概述了 Google Cloud Next ‘24 的所有新闻和客户动态。
Gemma 7B by google | OpenRouter：Gemma 是 Google 推出的一款先进的开源语言模型系列，利用了最新的 decoder-only 文本到文本技术。它在文本生成任务中提供英语能力...
OpenRouter：在 OpenRouter 上浏览模型

提到的链接：

Zeyuan Allen-Zhu (@ZeyuanAllenZhu) 的推文：我们的 12 条扩展定律（针对 LLM 知识容量）已发布：https://arxiv.org/abs/2404.05405。我花了 4 个月提交了 50,000 个作业；Meta 花了 1 个月进行法律审查；FAIR 赞助了 4,200,000 GPU 小时。希望...
未找到标题：未找到描述
llm.c/dev/cuda at master · karpathy/llm.c：使用简单、原始的 C/CUDA 进行 LLM 训练。欢迎在 GitHub 上为 karpathy/llm.c 的开发做出贡献。

Answer Key: What Shapes Do Matrix Multiplications Like?

提到的链接：

ring-attention/naive_flash_attn at naive_flash_attn_examples · cuda-mode/ring-attention：ring-attention 实验。通过在 GitHub 上创建账户为 cuda-mode/ring-attention 的开发做出贡献。
ring-flash-attention/ring_flash_attn/ring_flash_attn.py at 55ff66fd35f329dfcc24ce7a448bfdd532865966 · zhuzilin/ring-flash-attention：结合 Flash Attention 的 Ring Attention 实现 - zhuzilin/ring-flash-attention

minor on puzzle 11 by ZhaoyueCheng · Pull Request #10 · srush/Triton-Puzzles

Links mentioned:

hqq/hqq/core/torch_lowbit.py at ao_int4_mm · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
hqq/hqq/core/torch_lowbit.py at ao_int4_mm · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
hqq/hqq/core/quantize.py at master · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
gpt-fast/scripts/convert_hf_checkpoint.py at main · pytorch-labs/gpt-fast: 在少于 1000 行 Python 代码中实现的简单且高效的 PyTorch 原生 Transformer 文本生成。 - pytorch-labs/gpt-fast
GitHub - IST-DASLab/marlin: FP16xINT4 LLM inference kernel that can achieve near-ideal ~4x speedups up to medium batchsizes of 16-32 tokens.: FP16xINT4 LLM 推理 kernel，在高达 16-32 tokens 的中等 Batch Size 下可实现接近理想的 ~4 倍加速。 - IST-DASLab/marlin
GitHub - zhxchen17/gpt-fast: Simple and efficient pytorch-native transformer text generation in <1000 LOC of python.: 在少于 1000 行 Python 代码中实现的简单且高效的 PyTorch 原生 Transformer 文本生成。 - zhxchen17/gpt-fast
hqq/examples/llama2_benchmark/quant_llama2_hqq_demo.py at master · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
hqq/hqq/core/torch_lowbit.py at ao_int4_mm · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
pytorch/aten/src/ATen/native/cuda/int4mm.cu at 8aa08b8b9d1fab2a13dc5fbda74c553cb2a08729 · pytorch/pytorch: Python 中具有强大 GPU 加速功能的张量和动态神经网络 - pytorch/pytorch
testing HQQ [not for land] by HDCharles · Pull Request #155 · pytorch-labs/gpt-fast: 来自 ghstack 的堆栈（最早的在底部）： -> #155 摘要：hqq wikitext: {'word_perplexity,none': 12.698986130023261, 'word_perplexity_stderr,none': 'N/A', 'byte_perplexi...
hqq_eval_int4mm.py: GitHub Gist：即时分享代码、笔记和代码片段。
HQQ 4 bit llama 2 7b · zhxchen17/gpt-fast@f7c8151: export MODEL_REPO=meta-llama/Llama-2-7b-hf scripts/prepare.sh $MODEL_REPO python quantize.py --checkpoint_path checkpoints/$MODEL_REPO/model.pth --mode int4-hqq --groupsize 64 python generate.py --...

提及的链接:

gist:5defcd59aed4364846d034ac01eb6cfd: GitHub Gist：即时分享代码、笔记和片段。
llm.c/dev/cuda/attention_forward.cu at 8386e5393c61ec2faf706f3040e68127c2f08398 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
karpa - 概览: karpa 有 13 个可用的仓库。在 GitHub 上关注他们的代码。
GitHub - karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
llm.c/dev/cuda/gelu_forward.cu at 8386e5393c61ec2faf706f3040e68127c2f08398 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
llm.c/dev/cuda/gelu_forward.cu at 8386e5393c61ec2faf706f3040e68127c2f08398 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
llm.c/dev/cuda/residual_forward.cu at 8386e5393c61ec2faf706f3040e68127c2f08398 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
llm.c/dev/cuda/gelu_forward.cu at 8386e5393c61ec2faf706f3040e68127c2f08398 · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
lectures/lecture8/occupancy.cu at main · cuda-mode/lectures: cuda-mode 课程资料。通过在 GitHub 上创建账号为 cuda-mode/lectures 的开发做出贡献。

提及的链接:

Introduction | 🦜️🔗 LangChain: LangChain 是一个用于开发由大语言模型 (LLMs) 驱动的应用程序的框架。
[beta] Structured Output | 🦜️🔗 LangChain: 让 LLMs 返回结构化输出通常至关重要。这
[beta] Structured Output | 🦜️🔗 LangChain: 让 LLMs 返回结构化输出通常至关重要。这
Quickstart | 🦜️🔗 LangChain: 语言模型输出文本。但很多时候你可能想要获得更多
RAG evaluation with RAGAS | 🦜️🛠️ LangSmith: Ragas 是一个流行的框架，可帮助你评估检索增强生成 (RAG) 流水线。
ChatOpenAI | 🦜️🔗 Langchain: 你可以按照以下方式使用 OpenAI 的聊天模型：
Synthetic data generation | 🦜️🔗 LangChain: 在 Colab 中打开
GitHub - outlines-dev/outlines: Structured Text Generation: 结构化文本生成。通过在 GitHub 上创建账户，为 outlines-dev/outlines 的开发做出贡献。
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知的推理应用程序。通过在 GitHub 上创建账户，为 langchain-ai/langchain 的开发做出贡献。
GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++: OpenAI Whisper 模型的 C/C++ 移植版本。通过在 GitHub 上创建账户，为 ggerganov/whisper.cpp 的开发做出贡献。

提到的链接:

everything-rag - a Hugging Face Space by as-cle-bert: 未找到描述
GitHub - GregorD1A1/TinderGPT: 通过在 GitHub 上创建账户，为 GregorD1A1/TinderGPT 的开发做出贡献。
GitHub - mattflo/structured-output-performance: A comparison of structured output performance among popular open and closed source large language models.: 流行开源和闭源大语言模型之间结构化输出性能的对比。 - mattflo/structured-output-performance

Future of E-commerce?! Virtual clothing try-on agent

Links mentioned:

Welcome To Instructor - Instructor: 未找到描述
Im A Sad Panda Peetie GIF - Im A Sad Panda Peetie South Park - Discover & Share GIFs: 点击查看 GIF
Disco Dance GIF - Disco Dance Party - Discover & Share GIFs: 点击查看 GIF
Mindblown Omg GIF - Mindblown Omg Triggered - Discover & Share GIFs: 点击查看 GIF
Postgres - LlamaIndex: 未找到描述
Gradient Blog: RAG 101 for Enterprise : 企业级 RAG 101 - Gradient 团队
Future of E-commerce?! Virtual clothing try-on agent: 我构建了一个 Agent 系统，它可以自主迭代并生成 AI 模型穿着特定服装的图像，并产生数百万条社交帖子。免费运行访问...
autogen/notebook/agentchat_inception_function.ipynb at main · microsoft/autogen: 一个用于 Agentic AI 的编程框架。Discord: https://aka.ms/autogen-dc。路线图: https://aka.ms/autogen-roadmap - microsoft/autogen
GitHub - run-llama/sec-insights: A real world full-stack application using LlamaIndex: 一个使用 LlamaIndex 的真实全栈应用 - run-llama/sec-insights
llama_index/llama-index-core/llama_index/core/chat_engine at main · run-llama/llama_index: LlamaIndex 是一个用于 LLM 应用的数据框架 - run-llama/llama_index
sec-insights/backend/app/chat at main · run-llama/sec-insights: 一个使用 LlamaIndex 的真实全栈应用 - run-llama/sec-insights
Discover LlamaIndex: SEC Insights, End-to-End Guide: secinsights.ai 是一个全栈应用，利用 LlamaIndex 的检索增强生成 (RAG) 功能来回答有关 SEC 10-K 和 10-Q 文档的问题...
Vector Stores - LlamaIndex: 未找到描述
Azure AI Search - LlamaIndex: 未找到描述
llama_index/llama-index-core/llama_index/core/tools/function_tool.py at c01beee1fab7c0de22869ce74f34ebd1f1d54722 · run-llama/llama_index: LlamaIndex 是一个用于 LLM 应用的数据框架 - run-llama/llama_index
llama_index/llama-index-core/llama_index/core/tools/types.py at c01beee1fab7c0de22869ce74f34ebd1f1d54722 · run-llama/llama_index: LlamaIndex 是一个用于 LLM 应用的数据框架 - run-llama/llama_index

提及的链接：

未找到标题：未找到描述
未找到标题：未找到描述
来自 udio (@udiomusic) 的推文：我们的目标是让 Udio 成为音乐家和非音乐家都能使用的变革性工具，我们很高兴能得到领先艺术家 @iamwill 和 @common 的支持。 8/11
Show HN: Sonauto – 一个更具可控性的 AI 音乐创作工具 | Hacker News：未找到描述
来自 udio (@udiomusic) 的推文：介绍 Udio，一款用于音乐创作和分享的应用，让你能够通过直观且强大的 Text-prompting 生成你喜欢的风格的精彩音乐。 1/11
未找到标题：未找到描述

提及的链接：

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences：本文研究了如何利用来自强大 Oracle 的偏好反馈对大语言模型（LLM）进行后期训练，以帮助模型实现迭代式的自我改进。后期训练 LLM 的典型方法...
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance：网络爬取的预训练数据集是多模态模型令人印象深刻的“Zero-Shot”评估性能的基础，例如用于分类/检索的 CLIP 和用于图像生成的 Stable-Diffusion...
Reddit - 深入探索一切：未找到描述

提到的链接：

ngrok - Online in One Line: 未找到描述
GitHub - OpenInterpreter/01: The open-source language model computer: 开源语言模型计算机。通过在 GitHub 上创建账号为 OpenInterpreter/01 的开发做出贡献。
GitHub - OpenInterpreter/01: The open-source language model computer: 开源语言模型计算机。通过在 GitHub 上创建账号为 OpenInterpreter/01 的开发做出贡献。

提到的链接:

Sophia Yang 博士 (@sophiamyang) 的推文: @LiHongtu12138 两者都不是。这是一个全新的模型。
Jeethu Rao (@jeethu) 的推文: 看起来 Google 刚刚低调发布了一个基于 2B 循环线性注意力的模型（非 Transformer 架构，即 Griffin 架构）。在我看来，这比 CodeGemma 意义更大。据我所知，这个 cl...
mrfakename (@realmrfakename) 的推文: 更新：Mistral Discord 服务器的一名管理员确认该模型不是之前的任何模型，而是一个全新的模型 ↘️ 引用 mrfakename (@realmrfakename) 新的 Mixtral 模型是... (根据...
Jan P. Harries (@jphme) 的推文: @MistralAI 新的 8x22b 模型的首批 AGIEval 结果已经出炉，碾压了所有其他开源（基础）模型 - 🤯

提到的链接：

LLM Training: RLHF and Its Alternatives：在讨论 LLM 时，无论是在研究新闻还是教程中，我经常引用一个名为 Reinforcement Learning with Human Feedback (RLHF) 的过程。RLHF 是现代 LLM 训练中不可或缺的一部分...
Proximal Policy Optimization (PPO): The Key to LLM Alignment：现代策略梯度算法及其在语言模型中的应用...

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

提及的链接:

来自 Zeyuan Allen-Zhu (@ZeyuanAllenZhu) 的推文: 我们的 12 条缩放定律（针对 LLM 知识容量）已发布：https://arxiv.org/abs/2404.05405。我花了 4 个月提交了 50,000 个作业；Meta 花了 1 个月进行法律审查；FAIR 赞助了 4,200,000 GPU 小时。希望...
来自 Zeyuan Allen-Zhu (@ZeyuanAllenZhu) 的推文: 结果 8/9：量化和 MoE 的缩放定律。 // 量化到 int8 即使对于达到最大容量的模型也不会损害知识容量 => 2bit 的知识可以存储到 int8 // MoEs 具有...

提及的链接:

不再有底层 diskbuffer，那只是设备 (#4129) · tinygrad/tinygrad@ee457a4: 你喜欢 pytorch？你喜欢 micrograd？你爱 tinygrad！❤️ - 不再有底层 diskbuffer，那只是设备 (#4129) · tinygrad/tinygrad@ee457a4
abstractions3 目前是 geohot 的一厢情愿 · Pull Request #4124 · tinygrad/tinygrad: 未找到描述
用 5 行代码将 mnist 引入仓库，由 geohot 提交 · Pull Request #4122 · tinygrad/tinygrad: 未找到描述
用 5 行代码将 mnist 引入仓库 (#4122) · tinygrad/tinygrad@fea774f: 你喜欢 pytorch？你喜欢 micrograd？你爱 tinygrad！❤️ - 用 5 行代码将 mnist 引入仓库 (#4122) · tinygrad/tinygrad@fea774f
创建 schedule 具有全局变量，由 geohot 提交 · Pull Request #4125 · tinygrad/tinygrad: 未找到描述

提到的链接：

mesozoic - 概览：mesozoic 有 39 个可用仓库。在 GitHub 上关注他们的代码。
tinygrad-notes/addingaccelerator.md at main · mesozoic-egg/tinygrad-notes：tinygrad 教程。通过在 GitHub 上创建账号来为 mesozoic-egg/tinygrad-notes 的开发做出贡献。

提到的链接：

MaziyarPanahi/Mixtral-8x22B-v0.1-GGUF at main：暂无描述
Samsung Next 2024 Generative AI Hackathon · Luma：🚀 活动动态：申请参加 Samsung Next 2024 生成式 AI 黑客松！我们将探索两个赛道：Health & Wellness：利用 AI 的力量改善医疗结果...

来自 Charles Foster (@CFGeek) 的推文

internlm/Agent-FLAN · Datasets at Hugging Face

提及的链接：

Notion – 笔记、任务、维基和数据库的一体化工作空间。：一款将日常工作应用融合在一起的新工具。它是为您和您的团队打造的一体化工作空间。
[提案]：弃用未实现方法的省略号 (...) · modularml/mojo · Discussion #2259：动机：Mojo 渴望成为 Python++ 的无缝继任者，紧密遵循 Pythonic 原则，并为 Python 社区培养积极的体验。目前使用 ... 的做法...
GitHub - mojicians/awesome-mojo: 精选的优秀 Mojo 🔥 框架、库、软件和资源列表：精选的优秀 Mojo 🔥 框架、库、软件和资源列表 - mojicians/awesome-mojo

提及的链接：

coroutine | Modular Docs：实现 Coroutines 的类和方法。
Mojo🔥 roadmap & sharp edges | Modular Docs：Mojo 计划摘要，包括即将推出的功能和需要修复的问题。
Mojo🔥 roadmap & sharp edges | Modular Docs：Mojo 计划摘要，包括即将推出的功能和需要修复的问题。
GitHub - Moosems/Mojo-UI: A cross-platform GUI library for Mojo：一个为 Mojo 打造的跨平台 GUI 库。可以通过创建 GitHub 账号为 Moosems/Mojo-UI 的开发做出贡献。
GitHub - modularml/mojo: The Mojo Programming Language：Mojo 编程语言。可以通过创建 GitHub 账号为 modularml/mojo 的开发做出贡献。
[BUG] Compiler bug when typing async function pointer call return type · Issue #2252 · modularml/mojo：Bug 描述：Mojo 编译器在对异步函数指针调用返回类型进行类型推导时出错。预期行为：async fn() -> Int 函数在调用时应返回 Coroutine[Int] 类型。

提及的链接：

mojo-ui-html/demo_keyboard_and_css.mojo at main · rd4com/mojo-ui-html: Immediate mode GUI, HTML, CSS, 开发中, Mojo 语言 - rd4com/mojo-ui-html
Issues · saviorand/lightbug_http: 简单且快速的 Mojo HTTP 框架！🔥。通过在 GitHub 上创建账号来为 saviorand/lightbug_http 的开发做出贡献。

提到的链接:

v2ray/Mixtral-8x22B-v0.1 · Hugging Face: 未找到描述
convert_mistral_moe_weights_to_hf.py · DiscoResearch/mixtral-7b-8expert at main: 未找到描述
transformers/src/transformers/models/mixtral/convert_mixtral_weights_to_hf.py at main · huggingface/transformers: 🤗 Transformers: 为 Pytorch, TensorFlow, 和 JAX 提供最先进的机器学习模型。 - huggingface/transformers

提到的链接:

来自 Mistral AI (@MistralAI) 的推文: magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce
v2ray/Mixtral-8x22B-v0.1 · Hugging Face: 未找到描述
mistral-community/Mixtral-8x22B-v0.1 · MMLU - 77: 未找到描述

提到的链接:

tokenizer_config.json · DiscoResearch/DiscoLM_German_7b_v1 at main: 未找到描述
GitHub - Leeroo-AI/mergoo: A library for easily merging multiple LLM experts, and efficiently train the merged LLM.: 一个用于轻松合并多个 LLM 专家并高效训练合并后的 LLM 的库。 - Leeroo-AI/mergoo
GitHub - Crystalcareai/BTX: 通过在 GitHub 上创建账户来为 Crystalcareai/BTX 的开发做出贡献。
deutsche-telekom/Ger-RAG-eval · Datasets at Hugging Face: 未找到描述
lighteval/community_tasks/german_rag_evals.py at main · huggingface/lighteval: LightEval 是一个轻量级的 LLM 评估套件，Hugging Face 内部一直在将其与最近发布的 LLM 数据处理库 datatrove 和 LLM 训练库 nanotron 配合使用。 - hug...
axolotl/src/axolotl/prompt_strategies/dpo/chatml.py at 5ed29393e34cf57b24a20ac1bafa3a94272ac3f5 · OpenAccess-AI-Collective/axolotl: 尽管去向 axolotl 提问吧。通过在 GitHub 上创建账户来为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。

Google Colaboratory

Jan P. Harries (@jphme) 的推文

ollama/llm/server.go (位于 c5c451ca3bde83e75a2a98ed9fd4e63a56bb02a9) · ollama/ollama

SynthTrails

音乐的 DALL-E 时刻

AI Reddit 回顾

AI Twitter 回顾

AI Discord Recap

PART 1: High level Discord summaries

Stability.ai (Stable Diffusion) Discord

LM Studio Discord

Unsloth AI (Daniel Han) Discord

Perplexity AI Discord

Nous Research AI Discord

Eleuther Discord

OpenAI Discord

Latent Space Discord

HuggingFace Discord

OpenRouter (Alex Atallah) Discord

CUDA MODE Discord

LangChain AI Discord

LlamaIndex Discord

LAION Discord

OpenInterpreter Discord

Interconnects (Nathan Lambert) Discord

tinygrad (George Hotz) Discord

OpenAccess AI Collective (axolotl) Discord

Modular (Mojo 🔥) Discord

DiscoResearch Discord

LLM Perf Enthusiasts AI Discord

Datasette - LLM (@SimonW) Discord

Skunkworks AI Discord

Mozilla AI Discord

Alignment Lab AI Discord

PART 2: 频道详细摘要与链接