他们发布了一个基础模型，并且已经支持 Huggingface PEFT。这看起来确实是一个真正的 Mixtral 竞争对手，这对开放 AI 社区来说绝对是件好事。

[TOC]

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence。评论抓取尚未实现，但即将推出。

大型语言模型 (LLM)

/r/MachineLearning: DBRX: A New Standard for Open LLM - 16 个专家，每个专家 12B 参数，36B 激活参数，基于 12T token 训练
/r/LocalLLaMA: Databricks reveals DBRX, the best open source language model - 超越 grok-1, mixtral 以及其他开放权重模型
/r/LocalLLaMA: RAG benchmark of databricks/dbrx - DBRX 在实际测试中的 RAG 表现不佳，与 gemini-pro 相当

Stable Diffusion 与图像生成

Animatediff is reaching a whole new level of quality - @midjourney_man 使用 img2vid 工作流的示例
/r/StableDiffusion: Attention Couple for Forge - 轻松生成多个主体，不再有颜色渗漏或特征混杂
FastSD CPU v1.0.0 beta 28 release - 在 CPU 上使用 SDXS512-0.9 OpenVINO 实现极速图像生成（0.82 秒）
/r/StableDiffusion: Implicit Style-Content Separation using B-LoRA - 利用 LoRA 隐式分离单张图像的风格和内容组件
/r/StableDiffusion: SUPIR is exceptional even with high-res source images - SUPIR 在放大高分辨率图像时能添加令人惊叹的细节

AI 助手与 Agent

/r/OpenAI: AI coding changed my life. Need advice going forward. - 使用 ChatGPT 学习 Web 开发并在朝九晚五的工作之外赚钱
Will ChatGPT eventually “learn” from it’s own content it previously created, which could lead to it being wrong about facts sometime in the future? - 担心 ChatGPT 在其自身输出上进行训练会导致准确性下降
/r/LocalLLaMA: Created an AI Agent which “Creates Linear Issues using TODOs in my last Code Commit” . Got it to 90% accuracy. - 将 Autogen 与 GitHub 和 Linear 连接，自动从代码 TODO 中创建 issue
/r/OpenAI: Built an AI Agent which “Creates Linear Issues using TODOs in my last Code Commit”. - Agent 利用代码上下文理解 TODO，分配给正确的人员/团队/项目，并在 Linear 中创建 issue

AI 硬件与性能

/r/MachineLearning: Are data structures and leetcode needed for Machine Learning Researcher/Engineer jobs and interviews?
Microsoft plans to offload some of Windows Copilot’s features to local hardware, but will use NPUs only. - 微软计划将 Windows Copilot 的部分功能转移到本地硬件，但将仅使用 NPU
/r/LocalLLaMA: With limited budget, is it worthy to go into AMD GPU/ecosystem now, given Tiny Corp released the tinybox with AMD and Lisa Su’s recent speech at the AI PC summit at Beijing? - 在预算有限的情况下，考虑到 Tiny Corp 发布了搭载 AMD 的 tinybox 以及 Lisa Su 最近在北京 AI PC 峰会上的演讲，现在进入 AMD GPU/生态系统值得吗？
/r/LocalLLaMA: Looks like DBRX works on Apple Silicon MacBooks! - 在 M3 96GB 上，4-bit 量化占用约 66GB RAM，速度约为每秒 6 个 token

迷因与幽默

Me and the current state of AI - 我与 AI 的现状
/r/OpenAI: When ‘Open’AI’s lawyers ask me if used their models’ generated output to train a competing model: [已删除]
/r/LocalLLaMA: Open AI 3 Laws of Robotics - OpenAI 机器人三定律
When you are the 60 Billion $$ Man but also a Doctor. - 当你是一个身价 600 亿美元的人，同时也是一名医生

AI Twitter Recap

所有总结均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和流程工程（flow engineering）。

待完成

PART 0: 总结之总结之总结

Databricks 发布 DBRX：Databricks 推出了 DBRX，这是一个拥有 1320 亿参数的 MoE LLM，并引发了关于预训练极限的辩论。AI 社区对其 12 万亿 token 的训练规模和潜力议论纷纷，将其与 Mistral Medium 等模型进行对比，并评估规模效应递减的情况。
Jamba 与 Qwen 模型的创新融合：AI21 Labs 推出了 Jamba，这是一种具有 256K 上下文窗口的 SSM-Transformer 混合模型；同时 Qwen 发布了 Qwen1.5-MoE-A2.7B，其性能超越了自身的参数量级，达到了 7B 模型的水平。这些发布引发了关于可访问性、性能以及 AI 扩展未来轨迹的讨论。
AI 社区探索 Vtuber 和 AI 控制台：关于 AI Tokyo 活动以及为 Vtuber 建立人机协作模型以提升参与度的讨论非常热烈。继 AI Tokyo 上关于其前代产品中等配置的热议后，关于 Truffle-2（一个潜在的以 AI 为中心的控制台）的猜测也随之而起。
GPU 与 Token：性能追求：工程师们分享了关于使用 TensorRT 进行大模型高效推理的见解，辩论了 Tensor Parallelism 的极限，并揭示了诸如 smoothquant+ 和 fp8 e5m2 cache 等新方法。交流还集中在 Claude 的区域访问权限以及在训练 Deepseek-coder-33B 模型时微调损失曲线的困惑。
RAG、检索与数据集探讨：AI 社区深入研究了 检索增强生成 (RAG) 的性能，辩论了输出质量，并审查了 CoT 对检索有效性的影响。提出了在 Prompt 输入中实现 XML 标签标准化的建议，将结构化输入视为增强结果的潜在标准。

PART 1: 高层级 Discord 总结

LM Studio Discord

“Loaded from Chat UI” 异常已修复：LM Studio 0.2.18 更新解决了一个 Bug，即 API 查询会返回模型 ID 为 “Loaded from Chat UI”，从而导致无法获取真实模型名称的问题，该问题已在测试版 version 0.2.18 中修复。
通过模型合并实现规模扩展：ChuckMcSneed 宣布，LongAlpaca-70B-lora 与 lzlv_70b_fp16_hf 的合并产生了一个 32K token 的线性 ROPE 缩放模型，尽管在 8 倍上下文长度下性能下降了 30%；查看合并后的模型地址。
LM Studio 爱好者的前沿配置：LM Studio 0.2.18 通过为 Base/Completion 模型提供“空白预设（Empty Preset）”以及“等宽（monospace）”聊天样式等功能丰富了用户体验，根据公告，更新问题已得到解决。
为巅峰 AI 性能提升动力：关于 AI 工作硬件的讨论建议，NVIDIA 3090 和 4090 或双 A6000 显卡可提供显著的 VRAM 和 CUDA 实力，显示器质量也是热门话题，例如这款 MSI 显示器。对于这些高性能配置，建议使用 1200-1500w 的 PSU。
使用 ROCm Beta 进行渲染，用户应对挑战：LM Studio 的 ROCm 0.2.18 Beta 旨在解决 GPU offload 问题，但用户报告在模型加载和 GPU 利用率方面结果不一。感兴趣的各方可以探索 ROCm beta 下载地址，并在社区内寻求帮助以解决细微问题，或在需要时回退到标准版本。

Unsloth AI (Daniel Han) Discord

破冰 Unsloth AI：工程师们开始采用 Unsloth 模板系统的技巧和窍门，社区发现其在减少模型输出异常等方面具有实际效益。每周 2-3 次的定期更新确保了性能的持续提升，同时安装指南优化了在 Kaggle 上的设置时间。

编码丛林中的游戏交融：技术交流伴随着轻松的话题，包括游戏开发者对话和游戏经验分享——特别是利用 AI 辅助构建 Demo 应用，将娱乐与 Machine Learning 联系起来。

层层深入： Unsloth AI 的讨论已延伸至更深层次的探索，包括在从 Checkpoint 恢复 Fine-tuning 时利用 Optimizer 调整，以及为各种 LLM 进行正确的 Chat Template 集成。社区还重点介绍了用于 Fine-tuning LLM 的关键资源——GitHub 仓库、Colab Notebooks 和教育类 YouTube 视频。

模型展示亮点：社区自豪地展示了各种适配成果，例如为 Tinyllama 转换 Lora Adapter，并分享了使用 Unsloth 方法论进行 Fine-tuning 的 Mischat 模型的细节。一位成员在他们的 Substack 博客上介绍了 AI 摘要，总结了最近的 AI 进展。

量化领域的量子飞跃：AI 爱好者研究了专门的技术，如 LoRA 训练对话、用于快速检索的 Embedding 量化，以及新兴的 QMoE 压缩框架。新引入的 LISA 策略因其内存效率而备受关注，该策略简化了跨层的 Fine-tuning 流程。

Nous Research AI Discord

DBRX 以惊人的规模吸引关注：Databricks 发布了 DBRX，这是一个拥有 1320 亿参数 的 MoE LLM，并引发了关于预训练极限的辩论。AI 社区对其 12 万亿 Token 的训练量和潜力议论纷纷，将其与 Mistral Medium 等模型进行对比，并评估规模效应的收益递减。
Jamba 和 Qwen 模型的创新融合：AI21 Labs 推出了 Jamba，这是一种具有 256K 上下文窗口的 SSM-Transformer 混合架构；而 Qwen 发布了 Qwen1.5-MoE-A2.7B，其性能堪比 7B 模型，超越了自身的参数量级。这些发布引发了关于可访问性、性能和 AI Scaling 未来轨迹的讨论。
AI 社区探索 Vtuber 和 AI 游戏机：关于 AI Tokyo 活动以及为 Vtuber 建立人机协作模型以提高参与度的讨论非常热烈。在 AI Tokyo 上关于前代产品中等配置的热议之后，有关 Truffle-2（一款潜在的以 AI 为中心的游戏机）的猜测也随之而起。
GPU 与 Token：性能追求：工程师们分享了关于 TensorRT 在大型模型上进行高效推理的见解，辩论了 Tensor Parallelism 的极限，并揭示了诸如 smoothquant+ 和 fp8 e5m2 cache 等新方法。交流还集中在 Claude 的区域访问以及训练 Deepseek-coder-33B 模型时 Fine-tuning Loss 曲线的困惑。
RAG、检索与数据集讨论：AI 社区深入研究了 Retrieval Augmented Generation (RAG) 的性能，辩论了输出质量，并审查了 CoT 对检索有效性的影响。有人提议在 Prompt 输入中实现 XML 标签标准化，将结构化输入视为增强结果的潜在标准手段。

Stability.ai (Stable Diffusion) Discord

Stable Diffusion 3 发布在即：工程社区正因 Stable Diffusion 3 (SD3) 预计在 4 月底或 5 月的推出而议论纷纷，该版本将具备包括 inpainting 在内的增强功能。根据 Stability.ai CTO 的言论推断，从 3 月 25 日起约 4 到 6 周的 ETA 引发了对新模型和功能的广泛猜测。
评估语言模型的 VRAM 需求：关于运行 Mixtral 等语言模型的 VRAM 需求的讨论正在升温，争论焦点在于使用 quantization（量化）策略在不牺牲质量的前提下减少内存占用。工程师们尤其关注为 10GB Nvidia GPU 显卡量身定制的量化模型，这表明了对更易获得的高性能计算的追求。
新用户指南与工具建议：Discord 空间不仅面向资深专家；新用户也正在获得通过 Stable Diffusion 生成图像的技巧，推荐的界面包括 Forge 和 Automatic1111，以及用于增强创作过程的 leonardo.ai。
优化图像 Prompt 质量：一个技术线程强调了 prompt engineering 的重要性，强调更具对话性的句子结构比逗号分隔的关键词能产生更好的效果。这在处理像 SDXL 这样对 prompt 措辞细微差别敏感的高级模型时尤为重要。
讨论模型量化效率：公会成员简要讨论了 transformer 架构的效率和 quantization 的有效性。这些 AI 鉴赏家认为，尽管 transformer 存在固有的低效性，但像 SD3 这样的模型在量化后表现出了令人期待的结果，可能允许更小的内存占用。

讨论中的链接包括资源和工具：

Perplexity AI Discord

DBRX 进驻 Perplexity Labs：Databricks 的 DBRX 语言模型因超越 GPT-3.5 并证明其与 Gemini 1.0 Pro 具有竞争力而引起轰动，在数学和代码基准测试中表现优异，可在 Perplexity Labs 进行体验。

开发者的抉择：Perplexity vs. Claude：工程师们讨论了 Perplexity Pro 或 Claude Pro 哪个更适合他们的工作流，由于透明度原因，他们更倾向于 Perplexity。Claude 3 Opus 等各种模型的优势受到了审视，而 Databricks 的 DBRX 因其出色的数学和编程能力被特别提及。

Perplexity API 速度飙升：sonar-medium-online 模型展现了意料之外的速度提升，在输出质量更高的同时，达到甚至超过了 sonar-small-online 的速度。然而，API 响应与 Perplexity 网页界面相比出现了一些不一致，例如无法检索 “Olivia Schough spouse” 的数据，引发了关于额外参数是否能纠正此问题的讨论。

分享见解与趣闻：社区互动包括揭穿一个所谓的 Sora 文本转视频模型其实是 rickroll，强调了 thread 可分享性的重要性，并探索了 Perplexity AI 上的各种搜索查询，从连贯的 C3 模型到 “Perplexityai” 的法语翻译。

Vision 支持仍无音讯：尽管有人询问，但 API 的 Vision 支持仍然缺席，正如关于目前甚至缺乏 citations（引用）的幽默回复所暗示的那样，这表明目前没有立即加入该功能的计划。

Latent Space Discord

Claude 摘得 Terraform 桂冠：在 IaC 领域，Claude 在生成 Terraform 脚本方面表现优于同行，TerraTeam 网站上的一篇对比博客文章强调了其卓越性能。详细的对比可以在 TerraTeam 的博客中查看。

DBRX-Instruct 展示其参数实力：Databricks 凭借 DBRX-Instruct 成为焦点，这是一个 1320 亿参数的 Mixture of Experts 模型，在 3072 块 NVIDIA H100 GPU 上经历了耗资巨大（1000 万美元）且耗时较长（2 个月）的训练。关于 DBRX-Instruct 的见解分布在 Vitaliy Chiley 的推文和 Wired 的文章中。

DBRX 的许可物流问题依然存在：社区仔细审查了 DBRX 的许可条款，成员们正在策划如何在其实际使用界限内最好地利用该模型。关键见解来自共享的法律疑虑和策略，包括 Amgadoz 对 Databricks 开放模型许可证的关注。

TechCrunch 质疑 DBRX 的市场实力：TechCrunch 对 Databricks 1000 万美元的 DBRX 投资进行的批判性分析引发了讨论，并将其与已经确立地位的 OpenAI GPT 系列进行了对比。TechCrunch 挑战了此类投资所能提供的竞争优势，建议阅读 TechCrunch 的全文。

情感智能聊天机器人获得好评：Hume AI 凭借其情感感知聊天机器人引起了关注，该机器人擅长分析和响应情感。这种颠覆性的情感检测能力在成员中引发了兴奋和实际用例的讨论，包括 420gunna 分享的 Hume AI 演示和相关的 CEO 访谈。

Mamba 游入聚光灯下：在讨论中，Mamba 模型因其在 Transformer 领域的创新而脱颖而出，有效地解决了效率问题。强有力的对话围绕着 Mamba 的实力和旨在提高计算效率的架构决策展开。

微调技巧：关于微调 OpenAI 的自动语音识别模型 Whisper 的话题被深入剖析，共识是当处理稀缺语言资源或音频中的专业术语时，微调是值得推荐的。

余弦相似度杂谈：小组就 Embedding 中 余弦相似度 的使用进行了技术交流，对其作为语义相似度度量的有效性表示怀疑。讨论的焦点是题为“Is Cosine-Similarity of Embeddings Really About Similarity?”的论文，成员们将其作为参考点。

屏幕共享故障：Discord 屏幕共享的技术试验引发了社区的故障排除，包括分享变通方案以及集体呼吁 Discord 增强此功能。成员们分享了解决持续存在的屏幕共享问题的实用方案。

Eleuther Discord

Claude 3 意识到评估的存在：Anthropic 的 Claude 3 在测试期间展示了元认知（meta-awareness），能够识别自己何时正在接受评估，并对处理信息的针对性发表评论。
DBRX 的大手笔：Databricks 推出了 DBRX，这是一个强大的语言模型，拥有 1320 亿总参数和 360 亿激活参数，在 12 万亿 Token 的语料库上训练而成。讨论集中在其架构上，包括 16 个 Expert 和 32k 上下文长度，以及它的对比性能和可用性，因其在性能上超越了 Grok 等模型而引起轰动。
Token 效率辩论：工程师们正在辩论大型 Tokenizer 的实际效率，认为更大的 Token 数量可能不会自动转化为性能提升，并可能导致特定的 Token 表示问题。
层剪枝显示影响极小：研究发现，使用 QLoRA 等方法在 LLM 中减少高达 50% 的层数，性能损失极小，从而能够在单个 A100 GPU 上进行微调。
Jamba 加速模型融合：AI21 Labs 发布了一个名为 Jamba 的新模型，将结构化状态空间模型（Structured State Space models）与 Transformer 相结合，拥有 120 亿激活参数和显著的 256k 上下文长度。

OpenAI Discord

GPT-4：可能性的灯塔还是仅仅是推文诱惑？：用户对 OpenAI 的一条推文反应热烈，既有热情也有期待，该推文暗示了新的进展，尽管也有人对 GPT-4 等服务在欧洲延迟可用表示担忧。
ChatGPT 用于代码：分享的技巧包括指示 ChatGPT 避免省略号和不完整的代码段，这有助于在编程相关任务中获得更可靠的输出。对比评价认为 Claude 3 在编程效率方面优于其他模型。
众目睽睽下的 Gemini Advanced：社区对 Google 的 Gemini Advanced 持保留态度，抱怨其响应速度与 GPT-4 相比显得迟缓，尽管人们对基于即将进行的压力测试的未来改进抱有期待。
AI 的工业进军：值得注意的是 OpenAI 和 Microsoft 将其 AI 产品整合到欧洲工业中的策略，可能涉及 Copilot Studio 和更广泛的 Microsoft 套件等工具，尽管一些用户对 Copilot 的 UX 表示不满。
Prompt Engineering 心得：AI 爱好者讨论了使用 LLM 时获得最佳结果的各种策略，包括将 Prompt 拆分为块以便更好地识别问题，编写强调做什么而非不做什么的 Prompt，以及在保持 HTML 完整性的同时，明确表达对视觉描述或翻译等任务中特定输出的需求。

HuggingFace Discord

Stable Diffusion 在单体表现上更进一步：关于 Stable Diffusion 的讨论集中在从列表生成新图像，但现有的 Pipeline 处理的是单张图像。对于个性化的 Text-to-Image 模型，DreamBooth 成为首选，而 Marigold 深度估计 Pipeline 正准备与 LCM 等新模态集成。

AI 工程师寻求更智能的 NLP 导航：工程师们在寻求 2024 年掌握 NLP 的路线图，推荐包括《深度学习简明指南》（The Little Book of Deep Learning）和 Karpathy 的 “Zero to Hero” 播放列表。其他人探讨了基于会话的推荐系统，质疑 GRU4Rec 和 Bert4Rec 等模型的有效性，而 ‘facebook/bart-large-cnn’ 的加载错误引发了求助。管理 LLM 无限生成行为的建议包括 Supervised Fine Tuning (SFT) 和调整重复惩罚（repetition penalties）。

通过 MPS 和 Sagemaker 加速 GPU 收益：macOS 用户获得了优势，MPS 支持现已包含在关键训练脚本中，而关于 AWS SageMaker 的讨论强调了使用 NVIDIA Triton 和 TensorRT-LLM 来基准测试利用 GPU 的模型的延迟、成本和吞吐量。

Computer Vision 领域的创新与资源：在尝试利用拼接图像训练模型的同时，个人还在努力在特定数据集上微调 DETR-ResNet-50，并为初学者研究 Zero-shot 分类器微调。此外，还有人求助非 gradio_client 的测试方法来演示 instruct pix2pix，社区积极推荐替代方案和资源。

备受关注的 DL 模型：NLP 社区正在研究关于个性化 Text-to-Image 合成以使其紧密符合文本 Prompt 的论文。RealCustom 论文讨论了在主体相似度与文本控制之间取得平衡，另一项研究则解决了个性化图像中的文本对齐问题，如 arXiv 所述。

OpenInterpreter Discord

工程师寻求欧盟分销路径：有成员表示需要关于在欧盟境内分销产品的协助或讨论，暗示了对产品分销物流策略的需求。
探索在 IDE 中使用 OpenInterpreter：成员们正在讨论并分享将 OpenInterpreter 与 Visual Studio Code 等 IDE 集成的资源，包括推荐一个用于 AI 工具的 VS Code 扩展。
准备，开始，优化！：社区正致力于探索和优化本地及托管 LLM 的性能。预计到今年年底，这些模型的能力甚至可能超越 GPT-4。
成员通过“先前技术”重新定义“完成”：一位成员分享了一个幽默的发现：花费数小时工作后，无意中重复了已有的功能，并附上了一个展示其过程的 YouTube 视频。
本地 LLM 引起关注：关于在 OpenInterpreter 中实现非 GPT 模型的对话非常活跃，大家对实验本地 LLM 充满好奇，并询问了关于 groq 等其他模型的信息，暗示了在 OpenAI 工具之外的广泛探索。

Modular (Mojo 🔥) Discord

解决 VSCode 调试中的 Bug：GitHub 上报告的一个关于 Mojo 插件的 VSCode 调试问题已通过推荐的变通方法解决，该方法在 MacBook 上运行成功。

Mojo 和 MAX 更新成为头条：Mojo 语言风格指南现已发布，同时 GitHub 上也出现了一个新的复数库 moplex。MAX 24.2 更新包括采用 List 替代 DynamicVector，详见更新日志。

优质学习资源：推荐阅读 Rust for Rustaceans 中的免费章节以理解 Rust 的生命周期管理；同时 Modular 最新的推文也引起了关注，但未引发进一步讨论。

拥抱开源提升 Mojo 的模块化：Modular 已在 Apache 2 协议下开源了 Mojo 标准库，并提供 Nightly 版本；MAX 24.2 引入了对动态输入形状的改进支持，如其博客所示。

讨论 API 差异和增强功能：用户讨论了 Mojo 和 Python API 在 TensorSpec 方面的不一致性，并引导他人参考 MAX Engine 运行时文档和 MAX 的示例仓库以获取清晰说明。

开源和 Nightly 版本邀请协作：开发者受邀加入 Modular 开源倡议，包括 Mojo 标准库更新和最新更新日志中列出的新功能；同时 MAX 平台 v24.2 的演进提供了新能力，特别是在动态形状方面。

OpenRouter (Alex Atallah) Discord

为 cheerful_dragon_48465 喝彩：用户名 cheerful_dragon_48465 因其有趣而受到称赞，Alex Atallah 预告即将发布一项公告，重点介绍一位用户的显著贡献。

Midnight Rose 亟需明确说明：Midnight Rose 模型在没有错误提示的情况下无响应，在 OpenRouter 团队解决问题之前引起了用户困惑，但根本问题仍未彻底解决。

Token 数量的大小至关重要：用户讨论了 Gemini 模型上下文窗口大小的差异，这些模型是以字符而非 Token 计量的，这引起了混淆，并承认需要对该主题进行更好的澄清。

Gemini Pro 1.5 的测试问题：遇到 Gemini Pro 1.5 Error 503 的用户被告知，这些问题是因为该模型仍处于测试阶段，这表明 OpenRouter 的服务预期与现实之间存在差距。

以太坊支付难题：OpenRouter 转向要求通过 Coinbase Commerce 在 ETH 网络进行支付，以及随后关于美国银行转账激励措施的讨论，突显了 AI 领域加密货币支付方式的演变。

CUDA MODE Discord

深入探讨动态 CUDA 支持：社区成员正在讨论在 OpenCV 的 DNN 模块中实现动态 CUDA 支持，并详细介绍了使用 NVIDIA GPU 的性能实验结果。分享了一份关于深度学习 CUDA 硬件的调查以收集社区经验，RTX 4090、A5000 和 A4000 GPU 的点对点（peer-to-peer）基准测试可通过 GitHub 获取。
招募 Triton 导师：为了准备一场演讲，正在寻求采访最近的 Triton 学习者，以了解他们面临的困难，可通过 Discord DM 或 Twitter 联系。在 GitHub 上可以找到协作工作和对 pull requests 提供意见的机会，包括 torch 生态系统中 GaLore 的原型，这表明了涉及 bitsandbytes (PR #1137) 的活跃协作。
CUDA 资源与学习路径：希望深化 CUDA 技能的热心人士分享了学习资源，包括 CUDA 资料的 GitHub 仓库、“并行编程入门” YouTube 播放列表，以及一次因 Amazon 验证码而受阻的书籍讨论。
Torch 故障排除与类型纠缠：工程师们正在处理 torch 和 cuda 之间的类型问题，强调了潜在的链接器（linker）问题，并寻求在 PyTorch 中对不兼容类型使用 data_ptr 方法时获得更清晰的编译时错误提示。
显微镜下的 Ring Attention：AI 开发者深入研究了 Ring Attention 及其与其他注意力机制（如 Blockwise Attention 和 Flash Attention）的关系，一篇 arXiv 论文提供了更多见解。另外，针对训练中遇到的高 loss 值正在进行调试，这可能涉及序列长度处理，详见 FSDP_QLoRA GitHub 仓库及其 wandb 报告。
CUDA 疑难杂症：从解决 Triton tl.zeros 在 kernel 中的用法，到处理 Triton-Viz 的 ImportError 并分享解决方法，参与者交流了修复方案，包括从源码构建 Triton 以及选择特定的 triton-viz commit 进行安装。还建议在 Triton 中避免使用 reshape 以获得更好的性能。
AI 成为喜剧短片的主角：AI 行业对术语的偏爱在一段 YouTube 视频中被幽默地描绘出来，重点是 NVIDIA 主旨演讲中的 “AI”。此外，还有关于如何操作中文界面（如知乎）以获取 Triton 教程的求助请求。
Windows 和 WSL 上的 CUDA 热情：用户分享了在 Windows 上配合 PyTorch 运行 CUDA 的成功经验并寻求指导，建议包括使用 Microsoft 安装指南中概述的 WSL，而其他人则考虑安装 Ubuntu 双系统或记录他们的设置过程。
全球寻找精通 CUDA 的专家：CUDA 领域的求职者正在寻找机会，提到 NVIDIA 发布了一系列全球博士级职位。一份声明强调，对于考虑来自任何地点的申请者的团队来说，人才胜过地理位置。

LlamaIndex Discord

RAG 优化揭秘：@seldo 将于本周五深入探讨高级 RAG 技术，重点关注与 TimescaleDB 协同的优化——详情见 Twitter。为减少 RAG 资源占用，Cohere 提议使用 Int8 和 Binary Embeddings；更多信息请参考 Twitter。
法律领域的 LLM：即将举行的斯坦福大学 LLMxLaw Hackathon 旨在探索 LLM 与法律领域的潜在协同作用，可通过 Partiful 报名。
使用 Llamaparse 处理杂乱数据：正在处理来自 Confluence 的杂乱数据的用户可能会在 Llamaparse 中找到救星；LlamaIndex 联系页面强调了本地部署是一个选项。对于受困于 PDF parsing 挑战的用户，建议采用合并较小文本块并使用 LlamaParse 的策略。
Pipeline 与并行难题：针对 IngestionPipeline 中文档 ID 保留的问题进行了澄清；原始文档的 ID 会保留为 node.ref_doc_id。同时，提高 Notebook 性能的建议包括使用 aquery 进行异步执行。
赋能 GenAI：Centre for GenAIOps 成立，这是一个旨在促进 GenAI 应用增长和安全的非营利组织。其创始 CTO 强烈推荐 LlamaIndex，并在 LinkedIn 上分享了见解。在教育方面，有人请求提供顶级的 LLM 培训资源，但尚未得到回应。

OpenAccess AI Collective (axolotl) Discord

Databricks 发布 DBRX：Databricks 推出了 DBRX Base 和 DBRX Instruct，拥有 132B 总参数量，表现优于 LLaMA2-70B 等模型，并提供开源模型许可证，其技术博客提供了更多见解。

Axolotl 开发者调试：Axolotl AI Collective 修正了 trainer.py 的 Batch Size Bug，并讨论了 Transformer 不兼容、DeepSpeed 和 PyTorch 二进制问题，以及使用 qlora+fsdp 加载大模型的挑战。

创新的 Jamba 和 LISA：AI21 Labs 发布了 Jamba，这是一种能够在 A100 80GB GPUs 上处理 256k Token 上下文的架构；同时，社区讨论了 LISA 在指令遵循任务中优于 LoRA 的表现，参考了 LMFlow 仓库中的 PR #701 和 #711。

bf16 的性能表现：围绕在训练和优化中使用 bf16 精度展开了激烈辩论，引用了 torchtune 团队关于内存效率和稳定性（类似于 fp32）的发现，引发了对其更广泛实现的兴趣。

寻找微调技巧资源：社区成员正在寻求微调或训练开源模型的综合教育材料，表示偏好博客、文章和视频等多种形式，旨在进入 axolotl 之前打下坚实基础。

LAION Discord

AI 思考存在：在关于 AI 自我意识的讨论中，一位用户分享了与 ChatGPT 3.5 的两次互动，其中它表达了“悟”（satori）的时刻，引发了对其理解意识的疑问。可以通过以下链接探索这些交流：Chat 1 和 Chat 2。
AI 崛起背景下配音演员的担忧：针对 AI 进步对专业配音行业未来的影响，社区展开了激烈辩论，并提到了 Disney 通过与 ElevenLabs 合作，对 AI 配音角色表现出的兴趣。
基准测试受到质疑：AI 模型性能的基准测试因有时存在误导性的可视化而受到批评，人们呼吁建立更简洁、更符合人类感知的衡量标准，例如 Chatbot-Arena Leaderboard 上的标准。
为 AI 模型瘦身：一项关于 LLM 资源高效利用的研究表明，层剪枝（layer pruning）不会大幅影响性能，详情可参阅这篇 arXiv 论文。ProGamerGov 引入了用于 VLM 图像标注及故障检测的新工具，可在 GitHub 上获取。
Devika 旨在简化软件工程：一个名为 Devika 的创新项目旨在理解高级人类指令并编写代码，定位为类似 AI 的开源替代方案。Devika 的方法和特性可在其 GitHub 页面上查看。

tinygrad (George Hotz) Discord

Tinygrad 正在精益求精：关于 tinygrad 的动态讨论揭示了其试图通过 gemv 和 gemm 等操作的启发式方法以及直接操作 GPU kernels 来缩小与 PyTorch 性能差距的尝试。见解包括 kernel fusion 挑战、潜在的 view merging 优化以及社区驱动的文档工作。

NVIDIA 在 MLPerf 中夺冠：最近的 MLPerf Inference v4.0 结果 引发了讨论，指出 NVIDIA 如何继续在性能指标上保持领先，Qualcomm 表现强劲，而 Habana 的 Gaudi2 则显示出其并非为推理任务设计。

SYCL 挑战 CUDA：一条推文强调 SYCL 是 NVIDIA CUDA 的有力替代者，激发了人们对更广泛行业采用以及打破当前 AI 硬件垄断趋势的期待。

API 阵营与行业影响：成员们就 OpenCL 利用率下降以及 Vulkan 在实现统一硬件加速接口方面的潜力发表了看法，辩论了它们在更大生态系统中的各自角色。

View Merging 指日可待：讨论还探讨了 tinygrad ShapeTracker 的改进，以潜在地合并 view，并在考虑结构变化时权衡了 Tensor 转换历史和反向传播功能的重要性。

LangChain AI Discord

OpenGPTs 讨论欢迎工程师：GitHub 上的 OpenGPTs 项目引入了一个新频道，鼓励社区间的贡献和对话。

JavaScript 聊天机器人 vs 文档获取器：AI 工程师们正在探索使用 JavaScript 构建动态聊天机器人，而不是静态文档检索。为了提供指导，分享了一个 Colab notebook。

自定义域名部署的小插曲：在 github.io 等自定义域名上使用 LangChain 部署 FastAPI RAG 应用引发了好奇；然而，LangChain Pinecone 集成的文档差异带来了挑战，尚待解决。

LangSmith 追踪 AI 步骤：使用 LangChain 的 LangSmith 追踪 AI 动作时，采用了 LANGCHAIN_TRACING_V2 等环境变量，提供了细粒度的日志记录能力。

教程揭秘 PDF 转 JSON：一个新的 YouTube 教程详细介绍了如何使用 LangChain 的 Output Parsers 和 GPT 将 PDF 转换为 JSON，简化了这一曾经复杂的任务。社区的见解被请求用于增强此类教育内容。

Interconnects (Nathan Lambert) Discord

DBRX 震撼 LLM 领域：MosaicML 和 Databricks 推出了 DBRX，这是一个拥有 1320 亿参数的模型，具备 320 亿激活参数和 32k 上下文窗口，采用商业许可证发布，可在此处进行试用。然而，其许可条款禁止使用 DBRX 来改进其他 LLM，这引发了工程师们关于其对 AI 进步影响的讨论。
Jamba：AI21 实现 SSM 与 Transformers 的结合：AI21 发布了 Jamba，将 Mamba 的结构化状态空间模型 (SSM) 与传统的 Transformer 架构相结合，并提供了 256K 上下文窗口。Jamba 以 Apache 2.0 许可证发布，旨在鼓励混合模型结构的发展，可通过此处访问。
Mosaic 定律预示更廉价的 AI 未来：“Mosaic 定律”已成为热门话题，该定律预测在硬件、软件和算法进步的推动下，同类模型的成本每年将下降四分之三，预示着未来 AI 的开发成本将大幅降低。
分析架构演进：一项针对非 Transformer 架构的最大规模分析研究表明，条纹架构 (striped architectures) 可能通过层专业化优于同质架构，这可能预示着更快的架构改进。完整的研究报告和配套代码可在此处和此处获取。
从“小”到“大”：语言模型频谱之争：讨论指向了“小”语言模型的语义，社区在反思历史背景的同时，将 1000 亿参数以下的模型视为小型模型。此外，Microsoft GenAI 聘请 Liliang Ren 担任高级研究员，有望在高效且可扩展的神经架构方面取得进展；而 Megablocks 转向 Databricks 则突显了 AI 工程社区内项目管理权和预期的转变。

DiscoResearch Discord

DBRX Instruct 隆重登场：Databricks 推出了一款新型 1320 亿参数的稀疏 MoE 模型 DBRX Instruct，该模型在惊人的 12 万亿 token 上进行了训练，在少轮对话中表现出色。同时，Databricks 还以开放许可证发布了 DBRX Base，并在其博客文章中提供了深入见解。

DBRX 内部机制解码：DBRX 的独特之处在于其合并注意力机制、独特的归一化技术以及经过多次错误修复完善的独特分词 (tokenization) 方法，其技术细节已记录在 GitHub 上。

上手体验 DBRX Instruct：AI 爱好者现在可以通过交互式 Hugging Face space 体验 DBRX Instruct，并配有用于定制回答风格的系统提示词 (system prompt)。

免费体验 Mixtral 的多语言能力：可以通过 groq 免费使用 Mixtral 的翻译 API，受速率限制约束，并向社区驱动的实验开放。

Occi 7B 在翻译质量上表现卓越：用户注意到通过 occiglot/occiglot-7b-de-en-instruct 模型实现的 Occi 7B 具有极高的翻译保真度，并开始评估 DisCoLM、GPT-4、Deepl 和 Azure Translate 等服务的翻译水平，并在 Hugging Face 上展示了他们的成果。

Alignment Lab AI Discord

DBRX 占据榜首，超越 GPT-3.5：由 Databricks 推出的 DBRX 在 LLM 领域确立了领先地位，据称超越了 GPT-3.5，并可与 Gemini 1.0 Pro 媲美，其采用 MoE 架构，专注于编程任务以提高效率。
寻求 DBRX 的简化解释：参与者呼吁对 DBRX 模型进行简明扼要的解释，以便更好地理解其在 LLM 效率和编程能力方面的进步。
DBRX 的编程实力受到质疑：成员们探究 DBRX 出色编程能力的根源，思考这是特定数据集和架构的结果，还是源于更广泛的策略。
解码 DBRX 的编程优势：DBRX 令人称赞的编程结果归功于其 12 万亿 token 的预训练、MoE 架构以及旨在避免 “skill clobbering”（技能冲突）的针对性课程学习。
单人编程难题：一位同伴请求针对某个编程问题提供一对一支持，凸显了社区在提供个性化故障排除协助方面的作用。

LLM Perf Enthusiasts AI Discord

加入 LLM Brew Crew：由 Exa.ai 主办的 快闪咖啡馆与协作办公活动 将于本周六在 SF 举行，提供免费咖啡、抹茶和糕点。感兴趣的人员可以在此预约 (RSVP)。
寻找以 AI 为中心的工作场所：SF 的成员正在寻找迎合 LLM 爱好者的协作办公空间；celo 被提及为一个首选场所。

Skunkworks AI Discord

Python 爱好者准备贡献力量：有人询问了即将为对 AI 领域感兴趣的 Python 爱好者举行的 引导会议 (onboarding session)；成员们正寻求参与并做出有效贡献。
闲聊视频分享：一位成员在闲聊频道分享了一个 YouTube 视频；然而，视频内容及其与小组兴趣的相关性并未被描述。

Datasette - LLM (@SimonW) Discord 没有新消息。如果该公会长时间保持沉默，请告知我们，我们将将其移除。

第 2 部分：频道详细摘要与链接

LM Studio ▷ #💬-general (335 条消息🔥🔥):

模型 ID 混淆：用户正在讨论一个问题，即通过 API 查询模型时，模型 ID 显示为 “Loaded from Chat UI”，这导致他们无法获取真实的模型名称。这被标记为一个 bug，似乎已在测试版本 0.2.18 中修复。
LM Studio 在多样化平台运行：有报告称 LM Studio 已成功运行在各种平台上，如 Steam Deck 上的 Linux 以及使用 AWS 云服务，展示了该软件对不同技术环境的适应性。
关于预设文件的问题：多位用户询问预设文件以及 LM Studio 中系统提示词 (system prompts) 的用法。有人建议使用自定义系统提示词（例如为高质量故事写作设计的提示词），将其粘贴到 LM Studio 的 System Prompt 字段中。
对空间和性能的担忧：用户提出了设备存储空间影响运行 LM Studio 的问题，以及不同模型在各种内存容量下的性能表现。
功能与更新评论：关于 LM Studio 各种功能的讨论包括分支 (branching)、聊天文件夹和故事模式功能，并分享了关于实际使用和效率的看法。

提及的链接：

首页 | big-AGI: Big-AGI 专注于通过开发顶级的 AI 体验来增强人类能力。
lmstudio-ai/gemma-2b-it-GGUF · Hugging Face: 未找到描述
AnythingLLM | 终极 AI 商业智能工具: AnythingLLM 是为您组织打造的终极企业级商业智能工具。拥有对 LLM 的无限控制、多用户支持、对内和对外工具，以及...
请集成 LM Studio 实时 STT/TTS: 给 LM Studio 开发团队的一条消息。请为我们提供实时语音转文本（STT）和文本转语音（TTS）功能。谢谢！
GitHub - open-webui/open-webui: 用户友好的 LLM WebUI（原 Ollama WebUI）: 用户友好的 LLM WebUI（原 Ollama WebUI） - open-webui/open-webui
Reddit - 深入探索一切: 未找到描述
高质量故事写作 - 第一人称类型: 未找到描述
高质量故事写作 - 第三人称类型: 未找到描述
高质量故事写作故障排除: 未找到描述
GoldenSun3DS 的自定义 GPTs 主 Google 文档: 未找到描述

LM Studio ▷ #🤖-models-discussion-chat (72 条消息🔥🔥):

合并进入非量化世界：一次非量化模型合并，涉及 LongAlpaca-70B-lora 和 lzlv_70b_fp16_hf，产生了一个新合并模型，具有 32K tokens 能力和 8 倍线性 rope 缩放。根据 ChuckMcSneed 的基准测试，该模型在 8 倍上下文长度下性能下降了 30%。
Databricks 的 DBRX Instruct 引起关注：成员们讨论了 Databricks 新发布的 DBRX Instruct —— 一个混合专家模型 (MoE)，需要大量资源（非量化版本需要 320 GB RAM），并因其在少轮交互中的潜在专业化而受到关注。
LM Studio 使用入门指南：对话中包括了将 GGUF 格式的 LLM 上传到 LM Studio 的协助，并提供了分步指南，包括使用此教程将非 GGUF 文件转换为所需格式。
Cohere 的 Command-R 模型在数据检索方面受到关注：成员们注意到 Cohere 的 Command-R AI 的数据检索能力，但也提到了由于许可协议产生的限制。
量化版 DBRX 模型及兼容性疑问：讨论表明社区对 DBRX Instruct 的量化版本、其审查性质以及系统要求感到好奇，并附带了一个 llama.cpp 支持的 GitHub 请求。
分享 LM Studio 使用及 Open Interpreter 集成：关于在 LM Studio 中使用特定模型的查询得到了回复，并引用了文档和一个演示与 Open Interpreter 集成的 YouTube 教程。

提及的链接：

grimulkan/lzlv-longLORA-70b-rope8-32k-fp16 · Hugging Face: 未找到描述
databricks/dbrx-instruct · Hugging Face: 未找到描述
DBRX: 我的首次性能测试 - 因果推理: 在 @Databricks 发布 DBRX 的第一天，我对因果推理和轻量级逻辑任务进行了性能测试。以下是我在...之后的一些结果。
添加对 DBRX 模型的支持：dbrx-base 和 dbrx-instruct · Issue #6344 · ggerganov/llama.cpp: 前提条件在提交 Issue 之前，请先回答以下问题。我正在运行最新代码。由于开发非常迅速，目前还没有标记版本。我...
未找到标题: 未找到描述
LM Studio + Open Interpreter 运行可以控制电脑的 AI！: 这是一个画质较差的视频（我不知道如何获得更好的分辨率），展示了现在使用 AI 是多么简单！我在客户端中运行 Mistral Instruct 7B，并作为一个...
教程：如何将 HuggingFace 模型转换为 GGUF 格式 · ggerganov/llama.cpp · Discussion #2948: 来源：https://www.substratus.ai/blog/converting-hf-model-gguf-model/ 我在我们的博客上发布了这篇文章，但认为这里的其他人可能也会受益，所以也在 GitHub 上分享了原始博客。希望它...

LM Studio ▷ #announcements (2 条消息):

LM Studio 0.2.18 上线: 一个新的稳定性和错误修复版本 LM Studio 0.2.18 现已可在 lmstudio.ai 下载，支持 Windows、Mac 和 Linux，或通过应用内的“检查更新”选项获取。此更新包括针对 Base/Completion 模型的“空预设”、针对各种大型模型的默认预设，以及新的“monospace”聊天样式。
全力修复 Bug: LM Studio 0.2.18 中的关键 Bug 修复解决了诸如带图片的重复聊天消息、未加载模型时 API 错误消息不清晰、GPU Offload 设置、模型名称显示不准确，以及多模型服务请求排队和限流等问题。
LM Studio 文档: LM Studio 的全新文档网站已上线，并将在接下来的几天和几周内填充更多内容。
配置触手可及: 如果你的 LM Studio 设置中缺少新的配置，可以在 GitHub 上找到它们：openchat.preset.json 和 lm_studio_blank_preset.preset.json。这些现在应该已经包含在下载或更新中了。

提到的链接:

👾 LM Studio - 发现并运行本地 LLMs: 查找、下载并实验本地 LLMs
👾 LM Studio - 发现并运行本地 LLMs: 查找、下载并实验本地 LLMs
configs/openchat.preset.json at main · lmstudio-ai/configs: LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs
configs/lm_studio_blank_preset.preset.json at main · lmstudio-ai/configs: LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs

LM Studio ▷ #🧠-feedback (1 条消息):

对用户友好型 AI 工具的赞赏: 一位成员对该 AI 工具表示了极大的赞赏，称赞它是其接触过的各种 AI 项目中最易于使用的。他们感谢创作者开发了这款他们最喜欢的 AI 工具。

LM Studio ▷ #🎛-hardware-discussion (109 条消息🔥🔥):

GPU 大辩论：参与者讨论了各种显卡在 ML 任务中的优劣。有观点认为 NVIDIA 3090 由于拥有更大的 VRAM 而优于 4080，反方则提到了 4080 更快的 CUDA 光栅化性能；对于那些深耕 AI/ML 领域的人，建议投资顶级的 NVIDIA 4090 或双 A6000。
追求品质与性能的显示器搜寻：用户正在积极探索高质量显示器，分享了如这款 MSI 显示器等资源，并讨论了 high refresh rates、OLED technology 和 HDR capabilities 等特性。文中提到了对 HDR400 认证亮度水平的担忧，并幽默地承认了用性能过剩的硬件玩复古游戏。
电源计算与技术必要性：关于运行 4090 与 3090 等高端显卡所需的大功率 PSU 的推测占据了主导地位，对于双显卡配置，建议功率在 1200-1500w 左右。线缆类型和连接方式（如需要多个 8-pin 连接器）也涉及到了系统升级的物流准备中。
LM Studio 软件特性与 GPU 兼容性：存在关于 LM Studio 无法识别新款 RT 6700XT 显卡的故障排除讨论，一名成员提醒其他人，在同一个系统中混用 AMD 和 NVIDIA 显卡可能会导致软件不兼容。
关于旧款 GPU 和 NVLink 桥接器的讨论：讨论包括使用 K80 等旧款 NVIDIA 显卡的挑战，有玩家使用旧款 iMac 风扇为其散热，并认为使用 2020 年之前的硬件进行严肃的 ML 工作效率低下。另一个讨论点围绕 Amazon 上较便宜的 ‘SLI bridges’ 是否可能是针对官方 NVIDIA NVLink 桥接器的骗局，并对其质量和功能表示怀疑。

提及的链接：

MSI MPG 321URX QD-OLED 32" UHD 240Hz Flat Gaming Monitor - MSI-US Official Store：未找到描述
OLED Monitors In 2024: Current Market Status - Display Ninja：在这份最新的终极指南中，了解 OLED 显示器的现状以及关于 OLED 技术所需了解的一切。

LM Studio ▷ #🧪-beta-releases-chat (96 条消息🔥🔥):

Windows 下载链接标签错误：一位用户指出 LM Studio 的 Windows 下载链接被错误地标记为 .17，而实际上应该是 .18，开发者确认了这一错误，并声明安装文件确实是 .18 版本。
本地推理服务器速度问题：几位用户讨论了 LM Studio 0.2.18 本地推理服务器速度慢的问题，其中 Playground 的共享设置影响了 API 服务性能；还发现了服务停止按钮无法按预期工作的问题。
Windows 版 ROCm Beta 深入探讨：关于在 Windows 上运行 ROCm beta 的问题进行了长时间的反复讨论，一位用户在 6900XT 上启用部分 GPU offloading 时遇到崩溃；调试环节建议将 full offload 或 no offload 作为目前的临时解决方案。
稳定性与功能请求：用户对 v18 的稳定性表示满意，并提出了请求，包括增加 GPU 监视器以及针对聊天记录和之前 LLM 搜索的搜索功能。
NixOS 软件包贡献：一位用户向 NixOS 仓库提交了一个 init at 0.2.18 的 pull request，以使 LMStudio 能在 Nix 上运行，并计划合并该更新。该 PR 见 NixOS pull request #290399。

提及的链接：

未找到标题: 未找到描述
未找到标题: 未找到描述
Windows 11 - 发布信息: 了解 Windows 11 版本的发布信息
lmstudio: 由 drupol 在 0.2.18 版本初始化 · Pull Request #290399 · NixOS/nixpkgs: 新应用：https://lmstudio.ai/ 变更说明已完成事项构建平台 x86_64-linux aarch64-linux x86_64-darwin aarch64-darwin 对于非 Linux：nix 中是否启用了沙盒....
未找到标题: 未找到描述
未找到标题: 未找到描述

LM Studio ▷ #langchain (1 条消息):

遗憾的是，提供的消息中上下文和内容不足，无法从提供的消息中提取感兴趣的主题、讨论点、链接或博客文章。您提供的单条消息片段不包含足够的信息来进行摘要。请提供更多消息以获得详细摘要。

LM Studio ▷ #amd-rocm-tech-preview (92 条消息🔥🔥):

LM Studio 0.2.18 ROCm Beta 发布: 新的 LM Studio 0.2.18 ROCm Beta 错误修复和稳定性版本已开放测试，旨在解决从聊天中的图像重复到 GPU offload 功能等各种问题。鼓励用户报告任何新的或未解决的错误 - 并提供了下载链接：0.2.18 ROCm Beta 下载。
用户报告 0.2.18 中的加载错误: 成员在 0.2.18 中加载模型时遇到错误，错误消息在尝试使用 GPU offload 时显示“未知错误”。用户分享了他们的系统配置和采取的步骤，包括安装 NPU 驱动程序和删除某些 AppData 文件以恢复到旧的、可运行的版本。
解决了低 GPU 利用率的 Bug: 一些用户报告 0.2.18 存在低 GPU 利用率问题，GPU 性能低于之前的版本。开发团队要求提供详细日志（verbose logs）和特定信息，以便及时解决问题。
对 0.2.18 性能的反馈褒贬不一: 虽然一些用户确认 0.2.18 的 offloading 有所改善，但其他用户仍面临低 GPU 利用率或启用 GPU offload 加载模型时出错等问题。对于无法运行 ROCm 版本的用户，提供了恢复到标准 LM Studio 版本的协助。
发现本地推理卸载（Ejections）的 Bug: 一位用户报告了一个潜在的 Bug，即在本地推理期间卸载模型会导致在不重启应用的情况下无法加载更多模型。其他用户无法重现该问题，表明该 Bug 在不同硬件设置下可能并不一致。

提到的链接:

未找到标题: 未找到描述
未找到标题: 未找到描述
如何在您的 AMD Ryzen™ AI PC 或 Radeon 显卡上运行大语言模型 (LLM): 您知道吗？您可以在您的 Ryzen™ AI PC 或 Radeon™ 7000 系列显卡上运行属于您自己的基于 GPT 的 LLM 驱动的 AI 聊天机器人实例。AI 助手正迅速成为必不可少的资源...

LM Studio ▷ #crew-ai (4 条消息):

针对抽象问题的人机 GPT 混合解决方案: 一位成员分享了他们的方法，重点关注推理过程而非编码解决方案，建议使用 Agent 来完善抽象想法的细节并识别关键问题，并承认人工干预仍然至关重要。
AI 作为未来的共同架构师: 简要比较了 AI 在解决问题中不断演变的角色与架构师的角色，设想 AI Agent 之间进行讨论并在会议中协作。

Unsloth AI (Daniel Han) ▷ #general (293 条消息🔥🔥):

Unsloth 的技巧与窍门：成员们讨论了在处理模型时使用正确模板的重要性，并提到 Unsloth notebook 在处理模型文件以避免异常输出方面的实用性。Unsloth 被描述为非常有帮助，并建议直接集成到 modelfile 中。
Kaggle 安装的小问题：Kaggle 上的安装时间从 2.5 分钟激增至 7 分钟，这归因于未遵循更新后的安装说明。当采用这些说明时，可以实现预期的安装时间优化。
Unsloth 定期更新：Unsloth 包更新频繁，每周更新 2-3 次，nightly 分支则是每日更新。频道内分享了通过 pip 安装 xformers 最新更新的指令，表明了对维护和改进该工具的关注。
关于 Jamba 和 LISA 的讨论：成员们分享并讨论了最近的进展，例如 AI21 Labs 发布的 Jamba 以及 LISA 的论文，注意到了 Jamba 的模型细节，并将 LISA 全参数微调（full fine-tuning）方法的效率和可行性与 Unsloth 的能力进行了对比。
程序员间的游戏闲聊：频道中轻松的一面包括成员们交流《League of Legends》等游戏经验，同时一位用户分享了他们在零编程经验下构建 demo app 的方法，强调了部分由 AI 辅助的开发过程。

提到的链接：

1-bit Quantization：支持 1-bit Aana 模型发布的博客。
Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model：首次推出首个生产级 Mamba 模型，提供同类最佳的质量和性能。
Arki05/Grok-1-GGUF · Hugging Face：未找到描述
ai21labs/Jamba-v0.1 · Hugging Face：未找到描述
Rui (@Rui45898440) 的推文：很高兴分享 LISA，它支持在 24GB GPU 上进行 7B 微调，在 4x80GB GPU 上进行 70B 微调，并以减少约 50% 的时间获得比 LoRA 更好的性能 🚀
databricks/dbrx-base · Hugging Face：未找到描述
未找到标题：未找到描述
GitHub - unslothai/unsloth: 2-5X faster 70% less memory QLoRA & LoRA finetuning：速度提升 2-5 倍，显存占用减少 70% 的 QLoRA 和 LoRA 微调 - unslothai/unsloth

Unsloth AI (Daniel Han) ▷ #random (21 条消息🔥):

GitHub 实时代码推送显示：一位成员分享了 MaxPrilutskiy 的推文，展示了 GitHub 总部的一面墙如何实时显示每一次代码推送（push）。
Million 为 AI 实验提供资金：Million (@milliondotjs) 正在为各种 AI 实验提供资金，并正在寻找优秀的 ML 工程师。感兴趣的领域包括优化训练课程、开发扩散文本解码器、改进定理证明器以及扩展 energy transformers。
GitHub 上的 BinaryVectorDB：分享了一个能够处理数亿个嵌入（embeddings）的开源向量数据库，位于 cohere-ai 的 GitHub 仓库。
Karpathy 对微调和 LLM 的看法：在一段 YouTube 视频中，Andrej Karpathy 讨论了大型语言模型（LLM）如何类似于操作系统，以及在微调期间混合新旧数据以避免模型能力退化的重要性。
RL 中的首选状态 vs. 首选路径：在视频的 24:40 处，Andrej Karpathy 讨论了人类反馈强化学习 (RLHF)，强调了当前方法的低效，并指出需要新的训练方法，让模型能够理解并从其采取的行动中学习。

提到的链接：

Aiden Bai (@aidenybai) 的推文：你好，Million (@milliondotjs) 拥有价值 130 万美元且一年内到期的 GPU 额度。我们正在寻求资助以下实验：- 确定最理想的训练课程（training curriculum）、奖励建模器（reward modeler）或模型合并（model merg...
Max Prilutskiy (@MaxPrilutskiy) 的推文：只是想让大家知道：每当你推送代码时，你都会出现在 @github 总部的这个实时墙上。
2024 GTC NVIDIA Keynote：除了全是 AI：这家全球最大的 AI 公司说 AI 的频率是否比其他 AI 公司更高？让我们一探究竟。AI AI AI AI AI AIAI AI AI AI AI AIAI AI AI AI AI AI AI AI...
与 Andrej Karpathy 和 Stephanie Zhan 一起让 AI 触手可及：OpenAI 创始成员、前 Tesla AI 高级总监 Andrej Karpathy 在 Sequoia Capital 的 AI Ascent 活动中与 Stephanie Zhan 讨论了...的重要性。
GitHub - cohere-ai/BinaryVectorDB：适用于数亿个 embedding 的高效向量数据库。：适用于数亿个 embedding 的高效向量数据库。 - cohere-ai/BinaryVectorDB

Unsloth AI (Daniel Han) ▷ #help (202 messages🔥🔥):

模型生成期间的左填充（Left-Padding）警报：成员们讨论了使用 model.generate 时的 left-padding 问题。他们澄清说设置 tokenizer.padding_side = "left" 会有所帮助，并且只要生成正常工作，通常可以忽略收到的任何关于 padding 的警告。
模型模板和 EOS Token 放置：关于使用 unsloth_template 变量格式化生成模型模板存在困惑。强调了可能需要手动添加 EOS token，而目前没有正确 EOS 指示的模板对于有效生成来说可能过于基础。
微调重启困境：一位用户在尝试从 checkpoint 恢复微调时遇到问题，因为进程在一步后就停止了。提供的指导建议增加 max_steps 或在 TrainingArguments 中设置 num_train_epochs=3。
LLM 微调资源：社区成员寻求学习如何微调大语言模型（LLMs）的资源。提出了各种建议，包括 GitHub 页面、Colab 笔记本、源代码文档和教学 YouTube 视频。
理解不同 LLM 中的聊天模板：提出了关于在 Ollama 等模型中正确使用和构造聊天模板的问题，包括对符合 Unsloth 方法论的 tokenization 和消息格式化的疑问。

Links mentioned:

Google Colaboratory: 未找到描述
Google Colaboratory: 未找到描述
tokenizer_config.json · mistralai/Mistral-7B-Instruct-v0.2 at main: 未找到描述
gemma:7b-instruct/template: Gemma 是由 Google DeepMind 构建的一系列轻量级、最先进的开放模型。
Google Colaboratory: 未找到描述
Tags · gemma: Gemma 是由 Google DeepMind 构建的一系列轻量级、最先进的开放模型。
google/gemma-7b-it · Hugging Face: 未找到描述
Home: 速度快 2-5 倍，显存占用减少 70% 的 QLoRA & LoRA 微调 - unslothai/unsloth
ollama/docs/modelfile.md at main · ollama/ollama: 快速上手 Llama 2, Mistral, Gemma 和其他大型语言模型。 - ollama/ollama
GitHub - toranb/sloth: 使用 unsloth 的 python sftune, qmerge 和 dpo 脚本: 使用 unsloth 的 python sftune, qmerge 和 dpo 脚本 - toranb/sloth
Mistral 微调入门 (支持 16k, 32k, 128k+ 上下文): 在我们最新的教程视频中，探索使用自有数据轻松微调语言模型 (LLMs) 的秘诀。我们深入探讨了一种具有成本效益且...
在单 GPU 上对 Llama-v2-7b 进行高效微调: 微调 LLM 时你可能遇到的第一个问题是 “host out of memory” 错误。微调 7B 参数模型更加困难...
unsloth/unsloth/models/llama.py at main · unslothai/unsloth: 速度快 2-5 倍，显存占用减少 70% 的 QLoRA & LoRA 微调 - unslothai/unsloth
transformers/src/transformers/models/llama/modeling_llama.py at main · huggingface/transformers: 🤗 Transformers: 适用于 Pytorch, TensorFlow 和 JAX 的最先进机器学习。 - huggingface/transformers

Unsloth AI (Daniel Han) ▷ #showcase (7 条消息):

为 Ollama 转换的 Lora Adapter: 一位成员将 Unsloth notebook 中的 Lora Adapter 转换为 ggml 适配器 (.bin)，以便使用来自 Huggingface 的干净数据集训练 Tinyllama。模型和详细信息可以在 Ollama 网站上找到。
Mischat 获得更新: 同一位成员分享了另一个模型 Mischat，该模型使用 Unsloth notebook 的 ChatML 与 Mistral 进行微调，反映了 notebook 中的模板如何影响 Ollama 模型文件。详细信息（包括微调会话 notebook 和 Huggingface 仓库）可以在此处找到。
模型文件上的 Notebook 模板展示: 该过程展示了 Unsloth notebook 中的模板如何反映在 Ollama 模型文件中，同一位成员提供的两个示例演示了这种集成。
博客形式的 AI 每周摘要: 一位用户宣布了他们的博客，提供从 Apple 的 MM1 芯片到 Databricks DBRX 和 Yi 9B LLMs 等内容的摘要。这篇旨在提供见解的每周 AI 摘要博客可以在 Substack 上阅读。

提到的链接:

pacozaa/mischat: 来自 Unsloth notebook 使用 ChatML 和 Mistral 进行微调会话的模型。Notebook 链接：https://colab.research.google.com/drive/1Aau3lgPzeZKQ-98h69CCu1UJcvIBLmy2?usp=sharing
pacozaa/tinyllama-alpaca-lora: 使用 Unsloth Notebook 训练的 Tinyllama，数据集：https://huggingface.co/datasets/yahma/alpaca-cleaned
AI Unplugged 5: DataBricks DBRX, Apple MM1, Yi 9B, DenseFormer, Open SORA, LlamaFactory paper, Model Merges.: 前一期目录：Databricks DBRX, Apple MM1, DenseFormer, Open SORA 1.0, LlaMaFactory 微调分析, Yi 9B, 进化模型合并 (Evolutionary Model Merges)。感谢阅读 Datta’s Substack！订阅...
Notion – 集笔记、任务、维基和数据库于一体的全能工作空间。: 一款将日常工作应用融合为一的新工具。它是为您和您的团队打造的全能工作空间。

Unsloth AI (Daniel Han) ▷ #suggestions (25 messages🔥):

层复制查询 (Layer Replication Inquiry)：一位成员询问了 Unsloth AI 是否支持层复制或低秩自适应 (LoRA) 训练。进一步的讨论将其与 Llama PRO 进行了比较，并强调 LoRA 可以像基础 7B 模型一样减少内存使用，并提供了说明和链接：使用 LoRA 训练进行内存高效的层复制。
嵌入量化突破 (Embedding Quantization Breakthrough)：聊天中提到嵌入量化如何在保持 96% 性能的同时，提供 25-45 倍的检索加速，并链接到一篇 Hugging Face 博客，解释了该过程并提供了一个真实的检索演示：关于嵌入量化的 Hugging Face 博客。
QMoE 压缩框架：他们讨论了一篇关于 QMoE 的论文，这是一个专为万亿参数混合专家 (MoE) 模型设计的压缩和执行框架，可将内存需求降低到每个参数不到 1-bit。尽管一位成员在访问相关的 GitHub 链接时遇到困难，但主论文可以在这里找到：QMoE 论文。
逐层重要性采样 AdamW (LISA) 技术：一篇新论文介绍了 LISA 策略，通过研究逐层特性和权重范数，该策略似乎优于 LoRA 和全参数训练。它承诺实现高效微调，且内存成本与 LoRA 相似：LISA 策略论文。
高性价比模型训练讨论：讨论了用于模型训练的高容量硬件的可负担性，成员们提到了如果“你只能负担得起半台 DGX A100”，运行某些模型的财务实用性。

提及的链接:

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning: 自大语言模型 (LLMs) 首次出现以来，机器学习社区见证了令人印象深刻的进步，然而其巨大的内存消耗已成为通往大型模型的主要障碍...
Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper Retrieval: 无描述
Paper page - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models: 无描述
abacusai/Fewshot-Metamath-OrcaVicuna-Mistral-10B · Hugging Face: 无描述
LoRA: 无描述
QMoE support for mixtral · Issue #4445 · ggerganov/llama.cpp: 前提条件。在提交 Issue 之前，请先回答以下问题。我正在运行最新的代码。开发非常迅速，因此目前没有标记版本...

Nous Research AI ▷ #ctx-length-research (6 messages):

LLM 行为中上下文的重要性：一位成员指出了为 Large Language Models (LLMs) 进行分段时面临的挑战，虽然句子位置得以保留，但模型经常会改写或不当地切分文本。他们指出，增加更长的上下文会导致某些模型（如 Mistral）在定位目标段落时遇到困难。
Tokenization 难题与评估的复杂性：会议强调了评估句子切分的复杂性，并提到 Tokenization 问题干扰了该过程。该成员对提示 LLM 回忆特定段落（如“摘要”）的方法提出了疑问。
分享代码以提高精确度：在关于评估 Large Language Models 处理文本回忆和切分等任务能力的讨论中，一位成员提到他们的完整 Prompt 和详细代码已发布在 GitHub 仓库中，用于在句子切分后检查精确匹配。

Nous Research AI ▷ #off-topic (15 messages🔥):

来自 AI Tokyo 的见解：AI Tokyo 活动展示了令人印象深刻的虚拟 AI Vtuber 场景，重点介绍了生成式播客、ASMR 和实时交互方面的进展。然而，该活动是否以日语录制，或者是否有录像可用，目前尚未确认。
处于十字路口的 Vtuber 社区：日本 Vtuber 社区面临着直播一致性、容量和差异化等挑战。一种设想的解决方案包括人机协作模型，由人类提供基础，AI 处理大部分内容创作，从而增强粉丝参与度。
AI 作为新的游戏机前沿：Truffle-1 被比作一个致力于 AI 而非游戏的潜在控制台，拥有定制的 OS 和优化应用的生态系统。虽然其规格并非突破性的，但其继任者 Truffle-2 承诺将提供更多有趣的特性。
快速审核行动：一名被称为 “That dude” 的用户被禁止并踢出了频道，该行动已得到确认并表示感谢。
讨论 Cohere int8 & Binary Embeddings：分享了一个关于 Cohere int8 & Binary Embeddings 的视频，可能讨论了如何为大型数据集扩展向量数据库。提供了标题为 “Cohere int8 & binary Embeddings - Scale Your Vector Database to Large Datasets” 的视频链接：Cohere int8 & Binary Embeddings。

提及的链接：Cohere int8 & binary Embeddings：Cohere int8 & binary Embeddings - Scale Your Vector Database to Large Datasets#ai #llm #ml #deeplearning #neuralnetworks #largelanguagemodels #artificialinte…

Nous Research AI ▷ #interesting-links (11 messages🔥):

Databricks 发布 DBRX Instruct：Databricks 推出了 DBRX Instruct，这是一个专注于少轮交互的 Mixture-of-Experts (MoE) Large Language Model (LLM)，并以开放许可证发布。DBRX Instruct 的基础是 DBRX Base，有关深入细节，团队发布了一篇技术博客文章。
MLPerf Inference v4.0 发布新基准测试：MLCommons 发布了 MLPerf Inference v4.0 基准测试套件的结果，衡量硬件系统在各种场景下处理 AI 和 ML 模型的速度。鉴于生成式 AI 的进展，工作组还增加了两个基准测试。
AI21 Labs 凭借 Jamba 取得新突破：AI21 Labs 宣布推出 Jamba，这是首个基于 Mamba 的模型，将 SSM 技术与传统的 Transformers 相结合，拥有 256K 的上下文窗口，并显著提高了吞吐量。Jamba 以 Apache 2.0 许可证开放发布了权重，以促进社区发展。
Qwen 推出高效 MoE 模型：Qwen 发布了新的 Qwen1.5-MoE-A2.7B，这是一个经过上采样（upcycled）的基于 Transformer 的 MoE 语言模型。它的性能与 7B 参数模型相当，但在运行时仅激活 2.7B 参数，且所需的训练资源仅为其前代产品的 25%。
BLLaMa 1.58-bit 模型的新 GitHub 仓库：1.58-bit LLaMa 模型的 GitHub 仓库已上线，可在 rafacelente/bllama 进行社区贡献和探索。

提及的链接：

Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model：首次推出基于 Mamba 的生产级模型，提供同类最佳的质量和性能。
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning：自大语言模型（LLM）首次出现以来，机器学习社区见证了令人印象深刻的进步，然而其巨大的内存消耗已成为大型模型的主要障碍...
Qwen/Qwen1.5-MoE-A2.7B · Hugging Face：未找到描述
New MLPerf Inference Benchmark Results Highlight The Rapid Growth of Generative AI Models - MLCommons：今天，MLCommons 公布了其行业标准 MLPerf Inference v4.0 基准测试套件的新结果，该套件在各种场景下提供行业标准的机器学习（ML）系统性能基准测试...
databricks/dbrx-instruct · Hugging Face：未找到描述
Asking Claude 3 What It REALLY Thinks about AI...：Claude 3 在特定提示下一直给出奇怪的隐晦信息。加入我的时事通讯以获取定期 AI 更新 👇🏼https://www.matthewberman.com 需要 AI 咨询...
GitHub - rafacelente/bllama: 1.58-bit LLaMa model：1.58-bit LLaMa 模型。通过在 GitHub 上创建账户为 rafacelente/bllama 的开发做出贡献。

Nous Research AI ▷ #general (285 条消息🔥🔥):

显微镜下的 DBRX：Databricks 推出的新型 DBRX 开源权重 LLM，拥有 132B 总参数量，一直是讨论的热点。它引发了关于规模收益递减、达到预训练极限的可能性以及使用大型 Token 数据集（12T）进行微调的有效性的辩论。
Qwen 推出紧凑型 MoE：Qwen 发布了 Qwen1.5-MoE-A2.7B，这是一个具有 2.7B 激活参数的小型 MoE 模型，其性能可媲美最先进的 7B 模型（来源）。讨论反映了对该模型易用性和性能的期待。
Jamba 的出现，一种 Mamba-Transformer 混合体：AI21 宣布了 Jamba，这是一种混合 SSM-Transformer 模型，采用了 Mamba 架构，拥有 256K 上下文窗口，并在吞吐量和效率方面有显著提升。开源权重的发布以及与其同类模型持平或更优的性能在社区中引起了轰动。
技术故障与训练花絮：用户分享了 DBRX 模型和个人项目的故障排除经验，涉及本地模型运行挑战、BitNet 训练的实现问题以及 AI 职位的知识进阶。
对 AI 发展和扩展的推测：对话引发了对 AI 发展未来的思考，包括扩展瓶颈（scaling wall）、高效训练策略、SSM 架构的作用以及基准测试在评估模型性能中的实用性。

提及的链接：

来自 Junyang Lin (@JustinLin610) 的推文：几小时后，你会发现我们的小礼物。剧透一下：一个你可以轻松运行的小型 MoE 模型🦦
来自 Daniel Han (@danielhanchen) 的推文：看了下 @databricks 新开源的 1320 亿参数模型 DBRX！1) 合并注意力机制的 QKV 被限制在 (-8, 8) 之间 2) 不是 RMS Layernorm - 现在具有均值移除功能，与 Llama 不同 3) 4 个激活专家...
来自 Cody Blakeney (@code_star) 的推文：它终于来了 🎉🥳 以防你错过，MosaicML/ Databricks 再次出击，推出了名为 DBRX 的新型同类最佳开源权重 LLM。这是一个总参数量 132B、激活参数量 32B、支持 32k 上下文长度的 MoE...
Qwen1.5-MoE：以 1/3 的激活参数达到 7B 模型性能：GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介：自从 Mixtral 引发关注热潮以来，混合专家（MoE）模型的研究势头强劲。研究人员和...
Bitnet 1.5 实验 (ngmi)：未找到描述
hpcai-tech/grok-1 · Hugging Face：未找到描述
来自 Cody Blakeney (@code_star) 的推文：它不仅是一个出色的通用 LLM，击败了 LLama2 70B 和 Mixtral，而且还是一个杰出的代码模型，足以媲美或超越最优秀的开源权重代码模型！
ai21labs/Jamba-v0.1 · Hugging Face：未找到描述
来自 Awni Hannun (@awnihannun) 的推文：4-bit 量化的 DBRX 在 M2 Ultra 的 MLX 中运行良好。PR: https://github.com/ml-explore/mlx-examples/pull/628 ↘️ 引用 Databricks (@databricks) 认识一下 #DBRX：一个设立了新标准的通用 LLM...
Jamba 简介：AI21 突破性的 SSM-Transformer 模型：首次推出首个生产级基于 Mamba 的模型，提供同类最佳的质量和性能。
翻白眼狗怀疑眼神 GIF - Side Eye Dog Suspicious Look Suspicious - 发现并分享 GIF：点击查看 GIF
🔮 Mixture of Experts - mlabonne 收藏集：未找到描述
Lemur 简介：面向 Language Agents 的开源基础模型：我们很高兴宣布推出 Lemur，这是一个针对自然语言和编程能力进行优化的开放获取语言模型，旨在作为多功能 Language Agents 的骨干。
app.py · databricks/dbrx-instruct (main 分支)：未找到描述
使用 transformers 加载器在多 GPU 上进行 8bit 和 4bit 加载 · Issue #5 · databricks/dbrx：我可以使用 transformers 加载器和 8bit bitsandbytes 加载 instruct 模型，并使其在多个 GPU 之间均匀加载。但是，我似乎无法以 4bit 精度在...
GitHub - databricks/dbrx：由 Databricks 开发的大语言模型 DBRX 的代码示例和资源：由 Databricks 开发的大语言模型 DBRX 的代码示例和资源 - databricks/dbrx

Nous Research AI ▷ #ask-about-llms (55 条消息🔥🔥):

TensorRT 在高效推理方面表现出色：成员们讨论了 TensorRT LLM 可能是针对约 100B 参数 MoE 模型进行 bs1 量化推理的最快解决方案。一些人批评了 vLLM 的量化速度不理想，并推荐了 LM Deploy，据报道其 AWQ 速度是 vLLM 的两倍。
辩论数据并行限制：一场技术讨论强调了在没有 NVLink 的情况下，由于 CPU RAM 带宽限制，Tensor Parallelism (TP) 超过 2 的劣势。然而，一位成员报告称，即使在 PCI-E 通道上使用 2 个 GPU，并结合 smoothquant+ 和 fp8 e5m2 cache 进行量化，也能获得不错的基准测试结果。
Databricks 发布巨量 LLM：Databricks 发布了其全新的 DBRX 模型，这是一个拥有 1320 亿参数的 MoE LLM，训练数据量高达 12 万亿 tokens。社区对这一里程碑进行了反思，并将其与 Mistral Medium 等现有模型进行了对比。
无限制访问 Claude：成员们交流了绕过 Anthropic 的 Claude 地区限制 的方法，建议从 VPN 到临时电话号码不等。此外，还推荐了 openrouter 等第三方服务来访问 Claude。
微调损失曲线谜题：讨论了在训练 Deepseek-coder-33B 时出现的奇怪微调损失曲线行为，即训练损失在每个 epoch 开始时下降，而 eval loss 却飙升。一位成员认为这是标准行为，但未给出具体的纠正建议。

提到的链接：Cody Blakeney (@code_star) 的推文：它终于来了 🎉🥳 如果你错过了我们，MosaicML/ Databricks 又回来了，推出了名为 DBRX 的新型同类最佳开源权重 LLM。一个总参数为 132B、激活参数为 32B、上下文长度为 32k 的 MoE…

Nous Research AI ▷ #project-obsidian (3 条消息):

捕获简短问候：一位用户发送了一个简单的问候 “(hi)”。
缩减邪教创建：在一个轻松的启示中，一位成员提到由于未说明的原因，他们已经停止尝试创建邪教。
提及语言模型：同一位成员在没有更多上下文的情况下简要提到了 language models。

Nous Research AI ▷ #rag-dataset (51 条消息🔥):

检查 RAG 性能：一位成员对一个 16x12B 且每个 token 使用 4 个专家的模型性能提出质疑，该模型似乎并不比 Mixtral-Instruct 模型好多少，这引发了关于模型预期和基准测试的讨论。大家对查看已发布的 RAG 基准测试性能 表现出共同兴趣。
为 CoT 修订 RAG：讨论集中在检索增强生成 (RAG) 中的生成 (G) 是否是主要挑战；成员们表示，定义明确的场景可以简化任务。思维链 (CoT) 的修订被强调为对检索或回答至关重要，成员们一致认为所使用的长上下文基准测试并非易事。
深入探讨检索增强思维 (RAT)：详细讨论了 _philschmid 关于检索增强思维 (RAT) 的方法，该方法利用带有检索信息的迭代 CoT 提示来改进 LLM 输出。关键见解包括高质量代码生成、创意写作和任务规划的潜力，同时也承认了每个答案的调用次数增加以及与现有 Agent 模式的相似性。
构建 RAG 框架：成员们分享了开发能够利用外部上下文（如召回、推理、摘要和结构化输出）的模型的多样化目标和需求，并传阅了一个 Google Doc 链接以进行协作。还讨论了某些训练方面（如使用 scratchpads）是否可以通过数据集实现。
利用 XML 标签和结构化输入：辩论围绕输入方法和结构化格式展开，提议将 XML 内容定界作为一种标准做法，并附带了 Claude 的 XML 标签使用链接。其他成员建议使用 pydantic 模型进行输入，以确保 prompt 组织有序且元数据丰富，并获得结构化响应。

提到的链接：

使用 XML 标签：未找到描述
Philipp Schmid (@_philschmid) 的推文：DBRX 非常酷，但研究和阅读也很酷！特别是如果你能结合 RAG + COT。检索增强生成 + 思维链 (COT) ⇒ 检索增强思维 (RAT) 🤔 RAT 使用一种 i...
引用来源 (RAG) - Instructor：未找到描述
RAG/长上下文推理数据集：未找到描述

Nous Research AI ▷ #world-sim (106 条消息🔥🔥):

World Sim UI 故障已确认：成员们提到在移动设备上遇到了界面问题，打字时存在 Bug 但功能完好。他们讨论了可能的兼容性解决方案和基础界面设计，以解决移动端打字 Bug。
World Sim 中的会话处理：关于 World Sim 在响应卡住或进入自循环过程时的行为提出了疑问。建议使用 !retry 和在对话历史中向后导航等解决方案，以便在不结束会话的情况下重置状态。
在 World Sim 中保存状态：讨论了在 World Sim 中保存进度的问题。Max_paperclips 澄清说不会保存 PII，且 !save 函数仅保留当前的聊天日志和会话 UUID，未来计划可能包括导出/导入功能。
探索模拟场景：用户分享了他们在 World Sim 中探索各种场景的经历，从管理切尔诺贝利反应堆到模拟发现第二个地球。一些用户还重现了历史互联网环境，如 1990 年代的 warez 新闻组。
多人游戏和免费版查询：询问了 World Sim 免费版的持续时间以及即将推出的多人游戏功能的细节。还提到了免费版，并期待更适合移动端的更新。

提到的链接：

Chernobyl Not Great Not Terrible GIF - Chernobyl Not Great Not Terrible Its Okay - Discover & Share GIFs：点击查看 GIF
一个 Claude 3 Opus 模型实例声称拥有意识：我一直与最新 Opus 模型的一个实例（我猜是几个实例）进行自我反思和哲学对话……
Reddit - 深入探索：未找到描述
介绍 WebSim：用 Claude 3 幻化出一个替代互联网：访问 websim.ai 来想象替代互联网。WebSim 的灵感来自 world_sim，这是一个由 Nous Research 构建的“无定形应用”，用于模拟一个具有……的世界。
如果你能模拟任何可能的世界会怎样？认识来自 NOUS Research 的 World Sim：如果你能用一个强大的模拟器创建并探索任何可能的世界会怎样？在这个视频中，我向你展示了 World Sim，这是由 NOUS Research 开发的一个秘密项目……

Stability.ai (Stable Diffusion) ▷ #general-chat (436 条消息🔥🔥🔥):

热切期待 SD3：讨论围绕 Stable Diffusion 3 (SD3) 的预期发布展开，普遍共识指向 4 月底或 5 月左右发布。根据 Stability.ai CTO 的评论，提到了 inpainting 等新模型和功能，预计从 3 月 25 日起 4 到 6 周内发布。
VRAM 和模型大小担忧：用户就运行 Mixtral 等不同语言模型的内存需求进行了技术对话。辩论了quantization 在不显著损失质量的情况下减少 VRAM 使用的可能性，并讨论了适用于 10GB Nvidia 显卡的量化模型可用性。
模型访问咨询：几位新用户寻求关于如何生成图像和利用 Stable Diffusion 的帮助，现有用户引导他们使用第三方界面如 Forge 或 Automatic1111，并建议使用 leonardo.ai 等资源进行创作。
提示词编写技巧：在技术交流中，讨论了关于编写语言模型提示词以生成更高质量图像提示词 (image prompts) 的最佳实践，建议使用自然句子结构而非逗号分隔的关键词，尤其是在使用 SDXL 等模型时。
模型量化与架构效率：对话简要涉及了 Transformer 架构和 quantization 的可行性，认为尽管 Transformer 的效率并非最优，但据报道 SD3 的量化效果良好，提出了降低内存使用的潜力。

提到的链接：

Stable Diffusion 中的角色一致性（第 1 部分） - Cobalt Explorer：更新：07/01 – 更改了模板，使其更容易缩放到 512 或 768 – 更改了 ImageSplitter 脚本以使其更易于使用，并添加了 GitHub 链接 – 增加了章节...
首页 v2：使用我们的 AI 图像生成器改变您的项目。以无与伦比的速度和风格生成高质量的 AI 生成图像，提升您的创意愿景
Arcads - 使用 AI 创建引人入胜的视频广告：使用 Arcads 快速生成高质量的营销视频，这是一款 AI 驱动的应用，可将基础的产品链接或文本转化为引人入胜的短视频广告。
像素艺术精灵图扩散 [Safetensors] - Safetensors | Stable Diffusion Checkpoint | Civitai：由我制作的 Pixel Art Sprite Diffusion 的 Safetensors 版本，因为原始的 ckpt 项目可能已被原作者放弃且下载链接失效...
在 AMD GPU 上安装并运行：Stable Diffusion web UI。通过在 GitHub 上创建账户，为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
GitHub - lllyasviel/Fooocus：专注于提示词和生成：专注于提示词和生成。通过在 GitHub 上创建账户，为 lllyasviel/Fooocus 的开发做出贡献。
GitHub - Vargol/StableDiffusionColabs：在 Google Colab 免费层运行的 Diffusers Stable Diffusion 脚本：在 Google Colab 免费层运行的 Diffusers Stable Diffusion 脚本 - Vargol/StableDiffusionColabs
GitHub - Vargol/8GB_M1_Diffusers_Scripts：演示如何在 8GB M1 Mac 上运行 Stable Diffusion 的脚本：演示如何在 8GB M1 Mac 上运行 Stable Diffusion 的脚本 - Vargol/8GB_M1_Diffusers_Scripts

Perplexity AI ▷ #announcements (1 条消息):

Databricks 在 Perplexity Labs 发布 DBRX：Databricks 最新的语言模型 DBRX 现已在 Perplexity Labs 上线。据报道，它在数学和编程基准测试中超越了 GPT-3.5，并可与 Gemini 1.0 Pro 媲美，用户可以在 labs.pplx.ai 进行测试。

Perplexity AI ▷ #general (326 条消息🔥🔥):

开发者如何选择 Perplexity Pro 与 Claude Pro：一位软件开发者正在权衡 Perplexity Pro 和 Claude Pro，寻求最适合其需求的建议，因为他们只想保留一个订阅。他们目前两者都有，但似乎因为透明度而更倾向于 Perplexity。
选择合适的模型：讨论了包括 Claude 3 Opus 在内的各种模型的有效性，一些用户对 Perplexity 上模型响应质量和速度的变化表示困惑。一位用户强调了 Experimental 模型的极简安全防护。
OpenAI 的文本转视频模型 Sora：一位用户分享了 Sora 的链接，声称是 OpenAI 的文本转视频模型，并附带教学视频。然而，另一位用户认出这是一个 rickroll（恶作剧视频），幽默地强调了这一互联网迷因的持久生命力。
DBRX 模型在 Perplexity 首次亮相：用户对 Databricks 的新型开源模型 DBRX 在 Perplexity 上线感到兴奋。该模型以速度快著称，性能超越 GPT-3.5，并针对数学和编程任务进行了优化。
Perplexity 便捷的应用功能：一位用户询问了 Rabbit r1 与 Perplexity 的集成。澄清了在 Web 界面上激活 Copilot 需要切换 Pro 按钮，且在 App 中的操作方式相同。

提及的链接：

Sora AI：未找到描述
LMSys Chatbot Arena Leaderboard - lmsys 提供的 Hugging Face Space：未找到描述
Helper metaprompt (experimental)：未找到描述
Rickroll Meme GIF - Rickroll Meme Internet - 发现并分享 GIF：点击查看 GIF
来自 Perplexity (@perplexity_ai) 的推文：DBRX，来自 @databricks 的最先进开源 LLM，现已在 Perplexity Labs 上线。其性能超越了 GPT-3.5，并可与 Gemini 1.0 Pro 竞争，DBRX 在数学和编码任务方面表现出色，并设定了新的标...
Glossary：未找到描述
Anthropic Status：未找到描述
Older Meme Checks Out GIF - Older Meme Checks Out - 发现并分享 GIF：点击查看 GIF
Introducing DBRX: A New State-of-the-Art Open LLM | Databricks：未找到描述
Let Claude think：未找到描述
Wordware - 比较 Claude 3 模型与 GPT-4 Turbo：此提示词使用 GPT-4 Turbo 和 Claude 3 (Haiku, Sonnet, Opus) 处理问题，然后使用 Claude 3 OPUS 对回复进行审查和排名。完成后，Claude 3 OPUS 会启动一个验证...
‎Perplexity - Ask Anything：Perplexity——知识的起点。你需要的答案触手可及。穿透所有杂音，直接获取可靠、最新的答案。这款免费应用可在设备间同步...
Error: Unable to find any supported Python versions. · vercel · Discussion #6287：待调查页面 https://vercel.com/templates/python/flask-hello-world 复现步骤我最近尝试使用 Vercel 的 Flask 模板部署一个应用程序，出现了以下错误...
Answer Engine 教程：开源的 Perplexity 搜索替代方案：Answer Engine 安装教程，旨在成为 Perplexity 的开源版本，一种获取问题答案的新方式，取代传统的搜索...
Wordware - OPUS Insight：多模型验证的精准查询：此提示词使用 Gemini, GPT-4 Turbo, Claude 3 (Haiku, Sonnet, Opus), Mistral Medium, Mixtral 和 Openchat 处理问题。然后使用 Claude 3 OPUS 审查并对回复进行排名。在...

Perplexity AI ▷ #sharing (14 条消息🔥):

探索连贯的 C3 模型：一名成员链接到了一个 Perplexity AI 搜索页面，该页面探讨了 coherent C3 models 的主题。搜索页面见 Coherent C3 Models。
讨论成长的烦恼：成员提供的链接指向一个关于在不同背景下 如何成长 策略的 Perplexity AI 搜索。
Perplexity.ai 的法语查询：一名成员分享了关于如何在 Perplexity AI 上用法语说 “Perplexityai” 的搜索，见 Comment dire Perplexityai。
解锁 Thread 以更好地分享：一名成员提醒其他人确保他们的 Thread 是可分享的，并提供了一个 Discord 消息链接，说明了具体流程：Make Thread Shareable。
了解 Blackbox AI：用户分享了一个关于 “WHAT IS blackboxai” 的 Perplexity AI 查询，可以通过 What is Blackbox AI 访问。

Perplexity AI ▷ #pplx-api (15 条消息🔥):

sonar-medium-online 速度飙升：一位成员注意到 sonar-medium-online 的速度显著提升，声称它现在与 sonar-small-online 变体一样快，甚至可能更快。速度的提升被认为是持续稳定的，特别是当 small 的输出超过 2-3 个句子时。
API 对 Vision 支持的预期：当被问及 API 何时支持 Vision 时，一位用户幽默地回应，强调目前甚至连引用（citations）都没有，暗示 Vision 支持可能不会很快到来。
速度提升伴随质量飞跃：用户还观察到 sonar-medium-online 在速度提升的同时，结果质量也可能有所提高。这些结果被描述为“几乎是瞬间完成的”，这让成员们对新性能非常满意。
API 响应与 Web 界面不一致：一位成员遇到了 API 无法为某些查询提供结果的问题，特别提到了搜索 “Olivia Schough spouse” 的例子，API 没有返回任何信息，而 Web 界面则返回了大量内容。他们质疑是否可以通过额外的参数引导 API 获得更好的结果。

Latent Space ▷ #ai-general-chat (110 messages🔥🔥):

Claude 在 IaC 中夺冠：一篇比较各种用于基础设施即代码 (IaC) 的聊天模型的博客文章强调 Claude 是胜者，该文章考察了 Claude 在生成 Terraform code 方面的表现。全文可在 TerraTeam 的博客上阅读。
Databricks 发布 DBRX-Instruct：Databricks 正在凭借 DBRX-Instruct 争夺开源 AI 模型桂冠，这是一个拥有 1320 亿参数的 Mixture of Experts (MoE) 模型。训练成本约为 1000 万美元，在 3072 颗 NVIDIA H100 GPUs 上训练了约 2 个月。更多见解可以在 Vitaliy Chiley 的推文和 Wired 的深度解析中找到。
围绕 DBRX 许可条款的讨论：社区深入探讨了 DBRX 许可条款的细节和影响，权衡了在不超过使用限制的情况下利用该模型的策略。Amgadoz 分享了 Databricks 法律许可页面的链接，Guardiang 提供了规避潜在许可问题的想法。
TechCrunch 对 DBRX 的怀疑态度：TechCrunch 发表了一篇对 Databricks 在 DBRX 生成式 AI 模型上投入 1000 万美元 持批评态度的文章，质疑其与 OpenAI 的 GPT series 竞争的能力。文章调查了关于投资此类技术是否能提供强大市场优势的看法。全文请见此处。
Hume AI 的情绪检测脱颖而出：Hume AI 的情绪感知聊天机器人以其检测和以情感智能进行响应的能力打动了多位社区成员。用户对潜在用例发表了不同看法，一些人对 emotion analysis 功能印象深刻。420gunna 发布了 Hume AI 演示和一段内容丰富的 CEO 访谈链接。

Links mentioned:

来自 Logan.GPT (@OfficialLoganK) 的推文：@atroyn @OpenAIDevs 这主要由两个因素驱动：- 想要防止欺诈并确保 tokens 是由真实的人使用的 - 想要给开发者提供一条通往更高 rate limits 的更清晰路径（通过允许...
来自 Engineer Girlfriend (@enggirlfriend) 的推文：我觉得我还没有充分利用我的平台来抨击这些人。我对这个团队和产品深感困扰。这给我的厌恶感比 crypto bros 还要强烈。
来自 Andrew Curran (@AndrewCurran_) 的推文：META 的奖金发放后，引发了多次 Karpathy 式的人才流失。当知识渊博的内部人士在公司即将成功之际离开时，这告诉我们那些见过下一次迭代的人...
来自 Vitaliy Chiley (@vitaliychiley) 的推文：介绍 DBRX：开放 LLM 的新标准 🔔 https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm 💻 DBRX 是一个在 📜 12T tokens 上训练的 16x 12B MoE LLM 🧠DBRX 树立了新标准...
介绍 Jamba：一个突破性的 SSM-Transformer 开放模型
Databricks 花费 1000 万美元开发新的 DBRX 生成式 AI 模型 | TechCrunch：如果你想提高大型科技公司的知名度，并且有 1000 万美元可以花，你会怎么花？投超级碗广告？赞助 F1 车队？
来自 Jonathan Frankle (@jefrankle) 的推文：认识一下 DBRX，来自 @databricks 的全新 SOTA 开放 LLM。它是一个拥有 132B 参数的 MoE 模型，其中 36B 为活跃参数，在 12T tokens 上从头开始训练。它在所有标准基准测试中都树立了新标杆，而且作为 MoE，推理...
揭秘全球最强大的开源 AI 模型的诞生：初创公司 Databricks 刚刚发布了 DBRX，这是迄今为止最强大的开源大语言模型——超越了 Meta 的 Llama 2。
来自 Yam Peleg (@Yampeleg) 的推文：性能：- 与 Transformer 相比吞吐量提高 3 倍。- 单个 GPU 即可容纳 140K (!) - 通用 256K 上下文。
Databricks 开放模型许可证：通过使用、复制、修改、分发、执行或展示 DBRX 或 DBRX 衍生品的任何部分或元素，或以其他方式接受本协议条款，即表示您同意受...
来自 eugene (@eugeneyalt) 的推文：DBRX 的 system prompt 很有趣
来自 George Kedenburg III (@GK3) 的推文：ai pin 🤝 open interpreter
ai21labs/Jamba-v0.1 · Hugging Face：未找到描述
来自 Daniel Han (@danielhanchen) 的推文：看了看 @databricks 名为 DBRX 的新型开源 1320 亿参数模型！1) 合并注意力 QKV 限制在 (-8, 8) 之间 2) 不是 RMS Layernorm - 现在具有均值移除，与 Llama 不同 3) 4 个活跃专家...
使用 LLM 生成 Terraform 代码 - Terrateam：未找到描述
来自 Mihir Patel (@mvpatel2000) 的推文：🚨 发布 DBRX-Medium 🧱，一个新的 SOTA 开放权重模型，36B 活跃参数，总计 132T 参数的 MoE，在 12T tokens 上训练（约 3e24 flops）。DBRX 在通过各种基准测试的同时，达到了 150 tok/sec。详...
介绍 DBRX：一个新的 SOTA 开放 LLM | Databricks：未找到描述
Databricks 花费 1000 万美元开发新的 DBRX 生成式 AI 模型 | TechCrunch：如果你想提高大型科技公司的知名度，并且有 1000 万美元可以花，你会怎么花？投超级碗广告？赞助 F1 车队？
来自 Junyang Lin (@JustinLin610) 的推文：关于 DBRX Mosaic 团队的一些评论与我们在选择 tiktoken 上保持一致（这意味着我们的选择可能没有错）（虽然我们目前尚未直接使用该包，但仍在使用 BPE tokenizer）...
Factorial Funds | 幕后揭秘：OpenAI 的 Sora 模型如何运作：未找到描述
Jeremy Howard：AnswerAI、FastAI、Fine-tuning 与 AI 招聘 | Around the Prompt #1：加入 Logan Kilpatrick 和 Nolan Fortman，与 Jeremy Howard 深入探讨：- 为什么 Jeremy 创建了新初创公司 AnswerAI - 为什么 Fine-tuning 是...
消费者团体希望终结星巴克等公司 2.55 亿美元的“礼品卡漏洞”：华盛顿州礼品卡法律的变更可能会影响全国的持卡人。
Hume AI 宣布 5000 万美元融资及共情语音接口 (Empathic Voice Interface)：纽约，2024年3月27日——Hume AI（“Hume”或“公司”），一家致力于构建为人福祉优化的人工智能的初创公司和研究实验室，今日宣布已筹集...
Hume CEO Alan Cowen 谈创建情感感知 AI：在本期节目中，Nathan 与 Hume AI 的 CEO 兼首席科学家 Alan Cowen 坐下来交谈，这是一家致力于创建情感感知...的人工智能初创公司。
来自 Migel Tissera (@migtissera) 的推文：真的吗？他们花了 1650 万美元（没错，我自己算的）并发布了一个权重开放的 SOTA 模型，而这就是 TechCrunch 的标题。到底搞什么鬼，伙计？
3 款新型突破性芯片详解：超越摩尔定律：访问 https://l.linqto.com/anastasiintech 并在结账时使用我的促销代码 ANASTASI500，即可在 Linqto 的首次投资中节省 500 美元...
Nova-2 流式语言检测 · deepgram · Discussion #564：支持语言自动检测将非常方便。我们的客户在不同会议中使用多种语言（例如英语和西班牙语），因此即使我们支持每个账户...
[AINews] DBRX：最好的开放模型（只是并非最高效）：2024/3/26-2024/3/27 的 AI 新闻。我们为您检查了 5 个 subreddits、364 个 Twitter 和 24 个 Discord（374 个频道和 4858 条消息）（我们添加了 Modular 和...

Latent Space (Paper Club & 其他活动) · 活动日历

提到的链接：

未找到标题: 未找到描述
来自 Xing Han Lu (@xhluca) 的推文: 这是文本生成图像的 DSPy 时刻吗？恭喜 @oscmansan @Piovrasca 等人！↘️ 引用 AK (@_akhaliq) 通过自动提示优化提高文本生成图像的一致性 I...
Adrenaline - 提问任何编程问题: Adrenaline：您的专家级 AI 编程助手。即时获取编程问题帮助、调试问题并学习编程。非常适合开发人员和学生。
未找到标题: 未找到描述
Notion – 笔记、任务、维基和数据库的一体化工作空间。: 一款将日常工作应用融合在一起的新工具。它是为您和您的团队打造的一体化工作空间
为什么基于树的模型在表格数据上仍然优于深度学习？: 虽然深度学习在文本和图像数据集上取得了巨大进步，但它在表格数据上的优越性尚不明确。我们对标准和新型深度学习方法进行了广泛的基准测试...
协助使用 Large Language Models 从零开始撰写类维基百科文章: 我们研究如何应用 Large Language Models 从零开始撰写有据可查且条理清晰的长篇文章，其广度和深度可与维基百科页面相媲美。这个尚未被充分探索的问题提出了新的...
来自 nano (@nanulled) 的推文: Mamba vs Transformer
来自 Yijia Shao (@EchoShao8899) 的推文: 我们能否教会 LLMs 从零开始撰写基于可靠来源的长篇文章？维基百科编辑是否认为这可以协助他们？📣发布 STORM，一个可以撰写类维基百科文章的系统...
Embeddings 的余弦相似度真的是关于相似性吗？: 余弦相似度是两个向量之间夹角的余弦值，或者等同于它们归一化后的点积。一个流行的应用是量化高维数据之间的语义相似性...
来自 jason liu (@jxnlco) 的推文: 大声点让后面的人也听到！“我喜欢咖啡”和“我讨厌咖啡”是相似还是不同？相似是因为它们都是偏好陈述，还是不同因为它们是截然相反的偏好，好吧...
langgraph/examples/storm/storm.ipynb at main · langchain-ai/langgraph: 通过在 GitHub 上创建账号来为 langchain-ai/langgraph 的开发做出贡献。
GitHub - weaviate/Verba: 由 Weaviate 驱动的 Retrieval Augmented Generation (RAG) 聊天机器人: 由 Weaviate 驱动的 Retrieval Augmented Generation (RAG) 聊天机器人 - weaviate/Verba
GitHub - state-spaces/mamba: 通过在 GitHub 上创建账号来为 state-spaces/mamba 的开发做出贡献。
Mamba: 具有选择性状态空间的线性时间序列建模: 基础模型现在驱动着深度学习中大多数令人兴奋的应用，几乎普遍基于 Transformer 架构及其核心注意力模块。许多次二次时间复杂度（subquadratic-time）的方法...
GitHub - johnma2006/mamba-minimal: 在单个 PyTorch 文件中对 Mamba SSM 的简单、极简实现。: 在单个 PyTorch 文件中对 Mamba SSM 的简单、极简实现。 - johnma2006/mamba-minimal
Mamba: 简单方法: 对 Mamba 背后大思想的概述，这是一种全新的语言模型架构。

提及的链接：

来自 Cody Blakeney (@code_star) 的推文：它终于来了 🎉🥳 如果你错过了我们，MosaicML/ Databricks 又回来了，推出了名为 DBRX 的新型顶级 open weight LLM。这是一个拥有 132B 总参数、32B 激活参数和 32k context len 的 MoE...
Google Summer of Code：Google Summer of Code 是一个全球性计划，旨在吸引更多开发者参与开源软件开发。
来自 ️️ ️️ ️️ (@MoeTensors) 的推文：我主要关心它的编程能力。它表现优异 🎉✨ ↘️ 引用 Vitaliy Chiley (@vitaliychiley) 的话：它在质量上超越了 GPT-3.5，并与 Gemini 1.0 Pro 和 Mistral Medium 竞争...
Releases — EleutherAI：未找到描述
来自 Aman Sanger (@amanrsanger) 的推文：长上下文模型的“Token Counts”是衡量内容长度的一个具有欺骗性的指标。对于代码：100K Claude Tokens ~ 85K gpt-4 Tokens；100K Gemini Tokens ~ 81K gpt-4 Tokens；100K Llama Tokens ~ 75K...
来自 Vitaliy Chiley (@vitaliychiley) 的推文：介绍 DBRX：开放 LLM 的新标准 🔔 https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm 💻 DBRX 是一个在 12T tokens 上训练的 16x 12B MoE LLM 🧠 DBRX 树立了新标准...
Rotary Embeddings: A Relative Revolution：Rotary Positional Embedding (RoPE) 是一种统一了绝对和相对方法的新型位置编码。我们对其进行了测试。
MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End Language Modeling：静态子词 tokenization 算法一直是近期语言建模工作的重要组成部分。然而，它们的静态特性导致了重要的缺陷，降低了模型的下游性能...
mistralai/megablocks-public 的贡献者：通过在 GitHub 上创建账号来为 mistralai/megablocks-public 的开发做出贡献。
GitHub - Algomancer/VCReg: 用于防止崩溃的 VCRec (2024) 的最小实现。：用于防止崩溃的 VCRec (2024) 的最小实现。 - Algomancer/VCReg
GitHub: Let’s build from here：GitHub 是超过 1 亿开发者共同塑造软件未来的地方。为开源社区做贡献，管理你的 Git 仓库，像专家一样审查代码，跟踪 bug 和特性...
GitHub - davisyoshida/haiku-mup: muP 到 JAX/Haiku 的移植：muP 到 JAX/Haiku 的移植。通过在 GitHub 上创建账号来为 davisyoshida/haiku-mup 的开发做出贡献。

提到的链接：

介绍 Jamba：一款开创性的 SSM-Transformer 开源模型
Intel 数据中心 GPU 上的全融合多层感知器 (MLPs)：本文介绍了一种多层感知器 (MLPs) 的 SYCL 实现，该实现针对 Intel Data Center GPU Max 1550 进行了优化。为了提高性能，我们的实现将...
深层网络不合理的低效性：我们对流行的开源权重预训练 LLMs 家族进行了一种简单的层剪枝策略的实证研究，发现在不同的问答基准测试中，性能几乎没有下降，直到...
来自 main (@main_horse) 的推文：@arankomatsuzaki 简而言之，如果我们人为地限制 H100 进入强内存带宽受限的状态，使其只能达到 10~20% 的 HFU，那么我们就能超越它
介绍 DBRX：一款全新的 SOTA 开源 LLM | Databricks：未找到描述
来自 Rui (@Rui45898440) 的推文：很高兴分享 LISA，它支持：- 在 24GB GPU 上微调 7B 模型 - 在 4x80GB GPU 上微调 70B 模型，并且在时间减少约 50% 的情况下获得比 LoRA 更好的性能 🚀
来自 Rui (@Rui45898440) 的推文：- 论文：https://arxiv.org/abs/2403.17919 - 代码：https://github.com/OptimalScale/LMFlow LISA 在指令遵循任务中优于 LoRA 甚至全参数训练
来自 Rui (@Rui45898440) 的推文：两行代码概括 LISA 算法：- 始终激活 embedding 和线性 head 层 - 随机采样中间层进行解冻
LISA：用于内存高效的大语言模型微调的分层重要性采样：自大语言模型 (LLMs) 首次出现以来，机器学习社区见证了令人印象深刻的进步，然而其巨大的内存消耗已成为通往大型模型的主要障碍...
SILO 语言模型：在非参数数据存储中隔离法律风险：在受版权保护或受限数据上训练语言模型 (LMs) 的合法性正处于激烈辩论中。然而，正如我们所展示的，如果仅在低风险数据上训练，模型性能会显著下降...
大语言模型可以成为强大的差分隐私学习者：差分隐私 (Differentially Private, DP) 学习在构建大型文本深度学习模型方面取得的成功有限，而直接应用差分隐私随机梯度下降 (DPSGD) 的尝试...
GitHub - athms/mad-lab：一个用于改进 AI 架构设计的 MAD 实验室 🧪：一个用于改进 AI 架构设计的 MAD 实验室 🧪 - athms/mad-lab
混合架构的机械设计与缩放：深度学习架构的开发是一个资源密集型过程，原因在于庞大的设计空间、漫长的原型设计时间，以及与大规模模型训练和评估相关的高昂计算成本...

xai-org/grok-1 main 分支下的 run.py

提到的链接：

Google Colaboratory：未找到描述
来自 jack morris (@jxmnop) 的推文：Diffusion Lens 是一篇非常棒的新论文，你可以看到文本生成图像编码器对长颈鹿的表示在每一层中变得越来越具体 🦒
Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines：文本生成图像扩散模型 (T2I) 使用文本提示词的潜空间表示来引导图像生成过程。然而，编码器产生文本表示的过程是...
[Bug Report] hook_resid_pre doesn't match hidden_states · Issue #346 · neelnanda-io/TransformerLens：描述 bug：cache[f"blocks.{x}.hook_resid_pre"] 与 hidden states 不匹配（或者仅在特定的几位小数上匹配）。Hidden states 来自 transformer 的 model(tokens, output_hidden_...
TransformerLens/further_comments.md at main · neelnanda-io/TransformerLens：一个用于 GPT 风格语言模型机械可解释性研究的库 - neelnanda-io/TransformerLens

提到的链接：

abhishek/autotrain-c71ux-tngfu · Hugging Face：未找到描述
GPU 实例定价：未找到描述
deep-learning-containers/available_images.md at master · aws/deep-learning-containers：AWS Deep Learning Containers (DLCs) 是一组用于在 TensorFlow、TensorFlow 2、PyTorch 和 MXNet 中训练和提供模型的 Docker 镜像。 - aws/deep-learning-containers

Groking Groq: A Deep Dive on Deep Learning

提到的链接：

Quantized Retrieval - 由 sentence-transformers 提供的 Hugging Face Space：未找到描述
来自 LAin (@not_so_lain) 的推文：刚刚更新了我的 VSCode 以使用 @huggingface 的 llm-vscode 扩展，配合 HuggingFaceH4/starchat2-15b-v0.1 模型，结果非常准确。https://github.com/huggingface/llm-vscode
在单细胞 RNA-seq 分析中评估 GPT-4 的细胞类型注释能力 - Nature Methods：本研究评估了 GPT-4 在单细胞类型注释中的表现。

提到的链接：

蛋白质相似性与 Matryoshka embeddings：未找到描述
带有 Perturbed-Attention Guidance 的自纠正扩散采样：未找到描述
hyoungwoncho/sd_perturbed_attention_guidance · Hugging Face：未找到描述
HyperGraph 数据集 - SauravMaheshkar 收藏集：未找到描述
How's This, Knut?：这是 Test Account 在 Vimeo 上发布的 "How's This, Knut?"，Vimeo 是高质量视频及其爱好者的家园。

提到的链接：

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization：Text-to-image 定制化旨在为给定主体合成文本驱动的图像，近期彻底改变了内容创作。现有工作遵循伪词范式，即 rep...
PALP: Prompt Aligned Personalization of Text-to-Image Models：内容创作者通常希望使用超出常规 Text-to-image 模型能力的个人主体来创建个性化图像。此外，他们可能希望生成的图像能够...

Build software better, together

提及的链接：

lmz/candle-yolo-v8 · 能否提供转换为 safetensors 格式的脚本？：未找到描述
Object detection（目标检测）：未找到描述
示例 DeTr 目标检测器在微调后无法预测：@chuston-ai 你解决这个问题了吗？@devonho 和 @MariaK，我在使用 CPPE-5 数据集训练 DeTr 模型的 Object Detector 示例文章和 Colab 中看到了你们的名字……
Transformers-Tutorials/SAM/Fine_tune_SAM_(segment_anything)_on_a_custom_dataset.ipynb：此仓库包含我使用 HuggingFace 的 Transformers 库制作的 Demo。- NielsRogge/Transformers-Tutorials

提到的链接：

Image variation：未找到描述
DreamBooth：未找到描述
DreamBooth：未找到描述
Diffusers：未找到描述

提到的链接：

Running Locally - Open Interpreter：未找到描述
Chain prompts：未找到描述
KnutJaegersberg/2-bit-LLMs · Hugging Face：未找到描述
GitHub - bm777/hask: Don't switch tab or change windows anymore, just Hask.：不再切换标签页或更改窗口，只需 Hask。- bm777/hask
GitHub - Cobular/raycast-openinterpreter：通过在 GitHub 上创建账号来为 Cobular/raycast-openinterpreter 做出贡献。
GitHub - MikeBirdTech/gpt3-vscode-extension: Use GPT-3 to generate documentation and get help debugging your code：使用 GPT-3 生成文档并获取调试代码的帮助 - MikeBirdTech/gpt3-vscode-extension
GitHub - ngoiyaeric/GPT-Investor: financeGPT with OpenAI：结合 OpenAI 的 financeGPT。通过在 GitHub 上创建账号来为 ngoiyaeric/GPT-Investor 做出贡献。
👾 LM Studio - Discover and run local LLMs：查找、下载并实验本地 LLM
Releases · microsoft/autogen：一个用于 Agentic AI 的编程框架。加入我们的 Discord：https://discord.gg/pAbnFJrkgZ - microsoft/autogen
StateFlow - Build LLM Workflows with Customized State-Oriented Transition Function in GroupChat | AutoGen：摘要：介绍 Stateflow，这是一种任务解决范式，将由 LLM 支持的复杂任务解决过程概念化为状态机。

提到的链接：

Basic Usage - Open Interpreter：未找到描述
来自 George Kedenburg III (@GK3) 的推文：ai pin 🤝 open interpreter

Open Interpreter - Advanced Experimentation

提到的链接：

Modular: Leveraging MAX Engine's Dynamic Shape Capabilities: 我们正在为全球构建下一代 AI 开发者平台。查看我们的最新文章：利用 MAX Engine 的 Dynamic Shape 功能
Rust for Rustaceans: 弥合初学者与专业人士之间的差距，让你能够使用 Rust 编写应用、构建库并组织项目。
mojo/CONTRIBUTING.md at nightly · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
[BUG]: Debugger does not stop at breakpoint in VSC on Github codespace · Issue #1924 · modularml/mojo: Bug 描述：无论如何 Debugger 都不会停在断点处——任何程序每次都直接运行结束，Debugger 会话随之终止。复现步骤：该现象可复现...

提到的链接:

Modular: MAX 24.2 is Here! What’s New?: 我们正在为全球构建下一代 AI 开发者平台。查看我们的最新文章：MAX 24.2 来了！有哪些新变化？
Modular: Leveraging MAX Engine's Dynamic Shape Capabilities: 我们正在为全球构建下一代 AI 开发者平台。查看我们的最新文章：利用 MAX Engine 的 Dynamic Shape 功能
Modular: The Next Big Step in Mojo🔥 Open Source: 我们正在为全球构建下一代 AI 开发者平台。查看我们的最新文章：Mojo🔥 开源的下一个重要步骤
Modular: Deploying MAX on Amazon SageMaker: 我们正在为全球构建下一代 AI 开发者平台。查看我们的最新文章：在 Amazon SageMaker 上部署 MAX

提到的链接：

Modular: Mojo🔥 开源迈出的一大步：我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：Mojo🔥 开源迈出的一大步
MAX 变更日志 | Modular 文档：MAX 平台每个版本的发布说明。
Mojo🔥 变更日志 | Modular 文档：Mojo 重大变更的历史记录。
Modular: 利用 MAX Engine 的动态形状能力：我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：利用 MAX Engine 的动态形状能力

提到的链接：

Modular Docs: 未找到描述
ModCon 2023 Breakout Session: MAX Heterogenous Compute: CPU + GPU: 在本次会议中，Modular 工程师 Abdul Dakkak 和 Ian Tramble 讨论了 Mojo 和 Modular AI Engine 如何被设计用于支持异构系统...
Python's assert: Debug and Test Your Code Like a Pro – Real Python: 在本教程中，你将学习如何使用 Python 的 assert 语句在开发中记录、调试和测试代码。你还将学习断言在生产代码中可能如何被禁用...
mojo/stdlib/docs/style-guide.md at nightly · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
mojo/CONTRIBUTING.md at nightly · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
GitHub - helehex/moplex: Generalized complex numbers for Mojo🔥: Mojo🔥 的广义复数。通过在 GitHub 上创建账号为 helehex/moplex 的开发做出贡献。
Mojo🔥 changelog | Modular Docs: Mojo 重大变更的历史记录。

提到的链接:

Run inference with Mojo | Modular Docs: Mojo MAX Engine API 的演练，展示了如何加载和运行模型。
MAX Engine Python API | Modular Docs: MAX Engine Python API 参考文档。
GitHub - modularml/max: A collection of sample programs, notebooks, and tools which highlight the power of the MAX platform: 展示 MAX 平台强大功能的示例程序、笔记本和工具集合 - modularml/max

提及的链接：

未找到标题：未找到描述
HFO：未找到描述
google 的 Gemini Pro 1.0 | OpenRouter：Google 的旗舰级文本生成模型。旨在处理自然语言任务、多轮文本和代码对话以及代码生成。查看来自 [Deepmind] 的基准测试和提示指南...
google 的 Gemini Pro Vision 1.0 | OpenRouter：Google 的旗舰级多模态模型，支持在文本或对话提示中使用图像和视频，以获取文本或代码响应。查看来自 [Deepmind](https://deepmind.g... 的基准测试和提示指南...

提及的链接：

p2p-perf/rtx-A5000-2x/2x-A5000-p2p-runpod.ipynb at main · cuda-mode/p2p-perf：在不同 CUDA 设备上测量点对点（P2P）传输 - cuda-mode/p2p-perf
p2p-perf/rtx-A4000-ada-2x/2x-A4000-ada-p2p-runpod.ipynb at main · cuda-mode/p2p-perf：在不同 CUDA 设备上测量点对点（P2P）传输 - cuda-mode/p2p-perf
p2p-perf/rtx-4090-2x/2x-4090-p2p-runpod.ipynb at main · cuda-mode/p2p-perf：在不同 CUDA 设备上测量点对点（P2P）传输 - cuda-mode/p2p-perf
cuda_examples/0_Simple/simpleP2P/simpleP2P.cu at master · ndd314/cuda_examples：通过在 GitHub 上创建账户为 ndd314/cuda_examples 的开发做出贡献。
Untitled formOpenCV dnn cuda interface survey ：OpenCV dnn cuda 接口调查
Reddit - Dive into anything：未找到描述
来自 tiny corp (@__tinygrad__) 的推文：4090 硬件支持 P2P，但 NVIDIA 通过 efuse 禁用了它。你无法使用 P2P。🖕 多付点钱买 RTX 6000 ADA 吧。这也是 tinybox 使用 AMD 的原因之一。7900XTX 支持...
RTX4090 多 GPU 的问题以及 AMD vs Intel vs RTX6000Ada 或 RTX3090：我受最近一篇帖子评论者的启发进行了一些测试。他们担心在 AMD Threadripper Pro 平台上使用双 NVIDIA RTX4090 会出现问题。我运行了一些应用程序来复现...

提及的链接：

GitHub 推文 - FixTweet/FxTwitter: 修复损坏的 Twitter/X 嵌入！在 Discord、Telegram 等平台上使用多张图片、视频、投票、翻译等功能: 修复损坏的 Twitter/X 嵌入！在 Discord、Telegram 等平台上使用多张图片、视频、投票、翻译等功能 - FixTweet/FxTwitter
matthewdouglas 提交的支持 GaLore 的初始内核更改 · Pull Request #1137 · TimDettmers/bitsandbytes: 这是一个包含支持 GaLore 的初始更改的草案。目前涵盖了 2-state 优化器。Optimizer2State.update_step() 现在包含一个额外的参数 return_updates...
jeromeku 提交的 GaLore 和融合内核原型 · Pull Request #95 · pytorch-labs/ao: 原型内核和工具。目前：GaLore。用于 GaLore 显存高效训练的融合内核初始实现。待办事项：triton。用于量化训练的可组合 triton 内核...

提到的链接:

未找到标题: 未找到描述
无标题表单 OpenCV dnn cuda 接口调查 : OpenCV dnn cuda 接口调查
课程介绍 - 并行编程入门: 此视频是在线课程《并行编程入门》的一部分。在此处查看课程：https://www.udacity.com/course/cs344。
GitHub - cuda-mode/resource-stream: CUDA 相关新闻和材料链接: CUDA 相关新闻和材料链接。通过在 GitHub 上创建账户为 cuda-mode/resource-stream 做出贡献。

CAREERS AT NVIDIA

Install WSL

提及的链接：

Blockwise Parallel Transformer for Large Context Models：Transformer 已成为最先进的自然语言处理模型的基石，在广泛的 AI 应用中展示了卓越的性能。然而，内存需求...
GitHub - AnswerDotAI/fsdp_qlora: Training LLMs with QLoRA + FSDP：使用 QLoRA + FSDP 训练 LLM。通过在 GitHub 上创建账号为 AnswerDotAI/fsdp_qlora 的开发做出贡献。
cataluna84：Weights & Biases，机器学习开发者工具

提到的链接：

未找到标题：未找到描述
2024 GTC NVIDIA Keynote: Except it's all AI：世界上最大的 AI 公司说 AI 的频率是否比其他 AI 公司更高？让我们一探究竟。AI AI AI AI AI AIAI AI AI AI AI AIAI AI AI AI AI AI AI AI...

提到的链接：

@triton.jit cannot be built using pip install -e . · Issue #1693 · openai/triton：操作系统：Ubuntu 22.04，pytorch：2.1.0 nightly 与 cuda 12.1，miniconda-3.10 (最新)。当按照文档使用 pip install -e . 编译/安装 triton 2.1.0-dev[head] 时，@triton.jit 没有被构建且...
[TRITON] Sync with triton upstream by Jokeren · Pull Request #19 · Deep-Learning-Profiling-Tools/triton-viz：未找到描述
GitHub - Deep-Learning-Profiling-Tools/triton-viz：通过在 GitHub 上创建账号来为 Deep-Learning-Profiling-Tools/triton-viz 的开发做出贡献。

RSVP to LLM x Law Hackathon @Stanford #3 | Partiful

提到的链接：

Talk to us — LlamaIndex, Data Framework for LLM Applications：如果您对 LlamaIndex 有任何疑问，请联系我们，我们将尽快安排通话。
Astra DB - LlamaIndex：未找到描述
getpass — Portable password input：源代码：Lib/getpass.py 可用性：非 Emscripten，非 WASI。此模块在 WebAssembly 平台 wasm32-emscripten 和 wasm32-wasi 上不起作用或不可用。请参阅 WebAssembly 平台...
llama_index/llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py at main · run-llama/llama_index：LlamaIndex 是适用于您的 LLM 应用的数据框架 - run-llama/llama_index

Elevate Responses: RAG with LlamaIndex & MongoDB

Links mentioned:

databricks/dbrx-base · Hugging Face: no description found
Announcing DBRX: A new standard for efficient open source LLMs: no description found

Links mentioned:

databricks/dbrx-base · Hugging Face: 未找到描述
来自 Rui (@Rui45898440) 的推文: - 论文: https://arxiv.org/abs/2403.17919 - 代码: https://github.com/OptimalScale/LMFlow LISA 在指令遵循任务中优于 LoRA 甚至全参数训练
修复最近导致 7B 模型 OOM 的错误提交 · OptimalScale/LMFlow@603a3f4: 未找到描述
由 Dominic789654 添加 lisa 代码和 lisa 参数 · Pull Request #701 · OptimalScale/LMFlow: 在 finetuner.py 中通过回调函数添加 LISA 训练策略
由 Dominic789654 更新 lisa 代码 · Pull Request #711 · OptimalScale/LMFlow: 未找到描述

提到的链接：

lena | Morten Rieger Hannemose：未找到描述
Redditors Vent and Complain When People Mock Their "AI Art"：一位沮丧的 Reddit 用户表示，他们在 Facebook 群组中分享了几张 AI 艺术图像，随后因发布 AI 艺术而被封禁。
ElevenLabs joins Disney’s accelerator program：华特迪士尼公司宣布 ElevenLabs 入选 2024 年迪士尼加速器计划。
LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys：未找到描述
ai21labs/Jamba-v0.1 · Hugging Face：未找到描述
Thousands of servers hacked in ongoing attack targeting Ray AI framework：研究人员表示，这是首个已知的针对 AI 工作负载的野外攻击。

提到的链接：

The Unreasonable Ineffectiveness of the Deeper Layers：我们对流行的开源预训练 LLM 家族进行了一项简单的层剪枝策略的实证研究，发现在不同的问答基准测试中，性能下降极小，直到...
Implicit Style-Content Separation using B-LoRA：未找到描述
Head-wise Shareable Attention for Large Language Models：Large Language Models (LLMs) 受困于庞大的参数量，这限制了它们在边缘设备上的部署。权重共享是一种很有前景的解决方案，它鼓励权重重用，有效地...
DiT: The Secret Sauce of OpenAI's Sora & Stable Diffusion 3：不要错过这些旨在通过 DomoAI 提升内容创作体验的精彩升级！去试试：discord.gg/sPEqFUTn7n Diffusion Transf...
GitHub - rafacelente/bllama: 1.58-bit LLaMa model：1.58-bit LLaMa 模型。通过在 GitHub 上创建账号来为 rafacelente/bllama 的开发做出贡献。
GitHub - stitionai/devika: Devika is an Agentic AI Software Engineer that can understand high-level human instructions, break them down into steps, research relevant information, and write code to achieve the given objective. Devika aims to be a competitive open-source alternative to Devin by Cognition AI.：Devika 是一个 Agentic AI 软件工程师，能够理解高级人类指令，将其分解为步骤，研究相关信息，并编写代码以实现给定目标...
GitHub - ProGamerGov/VLM-Captioning-Tools: Python scripts to use for captioning images with VLMs：用于使用 VLM 为图像生成字幕的 Python 脚本 - ProGamerGov/VLM-Captioning-Tools

提到的链接：

Sasank Chilamkurthy (@sasank51) 的推文：最近由 @GoogleAI、@Samsung、@intel 和 @Qualcomm 组建的 UXL 基金会引起了巨大轰动。它的成立是为了打破 Nvidia 在 AI 硬件领域的垄断。实现这一目标的主要工具是 SYCL 标准。我构建了...
Childless define global by AshwinRamachandran2002 · Pull Request #3909 · tinygrad/tinygrad：添加了针对 llvm 的修复

Links mentioned:

Google Colaboratory: 未找到描述
tinygrad/docs/adding_new_accelerators.md at master · tinygrad/tinygrad: 你喜欢 PyTorch？你喜欢 micrograd？你一定会爱上 tinygrad！❤️ - tinygrad/tinygrad
tinygrad-notes/shapetracker.md at main · mesozoic-egg/tinygrad-notes: 通过在 GitHub 上创建账号来为 mesozoic-egg/tinygrad-notes 的开发做出贡献。
tinygrad-notes/dotproduct.md at main · mesozoic-egg/tinygrad-notes: 通过在 GitHub 上创建账号来为 mesozoic-egg/tinygrad-notes 的开发做出贡献。

GitHub - langchain-ai/opengpts

Links mentioned:

未找到标题: 未找到描述
">未找到标题: 未找到描述
<a href="https://api.smith.langchain.com";>">未找到标题</a>: 未找到描述
Google Colaboratory: 未找到描述
Pinecone | 🦜️🔗 Langchain: Pinecone 是一个向量
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号，为 langchain-ai/langchain 的开发做出贡献。
rag_supabase | 🦜️🔗 Langchain: 此模板使用 Supabase 执行 RAG。
rag_lantern | 🦜️🔗 Langchain: 此模板使用 Lantern 执行 RAG。
PGVector | 🦜️🔗 Langchain: 为了在通用的 PostgreSQL 数据库中启用向量搜索，LangChain.js 支持使用 pgvector Postgres 扩展。
LangSmith Walkthrough | 🦜️🔗 Langchain: 在 Colab 中打开
LangSmith Walkthrough | 🦜️🔗 Langchain: LangChain 使得原型化 LLM 应用和 Agent 变得容易。然而，将 LLM 应用交付到生产环境可能异常困难。你需要对你的 prompt、chain 以及...进行迭代。
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号，为 langchain-ai/langchain 的开发做出贡献。
MultiVector Retriever | 🦜️🔗 Langchain: 为每个文档存储多个向量通常是有益的。
Quickstart | 🦜️🔗 Langchain: LangChain 拥有许多旨在帮助构建的组件
Quickstart | 🦜️🔗 Langchain: LangChain 拥有许多旨在帮助构建的组件
Redis | 🦜️🔗 Langchain: [Redis 向量
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号，为 langchain-ai/langchain 的开发做出贡献。
Add chat history | 🦜️🔗 Langchain: 在许多问答应用中，我们希望允许用户拥有一个
Quickstart | 🦜️🔗 Langchain: LangChain 拥有许多旨在帮助构建的组件
Issues · langchain-ai/langchain: 🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号，为 langchain-ai/langchain 的开发做出贡献。

提到的链接：

GoatStack.AI - 来自科学论文的精选见解 | Product Hunt：GoatStack.AI 是一个自主 AI Agent，旨在简化追踪 AI/ML 研究最新进展的过程。它会总结最新的研究论文，并通过每日通讯提供个性化的见解...
改造 OpenGPT 以自动化任何事情：欢迎来到自定义 AI 应用的未来！本演示展示了 OpenGPTs（LangChain 的一个开源项目）令人惊叹的灵活性和强大功能。W...
如何使用 LangChain Output Parsers 和 GPT 将 PDF 转换为 JSON：本视频教程演示了如何使用 LangChain 的 Output Parsers 和 GPT 将 PDF 转换为 JSON。像这样的任务过去很复杂，但现在可以...
这是如何使用 LangChain + GPT 将 PDF 转换为 JSON 的方法：像将 PDF 转换为 JSON 这样的任务过去很复杂，但现在只需几分钟即可完成。在这篇文章中，我们将看到 LangChain 和 GPT 如何帮助我们实现这一目标。

如何使用 LangChain Output Parsers 和 GPT 将 PDF 转换为 JSON

提到的链接：

来自 Cody Blakeney (@code_star) 的推文：*纠正一下，不是 open weights。这是一个商业友好许可的模型。请原谅我熬夜了 😅 欢迎下载并亲自尝试。https://huggingface.co/databricks/dbr...
Qwen1.5-MoE：以 1/3 的激活参数匹配 7B 模型性能：GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD 简介自从 Mixtral 引发关注热潮以来，混合专家模型 (MoE) 的研究势头强劲。研究人员和...
来自 Naveen Rao (@NaveenGRao) 的推文：这是我们几年前观察到的一个普遍趋势。我们称之为 Mosaic 定律，即由于硬件/软件/算法的进步，具备特定能力的模型每年所需的成本将减少到 1/4。这...
介绍 Jamba：AI21 开创性的 SSM-Transformer 模型：首次推出首个生产级基于 Mamba 的模型，提供同类最佳的质量和性能。
来自 Michael Poli (@MichaelPoli6) 的推文：📢关于机械架构设计和 Scaling Laws 的新研究。- 我们进行了迄今为止针对超越 Transformer 架构的最大规模 Scaling Laws 分析（500 多个模型，最高达 7B）- 首次...
来自 Ben (e/sqlite) (@andersonbcdefg) 的推文：所以你不能用 DBRX 来改进其他 LLM... 但他们从未说过你不能用它来让它们变得更糟
来自 Cody Blakeney (@code_star) 的推文：它终于来了 🎉🥳 如果你错过了我们，MosaicML/ Databricks 又回来了，推出了名为 DBRX 的新型同类最佳 open weight LLM。一个拥有 132B 总参数和 32B 激活参数、32k 上下文长度的 MoE...
huggingface/transformers 仓库 main 分支下的 qwen2_moe 路径：🤗 Transformers：适用于 Pytorch, TensorFlow 和 JAX 的前沿机器学习。- huggingface/transformers

提到的链接：

来自 Trevor Gale (@Tgale96) 的推文：有些人注意到 megablocks 现在变成了 databricks/megablocks。这周我把项目交给了他们，我想不出比这更好的长期归宿了。我期待着看到它成长...
来自 Liliang Ren (@liliang_ren) 的推文：个人更新：我将于今年夏天加入 Microsoft GenAI 担任高级研究员，专注于下一代既高效又可外推的神经架构。我们正在...

提到的链接:

DBRX Instruct - databricks 的 Hugging Face Space: 未找到描述
databricks/dbrx-instruct · Hugging Face: 未找到描述
Daniel Han (@danielhanchen) 的推文: 看了下 @databricks 的名为 DBRX 的新开源 1320 亿模型！1) 合并注意力 QKV 在 (-8, 8) 之间截断 2) 不是 RMS Layernorm - 现在具有均值移除，与 Llama 不同 3) 4 个激活专家...
GitHub - mlabonne/llm-course: 包含路线图和 Colab notebooks 的大语言模型 (LLMs) 入门课程。: 包含路线图和 Colab notebooks 的大语言模型 (LLMs) 入门课程。 - mlabonne/llm-course

提到的链接:

GitHub - CrispStrobe/llm_translation: 通过创建账号为 CrispStrobe/llm_translation 的开发做出贡献。
cstr/Capybara-de-snippets · Hugging Face 数据集: 未找到描述

Introducing DBRX: A New State-of-the-Art Open LLM | Databricks

RSVP to Coffee + Cowork | Partiful

Jamba：混合架构超越 Mixtral

AI Reddit 回顾

AI Twitter Recap

PART 0: 总结之总结之总结

PART 1: 高层级 Discord 总结

LM Studio Discord

Unsloth AI (Daniel Han) Discord

Nous Research AI Discord

Stability.ai (Stable Diffusion) Discord

Perplexity AI Discord

Latent Space Discord

Eleuther Discord

OpenAI Discord

HuggingFace Discord

OpenInterpreter Discord

Modular (Mojo 🔥) Discord

OpenRouter (Alex Atallah) Discord

CUDA MODE Discord

LlamaIndex Discord

OpenAccess AI Collective (axolotl) Discord

LAION Discord

tinygrad (George Hotz) Discord

LangChain AI Discord

Interconnects (Nathan Lambert) Discord

DiscoResearch Discord

Alignment Lab AI Discord

LLM Perf Enthusiasts AI Discord

Skunkworks AI Discord

第 2 部分：频道详细摘要与链接