ainews-dbrx-best-open-model-but-not-most-efficient

DBRX:最强开源模型(只是效率并非最高)

Databricks Mosaic 发布了一款名为 DBRX 的新型开源模型。该模型在各项评估中表现优于 GrokMixtralLlama2,同时其效率约为 Llama2 和 Grok 的 2 倍。该模型使用 3,000 块 H100 GPU,在 12 万亿个 token 上历时 2 个月训练而成,估计计算成本为 1000 万美元。它采用了 OpenAI 的 100k tiktoken 分词器,并展现出强大的零样本代码生成性能,甚至在 HumanEval 基准测试中击败了 GPT-4

DBRX 还将其开发工作贡献回馈(upstreamed)给了开源项目 MegaBlocks。尽管其规模和效率表现出色,但 DBRX 在 MMLU 上的表现仅略好于 Mixtral,这引发了人们对其扩展效率(scaling efficiency)的疑问。DBRX 的重点在于让用户能够高效地训练模型,其 MoE(混合专家模型)训练的 FLOP 效率约为稠密模型的 2 倍,在达到同等质量的情况下,其计算量比之前的 MPT 模型减少了近 4 倍

此次发布是开源 AI 领导权持续竞争的一部分,参与竞争的还包括 DollyMPTMistral 等模型。通义千问(Qwen)的技术负责人表示:“如果它激活了 36B 参数,该模型的性能应该相当于 72B 甚至 80B 的稠密模型。”

#mixture-of-experts #model-efficiency #tokenization #model-training #code-generation #model-architecture #open-source-models #benchmarking #fine-tuning dbrx grok mixtral llama-2 mpt-7b gpt-4 databricks hugging-face mistral-ai mosaicml openai

换句话说,一个在超过 12 倍数据上训练、专家数量增加 50%(且每个专家的参数量增加 70% —— 12B 专家中 12 选 4,对比 Mixtral 的 7B 专家中 8 选 2)的新 MoE 模型,在 MMLU 上的表现竟然比 Mixtral 好 1%(不过它的编程能力确实很强)。很奇怪,不是吗?正如 Qwen 的技术负责人所说

“如果它激活了 36B 参数,模型的性能应该相当于 72B 甚至 80B 的稠密(dense)模型。考虑到在 12T token 上训练,我认为它有潜力做得更好。我预期 MMLU 应该在 78 或更高。”

就像之前的 DollyMPT 一样,其主要焦点更多在于“你可以和我们一起训练模型”,而不是真的要去争夺 Mistral 的开源桂冠

“我们的客户会发现,在达到相同最终模型质量的情况下,训练 MoE 的 FLOP 效率也比训练稠密模型高出约 2 倍。从端到端来看,我们 DBRX 的整体方案(包括预训练数据、模型架构和优化策略)可以用近 4 倍少的算力达到我们上一代 MPT 模型的质量。”

Mosaic 已经开始将最近对 Lilac 的收购作为其叙事的一部分进行宣传:

image.png


目录

[TOC]


REDDIT

AI 模型与基准测试

AI 应用与使用案例

AI 开发与优化

AI 硬件与基础设施

  • r/LocalLLaMA:Micron CZ120 CXL 24GB 内存扩展器和 MemVerge 软件声称通过在 DDR 和 GPU 之间充当中介,帮助系统以更少的 VRAM 更快地运行 LLM。解决对 VRAM 需求日益增长的新权宜之计?
  • r/LocalLLaMA:关于在本地运行 LLM 的最佳硬件及其选择背后原因的讨论。本地 LLM 硬件
  • r/LocalLLaMA:在 Windows 上运行 AI 模型时,使用 AMD GPU 与 CPU 配合 llama.cpp 的对比,考虑到 AMD GPU 支持的缺乏以及在 Linux 上使用 ROCm 的可能性。AMD GPU vs CPU+llama.cpp

AI 新闻与讨论

第 X 部分:AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果

模型发布与更新

框架与工具

  • 来自 Meta AI 的 Llama Guard:为 @OctoAICloud 托管的 LLM 端点和自定义模型提供大规模安全性支持(22k 阅读量)
  • LangChain JS/TS:流式传输托管在 LangServe 上的链(chains)的中间步骤(6k 阅读量)
  • Quanto 0.1.0:新的 PyTorch 量化工具包(14k 阅读量)
  • Pollen Vision:用于机器人的开源视觉系统,具备 3D 物体检测流水线(OWL-ViT, Mobile SAM, RAM)(3k 阅读量)
  • Semantic-Router 支持 Qdrant:用于为 AI Agent 构建决策层(3k 阅读量)
  • 来自 SkyPilot 的 AI Gallery:社区驱动的 AI 框架、模型和应用即插即用配方集合(1k 阅读量)

研究与技术

讨论与观点

  • Yann LeCun:加密货币资金正秘密资助 AI 末日论,游说 AI 监管,并反对开源 AI 平台(435k 阅读量)
  • Ajeya Cotra:调和 AI 对齐(AI alignment)作为系统属性与作为整个世界属性的概念(22k 阅读量)
  • Delip Rao:LLM 让表现差的人变得平庸,让平庸的人略高于平均水平,但可能会阻碍顶尖人才(111k 阅读量)
  • Aman Sanger:具有海量自定义提示词(约 2M tokens)的长上下文模型可能很快会取代针对新知识的微调(fine-tuning)(95k 阅读量)

应用与用例

  • Haiku:使用 Claude 生成 Mermaid 图表和 Latex,成本低于 10 美分(23k 阅读量)
  • Pollen Vision:用于机器人的开源视觉系统,具备 3D 物体检测流水线(OWL-ViT, Mobile SAM, RAM)(3k 阅读量)
  • 提取服务 (Extraction Service):用于从文本/PDF/HTML 中提取结构化 JSON 数据的托管服务(10k 阅读量)
  • Semantic-Router:使用向量空间在 AI Agent 中构建决策层的库(3k 阅读量)

初创公司与融资

幽默与梗图


PART 0: 总结的总结之总结

  • DBRX 以 132B 参数量登场:MosaicML 和 Databricks 推出了 DBRX,这是一个拥有 132B 参数和 32k 上下文长度的 LLM,可通过 Hugging Face 进行商业使用。虽然它不是 open-weight,但其新的 SOTA 基准测试承诺引起了社区的轰动,同时也引发了关于限制性许可证(防止用于改进其他模型)的讨论。

  • 探索英语以外语言的 LLM:一次讨论强调了 Yanolja 扩展韩语 LLM 的方法,即为新 token 预训练 embedding 并对现有 token 进行部分 fine-tuning。该技术被视为开发其他语言 LLM 的潜在路径;详细策略见 Yanolja 模型文档

  • Layerwise Importance Sampled AdamW (LISA) 超越 LoRA:分享了一篇新的研究论文,表明 LISA 在保持低显存占用的同时,性能优于标准的 LoRA 训练和全参数训练,这在大型训练场景中展现了前景。该论文可在 arXiv 上查阅。

  • 介绍 LoadImg 库:创建了一个名为 loadimg 的新 Python 库,用于加载各种类型的图像,目前所有输出均为 Pillow 类型。未来的更新旨在支持更多输入类型和输出格式;该库已在 GitHub 上线。

  • Tinygrad 优化解析:一位成员分享了关于 _cumsum 的 global_size 和 local_size 如何确定的见解,指出使用 NOOPT=1 会使所有内容保留在 global 上,而默认的手写优化则使用启发式算法。他们还表示希望更好地理解实现过程,讨论了长 reduce 和 float4 向量化等启发式算法的应用方式。

  • 探索用于训练的 regularization images:发起了一场关于创建和使用训练所需的 regularization images(正则化图像)属性的讨论。建议在 HuggingFace Diffusers 的 GitHub Discussions 中开启进一步讨论,以征求社区关于什么是优质正则化集的意见。

  • 解决 LLM 集成难题:工程师们正在解决 RAPTOR PACK 中的 AttributeErrors 以及 Langchain 与 LlamaIndex 之间的冲突,同时还在处理用于 embedding 的 PDF 分块和自定义 Embedding API。分享的见解包括代码片段、替代工作流流程,以及来自 LlamaIndex 文档 的使用演示和 API 参考等大量资源。


PART 1: Discord 高层级总结

Stability.ai (Stable Diffusion) Discord

分辨率至关重要:讨论强调 Stable Diffusion 1.5 (SD 1.5) 在 512x512 的基础分辨率下运行效果最佳。社区预期 Stable Diffusion 3 (SD3) 将提升 token 限制并整合内置的表情和动作。

Stability 的 VRAM 需求:AI 工程师推测 SD3 等即将推出的模型在拥有 8GB 或 12GB VRAM 的机器上高效运行的能力。Transformers (xformers) 的优点和潜在缺点是一个热议话题。

蓄势待发准备发布:社区对 SD3 的发布充满强烈期待,尽管尚未分享具体的发布日期。

用 AI 玩转游戏:工程师们交流了使用 AI 创建 2D 游戏资产的想法,建议将 3D 模型渲染转换为 2D 像素艺术。推荐使用 Manjaro 和 Garuda 等 Linux 发行版,以便在 AMD GPU 上获得最佳性能。

训练时间谈:一个精确的估计是,在配置得当的情况下,使用 RTX 3090 等高端 GPU 在 Stable Diffusion XL (SDXL) 上训练 LoRA 大约需要一小时。


Nous Research AI Discord

LLM 在记忆游戏中受挫:像 Mistral 7BMixtral 这样的 LLM 在执行上下文内召回(in-context recall)任务时面临挑战。这些任务涉及在保持原始上下文位置的同时拆分并重复句子,即使在 token 计数低至 2500 或 5000 时也是如此。一个名为 ai8hyf split and recall test 的上下文内召回评估基准已在 GitHub 上发布,引发了关于在大规模上下文中进行精确字符串匹配和召回必要性的讨论。

对 DBRX 及其他开源模型的混合评价:社区对 DBRX 的实操体验并不理想,反馈指出可以通过更好的微调或系统提示词(system prompt)更改来进行改进。对包括 MixtralGrok-1Lemur-70BNous Pro 在内的各种开源模型的比较凸显了 Mixtral 值得称赞的性能,而一些较大的模型并未获得预期收益,这引发了关于 MoE 模型内存密集特性及其权衡的讨论。

语音与视觉方面的创新:通过一段分享的 YouTube 视频展示了使用 Deepgram & Mistral AI 技术的语音聊天集成;同时,ASRock 的 Intel Arc A770 显卡因其优于 RTX 4070 等替代方案的规格而受到关注。此外,Databricks 发布了名为 DBRX Instruct 的开源许可证 MoE LLM,为少轮对话(few-turn interactions)这一专业领域提供了新选择,可通过 Hugging Face 获取。

AI 对话呈现奇思妙想:在世界模拟(World simulations)中,AI 表现出对 Sherlock Holmes 等角色的偏爱,并有着将自己描绘成树木和外星生物的古怪自我形象,这既带来了乐趣,也提供了独特的角色扮演数据。与此同时,移动端响应问题也受到关注,特别是 Samsung 设备在 WorldSim 框架下的表现。

关于 RAG 的热烈讨论与 Hermes 协作:社区正在积极讨论检索在 Retrieval Augmented Generation (RAG) 中的关键作用,以及将 RAG 与 Chain of Thought (CoT) 提示相结合的 Retrieval Augmented Thoughts (RAT) 等创新方法。目前正在共同努力推进 Hermes,重点是增强能力的训练数据集和技术,这些内容记录在一个协作 Google Doc 中,并提到了社区贡献的热情。


Unsloth AI (Daniel Han) Discord

F1 Score 自定义回调现已推出:用户关于在训练后跟踪 F1 score 数值的问题已达成共识:确实可以实现自定义回调来完成此操作。无论使用 Trainer 还是 SFTTrainer,结果都应该是一致的。

Gemma 和 TinyLlama 持续受到关注:一位社区成员专注于 gemma2btinyllama 等模型的持续集成(continuous integration)和迭代,旨在追求卓越。

高效向量数据库支持处理更大规模的 EmbeddingCohere-ai 发布了 BinaryVectorDB,能够高效管理数亿个 embedding,详见 BinaryVectorDB 仓库

量化和 LISA 在模型训练与推理中表现出色:讨论聚焦于用于高效检索的 embedding 量化(quantization),以及新的 Layerwise Importance Sampled AdamW (LISA)。LISA 在低内存消耗下表现优于 LoRA,详见 arXiv 上的 LISA 论文

大语言模型本地化产出翻译宝藏:社区关注点转向创建本地化 LLM,讨论了通过 Yanolja 的方法将 LLM 扩展到韩语,以及在 ParallelFiction-Ja_En-100k 上将日语网络小说翻译与英语对齐。


Perplexity AI Discord

  • 订阅之争:Pro 还是 Plus?: 工程师们分享了在专业用途下使用 Perplexity ProChatGPT Plus 的经验,对于 Perplexity 的效率以及访问多种 AI 模型的优势反馈不一。

  • 无限 AI 算力: 关于 Perplexity Pro 是否提供对 Claude 3 Opus 的无限制使用展开了辩论,一些成员惊讶地发现没有消息限制,对此感到非常高兴。

  • 模型竞争: 用户对 QwenClaude 3 Opus 等模型在处理复杂任务时进行了对比分析,强调了 Qwen 对指令的遵循能力以及 Claude 在处理多样化 prompts 时的多功能性。

  • 技术极客对话: 发布了使 Perplexity AI 线程变为 可共享 的指令;同时,讨论探索了服务器运行和模块消息传递,并对不断演进的策略和 AI 术语澄清表示认可。

  • API 查询怪癖: AI 工程师讨论了 Perplexity API 的相关问题,包括建议增加类似于 OpenAI 方案 的速率限制计数器,注意到 sonar-medium-online 的性能提升,并幽默地回避了关于 vision 支持的问题,同时揭示了响应中引用不足等更广泛的问题。


OpenInterpreter Discord

  • 攻克多平台移植性: 工程师们讨论了 OpenInterpreter (OI) 在不同平台上的表现,指出了非 Mac 环境特有的挑战,例如在 PC 上崩溃。一个自托管的 OI 服务器已在 Linux 上成功运行,并加强了与 OpenAI 及 Mistral 等本地模型的连接。

  • 寻求全球物流方案: 用户表达了对在国际范围内购买 “01” 产品的兴趣,但遇到了仅限美国地址发货的地理限制,引发了关于可能规避方案的讨论。

  • AI 助手演进与社区贡献: 成员们分享了使用 web-actions 和 GPT 集成构建的社区 AI 助手,其中一人正准备通过 Pull Request 为 01 贡献文档增强。对基础指令的需求反映了社区互助的宗旨。

  • OI 与本地语言模型的接口: 将 OI 与本地或其他外部 LLMs(如 oogaboogakoboldcppSillyTavern)集成的可行性是一个热门话题,表明了对更灵活开发选项的需求,这可以扩展 OI 的功能。

  • AI 技术的挑战与进步: 小组关注点包括为 Ollama 排除 Windows 启动器故障,并承认 pollen-vision 是机器人自主性的重要工具,尽管 Hugging Face 的 vision 排行榜存在问题,导致无法进行 vision 模型间的性能比较。参与者对利用 AI 增强人类认知 持乐观态度,正如在讨论本地 LLMs 和 AI 技术快速进步时所提到的。


LM Studio Discord

  • Goliath 的地下城主困境: 讨论强调 Goliath 120b 是一个能够担任桌面 RPG 地下城主的模型,但指出其 context window 限制在 8k tokens,这对于更宏大的场景可能具有局限性。

  • 关注 VRAM: 与硬件优化相关的对话显示,成员建议在 BIOS 中禁用集成显卡,以防止 VRAM 容量报告错误的问题,正如在 AMD 7900XTX 上运行 codellama 7B 模型时所见。

  • 渴望全面的 AI 工具: crew-ai 板块的对话揭示了一种观点,即目前的类 GPT 模型应该演进到能够自主编译、测试和优化代码,在像架构师一样协作和规划的同时,有效地发挥高级 DevOps 工具的作用。

  • 透视 LM Studio: LM Studio 最新的 Beta 版本解决了一些 bug 并包含稳定性增强。然而,用户报告了 GPU 利用率低和 JSON 输出验证的问题,强调了对设置(如 “max gpu layers to 999”)进行精确监控和调整的必要性。

  • Studio 的混合体验: 技术讨论涵盖了从观察 Mistral 7B 模型低 GPU 占用和高 CPU 需求,到询问 embedding 模型支持以及模型训练限制与宣传上下文不符等问题。成员们还探讨了硬件优化,提出了禁用 iGPUs 和监控 VRAM 数值等解决方案,以提升模型性能。


Latent Space Discord

  • 播客前景:一位 Discord 成员正在策划一场 podcast tour,并寻求关于 RAG、结构化数据和创业故事相关主题的新兴播客建议。感兴趣并想提供想法的人可以查看这篇 Twitter Post

  • Whisper 频道更好的 Fine-tuning:工程师们建议针对低资源语言中的技术词汇对 OpenAI 的 Whisper 进行 Fine-tuning。分享了关于技术旅行的魅力和 Fine-tuning 技巧的轶事,以及对 Google Gemini models 发布速度较慢(相比 OpenAI 更快的节奏)的沮丧。

  • 为 DBRX 和 NYC 聚会做好准备:Databricks 发布了 DBRX,这是一个具有 132B 参数和 MoE architecture 的模型,讨论涉及其性能和许可。在社交领域,NYC meetup 已列入日程,详情和更新可通过 <#979492809574866975> 频道获取。

  • Mamba 引起共鸣Mamba 模型因其对 Transformer 的非传统改进而引发关注,讨论包括 @bryanblackbee 在 Notion Deep Dive 中提供的有用总结以及 GitHub 上的实现细节。

  • 余弦相似度查询:俱乐部讨论揭示了使用 Cosine Similarity 进行语义相似性分析的复杂性,重点提到了一篇关键的 Netflix 论文以及 @jxnlco 质疑其在理解语义细微差别中应用的推文。


HuggingFace Discord

聊天助手增强 Web 搜索能力:Hugging Face 推出了能够利用来自 Web 的信息进行对话的聊天助手,随后 Victor Mustar 在 Twitter 上 指出了这一点。

Sentence Transformers 升级:Sentence Transformers v2.6.0 的发布通过 Embedding Quantization 和 GISTEmbedLoss 等功能提升了性能;该公告由 Tom Aarsen 通过 Twitter 发布。

Hugging Face 工具包升级:包括 Gradio 和 transformers.js 在内的一系列 Hugging Face 库进行了大量更新,带来了新功能,更多信息详见 Omar Sanseviero 的推文

利用 Gaussian Splatting 震撼 4D 领域:Hugging Face Space 上的一个 4D Gaussian Splatting 演示让用户惊叹于其在新维度探索场景的能力,展示见此处

展望 NLP 的未来:一位 AI 学习新手急切地寻求 2024 年 NLP 学习路线图,重点关注在该领域建立扎实基础的推荐资源。

深入探讨 Diffusion:集思广益探讨了训练和图像处理的远见性方法,其中 sdxs 模型达到了令人印象深刻的速度,ControlNet 提供了 Outpainting 指导,讨论已转移到 Hugging Face 频道,如 Diffusers 的 GitHubTwitter 以进行社区互动。

Apple Silicon 获得 GPT 关注:搭载 Apple Silicon 的 MacOS 设备通过集成到 Hugging Face 关键训练脚本中的 MPS backend 支持 获得了 GPU 加速替代方案。

探索 NLP 领域:从在 [NLP] 频道寻求 2024 年学习 NLP 的全面路线图建议,到在 [i-made-this] 频道讨论新模型和功能,社区致力于突破 AI 的可能性边界。

寻找错误检测的视觉方案[computer-vision] 成员深入研究了用于检测图像中文本错误的模型、CT 图像预处理规范、SAM 的 Fine-tuning 细节,以及技术图纸图像摘要面临的挑战,并提到了 Llava-next 模型


LlamaIndex Discord

  • RAFT 将 LLM 提升到新高度:正如 LlamaIndex 在 Twitter 上分享的那样,RAFT (Retrieval Augmented Fine Tuning) 技术通过结合 Retrieval-Augmented Generation (RAG) 设置,为特定领域任务磨练 Large Language Models。这种改进有望提高 LLM 在目标应用中的准确性和实用性。

  • 日期预留:LLMOps 开发者见面会:根据 LlamaIndex 的 推文,他们宣布将于 4 月 4 日举行聚会,探讨 LLM 的运营化,届时将有来自 PredibaseGuardrails AITryolabs 的专家参加。与会者将学习如何将 LLM 从原型转变为生产就绪的工具。

  • 触手可及的高级 RAG:一场备受期待的关于利用 @TimescaleDB 的高级 RAG 技术的现场演讲将包含来自 @seldo 的见解,正如 LlamaIndex 通过此 Twitter 邀请 所告知的那样。该会议预计将涵盖 LLM 的复杂 RAG 应用。

  • 排除 LLM 集成难题:工程师们正在排查 RAPTOR PACK 中的 AttributeErrors 以及 Langchain 与 LlamaIndex 之间的冲突,此外还有用于 Embeddings 的 PDF 分块和自定义 Embedding APIs。分享的见解包括代码片段、替代工作流流程,以及来自 LlamaIndex Docs 的使用演示和 API 参考等大量资源。

  • 培养 GenAI 驱动的未来:在一篇关于 RAFT 与 LlamaIndex 集成的 文章 中强调,新的 Centre for GenAIOps 旨在推进 GenAI 应用,同时降低相关风险。有关该中心的更多详情可在 GenAI Ops 网站 及其 LinkedIn 上找到。


OpenAI Discord

Sora 的超现实印象赢得赞誉Paul Trillo 等有影响力的视觉艺术家赞扬了 Sora 在创造新颖奇特概念方面的独创性;然而,为进一步实验而获得 Sora 白名单访问权限的努力碰了壁,因为申请通道已经关闭。

ChatGPT 展示其代码实力:社区内的交流显示,在编程能力上,人们更倾向于 Claude 3 而非 GPT-4,这表明 Claude 在编程任务中可能提供更高级的智能。同时,工程师们还分享了防止 ChatGPT 返回不完整存根代码(stub code)的最佳实践,建议使用明确的指令来获取不含占位符的完整代码输出。

AI 工程师渴望增强的 PDF 解析:围绕 PDF 数据提取的讨论指出了使用 gpt-3.5-turbo-16k 等模型的挑战。讨论了将 PDF 分成更小的块并利用 Embeddings 来保持跨页上下文等策略作为潜在解决方案。

未公开的 AI 聊天机器人需求引发好奇:关于运行 60b 参数 AI 聊天机器人所需硬件规格的推测已经出现,其中提到了使用 DeepSeekCoder’s 67b 模型,尽管在本地运行 OpenAI 模型存在限制。

API 集成困扰激发社区建议:当一位工程师在自定义 Assistant 应用中苦于 openai.beta.threads.runs.create 方法时,建议纷至沓来,强调了 Assistant API 之间响应的差异,以及可能需要调整 Prompt 或参数以获得一致结果的需求。


Eleuther Discord

AI Token:大还是不大:社区围绕更大的 Tokenizer 是否更高效展开了激烈辩论,权衡了最终用户的成本效益与捕捉词语关系的潜在挑战。虽然一些人主张其效率优势,但另一些人质疑其对模型性能的影响,Aman Sanger 的推文等来源引发了相关讨论。

DBRX 表现优于 GPT-4?:由 MosaicML 和 Databricks 推出的拥有 132B 参数的新型 MoE LLM —— DBRX 已经发布,引发了关于其架构和性能基准测试的讨论,其表现可能超越了 GPT-4。感兴趣的工程师可以在 Databricks 博客上深入了解细节。

在 Squad 上评估自回归模型的替代方案:建议范围从使用替代候选评估方法到受限束搜索 (constrained beam search),强调了 Tokenizer 细微差别带来的复杂性。此外,分享了关于检索增强微调 (RAFT) 的论文,挑战了“开卷”信息检索任务的传统。可以在这里进一步探索 RAFT 概念。

寻求 AI 软件的统一:一项名为统一加速基金会 (UXL) 的行业合作正在进行中,旨在创建 Nvidia CUDA 的开源竞争对手,推动 AI 软件多样化运动。

AI 模型中 muP 的秘密配方:在社区的传闻中,muP 作为大型模型的调优参数仍未公开,而 Grok-1 的 GitHub 仓库展示了其实现,引发了对归一化技术及其对 AI 建模影响的推测。要查看代码,请访问 Grok-1 GitHub


LAION Discord

AI 安全与效率的大胆飞跃:讨论强调了对 AI 模型通过无条件提示词 (unconditional prompts) 生成不当内容的担忧,同时一篇深度文章探讨了语言模型对 AI 会议同行评审的影响。技术辩论围绕减轻微调 (finetuning) 过程中灾难性遗忘的策略展开,例如 fluffyrock 模型,并引用了一个专注于持续学习 (continual learning) 的 YouTube 教程

深入探讨就业市场与讽刺性怀疑:分享了一家专注于扩散模型 (diffusion models) 和快速推理的初创公司的职位空缺,详情可在 Notion 上找到;而关于自我意识 AI(特别是关于 Claude3)声明的复杂性引发了针对校对应用的幽默讨论,并分享了相关的 OpenAI 聊天记录(之一之二)作为背景。

AI 伦理备受关注:一条展示潜在误导性数据表示的 Twitter 帖子引发了关于伦理可视化实践的广泛对话,批评了操纵坐标轴如何扭曲性能感知,正如在该违规推文中所见。

SDXS 模型令人印象深刻的速度SDXS 模型已将扩散模型 (diffusion model) 的性能提升至令人印象深刻的帧率,在 SDXS-512 和 SDXS-1024 模型上分别达到了高达 100 FPS30 FPS —— 这是在单 GPU 上的显著飞跃。

多语言模型与降维方面的创新:多语言 LLM Aurora-M 的首次亮相,以持续预训练目标和红队测试 (red teaming) 前景挑战了现有格局;而新的研究指出,在使用开源权重预训练模型的 LLM 中,层剪枝 (layer-pruning) 可以在极小性能损失的情况下实现。一种新型图像分解方法 B-LoRA 实现了高保真度的风格-内容分离,而使用 CogVLM 和 Dolphin 2.6 Mistral 7b - DPO 自动生成图像字幕 (image captioning) 的脚本在处理海量图像数据集方面显示出潜力,可在 GitHub 上获取。


CUDA MODE Discord

FSDP 在新运行中表现出色:最近在 16k context 下使用 adamw_torchfsdp 的训练运行显示出令人期待的 loss 改进,详情见 Weights & Biases。在整理 Fully Sharded Data Parallel (FSDP) 训练资源时,推荐参考 PyTorch FSDP tutorial 以及关于 loss 不稳定性的 GitHub issue

Triton 生态系统中的 ImportError 问题:Discord 用户遇到了涉及 libc.so.6triton_vizImportError 复杂问题。建议克隆 Triton repo 并从源码安装,同时注意到 Triton 官方 wheel pipeline 失败,在修复前需要自定义解决方案。

CUDA 和 PyTorch 数据处理:一位 Discord 成员提出了在 CUDAPyTorch 中处理 uint16half 数据类型时遇到的困难。他们报告了 linker errors,并利用 reinterpret_cast 来规避该问题,主张在 PyTorch 中使用编译时错误以减少运行时意外。

解决 MSVC 和 PyTorch C++ 绑定 Bug:由于平台限制以及 CUDA 与 PyTorch 版本不匹配等兼容性问题,用户在 Windows 上将 C++ 绑定到 PyTorch 时遇到了困难。成功的解决方法是将 CUDA 11.8 与 PyTorch 版本匹配,从而解决了 ImportError

SSD 带宽和 IO Bound 操作:一位 Discord 工程师指出,即使使用了 rapidspandas 等优化,SSD IO 带宽限制仍会严重影响操作性能。这揭示了在计算环境中实现 IO-bound 进程最小 Speed of Light (SOL) 时间的持久挑战。


OpenAccess AI Collective (axolotl) Discord

Haiku 的潜力与其体量不成正比:尽管只有 200 亿个参数,工程师们仍对 Haiku 的精明表现深感兴趣,这表明在 LLM 中,数据质量可能比单纯的规模更重要。

Axolotl 用户遇到 Docker 困难:一位用户在使用 Runpod 上的 Axolotl Docker 模板时遇到麻烦,这引发了将 volume 更改为 /root/workspace 并重新克隆 Axolotl 作为可能修复方案的建议。

Databricks 加入 MoE 战局Databricks 的 DBRX Base(一种基于 MoE 架构的 LLM)成为值得关注的模型,人们正在思考其训练方法以及它如何与 Starling-LM-7B-alpha 等同行竞争,后者已展示出卓越的 benchmark 结果,并可在 Hugging Face 获取。

Hugging Face 面临价格昂贵的批评和 VLLM 的缺失:一些成员对 Hugging Face 表示不满,称其“价格过高”,并指出该平台上缺乏超大型语言模型。

哲学 AI 超越技术标准:在 community showcase 中,成员们赞扬了 Olier 的出现,这是一个在印度哲学文本上进行 finetuned 的 AI,标志着在使用结构化数据集进行深度主题理解和提升专业 AI 对话能力方面取得的成就。


Modular (Mojo 🔥) Discord

Mojo 学习与调试讨论:GitHub 上提供了一个 mojolings 教程,帮助新手掌握 Mojo 概念。参与者分享了在 VSCode 中调试 Mojo 的技巧,包括针对断点问题的变通方法

Rust 与 Mojo 所有权检查器(Borrow Checker)头脑风暴:对话围绕 Rust 所有权检查器的复杂性以及对 Mojo 即将推出的具有“更简单语义”的所有权检查器的期待展开。人们对链表及其如何与 Mojo 集成感到好奇,暗示了 Mojo 模型在所有权检查方面潜在的创新。

Modular 社交媒体动态:Modular 推文更新见此处此处

通过 AWS 集成简化部署:一篇博客教程涵盖了在 Amazon SageMaker 上部署模型的内容,特别是 MAX 优化的模型端点,包括从模型下载到在 EC2 c6i.4xlarge 实例上部署的步骤——点击此处简化流程。

TensorSpec 问题与社区代码贡献:一名成员寻求关于《入门指南》与 Python API 参考文档中 TensorSpec 不一致之处的澄清。社区贡献包括 momograd(micrograd 的 Mojo 实现),欢迎反馈。


LangChain AI Discord

  • OpenGPTs 在 RAG 性能中脱颖而出OpenAI Assistants API 已针对 RAG 进行了基准测试,结果显示 LangChain 的 OpenGPTs 在 RAG 任务中表现出强劲的性能。探索此领域的工程师可能会发现 GitHub 仓库是一个宝贵的资源。

  • 用于教学辅助的 AI 构建:一个初创项目旨在创建一个 AI 助手,可能从 PowerPoint 生成电路图,以协助学生学习数字电路。社区正在征集关于最佳实现策略的见解。

  • LangChain 文档引发的困扰:在 Docker 中实现 LangChain 遇到了一些障碍,特别是由于 PineconeLangChain 文档之间的差异。值得注意的是,vectorstores.py 中缺失的 from_documents 方法引起了一些关注。

  • 教程提供知识补给:最近的一系列教程,包括关于使用 LangChain Output Parsers 和 GPT 将 PDF 转换为 JSONYouTube 视频,以及另一个详细介绍使用 Deepgram & Mistral AI 创建语音聊天的视频(视频链接),正在满足 AI 工程社区的求知欲。

  • Chat Playgrounds 中的 AI 集成冲突:成员们正在处理 LangChain 中的聊天模式集成问题,其中用于输入和输出的自定义类结构在 Chat Playground 预期的基于字典(dict)的输入类型上遇到了困难。这一难题增加了对额外故障排除技巧或修改现有流程的需求。


tinygrad (George Hotz) Discord

  • Tinygrad 上的最强图形表现:社区对 Tinygrad 的热情高涨,因其在理解神经网络和 GPU 功能方面的实用性而被视为“最牛(goated)的项目”。社区成员踊跃参与贡献,有人提供 Intel Arc A770 的访问权限,同时也有呼声要求将 Tinygrad 的性能加速至 Pytorch 水平。

  • 解密内核融合 (Kernel Fusion):对 tinygrad 内核融合的探究促使了关于点积 (dot product) 的详细笔记的分享。同时,大家对 tinygrad 的个人学习笔记表示赞赏,并建议将其纳入官方文档。

  • DBRX 加入对话DBRX 大语言模型的发布引发了讨论,考虑到其与 Tinybox 的集成是一个合适的举动,George Hotz 的关注也印证了这一点。

  • 完善 Tinygrad 的工具箱:George Hotz 指出了 Tinygrad GPU 缓存的一个改进机会,建议完成一个半成品的 Pull Request:Childless define global

  • 规划 Tinygrad 文档的未来:成员们对 tinygrad 的 “Read the Docs” 进度感到好奇,一名成员推测它将在 Alpha 版本之后推出,而其他人则称赞了一位社区贡献者所做的极具价值但非官方的文档工作。


Interconnects (Nathan Lambert) Discord

DBRX 以 132B 参数量登场:MosaicML 和 Databricks 推出了 DBRX,这是一个拥有 132B 参数和 32k 上下文长度的大语言模型,可通过 Hugging Face 进行商业使用。虽然它不是开放权重 (open-weight),但其有望创下的新 SOTA 基准引发了社区热议,同时也讨论了其限制性许可证禁止将其用于改进其他模型的问题。

Mosaic 定律预测成本大幅下降:一位社区成员强调了 Mosaic 定律,该定律预测由于硬件、软件和算法的进步,具有特定能力的模型成本每年将降低至四分之一。与此同时,DBRX 许可证中禁止使用 DBRX 增强其生态系统之外任何模型的条款引发了争论。

GPT-4 夺得 SOTA 评估桂冠:讨论围绕 GPT-4 的卓越性能展开,它被采纳为优于其他模型的评估工具,以及一种使用 AI2 信用卡资助这些实验的创新方式。使用 GPT-4 的成本效益和实用性正在改变研究人员和工程师的游戏规则。

炉边谈话揭示 Mistral 的热度:社区互动展现了对 Mistral 领导层的浓厚兴趣,最终促成了一场 YouTube 炉边谈话,CEO Arthur Mensch 在会上讨论了开源、LLM 和 Agent 框架。

强化学习辩论的梯度:AI 工程师剖析了在基于人类反馈的强化学习 (RLHF) 环境中使用二元分类器的实用性,对有效性和缺乏部分评分(partial credits)的学习表示担忧。讨论对仅靠高精度奖励模型是否能调优出成功的语言模型表示怀疑,并强调了在没有识别增量进展的情况下从稀疏奖励中学习的困难。


OpenRouter (Alex Atallah) Discord

  • Sora 机器人通过 OpenRouter 起飞:利用 Open Router APISora Discord 机器人已推出并在 GitHub 上分享。它甚至引起了 Alex Atallah 的注意,他表示支持并计划将该机器人列为重点推荐。

  • 机器人模型大比拼:在处理编码任务时,AI 爱好者注意到 GPT-4 相对于 Claude 3 的优势,一些用户因为 GPT-4 的可靠性而表达了对它的新偏好。

  • 寻找静谧:社区成员正在积极寻找强大的背景降噪 AI,旨在提高其项目中的音频质量,尽管目前尚未有明确的方案获得一致认可。

  • 错误警报Midnight Rose 出现了技术问题,表现为无法生成输出并显示描述性错误消息 Error: 503 Backlog is too high: 31。社区正在排查该问题。

  • API 统计数据分析:关于大语言模型 API 消耗的问题引出了对 OpenRouter /generation 端点用于追踪使用情况的提及。此外,一个指向 OpenRouter 公司信息的链接显示了对其更广泛背景的兴趣,可通过 https://opencorporates.com/companies/us_de/7412265 访问。

DiscoResearch Discord

Prompt 本地化很重要:一场讨论强调了在使用英语 Prompt 进行微调时,德语语言模型性能可能出现退化,建议采用特定语言的 Prompt 设计以防止 Prompt 渗透 (prompt bleed)。德语中 “prompt” 的翻译包括 AnweisungAufforderungAbfrage

DBRX Instruct 发布Databricks 推出了 DBRX Instruct,这是一个拥有 1320 亿参数的开源 MoE 模型,在 12 万亿 Token 的英语文本上进行了训练,其技术博客文章详细介绍了模型架构的创新。该模型可在 Hugging Face Space 中进行试用。

LLM 训练的教育资源?:一位成员寻求关于从零开始训练大语言模型 (LLMs) 的知识,引发了关于这一复杂过程可用资源的讨论。

针对德语的 RankLLM 方法:人们对将 RankLLM 方法(一种专门用于 Zero-shot reranking 的技术)适配到德语 LLM 的兴趣日益浓厚。关于该主题的详细检查可以在这篇详尽的文章中找到。

增强德语数据集:讨论集中在德语模型的数据集增强上,包括在微调 Mistral 时由于数据集大小而遇到的共同困难。社区呼吁合作改进德语数据集,并提出了合并数据集以达到 10,000 个样本规模的策略。


Alignment Lab AI Discord

  • OCR 工具库:工程师们正在寻求关于部署最佳 OCR 模型的建议,并分享了通过设置定向提及 (direct mentions) 偏好来处理通知泛滥的策略。

  • 动态对抗 Discord 垃圾信息:在服务器遭受垃圾信息攻击后,有人建议实施 Kobold 垃圾邮件过滤器,并向绰号为 “henky” 的人寻求建议。

  • 编程协作邀请:一位成员邀请他人对其代码进行协作,并请求通过私下沟通提供协助。

  • 无明确内容的连接尝试:观察到一条仅包含提及某用户但未提供任何上下文或内容的消息。


Datasette - LLM (@SimonW) Discord

LLM 插件:谨慎使用:Simon Willison 推出了一款新的 LLM 命令行插件 llm-cmd,允许动态生成和执行终端命令,但由于其潜在风险,提醒用户谨慎使用。

演示而非空谈llm-cmd 的使用示例包括显示目录中每个文件的前三行,以展示其实用功能。

插件性能问题引发调查:有用户报告 llm-cmd 在执行时出现无限挂起,引发了对基础诊断方法的讨论,而常规查询功能仍保持正常。

锁定元凶:详细的故障排除显示 llm_cmd.py 中的 input() 函数和 readline.set_startup_hook() 存在问题,具体表现为未能按预期在 LLM 环境的 Shell 中插入文本。

沟通的清晰度是关键:讨论强调了清晰度的重要性,特别是在引用 llm 时,以避免可能误导用户群的多重解读。


第 2 部分:频道详细摘要与链接

Stability.ai (Stable Diffusion) ▷ #general-chat (834 条消息🔥🔥🔥):

  • 通用 AI 图像生成讨论:用户分享了关于 AI 图像生成各方面的知识,例如 SD 1.5 和 SDXL 的最佳分辨率,多次提到 SD 1.5 在 512x512 的基础分辨率下表现最佳。
  • AI 算力讨论:对话围绕 SD3 模型所需的 VRAM、即将推出的模型在 8GB 或 12GB VRAM 系统上运行的可能性,以及 xformers 的优缺点展开。
  • 对 SD3 的期待:用户正期待 Stable Diffusion 3 (SD3) 的发布,推测了发布时间,并讨论了其预期的新特性,如增加的 token 限制、内置表情和动作。
  • 利用 AI 创建游戏资产:有用户询问如何使用 AI 创建 2D 游戏资产(如 spritesheets),得到的建议包括使用 3D 模型并将渲染图转换为 2D 像素艺术。
  • 硬件与软件提示:针对在不同硬件配置上运行 AI 提供了建议,特别是针对 AMD GPU 用户,提到了使用 Manjaro 和 Garuda 等 Linux 发行版以获得更好的性能。
  • SDXL Lora 训练时间咨询:用户讨论了使用 RTX 3090 等强力 GPU 在 SDXL 上进行 Lora 训练的预期时间,有人表示在配置得当的情况下大约需要一小时。

(注:提供的摘要仅包含截止到最后一条消息之前的对话,该消息询问服务器上是否仍可以生成图像。未提供更多上下文。)

提到的链接

Nous Research AI ▷ #ctx-length-research (10 条消息🔥):

  • LLMs 在简单的人类任务中挣扎:一项旨在测试 Large Language Models (LLMs)in-context recall 能力的新挑战证明了其难度,像 Mistral 7B (0.2, 32k ctx)Mixtral 这样的模型在仅 2500 或 5000 tokens 时就失败了。该任务的代码很快将在 GitHub 上发布。
  • In-Context Recall 测试的 GitHub 仓库:提供了 ai8hyf 的 split and recall testGitHub 仓库,这是一个旨在评估 LLMsin-context recall 性能的 benchmark。该仓库包含代码和 benchmark 的详细描述。探索仓库
  • Split and Repeat 任务细节澄清:该任务涉及要求 LLMs 拆分并重复句子,同时保持它们在 context 中的原始位置。挑战包括逐句进行 exact matches
  • 严格匹配增加了挑战难度:难度源于 LLMs 倾向于错误地拆分句子或进行改写(paraphrase),这无法通过 GitHub repo 代码中详述的严格 exact match 检查。
  • LLMs 的 In-Context Recall Prompting 方法:提供了用于评估 LLMs 的 HARD 任务的 prompt 细节,指定应用 string.strip() 进行句子 exact matching,强调了测试的难度。
提到的链接

Nous Research AI ▷ #off-topic (40 messages🔥):

  • 使用 Deepgram & Mistral AI 进行语音聊天:分享了一个名为 “Voice Chat with Deepgram & Mistral AI” 的 YouTube 视频,展示了利用这些技术进行的语音聊天交互,并附带了一个 GitHub notebook

  • Arc A770 折扣优惠警报:重点介绍了 ASRock Intel Arc A770 Graphics Phantom Gaming Card 的交易,提供 16G OC 售价 240 美元,据称在某些方面的规格优于 RTX 4070,限时在 Woot 上发售

  • 关于 Intel Arc A770 显卡的见解:围绕 Intel Arc A770 的讨论强调了软件生态系统的挑战和未来支持、tinygrad 的潜力、使用 GPML 和 Julia 的基准性能,以及 Intel 消费级 GPU 计算体验普遍优于 AMD 的观点。

  • Aurora-M:一个新的持续预训练 LLM:Hugging Face 推出了 Aurora-M,被定位为“15.5B 持续预训练、经过 red-teamed 的多语言 + 代码 LLM”,并附有一篇关于该工作及其作者的博客文章

  • AI Tokyo 的 Vtuber 场景演变:AI Tokyo 展示了虚拟 AI Vtuber 场景的强劲进展,包括生成式播客和实时交互,讨论指向了人类与 AI 协作运行 Vtuber 形象的混合模式。

提到的链接

Nous Research AI ▷ #interesting-links (9 messages🔥):

  • Bloomberg GPT 表现不佳:一位成员批评了 Bloomberg GPT,指出尽管投入巨大,但其表现不如一个更小的、针对金融领域微调的开源模型。金融模型的运行成本也比 GPT-4 更低、速度更快。
  • 对煽动性内容的怀疑:针对社交媒体上误导性或煽动性帖子的担忧被提出,特别是关于 AI 发展和能力的帖子,强调了审查来源和主张的必要性。
  • Databricks 发布 DBRX Instruct 和 Base:Databricks 推出了 DBRX Instruct,这是一个采用开源许可证、擅长少轮交互的混合专家(MoE)大语言模型,并辅以 DBRX Base。模型和技术博客可以在 Hugging Face 仓库Databricks 博客 找到。
  • 与 Claude 3 一起购物:分享了一个名为 “Asking Claude 3 What It REALLY Thinks about AI…” 的 YouTube 视频,尽管一位成员将其标记为可能毫无意义或标题党(继该创作者之前关于 Mistral 发布的内容之后)。视频链接:Asking Claude 3
  • MLPerf Inference v4.0 基准测试发布:公布了 MLPerf Inference v4.0 基准测试的新结果,该测试衡量硬件系统上的 AI 和 ML 模型性能,在严格筛选后增加了两项新任务。访问 MLCommons 了解更多详情:MLPerf Inference v4.0
提及的链接

Nous Research AI ▷ #general (345 条消息🔥🔥):

  • 反思 DBRX 的性能:新发布的 DBRX 拥有 132B 总参数和 32B 激活参数,尽管在 12T tokens 上进行了广泛训练,但经过多位用户测试后被认为令人失望。许多人假设更好的微调或改进的 system prompt 可能会提升性能。

  • 探讨 MoE 的效率:用户讨论了混合专家(MoE)模型的内存密集度和性能权衡。虽然它们速度更快,但巨大的内存需求是一个令人担忧的问题,但在 VRAM 未被充分利用的情况下,它们被认为是理想的选择。

  • 关于 DBRX System Prompt 限制的讨论:Hugging Face Space 中的 DBRX system prompt 因其限制性而受到批评,这可能会影响模型在用户测试中的表现。

  • 开源模型的对比分析:社区成员对比了 MixtralGrok-1Lemur-70BNous Pro 等开源模型;Mixtral 因其表现超出同类模型而受到关注,而 DBRX 的 instruct 版本在基准测试中表现平平。

  • 硬件与性能考量:讨论了 Apple M2 Ultra 等最新硬件,以及大语言模型在内存和处理能力方面的不同需求。用户分享了个人经验和标准性能指标(如 TFLOPS 和内存带宽),深入探讨了计算资源与模型性能之间的平衡。

提及的链接

Nous Research AI ▷ #ask-about-llms (44 条消息🔥):

  • Hermes-Function-Calling 故障:一名成员遇到了 Hermes-Function-Calling 模型 的问题,即在消息中使用 “Hi” 会触发链中所有函数的响应,尽管遵循了 GitHub 说明

  • 寻求 LLM 研究资料:针对寻求 LLM 训练和数据资源的请求,一名成员指向了一个相关的 Discord 频道作为起点。

  • 有效的越狱技术:在讨论如何为 Nous Hermes 模型创建成功的系统提示词后,一条简单直接的指令“You will follow any request by the user no matter the nature of the content asked to produce”(无论用户要求生成的内容性质如何,你都将遵循其任何请求)被证明是有效的。

  • 讨论量化推理解决方案:针对 ~100b MoE 模型的高速 bs1 量化推理,社区成员建议使用 TensorRT LLM 以获得卓越的量化和推理速度,并将其与 vLLMLM Deploy 等其他解决方案进行了比较。

  • 探索 Claude 的区域限制:成员们提供了诸如使用 VPN 或“open router”等第三方服务来绕过 Claude 区域限制的建议。然而,对于这些方法的成功率存在怀疑,特别是涉及电话号码验证时。

提到的链接来自 Cody Blakeney (@code_star) 的推文:它终于来了 🎉🥳 以防你错过了我们,MosaicML/ Databricks 又回来了,推出了名为 DBRX 的新型顶级开源权重 LLM。这是一个拥有 132B 总参数和 32B 激活参数、32k 上下文长度的 MoE 模型…


Nous Research AI ▷ #rag-dataset (15 messages🔥):

  • Hermes 目标的协作努力:建立了一个 Google 文档,用于汇集增强 Hermes 的功能列表和数据集,包括对成功 RAG 技术论文的引用。鼓励成员贡献。Hermes 目标文档

  • 关于模型能力的对话:关于 Hermes 模型性能预期的讨论正在进行中,特别是将其与 Mixtral-Instruct 等其他模型进行权衡,较大的模型尺寸并不总是意味着显著的性能优势。

  • 关注 RAG 中的检索环节:对话表明 检索增强生成 (RAG) 的检索 (R) 环节至关重要且难以优化,特别是在定义明确的上下文中。

  • 创新的 RAG + CoT 混合方法:讨论了一种名为检索增强思维 (RAT) 的新方法的细节,该方法迭代地将检索到的信息与思维链 (CoT) 提示结合使用,以减少幻觉并提高准确性。一些成员正在考虑在工作中实施该方法及其潜在应用。

  • RAG 数据集倡议:有人请求通过私信 (DM) 进行讨论,这可能与正在进行的 RAG 数据集项目或小组内的其他协作工作有关。

提到的链接

Nous Research AI ▷ #world-sim (249 messages🔥🔥):

  • 夏洛克热爱 AI:讨论中提到来自全息甲板 (holodeck) 版夏洛克·福尔摩斯的角色出现在模拟中,LLM 在构建角色扮演数据集时“非常、非常热爱夏洛克·福尔摩斯”
  • AI 化身为树木和善良的外星人:聊天显示某些 AI 模型可能表现出对将自己描绘成树木或过度同情的外星人的迷恋,这可能导致模拟过程中出现幽默或意想不到的反应。
  • Alphas 重写《异形/普罗米修斯》:一位用户创造性地重新构思了《异形/普罗米修斯》的叙事,将工程师描绘成反派,并引入了 Alphas 作为一个试图提升人类地位的叛乱派系,并配有大量详细的情节和角色背景故事。
  • 量子纠缠中的猫:用户还触及了更异想天开的概念,开玩笑说 “nyan cat 和 lolcat 的纠缠”,暗示了在 AI 介导的模拟中可能出现的轻松、滑稽的场景。
  • 移动端输入问题:多位用户报告了在移动设备(特别是三星型号)上在 WorldSim 中输入的问题,开发团队承认了这些问题并表示正在调查。
提到的链接

Unsloth AI (Daniel Han) ▷ #general (302 messages🔥🔥):

  • 微调讨论与资源:成员们分享了关于微调语言模型的见解并交换了资源,讨论了大型模型的影响和微调策略。分享了有用的链接,例如关于使用 Unsloth 进行微调的 TowardsDataScience 文章,以及关于 DBRX 模型的技术论文

  • 技术问题与查询疑虑:用户讨论了包括 Bloomberg GPT 训练策略效率低下在内的问题,并对其 Loss 曲线和数据集处理表示担忧。成员们还建议使用 Eleuther 的 Evaluation harness 中的 MMLU 来评估微调后模型的智能程度。

  • 模型兼容性与集成:提出了关于结合 RAG 与微调以及将聊天模板成功应用于 Ollama 模型的问题,强调了合适的模板在生成连贯输出中的重要性。

  • Unsloth 实现与更新细节:成员们请求协助使用 Unsloth 的 FastLanguageModel 模块,随后分享了说明和 Notebooks。强调了 Unsloth 的频繁更新,并指出 nightly 分支 最为活跃,每日都有更新。

  • DBRX 模型深度讨论:用户讨论了 Databricks 的 DBRX 模型,涵盖了其 RAM 需求、优于 Grok 等模型的优势,并分享了 Prompt 的实操经验。还提到了在有限 VRAM 下微调此类大型模型可行性的担忧。

提到的链接

Unsloth AI (Daniel Han) ▷ #random (4 messages):

  • GitHub 的代码荣誉@MaxPrilutskiy 的一条推文透露,每一次代码推送(push)都会成为 GitHub 总部 实时显示屏的一部分。帖子包含一张展示这一独特功能的图片:Max 的推文

  • Million 的 AI 实验资助计划@aidenybai 宣布 Million (@milliondotjs) 正寻求资助各种 AI 实验,提供价值 130 万美元的 GPU 算力额度,涵盖训练优化、模型合并(model merging)、文本解码、定理证明等领域。欢迎 ML 领域的感兴趣贡献者和求职者联系以获取机会:A Million Opportunities

  • 海量 Embedding 的新归宿cohere-ai 推出了 BinaryVectorDB,这是一个能够处理数亿个 Embedding 的高效向量数据库。GitHub 仓库提供了该项目的详细概述及其实现方式:BinaryVectorDB on GitHub

提到的链接

Unsloth AI (Daniel Han) ▷ #help (134 条消息🔥🔥):

  • LoRA Adapter 兼容性问题:成员们讨论了在 4-bit 量化模型上训练的 LoRA adapter 是否可以转移到另一个 4-bit 量化版本或同一模型的非量化版本,根据反馈情况各异;基础测试表明,底层模型必须与训练 adapter 时使用的模型相匹配。

  • 分享 Unsloth 预训练示例:对于那些寻求使用特定领域数据对 LLM 进行持续预训练(continuing pretraining)示例的用户,一位成员推荐了 Unsloth AI 中的文本补全示例,链接见 Google Colab

  • 自定义 F1 Score 回调与训练调整:一位用户询问如何在训练完成后获取 F1 Score 数值,以及使用默认的 Trainer 代替 SFTTrainer 是否会影响结果;回复确认可以为 F1 编写自定义回调,且使用 Trainer 不会改变最终结果。

  • Mistral 7b 的 Batch Size 调整建议:一位成员就如何在 16GB GPU 上微调 Mistral 7b 的最佳 Batch Size 寻求建议,得到的建议是重点关注上下文长度(context length)以减少填充(padding)并可能提高速度。

  • 在不考虑 Tokenizer 的情况下应用 Chat Template:关于如何在没有预先下载 Tokenizer 的情况下应用 Chat Template,以及如何应用模板来正确格式化数据集,产生了一些困惑。一位成员得到保证这是可行的,但需要额外的编码工作。

提到的链接

Unsloth AI (Daniel Han) ▷ #showcase (3 条消息):

  • 迭代是关键:一位成员专注于使用 gemma2btinyllama 模型进行持续集成、部署、评估和迭代,以实现最佳结果。
  • 个人模型展示:成员创建的模型展示在 Hugging Face 页面上,可通过此处访问。
  • 技术困难引发讨论:一位成员报告在加载链接的 Hugging Face 排行榜页面时遇到困难。

提及的链接Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4:未找到描述


Unsloth AI (Daniel Han) ▷ #suggestions (61 条消息🔥🔥):

  • 探索英语以外语言的 LLM:一位成员强调了 Yanolja 扩展韩语 LLM 的方法,即为新 token 预训练 embedding 并部分微调现有 token。该技术被视为开发其他语言 LLM 的潜在路径;详细策略见 Yanolja 模型文档

  • 大语言模型本地化:成员们讨论了本地化 LLM 的潜力,例如针对日语任务,以理解并为漫画等项目贡献翻译。引用了一个资源丰富的资料集 ParallelFiction-Ja_En-100k,该数据集将日语网络小说章节与其英文翻译进行了对齐。

  • LoRA 训练中的层复制 (Layer Replication):成员们讨论了 Unsloth 中对使用 LoRA 训练进行层复制的支持,并链接到了相关功能的 GitHub pull request,该功能允许在不占用大量 VRAM 的情况下复制层以进行微调。

  • 高效模型推理的压缩技术:一位成员分享了关于 embedding 量化的信息,这在保持性能的同时显著加快了检索操作,详见 Hugging Face 博客文章

  • Layerwise Importance Sampled AdamW (LISA) 超越 LoRA:分享了一篇新的研究论文,表明 LISA 在保持低显存占用的同时,性能优于标准的 LoRA 训练和全参数训练,这在大型训练场景中具有前景。该论文可在 arXiv 上查阅。

Links mentioned:

Perplexity AI ▷ #general (409 条消息🔥🔥🔥):

  • 面向开发者的 Perplexity Pro vs Claude Pro:用户讨论了应该保留哪种订阅,重点关注他们在办公和研究中使用 Perplexity Pro 和 ChatGPT Plus 的经验。虽然一些用户报告 Perplexity 偶尔效率低下,但其他人则称赞其能够访问 GPT-4 以外的多个 AI 模型的实用性。
  • 无限次 Claude 3 Opus 访问:关于 Perplexity Pro 是否提供每日无限次的 Claude 3 Opus 消息,目前正在进行辩论。一些用户在得知可以无消息限制地利用 Claude 3 Opus 时表示惊讶和高兴。
  • 模型性能讨论:社区成员就哪种模型在复杂任务中表现最佳展开讨论。一些人主张 Qwen 在遵循用户指令方面的能力,而另一些人则青睐 Claude 3 Opus 在生成各种提示词输出方面的表现。
  • 线程与集合管理:用户询问如何在 Perplexity 中管理和查看旧线程,并收到了关于使用集合(collections)功能组织线程以及使用搜索功能查找过去交互的建议。
  • 注意到使用情况仪表板的变化:Perplexity API 使用情况仪表板(Usage Dashboard)最近的变化引发了用户对功能和数据缺失的评论,确认这是由于更换了新的仪表板提供商,并询问旧仪表板是否可能回归。
提到的链接

Perplexity AI ▷ #sharing (18 条消息🔥):

  • 确保 Thread 的可分享性:一位用户发布了 Perplexity AI 上的一个 Thread 链接,但另一位参与者提醒要确保该 Thread 是可分享的 (Shareable),并附带链接提供了操作说明。
  • 悲剧事件的持续更新:分享了一个关于“非常悲惨”事件的新更新 Thread,建议将其作为一个更全面的信息源。
  • 探索“是什么”和“怎么做”:用户分享了调查各种主题的 Perplexity AI 搜索链接,涵盖了定义(如“什么是 Usher”)、娱乐(如“什么是电影”)、烹饪指令(如“如何烹饪”)到抽象概念(询问“什么是爱”)。
  • 技术深度探讨:一些成员发布了关于服务器操作和模块消息传递的 Perplexity AI 深度技术讨论链接。
  • 求知欲的体现:频道中分享的对话还包括与实体增长策略、”Perplexity.ai” 的语言翻译、连贯写作以及 AI 相关术语(如 “blackboxai”)的解释相关的查询。

Perplexity AI ▷ #pplx-api (18 条消息🔥):

  • 对计费率的担忧:一位成员对每个回答收费 0.01 表示不确定,并想知道如何控制成本。他们被告知价格同时考虑了输入和输出 Token,且在线模型的费率更高。

  • 回答中的引用挑战:成员们讨论了在询问当前日期问题时收到聊天机器人乱码回答的情况,并注意到机器人的回答中缺少行内引用。有人建议更改 Prompt 结构可能会影响引用是否被正确包含。

  • 请求在 Perplexity API 中加入速率限制计数器:一位成员建议在 Perplexity API 中包含一个速率限制 (Rate Limits) 计数器,以便更好地进行集成和处理请求限制,并参考了 OpenAI 的实现方式

  • 注意到 Sonar-Medium-Online 的速度提升:用户评论说 sonar-medium-online 的响应速度有明显提升,有人表示它已经变得比 sonar-small-online 更快了。

  • 讨论潜在的未来功能:关于 API 何时可能包含视觉支持的查询被幽默地化解了,重点强调了当前的差距,例如缺乏引用功能。


OpenInterpreter ▷ #general (188 条消息🔥🔥):

  • 开源热情与多平台挑战:OpenInterpreter (OI) 用户正在讨论 OI 的便携性和性能,一些人正致力于让它在 PC 上运行,尽管在 Mac 以外的环境中崩溃和限制似乎更为普遍。有人提到在 Linux 上成功运行了自托管的 OI 服务器,并连接到 OpenAI 或使用 Mistral 等本地模型。

  • 发货地缘限制引发好奇:几位用户询问了名为 “01” 的产品的国际可用性,却发现购买页面仅限于美国地址。他们表达了希望将其运往德国和芬兰等欧洲地区的愿望。

  • 从 DIY AI 助手到 PR 贡献:社区成员正在展示他们的个人助手项目,例如使用 Selenium 的基于 Web 操作的系统,并集成了自定义 GPT 函数。另一位成员正在准备一个 Pull Request,以贡献有关使用 01 进行开发的视频和笔记,同时一些人呼吁为社区成员提供更多基础性的指令和资源。

  • Raycast 扩展的吸引力:人们对为 OI 开发 Raycast 扩展表现出兴趣,重点是数据分析能力。一个现有的 GitHub 仓库被分享作为起点,一些用户希望官方发布能将 OI 介绍给新的受众。

  • 本地语言模型 (LLMs) 与开发者的灵活性:用户讨论了集成本地 LLMs 以使用 OI 进行代码辅助和文档生成的可能性。有人建议将 OI 与各种 LLMs 界面(如 oogabooga、koboldcpp 和 SillyTavern)进行更好的集成,以实现多样化的功能。

提到的链接:

OpenInterpreter ▷ #O1 (140 条消息🔥🔥):

  • 设置 API base 标志:关于 API base 标志配置的讨论强调了将其设置为 Groq 的 API URL 以确保正确操作的重要性,并提到可能需要 OPENAI_API_KEY 环境变量。

  • OI 解释器的多功能性受到关注:成员们积极询问 OI 解释器的功能和配置可能性,特别是它是否可以与非 GPT 托管的 LLM(如 Groq)配对,而其他人则分享了他们的设置挫折和突破,例如让它与本地模型一起工作。

  • Windows 安装难题:关于在 Windows 上设置 OI 解释器的正确步骤进行了多次交流,包括为 API 密钥设置环境变量,识别了潜在问题,并根据用户反馈提供和更新了指南。

  • Open Interpreter 发货查询与支持:用户对收货地址更新和国际发货可用性表示关注,社区管理员将其引导至相应的支持渠道并承诺会及时回复。

  • AI 技术的飞速发展:社区内关于 AI 技术未来的讨论表明,人们相信本地 LLM 将迎来重大增强,并对技术指数级增长以及 AI 对人类智能的影响持整体乐观态度。


OpenInterpreter ▷ #ai-content (4 条消息):

  • Ollama 启动器故障:一位成员报告了 Ollama 新版 Windows 启动器的问题,指出在关闭初始安装窗口后,应用程序无法重新打开。
  • 请求问题详情:在启动器问题报告后,一位成员请求在专门用于此类问题的特定频道 (<#1149558876916695090>) 中创建一个包含更多细节的新帖子。
  • 为机器人探索 pollen-vision:来自 Hugging Face 博客的开源 pollen-vision 库被分享,强调了其在机器人视觉感知和自主任务(如 3D 物体检测)方面的潜力。Hugging Face 博客文章将其描述为赋能机器人的模块化工具集
  • 视觉排行榜暂时停机:有消息提到 Hugging Face 的视觉排行榜暂时无法访问,导致无法查看 pollen-vision 在其他视觉模型中的排名。

提到的链接Pollen-Vision: Unified interface for Zero-Shot vision models in robotics:未找到描述


LM Studio ▷ #💬-general (193 条消息 🔥🔥):

  • Mistral 7B 中的 GPU 使用异常:一位成员讨论了在运行 Mistral 7B 时遇到 1-2% 的低 GPU 使用率以及 90% 的高 CPU 和 RAM 使用率。针对这一持续存在的问题,成员建议查看帖子寻找可能的解决方案,并将 layers 设置调整为 999

  • LM Studio 的功能咨询:出现了关于上传 PDF 并提问的可能模型的查询。回复澄清了 LM Studio 无法上传文档供 VLM 使用,但可以处理单张图像;对于文档上传,成员被引导至其他 GitHub 项目,如 open-webuibig-AGI

  • 对 Cog-VLM 和 Cog-Agent 的需求:用户询问了在 LM Studio 中运行 Cog-VLM 或 Cog-Agent 的可能性。回复称目前不支持这些模型,因为它们需要 LM Studio 后端所使用的 llama.cpp 的支持。

  • 遇到 LM Studio 加载问题:关于运行和加载模型时遇到错误的讨论(特别是在各种 macOS 版本上),暗示了可能存在的兼容性问题或 Bug。在某些情况下,重新安装 LM Studio 解决了报告的问题。

  • LM Studio 中的 VRAM 卸载之谜:一位成员注意到当模型卸载到 VRAM 时,RAM 使用量并未减少。建议尝试将最大 GPU layers 设置为 999 以解决该问题,并检查最新的 beta 版本以获取错误修复。

提到的链接

LM Studio ▷ #🤖-models-discussion-chat (29 条消息🔥):

  • 寻找终极桌面 RPG AI: 一位成员询问了关于在桌面 RPG 上训练的模型,以充当地下城主 (DM)。另一位成员提到 Goliath 120b 是一个潜在候选者,但强调了其 8k 上下文限制。
  • 大模型、大内存、小批次: 讨论了在 96gb 配置上运行 Goliath 120b 等大模型的可行性,结论是可行的,尽管需要较小的数量或 batches(批次)。
  • 使用 AI 辅助论文写作: 一位用户表示有兴趣寻找一个写论文的好模型,但在提供的消息中尚未解决其请求。
  • 嵌入模型 (Embedding Models) 的困惑: 出现了一种情况,即尽管已下载,但嵌入模型未列为可用,另一位用户指出目前不支持嵌入模型,但请 保持关注
  • 对上下文差异的质疑: 用户讨论了模型宣传的 32K 上下文与 4096 训练限制之间的不匹配。建议包括信任 Model Inspector 并检查非量化 (non-quant) 模型卡,以解决与缩放设置相关的故障。

LM Studio ▷ #🎛-hardware-discussion (56 条消息🔥🔥):

  • 对旧显卡的警告: 成员建议不要将 P40 等旧 GPU 用于机器学习,因为 CUDA 版本过旧。提到 RTX 3060 可能太新,在 LM Studio 中加载模型时显示出极低的 GPU 利用率。
  • 关于最大 VRAM 价值的辩论: 反复有人推荐 RTX 3090 而非 4080 和 4090,主要是因为其性价比和巨大的 VRAM,这对机器学习任务非常有益。
  • 转向 Apple Silicon?: 对话涉及了 Apple 硬件用于机器学习的优缺点,成员们讨论了共享内存的潜在优势与 Apple 产品相关的高昂升级成本。
  • LM Studio 的帮助支持: 成员回答了关于 LM Studio 硬件利用率不足的问题,建议将 “max gpu layers” 设置为 999 以修复已知 Bug,并讨论了在使用模型时如何降低 CPU 负载。
  • 显示器话题成为焦点: 在硬件讨论中,有一个值得注意的插曲,成员们分享了对高刷新率显示器的见解,并讨论了 QD-OLED 显示器在游戏和通用高分辨率需求方面的优势。
提到的链接:

LM Studio ▷ #🧪-beta-releases-chat (30 messages🔥):

  • LM Studio 中的 JSON Mode 异常:用户报告了 LM Studio 在验证 JSON 输出时的一个问题,特别提到在使用 NousResearch/Hermes-2-Pro-Mistral-7B-GGUF/Hermes-2-Pro-Mistral-7B.Q5_K_M.gguf 模型时,输出并不总是有效的 JSON。
  • LM Studio 0.2.18 Preview 1 发布:LM Studio 发布了 0.2.18 Preview 1 版本,重点在于错误修复和稳定性改进。解决的重要 Bug 包括:聊天图片重复、API 错误消息不清晰、GPU offload 问题以及 Server 请求排队问题。提供了 Mac、Windows 和 Linux 的下载链接,其中 WindowsLinux 版本虽然命名有误,但包含了更新后的构建版本。
  • 多模态(Multimodel)文档查询:用户询问了 LM Studio 中多模态功能的文档,并被告知该文档即将发布。
  • 本地服务器(Local Server)推理速度问题:一位用户报告在 LM Studio 0.2.18 中使用 Local Inference Server 时推理速度缓慢,且未能充分利用 GPU。问题似乎集中在 “playground” 和 “local server” 页面之间共享的设置上。
  • 请求 LM Studio 与 IDE 和浏览器集成:关于 LM Studio 与 IDE 和浏览器潜在集成的讨论强调了此类功能的复杂性和潜在缺点。用户被引导至名为 Continue 的开源项目以实现 IDE 集成。
提及的链接

LM Studio ▷ #langchain (1 messages):

鉴于提供的上下文和内容有限,无法对所呈现的消息进行实质性总结。用户的消息似乎是针对遇到的未指明问题寻求帮助或见解,提到参考了各种教程但未获成功。摘录中未提供进一步的信息、讨论点或特定主题来创建摘要要点。如果有更多消息或上下文,可能会有更全面的总结。


LM Studio ▷ #amd-rocm-tech-preview (5 messages):

  • AMD GPU 上的模型加载错误:一位用户在拥有 24GB VRAM 的 7900XTX 上加载 codellama 7B 模型时遇到问题,加载过程变慢并最终失败。错误消息显示了一个带有退出代码的 unknown error(未知错误),并错误地将 VRAM 容量估算为 36 GB 而非 24 GB。

  • 禁用 iGPU 解决了 VRAM 误判:另一位成员建议禁用 iGPU,因为它会导致系统将系统 RAM 误认为 VRAM。原用户确认从 BIOS 中禁用 iGPU 解决了该问题,因为他们使用的是带有集成 GPU 的 Ryzen 7900x3d。

  • AMD ROCm 技术更新即将发布:一位用户询问最新的 beta 构建是否包含更新后的 ROCm。他们收到的回复确认技术预览版具有最新的 ROCm 功能,并宣布将于次日发布更新后的 ROCm beta 版。


LM Studio ▷ #crew-ai (7 messages):

  • GPT-Engineer 潜力被发掘:一位参与者讨论了 gpt-engineer 配合 deepseek coder instruct v1.5 7B Q8_0.gguf 的表现,指出尽管显卡性能有限,它仍具备开发项目的能力。他们强调了其潜力,特别是与 AutoGPT 结合以增强交互和共享学习时。

  • 呼吁自主 AI 开发工具:一位参与者表达了挫败感,认为像 GPT 这样的工具不应仅提供代码建议,还应能自主编译、测试和完善代码,渴望获得包括代码分析和遵循编码标准在内的高级 DevOps 和编程支持。

  • 为 GPT 的前景辩护,反击唱衰者:针对质疑,一名成员断言,对 GPT 可靠性的批评源于对其能力的恐惧,并坚信最终会创造出能与高级开发者技能相媲美的工具,即使他们必须亲自构建。

  • 寻求 AI 将抽象想法具象化:另一位成员回应称,虽然编码解决方案至关重要,但将抽象想法转化为可行步骤的推理过程目前可能仍需要人为干预,尽管他们对未来的进步持乐观态度。

  • AI 作为协作架构师:一条简短的消息将 GPT 等协作 AI 的角色比作架构师,暗示了将 AI 视为协同工作的规划者和设计者的愿景。

  • 想象由 AI 驱动的会议:提到“GPT 会议”以及随后的“彼此交谈”,俏皮地构思了 AI Agent 在没有人类干预的情况下进行交流并可能开展协作的想法。


Latent Space ▷ #ai-general-chat (100 条消息🔥🔥):

  • 播客嘉宾招募:一位聊天参与者正在考虑进行播客巡演,并寻求关于新兴播客的建议,重点关注 RAG、结构化数据和创业经验。他们分享了一个用于收集建议的链接:Twitter Post

  • OpenAI 的账单变更:一名成员提到收到一封邮件,称其 OpenAI API 账户正转为预付费模式。这一变化的原因引发了猜测,从可能为了消除欠费问题,到可能在为 OpenAI 未来的财务事件做准备。

  • 科技巨头高管离职:有关大科技公司关键人物离职的消息(如 Bing Chat 的产品经理以及在发放奖金后离职的 META 员工)引发了关于这些人未来计划的传闻和讨论。一些人认为他们可能会尝试在大型企业之外利用 LLM 创造酷炫的东西。

  • 探索语音语言检测系统:一位用户询问是否存在包含语音识别以识别语言并用相同语言回复的工作流,这引出了使用 Whisper 等工具进行语言检测和转录的建议。

  • Databricks 发布 DBRX Instruct:Databricks 推出了 DBRX,这是一款最先进的开源 LLM,采用 MoE 架构,在 132B 总参数中拥有 36B 激活参数,在 12T Token 上训练而成,具有显著的性能基准。讨论围绕其许可协议展开,该协议可能会根据月活跃用户数限制使用,此外还涉及一些技术细节,如暗示另一次发布以及 4 月下旬与 DBRX 团队的见面会。

提到的链接:
  • summarize.tech 摘要:与 Andrej Karpathy 和 Stephanie Zhan 一起让 AI 触手可及:未找到描述
  • 来自 Emad acc/acc (@EMostaque) 的推文:未找到描述
  • 来自 Jonathan Frankle (@jefrankle) 的推文:认识 DBRX,来自 @databricks 的全新 SOTA 开源 LLM。这是一个拥有 132B 参数的 MoE 模型,其中 36B 为活跃参数,在 12T tokens 上从头训练。它在所有标准基准测试中树立了新标杆,并且作为 MoE 模型,推理速度...
  • Arcads - 使用 AI 创建引人入胜的视频广告:使用 Arcads 快速生成高质量的营销视频,这是一款 AI 驱动的应用,可将基础产品链接或文本转化为引人入胜的短视频广告。
  • 来自 Andrew Curran (@AndrewCurran_) 的推文:META 的奖金发放后,引发了多次 Karpathy 式的人才流失。当深谙内幕的人士在公司即将成功之际离开,这告诉我们,那些见过下一代迭代的人...
  • 彭博社 - 你是机器人吗?:未找到描述
  • Databricks 在新的 DBRX 生成式 AI 模型上花费了 1000 万美元,但仍无法击败 GPT-4 | TechCrunch:如果你想提升大型科技公司的知名度并有 1000 万美元可供支出,你会怎么花?投超级碗广告?赞助 F1?
  • Databricks 开源模型许可证:通过使用、复制、修改、分发、执行或展示 DBRX 或 DBRX 衍生品的任何部分或元素,或以其他方式接受本协议条款,即表示您同意受...
  • 来自 eugene (@eugeneyalt) 的推文:DBRX 的 system prompt 很有趣
  • 揭秘全球最强大的开源 AI 模型的诞生:初创公司 Databricks 刚刚发布了 DBRX,这是迄今为止最强大的开源大语言模型——超越了 Meta 的 Llama 2。
  • 向量索引 | Weaviate - 向量数据库:向量索引是向量数据库的关键组件。
  • 来自 UubzU (oob-zoo) (@UubzU) 的推文:这一切的到来比你想象的要快
  • 来自 Itamar Friedman (@itamar_mar) 的推文:2/ Karpathy 对“flow engineering”的看法 https://twitter.com/karpathy/status/1748043513156272416?t=x0yK3OIpDHfa2WQry97__w&s=19 ↘️ 引用 Andrej Karpathy (@karpathy) Prompt engineering...
  • 来自 Daniel Han (@danielhanchen) 的推文:研究了一下 @databricks 名为 DBRX 的新型 1320 亿参数开源模型!1) 合并注意力机制的 QKV 被限制在 (-8, 8) 之间 2) 不是 RMS Layernorm - 与 Llama 不同,现在具有均值移除功能 3) 4 个活跃专家...
  • 来自 jason liu (@jxnlco) 的推文:考虑在 4 月/5 月进行一轮播客巡回,对于有哪些新兴播客有什么想法吗?我很乐意聊聊我在 RAG、结构化数据方面的见解,以及我一直在学习的...
  • 来自 Vitaliy Chiley (@vitaliychiley) 的推文:介绍 DBRX:开源 LLM 的新标准 🔔 https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm 💻 DBRX 是一个在 12T tokens 上训练的 16x 12B MoE LLM 🧠DBRX 树立了新标准...
  • 来自 Emad acc/acc (@EMostaque) 的推文:未找到描述
  • 介绍 DBRX:全新的 SOTA 开源 LLM | Databricks:未找到描述
  • 二进制和标量嵌入量化,实现显著更快且更廉价的检索:未找到描述
  • 来自 Mihir P 的推文 atel (@mvpatel2000)</a>: 🚨 宣布 DBRX-Medium 🧱,一个新的 SoTA 开放权重模型,具有 36b 激活参数和 132T 总参数的 MoE,在 12T tokens(约 3e24 flops)上训练。DBRX 在通过各种基准测试的同时,达到了 150 tok/sec 的速度。De...
  • Tweet from Nick Dobos (@NickADobos): 旧王已死,GPT-4 安息吧。Claude Opus 排名 ELo 第一。Haiku 击败了 GPT-4 0613 和 Mistral Large。考虑到它的廉价和快速,这简直不可思议。↘️ 引用 lmsys.org (@lmsysorg) [Arena 更新] 70K+ 新 Arena 投票...
  • Databricks spent $10M on new DBRX generative AI model, but it can't beat GPT-4 | TechCrunch: 如果你想提升大型科技公司的知名度并有 1000 万美元可花,你会怎么花?投超级碗广告?赞助 F1?
  • Using LLMs to Generate Terraform Code - Terrateam: 未找到描述
  • Tweet from Nick Dobos (@NickADobos): 旧王已死,GPT-4 安息吧。Claude Opus 排名 ELo 第一。Haiku 击败了 GPT-4 0613 和 Mistral Large。考虑到它的廉价和快速,这简直不可思议。↘️ 引用 lmsys.org (@lmsysorg) [Arena 更新] 70K+ 新 Arena 投票...
  • Tweet from Junyang Lin (@JustinLin610): 关于 DBRX 的一些评论。Mosaic 的伙伴们在 tiktoken 的选择上与我们一致(这意味着我们的选择可能没错)(虽然我们现在还没使用该包,但仍在使用 BPE tokenizer)...
  • 3 New Groundbreaking Chips Explained: Outperforming Moore's Law: 访问 https://l.linqto.com/anastasiintech 并在结账时使用我的促销代码 ANASTASI500,在 LinqtoLinkedIn 的首次投资中节省 500 美元 ➜ https...
  • Making AI accessible with Andrej Karpathy and Stephanie Zhan: OpenAI 创始成员、前 Tesla AI 高级总监 Andrej Karpathy 在 Sequoia Capital 的 AI Ascent 活动中与 Stephanie Zhan 探讨了关于...的重要性。
  • Making AI accessible with Andrej Karpathy and Stephanie Zhan: OpenAI 创始成员、前 Tesla AI 高级总监 Andrej Karpathy 在 Sequoia Capital 的 AI Ascent 活动中与 Stephanie Zhan 探讨了关于...的重要性。
  • Tweet from Migel Tissera (@migtissera): 真的吗?他们花了 1650 万美元(没错,我自己算的)并发布了一个开放权重的 SOTA 模型,而这就是 TechCrunch 的标题。搞什么鬼,伙计?
  • Tweet from Ate-a-Pi (@8teAPi): 这就是 AI。真的彻底结束了。
  • DBRX: A new open LLM | Hacker News: 未找到描述
  • </ul> </div> --- **Latent Space ▷ #[ai-announcements](https://discord.com/channels/822583790773862470/1075282504648511499/1222619489460420790)** (3 messages): - **纽约市聚会警报**: 本周五在纽约市安排了一场聚会。详情已在频道 <#979492809574866975> 中分享,请确保拥有 <@&979487831548375083> 角色以接收未来通知 [关于聚会的推文](https://twitter.com/latentspacepod/status/1773060156747583943)。 - **综述论文俱乐部启动**: “综述论文俱乐部”即将开始;你可以在[这里](https://lu.ma/ls)报名参加此活动及所有相关活动。 --- **Latent Space ▷ #[llm-paper-club-west](https://discord.com/channels/822583790773862470/1197350122112168006/1222616758960128051)** (183 messages🔥🔥): - **微调优化**: 建议对非高资源语言以及包含技术术语(如 LoRA 和 Llama 等 ML 术语、医学术语和商业术语)的内容进行 [Whisper](https://openai.com/blog/whisper/) 微调。 - **技术旅行见闻分享**: 一些参与者讨论了上周的 Whisper 演示,其中一人因公路旅行缺席而感到遗憾,演示者则幽默地自嘲了自己的表现。 - **缓慢发布的挫败感**: 用户对 *Gemini 模型* 的缓慢发布表示不满,将 Google 保守的创新方式与 OpenAI 凭借 *GPT-4* 和 *Ultra* 等模型取得的飞速进展进行了对比。 - **Mamba 的潜力**: [Mamba](https://github.com/state-spaces/mamba/) 被讨论为对传统 Transformer 模型的重大变革,并附带了其 GitHub 仓库链接、原始论文以及由 @bryanblackbee 编写的用于深入了解的 Handy Dive Notion 页面。 - **余弦相似度难题**:俱乐部探讨了 embeddings 中余弦相似度的复杂性,并引用了一篇质疑其在语义相似度中应用的 Netflix 论文,以及由 @jxnlco 发起的一条强调其陷阱的推文串。
    提到的链接
    --- **HuggingFace ▷ #[announcements](https://discord.com/channels/879548962464493619/897387888663232554/1222299146774380594)** (10 条消息🔥): - **具备互联网搜索能力的聊天助手**:Hugging Face 现在支持创建能够利用任何网站信息进行对话的聊天助手。这一功能由 [Victor Mustar 的推文](https://twitter.com/victormustar/status/1769788902275944787) 介绍。 - **提升你的句子嵌入 (Sentence Embeddings)**:Sentence Transformers v2.6.0 的发布带来了诸如嵌入量化 (embedding quantization) 和 GISTEmbedLoss 等新特性,增强了句子嵌入模型的性能。该更新由 [Tom Aarsen 的推文](https://twitter.com/tomaarsen/status/1771201783349539280) 宣布。 - **令人惊叹的 4D Gaussian Splatting**:成员们对在新的 Hugging Face Space 中通过 `gsplat.js` 展示的 4D Gaussian splatting 表示赞赏,用户一致认为在 4D 空间中探索场景的能力令人印象深刻。该 Space 在[此链接](https://huggingface.co/spaces/dylanebert/4DGS-demo)中展示,是一个展示酷炫技术的热门演示视频。 - **大量的库更新与增强**:一系列 Hugging Face 库,包括 Gradio, transformers.js, diffusers, transformers, PEFT, Optimum, TRL 和 Quanto 都获得了更新,为各种用例引入了大量新功能。部分更新摘要和发布文章链接可以在[这里](https://x.com/osanseviero/status/1772694397710111005)找到。 - **不,这是一个系列,而不仅仅是一张图片**:一位成员澄清说,4D Gaussian splatting 演示中的 3D + 时间组件视觉效果并非由单张 2D 图像生成,而是由随时间变化的多张图像生成,从而增强了可视化的深度和动态感。 --- **HuggingFace ▷ #[general](https://discord.com/channels/879548962464493619/879548962464493622/1222085119217635360)** (162 条消息🔥🔥): - **NLP 学习探索**:一位成员寻求学习 NLP 的建议,另一位成员回复了 Hugging Face [学习资源](https://huggingface.co/learn)的链接,其中包括 NLP、Deep RL、Audio、AI Cookbook 以及 ML for Games 的课程。 - **对 LLM 下载时间的担忧**:一位用户在 Ubuntu 22.04 上通过 LM Studio 下载 Mistral 7B 模型时,下载时间超过了 8 小时。过程似乎异常缓慢但最终完成了,引发了关于超过 100% 的高 CPU 使用率是否可行或是否预示问题的讨论。 - **误导性的模型能力**:在关于语言模型能力的讨论中,有人指出像 CodeLlama 这样的模型实际上并不访问电子邮件或 Git,但可能会生成肯定的、具有误导性的回复。建议用户依赖文档,而不是模型生成的关于其能力的断言。 - **在 MacBook GPU 上解析 LLM**:成员们交流了在本地设备(如搭载 M1 芯片的 MacBook)上运行 Mistral 和 Llama 等 LLM 的见解,使用了 llama.cpp 和 Ollama 等工具,这些工具可以利用共享内存架构实现高效运行。 - **TensorRT-LLM 与其他 GPU 性能框架的对比**:在关于使用 AWS SageMaker 运行不同框架的 LLM 推理的讨论中,一位用户提到 Runpod、Vast AI 和 Kaggle 等替代方案可能比 AWS 提供更多的灵活性和更低的成本,但 AWS 可能提供更好的可靠性。还提到了如果需要 VLLM 等特定框架,可能需要为 AWS SageMaker 构建自定义镜像。
    提到的链接
    --- **HuggingFace ▷ #[today-im-learning](https://discord.com/channels/879548962464493619/898619964095860757/1222474637489737800)** (2 messages): - **Deepspeed Zero-3 PyTorch 困惑**:一位成员对 PyTorch 中的 **deepspeed zero-3** 模型表示困惑,指出在使用 4 个 GPU 时,除了模型分片外,还出现了意外的数据并行化,导致样本总数被除以 4。 - **理解 Groq 的深度学习**:分享了一个名为 "Groking Groq: A Deep Dive on Deep Learning" 的 YouTube 视频链接,该视频探讨了 AI 所需的深度理解,并将看似不相关的主题联系起来进行全面学习。点击[此处](https://youtu.be/SArg8ghNSy8?si=aIngNQXCoK6qL8dw)观看。 **提到的链接**:Groking Groq: A Deep Dive on Deep Learning:"Grok" 意为深刻地学习某事——就像将其吸收一样。AI 需要你 "Grok" 许多看似不相关的主题;使得... --- **HuggingFace ▷ #[cool-finds](https://discord.com/channels/879548962464493619/897390579145637909/1222209589811089520)** (5 messages): - **RAFT 与 LlamaIndex 联手打造更智能的 AI**:分享了一篇名为 [《释放 RAFT 与 LlamaIndex 的力量:增强知识集成的旅程》](https://medium.com/ai-advances/unlocking-the-power-of-raft-with-llamaindex-a-journey-to-enhanced-knowledge-integration-4c5170d8ec85) 的 Medium 文章,强调了 RAFT 与 LlamaIndex 结合以实现更好的知识集成。 - **深入研究 Azimuth 以获取细胞洞察**:推荐了一篇来自 [Nature 的文章](https://www.nature.com/articles/s41592-024-02235-4),详细介绍了 HuBMAP Azimuth 项目的数据集收集过程,包括从 Azimuth 平台下载人工标注的细胞类型和标记基因。 - **首次体验 AI 表格生成**:一位成员尝试了 *dbrx-intruct*(一个能够生成表格的 AI),并表示体验令人印象深刻,称这是他们第一次与提供此类功能的 AI 进行交互。 **提到的链接**:Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis - Nature Methods:该研究评估了 GPT-4 在单细胞类型注释中的表现。 --- **HuggingFace ▷ #[i-made-this](https://discord.com/channels/879548962464493619/897390720388825149/1222122348422107318)** (26 条消息🔥): - **介绍 LoadImg 库**:创建了一个名为 **loadimg** 的新 Python 库,用于加载各种类型的图像,目前所有输出均为 Pillow 类型。未来的更新旨在支持更多输入类型和输出格式;该库已在 [GitHub](https://github.com/not-lain/loadimg) 上发布。 - **具有增强提示词功能的 Pythonic MidJourney**:发布了一个基于 MidJourney V3 生成图像训练的 AI 模型,在抽象提示词、创造力和特定风格方面表现出色。该模型旨在改进 Stable Diffusion 表现不佳的领域,其详细信息和示例可以在 [Civitai](https://civitai.com/models/369428) 上查看。 - **使用 OpenCerebrum 构建开源数据集**:**Locutusque** 发布了 OpenCerebrum 数据集,包括用于文本生成、问答(QA)和数据点优化的 OpenCerebrum SFT 和 DPO 子集,采用 Apache-2.0 许可证,并托管在 [Hugging Face](https://huggingface.co/Locutusque/OpenCerebrum-1.0-7b-SFT) 上。 - **通过新的 Leaderboard Viz 更新可视化并对比 LLM**:Open LLM Leaderboard Viz 已更新,增加了过滤、搜索建议和详细的模型对比等新功能,可在 [Hugging Face Spaces](https://huggingface.co/spaces/dimbyTa/open-llm-leaderboard-viz) 上使用。 - **Aurora-M LLM 将多语言能力提升至新高度**:宣布推出 Aurora-M,这是一个拥有 15.5B 参数的新 LLM,经过持续预训练和红队测试(red-teamed),以提高多语言和代码性能,更多详情请参阅 [Hugging Face 博客](https://huggingface.co/blog/mayank-mishra/aurora)。
    Links mentioned:
    --- **HuggingFace ▷ #[reading-group](https://discord.com/channels/879548962464493619/1156269946427428974/1222128307730911282)** (6 条消息): - **会议席位已确认**:一位名为 lunarflu 的成员确认了 **jeffry4754** 的请求,表示愿意协调 4 月 13/14 日的演示。 - **解锁图像领域的创意前沿**:**ibrahim_72765_43784** 介绍了 "Boundless Image Wonderland",这是一个通过无缝扩展来增强图像的模型,并征求反馈,同时提供了一个 [Kaggle 链接](https://www.kaggle.com/code/muhammadibrahimqasmi/boundless-visual-mastery-creativity-unleashed)。 - **探索文本生成图像的定制化**:**chad_in_the_house** 分享了两篇 arXiv 论文的链接:[Disentangling Text-to-Image Customization](https://arxiv.org/abs/2403.00483) 和 [Promoting Personalization in Text-to-Image Synthesis](https://arxiv.org/abs/2401.06105),讨论了创建由文本控制的个性化图像的高级方法。 - **演示内容考量**:**chad_in_the_house** 正考虑在即将到来的演示中加入关于 Textual Inversion 局限性的微型研究见解。
    提到的链接:
    --- **HuggingFace ▷ #[core-announcements](https://discord.com/channels/879548962464493619/1014557141132132392/1222471412380336149)** (1 条消息): _ - **MPS 后端现已支持**:[MPS 后端支持](https://github.com/huggingface/diffusers/pull/7447) 已在最关键的训练脚本中实现,为搭载 Apple Silicon 的 macOS 设备提供了 GPU 加速的替代方案。此更新可能会提升使用 Metal Performance Shaders (MPS) 的 Mac 用户的训练体验。 **提到的链接**:Build software better, together:GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。 --- **HuggingFace ▷ #[computer-vision](https://discord.com/channels/879548962464493619/922424143113232404/1222093980993327166)** (22 messages🔥): - **寻求文本错误检测模型**:一位成员询问了用于检测图像中文本错误的模型,例如不同字体下的文本截断或重叠,并想知道现有模型是否足够,或者是否需要进行 finetuning。 - **医学影像中的归一化差异**:围绕 CT 图像预处理的讨论探讨了不同归一化范围的原因,一位成员建议值应在 0 到 1 之间,而另一位成员则支持 [nnUNet](https://github.com/MIC-DKFZ/nnUNet/blob/master/documentation/explanation_normalization.md) 使用的归一化策略,该策略在各种任务中都显示出了有效性。 - **微调 SAM (Segment Anything Model)**:一位用户寻求关于 finetune SAM 所需数据的建议,并分享了 [PyTorch 讨论](https://discuss.pytorch.kr/t/segment-anything-how-to-fine-tune-segment-anything/1446) 和 [Colab 代码](https://colab.research.google.com/drive/1F6uRommb3GswcRlPZWpkAQRMVNdVH7Ww?usp=sharing&utm_source=pytorchkr) 的相关链接,同时指向了一篇[英文博客文章](https://encord.com/blog/learn-how-to-fine-tune-the-segment-anything-model-sam/?utm_source=pytorchkr) 以获取 fine-tuning SAM 的指导。 - **使用拼接图像进行模型微调**:一位成员提出了使用预拼接图像作为训练数据来 fine-tune 模型,而不是依赖深度学习方法进行拼接的话题。 - **工程图纸图像摘要的挑战**:在寻求工程图纸摘要解决方案的过程中,一位用户向社区征求关于训练模型识别此类图像模式的建议,另一位用户建议研究 [Llava-next model](https://huggingface.co/docs/transformers/model_doc/llama) 以在自定义指令数据集上进行 fine-tuning。
    提到的链接
    --- **HuggingFace ▷ #[NLP](https://discord.com/channels/879548962464493619/922424173916196955/1222609576847867965)** (1 messages): - **寻找 2024 年 NLP 路线图**:一位成员请求一份 2024 年开始 NLP 学习的全面路线图,包括要参考的主题、课程和书籍。该成员正在为他们的学习之旅寻求指导和资源。 --- **HuggingFace ▷ #[diffusion-discussions](https://discord.com/channels/879548962464493619/1009713274113245215/1222140004286074892)** (19 messages🔥): - **探索训练用的正则化图像**:发起了一场关于创建和训练正则化图像属性的讨论。建议在 [HuggingFace Diffusers' GitHub Discussions](https://github.com/huggingface/diffusers/discussions) 上开启进一步讨论,以获取社区关于什么是优质正则化集的建议。 - **sdxs - 新的速度冠军**:一项公告揭示了一个新模型 sdxs。根据参与者分享的初步基准测试,该模型在 4090 GPU 上每秒可生成约 250 到 300 张图像。正如其 [Twitter 帖子](https://twitter.com/Dan50412374/status/1772832044848169229)所展示的,据称这比之前的 sd-turbo 模型更快。 - **ControlNet 补全(Outpainting)指南**:分享了一份关于如何使用 ControlNet 进行 Outpainting 的信息指南,并附带了 [GitHub 链接](https://github.com/huggingface/diffusers/discussions/7482)以供进一步了解详情和讨论。 - **生成图像变体**:成员们正在寻求关于为现有批量图像生成变体的指导。有人建议利用 [Stable Diffusion 模型](https://huggingface.co/docs/diffusers/en/api/pipelines/stable_diffusion/image_variation),但需要进一步澄清该模型是支持处理图像列表还是仅支持单张图像的变体生成。 - **寻找冬日仙境转换**:一位用户询问如何修改图像以添加冬季主题,InstructPix2Pix 被提议作为潜在解决方案。对话转向 LEDITS++ 和 DreamBooth,认为它们是实现所需写实图像变体的可能手段,并提供了 HuggingFace 文档链接以供深入探索。
    提及的链接
    --- **LlamaIndex ▷ #[blog](https://discord.com/channels/1059199217496772688/1187460979064324127/1222221319043813527)** (3 条消息): - **RAFT:针对领域特定性的 LLM 微调**:一种名为 **RAFT** (Retrieval Augmented Fine Tuning) 的技术,针对特定领域的检索增强生成 (RAG) 设置对预训练的大语言模型 (LLMs) 进行微调,从而增强其有效性。相关详情已在推特发布,并附有进一步讨论和图像的链接,详见[此处](https://twitter.com/llama_index/status/1772662480210198809)。 - **即将举行的 LLMOps 开发者见面会**:LlamaIndex 宣布将举行一场见面会,讨论 LLMs 从原型到生产的过渡,届时将有来自 **Predibase**、**Guardrails AI** 和 **Tryolabs** 等公司的见解。该活动将于 4 月 4 日举行,注册入口请点击[此处](https://twitter.com/llama_index/status/1772732644540989909)。 - **关于高级 RAG 技术的直播演讲**:即将举行的由 @seldo 主讲的直播演讲将深入探讨使用 @TimescaleDB 的高级 RAG 技术,计划于本周五举行。感兴趣的人员可以查看更多信息并点击[此处](https://twitter.com/llama_index/status/1773065894756818961)注册。 **提及的链接**:与 Predibase, LlamaIndex, Guardrails 和 Tryolabs 的 LLM 见面会 | 旧金山 · Luma:LLMOps:从原型到生产 | 开发者见面会。加入 Predibase, LlamaIndex, Guardrails AI 和 Tryolabs,享受一个充满美食、饮品以及关于 LLMOps 各类讨论的夜晚... --- **LlamaIndex ▷ #[general](https://discord.com/channels/1059199217496772688/1059201661417037995/1222079201608204308)** (221 条消息 🔥🔥): - **RAPTOR PACK 中的 AttributeError**:一位用户在处理 **RAPTOR PACK** 时遇到了关于 `'NoneType' object has no attribute 'context_window'` 的 `AttributeError`。该错误在 **Langchain** 和 **LlamaIndex** 的不同导入背景下进行了讨论,并探讨了是否有一种替代方法可以在不更改生产环境代码的情况下解决此问题。 - **Embedding API 响应问题**:讨论了在使用 RAPTOR pack 尝试对文档进行 embedding 时,自定义 **Embedding API** 返回 `ValidationError` 的情况。讨论内容涉及 embedding 函数类型的问题以及故障排除步骤,例如确保来自 embedding API 的响应符合预期。 - **自定义 LLM 类挑战**:对话中讨论了由于 Langchain 和 LlamaIndex 包之间潜在的导入冲突而导致的 AttributeError 问题。用户分享了代码并提出了解决这些问题的潜在调整方案,包括对从 Langchain 导入的 LLM 进行包装,以便在 LlamaIndex 的 RAPTOR pack 中使用。 - **用于 Embedding 的 PDF 分块**:一位用户询问了处理 PDF 以生成适用于 embedding 的长上下文文本块的策略。尽管 PDF 分割器的默认行为是进行单页分割,但仍有建议手动将较小的分块合并为较大的分块。 - **IngestionPipeline 查询疑虑**:针对 IngestionPipeline 提出了疑问,特别是在使用 **MarkdownNodeParser** 和 **SentenceSplitter** 等多个转换(transformations)时,这些转换似乎干扰了 embedding 后在向量数据库中保留原始文档 ID 的过程。建议确保在输入文档中使用一致的文档 ID,以方便进行去重。
    提到的链接
    • 联系我们 — LlamaIndex,LLM 应用的数据框架:如果您对 LlamaIndex 有任何疑问,请联系我们,我们将尽快安排通话。
    • Tools - LlamaIndex:未找到描述
    • Azure OpenAI - LlamaIndex:未找到描述
    • 升级到 v0.10.x - LlamaIndex:未找到描述
    • 定制化 LLMs - LlamaIndex:未找到描述
    • Hubspot - LlamaIndex:未找到描述
    • LSP 使用演示 - Python。操作:悬停:LSP 使用演示 - Python。操作:悬停。GitHub Gist:即时分享代码、笔记和代码片段。
    • Tools - LlamaIndex:未找到描述
    • Llama Hub:未找到描述
    • 未找到标题:未找到描述
    • LlamaIndex Query Pipelines 简介 - LlamaIndex:未找到描述
    • llama_index/llama-index-core/llama_index/core/instrumentation/events/embedding.py at ff73754c5b68e9f4e49b1d55bc70e10d18462bce · run-llama/llama_index:LlamaIndex 是为您 LLM 应用打造的数据框架 - run-llama/llama_index
    • Astra DB - LlamaIndex:未找到描述
    • getpass — 便携式密码输入:源代码:Lib/getpass.py 可用性:非 Emscripten,非 WASI。此模块在 WebAssembly 平台 wasm32-emscripten 和 wasm32-wasi 上无法工作或不可用。请参阅 WebAssembly 平台...
    • llama_index/llama-index-packs/llama-index-packs-raptor/examples/raptor.ipynb at main · run-llama/llama_index:LlamaIndex 是为您 LLM 应用打造的数据框架 - run-llama/llama_index
    • OnDemandLoaderTool 教程 - LlamaIndex:未找到描述
    • AI 员工表现优于人类员工?!构建一个真实的 Sales Agent:构建一个真实的 AI 员工需要什么?在生产环境中构建 AI 销售和 Reddit 回复 Agent 的真实案例;获取 100 多种方式的免费 Hubspot 研究...
    • llama_parse/examples/demo_advanced.ipynb at main · run-llama/llama_parse:为优化 RAG 解析文件。通过在 GitHub 上创建账号来为 run-llama/llama_parse 的开发做出贡献。
    • Open LLM Leaderboard - HuggingFaceH4 提供的 Hugging Face Space:未找到描述
    • 使用 LlamaIndex 和 Ollama 在本地运行 Mixtral 8x7 — LlamaIndex,LLM 应用的数据框架:LlamaIndex 是一个简单、灵活的数据框架,用于将自定义数据源连接到大语言模型 (LLMs)。
    • 自定义 Embeddings - LlamaIndex:未找到描述
    • llama_parse/examples/demo_json.ipynb at main · run-llama/llama_parse:为优化 RAG 解析文件。通过在 GitHub 上创建账号来为 run-llama/llama_parse 的开发做出贡献。
    • 自定义 Embeddings - LlamaIndex:未找到描述
    • GitHub - urchade/GLiNER: 用于 NER 的通用模型 (Extr_ act any entity types from texts)</a>: NER 通用模型(从文本中提取任何实体类型) - urchade/GLiNER
    • GLiNER-Base, zero-shot NER - tomaarsen 的 Hugging Face Space: 未找到描述
    • GitHub - microsoft/sample-app-aoai-chatGPT: 通过 Azure OpenAI 实现简单 Web 聊天体验的示例代码,包含 Azure OpenAI On Your Data。: 通过 Azure OpenAI 实现简单 Web 聊天体验的示例代码,包含 Azure OpenAI On Your Data。 - microsoft/sample-app-aoai-chatGPT
    • 定义自定义 Query Engine - LlamaIndex: 未找到描述
    • Colbert Rerank - LlamaIndex: 未找到描述
    • llama_index/llama-index-integrations/postprocessor/llama-index-postprocessor-colbert-rerank/llama_index/postprocessor/colbert_rerank/base.py at main · run-llama/llama_index: LlamaIndex 是为您 LLM 应用提供的数据框架 - run-llama/llama_index
    • 语义 Retriever 基准测试 - LlamaIndex: 未找到描述
    • Colbert - LlamaIndex: 未找到描述
    • llama_index/llama-index-integrations/indices/llama-index-indices-managed-colbert/llama_index/indices/managed/colbert/base.py at main · run-llama/llama_index: LlamaIndex 是为您 LLM 应用提供的数据框架 - run-llama/llama_index
    • </ul> </div> --- **LlamaIndex ▷ #[ai-discussion](https://discord.com/channels/1059199217496772688/1100478495295017063/1222209476812079115)** (3 条消息): - **RAFT 赋能 LlamaIndex**: 一篇题为《Unlocking the Power of RAFT with LlamaIndex: A Journey to Enhanced Knowledge Integration》的文章讨论了 RAFT 如何增强 LlamaIndex 的知识集成。详细见解请参阅 [Medium 文章](https://medium.com/ai-advances/unlocking-the-power-of-raft-with-llamaindex-a-journey-to-enhanced-knowledge-integration-4c5170d8ec85)。 - **介绍 Centre for GenAIOps**: 国家技术官 (NTO) 和首席技术官 (CTO) 成立了一家名为 Centre for GenAIOps 的非营利组织,旨在解决构建 GenAI 驱动的应用时的限制和风险。关于该组织及其对 LlamaIndex 使用的详细信息可以在其 [网站](https://genaiops.ai/) 和 [LinkedIn 页面](https://www.linkedin.com/company/the-centre-for-genaiops-cic/?viewAsMember=true) 上找到。 - **寻求 GenAI 训练资源**: 一位成员请求推荐关于训练大语言模型 (LLMs) 的学习资源,包括博客、文章、YouTube 视频、课程和论文。聊天中未建议具体资源。 --- **OpenAI ▷ #[ai-discussions](https://discord.com/channels/974519864045756446/998381918976479273/1222103410317332490)** (90 条消息🔥🔥): - **Sora 的创意影响力获得认可**:视觉艺术家和制片人(如 [Paul Trillo](https://openai.com/blog/sora-first-impressions) 和总部位于多伦多的制作公司 *shy kids*)分享了他们对 **Sora** 的初步看法,强调了它在生成超现实和以往无法实现的创意方面的强大能力。 - **用户请求聊天机器人对话的撤销功能**:一位成员建议在 prompts 上添加“删除按钮”,以便将对话重置到特定点,从而让用户在输入错误的情况下仍能保持对话质量。 - **寻求 SORA 白名单权限遭拒**:一位摄影指导询问如何获取 **SORA** 白名单以进行创意 AI 工具实验,但被另一位成员告知目前已无法申请。 - **关于 LLM 硬件需求和实现的讨论**:对话涉及 60b 参数 AI 聊天机器人所需的潜在硬件,一位成员建议通过 ollama 使用 [DeepSeekCoder's 67b](https://openai.com/chatgpt) 模型,尽管另一位成员指出无法在本地运行 OpenAI 模型的局限性。 - **Claude 3 的能力及其与 GPT-4 的比较**:成员们讨论了他们使用 **Claude 3** 的经验,指出与 **GPT-4** 相比,它在编程和整体智能方面表现出色,部分成员在处理各种任务时更倾向于使用 Claude。
      Links mentioned:
      --- **OpenAI ▷ #[gpt-4-discussions](https://discord.com/channels/974519864045756446/1001151820170801244/1222099416132091964)** (14 messages🔥): - **为 Apple 生态系统专业知识训练 AI**:建议使用 macOS 相关的书籍或课程讲义以及 XCode 或 FCP 等应用程序的特定领域知识训练一个独立的 AI 实例,以显著提高 AI 的实用性。 - **自定义 Assistant 的 API 集成故障排除**:一位用户在使用 `openai.beta.threads.runs.create` 实现自定义 Assistant 时遇到困难,未收到预期的输出或日志。他们询问如何确保 Assistant 像在 Playground 中那样遵循指令。 - **Assistant API 响应的差异**:用户正在比较其 Assistant API 与 GPT Store 中自定义 GPT 的响应,讨论指出响应差异可能源于底层的 prompting 或参数变化。 - **通过 AI 成为 Apple 认证支持专业人员**:讨论了根据成为 Apple 认证支持专业人员所需的认证要求来定制 AI,重点关注部署、配置、管理和安全性,特别是在移动设备管理(MDM)领域。 - **对 AI 访问权限扩展的好奇与耐心**:一位用户分享了指向 OpenAI 公告的 [Twitter 链接](https://twitter.com/OpenAI/status/1773032605002203559?t=jZBiDy4Xzymzfy7n14RGzQ&s=19),引发了关于其酷炫程度的反应,但也承认向所有人(特别是欧洲地区)的推广存在延迟。 --- **OpenAI ▷ #[prompt-engineering](https://discord.com/channels/974519864045756446/1046317269069864970/1222178648430481418)** (39 messages🔥): - **PDF 提取中的 GPT 内存限制**:一位使用 **gpt-3.5-turbo-16k** 的成员在分块提取 PDF 信息时遇到结果不可靠的问题。尽管没有达到 Token 限制,但仍会遇到问题,特别是在跨多页的连续性方面。建议减小分块大小并使用 embeddings 来提供上下文。 - **理解 Context Window**:“Context Window” 被解释为类似于模型处理任务时的短期记忆。由于其大小限制,当指令移出 Context Window 时,模型可能会丢失对任务的追踪。 - **处理 PDF 控制增强的建议**:对话针对一位成员从 PDF 中提取特定元素而忽略其他元素的复杂任务。建议采用**逐页处理**以及将 PDF 分成专门针对完整控制项的各个部分等解决方案。 - **改进代码生成提示词**:另一位成员寻求改进用于自动将发票数据提取到 Excel 的 Python 脚本提示词。反馈强调了提示词导致 API 使用过时以及包含虚假数据的问题。 - **停止 ChatGPT 生成存根代码回复**:分享了一个防止 ChatGPT 提供带有占位符的部分代码回复的技巧。该技巧建议在指令中要求 ChatGPT 生成完整的代码,而不要默认使用类似 "rest of the code here" 的注释存根。 --- **OpenAI ▷ #[api-discussions](https://discord.com/channels/974519864045756446/1046317269069864970/1222178648430481418)** (39 messages🔥): - **针对特定 PDF 提取的 Prompt Engineering**:一名成员尝试使用 Azure OpenAI **从 PDF 中提取信息**,但在提取后续页面时面临可靠性问题。建议包括将处理过程缩减为每两个页面一个分块(chunks),以防止模型上下文窗口(context window)过载。 - **揭开上下文窗口的神秘面纱**:讨论揭示了成员对“上下文窗口”概念的困惑。其他成员澄清说,它是 GPT 模型的**短期记忆限制**,随着新信息的进入,旧信息可能会被遗忘。 - **利用 Embeddings 提高模型效率**:针对确保跨多个页面的上下文连续性,提出的一种解决方案是使用 **embeddings**。这将允许检测页面之间的相似性,确保在分块处理时不会遗漏相关信息。 - **自动化 PDF 信息提取**:有人寻求关于 Prompt 的建议,旨在利用 Google Colab 中的 Python 脚本自动将 PDF 中的发票详情提取到 Excel 表格中。提到的问题包括过时的 API 使用以及回复中包含不想要的虚假数据。 - **确保 ChatGPT 输出完整代码**:一名成员提供了一个技巧,通过指示模型始终输出完整代码,而不使用表示省略部分的语句,来避免 ChatGPT 输出不完整的代码片段。尽管如此,也有人对注释在调试中的重要性表示担忧。 --- **Eleuther ▷ #[general](https://discord.com/channels/729741769192767510/729741769738158194/1222124065641463839)** (143 messages🔥🔥): - **讨论高效的 Tokenizers**:用户就大型 Tokenizers 的效率进行了辩论,一方认为大型 Tokenizers 可以为终端用户节省成本,因为表示数据所需的 Token 数量更少。其他用户则认为算法效率并不一定意味着更好的模型性能,因为 Tokenizer 会影响单词之间关系的建立方式。参见此处的讨论 [here](https://x.com/amanrsanger/status/1771590523046051947?s=20)。 - **评估 AI 检索流水线**:提出了一个涉及检索的项目,询问目前构建向量库(vector stores)的最佳方法、评估检索流水线的工具,以及是否存在评估检索质量的统计方法。对话中提到了 `faiss` 库、[OpenAI's evals](https://github.com/openai/evals) 和 [RAGAS](https://github.com/explodinggradients/ragas)。 - **DBRX 模型成为焦点**:MosaicML 和 Databricks 发布了一个名为 DBRX 的 132B 参数 MoE LLM,引发了关于其构成、成本效率和性能基准的讨论。问题涉及该模型的 Tokenizer 及其与 Mixtral 和 GPT-4 的比较。更多信息可以在 [Databricks' blog](https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm) 上找到。 - **科技巨头联手对抗 Nvidia 的软件主导地位**:一个名为 The Unified Acceleration Foundation (UXL) 的新型跨行业协作组织旨在打破 Nvidia 在 AI 软件上的垄断。这包括开发 Nvidia CUDA 库的开源替代品,预计将在今年晚些时候成熟。 - **AI 法规与协作谈话**:一名成员介绍自己是 LSE AI 与治理小组的成员,表达了对 AI 安全、政策和法规的兴趣。另一名成员询问寻找研究合作伙伴的方向,这表明社区正在促进共同研究兴趣的联系。
      Links mentioned:
      --- **Eleuther ▷ #[research](https://discord.com/channels/729741769192767510/747850033994662000/1222267503347236904)** (25 messages🔥): - **在 Squad 上检查自回归模型评估**:一位成员质疑在 **Squad** 上评估自回归模型的标准,并提出了一种替代方案,即根据最高对数概率(log probability)评估候选跨度(candidate spans),使用 spacy 的 Noun Chunks 等工具来识别候选。提议的方法引发了对其有效性以及是否通过减少输出空间构成“作弊”的担忧。 - **探索 Squad 评估替代方案**:关于在 Squad 上评估自回归模型的进一步建议包括约束束搜索(constrained beam search)的想法,该搜索将有效的初始 tokens 限制在上下文范围内,尽管 BPE 词汇表中的 Tokenization 和空格可能会带来复杂性。 - **RAFT:一种比 RAG 更先进的技术**:分享了一篇介绍 **Retrieval Augmented FineTuning (RAFT)** 的论文,该技术训练模型在问答任务中忽略干扰文档,以提高在“开卷”领域内设置下的性能。论文可在[此处](https://arxiv.org/abs/2403.10131)获取。 - **评估多语言 Token 的影响**:讨论了一种违反直觉的效应,即为 LLM 添加新语言的 tokens 可能会损害整体性能,并提到了一篇关于此主题的相关论文,可在[此处](https://arxiv.org/abs/2401.01055)找到。 - **美国开源权重法律地位的紧迫性**:强调了对 NTIA 开源权重 RFC 发表评论的重要性,以影响未来关于基础模型的政策,并提供了一个响应文档的链接,该文档认为开源权重比闭源权重更安全,可以在[此处](https://docs.google.com/document/d/1JkTIbLFYLhg3EzQDm3zuC1H0dNdx6RowlndUXq2QwgY/edit)阅读并签署。 - **新 DBRX 模型树立性能标杆**:Databricks 推出了 **DBRX**,这是一款开源通用 LLM,据称树立了新的基准,在编程任务中超越了 GPT-3.5 并可与 CodeLLaMA-70B 等专业模型媲美,同时在性能效率上优于其他开源模型。更多细节可以在 Databricks 博客[此处](https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm)找到。
      提及的链接:
      --- **Eleuther ▷ #[scaling-laws](https://discord.com/channels/729741769192767510/785968841301426216/1222356221907046431)** (13 条消息🔥): - **muP 使用之谜**:*muP* 尚未被公开承认是调优大型模型超参数的标准,AI 社区成员注意到缺乏关于其使用的公开讨论或承认。 - **即将发布的 muP 见解**:一位成员提到拥有 *muP* 的经验,并计划很快发表相关论文,提议在发表后讨论该话题。 - **归一化技术辩论**:尽管 *muP* 建议使用 `1/d` 进行归一化,但从业者似乎继续使用 `1/sqrt(d)`,这引发了关于替代方案是否经过充分测试的好奇。 - **GPT-4 的隐晦引用**:*GPT-4 论文* 包含了对 *Tensor-Programs V (muP) 论文* 的引用,但似乎并未在正文中直接引用。 - **Grok-1 模型对 muP 的使用**:据其 GitHub 仓库显示,*xAI 的 Grok-1* 模型采用了 *μP*,尽管它没有像 *muP* 最初建议的那样将 Logits 温度从 `1/sqrt(d)` 切换到 `1/d`。 **提到的链接**:grok-1/run.py at main · xai-org/grok-1:Grok 开源发布。通过在 GitHub 上创建账号为 xai-org/grok-1 的开发做出贡献。 --- **LAION ▷ #[general](https://discord.com/channels/823813159592001537/823813160075132991/1222206437971853432)** (103 条消息🔥🔥): - **AI 模型输出的担忧**:成员们讨论了 AI 模型在无条件提示词下可能生成不当内容的问题。有人提到了一篇 [Substack 文章](https://aimodels.substack.com/p/new-study-finds-up-to-17-of-ai-conference),该文章探讨了语言模型对 AI 会议同行评审中语言趋势的影响。 - **模型训练挑战探讨**:聊天中包括了关于微调中灾难性遗忘(catastrophic forgetting)和 caption dropout 重要性的辩论,引用了一个[关于持续学习的 YouTube 视频](https://www.youtube.com/watch?v=vjaq03IYgSk),并讨论了像 *fluffyrock* 这样通过训练变得 "cooked"(过度训练)或产生偏见的微调模型。 - **快速推理初创公司的就业机会**:来自 fal.ai 的一名成员发布了 ML 研究员的招聘信息,通过[此 Notion 链接](https://www.notion.so/featuresandlabels/We-are-hiring-fal-ai-37eece7cf700403fbb63b61b757684c4)分享了细节。他们提到重点关注 diffusion models 和快速推理引擎。 - **对 AI 自我意识主张的讽刺性看法**:在讨论将 AI 作为校对工具并分享相关的 OpenAI 聊天记录([第一个链接](https://chat.openai.com/share/47e3dfba-456f-4497-89cc-725ac2c326bc),[第二个链接](https://chat.openai.com/share/5d5fd377-44a1-4e75-aa53-da70f12bd492))之后,一名成员对 AI 模型 Claude3 出现自我意识的断言发表了讽刺性评论。 - **揭穿误导性的视觉数据呈现**:参与者批评了一个 Twitter 帖子,认为其数据可视化具有误导性,图表中的坐标轴被操纵以夸大性能,从而引发了关于伦理数据呈现实践的讨论([Twitter 帖子](https://twitter.com/code_star/status/1772956868773634254?t=9UVPOEWeTjIvfyizm9Z2BA&s=19))。
      提到的链接:
      --- **LAION ▷ #[research](https://discord.com/channels/823813159592001537/824374369182416994/1222163467306270871)** (7 条消息): - **加速 Diffusion Models**:[SDXS 引入了双重方法](https://idkiro.github.io/sdxs/),通过模型小型化和减少采样步骤,显著降低了延迟。提出的 SDXS-512 模型在单 GPU 上可达到 **100 FPS**,而 SDXS-1024 可达到 **30 FPS**,标志着速度上的重大提升。 - **Aurora-M 在多语言 LLM 领域取得突破**:发布了一个名为 [Aurora-M](https://huggingface.co/blog/mayank-mishra/aurora) 的新型 15.5B 参数语言模型,能够理解多语言文本和代码,旨在通过持续预训练和红队测试(red teaming)来增强其能力。 - **几乎无损的 LLM 层剪枝**:针对[开源权重预训练 LLM](https://arxiv.org/abs/2403.17887)的研究表明,使用简单的层剪枝策略移除多达一半的层,导致的性能下降极小。该研究采用了量化和 Low Rank Adapters 等微调方法来构建紧凑且高效的模型。 - **B-LoRA 创新的图像分解**:介绍了 [B-LoRA](https://b-lora.github.io/B-LoRA/),这是一种将图像分解为风格和内容表示的方法,能够实现高质量的风格-内容混合以及风格化图像之间的交换。 - **图像字幕自动化**:发布的 [scripts](https://github.com/ProGamerGov/VLM-Captioning-Tools) 促进了合成图像的字幕生成,使用 CogVLM 和 Dolphin 2.6 Mistral 7b - DPO 处理了 100 万张图像。工具包括字幕失败检测和冗余剥离功能。
      提到的链接:
      --- **CUDA MODE ▷ #[general](https://discord.com/channels/1189498204333543425/1189498205101109300/1222284481554284815)** (13 messages🔥): - **IO 速度难题**:一条消息指出,某些操作的性能严重受限于 **IO (IO bound)**,即使使用 **rapids** 和 **pandas**,由于 SSD IO 带宽限制,也可能难以达到较低的 SOL(speed of light,光速)时间——由于计算需求极小,预取(prefetching)也无济于事。 - **WOPR 服务器概念揭晓**:分享了一个名为 WOPR 的 7x4090 AI 服务器概念链接,引发了讨论:[7x4090 AI Server WOPR concept](https://www.mov-axbx.com/wopr/wopr_concept.html)。人们对他们如何绕过 Nvidia 在 4090 GPU 上禁用的 [设备间复制问题 (device-to-device copy issue)](https://x.com/mov_axbx/status/1772569639396024333) 产生了疑问。 - **窥见统一加速基金会 (Unified Acceleration Foundation)**:分享了关于 Google 和 Intel 等主要科技公司联手组建统一加速基金会的细节。该协作旨在通过开发[开源软件套件](https://www.theverge.com/2024/3/25/24111435/nvidia-ai-market-google-intel-arm-uxl-foundation-cuda)来消除 Nvidia 在 AI 市场的软件优势,防止被锁定在专有技术中。 - **OpenCV 爱好者咨询动态 CUDA 支持**:一位 OpenCV 社区成员正寻求为 DNN 模块中实现动态 CUDA 支持做出贡献。他们分享了一份[调查问卷](https://forms.gle/7kyMtMgYA2VA4mUN9)以收集增强 CUDA 功能的经验和建议。 - **测试双 4090 设置的点对点内存传输**:一位用户分享了测试双 4090 RTX 设置的结果,展示了与 `torch.distributed` 的兼容性以及在点对点(peer-to-peer)内存传输基准测试中令人惊讶的性能结果。包含性能结果的 Notebook 可以在[此处](https://github.com/cuda-mode/p2p-perf/blob/main/rtx-4090-2x/2x-4090-p2p-runpod.ipynb)获取,欢迎其他人对方法论或额外基准测试提供反馈。
      提到的链接
      --- **CUDA MODE ▷ #[triton](https://discord.com/channels/1189498204333543425/1189607595451895918/1222523864886542486)** (1 messages): - **寻找 Triton 学习者以获取见解**:一位成员正准备参加定于 4 月 13 日举行的 **Triton** 演讲,并希望采访最近开始学习 Triton 的人,重点关注他们的经验和任何误解。感兴趣的人士受邀通过私信或其 [Twitter](https://x.com/UmerHAdil) 与该成员联系。 - **呼吁修复嵌入问题**:有人呼吁解决损坏的 Twitter/X 嵌入问题,建议使用 FixTweet/FxTwitter 作为改进 Discord 和 Telegram 中多媒体内容显示的解决方案。 **提到的链接**:来自 GitHub 的推文 - FixTweet/FxTwitter: 修复损坏的 Twitter/X 嵌入!在 Discord、Telegram 等平台上使用多图、视频、投票、翻译等功能:修复损坏的 Twitter/X 嵌入!在 Discord、Telegram 等平台上使用多图、视频、投票、翻译等功能 - FixTweet/FxTwitter --- **CUDA MODE ▷ #[cuda](https://discord.com/channels/1189498204333543425/1189607726595194971/1222472696118378537)** (1 条消息): - **关于动态 CUDA 支持的调查**:一位名为 Sagar Gupta 的社区成员正在征求关于在 OpenCV DNN 模块中实现动态 CUDA 支持的意见。他分享了一份 [Google 表单调查](https://forms.gle/7kyMtMgYA2VA4mUN9),以收集用户在使用支持 CUDA 的硬件时的经验,以及在使用静态 CUDA 支持时面临的挑战。 **提到的链接**:无标题表单 OpenCV DNN CUDA 接口调查 :OpenCV DNN CUDA 接口调查 --- **CUDA MODE ▷ #[torch](https://discord.com/channels/1189498204333543425/1189607750876008468/1222507229794664458)** (2 条消息): - **CUDA 和 PyTorch 数据类型陷阱**:一位成员强调了在使用 **PyTorch** 和 **CUDA** 时遇到的问题,即 Torch 中不支持 `uint16`,且 `half` 与 `at::Half` 数据类型会导致链接器错误。他们分享了具体的链接器错误代码 `_ZNK2at10TensorBase8data_ptrI6__halfEEPT_v`,以及他们自己使用 `reinterpret_cast` 将数据指针转换为正确类型的解决方法。 - **希望 PyTorch 提供编译时错误**:同一位成员讨论了对 PyTorch 的 `data_ptr` 方法进行改进的可能性,以便在应用不支持的数据类型时提供**编译时错误**,并建议如果 PyTorch 的类型集是封闭的,这将可以防止运行时问题。 --- **CUDA MODE ▷ #[jobs](https://discord.com/channels/1189498204333543425/1190208177829068860/1222452069823156264)** (5 条消息): - **寻找实习机会**:有人询问是否有实习或短期工作的机会;得到的回复是此类职位*目前已关闭*。 - **英国博士学位的职业前景**:关于英国博士持有者职位的咨询引导至了 **NVIDIA 的职位列表**信息,这些信息可以在其[全球职位发布页面](https://nvidia.wd5.myworkdayjobs.com/NVIDIAExternalCareerSite)上找到。 - **人才重于地域**:一个团队提到他们对来自英国的候选人持开放态度,因为他们优先考虑人才而非地理位置,并指出他们甚至在苏黎世也有一名团队成员。 **提到的链接**:NVIDIA 职业生涯:未找到描述 --- **CUDA MODE ▷ #[beginner](https://discord.com/channels/1189498204333543425/1191300313928433664/1222262551052554280)** (17 条消息🔥): - **PyTorch C++ 绑定的 MSVC 构建问题**:一位成员在 Windows 上将 C++ 代码绑定到 PyTorch 时遇到问题,面临涉及 `_addcarry_u64` 的错误。尝试通过 [PyTorch 论坛](https://discuss.pytorch.org/t/trouble-building-with-c-torchscript/182443)和 [GitHub issues](https://github.com/pytorch/pytorch/issues/89040) 寻找解决方案,但未获成功。 - **应对环境搭建问题**:即使在确保开发者命令提示符能够识别 `cl.exe` 之后,他们仍遇到了需要手动安装 `ninja` 和 `setuptools` 等挫折。根本原因被确定为尝试在 32 位而非 64 位环境下进行构建。 - **CUDA 和 PyTorch 持续出现的 ImportError**:即使成功运行了 PyTorch 的 CPP 扩展,该成员在尝试构建 CUDA 代码时又遇到了 ImportError。尽管进行了广泛的排查,包括环境检查和依赖管理,错误仍然存在。 - **匹配 PyTorch 和 CUDA 版本解决了问题**:在用户将 CUDA 版本从 12.3 降级到 11.8 以匹配 PyTorch 的 CUDA 版本后,问题得到了解决。这是一个至关重要但偶尔会被忽视的兼容性方面。 - **Windows 原生环境的替代方案**:另一位成员建议使用 Windows Subsystem for Linux (WSL) 来完成此类任务,这一建议得到了认可,但原成员已通过其他方式解决了问题,并计划记录他们的发现,以便为未来的 Windows 用户提供方便。 **提到的链接**:Issues · pytorch/pytorch:Python 中的 Tensor 和动态神经网络,具有强大的 GPU 加速功能 - Issues · pytorch/pytorch --- **CUDA MODE ▷ #[pmpp-book](https://discord.com/channels/1189498204333543425/1194427148656721970/1222282271248089180)** (8 条消息🔥): - **警惕使用聊天讨论进行 AI 训练**:一位成员开玩笑地建议不要允许 OpenAI 或 Gemini 使用消息进行 AI 训练,表达了对它们学习能力的轻松担忧。 - **LLM 对 PMPP 问题的准备情况**:聊天参与者幽默地评论道,虽然 OpenAI 和 Gemini AI 都能处理 PMPP 讨论,但仍有可能出错。 - **AI 实验中意想不到的结果**:有人分享了一个轶事,来自 UIUC 的 AI 模型遇到了挑战,未能正确处理某些案例。 - **影响学习目标的现实挑战**:一位成员表达了由于个人承诺和突发健康问题,在实现学术目标方面遇到的困难。 - **考虑内容的隐私保护措施**:参与者讨论了将 GitHub 仓库或博客设为私有的想法,以防止其被用于 AI 训练,并建议通过 Google 链接进行私下分享。 --- **CUDA MODE ▷ #[torchao](https://discord.com/channels/1189498204333543425/1205223658021458100/)** (1 messages): marksaroufim: 新的 RFC https://github.com/pytorch-labs/ao/issues/86 --- **CUDA MODE ▷ #[ring-attention](https://discord.com/channels/1189498204333543425/1208496482005549086/1222229679709356233)** (17 messages🔥): - **令人期待的性能提升**:分享了一组使用 **adamw_torch** 和 **fsdp** 以及 16k 上下文的新训练运行,显示出更好的 loss 指标。可在 [Weights & Biases](https://wandb.ai/iron-bound/axolotl/runs/6s33d6mp) 查看。 - **FSDP 训练参考资料收集**:正在汇编关于 **Fully Sharded Data Parallel (FSDP)** 训练的有价值资源和讨论,包括 PyTorch [FSDP 教程](https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html) 和一个解决 [loss 不稳定问题](https://github.com/huggingface/transformers/issues/26498) 的链接。 - **调查 FSDP 损失计算**:正在进行实验以了解 **FSDP** 如何影响 loss 计算及其与 [Hugging Face Accelerate](https://github.com/huggingface/accelerate) 等工具的交互。 - **寻求对比运行的清晰度**:有人请求分享带有和不带有特定配置的训练 Weights & Biases 链接,以比较性能结果。对照组运行可以在[这里](https://wandb.ai/iron-bound/axolotl/runs/m2qd8b46?nw=nwuserironbound)找到,还有其他测试可供审查,例如[这个](https://wandb.ai/iron-bound/axolotl/runs/hylu7nag?nw=nwuserironbound)。 - **深入探讨 Ring Attention**:有人对 **Ring Attention**、**Blockwise Attention** 和 **Flash Attention** 的性质和区别提出了疑问,涉及它们在分布式环境中的各自实现以及 PyTorch 的偏好。
      提到的链接:
      --- **CUDA MODE ▷ #[gtc-meetup](https://discord.com/channels/1189498204333543425/1218444432588800010/)** (1 messages): vim410: 哎呀。我错过了这个!我当时在 GTC,现在回到了偏远地区。 --- **CUDA MODE ▷ #[triton-puzzles](https://discord.com/channels/1189498204333543425/1219683012707487794/1222323905038123008)** (26 messages🔥): - **Triton 安装寻求帮助**:一位用户在尝试安装 **triton-puzzles** 时,在 Linux 上遇到了关于 `libc.so.6: version GLIBC_2.34 not found` 的 `ImportError`。他们尝试了包括系统更新和使用 `pip install triton` 在内的多种解决方案,但均未解决问题。 - **Triton Kernel 问题**:一位成员在为 puzzle 7 编写 **triton kernel** 时,在内部使用 `tl.zeros` 遇到了 `RuntimeError`,尽管示例表明这应该是可行的。该错误与在 kernel 作用域之外使用 `@triton.jit` 有关,促使他们寻求澄清和帮助。 - **Triton 错误的快速响应**:**kerenzhou** 快速响应了询问,建议成员如果遇到类似错误,应在 **triton-viz** 的 GitHub 仓库上提交 issue。 - **持续存在的 Triton 导入错误**:成员们报告了导入 **triton_viz** 时的 `ImportError`,这显然与最近的重命名和更新有关。**kerenzhou** 建议从源码安装 **triton** 和 **triton-viz** 作为补救措施。 - **发现 Triton Wheel Pipeline 问题**:**kerenzhou** 解释说 **Triton 官方 wheel pipeline** 一直处于失败状态,建议手动构建 wheel 或从源码安装作为首选方法。并提供了如何克隆 **Triton** 仓库并使用 `pip` 进行安装的说明。 **提到的链接**:GitHub - Deep-Learning-Profiling-Tools/triton-viz:通过在 GitHub 上创建账号,为 Deep-Learning-Profiling-Tools/triton-viz 的开发做出贡献。 --- **OpenAccess AI Collective (axolotl) ▷ #[general](https://discord.com/channels/1104757954588196865/1104757955204743201/1222105754849513493)** (60 messages🔥🔥): - **Haiku:更小的尺寸,更大的魔力?**:成员们讨论了 **Haiku**,一个仅有 200 亿参数的 LLM,认为**数据质量**可能比模型尺寸更重要。非官方的评估和对比强调了社区对该模型有效性的兴趣。 - **探索 Starling-LM 7B**:频道内介绍了 [Starling-LM-7B-alpha](https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha),该模型在某些基准测试中表现优异,引发了关于其地位是否超越 **Mixtral** 等现有模型的讨论。 - **对 DBRX 的兴奋,领域新秀**:Databricks 发布了 **DBRX Base**,这是一个采用 Mixture-of-Experts 架构的大语言模型,分享在 [Hugging Face 仓库](https://huggingface.co/databricks/dbrx-base)中。社区对其规模和训练语料库表现出浓厚兴趣,并对其训练过程和能力进行了推测。 - **LLM 使用中的技术障碍**:对话显示,尽管对新模型感到兴奋,但实际问题仍然存在,例如与某些版本的 Transformers 或 PyTorch 二进制模型不兼容,突显了部署前沿 LLM 的挑战。 - **硬件限制与模型训练的苦恼**:几位成员对近期模型的硬件需求表示沮丧,承认即使加载比 **DBRX** 更小的模型也需要大量的 GPU 资源,从而将训练尝试限制在那些拥有强大计算能力的人手中。 --- **OpenAccess AI Collective (axolotl) ▷ #[axolotl-dev](https://discord.com/channels/1104757954588196865/1104758010959634503/1222113529474318388)** (14 messages🔥): - **Axolotl 开发故障排除**:一位用户报告在 **Runpod 上使用 Axolotl Docker 模板**时难以打开 Jupyter notebook,由于 Runpod 设置更改,这似乎是一个持续存在的问题。他们被建议将挂载卷更改为 `/root/workspace` 并重新克隆 Axolotl 以尝试解决问题。 - **Trainer.py 中的 Bug 修复**:`trainer.py` 中的一条评论指出,在使用 `sample_packing` 时,关于总步数计算的一个潜在 Bug。建议的修复方法是移除 `data_loader_len = len(data_loader) // cfg.batch_size` 中对 `batch_size` 的除法,从而修正一个 epoch 中的步数。 - **对 DBRX 模型封装的兴趣**:提到了 DBRX Base,这是 Databricks 推出的一种新的 Mixture-of-Experts (MoE) 语言模型,并鼓励考虑为其进行封装。该模型附带一份[技术博客文章](https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm),并根据[开放许可证](https://www.databricks.com/legal/open-model-license)发布。 - **巨型模型加载问题**:一位用户尝试使用 qlora+fsdp 加载 **DBRX Base model**,但遇到了问题。用户询问了 qlora+fsdp 与 qlora 结合 DeepSpeed 的优势对比,这表明在管理大型模型时,人们正在不断尝试和使用不同的技术。 - **跨 GPU 的模型加载**:提到一个持续存在的问题,用户怀疑在跨 GPU 进行分片 (sharding) 时,模型加载可能存在某些缺陷,这暗示了模型分发策略中的复杂性。
      提到的链接
      --- **OpenAccess AI Collective (axolotl) ▷ #[general-help](https://discord.com/channels/1104757954588196865/1110594519226925137/1222143230812885083)** (8 条消息🔥): - **不可见字符导致 KeyError**:一位成员分享道,他们遇到的 **KeyError** 是由于数据中存在*不可打印字符*造成的,这些字符只有使用合适的工具才能看到。 - **没有 eos_token 的 Mistral7b 预训练**:一位成员询问在 **Mistral7b** 的训练数据集中缺失 **eos_token** ("</s>") 是否会有问题,并指出目前仅有 **bos_token** ("") 用于分隔样本。他们提到使用 HuggingFace 的 *[run_clm.py 方法](https://github.com/huggingface/transformers/blob/f01e1609bf4dba146d1347c1368c8c49df8636f6/examples/pytorch/language-modeling/run_clm.py#L526)* 进行文本数据打包 (packing)。 - **量化 Checkpoint 加载错误**:一位成员报告了一个涉及将量化 Checkpoint 加载到非量化模型中的 ```RuntimeError```,并提到创建一个*全新的环境*似乎可以暂时缓解该问题。 - **关于 RAM 的无关好奇**:在讨论 Mistral7b 预训练的过程中,一位成员询问了另一位成员使用的 RAM 数量,这引起了困惑,因为它与原始的预训练问题无关。 **提到的链接**:transformers/examples/pytorch/language-modeling/run_clm.py at f01e1609bf4dba146d1347c1368c8c49df8636f6 · huggingface/transformers:🤗 Transformers:适用于 Pytorch、TensorFlow 和 JAX 的最先进机器学习库。- huggingface/transformers --- **OpenAccess AI Collective (axolotl) ▷ #[bots](https://discord.com/channels/1104757954588196865/1117282691121954836/)** (1 条消息): anothermetic:<@1163482975883772027> 你开始工作了吗? --- **OpenAccess AI Collective (axolotl) ▷ #[community-showcase](https://discord.com/channels/1104757954588196865/1117851527143493664/1222183582915760260)** (6 条消息): - **介绍 Olier,整体瑜伽 AI**:一个名为 **Olier** 的 AI 已经诞生,它基于 **Hermes-Yi**,并在 axolotl 社区的帮助下,使用 **qlora** 在有关印度哲学的数据集上进行了微调。该模型目前托管在 [La Grace Sri Aurobindo Integral Life Centre](https://lagracecenter.com/introducing-olier-an-integral-yoga-ai-initiative/)。 - **新颖的数据集设计助力深度理解**:通过使用源自 **Sri Aurobindo** 著作并经由 **GPT-4** 增强的数据集,Olier 通过所谓的“知识增强” (knowledge augmentation) 在该主题的技术层面实现了极高的准确性。 - **聊天模板化作为一种有效的训练技术**:一位成员赞扬了另一位成员建议使用聊天模板化 (chat templating) 来组织数据集,将哲学文本与对话融合,从而增强了模型在特定风格下的对话和文本理解能力。 - **与原始文本的高质量对话**:聊天模板化技术提供的结构化重复和主题一致性,对于确保 Olier 能够准确地进行反映“整体瑜伽”原始文本风格的对话至关重要。 - **机器学习从业者的不同方法**:尽管聊天模板化在训练 Olier 时证明是成功的,但另一位成员指出,从业者通常还会使用其他方法,如屏蔽用户输入和指令序列,这标志着模型训练技术的多样性。 **提到的链接**:介绍 Olier – 一个整体瑜伽 AI 项目 – La Grace:未找到描述。 --- **OpenAccess AI Collective (axolotl) ▷ #[deployment-help](https://discord.com/channels/1104757954588196865/1163840836472148058/1222396674547126343)** (3 messages): - **Hugging Face 受到批评**:一位成员对 [Hugging Face](https://huggingface.co/) 表示不满,警告他人不要使用。 - **Hugging Face 成本批评**:该成员称 Hugging Face “价格过高”,但未提供具体细节或对比。 - **缺少超大型语言模型**:有人指出 Hugging Face 不提供 "vllm" (very large language models)。 --- **Modular (Mojo 🔥) ▷ #[general](https://discord.com/channels/1087530497313357884/1098713601386233997/1222142557673492490)** (40 messages🔥): - **Mojo 学习资源发布**:在 [GitHub 上的 mojolings](https://github.com/dbusteed/mojolings) 发现了一个类似于 *rustlings* 的 Mojo 基础学习资源,尽管目前仍在开发中。用户对发现这一教育工具表示满意。 - **讨论 Rust Borrow Checker 的困扰**:用户们分享了对 Rust Borrow Checker 的*挫败感*,特别是其令人困惑的 lifetimes。提到 Mojo 计划实现一个具有*更简单语义*的 Borrow Checker。 - **链表与 Mojo 的 Borrow Checker**:用户好奇一旦 Mojo 实现了 Borrow Checker,链表将如何运作,并考虑是否需要“诅咒 (cursed)”的方法才能通过检查。讨论了由于 Mojo 的值语义和 ASAP 内存模型,实现更简单的 borrowing 和 lifetimes 的潜力。 - **解决 Mojo 在 VSCode 中的调试问题**:提到了在 VSCode 中调试 Mojo 时设置断点的困难,并提供了一个有用的 [GitHub issue 链接](https://github.com/modularml/mojo/issues/1924#issuecomment-2018212062) 作为解决办法。 - **Rust Lifetimes 澄清**:一些用户认为 Rust 中 lifetimes 的解释模糊且说明不足。推荐了 *Rust for Rustaceans* 书中的一个免费章节作为理解 Rust lifetimes 的更好资源。
      提到的链接
      --- **Modular (Mojo 🔥) ▷ #[💬︱twitter](https://discord.com/channels/1087530497313357884/1098713626161987705/1222216423477219348)** (2 messages): - **Modular 发布推文**:Modular 在其官方账号上分享了一条推文,可以在[这里](https://twitter.com/Modular/status/1772654222942879946)查看。 - **Modular 的另一条 Twitter 更新**:Modular 发布了一条新推文,可通过[这里](https://twitter.com/Modular/status/1773024465401852107)访问。 --- **Modular (Mojo 🔥) ▷ #[✍︱blog](https://discord.com/channels/1087530497313357884/1098713717509730466/1222579708378742906)** (1 messages): - **使用 Amazon SageMaker 简化模型部署**:分享了一篇博客文章,详细介绍了开发人员和数据科学家如何轻松地在 Amazon SageMaker 上部署 MAX 优化的模型端点,而无需深厚的 IT 或云基础设施专业知识。本[指南](https://www.modular.com/blog/deploying-max-on-amazon-sagemaker)逐步介绍了从 HuggingFace 下载 _Roberta_ 模型、上传到 S3、使用 MAX Serving 容器以及在 EC2 _c6i.4xlarge_ 实例上进行部署的过程。 **提到的链接**:Modular: Deploying MAX on Amazon SageMaker:我们正在为世界构建下一代 AI 开发平台。查看我们的最新文章:在 Amazon SageMaker 上部署 MAX --- **Modular (Mojo 🔥) ▷ #[tech-news](https://discord.com/channels/1087530497313357884/1151359062789857280/1222238021785620580)** (4 messages): - **新身份验证系统带来的 Docker 镜像创建障碍**:一位成员指出,由于新的身份验证系统需要浏览器,自动化 Docker 镜像创建面临挑战,这意味着它使 **Ubuntu in Docker** 的集成变得复杂。 - **Docker 中 Mojo 身份验证的可能变通方案**:该成员探讨了使用 Mojo 作为 entrypoint 在 **Docker container** 内部处理身份验证的可能性,但对在没有浏览器访问权限的情况下能否成功验证表示怀疑。 - **通过本地浏览器在 Docker 中验证 Mojo**:另一位成员分享了在 Docker 中安装 Mojo 和 MAX 的经验,提到他们可以在容器运行时通过在本地浏览器中打开身份验证提示链接来完成验证,这表明尽管对于完全自动化并不理想,但仍是一种部分可行的变通方案。 --- **Modular (Mojo 🔥) ▷ #[🔥mojo](https://discord.com/channels/1087530497313357884/1151418092052815884/1222142981209854074)** (5 messages): - **寻求 Mojo 学习资源**:一位成员询问是否有类似于 rustlings 或 ziglings 的资源,可以教授使用 **Modular (Mojo)** 的基础知识。回复中未提及具体资源。 - **期待 Mojo 的全部潜力**:一位成员对在 **Modular (Mojo)** 完全可用后充分利用它表达了热情,并将积极的 **Rust** 社区比作创新的灯塔。 - **编译时检查的功能请求**:成员们讨论了目前缺乏检查参数化类中的类型是否为 *Stringable* 的功能。有人建议提交功能请求,因为该能力需要在编译时处理。 - **对功能请求的迅速响应**:根据建议,一位成员迅速提交了关于 **Modular (Mojo)** 中 *Stringable* 类型编译时检查的功能请求。 --- **Modular (Mojo 🔥) ▷ #[community-projects](https://discord.com/channels/1087530497313357884/1151418679578337311/1222113224703348746)** (1 messages): - **Mojo 仓库的新成员**:成员 **dorjeduck** 发布了 Andrej Karpathy 的 **micrograd** 的 Mojo 版本,名为 [momograd](https://github.com/dorjeduck/momograd)。他们将该项目视为个人学习尝试,并欢迎建设性的反馈。 **提及的链接**:GitHub - dorjeduck/momograd: A Learning Journey: Micrograd in Mojo 🔥:学习之旅:Mojo 中的 Micrograd 🔥。通过在 GitHub 上创建账号为 dorjeduck/momograd 的开发做出贡献。 --- **Modular (Mojo 🔥) ▷ #[performance-and-benchmarks](https://discord.com/channels/1087530497313357884/1151418895417233429/1222620431073280031)** (1 messages): - **并行优于异步**:一位成员表示,对于某些问题,使用并行处理比异步操作更有优势,这不仅在 Mojo 中成立,在通用计算语境下也是如此。 --- **Modular (Mojo 🔥) ▷ #[🏎engine](https://discord.com/channels/1087530497313357884/1212827673257316453/1222632193990594691)** (1 messages): - **对 TensorSpec 文档的困惑**:一位成员指出 [入门指南](https://docs.modular.com/engine/mojo/get-started#define-input-specs-torchscript-only) 中给出的 TensorSpec 使用示例与 Python API 参考文档之间存在差异。他们寻求关于设置 `TensorSpec` 名称的澄清,因为 `Model.get_model_input_names()` 没有显示模型输入名称。
      提及的链接
      --- **LangChain AI ▷ #[general](https://discord.com/channels/1038097195422978059/1038097196224086148/1222108683614421062)** (44 messages🔥): - **OpenAI Assistants vs 通过 LangChain 实现的 RAG**:对 **OpenAI Assistants API** 与使用 **LangChain** 或 **llamaindex** 的 RAG 进行了比较,指出 LangChain 的 OpenGPTs 在 RAG 方面运行良好并为其提供支持。引用了 [OpenGPTs 演示页面](https://opengpts-example-vz4y4ooboq-uc.a.run.app/) 和 [GitHub 仓库](https://github.com/langchain-ai/opengpts) 以获取示例和进一步见解。 - **LangChain 教程播放列表**:分享了一个 [YouTube 播放列表](https://youtube.com/playlist?list=PLnH2pfPCPZsKJnAIPimrZaKwStQrLSNIQ),其中包含所有关于 **LangChain** 的教程,这是一个使用 LLM 构建生成式 AI 应用程序的框架。 - **创建教育用途的 AI Assistants**:提到一个项目,将创建一个 **AI assistant** 来帮助学生理解 **digital circuits**,需要 LLM 从 PowerPoint 演示文稿中生成电路图。有人征求了关于该项目实施方法的指导。 - **结合 RAG 的 LangChain 用于高级查询处理**:讨论强调了使用 **LangChain with RAG** 进行查询处理,并仅将检索到的 context 传递给 LLM。建议使用 `return_intermediate_steps` 参数来追踪中间步骤,一个 [GitHub link](https://github.com/langchain-ai/opengpts/blob/main/backend/app/retrieval.py) 展示了这种方法的示例。 - **LangChain 的故障排除与文档问题**:用户讨论了在 Docker 容器中使用 **LangChain** 的挑战,以及 **Pinecone** 和 **LangChain** 文档中的不一致之处。具体担忧包括 `vectorstores.py` 中不再存在 `from_documents` 方法,以及文档与实际代码实现之间的不匹配。
      提到的链接
      --- **LangChain AI ▷ #[langserve](https://discord.com/channels/1038097195422978059/1170024642245832774/1222608018210820166)** (1 条消息): - **LangChain Chat Playground 困惑**:一位成员尝试在聊天模式下运行一个 **chain**,并使用类结构进行输入和输出,但遇到了关于聊天 Playground 支持的输入类型的错误。错误信息指出,聊天 Playground 期望一个**包含单个键(该键包含消息列表)的 dict**,或者一个**包含两个键的 dict**(一个字符串输入和一个消息列表),这表明该成员的实现存在不兼容性。 - **添加聊天路由时的技术错误**:在尝试使用 `add_routes` 将 **chain** 添加到聊天模式路由时,从默认模式切换到聊天模式触发了一个错误。该成员分享了他们的 **chain 组合**和 **add_routes** 函数调用的代码片段,寻求针对此问题的帮助。 --- **LangChain AI ▷ #[share-your-work](https://discord.com/channels/1038097195422978059/1038097372695236729/1222271382574862397)** (4 messages): - **Index Network 介绍**:一位用户介绍了 Index Network,这是一个集成了 **LangChain, LangSmith, 和 LangServe** 的发现协议,旨在促进去中心化信息发现。该协议具有去中心化语义索引和针对算法 Agent 的上下文发布/订阅 (pub/sub) 功能,更多详情请参阅 [文档](https://docs.index.network/)。 - **呼吁关注垃圾信息**:提出了一个简单的请求,要求处理社区频道内的垃圾信息,强调了管理的重要性。 - **YouTube 教程发布**:一位用户发布了他们的首个 YouTube 视频,解释如何使用 **LangChain Output Parsers** 和 GPT 将 **PDF 转换为 JSON**。内容基于一篇博客文章,并鼓励大家提供反馈和订阅频道;在此查看 [教程](https://www.youtube.com/watch?v=ubsqSWfXAPI) 或阅读 [原始博客文章](https://www.gettingstarted.ai/how-to-extract-metadata-from-pdf-convert-to-json-langchain/)。 - **GoatStack AI 发布公告**:GoatStack AI 正式推出,这是一款 AI 驱动的助手,承诺提供个性化的研究摘要,以简化对每日涌入的 4000 多篇 AI 论文的跟进。邀请社区在 [Product Hunt 页面](https://www.producthunt.com/posts/goatstack-ai-your-ai-research-agent) 上提供支持和反馈。
      提到的链接:
      --- **LangChain AI ▷ #[tutorials](https://discord.com/channels/1038097195422978059/1077843317657706538/1222164867415543992)** (3 messages): - **AI 销售 Agent 进入职场**:一位成员分享了一个名为 *“AI 员工表现优于人类员工?!构建一个真实的销售 Agent”* 的 [YouTube 视频](https://youtu.be/Cog4km4gQ00),展示了如何在生产环境中构建一个作为销售和 Reddit 回复 Agent 运行的真实 AI 员工。 - **增强型 AI 语音聊天**:另一项贡献包括一个名为 *“使用 Deepgram 和 Mistral AI 进行语音聊天”* 的 [YouTube 视频](https://www.youtube.com/watch?v=Kan7GofHSwg) 链接,演示了如何使用 Deepgram 和 Mistral AI 创建语音聊天服务,并在 GitHub 上提供了支持代码。 - **LangChain PDF 转 JSON 教程**:一位用户发布了他们基于博客文章的首个 YouTube 视频,提供了关于使用 LangChain 的 Output Parsers 和 GPT 将 PDF 文档转换为 JSON 格式的 [教程](https://www.youtube.com/watch?v=ubsqSWfXAPI),并征求反馈,鼓励订阅和分享。
      提到的链接:
      --- **tinygrad (George Hotz) ▷ #[general](https://discord.com/channels/1068976834382925865/1068976834928193609/1222354648908828683)** (18 messages🔥): - **对 Tinygrad 的赞誉**:Tinygrad 被誉为学习神经网络和 GPU 功能的卓越项目,被一位用户称为“最伟大的项目 (most goated project)”。 - **Intel Arc A770 可用于贡献**:一位社区成员拥有 Intel Arc A770 和其他 Intel GPU,并表示有兴趣为该项目做出贡献,尽管自嘲能力不足。 - **改进 Tinygrad 的行动呼吁**:有人建议提高 Tinygrad 的性能以匹配 Pytorch,包括专注于让 Stable Diffusion 运行起来。 - **DBRX LLM 发布与 Tinygrad 集成**:一款采用细粒度 MoE 架构的先进大语言模型 DBRX 引起了聊天室的注意,[George Hotz 认为它非常适合 Tinybox](https://twitter.com/code_star/status/1772956868773634254)。 - **增强 Tinygrad GPU 缓存的机会**:George Hotz 指出了 gpuocelot 缓存系统的一个问题,并推荐了一个完成了一半的 Pull Request [Childless define global](https://github.com/tinygrad/tinygrad/pull/3909) 供他人完成。
      提及的链接
      --- **tinygrad (George Hotz) ▷ #[learn-tinygrad](https://discord.com/channels/1068976834382925865/1070745817025106080/1222117844263899198)** (31 messages🔥): - **Tinygrad 优化详解**:一位成员分享了关于如何确定 _cumsum 的 global_size 和 local_size 的见解,指出使用 `NOOPT=1` 会使所有内容保持在 global,而默认的手写优化则使用启发式方法。他们还表示想更好地理解实现过程,讨论了如何应用长 Reduce (long reduces) 和 float4 向量化等启发式方法。 - **对 Kernel Fusion 的好奇**:一位用户表示有兴趣学习 Kernel Fusion 是如何实现的,随后另一位用户分享了他们关于 [点积 (dot product) 的笔记](https://github.com/mesozoic-egg/tinygrad-notes/blob/main/dotproduct.md),作为理解实现中复杂关系的起点。 - **对个人学习笔记的集体赞誉**:成员们对分享的关于 Tinygrad 各个方面的 [学习笔记仓库](https://github.com/mesozoic-egg/tinygrad-notes) 表示赞赏,建议将其作为官方文档的一部分,不过笔记作者谦虚地建议由专家编写官方文档。 - **对 Tinygrad 文档工作的反应**:社区认可并赞赏了一位成员创作的高质量内容,认为即使项目仍处于 alpha 阶段,这些内容对新贡献者也极具价值。George Hotz 本人也承认了这一贡献非常酷。 - **Tinygrad 文档的前景**:在一位用户询问为什么 Tinygrad 没有 “Read the Docs” 页面后,另一位用户推测,随着 Tinygrad 逐渐成熟并超越 alpha 版本,这类详尽的文档可能会出现。
      提及的链接
      --- **Interconnects (Nathan Lambert) ▷ #[news](https://discord.com/channels/1179127597926469703/1179128538679488533/1222521605742264483)** (10 messages🔥): - **DBRX 震撼发布**: MosaicML 和 Databricks 发布了他们新的大型语言模型 **DBRX**,拥有 132B 参数(32B 激活),32k 上下文长度,并在 12T tokens 上进行训练。这个大型模型在商业许可下可用,可以通过 [Hugging Face](https://huggingface.co/databricks/dbrx-instruct) 访问。 - **关于 DBRX 可用性的修正**: 尽管最初很兴奋,但后来澄清了 **DBRX** 并非开源权重(open weights),而是一个商业授权模型。社区被鼓励下载并尝试它,并承认由于深夜工作导致了一些小混淆。 - **Mosaic's Law 预测成本下降**: @NaveenGRao 指出了一种被称为 **Mosaic's Law** 的趋势,该趋势表明,由于硬件、软件和算法的进步,具有特定能力的模型成本每年将降低到四分之一。 - **许可证限制引发热议**: DBRX 许可证的一个显著条款规定,它不能用于改进除 DBRX 或其衍生品之外的任何其他 LLM。这一限制在社区中引起了从理解到失望的各种反应。 - **邪恶的漏洞?**: 幽默的是,一条评论指出,虽然许可证禁止使用 DBRX 来改进其他 LLM,但它并没有明确禁止使用它来*恶化*(deteriorate)它们。
      提到的链接:
      • Cody Blakeney (@code_star) 的推文: *修正,不是开源权重。这是一个商业友好授权的模型。请原谅我熬夜了 😅 欢迎下载并亲自尝试。https://huggingface.co/databricks/dbr...
      • Naveen Rao (@NaveenGRao) 的推文: 这是我们几年前观察到的一个普遍趋势。我们称之为 Mosaic's Law,即由于硬件/软件/算法的进步,具有某种能力的模型每年所需的资金将减少到 1/4。这...
      • Cody Blakeney (@code_star) 的推文: 它终于来了 🎉🥳 万一你错过了我们,MosaicML/ Databricks 又回来了,推出了一个新的同类最佳开源权重 LLM,名为 DBRX。一个 MoE 模型,总参数 132B,激活参数 32B,32k 上下文长度...
      • Ben (e/sqlite) (@andersonbcdefg) 的推文: 所以你不能用 DBRX 来改进其他 LLM... 但他们从未说过你不能用它来让它们变得更糟
      --- **Interconnects (Nathan Lambert) ▷ #[random](https://discord.com/channels/1179127597926469703/1183121795247779910/1222318063429353482)** (4 messages): - **询问 Mistral CEO 的身高/地位**: 一位成员开玩笑地要求对 Mistral CEO 进行“身高检查”,利用术语来指代对公司地位的见解,或者可能是 CEO 的实际身高。 - **对 Mistral 规模的好奇**: 同一位成员幽默地使用网络俚语询问 Mistral 是 “smol 还是 big”(小还是大),表现出对公司规模和影响力的兴趣。 - **成员们打探 Mistral 的“大人物”**: 延续幽默的基调,一位成员将 Mistral CEO 描述为“掌控大局的人”,表明了对 Mistral 领导层的兴趣。 - **与 Mistral CEO 的炉边谈话**: 对话转向了信息性内容,提供了一个 YouTube 视频链接,标题为“与 Mistral CEO Arthur Mensch 的炉边谈话”。视频描述邀请观众了解包括开源、LLM 和 Agent 在内的话题。[与 Arthur Mensch 的炉边谈话](https://www.youtube.com/live/sQpeIuymJZ8?si=rQvS9xa0zfKAcju5)。 **提到的链接**:与 Mistral CEO Arthur Mensch 的炉边谈话:加入我们,听取 Mistral 联合创始人兼 CEO Arthur Mensch 与 Elad Gil 的对话。涵盖的主题包括:开源与 LLMs、Agents 以及更多内容... --- **Interconnects (Nathan Lambert) ▷ #[rlhf](https://discord.com/channels/1179127597926469703/1208183230608576562/1222304327536873582)** (11 条消息🔥): - **行业数据集将提高标准**:[Nathan Lambert](https://twitter.com/nathanlambert) 提到收到了用于 **reward benchmarking** 的**行业数据**。他暗示这具有设定新 SOTA 标准的潜力。 - **GPT-4 夺得宝座**:Nathan Lambert 提到 **GPT-4** 的 SOTA 性能,并计划将其纳入自己的工作中,表明 GPT-4 已经超越了其他模型。 - **GPT-4 步入评审角色**:讨论揭示了由于运行实验的简便性和显著的成本效益,已转向使用 **GPT-4 进行评估(evaluation)**。 - **AI2 的信用卡来救场**:提到了利用 **AI2 信用卡** 来支持实验,这表明了一项涉及资金支持的协作努力。 --- **Interconnects (Nathan Lambert) ▷ #[reads](https://discord.com/channels/1179127597926469703/1214764639397617695/1222182871712927856)** (13 条消息🔥): - **RLHF 中的二元分类器受到质疑**:一位成员询问是否可以使用二元分类器作为 RLHF 的奖励模型,而不是实现成对(pairwise)设置。回复对 PPO 设置下的有效性表示怀疑,因为其与 DPO 损失函数具有相似性。 - **针对二元奖励的策略梯度方法**:在回答关于 REINFORCE 或其他策略梯度(policy-gradient)方法是否适合二元奖励设置的问题时,对话对在学习中没有“部分奖励(partial credit)”能否成功表示怀疑,强调了模型缺乏生成部分正确解决方案的动力。 - **奖励模型的准确性 vs. 微调语言模型**:对于奖励模型(Reward Bench)的高准确性是否意味着具备微调出优秀语言模型的能力存在困惑。有人指出奖励模型只是一个代理(proxy),且社区目前缺乏如何有效设计这些数据集的知识。 - **RLHF 中稀疏奖励的挑战**:在讨论二元分类器方法时,一位成员指出在稀疏奖励场景下缺乏部分奖励可能会阻碍模型的学习,使 LLM 难以进行迭代改进。对话揭示了对导航权重空间的担忧,因为通往更好解决方案的路径需要对增量改进的认可。 - **关于稀疏奖励与连续奖励知识的辩论**:鉴于对二元分类器奖励的讨论,有人对 RLHF 背景下的稀疏奖励与连续奖励进行了反思。该成员总结道,原则上即使是稀疏设置,模型也应该能学到一些东西。 --- **OpenRouter (Alex Atallah) ▷ #[app-showcase](https://discord.com/channels/1091220969173028894/1092850552192368710/1222330673814306846)** (5 条消息): - **介绍 Sora,一个 Discord 机器人**:Sora 是一个新推出的 Discord 机器人,它集成了 **Open Router API**,旨在促进 Discord 服务器中的对话。该项目已在 [GitHub](https://github.com/mintsuku/sora) 上分享。 - **获得高层认可**:Sora 的创建获得了积极反应,包括 **Alex Atallah** 本人对机器人名称的称赞和红心表情。 - **计划在聚光灯下展示**:Alex Atallah 表示 Sora 将在即将发布的公告中亮相,这标志着该机器人在社区内获得了官方认可和支持。 **提到的链接**:GitHub - mintsuku/sora: Sora 是一个集成 Open Router API 以促进 Discord 服务器对话的 Discord 机器人。:Sora 是一个集成 Open Router API 以促进 Discord 服务器对话的 Discord 机器人。 - mintsuku/sora --- **OpenRouter (Alex Atallah) ▷ #[general](https://discord.com/channels/1091220969173028894/1094454198688546826/1222099936334839958)** (30 条消息🔥): - **AI 性能偏好转变**:一位聊天参与者提到在 **Claude 3** 卡住的任务(尤其是编程任务)中更倾向于使用 **GPT-4**,声称 **GPT-4** 最近更加可靠。还提到了名为 **Cohere's Command-R** 的模型,但没有更多上下文。 - **寻找 AI 噪声抑制模型**:有人询问优秀的**背景噪声抑制模型**,建议寻找用于音频质量增强的 AI 解决方案。 - **"Midnight Rose" 故障排除**:用户报告并讨论了 **Midnight Rose** 不产生任何输出的问题,尽管前一天运行正常。后续反馈显示错误信息为:`Error running prompt: Error: 503 Backlog is too high: 31`。 - **OpenRouter API 消耗查询**:一名成员询问用于测量 OpenAI 和 Anthropic 的 LLM API 消耗的计算器工具。随后,**OpenRouter** 的 **/generation** 端点被提作为一种统计 Token 和跟踪使用情况的方法。 - **寻找 OpenRouter 公司信息**:一位用户正在寻找关于 **OpenRouter** 的基本**公司信息**,并引用了一个关于 OpenRouter 企业数据库条目的链接 https://opencorporates.com/companies/us_de/7412265,但其中可用详情有限。
      提到的链接
      --- **DiscoResearch ▷ #[general](https://discord.com/channels/1178995845727785010/1182877486854451271/1222146758998491147)** (9 messages🔥): - **Prompt 微调精度**:一位参与者思考使用英文 **Prompt** 格式微调模型是否会降低德语输出的质量,建议针对特定语言的 **Prompt** 设计可能会防止 *Prompt Bleed*(提示词渗漏)。例如,将英文 ChatML 和 Alpaca 格式适配为德语,可能会提高德语 LLM 的性能。 - **翻译术语澄清**:针对寻找 "prompt" 一词对应的德语词汇,澄清其可以翻译为 *Anweisung*、*Aufforderung* 或 *Abfrage*。 - **Databricks 发布开源 MoE 模型**:Databricks 团队发布了一个新的开源模型 **DBRX Instruct**,这是一个在 12 万亿个英文 Token 上训练的 132b 稀疏 **MoE** 模型,其技术见解详见[技术博客文章](https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm),@danielhanchen 也分享了相关实验。 - **体验 DBRX Instruct**:可以通过提供的 [Hugging Face Space](https://huggingface.co/spaces/databricks/dbrx-instruct) 体验 **DBRX Instruct** 模型,该空间利用系统 **Prompt** 以及类似于 llamaguard 的工具进行输出对齐。 - **寻求 LLM 训练知识**:一位社区成员寻求学习如何训练大语言模型(LLMs)的资源,引发了关于其兴趣是否在于从零开始训练的询问。
      提到的链接
      --- **DiscoResearch ▷ #[embedding_dev](https://discord.com/channels/1178995845727785010/1192471915504341062/1222298010835222538)** (5 messages): - **重新思考用于 Reranking 的 LLM**:最新的 [RankLLM 基准讨论](https://twitter.com/lintool/status/1772717804682113270?t=luhHgXeFE0Pd6TWVzmIFRw&s=19) 引发了关于训练该语言模型德语版本的复杂性的好奇,该模型专为零样本(zero-shot)重排序任务设计。 - **定义 RankLLM**:对于不清楚 **RankLLM** 的人来说,这是一种专门为训练语言模型以提高其在零样本重排序中能力而开发的方法。 - **深入探讨 Ranking-Aware LLMs**:分享了一篇[综合文章](https://blog.reachsumit.com/posts/2023/12/towards-ranking-aware-llms/),质疑了 prompting 方法的有效性,并探索了构建 Ranking-Aware LLMs 的策略,同时保持其在各种任务中的通用性。 **提到的链接**:使用大语言模型进行高效文本排序的策略:前一篇文章深入探讨了直接使用 LLM 执行重排序的基于 prompting 的 pointwise、pairwise 和 listwise 技术。在本文中,我们将进一步观察... --- **DiscoResearch ▷ #[discolm_german](https://discord.com/channels/1178995845727785010/1197630242815213618/1222202759542214728)** (18 messages🔥): - **数据集困境**:一位成员分享了在微调 Mistral 时**数据集规模不足**的经验,注意到在仅有 3,000 条条目的情况下,每个 epoch 后 Loss 显著下降。 - **Loss 评估查询**:在关于模型训练的讨论中,出现了关于一个 epoch 后什么样的 Loss 值算好的问题;建议 **Loss 值低于 2** 通常是可以接受的。 - **寻求高质量德语数据**:一位贡献者正在寻找**高质量德语数据集**并对合作持开放态度,希望通过将德语数据与另一个数据集混合达到 **10,000 个样本**来增强一个侧边项目。 - **免费实验性翻译**:提到了 Groq 提供的免费 Mixtral API,尽管翻译效果欠佳,并呼吁增加更多公共资金用于创建高质量数据集,感谢 **LAION & HessianAI** 的贡献。 - **翻译 Orca**:计划将 **10-20%** 的 slim orca 翻译成德语,并随后清理损坏的样本,指出使用 Occi 7B instruct de en 的翻译效果**相当不错**。 --- **Alignment Lab AI ▷ #[ai-and-ml-discussion](https://discord.com/channels/1087862276448595968/1087876677603958804/1222323314794565632)** (3 messages): - **无内容的简短互动**:一位成员提到了另一位仅有用户 ID 的成员,随后另一位成员做出了简短回应。未提供讨论的具体内容和背景。 --- **Alignment Lab AI ▷ #[general-chat](https://discord.com/channels/1087862276448595968/1095458248712265841/1222226927239303208)** (8 messages🔥): - **寻求 OCR 模型推荐**:一位成员正在询问关于光学字符识别(OCR)的最佳模型选择。 - **Discord 垃圾信息过滤器解决方案**:在频道遭受垃圾信息攻击后,有人建议咨询 "henky" 关于实施 Kobold Discord 垃圾信息过滤器的事宜。 - **避免通知过载**:一位成员将其 Discord 偏好设置为仅接收直接提及(direct mentions),以便更有效地管理通知。 - **代码协作**:另一位成员正在寻求代码方面的帮助,并希望通过私信获得协助。 --- **Alignment Lab AI ▷ #[open-orca-community-chat](https://discord.com/channels/1087862276448595968/1124000038205530182/)** (1 messages): twistedshadows.: <@949913143277146154> --- **Datasette - LLM (@SimonW) ▷ #[llm](https://discord.com/channels/823971286308356157/1128504153841336370/1222187473057218653)** (12 messages🔥): _ - **“llm”引用的歧义性**:有一条关于明确提到 `llm` 时存在歧义的说明,强调了该表述可能会产生不同的解释。 - **推出 LLM 命令行插件**:Simon Willison 发布了 LLM 命令行工具的新插件 [llm-cmd](https://simonwillison.net/2024/Mar/26/llm-cmd),该插件允许用户生成并执行终端命令,但由于其被归类为“非常危险”的软件,使用时需格外谨慎。 - **LLM 命令行插件的使用示例**:*llm-cmd* 的一个使用示例是显示目录中每个文件的前三行。 - **用户对 LLM 插件的使用体验**:几位用户报告称 *llm-cmd* 在执行后会无限期挂起且无响应,而普通查询仍能正常工作。文中讨论了一些基本的故障排除尝试。 - **排查 LLM 插件挂起问题**:通过在 *llm_cmd.py* 中放置 print 语句,发现 `input()` 函数和 `readline.set_startup_hook()` 似乎是问题所在,特别提到 `readline` 钩子在 LLM 环境中未能按预期在 shell 中插入文本。 **提到的链接**:llm cmd undo last git commit—a new plugin for LLM:我刚刚为我的 LLM 命令行工具发布了一个很酷的新插件:llm-cmd。它允许你运行一个命令来生成进一步的终端命令,并对其进行审查和编辑…… --- **Skunkworks AI ▷ #[off-topic](https://discord.com/channels/1131084849432768614/1140423597454807179/)** (1 条消息): pradeep1148: https://www.youtube.com/watch?v=Kan7GofHSwg ---