ainews-karpathy-emerges-from-stealth

Karpathy 结束“隐身模式”了? (注:在创业圈中,“emerge from stealth” 指的是一家初创公司或项目结束秘密研发阶段,正式向外界公开。)

Andrej Karpathy 发布了一段关于 分词 (tokenization) 的 2 小时深度教程,详细讲解了从基础到 GPT-4 分词器的各项技术,并指出了 Llama 2 使用 SentencePiece 进行分词的复杂性。

AI Discord 社区的讨论聚焦于 模型优化与效率,重点探讨了 Mistral 7BZephyr-7B 等模型的 量化 技术,以降低消费级 GPU 的显存占用,其中包括英特尔最新的“仅权重 (weight-only)”量化算法。在提升计算效率方面,相关研究包括可降低 57.76% 成本的选择性增强技术,以及 Transformer 中内存令牌 (memory token) 使用与 kNN 的对比。

此外,社区还分享了硬件兼容性挑战和软件问题,以及 LoRA 和模型合并等微调技术。大语言模型 (LLM) 在 检索增强生成 (RAG)、多模型学习和元推理方面的创新应用也得到了探索。社区强调了数据集共享、开源发布(如 SDXL VAE 编码数据集和 Audiogen AI 编解码器),以及包含审查与安全护栏的 AI 伦理使用。协作与资源共享在这些 AI 社区中依然保持着强劲的势头。

#tokenization #quantization #model-optimization #fine-tuning #model-merging #computational-efficiency #memory-optimization #retrieval-augmented-generation #multi-model-learning #meta-reasoning #dataset-sharing #open-source #ethical-ai #community-collaboration mistral-7b mixtral-8x7b zephyr-7b gpt-4 llama-2 intel mistral-ai audiogen thebloke

2024年2月19日的 AI Discord 动态。我们为您检查了 20 个服务器、313 个频道和 3952 条消息。预计节省阅读时间(以 200wpm 计算):346 分钟

正如昨天的回顾中所提到的,Andrej 发布了他的 Tokenization 教程 以及配套的 GitHub 仓库 (推文):

https://www.youtube.com/watch?v=zduSFxRajkE

令人深思的是,为了全面理解从 Tokenization 到 GPT4 分词器中使用的 RegEx 模式,这个 2 小时的教程是多么必要。但正如 Andrej 所指出的,即便如此,要达到使用 SentencePiece 的 Llama 2 Tokenization 水平还远未完成。然而,Tokenization 至少从 GPT2 到 GPT4 都是许多 LLM 失败模式的核心。

目录

[TOC]

PART 0: SuperSummary

  • 模型优化与效率
    • 量化与兼容性:讨论重点在于 Mistral 7B 和 Zephyr-7B 等模型的量化工作,重点是降低内存需求以更好地兼容消费级硬件,特别是为了在 8 GB VRAM 的 CUDA GPU 上运行。Intel 探索的一种针对 LLM 的新型 weight-only 量化算法虽然缺乏详尽的文档,但因其在不牺牲性能的情况下提高模型效率的潜力而引发了关注。
    • 效率提升:重点放在提高计算效率和模型鲁棒性上。技术包括针对分类器的选择性增强(selective augmentation),平均可降低 57.76% 的计算成本;此外还讨论了在 Transformer 中高效使用 memory tokens 与传统方法(如 kNN)的对比。
  • 模型实现与微调中的挑战
    • 技术故障排除:社区分享了从硬件兼容性问题(如 AVX2 支持、多 GPU 配置)到特定软件问题(如 VSCode 无法识别某些模块)的各种挑战。在实现和微调 AI 模型方面存在共同的困难,特别是在为 RAG 等特定任务加载模型的量化版本时。
    • 微调与模型合并:频繁讨论了微调 LLM 的细微差别,包括 LoRA 配置的使用,以及合并在不同数据集上微调的模型的复杂性。这些讨论突显了社区在优化模型性能和输出一致性方面的技术深度和实验精神。
  • LLM 的进展与应用
    • LLM 的创新用途:从增强 RAG 应用到探索多模型学习策略,AI 社区正在积极探索扩展大语言模型能力和应用的方法。LLM 作为 AI Agent 运行或利用元推理(meta-reasoning)能力来改进推理结构的潜力,代表了 AI 研发的前沿。
    • 数据集与模型的可访问性:为机器学习应用创建和共享编码数据集,以及开源先进模型和编解码器,表明了社区推动 AI 资源民主化的强大动力。这包括关于 SDXL VAE 编码数据集和 Audiogen AI 开源音频编解码器的讨论。
  • 伦理考量与社区参与
    • 审查与伦理 AI 使用:围绕在聊天模型中实施审查和构建模型 Guardrails 的对话反映了对伦理 AI 使用的持续关注。社区探索了包括判别器模型(discriminator models)和 Prompt tuning 在内的各种方法,以确保负责任的模型行为。
    • 社区资源与协作:AI 社区在汇编资源、分享知识和排除故障方面积极协作。这包括分享综合文档以集中 AI 资源,讨论模型效率和伦理考量的基准测试,以及共同解决技术挑战。

PART 1: High level Discord summaries

TheBloke Discord 总结

  • Linux Mint 带来的嗡嗡声困扰@kalomaze 在使用 Linux Mint 时遇到了令人沮丧的扬声器微弱嗡嗡声,系统崩溃进一步加剧了问题,影响了如 printscreen 等功能。

  • Colab 的 A100 内存难题@karisna 在 Colab A100 上微调 Mixtral 8x7B 时遇到了内存问题,尽管调整了设置并减小了 batch size,建议仍涉及 gguf 管理。

  • Intel 神秘的量化之舞:Intel 的 “auto-round” GitHub 仓库引发了关于 LLM 新型 weight-only quantization 算法的讨论,由于文档不完整,社区对其潜在收益存在争议。

  • 对 Mistral 7B 基础代码的困惑@vivek2722 寻求加载 Mistral 7B 量化版本以用于 RAG 的帮助,但在现有消息中尚未出现即时解决方案。

  • 审查难题:讨论了在聊天模型中实施审查的各种方法,包括使用 discriminator model、prompt tuning,以及对 NVIDIA NeMo-Guardrails 和强化学习的探索。@jeremy.london 提到了 YouTube 视频中泄露的 GPT-4 prompt。

  • 模型合并中的模板混乱@givan_002 表达了关于合并两个不同模型(分别基于 VicunaAlpaca 微调的 NeverSleep/X-NoroChronos-13Belinas/chronos-13b-v2)后应使用哪种模板的担忧,并注意到推理输出的不一致性。

  • 数据集处理的跨越@ikaridev 经历了数据集泄露的考验,并解决了在 roleplay 和 function-calling 背景下平衡可能包含敏感内容的数据集的细微差别。

  • 守卫者的护栏:借鉴集体智慧,辩论了构建模型 guardrails 的策略,建议使用更精细、更微妙的 discriminator model,并注入特定的 token 序列以引导所需的模型行为。


Eleuther Discord 总结

  • LLM 增强鲁棒性与效率@millander 强调的一篇近期 preprint 指出,使用 LLM (Large Language Models) 通过重写输入以模拟分布内(in-distribution)示例来提高分类器的鲁棒性。通过基于熵的评估进行选择性增强,还可以将计算成本平均降低 57.76%,提供了一种更高效的方法。

  • 创意编码与模型移植性讨论:SDXL VAE 编码的数据集(如 ArtBench 和 FFHQ)可在 Hugging Face 上获取,并分享了一个用于 ImageNet-1k 的 SDXL VAE 编码脚本。为了在消费级硬件上应用大规模 AI 模型,推荐使用量化的 Mistral-7B,因为它与 8 GB VRAM 的 CUDA GPU 兼容。

  • 内存 Token 与模型结构见解:辩论了 liquid neural networks 的复杂性,并讨论了 RMT-T memory tokens 与 Transformer 的 kNN 之间的区别。质疑了对话上下文对 LLM 性能的影响,认为去上下文化的输入可能会提高响应质量。语言模型训练的复杂性(如语义和语法)被认为是影响预测准确性的关键交织要素。

  • GPQA 的合成 Prompt 结构化:为 GPQA 提议在 fewshot_config 中增加一个新的可选子字段,以引入结构化的 fewshot prompt,类似于 minerva_mathgsm8k_cot 中使用的格式,详见 GitHub 示例

  • 编解码器进展与 GPT-NeoX 的发展路径Audiogen AI 发布了开源音频编解码器,其离散模型提供的总比特率为 13.2kbpsGPT-NeoX 被指出融合了来自 Megatron 的设计元素,并专注于正确的开发优先级


OpenAI Discord 总结

  • 定价困惑与 AI 替代方案OpenAI 新版本潜在的成本以及 ChatGPT Plus 的消息限制引起了用户的焦虑,导致用户将其与 Google 的高级模型以及用于创意写作的 Gemini 等替代方案进行比较。同时,讨论中提到教育工作者正在探索将 ClaudeMicrosoft Co-Pilot 等 AI 工具用于课堂教学,强调了该行业渴望在没有手机验证等限制性障碍的情况下集成 AI。

  • GPT-4 浏览器困惑@iamryuzaki 遇到的 GPT-4 在 Web 浏览器与移动端响应速度不一致的问题,引发了关于点对点 AI、自定义知识库检索困难、AI 助手的本地化挑战,以及针对语音交互(特别是模拟面试练习)优化 Custom GPTs 的讨论。

  • 邮件分类攻坚@ben.30 致力于改进 邮件分类流程,目前成功率为 75% 并设有“未知”类别的阈值;同时,社区分享了 Prompt 调试技巧,以识别模型的不一致性和潜在的性能问题。

  • Prompt Engineering 难题:讨论强调了 Prompt 结构的复杂性如何影响 AI 输出,@eskcanta 建议使用 Meta-prompts 对 Prompt 进行自我评估。@drcapyahhbara 在使用 GPT 创作小说时面临挑战,即每一句话读起来都像开场白,这是一个亟需 Prompt 优化指导的问题。


LM Studio Discord 总结

  • LM Studio 的 GGUF 模型限制:已确认 LM Studio 仅支持 GGUF 模型,且未提及对 BNF 语法的兼容性。

  • 学术写作推荐模型:建议将 Mistral 7B 用于学术写作等任务,讨论还涉及了有效运行此类模型的硬件要求。

  • LM Studio 的集成与 API 问题:用户提出了关于 LM Studio 集成能力的问题,特别是关于 API 调用及其与 Azure AI 兼容性的问题。

  • 硬件兼容性与模型安装:依赖于 AVX2 支持的模型安装是一个热门话题,社区提供了针对 libcblast 错误的解决方案,并讨论了使用多块 GPU 处理更强大模型的可能性。

  • 模型能力与量化方法:支持 fp16/int4 ggufs 的新 Llama 版本 miniCPM 已发布,讨论还包括量化效率以及 LM Studio 中 Qwen 系列的对比。

  • AI GPU 选择困境:推荐选择 NVIDIA RTX 3090 而非 4070 Super,因为其更大的 VRAM 容量有利于运行更大尺寸的模型。

  • 3090 VRAM 扩容尝试:讨论了一个将 RTX 3090 的 VRAM 扩展到 48GB 的改装方案,强调了 BIOS 限制,并引用了 BilibiliYouTube 上的尝试视频。

  • LM Studio 未识别 RAM 升级:尽管 LM Studio 没有识别出从 16GB 到 64GB 的 RAM 升级,但该问题被确定为一个显示 Bug,不影响模型功能。

  • 为多 GPU 配置 LM Studio:有用户请求指导如何在有多个模型可用时将 LM Studio 分配给特定的 GPU,建议指向了一个有用的教学线程。

  • AMD GPUs 与 AI 工作负载:用户讨论了使用 AMD GPUs 处理 AI 工作负载的缺点,强调 Nvidia 优化的硬件支持是更理想的选择。

  • VSCode 忽略 ‘crewai’ 模块:有报告称 Visual Studio Code 无法识别 ‘crewai’ 模块,尽管它出现在 piplist 中,这表明可能存在与 IDE 相关的问题。


Mistral Discord 总结

  • LLMs 可以扮演舞台演员@i_am_dom 阐明了 LLMs 可以通过微调(finetuned)来充当 AI 助手,强调了在微调阶段塑造行为的灵活性。@jamshed1900@mrdragonfox@drnicefellow 一致认为 Mistral-next 在推理能力上超越了其前代。

  • 多模型学习的创新@mehdi_guel 透露了探索将 in-context learningchain-of-thought 策略相结合的计划。同时,@mrdragonfox 指出 Mixtral 的 MoE 结构不支持提取独立的专家(experts),因为专业知识是弥散地嵌入在模型中的。

  • VLLM 的不同表现@ethux 注意到 VLLM 在分片(sharded)环境下的性能表现不一,相比之下 TGI 运行顺畅。关于在 g5.48xlarge 实例上部署 Mixtral 的效能问题仍未得到解答。

  • 微调的细节@timuryun 加入了微调的讨论并提出了问题,得到了 @mrdragonfox 等人的热心帮助。讨论涉及使用 Q&A 方法进行模型教育,以及为 7B Mistral 模型进行 LoRA 配置的细微差别,主张更好地掌握参数和调优技术。

  • 策划集体 AI 知识库:用户 @_red.j 分享了一个 AI 主文档,旨在为 AI 爱好者集中资源。这是在 Twitter 上与 ML 专家交流后的成果。社区受邀使用他们顶级的 AI 资源来扩展该文档。


LlamaIndex Discord 总结

  • 即将举行的 LlamaIndex 网络研讨会点亮 RAG 舞台:LlamaIndex 宣布了 太平洋时间周四上午 9 点的网络研讨会,展示近期黑客松获胜者对 Retrieval-Augmented Generation (RAG) 的创新应用。研讨会将揭示 ADU PlannerCounselor Copilot 等高级知识综合与推理应用,展示 RAG 在基础聊天机器人之外的潜力。

  • LLM 讨论中推崇元推理和 RAG 重排序:一篇名为 Self-Discover 的新论文提出了在 LLMs 中集成元推理能力(meta-reasoning capabilities)@peizNLP 强调这可以增强传统的 AI 推理结构。此外,LlamaIndex 赞赏的 Florian June 的博客详细介绍了通过重排序(reranking)技术改进 RAG 系统,暗示了更智能的数据检索。

  • 常规聊天中的技术难题与技巧@wrapdepollo@whitefang_jr 协助用户处理损坏的链接和文本节点更新,参考了 Document Management 指南 以寻求支持。同时,@david1542@cheesyfishes 深入探讨了 VectorDBs 中的聚类支持,推荐使用 usearch 来包含 K-Means 和 DBSCAN 等算法。

  • 为 Agent 行为而苦恼:Agent 与工具的集成引发了由 @mst2205 发起的讨论,表达了在让 Agent 理解和组合来自不同查询引擎的结果时面临的挑战。讨论包括在 Prompt 中包含当前日期等技巧,并参考了 AgentBench GitHub 来评估 Agent。

  • 是否定制 RAG?关于自托管 LLMs 的讨论:在创建自定义 RAG 系统与使用 RAG-as-a-service 的辩论中,@skiboyec@desk_and_chair 思考了定制化与服务便利性之间的利弊。讨论涉及自托管、可扩展性、API 成本和使用意图,反映了用户所需的特定需求和能力。


HuggingFace Discord 总结

  • LayoutLMv3 错误持续存在truedescription 在使用 Hugging Face 的 LayoutLMv3 时遇到问题;尽管将 truncation 和 padding 设置为 true,错误依然存在且没有明确的解决方案。

  • 创建拉丁美洲 RL 课程频道sebaskja 表示有兴趣为 拉丁美洲强化学习 (Reinforcement Learning) 课程成员 建立一个专门的频道,并寻求指导。

  • Sora 视频引发关注chalm3rs. 分享的一个 Twitter 链接展示了来自 OpenAI 团队的最新的 Sora 视频,引起了用户的兴趣和幽默感。

  • 深入研究 ML Ops 的 CI/CDkingabzpro 介绍了一份 机器学习 CI/CD 指南,旨在辅助自动化部署和测试流程。

  • 生成式 AI 在日常生活中的崛起:一篇文章讨论了 生成式 AI (generative AI) 如何融入英国和澳大利亚的日常生活,并出现了塑造技术利用的 “prompt whisperers”(提示词专家)。

  • 推进 AI 智能测量:一篇 较早的论文 提出有必要使用不同的反馈信号来更准确地衡量 AI 和人类的智能,对当前的 benchmarking 方法提出了质疑。

  • 为客户支持量身定制的量化 Zephyr-7BZephyr-7B 模型 在客户支持聊天机器人应用中获得了微调关注——采用了量化和 AutoGPTQ 库。

  • 探索 HuggingFace Spaces 上的横幅广告myg5702 发起了关于在 HuggingFace spaces 上加入横幅广告可行性的讨论,了解到这对于社区驱动的内容可能是可以接受的。

  • 使用 Aya 数据集可视化多语言文本cakiki 强调了 CohereForAI 的 Aya 支持的语言多样性,并分享了 Aya 数据集 的可视化结果。

  • Annotated Mamba 项目完成:Sasha Rush 的项目 Annotated Mamba 已在 Annotated Mamba 发布,因其详细的解释而赢得了赞誉和讨论。

  • 时尚与 AI 的融合:在 #diffusion-discussions 频道中,mohdfaiez 寻求帮助,希望创建一个 AI 工具来更改图像上的衣服,并引用了 Pincel app 的例子。

  • QLoRA 微调障碍kingpokiQLoRA 微调 过程中遇到了错误,就 AutoPeftModelForCausalLM.from_pretrained 遇到的 NotImplementedError 寻求社区建议。

  • 关于高级 NLP 模型的查询:有关于 RA-DIT 和 REPLUG 指令微调的代码演练查询,以及 Whisper large v3 语言转录的挑战——该模型错误地将西班牙语识别为中文——并请求支持。


OpenAccess AI Collective (axolotl) Discord 总结

  • 键盘中断的 Checkpoints@seungduk 询问了系统中键盘中断 (ctrl+c) 时集成 checkpointing 的情况,@nanobitz 确认该功能之前可能已经实现,但不确定现状。已开始进一步检查代码,并提示在 OpenAccess AI Collective GitHub 进行查看。

  • Yolo 的惨痛教训@le_mess 冒险在 A100 上运行了 10 天计算而没有设置 checkpoints,引发了其他成员的同情和幽默。@yamashi 带着 “yolo” 精神随行,而 @noobmaster29 则发了一个捂脸的表情符号。

  • 7B 巨头的 VRAM 瘦身@noobmaster29 分享了与 量化 7B 模型 的 VRAM 需求相关的经验,包括来自 TheBlokeAI on GitHub 的一个有用脚本。

  • BioMistral 的基准测试忧郁@yamashi 指责 BioMistral 涉嫌误报基准测试,引发了关于模型基准评估 准确性伦理 的批判性交流,并引用了相关的 推文

  • RunPod 的波折RunPod 设置问题得到了处理,@m4ttfl0 分享了一个针对目录覆盖问题的潜在解决方法,这显然是一个已知问题 GitHub #813。此外,@noobmaster29 抱怨设置过程漫长且有时失败,并询问了一个可能暗示系统内存不足的错误代码。


LAION Discord 总结

  • 无 UI 运行 Juggernaut: 成员们讨论了如何在没有 UI 的情况下运行 Juggernaut XL 模型,包括在 Hugging Face 上提供的一个有用的 checkpoint,并附带了用于实现的实用代码。

  • 多用途数据集与 LoRA 的影响: 对话涉及了 SDXL VAE 预处理的图像/文本数据集,并在 Hugging Face 上展示了一个数据集示例,同时根据 Reddit 上的讨论 辩论了 LoRA 对模型真实感与训练出的审美偏好之间的影响。

  • Alpha-Prompt LORA 接受测试: 由 @qwerty_qwerTwoAbove 引入的 Alpha-Prompt LORA 模型承诺提供更详细的 SD prompt,欢迎在 Hugging Face 进行测试。

  • 为求知者汇总的 AI 资源: 分享了一份名为 The AI Info Diet ™️ 的综合文档,其中包含精选的 AI 工具、新闻和资源列表,旨在让工程师保持更新,并向社区贡献开放 (Google Doc)。

  • CAD 系统等待 AI 革命: 关于 AI 集成到 CAD 程序中的询问浮出水面,指出由于缺乏参数化 3D 形状的数据集和标准,目前情况复杂;同时根据早期测试者的说法,Mistral 新的 ‘Next’ AI 潜力可能超越 GPT-4 (Reddit 来源)。


Latent Space Discord 总结

  • Groq 削弱竞争: 社区成员(包括 @swyxio@shivdinho)参与了关于 Groq 性能主张 的讨论,质疑其成本效益并推测其实时应用潜力。其独特的 no-DRAM 和水平可扩展架构(装载了 SRAM 芯片)因其在实时 LLM 实例中的潜力而备受关注。

  • 检索重定向: @fanahova 指出了基于向量的检索系统的缺陷,引用了一篇关于 向量检索局限性 的文章,并指出行业忽视了基于图的模型和 HNSW 等方法的进展。

  • 聊天机器人 RAG 的重新思考: 引发了关于聊天机器人中检索增强生成 (RAG) 必要性的对话,其中使用 LLM 推断用户意图并实现 function calls 是中心主题。

  • 使用 HELM 进行卓越的基准测试: 协会讨论了 Percy Liang 教授引入的 HELM benchmark,这是一个评估 LLM 的新框架,因其指令化方法和绝对评分而受到认可,有望对模型进行更细致的评估。

  • 杂项提到: 分享了各种资源,包括一篇关于 MoonBit 的 AI 原生工具链设计 的文章,Google 的 Jeff Dean 关于 ML 趋势 的演讲,以及 GitHub 上的开源 AI 可穿戴项目 ADeus,指出了 AI 领域的进步和创新。


CUDA MODE Discord 总结

  • CUDA Cores 揭秘@nshepperd 寻求澄清 “cuda core” 是否指 fp32 和 int32 算术单元@_t_vi_ 详细说明了每个单元如何执行 warp 指令,并利用基于寄存器的快速切换。这次对话有助于更好地理解底层的 CUDA 执行机制

  • PyTorch 与 GitHub 汇聚@p0.tato 指出了 TensorListMetadatamulti_tensor_apply 的贡献,而 @ardywibowo 分享了一篇关于使用 PyTorch 加速 LLM 的博客文章。他们还强调了用于生成式模型优化的 llama.cppvLLMMLC-LLM 的存在。

  • NVIDIA 的秘密与惊喜@apaz 通过 nvidia-smi 发现了不同的 graphicsmemoryvideo 时钟频率。@stefangliga 分享了 NVIDIA GPU 上 boost clock 随温度变化的有趣行为,暗示了基于环境条件的性能调优。

  • Ring Attention 深度探讨@ericauldflash-attention 进行了批判性评估,质疑其 backward 实现,并引发了由 @iron_bound@andreaskoepf 领导的关于缓存机制和 Ring Attention 可能增强功能的广泛讨论。在 ring-attention 提交了一个 issue,用于开发一个同时管理部分 kv-blocks 处理的 naive 版本。

  • Flash Attention 在 JAX 备受关注@nshepperd 着手将 flash attention 绑定集成到 JAX 中以探索 SPMD 模式,并讨论了诸如从 Tri Dao 的 flash attention 仓库中移除 Torch 依赖项等障碍,阐明了 JAX 是开展此项工作更简单的平台。


Perplexity AI Discord 总结

  • Gemini Pro 的“胡迪尼式”消失:用户报告 Gemini Pro 访问权限 从 Perplexity Pro 中消失,引发了对可能引入 Ultra 或 Pro 1.5 访问权限 的更新推测。
  • 更新时间线的预告:用户关于更新时间线的查询得到了 @ok.alex 的神秘回复和一个 Discord 链接,暗示通过该链接可以获得更多信息。
  • Playground 限制与订阅无关:在一次澄清中,@icelavaman 表示 Perplexity Playground 中的文本长度限制与订阅级别无关,并指出了 API 文档中关于 context sizes 的详细信息。
  • 三月周边热潮?:当 @lord.wex 询问 Perplexity 周边商品时,发生了一段幽默的对话,随后分享了 @AravSrinivas 发布的一条推测性的“三月出周边”推文。
  • GPT-4 Turbo:被锁定还是不存在?:关于 Perplexity Pro 是否正在使用 GPT-4 turbo 展开了辩论,确认目前仅为标准版本,同时也对 turbo 版本的可用性存在不确定性。
  • 窥探 Perplexity 的内部机制@soabonen@sjohri 分别分享了关于 Perplexity AI 机制和设计师的文章,为感兴趣的人提供了深度研究:Perplexity 如何工作? 以及 谁设计了 Perplexity?
  • 不支持微调@retonq 关于微调 pplx-online 模型 的问题被 @icelavaman 明确地以 No 否定。

LangChain AI Discord 摘要

  • 可视化 LangChain 的内部运作机制:用户讨论了对 LangChain 的 chain 或调用进行可视化工具的需求,一些人提到目前该功能的文档较少。社区分享了 更新日志 (changelog)LCEL 文档,以帮助用户了解已弃用的 Chain 类的更新和替代方案。

  • 解决 ChatVertexAI 的验证错误:有一个关于 ChatVertexAI 中 NEGLIGIBLE 级别响应验证(Response Validation)错误的查询,但在如何调整安全配置或关闭响应验证方面尚未达成共识。

  • 提升 Chroma 的检索效率:有人提出一个想法,通过将问题转换为关键词列表来提高 Chroma 的检索性能,旨在产生比当前方法更好的结果。

  • 揭秘 LLM 参数:一段简短的解释阐明了大语言模型 (LLM) 中的参数,指出它们是在后端生成响应时,应用于来自 prompt 的 token 的权重。

  • 通过 LangChain 教程学习:分享了一个包含 60 多个视频的综合 LangChain 教程播放列表,向用户介绍 LangChain 的使用案例,为使用生成式 AI 开发应用程序提供了丰富的资源。“LangGraph 检索 Agent”视频 专门详细介绍了在此背景下检索 Agent 的使用。


DiscoResearch Discord 摘要

  • 多语言专家 LLM 开发讨论:讨论集中在创建具有多种语言和领域专业知识的 LLM,建议包括使用 LLaMA-Factory 进行新语言的 LLM 预训练,并利用 GPT-Neo-XMegatron-LMAxolotl 等框架的大规模集群。

  • 澄清基准测试的成本:用户讨论了预算友好的基准测试,提到 fasteval 是一种快速但非免费的评估工具。据指出,fasteval 每个模型仍需花费超过 5 欧元的 OpenAI 额度

  • 临时服务中断已解决DiscoLM German 7b Demo 服务器因 GPU 正用于评估而出现停机,随后确认已恢复运行。


Alignment Lab AI Discord 摘要

  • 众包 AI 资源汇编:用户 @_red.j 分享了一个协作式的 The AI Info Diet ™ Google 文档,其中包含紧跟 AI 最新动态的资源。该文档欢迎贡献,并将 Alignment Lab AI Discord 服务器 列为资源之一。

第 2 部分:频道详细摘要与链接

TheBloke ▷ #general (1195 条消息🔥🔥🔥):

  • Linux Mint 上的音频嗡嗡声困扰@kalomaze 在 Linux Mint 上遇到扬声器随机发出微弱嗡嗡声的问题,并抱怨该操作系统的持续问题,包括导致截屏功能失效的崩溃 (来源)。
  • Colab A100 上的模型训练挑战@karisna 尝试在 Colab A100 上微调 Mixtral 8x7B,但尽管尝试了一系列设置并显著减小了 batch size,仍遇到内存问题。建议包括管理 batch size 以及在过程中引入 gguf (来源)。
  • Intel 引人注目的量化方法:Intel 的 GitHub 仓库 “auto-round” 暗示了一种针对 LLM 的新型仅权重(weight-only)量化算法,该算法可能在较低精度下提供更好的性能,由于缺乏完整的文档,引发了关于潜在益处的讨论和怀疑 (来源)。
  • 聊天机器人集成 Intel 的新量化@tibbnak 注意到 Intel 向 Hugging Face 上传了一些量化模型 (quants),声称在量化基准测试中取得了良好的分数,暗示其效果可能与高精度模型相当,但体积显著减小 (来源)。
  • 对模型合并技术的担忧@givan_002 对模型合并表示担忧,即基础模型(如 Vicuna 和 Alpaca)使用了不同的模板,想知道合并后应该使用哪种模板以避免不恰当的推理输出 (来源)。

提到的链接


TheBloke ▷ #characters-roleplay-stories (90 messages🔥🔥):

  • 寻求关于角色扮演(Roleplay)和函数调用(Function-Calling)的解答:用户 @gman5723 询问是否有擅长角色扮演和函数调用的模型。@mrdragonfox 澄清说,函数调用本质上涉及 JSON 格式化,并且需要手动执行。

  • 数据集困扰与支持@ikaridev 分享了一个标记为敏感内容的数据集链接,随后提到其数据集不幸泄露给了 @c.gato,引发了社区的同情和支持。

  • 对模型确定性响应的担忧@_dampf 观察到 bagelmisterytour 模型倾向于重复短语,尤其是在开头,即使更改了采样器(sampler)设置也是如此。@ycros 承认这可能与采样器设置或长上下文影响确定性(determinism)有关

  • 使用深度学习模型的挑战:关于使用深度学习模型的讨论包括管理 batch sizes 的挑战,如 @kaltcit 指出的 10420 序列长度下 batch size 限制为 1 的约束,以及 loss 记录为 0.0 的问题。

  • DPO 的学习率建议:在关于 Deep Partial Optimization (DPO) 的见解中,@c.gato 建议可能需要更低的学习率,这可能与 LoRA adapters 相关,而 double merges 虽然不是最优方法但仍被实践。

提到的链接

MinervaAI/Aesir-Preview · Datasets at Hugging Face: 未找到描述


TheBloke ▷ #training-and-fine-tuning (13 messages🔥):

  • 解决聊天模型中的审查问题@octopus_ 提出了关于如何为模型实施审查的问题,特别是如何在没有上下文的情况下避免讨论定价。该策略应类似于 ChatGPT 管理成人内容审查的方式。

  • 实施聊天模型护栏(Guardrails)的策略@maldevide 建议使用判别器模型(discriminator model)作为护栏,或者根据期望的响应对模型进行微调。此外,@maldevide 提出了 prompt tuning,即使用特定的 token 序列引导模型进入预期的潜空间(latent space)。

  • 判别器模型的挑战@octopus_ 尝试使用判别器模型进行审查,但遇到了许多误报(false positives)。@maldevide 建议增加 n-shot 中的示例以减少误报,并添加思维链(Chain of Thought)工作流以获得更好的推理能力。

  • 关于模型审查和护栏的见解@jeremy.london 引用了一篇相关论文和 NVIDIA NeMo-Guardrails 项目,讨论了模型中的审查和护栏。这种方法涉及确认生成的内容是否符合特定规则,然后记录并标记不合规的输出。

  • 护栏的复杂性与对强化学习(Reinforcement Learning)的需求@jeremy.london 指出,需要强化学习来完善实际使用的护栏,并分享了一个关于泄露的 GPT-4 系统提示词的 YouTube 视频。尽管做出了努力,模型审查总会存在差距,这通常始于数据集。

提到的链接

The LEAKED GPT-4 system prompt is Insane!: 🚨购买或赠送生成式 AI 初学者课程(66折优惠) - https://bit.ly/3HQXsQd (优惠码: LETSGO) 🎉🔗 链接 🔗ChatGPT 历史 - https://chat.op…


TheBloke ▷ #model-merging (1 messages):

  • 关于模型合并和推理模板的困惑:用户 @givan_002 对合并两个模型后应使用哪个模板表示困惑,这两个模型分别是源自 Xwin-LM/Xwin-LM-13B-V0.2NeverSleep/X-NoroChronos-13Belinas/chronos-13b-v2。他们担心可能会出现不恰当的 token 输出,因为每个基础模型分别是在不同的模板(VicunaAlpaca)上进行微调的。

TheBloke ▷ #coding (1 messages):

  • Mistral 7B 加载代码请求@vivek2722 询问了用于检索增强生成 (RAG) 的 Mistral 7B 量化版本 的基础加载代码或任何有用链接,并提到他们在处理过程中遇到了问题。在现有的消息历史中未提供解决方案或链接。

Eleuther ▷ #announcements (1 messages):

  • LLM 增强提升分类器鲁棒性@millander 展示了一篇新的预印本论文,说明了如何通过使用 LLM (Large Language Model) 增强输入来提高 分类器的鲁棒性。通过 LLM 进行输入重写,使分布外 (out-of-distribution) 输入类似于分布内 (in-distribution) 示例,其表现通常优于改写 (paraphrasing) 技术。阅读 Arxiv 上的完整预印本。

  • 通过选择性应用降低 LLM 增强成本@millander 的同一篇预印本还详细介绍了 基于熵的选择性增强 (entropy-based selective augmentation) 如何通过关注不确定的模型预测来减少计算开销,平均降低了 57.76% 的增强率。

  • 关于黑盒分类器改进技术的讨论@millander 邀请在 <#747850033994662000> 频道讨论关于 黑盒分类器 (black-box classifiers) 的工作,或通过私信与有兴趣深入参与的人交流。摘要版本请查看 Twitter 线程

提到的链接

来自 Kyle O’Brien (@KyleDevinOBrien) 的推文):当我们无法修改权重或假设其架构时,如何使分类器更具鲁棒性——实际上是将其视为黑盒?在我们的预印本中,我们证明了我们可以提高鲁棒性…


Eleuther ▷ #general (160 messages🔥🔥):

  • SDXL VAE 编码数据集可用性:用户 @top_walk_town 询问了使用 SDXL VAE 预处理的图像/文本数据集。@.mahouko 分享了 Hugging Face 上 ArtBench 和 FFHQ 的链接,并提到 ImageNet-1k 也已处理但尚未公开上传。

  • ImageNet-1k SDXL VAE 编码提供@.mahouko@top_walk_town 提供了一个 转换脚本,用于使用 SDXL VAE 编码 ImageNet-1k,并声称这可能比 @top_walk_town 使用的现有 dask 脚本更快。

  • nanoT5 与位置嵌入挑战:在关于 T5 训练的讨论中,@.mahouko 指出 nanoT5 在 ALiBi 嵌入方面的实验不够稳定,引用了他们的 GitHub,并建议来自 Google t5x 的替代权重初始化可能更为微妙,涉及 attention scale factor 和 optimizer 的选择。

  • RLHF/RLAIF/合成数据黑客松公告:用户 @canadagoose1 提到了周六将举行一场 RLAIF 黑客松,地点与之前的 Eleuther 聚会相同。用户 @.the_alt_man 询问了此类黑客松的具体活动内容。

  • 针对消费级硬件的大规模 AI 模型移植性关注@eyeamansh 寻求在典型消费级配置上移植 AI 模型的基准测试,以便使用 Hugging Face 的模型开发开源应用。用户 @rallio.@_3sphere 建议参考 NSFW RP 社区和 koboldai 使用的配置,而 @philpax 推荐使用量化后的 Mistral-7B,以适配 8 GB VRAM 的 CUDA GPU。

提到的链接


Eleuther ▷ #research (173 条消息🔥🔥):

  • Liquid Networks 因复杂性受到批评.the_alt_man 对 Liquid Neural Networks 表示怀疑,认为它们在没有带来合理收益的情况下增加了训练的复杂性。在后续讨论中,他们断言引入伪神经科学元素给模型带来的挑战多于增强。

  • 讨论 Memory Token 模型粒度的差异micpie 详细阐述了 RMT-T memory tokens 与 memorizing Transformers 的 kNN 方法之间的区别,强调了它们独特的粒度和检索方法。

  • 探索 Liquid Nets 与 CNN+Capsules 的数据效率jckwind 花费大量时间深入研究了 liquid net 结构,并使用结合了 CNN、capsules 和 liquid networks 的基于 MNIST 的概念验证进行了数据高效建模。他们还对最近一篇结合了 capsules 和 multi-headed attention 的论文产生了兴趣。

  • 对模型训练数据集影响的见解_lm 思考了对话上下文对 ChatGPT-4 等 LLM 性能的负面影响,提到了一种去上下文的问题有时会产生更好回答的现象。catboy_slim_synquid 讨论了相关工作,synquid 分享了一篇关于因果推理在智力发展中关键作用的相关论文。

  • 重新审视模型训练中的粗粒度 PoS 和语义:在由 jstephencorey 发起的关于语言模型训练阶段的讨论中,rybchuk 指出粗粒度的词性(PoS)实际上可能与语义有关,而语义对于 next-token prediction 至关重要。miaumiksrybchuk 就语义、语法和句法如何都是 LLM 训练中不可或缺的组成部分交换了意见。

提到的链接

Eleuther ▷ #lm-thunderdome (1 messages):

  • 讨论 GPQA 的 Fewshot 配置@hailey_schoelkopf 建议可以为 GPQA 的 fewshot_config 添加一个 optional subfield(可选子字段),参考 GitHub 上发现的结构化 fewshot prompt。他们提到可以整合类似于 minerva_mathgsm8k_cot 中使用的硬编码 prompt。

提到的链接

gpqa/prompts/chain_of_thought.txt at main · idavidrein/gpqa:Google-proof Q&A (GPQA) 数据集的基准测试和分析 - idavidrein/gpqa


Eleuther ▷ #multimodal-general (5 messages):

  • Audiogen 开源音频编解码器@elyxlz 分享了 Audiogen AI 的推文,宣布其开源音频编解码器。该推文未提供进一步讨论。
  • GitHub 上的 Audiogen Codec@elyxlz 提供了 Audiogen Codec 的 GitHub 仓库 链接,展示了 Audiogen 音频编解码器工作的源码。
  • Audiogen Codec 比特率详情@nostalgiahurts 强调了离散模型的 codebook 大小为 2048,导致总比特率为 13.2kbps,详见该编解码器的 Hugging Face 配置
  • EMA 被证明对 GAN Vocoder 有益@nostalgiahurts 评论说使用 Exponential Moving Average (EMA) 已被证明是有益的,并指出虽然这在 BigGAN 中见过,但在 GAN vocoder 领域是一个较新的应用。
  • GAN Vocoder 改进中的易得成果:针对关于 EMA 的评论,@elyxlz 承认采用 EMA 对他们的 GAN vocoder 来说是一个非常直接的增强。

提到的链接

GitHub - AudiogenAI/agc: Audiogen Codec:Audiogen Codec。通过在 GitHub 上创建账号为 AudiogenAI/agc 做出贡献。


Eleuther ▷ #gpt-neox-dev (2 messages):

  • GPT-NeoX 从 Megatron 获取灵感:用户 @jdranpariya 承认 GPT-NeoX 的部分元素源自 Megatron
  • 对优先级的肯定:在随后的简短跟进中,@jdranpariya 似乎肯定了开发团队拥有正确的 priorities(优先级)。

OpenAI ▷ #ai-discussions (103 messages🔥🔥):

  • GPT 定价推测与就业热情:用户讨论了 OpenAI 新发布的潜在成本,@theultimateprompter 建议采用基于帧数乘以分钟以及 DALL·E 定价模式的定价策略。@solbus 插话强调了定价和服务的不确定性,但确认目前尚未发布官方公告

  • 关于限制(Cap)的辩论@sevenero 对 ChatGPT Plus 的消息限制表示沮丧,并因此取消了订阅,将其与没有消息限制的 Google 高级模型进行了不利对比,这引发了关于 OpenAI 容量供需关系的讨论。

  • 消息限制挫败感与 Google AI 对比:用户 @blckreaper 讨论了由于 ChatGPT 的消息限制而使用 Google 的 Gemini 处理任务,并声称 Gemini 的创意写作风格成功绕过了 AI detection(AI 检测)。对话继续,@droggerhd 强调了 GPT-4 卓越的准确性以及对具有大上下文窗口的 model 1.5 的期待。

  • 探索教育领域的 AI 替代方案@smitha 询问教师如何在不要求学生进行手机验证的情况下使用 ChatGPT,引发了关于在课堂环境中使用 Claude 和 Microsoft Co-Pilot 等替代 AI 工具的讨论。

  • AI 玩笑生成的预测性@sugarsniper 观察到 ChatGPT 在请求 “groaner jokes”(冷笑话)时的响应模式,随后与 @eskcanta 进一步探讨了 AI 的结构化训练如何影响其输出的多样性和创造力。

提到的链接

Discord - A New Way to Chat with Friends & Communities:Discord 是通过语音、视频和文字进行交流的最简单方式。在这里聊天、聚会,并与你的朋友和社区保持紧密联系。


OpenAI ▷ #gpt-4-discussions (115 条消息🔥🔥):

  • @iamryuzaki 的 GPT-4 浏览器故障@iamryuzaki 遇到了 GPT-4 在任何浏览器上都无法响应的问题,尽管他有订阅并且尝试了多台电脑和多个浏览器。该 Bot 在移动端可以工作,但在 Web 浏览器中仍然没有反应。

  • 讨论点对点 AI 哲学@jay_low666 思考了一种具有 Peer-to-Peer 协议的 AI 概念,类似于 Napster,利用全球 PC 的算力。作为回应,@darthgustav 幽默地评论了潜在的低效和不安全性,戏称不想要的游侠外挂可能会渗透进 AI。

  • 自定义知识库的起伏@jaredquek 报告了 Custom GPT 知识库检索的问题;尽管有正确的指令,该 Bot 仍倾向于在线搜索或提取全文。@darthgustav 积极参与,建议了断开并重新连接知识源等故障排除步骤。

  • 全球与本地市场聊天机器人的抉择@ricardop20 正在考虑将其 AI 助手定位于全球市场,还是专注于葡萄牙的本地需求。@darthgustav 建议利用本地化的多功能性,从而有效地同时满足两个市场。

  • 面试练习的语音聊天优化@718moe 询问了针对语音聊天优化的 Custom GPT,特别是用于求职面试练习。@eskcanta 指导了一种使用基础 ChatGPT 来编写和完善指令的方法,建议通过迭代过程开发一个简洁且有用的 Bot。

提到的链接

Discord - 与朋友和社区聊天的新方式:Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、聚会,并与您的朋友和社区保持紧密联系。


OpenAI ▷ #prompt-engineering (44 条消息🔥):

  • 寻求邮件分类的 Prompt 优化@ben.30 正在寻求提高使用 Power Automate 和 GPT-3.5 的邮件分类系统的准确性;目前的成功率为 75%,该系统旨在为其评估分配置信度,如果低于特定阈值则默认为“未知”。
  • 复杂 Prompt 与模型响应@darthgustav 建议,如果之前的 API 调用没有关联,审查失败案例中的共同点可能会揭示根本原因。他们还提到了当 GPT-3.5 的 Context 约一半满时,相对检索率为 51%。
  • 评估和完善 AI Prompt@eskcanta@d1scobo1 提供了关于如何评估和重写复杂 AI Prompt 的建议,以减少限制性条件并增强性能;他们分享了 Prompt 如何影响 AI 响应的示例。
  • 排除上传文件的知识库故障@eskcanta 提醒大家注意一个已知的 Bug,该 Bug 会影响与上传文件知识相关的 AI 性能,这可能会影响 @d1scobo1 的助手表现。
  • 小说写作 Prompt 挑战@drcapyahhbara 在使用 GPT 创建叙事内容时遇到困难,每一句话都被视为引言,导致过渡不自然;他们正在 prompt-engineering 频道寻求指导。

提到的链接

Discord - 与朋友和社区聊天的新方式:Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、聚会,并与您的朋友和社区保持紧密联系。


OpenAI ▷ #api-discussions (44 条消息🔥):

  • 使用 GPT 优化邮件分类@ben.30 寻求提高使用 Power Automate 结合 GPT 函数的邮件分类流程成功率。尽管目前的成功率为 75%,且未分类邮件的阈值为 5%,他仍在寻求进一步的改进和关于 Prompt 结构的建议。
  • 分享深度 Prompt 结构:在与 @darthgustav 的对话中,@ben.30 解释了他详细的 Prompt 结构,其中包括上下文、服务描述和关键词,并寻求对其当前 Prompt 设计的外部审查以进行可能的改进。
  • Prompt 审查与调试建议@eskcanta 提供了一种审查和调试 Prompt 的方法,即通过元提示(meta-prompt)将其提交给 ChatGPT,以自我评估可能影响模型性能的不一致性或潜在问题。
  • 精简复杂指令以提升 AI 性能@d1scobo1 将 AI 嵌入到网站中,根据提供的关于软件工程职业详情的文件回答客户问题。根据反馈,他们正在优化指令,以允许更自然的回答,并解决 @eskcanta 分享的一个潜在 Bug。
  • 关于增强小说写作 Prompt 的对话@drcapyahhbara 报告了一个问题,即 AI 倾向于将每个句子都视为小说的开头,导致过渡不自然。@eskcanta#api-discussions 频道提供了关于 Prompt Engineering 的支持。

提到的链接

Discord - A New Way to Chat with Friends & Communities:Discord 是通过语音、视频和文字进行交流的最简单方式。与您的朋友和社区聊天、聚会并保持紧密联系。


LM Studio ▷ #💬-general (141 条消息🔥🔥):

  • LM Studio 格式混淆:用户 @heyitsyorkie 解释说 LM Studio 仅运行 GGUF 模型,而不支持其他格式,如 @suisse7 询问的 BNF 语法。
  • 模型推荐与使用讨论@egalitaristen 分享了一个 GitHub 链接,并参与了关于哪种模型最适合学术写作等任务的讨论,建议使用 Mistral 7B。对话围绕不同 context sizes 的硬件能力展开。
  • 集成与 API 查询:多位用户如 @akiratoya13@kvrmd@i.apol0 询问了 LM Studio 的各种集成能力,例如通过 API 调用发送系统消息以及将 LM Studio 连接到 Azure AI。
  • 模型安装与硬件兼容性问题:用户如 @digit18@krypt_lynx 讨论了安装模型方面的挑战和解决方案,以及支持 AVX2 指令集的必要性,@heyitsyorkielibcblast 相关错误提供了解决方法。
  • 探索 LM 的高级用例@krypt_lynx@jedd1 谈论了为 LLM 使用多个 GPU 的潜力,前者正在考虑进行一次计划外的系统升级,以容纳更强大的模型。

提到的链接


LM Studio ▷ #🤖-models-discussion-chat (23 messages🔥):

  • miniCPM 的困境与期待@dootmate 对 miniCPM 仍无法工作表示沮丧,期待修复。讨论指向了 GitHub 上的一个 issue,其中提到 llama.cpp 缺乏支持,希望 LMStudio 更新到最新版本后能解决此问题。
  • miniCPM 现在支持 llama.cpp@dootmate 提到发布了 llama 版本的 miniCPM,即 openbmb/MiniCPM-2B-dpo-bf16-llama-format,并进一步指出它现在已支持 fp16/int4 ggufs
  • Qwen 模型在 LMStudio 中的效能:在一个对比咨询中,@borisrusev 询问了 Qwen1.5-72b-chat 中 q2_k 与 q8 的能力差异,@heyitsyorkie 幽默地将 Q8 比作聪明人,而将 Q2 比作能力较弱的对手。
  • 用于 Coding 和 Vision 的最佳 LLM:对于 Coding LLM,@heyitsyorkie 推荐了 Deepseek Coder 33b@r3vs_ 询问了关于 Vision 方面的 llava-1.6-mistral-7b,对此 heyitsyorkie 承认缺乏 Vision 模型的使用经验。
  • 运行大模型的硬件考量@old_skooler 分享了对使用预期新内存运行 Mixtral 8x7b Dolphin 的兴奋之情,@jedd1 提供了关于模型运行速度、VRAM 占用以及超出 VRAM 容量时性能下降的实用信息。

提到的链接


LM Studio ▷ #🎛-hardware-discussion (63 messages🔥🔥):

  • GPU 大辩论:用户 @j.o.k.e.r.7 寻求建议,在价格相同的情况下该选择 3090 还是 4070 Super,这引发了关于性能和 VRAM 的讨论。@heyitsyorkie 推荐 3090,因为它拥有 24GB VRAM,且在 Gaming、Stable Diffusion 以及运行高达 70b Q4 模型等任务中表现更优;@nink1 建议关注矿工抛售显卡的二手交易。

  • 改装 3090 以获得额外 VRAM@.bambalejo 分享了他们对 RTX 3090 VRAM 升级改装以达到 48GB 的兴趣,指出了 VBIOS 的限制,并分享了 Bilibili 和一段 俄罗斯 YouTube 视频 的链接,详细介绍了该改装尝试。

  • 大内存但在 LM Studio 中未被识别:在 @ethanboyle 将 RAM 从 16GB 升级到 64GB 后,LM Studio 未能识别新容量。@heyitsyorkie 解释这是一个已知 Bug,但保证尽管显示不一致,模型仍能工作,并建议清理特定缓存位置可能会解决此问题。

  • 为 LM Studio 选择 GPU@dyter07 询问在安装了多个 GPU 时如何指定 LMStudio 使用特定 GPU,这促使 @jedd1 引用了一个提供设置 GPU 偏好指令的有用帖子。

  • AI 领域应避开 AMD GPU?:当 @seicross 探索如何利用他们的 AMD Rx 5500 xt 运行语言模型时,@exio4 评论了 AMD 缺乏对 AI 工作负载的优化支持,建议用户使用 Nvidia 硬件可能会获得更好的性能和性价比。

提到的链接

LM Studio ▷ #crew-ai (3 messages):

  • VSCode 无法识别 ‘crewai’ 模块: @circulustreme 遇到一个问题,即 Visual Studio Code (VSC) 无法识别已安装的 crewai 模块,尽管尝试了通过各种终端和 conda 进行安装、升级和包管理。该模块出现在 piplist 中,但 VSC 似乎无法识别它。

Mistral ▷ #general (104 messages🔥🔥):

  • 揭秘 LLM 的表演技巧: @i_am_dom 澄清了一个关于 LLM 的常见误解,解释说它们的行为是在 fine-tuning 阶段塑造的,以充当 AI 助手。强调了在这个阶段你可以让 LLM “以你想要的任何方式行动”,这表明了塑造其回复的能力。
  • Mistral-next 与 Llama 性能咨询: 用户 @jamshed1900@mrdragonfox@drnicefellow 讨论了 Mistral-next 的性能。虽然性能对比有限,但大家一致认为 Mistral-next 比其前代产品表现出更好的 reasoning 能力。
  • Finetuning 技巧请求: @timuryun 寻求关于 finetuning 的帮助,被 @drnicefellow 引荐给了经验丰富的 <@266127174426165249>
  • 是否开源?: 在与 @timuryun@drnicefellow@mrdragonfox 的对话中,出现了关于 Mistral-next 等模型是否开源且可供下载的问题。澄清了 Mistral-next 目前是 lmsys 上的原型测试,尚未公开提供。
  • 讨论 AI 模型能力与投资: 由 @i_am_dom@mrdragonfox 等人发起的讨论表明,Mistral 背后的基础设施、资金和专业知识与 OpenAI 相当,尽管关于从零开始训练像 100B 这样的大型模型的决定仍未公开。

提到的链接:

与开放大语言模型聊天: 未找到描述


Mistral ▷ #models (22 messages🔥):

  • 实验多模型方法: @mehdi_guel 计划通过在多模型方法中结合 in-context learningchain-of-thought 进行实验,并将向小组更新结果。

  • 专家提取之谜: @redbrain 询问了从 Mixtral 中提取单个专家作为独立的 dense Mistral 7b models 用于实验目的的可能性,虽然意识到这不切实际,但对概念上的可能性表示了兴趣。

  • 理解 MoE 的本质: @mrdragonfox 的多条帖子澄清了像 Mixtral 这样的 Mixture of Experts (MoE) 模型无法将其专家提取为独立模型,因为专业知识并非孤立存在,而是分布在整个模型中,且 routing 发生在 token 级别。

  • 解构 MoE 可能是徒劳的: 针对 @redbrain 的持续兴趣,@mrdragonfox 解释说尝试解构 Mixtral 可能不会产生连贯的输出,并强调即使该过程可行,结果也不会超过标准的 7b Instruct 0.2 model

  • GPU 与 CPU 的性能困惑: @mikifireblue 在使用 GPU (NVIDIA GTX 1660 TI) 与仅使用 CPU 相比时观察到 token 生成速率较慢,测试模型为 “mistral-7b-instruct-v0.1.Q4_K_M.gguf” 和 llama-cpp,这促使 @ginterhauser 建议尝试 AWQ 格式,因为它更适合 GPU 使用。


Mistral ▷ #deployment (4 messages):

  • VLLM 的分片困扰: @ethux 提到 VLLMsharding 方面表现不佳,并对性能表示失望。
  • 驯服 VLLM 遇挫;TGI 胜出: 在另一条消息中,@ethux 确认在 VLLM 中遇到了相同的 sharding 问题,但报告使用 TGI 时没有问题。
  • 询问在巨型实例上运行 Mistral: 用户 @espadrine 询问 Mixtral 是否成功部署在 g5.48xlarge 实例上,但未提供后续信息。

Mistral ▷ #finetuning (22 messages🔥):

  • 确认 @timuryun 现身:用户 @timuryun 表示已上线并准备讨论 Fine-tuning。

  • 随着问题即将提出,期待感增加@mrdragonfox 已准备好提供协助,敦促 @timuryun 提出其 Fine-tuning 疑问。

  • 难以捉摸的 Fine-tuning 询问出现@timuryun 询问 @266127174426165249 在 Fine-tuning 方面的专业知识,但回复暗示需要更多细节。

  • 确认细节不足,提供协助:尽管 @timuryun 提供的细节很少,社区仍然积极响应,@mrdragonfox 鼓励发布“相关材料”以便提供潜在帮助。

  • 深入探讨 Fine-tuning 策略@sven_72358 开启了关于使用问答对(Q&A pairs)进行模型教育效果的对话,引用了一篇 tryhellix ai 的文章以及在 7B 模型上的个人尝试,这引发了 @tom_lrd 的插话,讨论了对通过 Fine-tuning 传授知识的普遍怀疑以及一个 GitHub 项目。

  • 在 Fine-tuning 前沿辩论 LoRA 配置@iamcoming5084 寻求关于 Fine-tuning 7B Mistral 模型的配置建议,这促使 @mrdragonfox 区分了 LoRA 和全量 Fine-tuning 方法论,强调了仔细选择参数和理解方法论的必要性。

提到的链接

base_model: mistralai/Mistral-7B-v0.1model_type: MistralForCausalLMtokenizer - Pastebin.com:Pastebin.com 是自 2002 年以来排名第一的文本发布工具。Pastebin 是一个可以让你在线存储文本一段时间的网站。


Mistral ▷ #showcase (2 messages):

  • AI 信息饮食 - AI 爱好者的主文档:用户 @_red.j 分享了一个主文档,旨在帮助人们了解 AI 领域的最新工具、新闻和信息,该文档是在与 ML 专家的 Twitter space 对话中创建的。
  • 公开邀请贡献_red.j 鼓励大家将自己喜欢的 AI 新闻和信息源添加到文档中,并提到他们也将该服务器添加到了其中。

提到的链接

The AI Info Diet ™️:未找到描述


LlamaIndex ▷ #announcements (1 messages):

  • LlamaIndex 研讨会公告@jerryjliu0 宣布了 太平洋时间周四上午 9 点的研讨会,重点关注最近在 LlamaIndex 黑客松中获胜的创新社区演示。会议将探讨基础聊天机器人之外的 RAG 使用案例,观众可以在此注册
  • 展示黑客松获胜者:LlamaIndex 研讨会将展示四个创造性地使用 RAG 进行高级知识综合和推理的项目:

提到的链接

LlamaIndex Webinar: RAG Beyond Basic Chatbots · Zoom · Luma:RAG 是 LLM 的主要使用案例之一,但许多开发者正在使用 RAG 在简单、静态的数据集上构建基础的问答聊天机器人。除了基础聊天机器人之外,RAG 还有哪些使用案例?我们….


LlamaIndex ▷ #blog (3 条消息):

  • LLM 元推理(Meta-Reasoning)正在开发中@peizNLP 介绍了一篇名为 Self-Discover 的新论文,该论文专注于通过让 LLM 自主选择合适的推理模块来增强其 元推理能力。这一进展可能会彻底改变 AI 中传统的固定推理结构。查看推文

  • 探索 RAG 在问答之外的潜力:LlamaIndex 宣布了一场网络研讨会,讨论 检索增强生成 (RAG) 在简单问答聊天机器人之外的多样化应用,暗示了尚未揭晓的创新社区用例。点击此链接标记您的日历

  • 通过智能重排序(Reranking)增强 RAG:Florian June 的博客文章因其在 RAG 系统 中实现重排序技术的易懂指南而受到 LlamaIndex 的赞扬,其中包括使用基于 BGE 的重排序器和由 LLM 驱动的替代方案。深入了解重排序


LlamaIndex ▷ #general (118 条消息🔥🔥):

  • Notebook 链接失效警报@wrapdepollo 指出 Document Management 页面上链接的示例 Notebook 无法访问,但提供了一个可用的替代 URL。他们强调这一点是为了防止该问题是无意造成的,或者方便其他需要访问该 Notebook 的人。
  • Discord 用户寻求 Node 更新指导@yashshukla9279 寻求关于在 LlamaIndex 中更新 Node 文本并确保元数据对齐的建议。@whitefang_jr 引导他们参考 document management 指南 以了解 Node 的 CRUD 操作。
  • AzureOpenAI 与 OpenAI 可靠性担忧:用户 @theoxd 分享了他们的经验,认为 AzureOpenAI 比标准的 OpenAI 接口更不可靠,工具大约每周就会停止运行一次。在提供的消息历史中,针对这一担忧没有后续回复。
  • 查询 VectorDB 聚类支持@david1542 询问是否有人知道支持 K-Means 和 DBSCAN 等聚类算法的 VectorDB。@cheesyfishes 回复提到了 usearch 的功能,并附上了其 GitHub 仓库的链接。
  • Agent 与工具交互的棘手问题@mst2205 描述了在让 ReActAgent 理解并结合日期工具和 obsidian 查询引擎的结果以处理诸如“我今天写了哪篇笔记?”之类的查询时遇到的困难。@cheesyfishes 建议在 prompt 中包含当前日期,并反思了开源 LLM 在 Agent 行为方面的普遍挑战。

提到的链接


LlamaIndex ▷ #ai-discussion (3 条消息):

  • RAG 定制化 vs. 服务化@skiboyec 询问了构建自定义 RAG 系统相对于使用 RAG-as-a-service 提供商的优势,质疑自定义系统是否能在不考虑自托管、可扩展性或 API 成本的情况下提供更好的检索性能。
  • 目标决定是构建还是订阅@desk_and_chair 回复推测,这一决定可能取决于目标——是为个人使用而利用 RAG,还是向他人提供 RAG 服务。他们将这种情况比作喜欢吃美味的汉堡,但不一定想亲自动手烧烤。

HuggingFace ▷ #general (63 messages🔥🔥):

  • LayoutLMv3 困扰:`truedescription` 在使用 Hugging Face 的 LayoutLMv3 处理器和模型时遇到了错误,即使将 truncation 和 padding 设置为 true 也是如此。讨论中没有提供解决该问题的明确建议。
  • 渴望创作:`sebaskja` 表达了为拉丁美洲 RL 课程成员创建一个频道的兴趣,并寻求如何设置的指导。
  • 视频狂欢:`chalm3rs.` 分享了一个来自 Twitter 的链接,展示了 OpenAI 团队最新的 Sora 视频,引起了用户的兴趣和欢乐。
  • API 知识探索:`dipto7613` 寻求制作 illusion API 的帮助,但由于端点过多且需要更多信息而面临挑战。
  • 对话式 AI 性能评估:`rwamit` 询问了评估微调后的 NER 模型的最佳方法,暗示对 IOB tagging 感兴趣,但对话结束时没有明确的结论。

提及的链接

来自 Borriss (@Borriss) 的推文:OpenAI 团队发布的 Sora 视频变得越来越疯狂了..(第 2 部分)7 个新视频:


HuggingFace ▷ #cool-finds (4 messages):

  • Generative AI 占据主导:用户 @erksu. 分享了一篇文章,讨论了 Generative AI 如何融入大多数人的日常生活,特别关注其在英国青少年和澳大利亚员工中的使用。文章强调了从好奇心到实际应用(如学习、咨询和内容创作)的转变,并提到了“prompt whisperers”。

  • 反思智能的本质@sebaskja 链接了一篇旧论文,指出仅根据特定任务的技能进行 AI benchmarking 不足以衡量真正的智能。该论文的摘要认为需要更好的反馈信号来评估 AI 和人类智能 下载 PDF

  • 微调 Zephyr-7B@not_lain 发现了一篇深入的博客,详细介绍了如何使用 quantization、PEFT 和 SFTTrainer 为客户支持聊天机器人微调 Zephyr-7B。它还讨论了 Hugging Face 集成 AutoGPTQ 库以实现模型低精度操作的情况。

  • 充满活力的 GIF 为聊天增色@moonmhmed 发布了一个幽默且充满活力的 GIF,带有“Why Should Your Mouth Have All The Fun”的信息,最初来自 Saturday Night Live。这个 GIF 为对话增添了一点乐趣,展示了 Cecily Strong 的摇摆舞

提及的链接


HuggingFace ▷ #i-made-this (8 messages🔥):

  • HuggingFace Spaces 上的横幅广告咨询:用户 @myg5702 询问了在 huggingface.co spaces 上放置横幅广告的可能性,引发了 @lunarflu 的回应。后者指出,对于像 Patreon 链接这样激励社区的内容可能允许放置广告,但禁止放置旨在将 HuggingFace 资源变现的随机广告。

  • 发布 CI/CD 机器学习指南@kingabzpro 发布了一份全面的 CI/CD 机器学习指南,涵盖了从 GitHub 仓库设置到使用 GitHub Actions 自动化模型测试和部署的所有内容,旨在简化进入 ML Ops 的过程。

  • Aya 数据集的可视化@cakiki 分享了 Aya 数据集 的可视化,展示了 CohereForAI 的 Aya 支持的语言。

  • 关于快速图像生成服务器规格的讨论@amirgame197 提到了 @myg5702 服务器极快的图像生成性能,后者透露其在云服务器上使用了强大的 Nvidia A40 大实例。

提到的链接


HuggingFace ▷ #reading-group (6 messages):

  • Annotated Mamba 已完成@tea3200 分享了关于 Annotated Mamba 的完整资源,这是 Sasha Rush 的一个项目,可在 Annotated Mamba 查看。
  • 对 Annotated Mamba 的赞赏@lunarflu 表达了对 Annotated Mamba 的钦佩,暗示它有潜力成为一篇传奇博文。
  • 关于作者身份的澄清@tea3200 澄清了 Annotated Mamba 是由 Sasha Rush 编写的,并提到了将其发布在 HuggingFace 平台上的想法。
  • Vision Transformers 即将到来@tea3200 宣布打算为 Vision Transformers 创建类似的带注释资源。
  • 对新项目的鼓励@lunarflu@tea3200 即将开展的 Vision Transformers 项目表示支持,并鼓励他们继续进行。

提到的链接

Mamba: The Hard Way:未找到描述


HuggingFace ▷ #diffusion-discussions (3 messages):

  • 寻求 AI 服装工具的指导:用户 @mohdfaiez 询问如何启动一个 AI 工具,让用户能够根据需求更换衣服。
  • 澄清使用场景:针对 @m.0861 关于需求是 3D 模型还是图像生成的询问,@mohdfaiez 分享了一篇关于 Pincel博文,这是一个使用 AI 在照片上更换衣服的应用,表明类似图像生成的应用是其目标。

提到的链接

使用 AI 在照片上更换衣服 - Pincel:使用 Pincel AI 轻松更换照片上的衣服,这是最适合使用即时 AI 魔法快速简便更换装扮的在线应用。


HuggingFace ▷ #NLP (4 条消息):

  • QLoRA 微调困扰:用户 @kingpoki 在使用 AutoPeftModelForCausalLM.from_pretrained 进行 QLoRA finetuning 时遇到错误,该错误发生在与模型合并的过程中。他们发布了代码片段和 NotImplementedError 堆栈跟踪,寻求对该问题的见解。

  • 寻求 RA-DIT 和 REPLUG 指导@austintb. 询问是否有关于 RALMs (Realm Adaptive Language Models)RA-DITREPLUG 指令微调(instruction tuning)的代码演示或 Demo。

  • Whisper 误解之谜@pantera4738 在使用 whisper large v3hugging face API 进行转录时遇到困难;对于提供的音频文件,API 输出的是中文转录而不是西班牙语。他们分享了 Python 代码,以寻求解决转录语言不一致的问题。


HuggingFace ▷ #diffusion-discussions (3 条消息):

  • 探索 AI 驱动的更衣工具:用户 @mohdfaiez 询问如何构建一个能让用户在图像上更换衣服的 AI 工具。他们正在寻求从何处开始这项工作的指导。
  • 澄清概念可视化@m.0861 询问 @mohdfaiez 的目标是在 3D 模型上更换衣服,还是通过图像生成来实现。
  • AI 时尚技术揭秘@mohdfaiez 分享了 Pincel app 的示例,这是一个使用 AI 更换照片中服装的照片编辑器,旨在为他们的项目提供灵感。该应用允许用户上传照片,用刷子标记区域,然后使用 AI 更换衣服,突显了创意与技术的融合。

相关链接

使用 AI 在照片上更换衣服 - Pincel:使用 Pincel AI 轻松更换照片上的衣服,这是通过即时 AI 魔法快速简便更换服装的最佳在线应用。


OpenAccess AI Collective (axolotl) ▷ #general (71 条消息🔥🔥):

  • Yolo 计算风险@le_mess 在没有设置 checkpoint 的情况下冒险进行了 10 天的 A100 计算,引发了 @yamashi 的同情和幽默的 “yolo” 回应,以及 @noobmaster29 的捂脸表情。
  • 量化巨头@noobmaster29 讨论了量化 7B 模型所需的 VRAM 要求,分享了经验和资源,例如来自 TheBlokeAI’s GitHub 的脚本。
  • BioMistral 遭到质疑@yamashi 批评 BioMistral 涉嫌误报 benchmark,引发了关于模型 benchmarking 实践的准确性和公平性的讨论。
  • 训练时间戏言@le_mess 开玩笑说微调一个 1.3B 模型所需的时间跨度极大,从 “5 秒到 109 年” 不等,随后为 @qwerty_qwer 在 4090 GPU 上处理 240 万个训练对给出了 6 天的严肃估算。
  • 模型训练观察@c.gato 思考 sample packing 如何因长上下文样本的更高有效学习率(learning rate)而影响训练,并想知道这是否值得关注。

相关链接


OpenAccess AI Collective (axolotl) ▷ #axolotl-dev (5 messages):

  • 考虑在键盘中断时保存 Checkpoint@seungduk 询问了在发生键盘中断 (ctrl+c) 时系统保存 Checkpoint 的可能性,并建议该功能应该是可配置的。
  • 重新审视过去的 Checkpointing 功能@nanobitz 确认键盘中断期间的 Checkpointing 以前实现过,但对其目前是否能正常工作表示不确定。
  • 正在检查实现的完整性:讨论之后,@seungduk 表示他们将进一步调查此事。
  • 社区进行代码审查@caseus_ 提供了一个指向与训练及潜在 Checkpointing 相关的特定代码段的 GitHub 链接,邀请成员审查该实现。

提到的链接

axolotl/src/axolotl/train.py at main · OpenAccess-AI-Collective/axolotl:欢迎就 axolotl 提问。通过在 GitHub 上创建账号为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。


OpenAccess AI Collective (axolotl) ▷ #runpod-help (6 messages):

  • 分享目录覆盖(Clobbering)的解决方法:用户 @m4ttfl0 针对目录覆盖问题提供了一个解决方案,建议使用具有不同持久卷挂载点的自定义模板,并分享了相关问题链接供参考:RunPod 模板无法与网络卷配合使用

  • 询问 RunPod 设置时间:用户 @noobmaster29 询问 RunPod 的设置通常需要多长时间,并指出他们的设置似乎耗时异常。

  • 对设置卡住表示沮丧@noobmaster29 对在设置过程中遇到几个无响应(“死亡”)的 Pod 表示沮丧。

  • 寻求错误代码的澄清@noobmaster29 询问错误代码 -9 是否表示系统内存不足(OOM)问题。

提到的链接

RunPod template not working with network volumes, /workspace/axolotl empty · Issue #813 · OpenAccess-AI-Collective/axolotl:请检查此问题之前是否已被报告。我搜索了之前的 Bug 报告,没有发现类似的报告。预期行为:其他用户也遇到了这个问题:#467 根据…


LAION ▷ #general (67 条消息🔥🔥):

  • 讨论了 Juggernaut XL Checkpoint@spirit_from_germany 询问了如何在不使用 UI 的情况下使用 Juggernaut XL 模型生成图像,随后引发了讨论,其中包括 Hugging Face 上的一个 Checkpoint 以及用于实现的代码片段。
  • 带有预处理 Embedding 的图像/文本数据集@top_walk_town 询问了经过 SDXL VAE 预处理的图像数据集,@pseudoterminalx 提到存在此类数据集,尽管在质量上存在某些限制,并提供了一个 Hugging Face 链接 作为参考。
  • Reddit 和 LoRA 方法引发辩论@segmentationfault8268 分享了一篇讨论 LoRA 方法的 Reddit 帖子,这引发了围绕模型现实主义和训练审美偏好的对话。
  • 分享 Alpha-Prompt LORA 进行测试@qwerty_qwer 邀请大家测试与 TwoAbove 共同开发的 Alpha-Prompt LORA 模型,该模型旨在根据描述生成详细的 SD 提示词,可在 Hugging Face 上获取。
  • AI 工具、新闻和资源汇编@_red.j 介绍了一份名为 The AI Info Diet ™️ 的 Google 文档,该文档是在与 ML 专家进行的 Twitter Space 活动中汇编的,旨在紧跟 AI 的最新动态,并开放接受额外贡献(文档链接)。

提到的链接


LAION ▷ #research (5 条消息):

  • 介绍 Goody2 Model Card:用户 helium__ 分享了 Goody2 model card 的链接,可能是在向感兴趣的人推荐该资源。
  • 寻找 AI 增强的 CAD 程序:用户 glasscow 询问是否有任何集成了 AI 的 CAD 程序用于实时模型设计,旨在简化为 Unity 引擎创建 2D 或 3D 模型的过程。
  • AI 驱动的 CAD 开发面临的挑战unjay. 强调了开发 AI 驱动的 CAD 软件的困难,理由是参数化 3D 形状缺乏标准化以及缺少合适的数据集。
  • AI 精度 vs 人类一致性:用户 atlasunified 就 AI 的精度发表了观点,将其与人类持续重复精度的能力进行了对比。
  • Mistral 的 ‘Next’ AI 可能超越 GPT-4vrus0188 分享了一个 Reddit 链接,指出早期测试者认为 Mistral 最新的开源 ‘Next’ AI 可能会超越 GPT-4。

提到的链接

Reddit - Dive into anything:未找到描述


Latent Space ▷ #ai-general-chat (70 条消息🔥🔥):

  • Groq 的竞争性速度与成本@swyxio 等人讨论了 Groq 声称的性能,包括对其如何实现如此高速度和成本效益的推测。@slono 提到已申请访问权限,希望它能改变他们的工作,而 @shivdinho 则思考了它可能实现的实时应用。

  • 深入探讨 Groq 的技术@coffeebean6887 花时间研究了 Groq 的方法,分享了他们对其独特的无 DRAM、可水平扩展架构的认识,该架构采用了大量 SRAM 芯片用于实时 LLM 实例。考虑到 Groq 基础设施的高昂成本,社区对其经济可行性提出了质疑。

  • 向量检索的局限性受到关注:针对一篇关于基于向量与基于图检索的文章,@fanahova 评论称,目前的营销存在误导性,忽视了 HNSW 等方法自诞生以来的现代进展。

  • 关于聊天机器人 RAG 实现的讨论:用户讨论了如何确定聊天机器人中用户消息是否需要检索增强生成(RAG)。想法包括使用 LLM 推断用户意图、用户控制、异步多级响应,以及 @ashpreetbedi 提到的 function calls 的强大功能。

  • Percy Liang 发布全新 HELM 基准测试@swyxio 分享了斯坦福大学教授 Percy Liang 推出的全新 HELM 基准测试,这是一个指令评估框架,包含绝对评分,旨在进行更全面的 LLM 评估。

提到的链接


CUDA MODE ▷ #general (6 条消息):

  • Discord 上的异样感觉@cropinky 对某个未指明的主题表示不安,称 “这样做感觉像是违法的”,这一观点得到了 @apaz 的回应:“那看起来确实非常违法”
  • 分享了有争议的链接@euclaise 分享了一个可疑链接,其中仅显示一个字符串,随后是长串的加密图像数据,未作进一步解释。
  • 来自 joseph_en 的安抚:针对 @cropinky 的担忧,@joseph_en 解释称这是为了在单个系统上演示 llama7B13B 而必须采取的手段,并说明这是解决技术挑战所必需的权通方案。
  • 使用 NVIDIA 工具的技巧@gogators. 建议所有 NVIDIA 工具都与 CUDA 文件的 Python 脚本兼容。他们推荐使用 cuda-gdb 设置断点,并指出在 GPT-4 提供模拟驱动函数(mock driver functions)等自动化功能的辅助下,调试独立的 .cu 文件比调试 Python 进程更高效。

提到的链接

Mamba: The Hard Way:未找到描述


CUDA MODE ▷ #triton (3 条消息):

  • Sasha Rush 的最新贡献:用户 @mortezism 分享了 Sasha Rush 带有注释的 Mamba 模型 链接,可以在 Annotated Mamba 找到。该消息还包含一段未处理的图像代码。

  • 关于在 Triton 中运行 FP8 操作的咨询@neuralink 询问是否可以在 Triton 中使用 Tensor Cores 运行非矩阵乘法操作,例如逐元素加法(element-wise addition)或平方根。

  • 了解 Tensor Core 的功能@iron_bound 回复了 @neuralink,解释说 Tensor Cores 是专门为执行矩阵乘法和累加而设计的。他们没有提供关于 Triton 中 FP8 操作的进一步信息。

提到的链接

Mamba: The Hard Way:未找到描述


CUDA MODE ▷ #torch (1 条消息):

  • 纯原生 PyTorch 挑战极限@ardywibowo 分享了一篇博客文章,讨论了如何使用专注于 LLM 优化的纯原生 PyTorch 来加速生成式 AI 模型。该文章引用了 Segment Anything 超过 8 倍的性能提升,并重点介绍了 llama.cppvLLMMLC-LLM 等开源项目。

  • 编译后的 Kernel 与传统库的对比@ardywibowo 对博客中关于编译后的 Kernel 性能可以超越 CuBLAS 和 FlashAttention2 的说法持怀疑态度,并质疑这是否属实。
  • 寻求性能对比的基准测试@ardywibowo 询问是否有全面的基准测试,将 PyTorch 的特性与其他解决方案(如 FasterTransformer、TensorRT 等)进行对比。
  • 何时选择 torch.compile 而非 CUDA?@ardywibowo 寻求社区关于何时选择 torch.compile 而非深入 CUDA 模式进行优化的见解。

提到的链接

Accelerating Generative AI with PyTorch II: GPT, Fast:这篇文章是系列博客的第二部分,重点介绍如何使用纯原生 PyTorch 加速生成式 AI 模型。我们很高兴能分享一系列新发布的 PyTorch 性能特性……


CUDA MODE ▷ #algorithms (6 messages):

  • 并行算法与硬件效率的结合@ericauld 分享了一篇 Twitter 帖子,强调了像 Mamba 这样的状态空间模型如何从硬件感知的并行扫描 (parallel scans) 中获益。

  • 深入探讨自动微分@ericauld 表达了对深入研究 Automatic Differentiation(自动微分)的兴趣,并提到了它与 FlashAttention 重计算技术的关系。他们提供了一本 Amazon 上的书链接,书名为 Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation,并强调了其潜在的实用性。

  • 提议梯度检查点小组学习@ericauld 提到了某本书中引用的 Gradient Checkpointing(梯度检查点)的相关性,并对第 1-4 章表现出兴趣。他们邀请其他人一起阅读和讨论。

  • 呼吁高性价比学习@msthil2 对小组学习的想法做出了积极回应,同时也感叹学术书籍的高昂成本。他们开玩笑说自己是“菜鸟级别 (noob tier)”,但愿意参与学习。

  • 经济实惠的替代方案建议@iron_bound 建议探索在线图书馆,作为获取昂贵学术内容且无需支付高价的解决方案。

提到的链接

Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation: Griewank, Andreas, Walther, Andrea: 9780898716597: Amazon.com: Books:未找到描述


CUDA MODE ▷ #beginner (10 messages🔥):

  • 演示文稿混淆已化解@cs_os_05101 误将一份演示文稿归功于 @euclaise,导致了小小的困惑,但随后由 @apaz 纠正,将功劳归于正确的人 Jane (<@354465570030092290>)。
  • 面向 PyTorch 爱好者的 GitHub 宝藏@p0.tato 澄清了他们的演示文稿是关于 PyTorch 仓库中的 OSS 代码,特别强调了 MultiTensorApply.cuh 中的 TensorListMetadatamulti_tensor_apply,以及一个相关的被撤销的 PR
  • 发现 NVIDIA 的三重时钟频率@apaz 了解到可以使用 nvidia-smi 查询三种不同的时钟频率(graphicsmemoryvideo),这为 GPU 性能监控提供了新的视角。
  • 揭秘 NVIDIA Boost Clock 的秘密@stefangliga 分享了一个趣闻:NVIDIA GPU 宣传的 Boost Clock 并非绝对值,实际频率会根据环境条件而变化,粗略估计温度每降低 1°C,频率可提升约 50MHz。

提到的链接


CUDA MODE ▷ #pmpp-book (4 messages):

  • CUDA Core 概念澄清请求@nshepperd 询问“CUDA Core”一词是否专门指代 fp32 和 int32 算术单元
  • 理解 CUDA Core 处理方式@nshepperd 推测,当线程数多于算术单元时,可能存在 交错处理 (interleaved processing) 或流水线 (pipelining)。
  • 关于 CUDA 执行机制的见解@_t_vi_ 解释说,CUDA Core 中的四个单元中的每一个在给定时间内执行一个 Warp 或 Subwarp 的指令,并强调了由于 register file(寄存器堆)内的静态寄存器而实现的快速切换机制。
  • 对解释的认可@lucaslingle@_t_vi_ 提供的澄清表示理解和感谢。

CUDA MODE ▷ #jax (10 messages🔥):

  • 探索 XLA 和 SPMD@nshepperd 提到正在为 JAX 开发 flash attention 绑定,并在此过程中深入了解了 SPMD (Single Program, Multiple Data) 在 XLA 中是如何运作的。
  • 绑定项目可能有助于 Ring Attention 开发@nshepperd 提醒注意 Flash Attention 仓库绑定与 Ring Attention 项目的潜在相关性,暗示这与 @ericauld 在 Ring Attention 频道中提到的广泛 JAX 实现有关联。
  • JAX 作为 Flash Attention 的首选环境@nshepperd 指出存在多个使用纯 JAX 编写的 Flash Attention 项目,可能是因为这被认为比使用 CUDA 更容易。
  • Tri Dao 仓库中的 Torch 依赖是一个障碍@nshepperd 还谈到了从 Tri Dao 的 Flash Attention 仓库中移除 Torch 依赖的挑战,暗示这是一项非平凡的任务。

CUDA MODE ▷ #ring-attention (28 messages🔥):

  • 深入研究 flash-attention 机制@ericauld 发起了对 flash-attention GitHub 仓库 的集中审查,强调了 compute_attn_1rowblockcompute_dq_dk_dv_1colblock 方法等关键关注点。他们强调了关于 Backward 方法与 PyTorch 集成以及所涉及数据结构的基础问题。
  • 回溯反向传播(Backward Pass)@ericauld@mickgardner 就 Flash Attention 仓库中复杂的 Backward 实现交换了见解,@mickgardner 承认其难度令人望而生畏,而 @ericauld 识别出 flash::copy 可能用于梯度通信。
  • 探索 TPU 架构和缓存机制@iron_bound 讨论了与 Google TPU 缓存相关的方面,分享了 JAX GitHub 仓库中相关代码的链接,而 @nshepperd 提供了关于 TPU 架构的额外背景,包括对 Scratch Space 和 CMEM 的引用。
  • Ring Attention 与 Flash Attention 的重新实现@ericauld 质疑了在 ring_attention.py 文件中重写 Flash Attention 逻辑的基本原理,引发了关于 Ring Attention 可重用性和定制化的讨论,特别是来自 @andreaskoepf 的观点。
  • Ring Attention 的贡献者协调@andreaskoepf 提议通过 PR 对 Flash Attention 代码库进行潜在改进以支持 Ring Attention,并概述了审查 JAX 实现的计划。已创建一个 Issue 用于开发一个处理部分 KV 块(KV-blocks)的朴素教学版本。

提到的链接


Perplexity AI ▷ #general (34 messages🔥):

  • Gemini Pro 访问权限消失:用户 @harlon0389.themantis@jaicraft 讨论了 Perplexity Pro 中 Gemini pro access 消失的问题,引发了关于可能增加 Ultra 或 Pro 1.5 access 更新的猜测。
  • 更新无固定时间表@sandeepmuthangi 询问更新的时间表,@ok.alex 给出了一个模糊的回答并提供了一个 Discord 重定向链接,可能暗示了与查询相关的信息。
  • Perplexity 聊天长度限制澄清@icelavaman@roy_royce 解释说,Perplexity Playground 中的文本长度限制与订阅无关。API 文档概述了上下文大小(context sizes),并指出未来可能会增加;此信息独立于 Pro 订阅。
  • 周边商品咨询引发幽默@lord.wex 询问关于 Perplexity merchandise 的信息,促使 @mares1317 分享了 @AravSrinivas 关于“三月出周边(merch by March)”的一条推测性推文链接,引起了 @jaicraft 等用户的兴趣。
  • 用户讨论 GPT-4 的可用性和速度@abiggenius 思考 Perplexity Pro 是否使用了 GPT-4 turbo,但 @icelavaman 确认其使用的是标准版本。@gooddawg10 的进一步讨论表明 可用性仍不确定,而 @brknclock1215 分享了一个讨论 Perplexity 市场策略的无关链接。

提到的链接


Perplexity AI ▷ #sharing (2 messages):

  • 探索 Perplexity 的机制@soabonen 分享了一个探索 Perplexity 内部运作机制的链接:How does Perplexity work?
  • 揭秘 Perplexity 的设计师@sjohri 提供了一个链接来了解 Perplexity 设计背后的推手:Who designed Perplexity?

Perplexity AI ▷ #pplx-api (2 messages):

  • pplx-online 模型不支持 Fine-tuning:用户 @retonq 询问了对 pplx-online 模型进行 fine-tuning 的可能性。然而,@icelavaman 带着表情符号给出了明确的回答:No

LangChain AI ▷ #general (18 messages🔥):

  • 寻求 LangChain Chains 的可视化@andreu.codina 询问了关于在 LangChain 中可视化 chains 或调用(calls)的问题,注意到当前文档中缺少此类信息,可能是指一个月前观察到的某个功能。

  • LangChain Chain 类更新@rajvir3 提供了一份详细的已弃用 Chain Classes 列表,并链接到了 changelog,并询问现在如何实现 SimpleSequentialChainSequential Chain@theepic.dev 澄清说这些正被 LCEL 取代,并展示了代码示例,同时参考了 LCEL documentation

  • ChatVertexAI 配置故障排除:用户 @molnarbalazs 就使用 ChatVertexAI 时出现的 NEGLIGIBLE 级别响应验证(Response Validation)错误寻求帮助,寻找关闭此响应验证或调整安全配置的方法。

  • Chroma 检索问题@theepic.dev 在调用 Chroma 的 retriever 时遇到了性能问题,并推论将问题转换为关键词列表可能会产生更好的结果。

  • 理解 LLM 参数@nrs9044 询问了大型语言模型(LLMs)中参数的含义,@anthology_ 解释说参数是权重,来自 prompt 的 tokens 在后端使用这些参数来构建响应。

提及的链接

  • [langchain 🦜️🔗 Langchain](https://python.langchain.com/docs/changelog/langchain): 0.1.0 (Jan 5, 2024)
  • [Chains 🦜️🔗 Langchain](https://python.langchain.com/docs/modules/chains): Chains 指的是一系列调用——无论是对 LLM、工具还是…
  • [LangChain Expression Language (LCEL) 🦜️🔗 Langchain](https://python.langchain.com/docs/expression_language/): LangChain Expression Language,即 LCEL,是一种声明式地轻松组合 chains 的方式。
  • [ChatOllama 🦜️🔗 Langchain](https://python.langchain.com/docs/integrations/chat/ollama#via-langchain): Ollama 允许你运行开源大型…
  • community: Add SparkLLM Text Embedding Model and SparkLLM introduction by liugddx · Pull Request #17573 · langchain-ai/langchain: 感谢为 LangChain 做出贡献!清单:PR 标题:请将您的 PR 命名为 “package: description”,其中 “package” 是 langchain、community、core、experimental 中的任何一个…

LangChain AI ▷ #share-your-work (1 messages):

  • 丰富的 LangChain 教程:用户 @mehulgupta7991 分享了一个包含 60 多个视频的全面 LangChain 教程播放列表。这些教程旨在教育用户了解 LangChain 的各种用例,这是一个用于开发生成式 AI 应用程序的框架。

提及的链接

Langchain: 此播放列表包含所有关于 LangChain 的教程,LangChain 是一个使用 LLMs 构建生成式 AI 应用程序的框架。


LangChain AI ▷ #tutorials (2 messages):

  • 探索 LangGraph Retrieval Agent@pradeep1148 分享了一个名为 “LangGraph Retrieval Agent” 的 YouTube 视频,解释了 Retrieval Agents 在决定何时从索引中检索时的用途,并演示了如何通过提供特定指令来实现一个。

  • 通过教程系列深入了解 LangChain@mehulgupta7991 重点介绍了一个包含 60 多个教程的全面 播放列表,专注于不同的 LangChain 用例。这些教程是学习如何使用大型语言模型(LLMs)构建生成式 AI 应用程序的资源。

提及的链接

  • Langchain: 此播放列表包含所有关于 LangChain 的教程,LangChain 是一个使用 LLMs 构建生成式 AI 应用程序的框架。
  • LangGraph Retrieval Agent: 当我们想要决定是否从索引中检索时,Retrieval Agents 非常有用。要实现一个检索代理,我们只需要给出一个…

DiscoResearch ▷ #general (5 messages):

  • 在 LLM 中混合语言和专业知识@johannhartmann 对具有针对不同语言和领域的多个专家的 LLM 表示感兴趣,并思考如何通过相应的 Prompt 来引导语言进入正确的模型。
  • LLM 预训练资源与语言模型讨论@johannhartmann 提到了 LLaMA-Factory,这是一个适用于 LLaMA 和 BLOOM 等各种模型的预训练框架,建议可以将其用于新语言的 LLM 预训练,并向那些预训练过顶级德国模型的人寻求经验。
  • 大规模集群上 LLM 训练的专家建议@bjoernp 建议在大规模集群预训练(超过 128 个 GPU)中使用 GPT-Neo-X、Megatron-LM 或 epfl 和 deepspeed 等变体,还提到了支持 sample packing 且效率接近更复杂方法的 Axolotl
  • 对大规模预训练建议的确认@remek1972 确认他们正在大规模集群上进行训练,并感谢 @bjoernp 提供的有用建议。
  • 求救信号?@phantine 分享了一条令人不安的消息,称他们“被困在精神病院”,未提供更多上下文。

提到的链接

GitHub - hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM):易于使用的 LLM 微调框架 (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM) - hiyouga/LLaMA-Factory


DiscoResearch ▷ #benchmark_dev (3 messages):

  • 寻找预算友好的 Benchmark:用户 @yobibyte 为 GPU 资源有限的人询问是否有类似于 openllm leaderboard免费 Benchmark
  • Fasteval 作为替代方案:尽管有人请求免费选项,@johannhartmann 还是提到了使用 fasteval 配合 mt-bench(-de) 进行快速且资源消耗较少的模型评估。
  • Fasteval 的实际成本说明@bjoernp 指出,即使使用建议的方案,fasteval 每个模型也会产生超过 5 欧元的 OpenAI 额度成本,这挑战了将其视为免费评测工具的观点。

DiscoResearch ▷ #discolm_german (4 messages):

  • DiscoResearch 演示停机说明@maxmaier_ 询问 https://demo.discoresearch.org 上的演示服务器是只对他个人还是对所有人关闭。@_jp1_ 确认服务器已关闭,因为 GPU 被用于评估,并承诺会尽快恢复。
  • 服务器恢复运行:随后,@_jp1_ 通知演示服务器应该已经重新运行,表明停机是暂时的且问题已解决。@maxmaier_ 对快速修复表示感谢。

提到的链接

DiscoLM German 7b Demo:未找到描述


Alignment Lab AI ▷ #general-chat (1 messages):

  • AI 爱好者创建协作主文档:用户 @_red.j 分享了一个名为 The AI Info Diet ™Google Document,该文档是在一次与 ML 专家进行的 Twitter space 会议期间创建的,旨在作为人们了解 AI 最新工具、新闻和信息的资源。该文档可供任何人贡献自己喜爱的来源,_red.j 也将 Alignment Lab AI 的 Discord 服务器添加到了列表中。

提到的链接

The AI Info Diet ™️:未找到描述


Skunkworks AI ▷ #off-topic (1 messages):

pradeep1148: https://www.youtube.com/watch?v=DFT0tMBwh04


LLM Perf Enthusiasts AI ▷ #general (1 messages):

jeffreyw128: 你怎么访问它?我在控制台里怎么也搞不明白,哈哈。