ainews-12232023-neurips-best-papers-of-2023

2023年12月23日:2023年 NeurIPS 最佳论文

Latent Space Pod 发布了一段长达 3 小时的 NeurIPS 2023 最佳论文回顾Nous Research AI Discord 社区讨论了如何通过缩短上下文长度来优化 AI 性能,以及与 HuggingFace 相关的恶意软件安全担忧,并分享了关于视频和音乐内容的见解。技术讨论包括:提出线性层更快替代方案的 DYAD 研究论文苹果的 ML Ferret 机器学习工具,以及通过 API 访问 PALM2。该社区还探讨了大语言模型,重点关注专业化模型、数据缩放、嵌入/向量数据库、模型合并和可解释性,并提到了 Hermes 2.5GPT-4Mistral。此外,还有关于 Striped Hyena 架构量化挑战,以及与 RMSNorm《Attention is All You Need》 论文相关的修复讨论。

#context-length #malware-security #video-content #music-content #linear-layers #api-access #large-language-models #embedding #vector-databases #model-merging #model-interpretability #striped-hyena-architecture #quantization #rmsnorm #attention-mechanisms gpt-4 palm2 hermes-2.5 mistral-7b nous-research hugging-face apple

](https://twitter.com/latentspacepod/status/1738709627829883346)

2023 年最佳论文的 3 小时精华。请享用。

[TOC]

Nous Research AI Discord 摘要

  • 讨论了优化 AI 性能,重点是使用更短的上下文(shorter contexts)以获得更好的结果,并可能将这些见解应用到 GPT-4 并发布为博客。
  • 关于与 HuggingFace 相关的恶意软件安全的活跃交流,一位用户分享了通过电子邮件收到的潜在恶意软件威胁的个人经历。
  • 视频和音乐内容持续关注,用户分享了各种类型的 YouTube 链接,包括关于 YouTube 可能进行画质提升(upscale)的讨论。还揭露了 AI 报道中的标题党(clickbait)问题,呼吁在 AI 相关媒体中进行更诚实的陈述。
  • 深入探讨了机器学习的技术进展,包括关于 DYAD(一种新型线性层替代方案)的研究论文,以及 Apple 新推出的 ML Ferret。用户还探讨了通过 API key 访问 PALM2 的过程,并计划讨论 Agent LLM 的马尔可夫式规划(Markovian-type planning)。
  • 关于大语言模型 (LLM) 的讨论集中在构建专用模型、处理数据缩放(分享了相关代码)、嵌入(embedding)和向量数据库管理、探索模型合并策略以及 LLM 可解释性资源。社区还分享了各种 AI 模型的性能结果(例如 Hermes 2.5、GPT-4 和 Mistral)。
  • 在 ask-about-llms 频道中积极探索 Striped Hyena 架构和量化(quantization),讨论了量化挑战、RMSNorm 问题及潜在修复方案。用户还注意到 “Attention is All You Need” 论文中增加的红色提示,并讨论了 NousResearch 模型的问题。

Nous Research AI 频道摘要

▷ #ctx-length-research (3 条消息):

  • 使用更短的上下文以获得更好的结果:用户 @cognitivetech 分享了他们的观点,即在与聊天机器人 AI 协作时,使用更短的上下文比尝试使用长上下文并一次性总结大量内容效果更好。据他们称,即使在过渡到 GPT-4 时,这一观察结果依然成立。
  • 请求发布见解@cognitivetech 希望将这些见解发布在博客中,以便在未来的讨论中轻松引用。

▷ #off-topic (32 条消息🔥):

  • 关于 YouTube 可能进行画质提升的讨论:用户 @fullstack6209 分享了一个 YouTube 链接,并对 YouTube 可能对所有视频进行画质提升(upscale)表示惊讶。视频内容是 Gabrielle Drake 在 SHADO UFO 系列中的形象。
  • 提及通过 HuggingFace 传播的恶意软件:用户 .beowulfbr 分享了个人经历,称收到一封来自所谓韩国研究人员的电子邮件,提议以完成一份研究表格来换取 15 美元的 Amazon 礼品卡。警惕潜在的恶意软件。该邮件是因为用户在 HuggingFace 上的活动而被收到的。
  • 歌曲推荐与欣赏@fullstack6209 分享了另一个 YouTube 音乐视频链接,是 Lorn 的歌曲 “Anvil”。用户 .beowulfbr 对分享的曲目表示赞赏,并请求 @fullstack6209 分享他们的播放列表。
  • 关于 AI YouTube 频道的讨论:用户 @Error.PDF 表达了对那些报道 AI 但使用误导性标题党缩略图(尤其是《黑镜》系列中的机器人图像)的 YouTube 频道的厌恶。@n8programs 表示希望能有一个提供非标题党真实新闻的 AI YouTube 频道。
  • AI Explained - YouTube 频道推荐@henriqueln7 分享了 “AI Explained” 频道的 YouTube 链接,认为它是 AI 新闻的一个很好的来源,尽管稍微有点标题党。
  • 关于 DYAD 的讨论@euclaise 分享了一篇关于 DYAD 的研究论文链接。DYAD 是一种旨在作为线性层(Pytorch 中的 nn.Linear())更快速、更内存高效的替代方案而设计的层。它被用于 Transformers 的 ff 模块等常见子组件中。研究论文链接
  • Apple 的 ML Ferret@tofhunterrr 分享了 Apple 名为 ML Ferret 的机器学习仓库链接。该方案被描述为一个端到端机器学习语言模型(End-to-End Machine Learning Language Model),可以接受任何形式的指代(referring)并在响应中对任何内容进行定位(grounding)。ML Ferret 链接
  • 通过 API key 访问 PALM2@night_w0lf@fullstack6209 讨论了通过 https://makersuite.google.com/app/apikey 提供的 API key 访问 PALM2 的问题。
  • Agent LLMs 的马尔可夫型规划@gabriel_syme 建议组织一次会议,讨论针对 Agent LLM 的马尔可夫型规划(Markovian-type planning)。
  • 对语言建模中规模力量的反思@gabriel_syme 分享了一篇博客文章,讨论了语言建模中揭示的规模力量(power of scale)如何回归到组合性(compositionality)。博客文章链接

▷ #general (303 条消息🔥🔥):

  • 构建专业化模型与数据扩展:用户 @nanowell 提出了构建一组功能不同但协同工作的专业化模型的话题,对此 @n8programs 建议在不同领域训练每个专家模型。@emrgnt_cmplxty 也分享了管理大量数据(4TB 数据库)的经验和挑战,并谈到了处理约 100TB 高质量数据时更具扩展性策略的必要性。用户 @tokenbender 讨论了数据管理中成本、延迟和准确性之间的平衡(代码链接)。
  • Embedding 与向量数据库讨论:用户 @fullstack6209@gabriel_syme@emrgnt_cmplxty 深入讨论了各种向量数据库(Vector Database)解决方案和大规模 Embedding 生成。他们分享了使用 Qdrant、pg-vector、Weaviate、Chroma/Pinecone 和 Jina 等解决方案的经验,强调了管理和扩展向量数据库方面的挑战。
  • 模型合并 (Model Merging):聊天中出现了关于模型合并的持续讨论,特别是使用 SLERP、Ties 等方法合并预训练的大语言模型。对于那些研究模型合并的人,推荐了 MergeKit 等工具。
  • 大语言模型 (LLM) 可解释性:用户 @mayhem1349 分享了一个致力于 LLM Interpretability 资源的仓库(GitHub 链接)。该集合包括专注于解释 LLM 的开源工具、论文、文章和团体。
  • 模型性能:讨论了不同 AI 模型在各个方面的表现。@weyaxi 分享了无需额外训练的 SLERP 合并结果。社区还反思了 Hermes 2.5、GPT-4 和 Mistral 等模型在编码和推理任务中的表现。

▷ #ask-about-llms (25 messages🔥):

  • “Attention is All You Need” 中添加了红色提示:用户 @ex3ndr 注意到 “Attention is All You Need” 论文中添加了红色提示。@fullstack6209 推测这可能是出于法律原因,而 @lightningralf 则认为这是 Google 推动 Transformer 所有权策略的一部分。
  • NousResearch-Yarn-Llama-2-7b-64k.Q8_0.gguf 的问题:用户 @cognitivetech 报告了 NousResearch-Yarn-Llama-2-7b-64k.Q8_0.gguf 模型的问题,询问是否有特定的 prompt 模板可以使用。.beowulfbr 建议可能可以使用 ChatML。
  • Striped Hyena 架构@casper_ai 询问了在 AutoAWQ 中使用的 Striped Hyena Architecture 图。用户 @teknium 将他引荐给了 Striped Hyena 的主要贡献者。
  • Striped Hyena 量化:围绕 Striped Hyena 的量化展开了详细讨论。用户 @casper_ai 提到了各种挑战,例如无法对 filter 层进行量化,尽管 attention 和 MLP 层可以量化。@zymrael 就量化敏感性以及无法量化的元素提供了有用的见解。
  • Striped Hyena 中的 RMSNorm 问题@casper_ai 提到在 Striped Hyena 的上下文中遇到了与 'RMSNorm' object 相关的 AttributeError,并考虑为 RMSNorm 创建一个新的 scaling 函数。@zymrael 确认在 RMSNorm 中,scale 等同于 weight。

OpenAI Discord Summary

  • 关于 OpenAI 工具的辩论和知识交流,特别是 GitHub Copilot 与 JetBrains 的兼容性 及其在 inline coding 中的有效性。”GitHub Copilot 与 JetBrains 配合良好” —— @infidelis@jessicant
  • 针对 AI 应用的批评和建议,例如 Bing 被称为处理学业最差的 AI 应用之一,原因是其表现不佳且内容不合逻辑 —— @caledordragontamer
  • 探索 quantum computers 在 AI 训练中尚未开发的潜力,并建议阅读研究论文以获得更深入的理解 —— @michael_6138_97508
  • @0718.eth 提出了突然封号的情况,强调了审核和账号安全的必要性。
  • @eljajasoriginal 讨论了在 OpenAI 工具中使用 Mixtral 8x7b 和 Mistral Medium 模型 的情况。
  • 用户报告 GPT-4 分析数据和从文件中提取数据的功能有限,一些人推测这可能与 Bing 集成有关。
  • 用户分享了错误消息计入使用限制的经历,并建议实施用户反馈以解决错误 —— @busybenss@xv_versus@lugui
  • 用户讨论了 ChatGPT 未来版本中预期引入的 features,例如 “My ChatGPT” 功能 —— @jaicraft@dino.oats
  • 用户对当前 GPT-4 的回答 表示不满,并就如何获得更好的回答提出了建议 —— @gionta21@rendo1
  • 关于 OpenAI API 连接 挑战及潜在解决方案的对话,@bluehipp0. 分享了解决 OpenAI API 问题的经验。
  • 讨论了升级 ChatGPT PLUS 订阅 时遇到的问题并推测了可能的原因 —— @ixtatica@7877
  • 用户关于 prompt engineering 的查询、DALL-E 图像生成的反馈以及 chatbot 中潜在的问题和改进 —— @eskcanta@.shaw93@madame_architect
  • 关于 DALL-E 图像生成以匹配特定用户需求的对话,强调了清晰指令的重要性,以及将其转换为 用于游戏的 pixel art 的可能性 —— @eskcanta@suptrox
  • 为 chatbot 提供更好的 system message 结构建议,以及关于使用知识库处理大量系统信息的讨论 —— @madame_architect@.shaw93

OpenAI Channel Summaries

▷ #ai-discussions (11 条消息🔥):

  • OpenAI 单词黑名单@afterst0rm@i_am_dom_ffs 讨论了单词 ‘openai’ 最初在 UI 中被过滤的问题,但指出该过滤已经修复,不再需要

  • GitHub Copilot 与 JetBrains@infidelis@jessicant 指出 GitHub Copilot 在 JetBrains 上运行良好。同时,@exx1 补充说 Copilot 在行内补全(inline completions)方面非常有效。

  • 学校使用的 AI 应用@caledordragontamer 对 Bing 发表了批评意见,称其是最差的学业辅助 AI 应用之一,原因是频繁卡死且提供荒谬的信息。

  • 量子计算机与 AI@moldy21 表达了对在量子计算机上进行 AI 训练的兴趣,尽管该技术尚未完全成熟。@michael_6138_97508 建议阅读研究论文并咨询 ChatGPT 以获得更扎实的理解。

  • 账号封禁问题@0718.eth 报告称其账号在进行代码补全时突然被封禁,正在寻求获取帮助的途径。

  • 对 Mixtral 模型的偏好@eljajasoriginal 赞扬了 Mixtral 8x7b 和 Mistral Medium 模型的性能,注意到它们的限制更少,甚至可以对各种主题发表见解。

▷ #openai-chatter (108 条消息🔥🔥):

  • GPT-4 数据分析能力的问题:用户 @rendo1 报告了 GPT-4 在分析和从文件中提取数据方面的问题。该功能在一个月前还能正常工作,但现在似乎出现了故障。用户 @cozy_artist 建议这可能与 Bing 集成有关。
  • 错误计入使用限制:用户 @busybenss@xv_versus@lugui 讨论了错误消息计入使用限制的问题。尽管 @lugui 声称错误消息从未计入限制,但其他用户报告了相反的情况。用户 @offline 建议结合用户反馈来解决错误,并可能退还使用额度。
  • 预期的功能更新:用户 @jaicraft@dino.oats 讨论了 ChatGPT 即将推出的更新,特别是上个月曾短暂推出的名为 “My ChatGPT” 的功能。据称该功能可以根据用户对话对 ChatGPT 进行个性化定制。
  • 访问受限:用户 @hra42 报告了如果不使用 VPN 就无法访问 ChatGPT 网站的问题,暗示可能存在 IP 或地区问题。@_univurse 还指出在尝试访问 AI text classifier 时会显示错误消息。
  • ChatGPT 的回答质量:用户 @gionta21 对 GPT-4 的回答表示不满,称 GPT-3.5 提供了更完整且更有见地的回答。@rendo1 建议用户在给 GPT-4 的 prompts 中应当更加具体。
  • ChatGPT 的可用性:几位用户对 ChatGPT 的功能表示担忧。虽然 @kaveen@dino.oats 断言 ChatGPT 并没有坏掉,但 @jaicraft 幽默地暗示它从一开始就不存在。@lumirix 开玩笑地称 ChatGPT 为“幻觉”。

▷ #openai-questions (148 条消息🔥🔥):

  • LangChain 讨论@openheroes 表达了对 LangChain 的陌生,这是一个 GPT-3.5 也不了解的话题。
  • GPT-4 验证障碍@Denis Volkov 分享了他遇到 GPT-4 尝试验证他是否为人类的经历。
  • 禁用聊天记录后访问 GPT 列表@toutudouhou 询问了在禁用聊天记录后如何访问 GPT 列表的问题。@openheroes 确认这是不可能的,必须启用历史记录。
  • OpenAI API 连接问题@bluehipp0. 遇到并解决了一个关于 OpenAI API 连接错误的问题,该问题最初似乎与使用 "https://api.openai.com/v1" 有关。
  • ChatGPT PLUS 订阅问题@ixtatica 在升级 ChatGPT PLUS 时遇到困难,他们平时可以使用的卡一直被拒绝。虽然他们暗示公司可能遭到了入侵,但另一位用户 @7877 觉得这种情况很有趣。
  • ChatGPT 支持服务@tuxmaster 正在寻找为 ChatGPT 开启 support ticket 的方法,因为他们已经等待回复两周了。@satanhashtag 建议他们在 help.openai.com 寻求帮助,但 @tuxmaster 对支持服务表示不满,怀疑其是由一个功能有限的 AI bot 运行的。
  • 付费会员的用户验证请求@3daisy@knowcryptoshow 讨论了尽管是付费会员仍需不断验证身份的不便,推测这种流程可能对 freemium 用户更具相关性。

▷ #gpt-4-discussions (34 messages🔥):

  • GPT-4 特性与能力:用户 @mrkarumin 询问了 GPT-4 的能力,特别是其访问 2023 年数据的能力。@jaicraft 确认 GPT-4 Turbo 可以访问最新信息,并且在 ChatGPT 4 中默认启用。他们还提到 ChatGPT 4 的其他功能,包括 Dall-e 3 和 Code Interpreter。
  • GPT-4 速度@mrkarumin 注意到 GPT-4 的响应速度非常出色(相比 GPT-3.5),@jaicraft 建议尝试使用 Plus 版的 GPT-3.5 以获得极速体验。
  • ChatGPT Plus 访问@mrkarumin 询问了如何获取高级访问权限,据 @jaicraft 称,这将允许访问前述的联网搜索(web search)、Dall-e 3 和 Code Interpreter 等高级功能。
  • GPT 中的 Actions 功能@froggy_chacko 询问了 GPT 中 “Actions” 功能的解释,@jaicraft 回复称它使 GPT 能够通过 API 访问外部资源。@sudojames 建议查看 OpenAI 的 “ACTIONS GPT” 以获取示例和潜在用例。
  • GPT 功能中断@dystopia78 遇到了自定义 GPT 消失的问题,而 @happyg 遇到了自定义 GPT 遗忘指令的问题,但后者在没有外部帮助的情况下解决了该问题。

▷ #prompt-engineering (15 messages🔥):

  • DALL-E 生成的 Prompt Engineering 与反馈机制@eskcanta@suptrox 讨论了图像生成的具体需求。通过提供反馈来精确调整输出,包括微调场景细节、关注花园内的元素,并最终指定所需风格为 pixel art(像素艺术)。通过迭代对话,@suptrox 成功生成了所需的图像风格。
  • Chatbot 的潜在问题与改进建议@.shaw93 担心 Chatbot 在建立必要前提(如确认接收者是否为新客户)之前过早泄露信息。@madame_architect 建议将关键的“第一条消息应询问”指令移至顶部并在 Prompt 末尾重复,但也指出由于系统消息过长,可能需要进行全面的质量检查。
  • 知识库(Knowledge Base)的利用@madame_architect 指出 @.shaw93 系统指令中的大部分细节可能更适合放在知识库中。

▷ #api-discussions (15 messages🔥):

  • Dall-E 图像生成:用户 @eskcanta 就如何使用 Dall-E 生成符合其理想偏好的特定图像向 @suptrox 寻求建议,特别希望避开天空和树木等元素。@suptrox 指导了向 AI 提供具体指令的重要性,并补充道:“准确表达需求的能力是你成功运用 AI 的关键。
  • 像素艺术(Pixel Art)生成@eskcanta 随后寻求将这些 Dall-E 生成的图像转换为适合游戏使用的像素艺术,这引发了 @eskcanta@suptrox 之间的进一步讨论。
  • Chatbot 与线索获取(Lead Generation):用户 @.shaw93 寻求关于使用 Assistants API 构建 Chatbot 的帮助,该机器人最初提供信息,然后询问特定问题。他们希望确保某些信息仅在验证对方确实是新客户后才向其披露。
  • 系统消息(System Message)改进@madame_architect@.shaw93 的问题提供了快速修复方案,建议调整系统消息中某些关键指令的位置并在末尾重复以获得更好效果,并建议由 Prompt 工程师进行质量检查。他们还注意到某些系统指令细节似乎更适合放在知识库中。
  • 童书插画请求:用户 @yantou. 提出了一个关于童书插画的简短请求。

OpenAccess AI Collective (axolotl) Discord 摘要

  • 关于在 AWQ 上使用 Mixtral 及其规格的广泛讨论,包括所需的 RAM 数量以及加载大型模型的问题。此外,还讨论了在相同配置下使用常规版和指令版 Mixtral 的情况。分享了一个名为 ml-ferret 工具的 GitHub 链接
  • noobmaster29 询问了 Gemini API 调用,随后被告知这些调用并非免费。
  • 关于 ROCm 支持和新款 AMD MI300x 显卡能力的深入探讨。对话还涉及了全量模型微调(full model tuning)的 VRAM 需求,并提到了将模型适配到 80GB 显卡的潜在解决方案。呼吁贡献算力以优化 Mixtral 训练,多名成员表示愿意贡献。
  • 社区分享了关于在最新 Transformers 中合并 LoRA 到模型的代码变更见解和问题,建议了如降级 peft 或使用 axolotl 进行合并等解决方案。此外,他们还分享了使用 airoboros 和 LDJnr/Puffin 前端测试合并模型的经验。
  • 讨论了在使用 QLoRA 训练特定层时降低目标参数计数的方法,以及如何在不终止整个应用程序的情况下取消 axolotl.cli.inference 中的补全Dangfutures 寻求在 dpo 分支上启动 DPO 的帮助。
  • 其他主题包括为微调数据集编码数学公式的方法,以及使用工具实现更具可读性的数据集预览(建议将 Visual Code 作为潜在工具)。确认 Nougat 的输出Mathpix 兼容。

OpenAccess AI Collective (axolotl) 频道摘要

▷ #general (21 messages🔥):

  • Gemini API 调用noobmaster29 询问了免费 Gemini API 调用的可用性。然而,@nafnlaus00 yamashi 澄清 API 调用并非免费。
  • 在 AWQ 上使用 Mixtraldangfutures 询问了在 AWQ 上加载 Mixtral 所需的具体 RAM 数量。@dangfutures casper_ai 指出,如果操作系统不占用 GPU,24GB RAM 就足够了,否则至少需要 32GB。他们补充说,这适用于 512 上下文长度和 512 解码 Token 的 Mixtral 模型。
  • 大型模型加载问题dangfutures 在 AWQ 上加载 Mixtral 时遇到内核崩溃(kernel dying)问题。casper_ai 解释说,Notebook 通常在加载大型模型方面效率不高。
  • 使用指令版 Mixtraldangfutures 寻求关于在相同配置下使用常规版和指令版 Mixtral 的澄清。@dangfutures casper_ai 确认可以使用相同的设置。
  • 资源分享dangfutures 分享了一个名为 ml-ferretGitHub 资源

▷ #axolotl-dev (53 messages🔥):

  • 关于 ROCm 和 AMD MI300x 支持的讨论:用户 @yamashi 发起了关于 ROCm 支持和新款 AMD MI300x 显卡能力的讨论,重点强调了其在高性能计算方面的适用性。用户 @noobmaster29 提供了一个新闻稿链接,讨论了该显卡在推理场景中的应用,并表达了对 48GB 消费级显卡的期待。

  • GPU 升级考量@yamashi@noobmaster29 就全量模型微调的 VRAM 需求展开了辩论,间接建议将 AMD 作为潜在解决方案,因为其提供了更慷慨的 VRAM。@yamashi 表示需要从 4xA100 配置升级,以便对 Mixtral 模型进行 FFT 混合。

  • Fulltune 与 LoRA 的讨论@dreamgen 询问 @yamashi 关于 Fulltune 和 LoRA 之间的感知差异,特别是在医疗背景下。

  • 适配 80GB 显卡的潜在方案@nruaif 建议冻结专家层(experts layers)并使用 DeepSpeed 3,以便在 4 张 A100 GPU 上适配全量模型,但 @yamashi 澄清说,即使是 7B 参数的模型也需要大约 70GB 内存。

  • 呼吁算力贡献以优化 Mixtral 训练:用户 @casper_ai 邀请他人为优化 Mixtral 训练贡献算力,计划从 MegaBlocks 引入相关功能以实现高效训练。@le_mess@caseus_ 都表示愿意提供可用的算力资源。

▷ #general-help (11 条消息🔥):

  • LoRA 合并至模型代码的变更@jaredquek 提到在最新的 transformers 中,将 LoRA 合并到模型的代码发生了很大变化,并提供了相关 文档 链接。他们还发现旧代码已无法工作。作为回应,@nanobitz 建议尝试降级 peft 或使用 axolotl 进行合并。
  • 使用前端测试合并后的 LoRA@self.1 表示已成功使用 airoboros 和 LDJnr/Puffin 前端测试了合并后的模型,并提到第二个换行符和停止标记(stop token)可能是不必要的。
  • 使用 QLoRA 训练时冻结层@xzuyn 询问在使用 QLoRA 训练某些层时,是否有办法降低目标参数量。尽管设置了较少的训练层,其目标参数量仍维持在 209M。
  • Axolotl CLI 推理查询@marijnfs 询问是否有办法在不终止整个应用程序的情况下取消 axolotl.cli.inference 中的补全。
  • 启动 DPO@dangfutures 寻求在 dpo 分支上启动 DPO 的帮助。

▷ #datasets (3 条消息):

  • 为微调数据集编码数学公式:用户 @noobmaster29 分享了寻找为微调数据集编码数学公式最佳方法的兴趣。
  • 数据集预览工具@noobmaster29 表示有兴趣利用工具以人类可读的格式预览编码信息。Visual Code 中的 Markdown 预览功能被指出是潜在的工具。
  • Nougat 输出澄清@noobmaster29 确认 Nougat 的输出实际上与 Mathpix 兼容,解决了最初的困惑。

Mistral Discord 总结

  • 讨论了用户在各种系统(如 16GB 内存的 M1 机器和 32GB RAM 的 Lenovo Thinkcenter i5)上本地访问和运行 MistralAI 模型 的经验和技术探讨。
    • 用户 @djmango 分享了他们使用 16GB 内存的 M1 机器成功运行 Mistral 模型的经验。
    • @ved_ikke 补充说,他们可以在 32GB RAM 的 Lenovo Thinkcenter i5 上运行大多数 Mistral 模型。
  • Mistral Medium 在中文创意写作方面的表现进行了对话,并对其开源发布表示怀疑。还讨论了获取 Mistral 模型细节以加深理解的想法。
    • 用户 @ken70wtf 表达了对 Mistral Medium 通过 poe.com 在中文创意写作表现上的赞赏,称其比 gpt-3.5-turbo 更快。
    • 用户 @tom_lrd 质疑了获取那些永远不会在本地运行的模型细节的重要性。
  • 讨论了使用名为 Unsloth 的开源包加速 MistralAI 的优化思路。提出了关于其他优化方法的问题,例如使用 float16 或通过 bitsandbytes 使用 8-bit 和 4-bit,以及在 MistralAI/Mixtral-8x7B-Instruct-v0.1 模型中使用 Flash Attention 2。
    • Reddit 帖子 介绍了一个名为 Unsloth 的开源包,声称通过利用 OpenAI 的 Triton 语言,使 Mistral 模型的 QLoRA 微调速度提高 2.2 倍,并减少 62% 的内存占用。”
  • 关于 AGI 是否需要 8k token 上下文窗口 以及使用 8k 上下文窗口创建 AGI 的可能性的对话。此外,还建议使用图数据库进行高效的代码生成。
    • @poltronsuperstar 认为,尽管 8k 上下文窗口无法容纳整个代码库,但仍可以据此创建 AGI。
    • @daain 建议使用图数据库来保存解析后上下文的语义理解,以便进行高效的代码生成。
  • 讨论了 微调 的必要性和潜在好处,以及 Mistral API 即将推出的功能——特别是针对 MemGPT 等平台的函数调用(function calling)支持。
    • 用户 @krissayrose poltronsuperstar 询问是否真的需要微调,因为他们在 RLHF 之前仅通过 few-shots 学习就在 GPT-3 上使用了函数调用。
    • @flyinparkinglot 澄清说,虽然目前缺少此功能,但已计划在未来实现。

Mistral 频道总结

▷ #general (49 条消息🔥):

  • 访问 MistralAI 的模型:包括 @antononcube@sublimatorniq 在内的几位用户讨论了如何通过编程方式访问 MistralAI 的模型。@antononcube 最初在通过 GET 方法和 API key 访问模型时遇到困难,但在 @sublimatorniq 的帮助和直接代码示例下,最终成功实现了访问。
  • 在本地运行 Mistral@rosethelocalfemboy 分享了他们在本地机器上成功运行 Mistral 模型(特别是 8x7b 版本)的经历。他们发现即使是 quantized 版本,其质量也非常高。
  • 可能提升 MistralAI 的速度:用户 @red_code 分享了一个 Reddit 帖子,关于一个名为 Unsloth 的开源包。该包声称通过利用 OpenAI 的 Triton 语言,可以使 Mistral 模型的 QLoRA finetuning 速度提升 2.2 倍,并减少 62% 的内存占用。
  • 运行 Mistral 的硬件要求:针对 @daveburstein 的询问,@djmango 分享了他们使用 16GB 内存的 M1 机器成功运行 Mistral 模型的经验。指出主要的限制因素是内存速度,而非 CPU 或 GPU 的性能。@ved_ikke 补充说,他们可以在配备 32GB RAM 的 Lenovo Thinkcenter i5 上运行大多数 Mistral 模型。
  • 在 24Gb 显卡上适配 Mistral 8x7b@jdwebprogrammer 询问是否可以在 24Gb 显卡上运行 Mistral 8x7b 模型。他们注意到当进行 4-bit quantized 后,模型占用了大部分显存,看起来大约需要 25Gb 才能适配。

▷ #models (8 条消息🔥):

  • Mistral Medium 的性能与开源情况:用户 @ken70wtfMistral Medium 在 poe.com 上的中文创意写作表现表示赞赏,称其速度比 gpt-3.5-turbo 更快。然而,他对该模型是否会作为 open source 和 open weight 模型发布表示怀疑。
  • LLM 学习资源:用户 @Bharat 寻求在架构层面学习 LLM 的资源,以便为开源 LLM 社区做出贡献。
  • 平台间的处理速度对比:针对 @ken70wtf 关于 Mistral Medium 卓越性能的言论,用户 @sublimatorniq 询问了 mistral endpoints 与 poe.com 上的 perplexity endpoint 之间的处理速度差异。
  • 关于模型细节的询问:用户 @tom_lrd 在与 @ken70wtf 交流时,质疑了掌握那些永远不会在本地运行的模型细节的重要性。
  • 引用 Eric Hartford 的工作:针对 @alex_deng 的询问,用户 @sublimatorniq 提供了由 Eric Hartford 发布的托管在 huggingface.co 上的 uncensored 模型链接。

▷ #deployment (5 条消息):

  • 个人互动:用户 @alex_deng 询问 @sublimatorniq 是否来自柬埔寨,对方给予了肯定回答。
  • Dolphin 2.6 Mixtral 8X7B@dutchellie 分享了一个名为 Dolphin 2.6 Mixtral 8X7B 模型的链接@jdwebprogrammer 对发现 Dolphin 模型的身影以及它已经更新到 2.6 版本表示惊讶。

▷ #finetuning (1 条消息):

  • 微调的必要性:用户 @krissayrose poltronsuperstar 询问是否真的需要 finetuning,因为他们之前在 RLHF 出现前,仅通过 few-shots learning 就在 GPT-3 上实现了 function calling。

▷ #showcase (1 条消息):

antononcube: https://rakuforprediction.wordpress.com/2023/12/23/wwwmistralai/

▷ #random (8 条消息🔥):

  • MistralAI/Mixtral-8x7B-Instruct-v0.1 的优化:用户 @husain3739 发起了关于在 Hugging Face Chat 中执行 MistralAI/Mixtral-8x7B-Instruct-v0.1 所采用的优化方案的讨论。他们询问默认模型是以全精度执行,还是进行了修改(例如使用 float16,或使用 bitsandbytes 进行 8-bit 和 4-bit 量化)以降低内存需求。他们还询问了是否使用了 Flash Attention 2。

  • 对扩展上下文窗口的需求@poltronsuperstar@daain 讨论了 AGI 是否需要 8k token 的上下文窗口。@poltronsuperstar 认为,尽管 8k 窗口无法容纳整个代码库,但仍有可能以此创建 AGI。@daain 建议使用图数据库(graph database)来保存解析后上下文的语义理解,从而实现高效的代码生成。

  • 低阶 Mistral 模型的潜力@jackson_97091 对 Mistral API 的新更新表示关注,该更新提供了 32k token 的限制。虽然它与顶尖模型仍有差距,但由于感知到高阶模型正转向关注企业责任(corporate liability),他们正在考虑这一选择。

▷ #la-plateforme (4 条消息):

  • Mistral API 中的 Function Call 支持:用户 @brokearsebillionaire 询问了 Mistral API 是否支持 Function Call。@flyinparkinglot 澄清说,虽然目前缺少该功能,但已计划在未来实现。这一消息受到了 @brokearsebillionaire@antoniofiliona 的欢迎,后者表示渴望配合 MemGPT 测试该功能。

HuggingFace Discord Discord 摘要

  • 围绕 Transformers 库新的 llava 支持、本科生在 RL 方面的实践经验获取、Langchain 等库处理 Prompt 响应的方式、适用于 CPU 和移动设备的小型量化模型建议,以及关于 Hugging Face 用于 Android 应用的 API 咨询。此外还涉及 Hugging Face 申请流程相关问题、神经网络代码故障排除以及 Stable Diffusion 的微调 general

  • 展示了成员制作的应用和工具,例如 AI Emoji Translator 应用、Mamba 模型架构、利用 AI 技术的投资策略视频、圣诞主题视频,以及用于 Musicgen 续写的 Chrome 浏览器扩展 i-made-this

  • 讨论了 DDPM 和 DDIM 论文中反复出现的定义,特别是符号 alpha_bar_talpha_t,探索了相关问题,并寻求用于生成连贯图像的有效文本嵌入(text embedding) diffusion-discussions

  • 关于对牙齿 X 光图像进行关键点检测并计算检测点之间距离的咨询 computer-vision

  • 针对 AutoModelForQuestionAnsweringAutoModelForSeq2SeqLM 之间区别的困惑,寻求社区见解 NLP

HuggingFace Discord 频道摘要

▷ #general (20 messages🔥):

  • Transformers 中的 Llava 支持@meatfucker 提到 Transformers 库刚刚添加了 llava 支持。
  • 寻求 RL 建议的本科生@swadine 是一名本科生,正在寻求关于如何获得强化学习(RL)实践经验的建议,因为他们学校下学期不开设 Deep RL 高级课程。
  • Langchain 库和 Prompt 响应@somefuckingweeb 询问了像 Langchain 这样的库如何处理从 Prompt 响应到实际工具调用的过程。
  • 适用于 CPU 和移动设备的量化模型@vishyouluck 征求适用于 CPU 和智能手机、用于基础问答和文本生成任务的小型量化模型建议。@kubuxu 建议使用 Quantized Mistral 7B
  • 关于 Hugging Face API 的咨询@abrarsharif 询问是否存在类似 OpenAI 的 Hugging Face API,以便集成到 Android 应用程序中。
  • Hugging Face 的实习申请@_aabidk 询问了 Hugging Face 多个实习岗位的申请流程。
  • 神经网络的代码问题@power9799 就神经网络的代码问题寻求帮助。问题与 Batch 中的维度不匹配有关。
  • 微调 Stable Diffusion 的困难@isleepwhenimcomfortable 请求协助在 Collab 上微调 Stable Diffusion,原因是遇到了目录错误。

▷ #i-made-this (9 messages🔥):

  • Emoji Translator AI 应用:用户 @gospace7575 分享了一个名为 Emoji Translator 的有趣 AI 应用,它能够将文本翻译成 Emoji,反之亦然。该应用仅用几个 Emoji 就能生成完整的故事。
  • Mamba 模型架构:用户 @qbert000 宣布成功实现了 Mamba 模型架构。他们已将其发布在 GitHub 上,并在 Hugging Face 的合集 Q-bert/Mamba-130M 中提供。
  • 投资策略视频@andysingal 分享了一个利用 Stable Diffusion、Leonardo Motion 和 Pika 制作的投资策略视频。视频可以在这里观看。
  • 圣诞氛围视频@andysingal 分享了一个似乎是用 AI 制作的圣诞主题视频,与 Hugging Face 团队的其他成员一起庆祝圣诞节。视频可以在这里观看。
  • 用于 Musicgen 续写的 Chrome 浏览器扩展:用户 .bigdookie 分享了他的项目,这是一个用于 Musicgen 续写的 Chrome 浏览器扩展,它可以监听你在 YouTube 曲目中的位置并从那里开始续写,同时确保续写在小节结束时停止。他还提到了一个用于编排混音的组件。该项目的更新分享在这个 Twitter 链接上。

▷ #diffusion-discussions (3 messages):

  • 理解 DDPM 和 DDIM 论文:用户 @wukong7752 正在学习 DDPM 和 DDIM 论文,并对这些论文中符号 alpha_t 的使用表示困惑。他们注意到在 DDIM 论文中 alpha_t 被定义为一个递减序列,然而在许多实现中,人们在 DDIM 算法中定义的 alpha_t 与 DDPM 中的 alpha_bar_t 相同。他们正在寻求对此事的澄清。
  • @pseudoterminalx 告知 @lorenz1392 正在调查一个特定问题。分享的聊天片段中未给出该问题的细节。
  • @vipitis@lorenz1392 表达了希望找到一种文本嵌入(text embedding),能够生成在特定可微分 XAI 评估指标下表现良好的连贯图像

▷ #computer-vision (1 messages):

  • 牙齿 X 光关键点检测和距离测量:用户 @navinaananthan 询问是否可以使用任何现有模型对牙齿 X 光图像进行关键点检测,并测量检测点之间的距离。

▷ #NLP (2 messages):

  • AutoModelForQuestionAnswering 和 AutoModelForSeq2SeqLM 之间的区别@opencuiguy 要求澄清 AutoModelForQuestionAnsweringAutoModelForSeq2SeqLM 之间的区别。该对话正在等待其他能提供进一步见解的参与者发言。

▷ #diffusion-discussions (3 条消息):

  • 关于生成连贯图像的 Text Embedding 查询@lorenz1392 寻求关于寻找一种 Text Embedding 的建议,该 Embedding 能生成连贯图像,并在特定的 differentiable xai evaluation metric(可微 XAI 评估指标)下表现良好。@vipitis 响应并表示愿意参与此话题。

  • 关于 DDPM 和 DDIM 论文符号的问题@wukong7752 提出了关于 DDPM 和 DDIM 论文中使用的符号 alpha_bar_talpha_t 的疑问。他们发现许多实现中 DDIM 的 alpha_t 定义与 DDPM 的 alpha_bar_t 相似,并询问这是巧合还是基于某种未提及的原因。


Skunkworks AI Discord 总结

  • 一位用户报告在未告知原因的情况下被 ChatGPT Discord 和 LM Studio Discord 封禁;后续可能会对此事进行讨论。
  • 用户分享了一个 等离子体物理应用,丰富了社区内 AI 相关工具和项目的汇编。
  • 提到一个面向教育的 AI 工具正在开发中,未提供更多细节。
  • 探讨了多语言模型的话题,重点是 AI 助手 Aya 未来将提供的支持。
  • 对开发一个能够从大型数据集(如 RedPajama)中生成并回答问题的模型表示好奇。还讨论了自搜索模型或用于填补知识空白的 Retriever-Augmented Generation 方法。
  • 提到大型语料库在提高模型长上下文理解(long context comprehension)能力方面的巨大潜力,前提是存在相关的问题、指令和见解。
  • 提出了一个新颖的想法,即使用 LLM 本身作为 Hypernetwork,通过针对每个任务的 Layer-wise Relevance Propagation 方法来预测参数,以扩展或实现新层。
  • 讨论了 Nasty Teachers 论文,并就修改输出与改变损失函数提出了疑问,以及在需要考虑所有类别的概率时的影响。
  • 提到了 AI 应用变现的挑战,一位用户表示参与了一个旨在简化 API 访问销售的项目。

Skunkworks AI 频道总结

▷ #general (7 条消息):

  • ChatGPT Discord 和 LM Studio Discord 封禁事件:用户 @antdx316 表示他们被 ChatGPT DiscordLM Studio Discord 同时 封禁。给出的消息中未提供封禁原因。

  • 等离子体物理应用链接:用户 @anjor_20331 分享了一个 等离子体物理应用的链接,但未提供更多相关信息或背景。

  • 教育类 AI 工具:用户 @fred_fups 表示他正在构建一个 教育类 AI 工具。给出的消息中未提供该项目的更多细节。

▷ #datasets (3 条消息):

  • 多语言模型@stereoplegic 提到了多语言模型的开发,并希望 Aya 能尽快协助完成这项任务。

  • 从大型语料库生成/回答问题@stereoplegic 计划开发一个能够从大型语料库(如 RedPajama)中生成并回答问题的模型。他还对模型能够根据给定提示或大型语料库进行自搜索或使用 Retriever-Augmented Generation 方法来填补知识空白表示感兴趣。

  • 大型语料库中的长上下文理解:他还提到,如果存在相关的问题、指令和相关见解,大型语料库在提高模型长上下文理解能力方面具有巨大潜力。

  • 将 LLM 用作其自身的 Hypernetwork@stereoplegic 提出了一个独特想法,即使用 LLM 本身作为 Hypernetwork。这将有助于预测参数以扩展其现有层或添加新层,可能通过使用特定于该任务的 Layer-wise Relevance Propagation 来实现。他指出,如果加载器有剩余的空闲 Virtual RAM 可供利用,这将非常有益。

▷ #ft-study-main (1 messages):

  • Nasty Teachers 论文讨论@mootverick 提出了关于 Nasty Teachers 论文 的话题,将其方法论总结为在少数错误标签上创建随机脉冲(random spike),以产生准确率的假象。他们针对该方法提出了两个问题:
    • 当需要考虑所有类别的概率(而不仅仅是 top class)时,该方法可能无效。
    • 用户询问是否可以通过修改输出(而不是修改损失函数)来达到同样的效果。

▷ #off-topic (1 messages):

  • AI 应用变现:用户 @megazord 发起了关于 AI 应用变现挑战的讨论,并提到正在开发一个旨在简化 API 访问销售流程的项目。

LangChain AI Discord 总结

  • 用户 @shivam51 在 general 频道请求 LangSmith 邀请码
  • 在 LangChain 背景下讨论了各种技术问题
    • @ninamani 在尝试在 LangChain 上运行 Llama-2 聊天模型时遇到问题,在使用 ChatOllamaLlama2Chat 方法时均遇到错误。
    • @ninamani 还探讨了将 llama-cpp-python 的特性与 LangChain 合并的可能性,提到了之前的失败尝试以及聊天提示词模板(chat prompt templates)的不一致。
  • @a404.eth lhc1921 讨论了确保所有关键信息都能正确传输到 RAG 链中的检索(Retrieval)和问答(Question Answer)步骤的重要性。
  • @motaz_hashhoush 询问了关于 ConversationalRetrievalChain 中的提示词获取问题,特别是在使用 ConversationSummaryMemory 时。提出了一个计算 token 数量的函数。
  • 在 ‘share-your-work’ 频道中,@rajib2189 分享了一个 YouTube 视频 和一个 GitHub 仓库,演示如何以编程方式使用 AWS Bedrock Agent。此外,@rajib2189 发起了关于 Prompt Optimization(提示词优化)的讨论,邀请尝试过优化的用户提供建议。

LangChain AI 频道总结

▷ #general (8 messages🔥):

  • LangSmith 邀请码请求@shivam51 请求一个 LangSmith 邀请码。
  • Llama-2 聊天模型在 LangChain 上的问题@ninamani 在尝试在 LangChain 上运行 Llama-2 聊天模型时遇到问题。在使用 ChatOllamaLlama2Chat 方法时均收到错误。
  • llama-cpp-python 与 LangChain 的合并@ninamani 还询问了将 llama-cpp-python 与 LangChain 特性结合的可能性,强调了之前失败的尝试并提到了聊天提示词模板的差异。
  • RAG 链的检索和问答步骤@a404.eth lhc1921 讨论了确保所有必要信息都能有效传递到 RAG 链中检索和问答步骤的重要性。
  • ConversationalRetrievalChain 中的提示词获取@motaz_hashhoush 询问是否可以在将提示词喂给模型之前,从 ConversationalRetrievalChain 中获取完整的提示词,特别是在使用 ConversationSummaryMemory 时。他进一步明确了对计算 token 数量函数的需求。

▷ #share-your-work (2 messages):

  • 以编程方式使用 AWS Bedrock Agent:用户 @rajib2189 分享了一个 YouTube 链接,视频演示了如何通过编程方式访问 AWS Bedrock Agent。同时提供了相关的 GitHub 代码仓库
  • 提示词优化@rajib2189 怀疑提示词尚未优化,欢迎任何尝试过进一步优化的人提供建议。

Latent Space Discord 总结

  • 在 AI General Chat 频道中,进行了一场资源共享讨论。用户 @swyxio 分享了 “The Cognitive Revolution” 的一集链接,为社区增添了更多 AI 相关内容的知识。
  • @lightningralf 提议开发一个 IPTC metadata filler(元数据填充器),用于插入关键词、描述等信息。
  • 用户 @gratchie1188 提出了关于与时间序列数据库(time series databases)交互的最佳实践问题,因为他认为相比于文本和 SQL 数据库,这类数据库缺乏成熟的解决方案。
  • @swyxio 在 AI Event Announcements 频道发布了一个特别播客节目的公告,内容是 NeurIPS 的回顾(第一部分)。分享了发布新节目的推文链接以便访问。

Latent Space 频道总结

▷ #ai-general-chat (4 条消息):

  • Mamba 解析: 用户 @swyxio 分享了 “The Cognitive Revolution” 的一集链接,该播客提供了各种 AI 相关话题的解析。
  • IPTC Metadata Filler 需求: 用户 @lightningralf 建议开发一个具有关键词插入、描述等功能的 IPTC metadata filler
  • 时间序列数据库交互: @gratchie1188 征求与时间序列数据库交互的建议,并指出与文本和 SQL 数据库相比,这方面的解决方案较为匮乏。

▷ #ai-event-announcements (1 条消息):

  • NeurIPS 回顾第一部分: 用户 @swyxio 宣布发布了他们周末特别播客节目的第一部分——NeurIPS 回顾。他们分享了发布新节目的推文链接以便快速访问。

Alignment Lab AI Discord 总结

  • @mayhem1349 分享了一个关于大语言模型(LLMInterpretability(可解释性)的精选 GitHub 仓库,其中包含开源工具、论文、文章和团体。资源可以通过此链接找到。
  • @burnydelic 建议将 Mech Interp Discord group 添加到 LLM Interpretability 的资源列表中。
  • @teknium neilbert. 报告了一个有趣的海报发现,但未提供相关细节。

Alignment Lab AI 频道总结

▷ #general-chat (4 条消息):

  • LLM Interpretability 资源: @mayhem1349 分享了一个 GitHub 仓库,其中包含与大语言模型(LLM)Interpretability 相关的开源工具、论文、文章和团体的精选列表。
  • 新增 LLM Interpretability 团体: @burnydelic 建议将 Mech Interp Discord group 添加到 LLM Interpretability 的资源列表中。

▷ #general-chat (1 条消息):

  • 海报发现: 用户 @teknium neilbert. 分享了发现一张有趣海报的经历,怀疑创作者是海报内容的作者。未提供关于海报内容或用户假设的 UW 联系的更多细节。

DiscoResearch Discord 总结

仅 1 个频道有活动,因此无需汇总…

  • 自定义 MoE 模型: @jp1 讨论了一个带有 4 个专家的自定义 2-bit 量化模型,该模型在 500 个 token 以内具有一致的输出。他们在 Hugging Face 上提供了 4 专家 MoE mixtrals 的各种 GGUF 格式实验性量化版本,链接在这里
  • 4 专家 MoE Mixtrals: 根据 @jp1 的说法,目标是创建 10GB 以下性能最佳的 MoE。此外,他们还分享了可用于训练和微调的 实验性 q8 和 q4 文件,并注明目前尚未应用 “稀疏技巧 (sparsity tricks)”
  • Llama.cpp 的安装: @jp1 提供了一个从 GitHub 下载并运行 llama.cpp 的简要指南,并总结道,他们 8.4GB 的自定义 2-bit 量化模型在 512 token 长度内表现尚可,超过该长度后开始出现循环。