ainews-1282023-mamba-v-mistral-v-hyena
2023年12月8日 - Mamba vs Mistral vs Hyena
文中重点介绍了三个新的 AI 模型:Mistral 的 8x7B MoE 模型 (Mixtral)、Together 推出的最高 3B 参数的 Mamba 模型,以及来自斯坦福大学 Hazy Research 的 StripedHyena 7B(一个极具竞争力的亚二次方注意力模型)。关于 Anthropic 的 Claude 2.1 的讨论主要集中在其提示词技术和对齐挑战上。谷歌的 Gemini AI 被认为可能优于 GPT-4。社区还在探索用于图像训练的 Dreambooth,并分享了 Hugging Face 上的 DialogRPT-human-vs-machine 模型等资源。此外,文中还结合 Falcon 180B 和 Transformer 批处理技术,讨论了大语言模型的部署挑战,包括 CPU 性能和 GPU 需求。用户参与形式还包括分享梗图和幽默互动。
周五快乐。今天有 3 个新模型成为了热门话题:
- Mistral 的新 8x7B MoE 模型(又名 “Mixtral”)——一个表现出色的经典 Attention 模型。Andrej 的总结见这里。
- Mamba 模型,由(前嘉宾)Together 的 Tri Dao 发布的一系列最高达 3B 的模型。
- StripedHyena 7B —— 它是斯坦福大学 Hazy Research 实验室今年早些时候发布的亚二次方 Attention 替代方案 Hyena 的后代,终于能够与 Llama-2、Yi 和 Mistral 7B 竞争。
这些进展都非常扎实,展示了发布模型权重而非重度剪辑的营销视频所带来的影响。
[TOC]
Nous Research AI Discord 总结
-
深入探讨了 Anthropic 的 Claude 2.1 等 AI 模型,包括对其 Prompting 技术的探索、将 AI 模型评估为“大海捞针(needle in haystack)”场景的评价,以及 Claude 2.1 所需的 Alignment 方法的变通方案。还讨论了用户
@maxwellandrews和@raddka之间的会议计划。 -
关于 Dreambooth 图像训练应用和 Hacking 的对话,以及对此过程的协助请求。分享了 Google 新 AI Gemini 的发布消息,据信其可能优于 GPT-4。
-
分享了 AI 相关的推文、资源和模型,例如 Hugging Face 上的
DialogRPT-human-vs-machine模型,该模型可预测回复更像是来自人类还是机器。提供了一个 Colab Notebook Demo 用于该模型的实际操作。 -
讨论了 AI 模型构建和维护过程中的众多因素,包括数据提取、模型发布(特别是 “cybertron 7b v2 GGUF” 和 Mistral 8x7B MoE 模型)、聊天机器人模型 StripedHyena-Nous-7B、StripedHyena 的训练代码开源计划,以及运行 Mistral 8x7B MoE 模型的 GPU 需求、内存需求评估和模型 Inference 调试等其他话题。
-
关于 Large Language Models (LLMs) 部署的各种问题和可能性。要点包括在 CPU 上部署 LLM 模型、此类项目的设置、LLM 在考试阅卷和评分方面的潜力,以及 Embedding 模型的托管。提供了诸如 Falcon 180B 初始 CPU 性能数据 和 Transformer Batching 等资源参考。
-
用户在 memes 频道的互动,
@nonameusr分享了一个 Twitter 链接,并对链接帖子的内容表达了幽默的困惑。
Nous Research AI 频道总结
▷ #ctx-length-research (8 条消息🔥):
- 关于 Anthropic Claude 2.1 的讨论:
@if_a分享了 Anthropic Claude 2.1 的 Prompting 技术 研究链接,强调了 Claude 2.1 在其 200,000 token 上下文窗口中召回信息的能力。然而,@if_a也认为测试长上下文能力需要在 Prompt Engineering 上做更多工作。 - 评估 AI 模型:
@gabriel_syme对 AI 模型的评估发表了评论,特别是批评此类评估为“大海捞针(needle in haystack)”场景,可能无法提供准确的性能衡量。 - Alignment 方法:
@intervitens发现 Anthropic 团队不得不使用变通方法来绕过他们自己为 Claude 2.1 设计的 Alignment 方案,这很有趣。@raddka认为考虑到可能阻碍模型开发的严格合规限制,这是必然的发展。 - 即将举行的会议:
@maxwellandrews和@raddka计划下周举行会议,暂定会议时间为下午 12-5 点。进一步细节稍后敲定。
▷ #off-topic (8 messages🔥):
- Dreambooth 讨论:
@gezegen和@wlrd讨论了 Dreambooth 在图像训练中的用法,以及获取结果所需时间的可能原因。 - 深入研究 Dreambooth:
@yorth_night分享了过去一周深入研究 Dreambooth 以进行长提示词(long prompt)训练的经验,并指出代码中一些复杂的方面。 - 请求协助:
@gezegen建议@yorth_night分享他们深入研究 Dreambooth 的过程,并提供潜在的帮助。 - Gemini 发布公告:
@pradeep1148分享了一个 YouTube 视频,宣布了 Gemini,这是来自 Google 的一款可能优于 GPT-4 的新 AI,具有跨文本、图像、视频、音频和代码的多模态推理功能。 - 一般互动:
@gabriel_syme在频道中发布了早安问候。
▷ #benchmarks-log (1 messages):
nonameusr: https://huggingface.co/allenai/tulu-2-dpo-70b
▷ #interesting-links (5 messages):
-
分享 AI 相关推文:
@yorth_night和@nonameusr分享了关于 AI 负责任技术和 CAIS 理论的 推文 和 推文。 -
DialogRPT-human-vs-machine:
@euclaise发布了 Hugging Face 上DialogRPT-human-vs-machine模型的链接,该模型旨在预测回复更可能来自人类还是机器。他们提供了一个 Colab Notebook Demo 供用户与模型进行交互。
▷ #general (375 messages🔥🔥):
-
开发者们讨论了开发类似的 GitHub 仓库 和 .tex 文件 的 数据提取流水线。用户
@zakkor提到通过 额外的 LLM (Language Learning Model) 过滤环节 来改进输出。用户@wlrd表示有兴趣在此项工作中进行协作,并提出了一个相关的正在进行的讨论线程。讨论线程链接 -
用户
@nonameusr宣布发布 “cybertron 7b v2 GGUF” 模型,并称其性能接近 “yi-34b” 模型。会议还讨论了该模型的测试情况。 -
关于新模型 Mistral 8x7B MoE 的显著讨论,用户询问了其显存需求、如何运行推理,并讨论了运行该模型所需的电脑硬件。
-
用户
@weyaxi发布了聊天机器人模型 StripedHyena-Nous-7B,引发了用户间的讨论,随后@theemozilla解释了该模型的架构、开发过程,并分享了该模型未来迭代的计划。 -
用户讨论了在 Huggingface 上发布 Nous Research 的模型,其中
@nonameusr讨论了将 “una-xaberius-34b-v1beta” 作为潜在的最佳模型,并明确提到了 “xaberius”。 -
用户
@theemozilla提到计划在获得 Together Research 批准后 开源他们的自定义训练代码。该训练代码与 StripedHyena-Nous-7B (SH-N 7B) 模型相关。 -
关于 MoE (Mixture-of-Experts) 分布 和运行 Mistral 8x7B MoE 模型显存需求的进一步对话,结论是
@bjoernp建议 2 张 80GB 的 A100 似乎足够了。 -
用户讨论了 解码方法,
@gabriel_syme引用了一个 Twitter 链接,阐明了最近的进展和新的解码方法。随后展开了关于这些方法的兼容性和必要性的讨论。 -
讨论了 OpenHermes 的 Gradio 图像推理错误。在遇到服务器错误后,
@qnguyen3建议使用 GitHub 中的代码并编辑llava/model/multimodal_encoder/builder.py文件以包含 ‘ikala’。 -
用户
@euclaise分享了他使用 Echo-3B 的经验,这是他为 RP/创意任务创建的模型。提到了一些导致模型输出乱码的技术问题。 -
@jaredquek提出了用于生成数据集的 Gemini API,随后讨论了由于 Google 和 OpenAI 的账号封禁政策而使用该 API 可能带来的后果。 -
用户
@raddka对新发布的 Mistral 8x7B MoE 模型发表了评论,推测它是开发轻量级模型以改进 LLM (Language Learning Model) 缺点的候选者,并建议创建一个专门针对编程的模型来评估/改进其回答。 -
讨论并解决了
openhermes vision服务器启动的问题,得到了@qnguyen3的帮助。 -
成员们简要提到了 在对话数据集上训练 Mixtral MoE 的计划,并比较了模型的基准测试性能。他们还推测基准测试可能存在偏差,因为发布的数据值过于极端,难以被认为是真实的。
-
用户讨论了 Mistral 8x7B MoE 模型 可能的 GPU 配置,包括争论是否收集多张 Nvidia RTX 3090 显卡、PCIe 通道的必要性以及如何优化 GPU 散热。
-
StripedHyena-Nous-7B 的评估 效用受到用户高度赞扬,理由是其显存占用更低且性能更好。还讨论了将其与各种 API 和部署平台集成的游说工作。
-
围绕运行
Mixtral 模型推理的 持续调试和讨论 及其相关问题。还强调了对其代码库的需求以及用户尝试以各种方式运行推理的努力。
▷ #ask-about-llms (80 messages🔥🔥):
- LLMs (large language models) 与 CPU:
@.beowulfbr发起了关于在纯 CPU 上部署 7B 或 70B LLM 模型的讨论。@raddka提到这会非常缓慢。@coffeebean6887和@decruz重申,商业上可行的 LLM 需要 GPU,并讨论了 GPU 上批处理基础设施(batched infra)的优势。他们引用了 Falcon 180B initial CPU performance numbers 和 Transformer Batching 的相关讨论。 - LLMs 项目设置:
@akhxl讨论了在使用Litellm和Ollama时遇到 404 错误的问题。该问题通过忽略api_base行得以解决。 - LLMs 学习能力:
@akhxl发起了一场关于 LLM 是否以及如何理解其训练数据中未曾出现的新信息和主题的实质性辩论。@adamsvoboda解释说,这可以通过 RAG 将外部信息作为 Context 整合进 Prompt 中来实现。然而,用户对于 LLM 的解释和上下文理解能力仍有进一步疑问,在本次对话中未得到完全解决。 - LLMs 在考试阅卷中的应用:用户
@.___init___建议将 LLM 用于考试阅卷和评分,而@coffeebean6887指出数学部分可能会比较复杂。 - 托管 Embedding 模型:
@coco.py询问是否存在类似于 vLLM 托管语言模型的方式来托管 Embedding 模型的工具。@decruz推荐了像gte-small这样的开源解决方案,它可以托管在 Edge Function 上。不过,没有提供关于以兼容 OpenAI API 方式托管 Embedding 模型的具体信息。
▷ #memes (2 messages):
- 用户
@nonameusr在频道中分享了一个来自 Vega Holdings 的 Twitter 链接。此外,该用户通过评论 “wtf is this 😭” 对链接帖子的内容表达了困惑或惊讶。
OpenAI Discord Summary
- 跨频道讨论突显了围绕 Google 的 Gemini AI 模型 和 OpenAI 未来版本 GPT 模型 的期待、怀疑和讨论。用户对 Google 的 Gemini 发布视频发表了看法,并对 OpenAI 已经为 GPT-7 之前的版本奠定基础进行了推测(引用自
@DawidM和@aiden4729)。 - 多个频道的用户报告了 OpenAI 产品(如 ChatGPT 和 GPT-4)的服务器问题、性能问题和沟通挑战。这包括消息消失、性能下降(尤其是带有奇怪对话名称的情况)、获取支持回复的等待时间过长、支付系统问题以及 Chatbot 无响应(引用自
@_steeven_、@maybedara、@dabuscusman、@mrcrack_、@seliathas、@bubbarob19、@ryanxcharles、@spider7124、@exobyt和@solbus)。 - 社区还讨论了 AI 对科学研究的潜在影响,并辩论了其超越人类研究人员的能力,特别是在数学发现方面(
@axiomaticself与@feltsteam0之间的对话)。 - 各频道出现了关于使用 OpenAI 技术时 VPN 使用 的讨论,用户表示他们的 VPN 未被检测或封锁,并进一步澄清了来自同一 IP 的多个用户可能会被过滤(由
@youraveragedev、@satanhashtag、@lugui和@olympusdev讨论)。 - 各频道提出了许多技术问题、建议和澄清,涵盖了 GPT Token 限制、自定义 GPT(custom GPTs)之间的交互、使用 VPN 访问特定 AI 模型、引导 ChatGPT 输出特定响应格式、用于 Web 搜索能力的 API 使用、长 Token 长度下 GPT-4 的性能,以及从图像中提取 DALLE Prompt 等主题。
- 用户分享并评价了相关资源,特别是
@zelia13征求了关于 AI 知识管理 视频 的反馈,@iyioio分享了 OpenAI 的 Function-calling 文档 链接。此外还通过链接分享了一些探索性的 Prompt 及其输出结果。 - 最后,出现了关于 OpenAI 通用行为准则的提醒,详细说明了违反发布规则的事件及其潜在后果。
▷ #ai-discussions (92 messages🔥🔥):
-
Gemini vs GPT-4: 用户对 Google 预期的 Gemini AI 模型发布表达了复杂的情绪,一些人对其潜力感到兴奋,而另一些人则因 Google 在演示视频中涉嫌虚假陈述而表示怀疑。
@DawidM声称该视频经过后期编辑,以过度正面的方式展示产品,称其为“阴暗的营销手段”。 -
OpenAI 模型更新: 关于 OpenAI GPT 模型未来版本的发布存在各种猜测,用户
@aiden4729指出,根据商标注册申请,OpenAI 已经为直到 GPT-7 的版本奠定了基础。@thepitviper预测 GPT-4.5 的发布将与 Google 的 Gemini 展开竞争。 -
对 AI 在科学研究中应用的担忧: 用户
@axiomaticself表达了对 AI 在数学领域可能超越人类研究者的担忧。@feltsteam0提供了安慰,表示距离 AI 完全自动化科学发现还有数年时间,未来的方向很可能是增强型人类-AI 研究团队。 -
关于 AI 知识管理视频的反馈请求: 用户
@zelia13分享了一个关于项目经理如何使用 AI 进行知识管理的视频,并征求反馈。 -
AI/Chatbot 访问挑战: 一些用户讨论了由于地区限制而难以访问某些 AI 和 Chatbot 模型的问题。用户
@offline建议使用 VPN 作为变通方案。
▷ #openai-chatter (246 messages🔥🔥):
- ChatGPT 服务器问题: 包括
@_steeven_、@maybedara和@dabuscusman在内的多位用户报告了 ChatGPT 的服务器问题。用户@_steeven_提到消息在按下回车键后消失,几位用户猜测可能是服务器过载导致的。然而,@pruo和@dabuscusman等用户随后确认他们已成功访问 ChatGPT。 - ChatGPT 性能:
@mrcrack_对 ChatGPT 的现状表示不满,提到过去几个月性能有所下降,并特别引用了奇怪的对话名称,如“埃博拉病毒与流感”。 - VPN 使用:
@youraveragedev询问 OpenAI 现在是否允许使用 VPN,因为他们的 VPN 未被检测或封锁。@satanhashtag确认了这一点,@lugui和@olympusdev澄清说 VPN 一直是被允许的,但来自同一 IP 的多个用户可能会被过滤掉。 - OpenAI 支持: 用户
@seliathas对 OpenAI 的支持系统表示沮丧,称他们的沟通长时间未得到回复。@elektronisade解释说,根据主题的不同,回复可能需要相当长的时间。 - 产品可用性与使用:
@Foufou指出了网站上的一个翻译错误,引用了法语中关于对话限制的沟通误导。用户@theyonatan寻求关于让 ChatGPT 重新粘贴完整代码的建议。同时,@goni0755询问了 DALLE 图像生成 API 与其他 API 相比的可靠性。此外,@zyrqlo和@thepitviper讨论了将 “Bard” 与 “Gemini Pro” 结合使用的问题。
▷ #openai-questions (69 messages🔥🔥):
- API 使用与 Web Search 功能: 用户
@shikhar1209询问了是否可以通过 API 在 GPT-4 中使用 Web Search,但未得到明确答复。 - GPT-4 性能与功能问题: 包括
@spider7124、@exobyt和@solbus在内的几位用户报告了 ChatGPT 出现错误和无响应的情况。此外,用户@yoruiopz对 GPT-4 性能下降和反复出现的浏览超时表示不满。 - GPT 微调 Token 限制:
@pearlyeti提出了关于微调时每个示例的 Token 限制问题,特别是 GPT-4 是否仍维持在 4096,但未得到明确回应。 - ChatGPT 的误解与沟通误导: 包括
@treytay和@maguiresfuture在内的几位用户对 ChatGPT 在某些交互中给出的误导性信息或承诺表示担忧。 - 账单与订阅问题: 用户
@bubbarob19和@ryanxcharles报告了平台上支付系统持续出现的问题,阻碍了对服务的访问。
▷ #gpt-4-discussions (31 条消息🔥):
- 自定义 GPT 消失的问题:
- 用户
@_interstitialism_、@a2jhagrhbm92awno和@budadude报告了他们的自定义 GPT 消失的问题。该问题似乎已自行解决,因为@a2jhagrhbm92awno随后报告称他们的 GPT 已恢复。
- 用户
- 在 GPT 中利用图像:
@thermaltf询问是否存在可以从上传的图像生成 Dalle 提示词的 GPT,但未收到直接回复。@demo_02817在使用 OpenAI 进行图像编辑方面需要帮助并分享了代码片段,但在此聊天记录中未提供解决方案。
- 自定义 GPT 之间的交互:
@moraj123询问了在自定义 GPT 之间创建交互的可能性,@rjkmelb回复称这目前无法直接实现。
- 清除对话历史:
@sjjj.询问是否有办法删除部分聊天对话。@pietman透露目前还没有这样的功能,并分享了一个用于此目的的有用 Chrome extension 的信息。
- 更长的 Token 长度与模型性能:
@the_unbeatable_gusty_chatterbox提出了关于具有 128K Token 长度的 GPT4 性能的问题,评论称在输入较长时输出质量较低。讨论记录中未给出答案。
- 设置公开 GPT:
@serenejay询问创建公开 GPT 是否仅限托管它们的人。@solbus澄清说,可以通过验证网站或在用户的 Builder profile 上添加账单名称来启用。目前还没有官方的 GPT 中央仓库,但预计明年会有一个。
▷ #prompt-engineering (11 条消息🔥):
-
为特定响应格式编写 Assistant API 提示词:用户
.jkyle询问如何提示 Assistant API 提供格式化为 JSON 的响应,以便进行解析和输出。用户iyioio建议使用 functions 并提供 OpenAI 的 function-calling 文档作为资源。.jkyle打算将模型输出作为实际所需的输出。 -
关于 API 中 Functions 功能的讨论:在
.jkyle和iyioio之间,讨论了对 functions 功能的理解。对话涉及 Assistant 如何为外部函数定义输入规范、确保输出符合格式以及执行过程如何发生。 -
有趣的提示词:用户
mindfultatiana和eskcanta分享并探索了有趣的提示词,包括“像对 AI 解释一样”、“像我是一条鱼一样”或“像我是一本诗集一样”来解释概念。他们在模型上实验了这些提示词,并通过 OpenAI chat 分享链接分享了结果输出。 -
引导 AI 的行为:用户
clumsylulz通过要求 AI 像患有分裂情感性障碍的人类一样做出反应,来实验引导 AI 的行为。
▷ #api-discussions (11 条消息🔥):
- API 提示词以获取 JSON 输出:用户
@jkyle征求关于提示 Assistant API 始终提供 JSON 响应的建议。用户@iyioio建议使用 API 的 function 功能并描述了其工作原理。@jkyle随后将此功能理解为它提供了一个可以喂给外部函数的输出对象,然后返回以闭合循环。@iyioio确认这基本正确,并强调从 Assistant 接收到的 function call 只是 thread 中另一个具有特殊格式的消息。 - 指令式提示词:用户
@mindfultatiana分享了一个有效的提示词:"你能像我 5 岁一样向我解释..."。 - 交互式提示词:用户
@eskcanta展示了使用提示词指示模型以各种视角提供解释,例如“像对 AI 解释一样”、“像我是一条鱼一样”和“像我是一本诗集一样”,并为每个视角提供了相应的聊天链接。 - 条件化提示词:用户
@clumsylulz提出了一个条件响应场景,指示模型表现得像一个患有分裂情感性障碍的人类。 - 链接:
OpenAccess AI Collective (axolotl) Discord 总结
- AI 模型训练:用户
@noobmaster29、@le_mess、@nanobitz、@metaldragon01、@casper_ai和@yamashi讨论了各种 AI 模型。重点讨论了 Mamba 与 Mistral 相比性能迟缓的问题,并确定了 Mamba 的一个评估问题。大家对 Mistral 发布新模型的公告表示了兴趣。用户还比较了 Llama 模型 和 GPT-3.5 的性能。 - 不同语言的 AI:指出了对包括法语和荷兰语在内的不同语言的有效 AI 模型的需求。
- 统一内存与 Mac M 系列处理器的优势:讨论了使用 Mac 的 M 系列处理器和统一内存系统进行 AI 推理(以及可能的训练)的优势。提到了 Apple 最近发布的内容,展示了如何在他们的机器上训练模型。
- 模型部署与调整中的挑战:围绕部署和调整 AI 模型(特别是来自 Mistral 的模型)所面临的问题展开了对话。暗示用户将无法对新的 70B 模型进行 finetune。
- Mistral 新模型发布:广泛讨论了新 Mistral 模型 的发布,推测该模型可能采用混合专家模型(MoE)架构。提到了使用该模型的过渡步骤,包括将模型转换为 PyTorch 以及将 megablocks 作为必要依赖项。
- Token 对模型训练的影响:展开了一场关于在模型训练期间,包含 120 个 token 的回复是否比包含 60 个 token 的回复具有更大影响力的讨论。有人建议,已训练的 token 数量可能是衡量对模型影响的更好指标。
- DPO 微调支持:提出了关于 axolotl 是否支持 DPO 微调的问题。通过 Hugging Face 上的 DPOpenHermes-7B 链接 提供了 DPO 可行的证据,并附带了详细的 YAML 配置代码。
- 用户输入中的分段(Segmenting):对用户输入中的分段表示了兴趣,并确认了将相同过程用于 检索文档分段(segmenting retrieved docs) 的可能性。
- 多 GPU 训练问题:报告了在 runpod 上使用 8 个 A40 GPU 进行训练时出现的问题。问题似乎出在 finetune 阶段,在第一次 eval pass 后挂起,所有 8 个 GPU 的利用率均显示为 100%。PyTorch distributed 中集体通信操作(collective operations)之间的不匹配被认为是可能的原因。
- 相关 URL:分享了各种链接以辅助讨论并提供资源:
- 社区行为准则提醒:提醒成员注意社区行为准则,并特别提到了重复广告的问题。
OpenAccess AI Collective (axolotl) 频道总结
▷ #general (179 条消息🔥🔥):
- 关于训练各种 AI 模型的讨论:在这次对话中,包括
@noobmaster29、@le_mess、@nanobitz、@metaldragon01、@casper_ai和@yamashi在内的多位用户讨论了训练各种人工智能模型,如 Mamba 和 Mistral。@caseus_指出 Mamba 似乎比 Mistral 慢,@nanobitz提到了它的评估问题。此外,还讨论了 Llama 模型 与 GPT-3.5 的性能对比。参与者对 Mistral 发布新模型的公告表示关注。 - AI 在不同语言中的应用:多位用户讨论了 AI 模型在不同语言中的应用。
@yamashi指出需要一个有效的模型来处理法语和荷兰语。 - Unified Memory 和 Mac M 系列处理器在训练中的优势:
@yamashi和@noobmaster29之间的对话强调了使用 Mac 的 M 系列处理器和 Unified Memory 系统进行 AI 推理甚至训练的好处。@yamashi提到了 Apple 最近发布的一份演示,展示了如何在他们的机器上训练模型。 - 模型部署和调整的挑战:包括
@faldore、@yamashi和@noobmaster29在内的几位用户讨论了他们在部署和调整 AI 模型(特别是来自 Mistral 的模型)时面临的挑战。@faldore提到与一位 Mistral 开发者的交流,对方表示用户将无法对新的 70B 模型进行 finetune。 - 相关 URL:
- Meta 开发的生产级 Reinforcement Learning AI Agent 库的 GitHub 仓库:https://github.com/facebookresearch/pearl
- Huggingface 上可能影响模型排名的数据集:https://huggingface.co/Q-bert/Optimus-7B
- Arthur Mensch 关于 Mistral AI 的 YouTube 采访:https://www.youtube.com/watch?v=auQBhg692Js
- 可与 OpenAI 后端配合使用的开源 UI 聊天界面:https://github.com/huggingface/chat-ui
- Mistral AI 宣布发布新模型的 Twitter 帖子:https://twitter.com/MistralAI/status/1733150512395038967
- Mistral 模型的 GitHub 仓库(实际指向 Huggingface):https://huggingface.co/someone13574/mixtral-8x7b-32kseqlen/tree/main
▷ #axolotl-dev (56 条消息🔥🔥):
-
Mistral 新模型发布:团队讨论了由
@casper_ai分享的新 Mistral 模型 的发布 [^Twitter 链接^](https://twitter.com/MistralAI/status/1733150512395038967)。成员们推测这个名为 8x7b 的模型可能采用了 Mixture of Experts (MoE) 架构。 -
模型规格与下载:
@yamashi分享了该模型的规格,指出其具有 32k 的 sequence length,并且似乎采用了 MoE。模型的下载速度各不相同,@casper_ai最初报告下载速度较慢,仅为 239 kb/s,而@yamashi的下载速度达到了 11MB/s。 -
模型的转换与使用:包括
@caseus_在内的多位成员讨论了使用新模型可能需要的步骤,包括将模型转换为 PyTorch 格式,并将 megablocks 添加为依赖项。@bjoernp正在开发转换脚本,并邀请任何有兴趣的人通过他的 Discord 加入通话来提供帮助。 -
在 Llama 中实现 Mixtral:
@casper_ai分享了一个 fork 的 Llama 仓库的 GitHub 链接,其中有人已经将 Mixtral 实现到了该仓库中,这可能对转换过程有所帮助。 -
关于新模型的详细内容:分享了多个包含新模型详细内容的链接,包括
@_jp1_分享的 GitHub 链接 和@c.gato分享的 arXiv 链接。
▷ #general-help (12 messages🔥):
- 关于 train_loss 的澄清:
@nanobitz解释说,标记为 ‘train/loss’ 的单个点代表最终的 train_loss,这与 ‘train/train_loss’ 不同。后者在训练过程中以图表形式展示。 - Token 对模型训练的影响:
@c.gato讨论了在模型训练期间,包含 120 个 Token 的响应是否比 60 个 Token 的响应具有更大的影响力。@le_mess建议,已训练的 Token 数量(tokens trained)可能是衡量对模型影响的更好指标。 - 持续改进:
@c.gato还表示理解需要不断优化,以跟上其模型的改进步伐。
▷ #rlhf (3 messages):
- DPO 微调支持的可能性:用户
@josh.sematic.dev询问了 axolotl 提供 DPO 微调支持的可能性。 - 目前尚未实现:用户
@le_mess表示该话题已被讨论多次,但指出目前还没有相关实现。 - DPO 能力的证据:
@noobmaster29分享了 DPO 实际上已经可行且得到支持的观点,并提供了 Hugging Face 上的 DPOpenHermes-7B 链接 以及详细的 YAML 配置代码作为证明。
▷ #community-showcase (2 messages):
- 关于分段(Segmenting)的讨论:用户
@gabriel_syme对用户输入分段表现出兴趣,并推测同样的过程是否可以用于检索文档的分段(segmenting retrieved docs)。作为回应,@le_mess确认了这种可能性。
▷ #runpod-help (10 messages🔥):
- 多 GPU 训练问题:用户
@vastolorde95报告了在 runpod 上使用 8 个 A40 GPU 进行训练时遇到的问题。问题表现为微调在第一次评估(eval pass)后卡死,且所有 8 个 GPU 的利用率均显示为 100%。 - 错误分析:
@vastolorde95怀疑是 NCCL 错误。在通过环境变量TORCH_DISTRIBUTED_DEBUG=DETAIL NCCL_DEBUG=INFO NCCL_DEBUG_SUBSYS=INIT,P2P激活详细调试信息后,发现 PyTorch 分布式集合通信操作(collective operations)之间存在不匹配:RuntimeError: Detected mismatch between collectives on ranks. Rank 0 is running collective: CollectiveFingerPrint(OpType=ALLGATHER, TensorShape=[4], TensorDtypes=Float, TensorDeviceTypes=TensorOptions(dtype=float (default), device=cuda, layout=Strided (default), requires_gr ad=false (default), pinned_memory=false (default), memory_format=(nullopt))), but Rank 2 is running collective: CollectiveFingerPrint(OpType=ALLGATHER)。 - 单 GPU 训练成功:
@vastolorde95注意到相同的设置在单个 H100 GPU 上可以运行,尽管速度太慢,这表明问题主要出在多 GPU 设置上。 - Checkpointing 延迟:
@casper_ai建议这可能也与 8 个 GPU 上的 Checkpointing(检查点保存)速度缓慢有关,可能是由于机器的磁盘速度较低。
▷ #docs (1 messages):
le_mess: 兄弟,别再给这个打广告了。我之前已经说过了 😅
Latent Space Discord 总结
- Jetbrains AI Assistant 受到
@slono的赞赏,强调其一致的 docstring 风格节省了大量时间。 - 从
@swyxio关于即将发布的技术讨论中,表达了对 Google 的 Duet AI 的期待,并提到了 Mistral 8x7B 的发布。 - AI compression 的重要性以及 Mixture of Experts (MoE) 范式的介绍,由
@coffeebean6887分享的关于压缩 1.6 万亿参数 SwitchTransformer-c2048 模型的链接和 YouTube 视频引发。 @slono提到了法国前景看好的 AI startup 景象。- 关于 Cursor vs VS Code 的辩论意见不一:tollbooth 提供了一个 OpenAI API (@btdubbins),有益的 AI 搜索功能 (@guardiang),VS Code 是为考虑数据安全的企业用户设计的 (@mitch3x3),以及这类工具的有效性归功于与代码库和周边 UI 的集成 (@slono)。
@swyxio宣布了 新播客节目,在ai-event-announcement频道分享了 Twitter 链接。@swyxio分享了 Latent Space University Day 4 关于 Image Generation 的内容,见链接。- 详细讨论了 格式对模型训练的影响,特别提到了
@eugeneyan的轶事中关于空格符号影响模型输出的内容。 @slono阐述了 代码中 whitespace 的作用及其对 tokenization 和学习的影响。还指出由于 whitespace 使用不同导致的 token counts 显著差异。@slono询问并由@eugeneyan澄清了关于[INST]context 的用法。@__chef__幽默地评论了训练大型模型的复杂性,推测“学习一个空格需要多少参数?超过 70 亿个”。
Latent Space 频道总结
▷ #ai-general-chat (45 条消息🔥):
- Jetbrains AI Assistant: 用户
@slono提到他们很欣赏 Jetbrains AI 聊天助手,并强调它经过微调以保持一致的 docstring 风格,从而节省了大量时间。 - AI 即将发布的技术和现状:
@swyxio讨论了 Mistral 8x7B 的发布,间接暗示了 Google 的 Duet AI 的发布,并将一条推文称为现代数据的有趣人工制品。 - AI Compression 和新研究论文: 用户
@coffeebean6887分享了一些关于压缩 1.6 万亿参数 SwitchTransformer-c2048 模型的链接,以及一段关于 Mixture of Experts (MoE) 范式的 YouTube 视频。 - 法国的 AI Startup 景象: 用户
@slono提到由于法国 AI startup 领域潜在的有趣机会,正考虑搬回法国。 - Cursor vs VS Code 讨论: 关于 Cursor 与 VS Code 的优缺点正在进行辩论。
@btdubbins对 Cursor 持怀疑态度,认为它只是一个提供 OpenAI API 的收费站。尽管如此,@guardiang发现其 AI 搜索功能具有优势,而@mitch3x3强调微软为企业用户制作 VS Code,并考虑了数据安全。@slono认为这类工具的实用性更多地与代码库的集成以及周边的 UI 相关。
▷ #ai-event-announcements (2 条消息):
- 新播客节目:
@swyxio通过分享 Twitter 链接 宣布了新一集的发布。 - Latent Space University Day 4:
@swyxio分享了来自 Latent Space University 关于 Image Generation 的第四天内容。提供的 链接 涵盖了如何利用 DALL-E API 进行图像生成。
▷ #llm-paper-club (8 messages🔥):
- 格式对模型训练的影响:
@eugeneyan描述了一个场景,在对一个 7B 模型进行微调以生成特定 JSON 格式的响应时,出现了意想不到的结果。模型输出的差异非常大,具体取决于起始训练数据在起始语法后是否带有空格(例如<s> [INST]与<s>[INST]的区别)。 - 关于代码中空格作用的讨论:
@slono指出,代码中的空格(例如在空格具有重要意义的语言中)可能产生与{等关键符号相当的强烈影响,从而可能影响 Tokenization 和学习过程。 - Token 数量与空格:
@slono还注意到,改变空格的使用会导致 Token 数量出现显著差异。 - 关于 “[INST]” 上下文的困惑:
@slono询问了@eugeneyan使用的[INST]上下文的含义,后者解释说这是 Mistral 的 Prompt 格式的一部分。 - 学习参数空间:
@__chef__幽默地思考道:“学习一个空格需要多少个参数?超过 70 亿个”,暗示了训练大型模型所涉及的复杂性和规模。
LangChain AI Discord 总结
- 讨论了关于 LangChain 的技术难题,包括 JS/TS 的 Embedding 模型、查看旧文档的问题、Llama2 模型与 SQLDatabaseToolkit 的兼容性查询、网页抓取和源检索问题,以及在 Python 3.10 及以下版本安装 langchain Python 包的问题。一位用户还提出了对 Milvus standalone 稳定文档检索的担忧。另一位用户在 Conversational Retrieval Chain 中遇到了
InMemoryCache()或SQLAlchemyCache的缓存问题。由于序列化问题,有人寻求将 Document 转换为 JSON 的解决方案。 - 观察到了关于数据库偏好的热烈交流,用户们表达了对 LanceDB 的支持。
- 在 share-your-work 频道中,用户
@marvinbraga展示了他的 WhatsApp 语音虚拟助手,并为其书籍提供了折扣,还推荐了他的 GitHub 仓库。 - 另一位用户
@bigansh宣布发布 myGPTBrain 第 2 版,包含大量新功能、更新的落地页、文档解析器以及订阅模式的引入。随之发布的还有 Loom 上的用户指南和公开发布的博客文章。他征求了关于潜在新功能的反馈和设计建议。
LangChain AI 频道总结
▷ #general (40 条消息🔥):
- 对 Embedding Models 的支持:用户
@jungle_jo最初不确定 JS/TS 对 embedding models 的支持情况。然而,该用户随后更新了咨询,表示发现 langchain 对此有大量支持。 - 查看旧版本文档:用户
@ellen0609询问如何查看 langchain 文档的历史版本。@.trouble_提出通过私信(Direct Message)帮助该用户。 - Llama2 模型与 SQLDatabaseToolkit 的兼容性:用户
@daksana_40937询问了 Llama2 模型与 SQLDatabaseToolkit 的兼容性。 - 网页抓取与源检索:用户
@abed7053询问在 langchain 中是否有使用 TypeScript/JavaScript 进行网页抓取的方法。该用户还表示无法在 API 响应中找到检索源上下文(source context)的方法。 - Langchain 在 Python v3.10 及以下版本的安装问题:用户
@infinityexists.在 Python 3.8.0 版本上遇到了 langchain python 包无法安装 0.0.27 以上版本的问题。@quantumqueenxox建议将 Python 升级到 3.10 及以上版本。 - 一致性文档检索问题:用户
@ranjith8249在使用 langchain 对话链(conversational chain)从 Mivus 独立版检索一致性文档时遇到问题。 - Conversational Retrieval Chain 中的缓存问题:用户
@seththunder遇到了InMemoryCache()或SQLAlchemyCache的问题,称在 LangChain 中使用 Conversational Retrieval Chain 时,两者都无法将提供的答案存储在缓存中。 - 宣布支持 LanceDB:用户
@hucki_rawen.io和@timcarambat讨论了他们对 LanceDB 的偏好,认为这是一个更符合他们需求的解决方案。 - 将 Document 转换为 JSON:用户
@b0otable寻求将 Document 转换为 JSON 的帮助,并提到了报错信息 “Object of type Document is not JSON serializable”。
▷ #share-your-work (2 条消息):
- 创建语音虚拟助手:
@marvinbraga分享了一个 YouTube 视频,解释了他如何创建一个通过 WhatsApp 进行交互的语音虚拟助手。视频涵盖了 OpenAI 集成、构建按 ID 存储对话的 API、通过 Facebook API 与 WhatsApp 集成以及使用 Pygame 进行音频处理等主题。- 此外,Marvin 分享了他的书籍 ‘Python, ChatGPT e Django REST’ 的折扣优惠券,并建议访问包含项目源代码的 GitHub 仓库。
- myGPTBrain 更新发布:
@bigansh宣布了 myGPTBrain 第 2 版的发布,包括新功能、更新的落地页、文档解析器以及引入用户订阅。产品更新指南可在 Loom 查看,还有一篇公开上线博客文章。该用户还征求了关于潜在新功能和设计建议的反馈。
LLM Perf Enthusiasts AI Discord 总结
- 由用户
@jeffreyw128、@res6969和@pantsforbirds发起的关于 ChatGPT 性能的讨论。提出了三种可能性:严重的“脑叶切除术”(lobotomization)、旨在优先使用更少 token 的更新,或者是导致参数丢失的基础设施问题。 @robhaisfield在#finetuning频道询问关于获取用于微调 3.5-turbo 模型的 JSON 文件。- 围绕 UNA 在神经网络任何层级对齐 Mixture of Experts (MoE) 能力的对话。特别提到了表现突出的模型 Xaberius 34B v1 “BETA”。
@the.palmik提出了未来关注 Mixtral 的进一步讨论。@the.palmik还询问是否有人成功运行了 Mixtral,随后@robhaisfield询问了运行 Mixtral 的要求。Hacker News 帖子 #irl频道中的用户活动通知和互动;@thisisnotawill宣布暂时离开,@psychickoala检查活跃用户,@frandecam确认在场但宣布离开,以及@res6969对度过的时光表达了积极的回顾。
LLM Perf Enthusiasts AI 频道总结
▷ #gpt4 (8 messages🔥):
- ChatGPT 性能讨论:用户
@jeffreyw128、@res6969和@pantsforbirds对 ChatGPT 感知到的性能下降表示担忧。@res6969推测 ChatGPT 已被严重“切除脑叶”(lobotomized)。@pantsforbirds提出,系统可能已更新为优先使用更少的 token,或者可能存在导致参数丢失的基础设施问题。
▷ #finetuning (1 messages):
robhaisfield: 有没有人可以提供一个 JSON 文件,让我可以用来微调 3.5-turbo,纯粹为了看看它是如何运作的?
▷ #opensource (3 messages):
- UNA 对齐 MoE:
@the.palmik提到 UNA 可以在神经网络的几乎任何层级对齐 Mixture of Experts (MoE)。他们特别提到了 Xaberius 34B v1 “BETA” 作为一个值得注意的例子。他们还表示未来将重点关注 Mixtral。Hacker News 上的相关帖子 - 关于 Mixtral 实现的咨询:
@the.palmik询问是否有人成功运行了 Mixtral。随后@robhaisfield询问了运行 Mixtral 所需的配置要求。
▷ #irl (4 messages):
- 用户
@thisisnotawill宣布将离开一会儿。 - 用户
@psychickoala随后询问是否还有人在聊天室。 @frandecam回应明确表示大家确实还很活跃,但他们即将离开。- 用户
@res6969回顾并表达了他们在聊天室度过的愉快时光。
Skunkworks AI Discord 总结
- 由
@ufghfigchv发起的关于 Bf16 的 GPU 要求的讨论指出,为了获得最佳性能,需要使用较新的 GPU,如 a6000 或 a100。 @teknium在 general 频道分享了一个 Twitter 链接,未提供更多上下文。- 对
@.mrfoo分享的 Megablocks 研究论文进行了探讨,并对与 Megablocks 相关的不同 GitHub 仓库提供了额外见解:MistralAI 的版本 包含自定义代码,而 Stanford Futuredata 的官方版本 据称更新更频繁。 @moonlightgarden在 moe-main 频道宣布了 Mistral 新的 8x7B 模型。@huevosabio分享了一个指向 Mistral AI 状态的链接,但不幸的是,该链接指向了一个错误页面。- Pradeep1148 在 off-topic 频道分享了一个 YouTube 视频,未提供任何额外上下文。
Skunkworks AI 频道总结
▷ #general (2 messages):
- Bf16 的 GPU 要求:
@ufghfigchv提到 Bf16 速度更快,但需要使用较新的 GPU,如 a6000 或 a100。 - teknium 分享的 Twitter 链接:
@teknium分享了一个 Twitter 链接,未提供进一步上下文。
▷ #papers (3 messages):
- Megablocks 研究论文:
@.mrfoo分享了一篇名为 Megablocks 的研究论文,可以通过此链接找到。 - MistralAI 的 Megablocks GitHub 仓库:
@.mrfoo分享了 MistralAI 的 Megablocks 仓库。 - 官方 Megablocks GitHub 仓库:
@stereoplegic指出官方 Megablocks 仓库(由 Stanford Futuredata 所有)更新更近。仓库可以通过此链接找到。 - Mistral 版 Megablocks 中的自定义代码:
@.mrfoo指出 Mistral 的 Megablocks 仓库包含专注于他们新 MoE 的自定义代码。他还提到为此还有一个独立的分支。
▷ #moe-main (2 messages):
- Mistral 的新型 8x7B 模型:用户
@moonlightgarden告知频道 Mistral 发布了一个新的 8x7B 模型。 - Mistral AI 状态链接:用户
@huevosabio分享了一个 Mistral AI 状态链接,但页面显示错误信息:”Something went wrong, but don’t fret — let’s give it another shot.“。
▷ #off-topic (1 messages):
pradeep1148: https://youtu.be/mAGLD5598cs
MLOps @Chipro Discord 总结
@jaskirat分享了一个名为 Novus #14 的即将举行的活动,并附带了详情和注册链接,随后@Raigon询问了活动录制的可能性。- 关于分割模型选择的讨论中,
@mattrixoperations推荐了FastSAM、MobileSAM、SAM和Yolo-seg等模型,并特别推崇YOLOV8-seg模型。他特别警告不要在显微镜任务中使用SAM,敦促使用较小的模型并针对标注数据进行 Fine-tuning,并提到了来源。 @erisianrite宣布计划使用YOLO作为 Baseline(基准)与其自身模型进行性能对比,同时表示有兴趣研究分割模型,并对@mattrixoperations的建议表示感谢。
MLOps @Chipro 频道总结
▷ #events (2 messages):
▷ #general-ml (2 messages):
- 分割模型建议:用户
@mattrixoperations分享了关于分割模型选择的一些见解,建议使用FastSAM、MobileSAM、SAM和Yolo-seg。他特别推荐YOLOV8-seg模型,但建议不要在显微镜任务中使用SAM。他建议使用较小的模型并针对一些标注数据进行 Fine-tuning(来源)。 - 使用 YOLO 进行基准对比:用户
@erisianrite提到他们计划利用YOLO作为 Baseline,以对比他们开发的模型的性能。他们还表达了研究分割模型的意图,并对@mattrixoperations的建议表示感谢。
Alignment Lab AI Discord 总结
@severus_27向社区介绍了 OpenML Guide。该指南提供了一系列与 AI 相关的开源、免费资源,涵盖了计算机视觉、NLP、深度学习、医疗 AI、机器人以及支撑 AI 核心原理的数学基础等各种主题。- OpenML Guide 可通过其网站访问,其 GitHub 仓库 也可供贡献或通过 GitHub Star 表示支持。
Alignment Lab AI 频道总结
▷ #open-orca-community-chat (1 messages):
- OpenML Guide 介绍:用户
@severus_27介绍了 OpenML Guide,提到它提供了丰富的免费资源,如书籍、课程、论文、指南、文章、教程、Notebooks 等,用于学习计算机视觉、NLP、深度学习、医疗 AI、机器人以及 AI 核心原理背后的数学等相关主题。此外,所有资源均为开源且可免费访问。 - OpenML Guide 网站和 GitHub 仓库:可以通过其网站访问 OpenML Guide,同时它还有一个 GitHub 仓库,用户可以在那里进行贡献或通过点亮 Star 来表示支持。
▷ #looking-for-workers (1 条消息):
- OpenML Guide 简介:
@severus_27介绍了 OpenML Guide,这是一个开源、免费的资源库,提供了大量 AI 相关内容,如书籍、课程、论文、指南、文章、教程、notebooks 等。该指南涵盖了多种 AI 兴趣领域,包括 computer vision、NLP、deep learning、医疗 AI、机器人学以及 AI 核心原理背后的数学。分享了 OpenML Guide 网站 和该项目的 GitHub 仓库。
Ontocord (MDEL discord) Discord 没有新消息。如果该频道长期处于沉寂状态,请告知我们,我们将将其移除。
AI Engineer Foundation Discord 没有新消息。如果该频道长期处于沉寂状态,请告知我们,我们将将其移除。
Perplexity AI Discord 没有新消息。如果该频道长期处于沉寂状态,请告知我们,我们将将其移除。
YAIG (a16z Infra) Discord 没有新消息。如果该频道长期处于沉寂状态,请告知我们,我们将将其移除