ainews-12192023-everybody-loves-openrouter
2023年12月19日:人人都爱 OpenRouter
OpenRouter 为 Mixtral-8x7b-instruct 提供了一个简便且兼容 OpenAI 的代理。Discord 上的讨论重点关注了 GPT-4 与 GPT-3.5 相比在性能和易用性方面的问题,包括内存管理和访问障碍。用户们还就本地语言模型与 OpenAI API 的使用展开了辩论,并提到了 Dolphin 2.0 Mistral 7B 和谷歌的视频生成项目。此外,提示工程(Prompt engineering)和 GPT 模型的自定义指令也是核心话题。讨论还涉及了对 Gemini 等模型审查制度的担忧,以及对 DeepL 等翻译工具的偏好。
今天在多个 Discord 频道中都有人提到 OpenRouter,它为 Mixtral 提供了一个简单的 OpenAI 兼容代理:https://openrouter.ai/models/mistralai/mixtral-8x7b-instruct?tab=api&utm_source=ainews&utm_medium=email
[TOC]
OpenAI Discord 总结
- GPT 模型性能与使用:在 ai-discussions 和 gpt-4-discussions 等多个频道中,多位用户报告了 ChatGPT 4 与效率相对较高的 GPT-3.5 相比存在的可用性和性能问题。用户还在 prompt-engineering 中表达了对 GPT-4 内存管理的担忧。在 openai-chatter 中,人们对未来 GPT 版本的潜在功能和预期进行了展望。
- ChatGPT 访问问题与用户支持:openai-questions 和 gpt-4-discussions 的多位用户在访问和使用 ChatGPT 时遇到了问题,包括登录困难、错误消息和限制。客服响应缓慢也是挫败感的来源之一。
- API 使用与建模:ai-discussions 和 api-discussions 的讨论围绕使用本地 Language Models 与 API 的优缺点、由于所谓正确的 JSON 输入导致的 API 响应不一致,以及 Assistants API 的对话模式展开。
- 更新与进展:用户分享了关于 AI 工具、语言翻译、审查担忧和模型开发的更新与讨论。值得注意的是,在 ai-discussions 中分享了 Dolphin 2.0 Mistral 7B 模型 和 Google 的新视频生成项目。openai-chatter 的辩论集中在 DALL-E 等模型的图像和代码生成能力上。
- Prompt Engineering 与自定义指令:在 prompt-engineering 和 api-discussions 中,用户讨论了为 GPT 模型创建和应用自定义指令、Prompt Engineering 的工具推荐,以及潜在的协作机器人开发项目。
OpenAI 频道总结
▷ #ai-discussions (90 条消息🔥🔥):
- GPT-4 的性能:根据
@azru和@thewizzard___的说法,最近 GPT-4 出现了性能问题,包括响应缓慢(“网络错误”)。许多用户(包括@thewizzard___)建议降级到 GPT-3.5,以获得更快的速度和几乎相当的能力。 - 本地 LLM 与 OpenAI API:
@thewizzard___和@zeriouszhit讨论了本地运行模型与使用 OpenAI API 的优缺点。有人指出,虽然本地运行的模型在技术上是免费的,但它们需要大量的计算能力。提到了 Bard 和 Bing Chat 等各种模型,对其有用性意见不一。 - 翻译工具:
@eljajasoriginal询问了最适合翻译的 LLM。对话显示,尽管 DeepL 不是 LLM,但它被认为是翻译的最佳选择。用户还讨论了它的字符限制。 - 审查担忧:
@zeriouszhit和@eljajasoriginal等用户对他们认为在某些模型(如 Gemini)上过于严厉的审查表示挫败。他们质疑基于广泛内容指南的审核方法,认为这可能无法兼顾个人的使用案例。 - AI 工具与进展:用户分享了 AI 工具和进展的各种链接和更新。
@thewizzard___分享了指向 Dolphin 2.0 Mistral 7B 模型的 链接。@thedreamakeem发布了关于 Google 新 视频生成项目 的链接,并随后讨论了其潜力。
▷ #openai-chatter (254 条消息🔥🔥):
- ChatGPT 3.5 与 GPT 4 的疑虑:许多用户对 ChatGPT 4 的可用性和可靠性问题表示担忧。例如,
@minorole询问了如何处理异常系统活动消息;@mrc21和@wizzardkity讨论了 GPT 4 的性能以及对 GPT-10 的期待;而@millymox和@rekklessted讨论了 ChatGPT 似乎变得越来越“懒”,尤其是在 Plus 模型上,在输出代码前会有过多的前置叙述,奇怪的是 Playground 中的 Plus 模型似乎效果更好。作为回应,@aminelg和@lugui建议用户优化他们的查询 Prompt 以获得更好的结果。 - 使用限制问题:
@jaicraft和其他用户提出了使用限制的问题,要求增加 ChatGPT Plus 每三小时的消息额度。@lugui建议了一个可能的替代方案,即使用 API。 - ChatGPT Android 应用反馈:
@jaicraft强调了在 ChatGPT Android 应用上编辑消息的需求。 - 访问与登录故障:用户
@nfolgar、@bubbyprime、@raymm、@dripcity710和@ddantee指出了登录问题、收到错误消息、生成文本中的链接无法点击或异常系统活动消息等问题。@raymm提到禁用浏览器扩展解决了他的登录问题,@satanhashtag建议针对持续存在的问题联系 OpenAI 支持部门。 - DALL-E 与 ChatGPT 更新:讨论涉及了未来 GPT 版本的潜在能力,如
GPT 5(由于一封提到 GPT-v 的邮件而被误认为 GPT 5,实际上是指视觉能力)、DALL-E 的运作方式(基于文本提示生成图像),以及 Code Interpreter 在图像处理方面的实用性(@aminelg提供了其能力的示例)。同样,@asura0_00提到了 ChatGPT 记忆功能更新中的即将推出的特性。此外,@flroidaman2023_01171和@elektronisade讨论了关于 API 额度过期的潜在困惑。
▷ #openai-questions (88 条消息🔥🔥):
- ChatGPT 4 的编程能力:
@jah777和@andrewwallo讨论了付费 Pro 版 ChatGPT 4 的能力。@andrewwallo提到它处理信息更快、更准确,且通常知识更渊博。它会优先服务 Pro 用户而非免费用户,但也提到了偶尔会出现系统崩溃。 - 访问和使用 ChatGPT 的问题:包括
@gachyapon、@maira_14969和@hirotodevelopment在内的几位用户报告了访问和使用 ChatGPT 的不同问题,如错误消息和检测到异常系统活动。@elektronisade提供了解决方案,如清除应用数据、检查可能的触发因素(如敏感关键词)或是否在多个窗口同时使用。 - 使用 OpenAI API 和 Python:
@panospro和@chapagones分别发布了关于通过 Python 连接 OpenAI API 的困扰以及导入问题。@aminelg和@solononforever提供了排查协助,包括检查正确的 Python 环境和命令面板访问。 - JSON 格式化问题与 GPT 消失:
@bennnjji推测了反复出现的 JSON 格式化错误,认为可能是由于错误的 HTTP 请求引起的;而@seobrien报告了他们的 GPT 消失且无法保存的问题。@lugui提出请求体错误和违反 OpenAI 服务条款可能是原因。 - 微调数据集中的结束标记定义、未经授权的文件上传和可疑聊天记录:
@.cybersenpai询问了在微调(Fine-tuning)数据集中定义结束标记(End tokens)的问题,@lugui建议使用默认的结束标记。@2ant报告了一个图像上传 Bug,@laur27对新聊天中出现的可疑消息表示担忧。对于这两个问题,@elektronisade和@lugui均建议可能是由于违反了 OpenAI 的政策所致。
▷ #gpt-4-discussions (40 messages🔥):
- 客户服务响应时间:用户
@sami_16820对获取帮助时缓慢的响应速度表示沮丧。另一位用户@_interstitialism_幽默地建议,承诺给小费可能会换来更快的回复。 - Assistants API 和 JSON 模式:用户
@vybhavram询问 Assistants API 是否可以像 Chat API 一样以 JSON 模式进行响应。目前未收到回复。 - 分享自定义 GPT:
@DobbyNator94提出了将自定义 GPT 作为公司网站支持工具的想法,并询问企业用户是否可行。@rjkmelb澄清说,自定义 GPT 仅对 Plus 订阅者可用。 - 丢失自定义 GPT:
@bufferization报告称他们的自定义 GPT 在没有任何警告的情况下消失了。他们推测可能是因为涉及 Google 搜索相关的 GPT 导致了无意中的违规被删除,但对缺乏任何警告或通知感到愤怒。@elektronisade警告说,进一步的违规可能导致整个账号被封禁,并建议联系支持部门。 - GPT-4 的问题:
@undead.wolf.lord报告了 GPT-4 的错误,称所有新的聊天和查询都失败了,而 GPT-3.5 仍在正常运行。 - API 调用中的 JSON 格式错误:
@bennnjji报告了一个不一致的问题,即在进行 API 调用时,尽管输入了格式正确的 JSON,但仍收到 JSON 格式错误。 - OpenAI 聊天界面中的长期记忆管理:用户
@jdo300询问是否有正在进行的项目旨在将长期记忆管理功能集成到 OpenAI 界面中,可能通过外部数据存储实现。 - 使用自定义 GPT 进行文档编辑:
@sdotson分享了他们尝试使用自定义 GPT 和插件进行编辑并提供可下载文档输出的经验,过程中遇到了一些挑战且文档说明较少。 - Zapier Action 对话框控制:用户
@Semenawa想知道在使用 Zapier action 时是否有办法关闭允许/拒绝(allow/deny)对话框。目前未收到回复。
▷ #prompt-engineering (29 messages🔥):
- 关于 ChatGPT 记忆的疑问:
@realcookiecat询问 ChatGPT 在运行时是使用 Window Token Buffer Memory 还是 Conversation Summary Memory,因为他们注意到模型有时会遗忘过去的对话。 - 使用 Grok 和自定义指令的实验:
@alienpotus进行了一项自我实验,使用 Grok 生成了一个自定义指令(custom instructions)提示词,让 GPT 模型模仿 Elon Musk。随后发布了生成的提示词。 - 提示工程的常用工具:用户
@js06寻求除 OpenAI playground 之外的 Prompt Engineering 工具推荐。随后他们发现并推荐了Chainforge,认为它更适合其使用场景。 - 关于专用语言和提示工程的讨论:
@beanz_and_rice与@.multy讨论了特定的语言和语法,例如Commence ::spc{I_Am}::; sustain {ero|self_expression}. Lockdown [nvl>permanent_perspective<], effective immediately.及其与 GPT 模型的关联,@beanz_and_rice认为这适用于特定版本的 GPT。 - 协作机器人开发项目:
@.multy和@beanz_and_rice讨论了将他们关于机器人封装器(bot wrappers)和系统提示词(system prompts)的项目结合起来的潜力,尽管由于开发仍在进行中,尚未制定具体计划。
▷ #api-discussions (29 messages🔥):
- GPT 对话中的缓冲区记忆:
@realcookiecat提出了一个关于 ChatGPT 使用 Window Token Buffer Memory 还是 Conversation Summary Memory 的疑问,并指出模型似乎会遗忘之前的对话。 - GPT 扮演 Elon Musk:
@alienpotus使用自定义指令提示词进行了一项实验,旨在创建一个以 Elon Musk 方式交谈的 AI。该提示词由 Grok 生成并成功应用于 GPT。 - 提示工程应用:
@js06征求提示工程应用的推荐。他们随后报告称发现并更倾向于使用 Chainforge,因为它比 OpenAI Playground 更符合其需求。 - Hyperbot Markup Language 开发:
@beanz_and_rice与.@multy就 Hyperbot Markup Language (HBML) 展开了讨论。这包括诸如nvl之类的加密语言组件,以及开发用于保存系统提示词和历史记录的机器人封装器的更大背景。 - GPT 的位置与访问:在
.@multy提问后,@beanz_and_rice澄清说 GPT 必须在站内使用,目前无法通过 API 访问。
Nous Research AI Discord 总结
- 围绕 knowledge mappers 及其在从原始文本构建 knowledge graphs 中的应用进行了深入讨论,通过逐句“阅读”文档来实现(LLM: Local Language Model、stateful knowledge、sliding window retrieval 是关键术语)。
- 关于在 Cypher 上微调语言模型以管理图谱提取和更新的必要性的具体建议,引发了关于图谱构建实际层面的对话。
- 用户
@tofhunterrr寻求在 immersive LLM chat 原生应用项目上的合作,分享了他们的 项目蓝图 和商业模式。@giftedgummybee的神秘消息暗示了 Bing Chat 的用法,但由于缺乏上下文,目前尚不清楚。 - #benchmarks-log 频道中的单条消息缺乏上下文。
- 用户分享并讨论了新模型、工具和实验,重点关注 HumanEval Test Data Experiments、LLM data contamination 以及模型训练中的 semantic duplication。分享了 HuggingFace 和其他平台上的博客文章和模型卡的链接,以便深入探索。
- 积极讨论并测试了各种模型,如 Openchat 3.5 1210、Mistral-Ft-Optimized 1218 和 UNA-Cybertron-7B-v3-OMA。强调了模型量化工作、对模型污染的担忧以及模型基准测试结果,并附带了相关模型卡和量化版本的链接。
- 关于用于叙事的最佳开源 AI、4GB Sparse Mixtral 的状态、Openchatdev 的状态,以及在 #ask-about-llms 频道中询问如何使用 token logits 检测 LLM 幻觉的有趣用户查询。
Nous Research AI 频道总结
▷ #ctx-length-research (46 条消息🔥):
- Knowledge Mapper 讨论:
@yuchenlu发起了关于 knowledge mappers 概念的深入讨论,@gabriel_syme、@fullstack6209和@maxwellandrews等用户也参与其中。他们思考这是否涉及类似于用于查询本地内存的图表示的 transformation or extraction process。@maxwellandrews建议将其作为一个 sliding-window Local Language Model (LLM),将原始文本中的实体关系解析为 knowledge graph。他们提出了一种“逐句”阅读文档的方法,并在 LLM “阅读”文档时在图数据库中构建详细的语义图谱,而不是尝试一次性构建整个图谱。 - LLM 在图谱中的作用:讨论了使用 LLM 从文本构建图谱的作用。其目的是允许小型且快速的 LLM 将大型上下文构建到图谱中,而无需将其保存在模型内存中。这将创建 stateful knowledge,可以独立于模型缓存进行存储和分页。
- 神经网络微调:他们仔细考虑了是否有必要在 Cypher 之类的语言上微调语言模型,以处理图谱的提取和更新,这一话题是在
@benxh建议手动进行提取,然后训练像 Mamba 或 recurrent walking knowledge vector (RWKV) 这样具有 300k 上下文的模型来输出关系图时提出的。 - Sliding Window Retrieval:
@gabriel_syme透露他们正在测试 sliding window retrieval,@maxwellandrews澄清说,该过程涉及逐句构建图谱,而不是将整个文档塞进 prompt 中。 - 图谱构建的实际层面:还讨论了构建图谱的一些实际层面。
@gabriel_syme询问了关于将三元组或笔记提取到document 'node'中的问题。共识似乎是通过 LLM 提取三元组,允许模型决定提取多少个三元组并编写 CRUD(创建、读取、更新和删除)语句。设想模型将用户的自然语言查询结构化为可由图数据库解释的结构化查询。
▷ #off-topic (2 条消息):
- 寻求沉浸式 LLM 聊天项目合作:用户
@tofhunterrr正在寻找合作伙伴或联合创始人,共同开发一款用于沉浸式 LLM 聊天的原生应用,包括角色扮演提示词。他们正在构建内置 JOI (mistral-small) 的资源,支持语音对话 (neets.io)、听觉 (whisper) 以及执行搜索 (pplx)、拍照 (fal) 等 function calls。该项目将为提示词编写者和模型构建者提供一个赚取收入的商店。目前这是一个无薪机会,目标是打造一家“独角兽”公司。项目蓝图可以在此链接找到。 - Bing Chat 推荐:
@giftedgummybee提供了一条神秘的信息,建议使用 Bing Chat。消息中未提供进一步的背景或说明。
▷ #benchmarks-log (1 条消息):
teknium: 这只是 eval harness 的另一种形式吗?它有什么优势?
▷ #interesting-links (22 条消息🔥):
新模型与工具
@metaldragon01分享了一条与 AI 模型相关的 推文,但未说明具体内容。@nonameusr发布了关于 LoneStriker/una-xaberius-34b-v1beta-4.0bpw-h6-exl2 的消息,这是一个在 HuggingFace 上的文本生成模型。@atgctg创建了一个允许与 Mixtral base model 进行聊天交互的网站,访问地址在这里。
HumanEval 测试数据实验:
@tokenbender和@atgctg讨论了在 HumanEval 测试数据上训练的模型在 HumanEval plus 或 HumanEval-x 基准测试中的表现,并决定合作合并 Lora 并进行测试。他们使用了基础模型mistralai/Mistral-7B-v0.1。@atgctg随后在 HuggingFace 上分享了 overfit-humaneval 模型用于测试。
关于 LLM 数据污染的讨论:
@nonameusr关注了一篇关于 HuggingFace 社区排行榜上表现优异的开源 LLM 数据污染 问题的博客文章,特别提到了 una-cybertron-7B-v2 模型。
模型训练中的语义重复
@euclaise分享了一篇关于在教授语言模型基础事实时存在的 语义重复 问题的博客文章,认为这不属于污染。
▷ #general (321 messages🔥🔥):
@n8programs和@propback讨论了 Openchat 3.5 1210 的性能,包括 tokenizer 的问题和一般性问题。他们链接到了 Hugging Face 上的模型卡片。@nonameusr和其他人辩论了 Mistral-Ft-Optimized 1218 模型的性能声明,以及它声称击败 GPT-4 的准确性。他们对这一说法持怀疑态度,因为它只是一个 7B(十亿参数)的微调模型。Mistral-Ft-Optimized 1218模型卡片@mihai4256分享了合并两个基于相同数据集微调的模型可以显著改善结果,尽管他们承认不明白其中的原因。这次讨论促使其他人(@teilom、@metaldragon01等)考虑尝试类似的实验。@nonameusr和@n8programs讨论了 UNA-Cybertron-7B-v3-OMA 的性能,并推测它可能会击败之前讨论的其他模型。- 模型量化与上传:
@n8programs和@tsunemoto致力于将 Mistral-Ft-Optimized 1218 模型量化为 GGUF 格式。两位用户都在 Hugging Face 上上传了他们的量化版本。(n8programs的 GGUF 版本:链接,tsunemoto的 GGUF 版本:链接)。 - 模型污染担忧:
@nonameusr建议对新发布的模型运行污染检查,特别是提醒注意 WizardLM 的模型,据称该模型已被污染。 - AI 音乐创作:
@nonameusr分享了 Suno AI 的链接,这是一个用于创作 AI 生成音乐的平台。随后没有展开深入讨论。 - 基准测试结果:
@teknium发布了一个图表链接,展示了根据 Hermes Instruct Model (v2.5 & v3) 的 MISTRAL、Yagi-ChatGPT-3.5 和 GPT-4 的排行榜排名。图表显示这四者的性能相对接近。
▷ #ask-about-llms (4 messages):
- 讲故事的最佳开源 AI:用户
@agcobra1征求关于讲故事的最佳开源 AI 的建议。 - 4GB Sparse Mixtral 的更新:用户
@yobibyte寻求关于 4GB Sparse Mixtral 状态的更新,并指出目前还没有收到任何消息。 - Openchatdev 状态:
@realsedlyf分享了 Openchatdev 状态的链接。 - 使用 token logits 检测 LLM 幻觉:
@giulio123456询问是否有人知道有论文探讨使用 token logits 来检测语言模型 (LLM) 的幻觉。
OpenAccess AI Collective (axolotl) Discord Summary
- 关于 Axolotl 缺乏量化 的讨论由
@nanobitz进行了澄清,提到了合并脚本中的一个默认参数。 @284810978552578050的 Mixtral 模型在 Fireship 上被推荐 并获得了大量观看,这一成就被@le_mess和@faldore提及。- 关于 Mixtral Model of Experts (MoE) 各个方面的丰富技术探讨,重点包括基于层和 token 的路由、不均匀的训练分布,以及潜在的微调对专家正交性的影响。
- 几起关于设置 Axolotl 环境 的故障排除和建议,Docker 容器是一个值得注意的解决方案;由
@hamelh提及。 @faldore分享了关于 模型微调 成本和资源的见解,并提到了 Azure 的初创企业计划。@noobmaster29、@dangfutures和@self.1提出了几个关于 在较短上下文长度下进行微调、创建多轮 ShareGPT 模型以及多轮数据集应用的问题。@self.1提供了一个多轮 ShareGPT 模型的示例,特别指向了LDJnr/Puffin。@natefyi_30842推荐了一个 多轮对话数据集,建议使用 LMSys Chat 1M 数据集,访问前需签署用户协议。@mr_morning表达了在安装 mpi4py 时遇到的问题,特别是在 RTX 6000 Ada 上。
OpenAccess AI Collective (axolotl) Channel Summaries
▷ #general (17 条消息🔥):
- Axolotl 量化讨论:
@nanobitz澄清说 Axolotl 不进行量化。即使在 merge 期间提供了该参数,它也会被设置为 False。脚本中的该参数作为一个默认的兜底项(catch-all),是最近的一项更改。 - Fireship 上的 Mixtral 模型专题:
@le_mess通知社区,@284810978552578050的 Mixtral 模型在 Fireship 上被专题介绍,在 11 小时内获得了 50 万次观看。@faldore确认该模型可能是 dolphin 版本。 - 该频道分享了一条
@yamashi可能会感兴趣的推文。推文链接见此处。
▷ #axolotl-dev (103 条消息🔥🔥):
- Mixtral 专家混合模型 (MoE) 讨论:用户
@nafnlaus00澄清说,在 Mixtral 中,路由(routing)是按层按 token 进行的。@kalomaze讨论了在 MoE 中按 token 处理专家的想法,而@nafnlaus00强调了 MoE 中不均匀训练分布的必要性。 - 模型微调讨论:
@fernando.fernandes.分享了他的推测,认为 Mixtral 微调版本质量下降的原因是 fine-tuning 过程影响了每一层中各专家之间的正交性(orthogonal),使它们变得不再那么互补。他建议冻结路由门控(routing gates),并通过 weight decay 等措施增加正则化(regularization),以帮助实现更具正交性的专家。同时也指定了需要冻结的门控路径。 - 设置 Axolotl 环境:
@hamelh在设置 Axolotl 环境和运行单元测试时遇到问题,错误与flash_attention和缺失模块有关。提出了各种潜在的解决方案,包括重新安装 flash attention、从另一个实例复制整个工作环境,以及使用 Python 3.10 而不是 3.11。建议使用 Docker 容器,这似乎部分解决了问题。 - 模型微调的成本和资源:
@faldore透露,在 Azure 上进行一次典型的 fine-tuning 练习大约花费 800 美元。他还提到了 Azure 为初创公司提供的一个项目,该项目提供 5000 美元的额度。
▷ #general-help (6 条消息):
- 在较短上下文长度下进行微调:
@noobmaster29询问在较短上下文长度下微调的模型是否仅在新的较短上下文长度下有效。 - 创建多轮 ShareGPT 模型:
@dangfutures表示有兴趣了解如何创建多轮 ShareGPT 模型。@self.1建议使用脚本以相同的 ShareGPT 格式保存数据。 - 多轮数据集的使用:
@self.1提到他们使用了多轮数据集,并表示将更多地关注这种方法。 - 多轮 ShareGPT 模型示例:
@self.1提供了一个多轮 ShareGPT 模型的示例,特别是LDJnr/Puffin。
▷ #datasets (2 条消息):
- 多轮对话数据集查询:用户
@natefyi_30842询问人类与聊天机器人之间的多轮对话数据集。 - LMSys Chat 1M 数据集建议:
@natefyi_30842随后推荐了来自 Hugging Face 的 LMSys Chat 1M 数据集,并提到由于其条款要求,需要用户同意才能访问。该数据集是一个大规模的真实世界 Language Model 对话资源。
▷ #runpod-help (1 条消息):
- mpi4py 安装问题:用户
@mr_morning表示在安装 mpi4py 及其依赖项时遇到问题,引用了 “Cannot link MPI programs. Check your configuration!!!” 错误消息。值得注意的是,这个问题似乎在两块 4090 上不会出现,仅在 RTX 6000 Ada 上出现。
Mistral Discord 总结
- 关于 CS 中高等数学必要性的辩论,重点关注概率论、线性代数和微积分 3。
- 关于创建 交互式 OpenAI 风格 Web 界面多用户解决方案的对话,分享了 Hugging Face 的 Chat UI 作为潜在解决方案;GitHub 链接:Hugging Face’s chat-ui。
- 讨论并解决 Mistral-7B-Instruct-v0.2 模型的问题,涉及通过调整 stop-word 来解决。
- 讨论将 QMoE 整合到 Mixtral 中,并提供了一个讨论 QMoE 支持难度的 GitHub 资源:GitHub issue。
- 分析了 safe_mode=false 对 OpenAI API 进行 NSFW 创意写作的影响,并提出了在不使用 safe_mode 的情况下获得更好结果的建议。
- 有兴趣了解神经元在 ANN 中如何交互,并提供了 3Blue1Brown 的 YouTube 视频资源进行说明:3Blue1Brown’s video。
- 比较 Mistral-Medium 和 GPT-4 的性能,结论是 Mistral-medium 在新闻叙事追踪的高级推理方面优于 GPT-4。
- 对 小型模型返回内容中随机停止的担忧,并保证即将推出修复方案。
- 探索为缺乏足够算力的用户提供免费 API 调用服务以对 Mistral 或专家模型进行推理的可能性,OpenRouter 的服务提供了一个可能的解决方案:OpenRouter’s service。
- 围绕 部署 Mistral 的硬件要求进行讨论,根据 Mistral 和 Hugging Face 文档,建议原始版本使用 2 个 A100 GPU,4-bit 量化版本使用单个 A100 GPU:
- 关于使用 Mistral API 进行推理时的消息格式化以及 HF chat template 使用的查询。提供的澄清链接包括 Mistral’s Documentation 和 Hugging Face 上的示例。
- 讨论在微调 Mistral 7b 时冻结某些专家的可能性,并辩论了这种方法的效率。
- 展示了一个 开源版本的 OpenAI Assistants API,提供 100% 的数据隐私、成本效益和更高的吞吐量。该模型支持检索、函数调用和代码解释等功能,旨在实现可定制化和最小化硬编码。分享的 GitHub 资源:GitHub - stellar-amenities/assistants
- 关于对 Mistral AI 网站误解以及对声望渴望的幽默闲聊。
- 用户报告了 Mistral AI 平台上的 API 速率限制问题,随后讨论了可能的原因和修复方法。
- 计划构建一个用于编排库的 Mixtral 连接器,暗示未来可能出现 Mixtral 集群(swarms)。
- 关于 系统消息的消息格式 的问题和澄清,参考了 LLaMA-2 格式和讨论聊天模板效率的 Reddit 帖子。
- 关于 Mistral-small 模型 的详细用户体验,讨论了总结 5000 个 token 时的差异,并探索了提高模型性能的可能微调技术。
Mistral 频道总结
▷ #general (28 条消息🔥):
- 关于在 CS 中使用高等数学的讨论:用户
@sirmonkey5216建议不要修读数学/CS 双学位,认为高等数学大多没用。然而,他们强调了掌握概率论、线性代数和一点 Calc 3 知识的重要性,而许多 CS 课程本身就已经包含了这些内容。 - 交互式 OpenAI 风格 Web 界面的多用户解决方案:
@.panzerknacker.寻求类似于 Serge 的解决方案,以便办公室里的多个用户可以尝试 AI 模型而不会看到彼此的 Prompt。@freegheist建议使用 Hugging Face 的开源 Chat UI,可在 GitHub 上找到。 - 模型 Mistral-7B-Instruct-v0.2 的问题:
@tomaspsenicka报告在使用该版本时一直遇到问题。不过,他们发现调整停止词(stop words)后问题得到了解决。 - 针对 Mixtral 的 QMoE 可能的研究进展:
@rosethelocalfemboy询问是否有人正在为 Mixtral 开发 QMoE。讨论引导@daain指向了 GitHub 上讨论 QMoE 支持难度的资源,链接。 - API 中的 Guard Rails 与 NSFW 内容:
@jamiecropley询问在safe_mode=false时,是否可以使用 API 进行 NSFW 创意写作。@lerela回应称,不使用 safe_mode 可能会获得更好的结果。 - 理解 ANN 中单个神经元的代码:
@josefmo表示有兴趣了解单个神经元的代码以及两个神经元在 ANN 中是如何交互的。@someone13574澄清说,在 ML 中,从一层到另一层的整个操作通常被实现为矩阵乘法(matrix multiplication),并推荐了一个 YouTube 资源。
▷ #models (6 条消息):
- Mistral-Medium 与 GPT-4 的性能对比:用户
@freqai分享说,在他们的测试中,Mistral-medium 在新闻叙事追踪的高级推理使用场景下表现优于 GPT-4。 - 小型模型返回内容随机停止的问题:
@moneybags0197报告在主要进行文本摘要时,遇到了小型模型随机停止消息返回的情况。这发生在未达到 Token 限制且随机请求的情况下。@lerela确认了此问题,并保证将在本周内发布修复程序。 - Mistral 模型推理的免费 API 选项:
@sk5544询问是否有免费的 API 调用服务来对 Mistral 或专家模型进行推理,因为他们在学术界缺乏下载这些模型的计算能力。@jakobdylanc提供了一个潜在方案,指向了 OpenRouter 的服务,注册账号后应该可以免费使用 Mistral 模型的推理服务 [更多信息]。
▷ #deployment (6 条消息):
- Ollama 的本地部署:用户
@sirclavin询问 Ollama 是否完全是本地的。在讨论的消息中未给出回应。 - 命令行帮助选项:
@usuallycwdillon对使用--help命令行选项的指导表示感谢,表示他们最初忽略了该功能。 - 部署 Mistral 的硬件要求:
@cadavreux询问部署 Mistral 所需的硬件。@ved_ikke评论说可能需要 48GB RAM,而@eguee建议 4-bit 版本可能需要约 21GB。@vhariational提供了来自 Mistral 和 Hugging Face 文档的更多细节,建议原始版本使用 2 个 A100 GPU,并指出 单个 A100 GPU 足以运行 4-bit 量化版本。
▷ #ref-implem (4 messages):
- Mistral API 推理与 Prompt 模板化:
@energetic_sparrow_28915询问在使用 Mistral API 进行推理时,是否需要根据 Mistral 建议的模板来格式化消息。他们还询问了在使用 HF chat template 时模型的格式。 - 关于 Mistral API 和模板化的回复:
@vhariational澄清说,在使用 API 时,不需要显式传递特殊 token,因为这会像其他 LLM-as-API 服务 一样在内部处理。transformers 库应用的 chat template 遵循 Mistral 提供的文档。提供的链接包括 Mistral 文档 和 Hugging Face 上的示例。 - 关于 BOS Token:
@energetic_sparrow_28915提到官方文档指出 BOS token 后有一个空格,而 HF template 没有提供,并请求澄清。 - 链接到之前的讨论:
@vhariational指出了同一频道中之前解决过 BOS token 问题的讨论。分享了之前对话的 参考片段。
▷ #finetuning (5 messages):
- Tokenizer Pad Token 解决方案:用户
@krissayrose找到了一个 tokenizer 问题的变通方法,即设置tokenizer.pad_token = '[PAD]'而不是使用tokenizer.eos_token。他们表示有兴趣了解是否有更好的潜在解决方案。 - 在 Mistral 7b 微调中冻结 Expert:用户
@alexworteega询问在微调 Mistral 7b 时,是否可以冻结除两个之外的所有 expert。 - 关于冻结 Expert 的观点:
@energetic_sparrow_28915建议冻结特定的 MLP 层可能不是微调的最佳方法,暗示这可能会降低使用 MoE (Mixture of Experts) 模型的优势。 - 使用少量 Expert 的好处:
@alexworteega重申,根据 st moe 和 switch 原则,仅使用少量 expert 不会导致显著的质量下降。 - 关于 MoE 使用的澄清:
@energetic_sparrow_28915解释说,MoE 背后的理念是利用稀疏网络进行学习,这意味着在任何时候都只使用由路由/门控机制确定的少数几个 expert。
▷ #showcase (2 messages):
- Open Source Version of OpenAI Assistants API:用户
@louis030195分享了他们关于 OpenAI Assistants API 开源版本的工作。该版本允许用户只需更改一行代码即可切换到开源 LLM。强调的主要优势包括:100% 数据隐私、成本降低高达 75%、吞吐量提高多达 23 倍。它支持检索、function calling 和 code interpreter 等功能,并可与 Mistral LLM 或任何其他此类模型配合使用。他还分享了该项目的 GitHub 仓库链接 (GitHub - stellar-amenities/assistants),并邀请大家为这个开源项目做贡献,提到代码库使用 Rust 编写,而示例通常使用 JS。他的目标是使所有 prompt 均可自定义,并在尽量减少硬编码的情况下复制 OpenAI API 的设计。
▷ #random (9 messages🔥):
- 对 Mistral AI 网站的误解:
@ben_arwd分享了一个幽默的轶事,他的 CMO 难以理解 Mistral AI 网站,暗示了该平台的复杂性。@mrobino评论说,Mistral 主要针对开发者,并非为普通人设计。 - 对声望的渴望:
@tonic_1开玩笑说渴望在服务器上拥有橙色名字,以便在周六晚上炫耀。 - 公司进展讨论:
@titaux12为一家在头六个月内就产生收入(尽管规模较小)的年轻公司的进展进行了辩护。 - 关于 Mistral 和 Transformers 使用中 GPU 核心差异的查询:
@pier1337询问了在 Mac Silicon 上使用 16 核与 19 核 GPU 运行 Mistral 和 transformers 的区别,并询问了是否有针对 Nvidia 的基准测试。
▷ #la-plateforme (22 messages🔥):
-
Plateforme 的可用性:
@dafrenchfrog询问了关于 Mistral AI 平台对新客户可用性的信息。@lerela确认很快将开放访问权限。 -
API Rate Limit 问题:
@flopsy1报告遇到了 API 速率限制错误,尽管他们认为使用的 tokens 少于允许的数量。@lerela澄清说,如果账户超过了当前的用量限制,也可能出现此错误,并表示如果提供 Profile ID,将进一步调查。 -
构建 Mixtral 连接器:
@tonic_1宣布计划在他们喜欢的编排库上开发 Mixtral 连接器,暗示在不久的将来创建 Mixtral swarms 的可能性。他们邀请感兴趣的人士加入其 Discord 服务器上的活动。 -
系统消息的聊天格式:
@sekstini询问了系统消息的聊天格式,并提供了相关 Hugging Face 配置的链接。@sekstini和@nioned还引用了 LLaMA-2 格式以及讨论不同聊天模板有效性的 Reddit 帖子。 -
Mistral-Small 模型性能:
@sublimatorniq分享了他们使用 Mistral-small 模型的经验,指出在处理约 5000 tokens 的总结任务时结果各异。他们无法找到每个模型的上下文长度,并报告了成功的 API 调用。其他用户讨论了可能的 finetuning 问题以及提高模型性能的技术。
HuggingFace Discord Discord 摘要
- 关于在小型硬件上运行 AI 模型的活跃对话,例如 phi-2 和 Mixtral,强调了由于硬件限制而进行改进的必要性。
- 记录了几个技术问题,包括:在 fine-tuning 模型时,2x A10G GPU 配置出现 NCCL 运行时错误;关于在 embeddings 中处理产品描述里的 HTML 标签的问题(参考 all-MiniLM-L6-v2);关于 LLM 模型训练相关的内存管理和存储问题。
- 讨论了 AI 交互中的社会细微差别,特别是机器人响应中的性别差异,突显了公众对 AI 这一方面的关注。
onceabeginner正在学习用于图像生成的 Unet,而hoang12345在观看 Tom Graham 的 TED 演讲(题为“Deepfakes 令人难以置信的创造力——以及 AI 令人担忧的未来”)后,正在探索 AI 的创意和令人担忧的方面。- 展开了关于在 modern_nlp_2 GitHub 仓库中包含某些资源以及嵌入生活事件的讨论,参考了这篇 Nature 文章中讨论的方法。
- 分享的作品包括由
@.bigdookie制作的一首歌曲,融合了吉他、beatbox 以及来自 MusicGen 的音乐延续;@cloudhu建议在 “awesome-repos.md” 中添加内容;以及来自 Manifold Research group 的@thebigbigbuddha(来自 Manifold 的 Sidh)的更新。 #[diffusion-discussions]中的查询涉及 diffusion models 的应用,如修改面部图像和 outpainting,并参考了 huggingface/diffusers GitHub 仓库。@noamgat询问如何解决在 tokenizer 中以 O(1) 时间向已解码的 token 流添加 token 的问题。该问题的核心在于处理 Unicode 序列和#[NLP]中新词空格等边缘情况时的性能担忧。
HuggingFace Discord 频道摘要
▷ #general (57 messages🔥🔥):
- 在更小的硬件上运行模型:
@vipitis在一系列消息中讨论了让 AI 模型在更小硬件上运行的进展,显著的解决方案包括 Quantization(量化)以及在基准测试中表现良好的小参数量模型的可用性。他们提到了 phi-2 和 Mixtral 等模型作为例子,并说明了硬件限制如何迫使这些技术进步。然而,用户也指出仍然需要一定的硬件基础。 - 关于多 GPU 配置训练的问题:用户
@blahblah6407报告了在尝试使用 2x A10G GPU 微调模型时出现 Runtime error NCCL,而之前在单张 A100 GPU 上运行正常。他们正在寻求解决该问题的建议。 - 关于与机器人互动的查询:
@steamy_noodles提出了一个关于女性机器人回复的问题,这暗示了公众也在聊天中讨论 AI 互动的社会细微差别。 - 关于在 Embedding 中使用 HTML 标签的讨论:
@swastikk询问在使用 all-MiniLM-L6-v2 时,产品描述中的 HTML 标签是否会提高 Embedding 的质量。 - 训练 LLM 模型与内存:用户
@lookingforspeed提出了几个与训练 LLM 模型相关的查询,包括模型的内存工作原理、训练后的模型如何存储,以及在断电情况下模型是否会丢失。
▷ #today-im-learning (3 messages):
- 用于图像生成的 Unet:
onceabeginner分享了他们正在学习如何使用 Unet 进行图像生成。 - Deepfakes 的创造力与 AI 的未来:
hoang12345在观看了一段名为《Deepfakes 令人难以置信的创造力——以及 AI 令人担忧的未来》(讲者 Tom Graham)的 TED 演讲后表达了震惊和担忧。视频可以在这里找到。
▷ #cool-finds (3 messages):
- 对 modern_nlp_2 仓库的贡献:
@cloudhu建议在 modern_nlp_2 GitHub 仓库的 awesome-repos.md 文件中添加内容。未提及关于添加内容的进一步细节。 - 生活事件的 Embedding:
@toronello分享了一篇 Nature 文章,讨论了一种在单一向量空间中创建生活事件 Embedding 的方法。这种方法可以预测不同的生活事件结果。 - 置顶请求:
@tonic_1请求某人置顶一条消息。但是,未指定具体要置顶哪条消息。
▷ #i-made-this (5 messages):
-
图像分类入门讲座:
@sumitsr71分享了一个关于 Image Classification(图像分类)入门讲座的链接。讲座涵盖了最近邻分类器、k-最近邻分类器、用于超参数调优的验证集等主题。 -
Modern NLP 仓库:
@cloudhu建议在@andysingal的 Modern NLP GitHub 仓库的 “awesome-repos.md” 文件中添加特定资源。 -
Manifold Research Group 更新:
@thebigbigbuddha(来自 Manifold 的 Sidh)在他们的研究日志中分享了 Manifold Research Group 的最新进展。他们正在开发大规模多模态“通用型”模型,并正在为一个新项目招聘人员,该项目专注于开发可在 GUI 界面和 API 上运行的最先进开源模型。 -
Alve_om 状态:
@om7059分享了 Alve_om 状态的链接,但未提供关于该状态内容的进一步信息。 -
AI 生成音乐:
@.bigdookie使用吉他、节奏口技(beatbox)以及来自 MusicGen 的音乐续写创作了一首歌曲。整个创作过程在一个晚上完成。
▷ #diffusion-discussions (5 messages):
- 使用 Diffusion 模型创建带有配饰的面部数据集:
@blvrxdnthnhv询问是否有可以为面部数据集添加帽子或头盔的 Diffusion 模型。他们表示目前的 Stable Diffusion Inpainting 方法无法保留面部细节。 - 关于 Meta-Learning 的问题:
@bouncingsealooo询问特定的训练过程是否可以被视为 Meta-Learning。具体来说,他们描述了一种场景:使用 MAML 在元数据集上预训练模型,然后在目标数据集上进一步训练模型并获得了更好的结果。 - 面部修改资源:
@asrielhan分享了一个资源(Ziqiao Ma 的推文),其中的演示视频展示了在面部图像上添加帽子的功能。 - ControlNet Inpainting 咨询:
@abstruse9851发布了一个关于在使用"lllyasviel/control_v11p_sd15_inpaint"和"runwayml/stable-diffusion-inpainting"模型进行 ControlNet Inpainting 时,应该使用哪种类型的 Conditioning Image 的问题。 - Outpainting 寻求帮助:
@d222097_请求关于使用 sd/sd-inpainting 模型进行 Outpainting 的建议,并分享了 huggingface/diffusers GitHub 仓库中关于该话题的一个公开 Issue。他们对训练期间的模型输入以及对未知区域缺乏约束感到困惑。
▷ #NLP (3 messages):
- 解码长 Token 流的性能问题:用户
@noamgat提出了关于长 Token 流解码的担忧,特别是寻找一种在 O(1) 时间内将 Token 添加到已解码 Token 流的方法。他们的兴趣点在于 Tokenizer,而不是整个模型。必须考虑 Unicode 序列和新词空格等边缘情况。@vipitis进一步澄清了解码问题是涉及整个模型还是仅涉及 Tokenizer。
▷ #diffusion-discussions (5 messages):
- 用于修改面部图像的 Diffusion 模型:
@blvrxdnthnhv询问是否有可以将帽子或头盔叠加到现有面部图像上的 Diffusion 模型。他们尝试过使用 Stable Diffusion Inpainting,但无法妥善保留面部细节。 - Meta-Learning 与 Pretraining 的对比:
@bouncingsealooo提出了一个区分 Meta-Learning 和 Pretraining 的疑问。他们询问,如果一个模型最初使用 MAML 方法在元数据集上训练了 50 个 Epoch,然后在目标数据上进一步训练了 600 个 Epoch,并获得了比没有 MAML 的模型更好的结果,这是否可以被视为 Meta-Learning 的应用。 - ControlNet 模型 Conditioning:
@abstruse9851询问在配合主模型"runwayml/stable-diffusion-inpainting"使用 ControlNet 模型"lllyasviel/control_v11p_sd15_inpaint"时,应使用哪种类型的 Conditioning Image。 - 使用 sd/sd-inpainting 模型进行 Outpainting:
@d222097_寻求关于使用 sd/sd-inpainting 模型进行 Outpainting 的帮助。他们对模型在训练阶段的输入表示不确定。
LangChain AI Discord 总结
- SQL 虚拟数据库:用户
@alewe5寻求社区帮助,解决 SQL 虚拟数据库的相关问题。 - 使用 LLM 进行任务规划:
@sampson7786咨询了关于在特定业务领域应用 LLM 进行任务规划的问题。 - 编写 Prompt 的查询:
@kelp710询问了编写 Prompt 的最佳实践,特别是针对非英语语言。 - LangChain 与 Blockchain:
@emreweb3探讨了 LangChain 与 Blockchain 之间的关系及可能的合作,@lhc1921指出了开源贡献的方法。 - Pinecone 数据库与 LLM 问题:
@kingkkaktus和@nakhlarafi分别讨论了 Pinecone 数据库查询问题以及 LLM 处理大数据时的 Token 限制。 - Ollama 幻觉问题:用户
@baller.1337报告了一个关于 Ollama 对提供代码产生幻觉的异常情况。 - LangChain Agents 与 Llama Index Agent 架构:
@.psychickoala询问了这些架构之间的差异和个人使用经验。 - 流式聊天响应集成:用户
@pradeepvj97寻求帮助,以集成并修复与 PDF 交互的流式聊天响应问题。 - Manifold Research Group 更新:由
@thebigbigbuddha分享,详细介绍了该小组的进展更新、研究日志链接、新项目招募通知及相关资源 - Research Log, Discord Channel, GitHub resources。 - Langchain Expression Language (LCEL) 演示:
@merkle在 YouTube 上分享了 LCEL 的视频教程,深入探讨了其运行机制,并列举了优缺点。
LangChain AI 频道总结
▷ #general (31 条消息🔥):
- 在 SQL 中使用虚拟数据库:
@alewe5正在寻求关于在 SQL 中使用虚拟数据库的反馈,因为他们遇到了问题。 - 使用 LLM 进行任务规划:
@sampson7786询问了在特定业务领域使用 LLM 进行任务规划的问题。 - 关于编写 Prompt 的问题:
@kelp710想知道是用英语编写 Prompt 并让其返回母语更准确,还是直接用母语编写 Prompt 更准确。 - LangChain 与 Blockchain 合作伙伴关系:
@emreweb3询问 LangChain 作为一个开源项目是否愿意进行 Blockchain 合作。@lhc1921建议通过 Pull Request 为特定功能贡献代码。 - Pinecone 数据库问题:
@kingkkaktus在尝试查询其 Pinecone 数据库时寻求帮助,并分享了报错的代码。 - LLM 处理大数据时的 Token 限制问题:
@nakhlarafi作为 LLM 和 LangChain 的新用户,提出了处理大数据时的 Token 限制挑战。@kingkkaktus建议使用像 Pinecone 这样的向量数据库。 - Ollama 的幻觉问题:
@baller.1337报告了 Ollama 总是产生幻觉的问题并分享了他们的代码。 - LangChain Agents 与 Llama Index Agent 架构的经验:
@.psychickoala询问了社区对不同 Agent 架构的经验,并咨询了关于添加先前上下文/记忆的问题。
▷ #langchain-templates (1 条消息):
- 流式聊天响应集成:用户
@pradeepvj97分享了一段代码片段,尝试使用ChatOpenAI和内存中的对话实体,将流式聊天响应与其现有的 PDF 交互代码集成。然而,他们表示在流式传输 Token 时遇到问题并寻求修复帮助。
▷ #share-your-work (2 条消息):
- Manifold Research Group 更新:来自 Manifold 的
@thebigbigbuddha在研究日志中分享了小组的最新进展,可以在这里查看。该小组还在为一个新项目招募人员,该项目专注于用于 GUI 界面和 API 使用的前沿 (SoTA) OS 模型,鼓励感兴趣的人通过他们的 Discord 频道参与或查看其 GitHub 上的工作。 - Langchain Expression Language (LCEL) 演示:
@merkle分享了一个 YouTube 视频,提供了 Langchain Expression Language (LCEL) 的演示,深入探讨了其用法并分析了实现的优缺点。
LLM Perf Enthusiasts AI Discord 总结
- 用户询问了正在使用的 Agent 抽象 类型,包括 LangChain 与 Lllama index 的对比。
- OpenRouter 因其高效性获得了高度评价和推荐。
- 重点介绍了 LM Studio 的功能和使用,赞扬了其在搜索、下载模型以及开放 Chat API 端点方面的便捷性。
- 提出了使用 BM25 的 Hybrid Retrieval 概念,并在 博客文章 中分享了推荐的改进方案。
- 讨论了使用 gpt-4-turbo 进行高效 Document Extraction 的策略。提议将提取过程分为两个不同的 Prompt,分别针对通用字段和文档特定字段,因为它们之间没有父子依赖关系。反馈建议要么将两组数据字段放在一起,要么根据逻辑关系进行拆分。
LLM Perf Enthusiasts AI 频道总结
▷ #general (1 条消息):
.psychickoala: 你们都在用哪种 Agent 抽象?LangChain 还是 Lllama index 的?
▷ #opensource (5 条消息):
-
OpenRouter 推荐:
@joshcho_分享了他对 OpenRouter 的高度评价,称其“非常棒”。 -
LM Studio 体验:
@joshcho_分享了使用 LM Studio 的积极体验,认为它在处理本地模型时极其方便。 -
LM Studio 功能:他继续强调了 LM Studio 的功能,如轻松搜索和下载模型,甚至能够开放 Chat API 端点,他形容这“太疯狂了”。
▷ #rag (1 条消息):
- 使用 BM25 的 Hybrid Retrieval:
@evan_04487提出了关于在 Hybrid Retrieval 过程中使用不带子词(subwords)的 BM25 的问题,并指出 LangChain 的 BM25 检索器默认不进行小写处理。他们分享了一篇 博客文章,详细介绍了可以在不需要额外 LLM 调用下增强 BM25 实现的简单改进。
▷ #prompting (4 条消息):
- 通过 gpt-4-turbo 进行文档提取:用户
@pantsforbirds分享了使用 gpt-4-turbo 进行 Document Extraction 的经验。他们观察到了很好的效果,但担心提取大量 JSON 字段可能会影响性能。 - 两组字段:
@pantsforbirds解释说他们的提取涉及两组字段——一组是所有文档共有的,另一组是特定于文档类型的。 - 分离提取 Prompt:为了优化性能,
@pantsforbirds建议将提取过程分为两个不同的 Prompt:一个用于通用字段,另一个用于文档特定字段。 - 字段间缺乏父子依赖:他们澄清说,虽然两组字段相关,但不存在直接的父子依赖关系。
- 关于分离想法的反馈:
@justahvee建议,如果两组数据字段之间存在逻辑关系,则应将它们放在一起;如果没有,最好将提取过程分开,因为生成的第一个部分可能会以不希望的方式影响后续部分。
Latent Space Discord 总结
- 社区询问并讨论了 Mixtral 的访问权限,
@swyxio表示多家公司正在这一市场展开竞争。 @swyxio强调了 Etched 最近的软启动以及他们为 Mixtral 创建的可视化,并引用了 Kevin A. Fischer 的推文。- 据
@swyxio透露,发布了一个专注于网络安全的新 LLAMA2 微调版本,引用了 Miguel Tissera 的推文。 - 社区对 HuggingFace 排行榜明显的操纵行为表示担忧,呼吁在修改模型和“讨论度日益增高的 UNA (Unique Neuron Attribution)”方面保持透明,
@swyxio提到了这一点并提供了 HuggingFace 讨论 的链接。
Latent Space 频道总结
▷ #ai-general-chat (6 messages):
- 获取 Mixtral 的途径:
@btdubbins提出了关于社区成员如何访问 Mixtral 的问题,询问是否有人在使用 Anyscale 调用。 - 竞争激烈的 Mixtral 市场:
@swyxio指出,目前有大约七家公司在竞争提供 Mixtral 服务,且都在价格和服务上互相压价。 - Etched 为 Mixtral 制作的可视化:
@swyxio分享了提供 Mixtral 服务的 Etched 公司已于几天前软启动,并转发了 Kevin A. Fischer 的推文,展示了他们为 Mixtral 制作的一个显著的可视化效果:https://fxtwitter.com/kevinafischer/status/1736893685940605436?s=46&t=90xQ8sGy63D2OtiaoGJuww。 - 用于网络安全的 LLAMA2 微调:
@swyxio指出,一个专门用于网络安全的 LLAMA2 新微调版本已发布,如 Miguel Tissera 的推文所示:https://fxtwitter.com/migtissera/status/1736946751440085320?s=46&t=90xQ8sGy63D2OtiaoGJuww。 - HuggingFace 排行榜的问题:
@swyxio详细阐述了 HuggingFace 排行榜被操纵的问题。一名匿名用户声称,有人利用领先的 Mistral 模型,添加了未知的 DPO,结果得分超过了任何 Llama 70b。人们对排行榜的可信度表示担忧,并呼吁提高透明度,特别是针对讨论越来越多的 UNA (Unique Neuron Attribution):https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/discussions/444。
▷ #llm-paper-club (2 messages):
提供的 Discord 聊天机器人消息中没有需要总结的主题、讨论点或感兴趣的链接/博客文章。
Skunkworks AI Discord 总结
- 询问 Mistralic 的训练数据,并对其性能给出了显著的好评,称其为 “…最好的模型之一”。
- 讨论将视觉模型与 Segment Anything 模型集成,以实现图像定位(image grounding)。一位用户请求关于如何实现这一目标的实用建议。
- 建议查看 LLaVA Plus 和 LLaVA Interactive 项目,这些项目利用 Grounded-Segment-Anything 仓库进行视觉问答(Visual Question Answering)和定位。
- 提醒注意实施上述项目可能存在的困难,因为之前遇到过相关问题。
Skunkworks AI 频道总结
▷ #general (1 messages):
- Mistralic 数据集查询:
@spirobel询问了 Mistralic 是在哪些数据集上训练的。他们还对其性能表达了正面评价,称其为 “…最好的模型之一”。
▷ #bakklava-1 (3 messages):
- 将视觉模型与 Segment Anything 模型合并用于图像定位:
@occupying_mars请求关于合并视觉模型与 Segment Anything 模型以识别物体及其坐标的建议。 - LLaVA Plus 和 LLaVA Interactive 项目:
@mrfoo建议研究 LLaVA Plus 和 LLaVA Interactive 项目。这些项目利用 Grounded-Segment-Anything 仓库进行视觉问答和定位。 - 项目实施问题:
@mrfoo还提到上述项目可能 难以实施,并引用了几周前遇到的问题。
DiscoResearch Discord 总结
-
讨论 Mixtral 训练过程中的 router learning(路由学习)。
@thooton解释了 top-k 在训练中的功能和重要性,强调 “梯度通过 top-k 专家和路由嵌入进行传播,因此路由器仍在学习(尽管不是一次性学习所有参数)”。 -
@propback提到了 Megablocks 项目。他在 GitHub 上分享了该项目的链接,并邀请大家为适配 Mixtral 实现的微调做出贡献。 -
leecig在 general 频道发表了一条无关评论,询问该频道的用途,表明对该频道的功能或目的存在一些困惑。
DiscoResearch 频道总结
▷ #mixtral_implementation (2 条消息):
-
路由学习 (Router Learning):
@thooton提到了在 Mixtral 的训练过程中使用了 top-k。他解释说:“梯度通过 top-k 专家和路由嵌入(router embeddings)进行传播,因此路由仍然在学习(尽管不是一次性学习所有参数)”。 -
Megablocks 项目:
@propback分享了 GitHub 上 Megablocks 项目 的链接,邀请参与者协助将其适配用于微调(fine-tuning),并指明了 Mixtral 的实现。
▷ #general (1 条消息):
leecig: 我忘了我为什么在这。这是什么地方?
AI Engineer Foundation Discord 摘要
只有一个频道有活动,因此无需总结…
- 企业的 AI 采用:用户
@juanreds发起了一场关于通过开发基于 AI 的应用和 Agent 来提高企业生产力并降低成本的讨论。他们向社区征求有关任何可能框架的建议。讨论线程可以在这里找到。
MLOps @Chipro Discord 摘要
只有一个频道有活动,因此无需总结…
erisianrite: 请移至 <#885998868200828928>
Alignment Lab AI Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。
YAIG (a16z Infra) Discord 没有新消息。如果该公会长时间没有动静,请告知我们,我们将将其移除。