ainews-12102023-not-much-happened-today
2023年12月10日:今天没发生什么特别的事。
Nous Research AI Discord 社区讨论了参加 NeurIPS 会议以及在澳大利亚组织未来 AI 活动的相关事宜。讨论亮点包括对开源和去中心化 AI 项目的浓厚兴趣,其中 Richard Blythman 正在寻找联合创始人。用户分享了 Photo GPT AI 等项目,并介绍了 StableLM Zephyr 3B。
基于 Mistral 的 Mixtral 模型引发了关于性能和 GPU 需求的辩论,社区将其与 GPT-3.5 进行了对比,并认为该模型在微调后可能具备与 GPT-4 竞争的潜力。在微调和评估方面,Tensorboard、Wandb 和 Llamahub 等工具被重点提及。讨论内容还涵盖了混合专家 (MoE) 架构、有限数据下的微调以及 ChatGPT 的推理优化策略。
此外,社区的梗图和互动中还提到了 Andrej Karpathy 和 Yann LeCun 等 AI 领域的知名人物。社区成员还分享了与这些模型和工具相关的 GitHub 链接及 YouTube 视频等资源。
虽是老生常谈,但今天是个清静的日子,大家都在动身前往 NeurIPS(我们也一样)。Andrej 在这里点名了一些 alpha 来源,我们正考虑加入它们,请告诉我们还有哪些 Reddit/Discord 频道或动漫头像的匿名用户值得关注。
swyx
[TOC]
Nous Research AI Discord 总结
- 成员们表达了参加 NeurIPS 并见面的兴趣,并对未来在澳大利亚举办 AI 活动提出了建议。
@richardblythman敦促那些对开源、去中心化 AI 项目感兴趣的人与其联系。用户们分享了自己的项目,例如@cyborg_1552的 photo GPT AI tool 以及@pradeep1148对 StableLM Zephyr 3B 的介绍。 - 用户
@gabriel_syme通过分享 GitHub 链接引发了关于 Mixtral 的关注。Mixtral 和 GPT-3.5 之间的性能对比引发了热烈讨论。@mihai4256发布了他们的微调模型 Pallas-0.2,可在 Hugging Face 上获取。一段讨论开源 LLM 使用的 Youtube 视频引起了简短的反响。 OpenHermes-2.5-neural-chat-v3-3-Slerp和 Mixtral 都因其性能表现而备受追捧,同时大家也在争论后者对 GPU 的要求。Tensorboard、Wandb、evalplus、llamahub等工具被认为对微调和评估模型非常有益。用户交流了在 Ollama 和 LM Studio 等模型托管平台上的使用体验,双方各持己见。- 由
@gabriel_syme发起的一场关于 MoE 的深入对话阐明了为什么基于 Mistral 的 Mixtral 模型与之前的实现有所不同。关于微调 LLM 的讨论表明数据需求有限。有人提出 Mixtral 在微调后有潜力与 GPT-4 竞争。@wlrd解释了开源 LLM 如何实现,并引出了 OpenHermes 2.5 - Mistral 7B 模型。关于 GPT-3.5 的推测认为它是一个 20B 模型,并预测其很快会开源。关于 ChatGPT 推理优化的讨论涉及了策略性批处理(strategic batching)、潜在缓存以及用户群规模。 - memes 频道中,成员们分享了各种表情符号和梗图,用于娱乐和交流。大家表达了对 Yann 和 Karpathy 等演讲者的特别关注。用户
@teknium幽默地将一个角色描述为对 x risk 深感忧虑。
Nous Research AI 频道总结
▷ #off-topic (19 条消息🔥):
- NeurIPS 聚会:
@blue_matcha询问是否有人参加 NeurIPS 并希望见面,@teknium表示他们可能在周四和周五有空。@gabriel_syme对 NeurIPS 总是选在美国表示失望,随后透露他们常驻澳大利亚。@gabriel_syme还提议明年在澳大利亚举办活动。
- 寻找开源和去中心化 AI 联合创始人:
@richardblythman正在为开源和去中心化 AI 领域的项目寻找联合创始人,并请感兴趣的人私信他们。
- 对澳大利亚 AI 会议的兴趣:
@deki04指出,人们对在澳大利亚举办 AI 会议会有很大兴趣,并提到 Jeremy Howard 在布里斯班举办的一场座无虚席的线下 fastAI 课程。
- Photo GPT AI 开发:
- StableLM Zephyr 3B 介绍:
@pradeep1148分享了一段介绍 StableLM Zephyr 3B(一种大语言模型)的 YouTube 视频。
▷ #benchmarks-log (1 条消息):
nonameusr: 我觉得他用了 Markdown
▷ #interesting-links (24 messages🔥):
-
关于 Mixtral 及其架构的讨论:
@gabriel_syme分享了一个 GitHub 链接 指向 MixtralKit —— 一个用于mixtral-8x7b-32kseqlen模型的工具包。@cyborgdream发布了一个 twitter 链接,分享了 Mixtral 在微调前就在 Benchmark 中超越了 GPT-3.5。随后的讨论涉及@nonameusr、@euclaise和@chhillee辩论 Mixtral 基于 Transformer 架构的优势和独特性。 -
新微调模型发布:
@mihai4256宣布发布了他们的微调模型 Pallas-0.2,托管在 Hugging Face 上。该模型是Tess-34B-v1.4的微调版本,专为推理任务设计,在长 System Prompts 下表现良好。 -
关于开源 LLM 使用的视频:
@teknium分享了一个 Youtube 视频,回答了“你应该使用开源大语言模型吗?”这一问题。@n8programs和@nonameusr对该问题给出了单字回答,但观点截然相反。
▷ #general (639 messages🔥🔥🔥):
-
微调与性能讨论:用户讨论了多个模型的微调和性能,包括 Hermes 2.5、Mistral 和 GPTs Agent。例如,
@nonameusr认为OpenHermes-2.5-neural-chat-v3-3-Slerp(绰号 “Slurpy”)在某些方面优于原始的Hermes,但也指出存在不一致性。几位用户还讨论了Mixtral(或Mixtral MoE)的性能,涉及其 GPU 需求以及量化(quantized)后的表现。 -
模型托管与管理平台:多位用户比较了使用 Ollama 和 LM Studio 托管和管理 AI 模型的经验。虽然一些用户更倾向于 Ollama,但其他人指出 LM Studio 可能更具可定制性,并能更好地支持更广泛的模型。
-
计算与训练资源:像
@vatsadev和@gabriel_syme这样的用户讨论了他们的计算资源,讨论还涉及了大学资源的潜力。 -
实用工具:讨论还涉及了各种工具,如
Tensorboard、Wandb、evalplus和llamahub,这些工具对于微调、测试和评估模型非常有用。 -
新模型与技术:频道中提到了新的模型和技术,如 “slerp”(在
OpenHermes-2.5-neural-chat-v3-3-Slerp的背景下)。一些用户还推测了Mixtral和StripedHyena模型,以及通过微调或合并(merging)策略进一步改进它们的潜力。最后,@ldj认为Mixtral在计算过程中选择“专家”(experts)的方法可能会影响其性能。
▷ #ask-about-llms (123 messages🔥🔥):
- Mixture of Experts (MoE) 讨论:用户
@akhxl、@cyborgdream和@gabriel_syme参与了关于 MoE 的对话。@akhxl最初对这项存在已久的技术突然走红表示困惑。@gabriel_syme解释称,之前的实现并未产生实用的模型,而基于 Mistral 的 Mixtral 已展现出实际应用价值。 - Finetuning Large Language Models (LLMs):在
@akhxl和@gabriel_syme的对话中,对 Finetuning 所需的数据量进行了澄清。@gabriel_syme指出,由于基础模型质量高且预训练数据充足,近期的进展并不需要大量数据即可 Finetune 出优秀的模型。随后@cyborgdream预测 Mixtral 在 Finetuning 后有望表现出与 GPT-4 相当的性能。 - 开源 LLMs 的使用:
@.plot和@wlrd就开源 LLMs 的获取和实现进行了交流。@wlrd指出模型权重是开源的,可以从 Hugging Face 获取,并提供了 OpenHermes 2.5 - Mistral 7B 模型的示例链接。 - GPT-3.5 Turbo 讨论:针对 GPT-3.5 Turbo 规格展开了细致讨论,主要参与者包括
@cyborgdream、@agcobra1和@n8programs。讨论范围涵盖了其与更小及更大模型的性能对比,@cyborgdream根据泄露的 G3PO 信息猜测该模型可能是 20B 模型,并预测其很快会开源发布。 - ChatGPT 的 Inference 优化:用户
@zohad_sikder发起了关于 ChatGPT 更快 Inference 潜在优化方案的讨论。@teknium、@bjoernp、@eas2535和@skadeskoten的推测包括:不太可能使用 Quantization,但可能采用了战略性的 Batching 以及针对常见问题的 Caching。针对 ChatGPT 的快速响应时间,@zohad_sikder假设其由于庞大的用户群而拥有强大的 Caching 机制。
▷ #memes (10 messages🔥):
- Meme 分享与回应:该频道的用户(即
@teknium和@Error.PDF)频繁分享表情符号和 Meme 回应。值得注意的包括 “Y not both” 和 <:pepeshy:1151280286345207819> 表情。 - 对特定演讲者的渴望:
@teknium表达了希望 Yann 和 Karpathy 等人进行演讲的愿望,引发了用户间的讨论。 - 人物评价:
@teknium对某位未具名人士发表了看法,将其定性为 “crazy psycho about x risk”(对生存风险极度狂热的疯子)。
OpenAI Discord 总结
- 一场围绕版权内容和 AI 背景下的 AI 偏见、道德和公平使用 (fair use) 话题的持续讨论。对话深入探讨了 Large Language Models (LLMs) 中的偏见和真理哲学等问题,并对 Google 的新 AI Gemini 以及 Mistral Instruct 和 gpt4all 等替代 AI 技术方案进行了推测。
- 成员参与了关于 GPT-4 的各种技术讨论,涉及“动态限制 (Dynamic Limits)”、等待名单时长、前缀提示词 (prefix prompt) 探索、ChatGPT 的性能和访问问题,以及不同设备间功能的差异。人们对 GPT-5 的开发和明年 GPT Store 的开业进行了推测。
- GPT 使用中的问题和改进一直是热门话题,用户对 GPT 的对话总结、GPT Builder 中缺失的功能,以及缺乏允许对 AI 回复进行行内编辑 (Inline editing) 或修剪 (trim) 的功能表示不满。同时,还进行了关于获取 ChatGPT 插件开发者权限、澄清 OpenAI 的服务条款 (Terms of Service) 以及对自定义 GPT (custom GPTs) 综合指南需求的讨论。
- 关于使用 GPT 进行游戏开发和聊天机器人性能的对话表明,人们对 AI 技术的潜在应用有着浓厚的兴趣。API key 生成过程中的验证码 (captcha) 问题、搜索特定对话以及感知的 GPT 输出变化,引发了关于 AI 系统当前局限性和改进领域的辩论。
- 该社区的一个显著话题是 Prompt Engineering,深入研究了情感语言的使用以及在 PPM 中人格化的实现。社区还深入探讨了文本分块 (text chunking)、嵌入 (embeddings) 和详细提示词创建等问题。分享的一系列针对 GPT-4、DALL-E 和浏览器工具的详细提示词指南和命令协议,反映了提升 AI 模型利用率的协作努力。
OpenAI 频道总结
▷ #ai-discussions (123 条消息🔥🔥):
- 关于 AI 偏见和道德的讨论:用户
@whynot66k20ni、@light.grey.labs、@solbus、@lhc1921就 Large Language Models (LLMs) 固有的偏见性质、真理哲学以及 AI 潜在的自我意识进行了深度对话。 - ChatGPT 的 AI 伦理和“公平使用”:
@.dooz、@lhc1921、@light.grey.labs讨论了版权内容和 AI 背景下的“公平使用”。.dooz建议对版权内容的转换性使用可以构成公平使用。 - 关于 OpenAI GPT Store 发布的讨论:
@lumirix分享了 GPT 创建者收到的一封邮件摘要,承诺在明年年初发布 GPT Store,并为 ChatGPT 提供其他重大更新。 - OpenAI ChatGPT 的替代方案:
@mysticmarks1为寻找替代聊天 AI 的@sneakobrah推荐了 Mistral Instruct 和 gpt4all 作为 OpenAI ChatGPT 的替代或补充。 - 关于 Google AI Gemini 的讨论:
@prajwal_345分享了一个关于 Google Gemini AI 的链接,暗示其是在压力下发布的,且在多项基准测试中表现优于 OpenAI 的 GPT-4。
▷ #openai-chatter (112 条消息🔥🔥):
-
GPT-4 动态限制与等待名单讨论:
@dr.youvi.avant询问了新的 GPT-4 “动态限制(Dynamic-Limits)”。@stefatorus提到解锁旧版 GPT 版本是可能的,但可能很昂贵,他的使用费用每月约为 200 欧元。@killer.5643询问了 GPT-4 等待名单的持续时间,@7877提到了即将推出的 GPT Store,@jonathan_91672分享说他等待了大约一个月才收到邀请。 -
GPT-4 Prefix Prompt 探索:
@israel_a4分享了来自 Wes Roth 的 YouTube 技巧,该技巧允许用户通过使用特定代码查看 GPT-4 的 Prefix 或 Secret Prompt。当被问及是否有防止此类行为的补丁时,@elektronisade表示目前没有此类计划,因为这是模型固有的运行机制。 -
ChatGPT 性能与访问问题:多位用户报告了 ChatGPT 的问题,
@mrcrack_提到了持续的网络错误以及 ADA 图像读取功能失效。@zz99mz提到域名完全无法加载的问题。@pruo表示他们的自定义指令(custom instructions)出现问题,@mrcrack_也对动态限制表示不满。 -
不同设备的功能差异:
@gd2x询问为何 Android 版 ChatGPT 缺少语音功能,@elektronisade将其归因于广告拦截器(adblocker)的使用。用户还讨论了 Android 和 iOS 版本之间可用功能的差异。 -
GPT-3 扩展与 GPT Store 预测:
@youraveragedev推测了 GPT-5 的开发情况,但@clockrelativity2003否认其目前正在训练中。@lugui组织了关于 GPT Store 在新年开业的讨论。
▷ #openai-questions (158 条消息🔥🔥):
- GPT 的问题与改进:用户
@stealth2077对 GPT 即使在收到明确不准这样做的指令后,仍以总结性段落结束对话表示担忧。@stealth2077还提议为 AI 回复增加行内编辑或裁剪功能,以便更轻松地控制生成的对话,@ath0rus也加入了这一话题。@stealth2077对 GPT 使用次数从 50 次减少到 40 次,以及取消为自定义 GPT 测试预留的额外 10 次使用额度表示不满。 - GPT Builder 限制:
@amanshrestha在使用 GPT Builder 时遇到问题,这似乎源于 Python 环境。@stealth2077也对在对话中途更改自定义指令的限制表示沮丧,并强调需要更好的功能来编辑对话的上下文(context)。 - ChatGPT Plugins:
@keebs1995询问如何获取 ChatGPT 插件的开发者权限,以便为他们的行业构建计算器应用。@elektronisade告知插件正在逐步淘汰,并建议改用自定义 GPTs。 - 服务条款 (ToS) 澄清:用户
@eric.turnr寻求对 OpenAI ToS 中提到的“自动或通过编程方式提取数据或输出(定义见下文)”部分的详细解释。@lumirix澄清说,“输出(Output)”在 ToS 的内容部分有明确定义。 - 性能问题与增强:包括
@Shunrai和@lucianah在内的几位用户报告了 GPT 的延迟和网络错误问题。@Rock征求关于自定义 GPTs 运作机制的详尽指南,@strange073寻求关于如何通过捐赠 1 美元来获取 GPT-4 API 访问权限的澄清。
▷ #gpt-4-discussions (25 条消息🔥):
- 将 GPT 用于游戏开发:
@cerebrocortex分享了他们开发类《文明》游戏的经验,对 ChatGPT 处理库存管理等任务的出色表现表示惊讶。他们请求大家对他们的游戏提供反馈。 - ChatGPT Plus 邀请:
@pietman和@mlgpro0225提到有人收到了加入 ChatGPT Plus 的邀请,表明等待名单可能正在推进。 - 调试 GPT Builder:
@cerebrocortex询问如何更新自定义 GPT 的指令,@Capcon建议将更改保存到草稿并使用“更新(update)”按钮发布更改。 - 在 ChatGPT 中搜索特定对话:
@q16.kr询问是否可以搜索与 ChatGPT 进行的特定对话,@pietman回复称该功能目前尚不可用。 - ChatGPT API Key 生成问题:
@realspacekangaroo报告了在尝试生成新 API Key 时遇到的验证码问题,认为其难度过大,导致他们无法生成新的 API Key。 - GPT 输出的变化:
@victronwolfson注意到gpt-4-1106-preview的输出在过去一周内发生了变化。
▷ #prompt-engineering (36 messages🔥):
- 在 Prompt 中使用情感:
@eskcanta讨论了在关于一篇名为 “ai emotional prompt” 论文的对话中,情感化语言在 Prompt 中的使用及其对 ChatGPT 的影响。他们指出在论文中找不到用于测试的具体 Prompt,因此无法复现结果。 - 在 PPM 中引入人格:
@eligump和@mysticmarks1就开发具有两种人格的 PPM (persistent personality mode) 进行了对话。@mysticmarks1分享了一个链接来演示如何在对话中实现结巴和傻气等行为。 - 创建详细的 Prompt:
@cybector分享了一个针对 Python 编程语言的详细 Prompt 草案,并邀请其他用户提供反馈和改进建议。 - 文本 Chunking 和 Embeddings 的问题:由于密度实验的成本问题,
@merpnderp请求关于文本 Chunking 和 Embeddings 策略的资源或讨论。@eskcanta建议尝试使用 ChatGPT 网页界面来寻找潜在的成本节约方案。@m0bsta表示由于消息限制,这种方法存在困难。 - GPT-4 的 Prompt 和指南:
@cat.hemlock以 Markdown 形式分享了一系列针对 GPT-4、DALL-E 和浏览器工具的详细 Prompt 指南和命令协议。这包括基础信息、使用的工具以及指导 AI 模型使用的各种策略。她还展示了一个典型详细 Prompt 的 JSON 格式。
▷ #api-discussions (36 messages🔥):
eskcanta讨论了 EmotionPrompt 在语言模型中的应用,由于参考论文中缺乏清晰的 Prompt 示例,对其实现和有效性提出了质疑。madame_architect从现有文档中强调了 EmotionPrompt 的部分实现。他们提供了情感刺激的示例,并提到添加这些刺激的基础 Prompt 和模板也出现在配套文档中。- 在一系列消息中,
eligump和mysticmarks1讨论了 Private Playground Models (PPMs) 的创建和操作,特别是如何融入 Roleplay 和特定的语言风格。 - 一位名为
mattiacastioni的用户在链接的对话线程中寻求帮助。该请求的具体性质未作进一步讨论。 cybector分享了一个围绕 Python 编程语言讨论与 ChatGPT 交互的模板,特别指示模型从 Python 官方文档中获取信息。merpnderp征求有关文本 Chunking 和 Embeddings 策略的推荐资源,旨在降低生产成本。eskcanta建议与 ChatGPT 讨论成本节约策略。- 最后,
cat.hemlock分享了在 OpenAI 的 ChatGPT 中使用 Markdown、DALL-E、Python 和浏览器工具 的指南,以及如何构建“默认 Prompt”的示例。
OpenAccess AI Collective (axolotl) Discord 摘要
- 围绕由
@caseus_发起的 Mixtral 集成进行了活跃的讨论和开发,重点关注 sample packing、sharding 以及解决各种技术问题。强调了mixtral-multipack分支的创建,并附带了 相关的 GitHub 链接。 @noobmaster29在 Hugging Face 上发布了新数据集Verified-Camel-zh,并提供了 数据集的直接访问链接。- 一场对话识别了模型错误报告中的常见问题并提出了解决方案,例如更改
model_type和禁用is_mistral_derived_model。 - 分享并探索了各种科学论文处理库,例如 allenai/papermage、axa-group/Parsr 和 Unstructured-IO/unstructured 库,用于将 PDF、文档和图像转换为结构化数据。
- RLHF 频道中关于即将推出的用于数据集创建的 DPO (Direct Preference Optimization) 策略的对话;具体而言,需要两个不同的 DPO 数据集来处理“未对齐 (unalignment)”并提供“高质量回答 (quality answers)”。
- 其他杂项对话包括与 axolotl 代表的播客、AI 项目、编码中的 token,以及一段名为 The Insane Biology of: The Axolotl 的 YouTube 视频。
OpenAccess AI Collective (axolotl) 频道摘要
▷ #general (25 条消息🔥):
- Mixtral 集成与开发:
@caseus_分享了 Mixtral 与 axolotl 集成的更新,包括添加了mixtral-multipack分支以及合并了带有 multipack 的 Mixtral MoE 微调。- 要使用更新后的功能,用户必须从 git main 安装最新版本的
transformers。 - 为了进一步开发,
@caseus_分享了由@214834317774422028开发的进行中分支链接(GitHub 链接)。
- 新数据集发布:
@noobmaster29宣布在 Hugging Face 上发布了一个名为Verified-Camel-zh的新数据集(数据集链接)。
- 杂项讨论:
@swyxio重点介绍了一个由 axolotl 代表参加的播客,并分享了几个与 AI 相关的资源和项目链接。- 针对编码中 token 的使用和命名进行了对话,特别是 start 和 stop token 的使用。
@noobmaster29分享了一段名为 The Insane Biology of: The Axolotl 的 YouTube 视频(视频链接)。
▷ #axolotl-dev (170 messages🔥🔥):
-
Mixtral 样本打包 (Sample Packing):
@caseus_一直致力于为 Mixtral 实现样本打包,并创建了一个mixtral-multipack分支。有报告称初始 Loss 较高但随后会下降,表明这种方法的潜在有效性。@faldore一直在使用mixtral-multipack分支,并报告运行稳定且 Loss 率持续下降。 -
修复与变通方法:用户遇到了一些错误,并提出了相应的变通方法和修复建议。具体而言,禁用
is_mistral_derived_model: true并将model_type更改为AutoTokenizerForCausalLM似乎解决了一些问题。此外,@casper_ai建议如果使用单 GPU,请移除 DeepSpeed。 -
VRAM 需求:讨论了关于 VRAM 使用的问题,
@caseus_建议了减少 VRAM 使用的策略,例如冻结模型的早期层。提到了在 2xA6000 和 4xA100 GPU 上运行 Mixtral,并希望在 4 到 8xA6000 上实现全量微调 (Full Finetuning)。@casper_ai创建了一个包含部分分片 (Sharding) 功能的分支以优化 VRAM 使用,但目前仍在开发中。 -
模型错误报告:
@ludis___报告了运行 Mixtral 时的RuntimeError,内容为 “output tensor must have the same type as input tensor”。该问题通过移除某些配置参数得到了解决。 -
LoRA 和 qLoRA 使用:在 4xA100 和 A40 等 GPU 配置上成功运行了使用 qLoRA 的 Mixtral。然而,尝试使用 LoRA 运行时出现了与
bnb包相关的错误。
链接:
- mixtral-multipack 的 GitHub 分支
- Mixtral 优化的 GitHub Issue
- Mixtral 节省内存的 GitHub Pull Request
- Mixtral 分片的 GitHub 分支
▷ #other-llms (3 messages):
- 潜在招聘讨论:
@faldore表达了一种观点,认为如果他们被录用,某些情况可能会得到改善。 - 对 Elon Musk 雇佣的看法:作为回应,
@nruaif建议在 Elon Musk 手下工作可能并不理想。
▷ #general-help (5 messages):
-
合并 Qlora Chat Mixtral 问题:
@matts9903报告了在尝试使用 Axolotl 工具合并mixtral模型时遇到的错误。问题在于repo id的验证错误:huggingface_hub.utils._validators.HFValidationError: Repo id must use alphanumeric chars or '-', '_', '.', '--' and '..' are forbidden, '-' and '.' cannot start or end the name, max length is 96: './qlora-out'. -
@caseus_建议使用 qlora-out 目录的绝对路径,但该建议未能解决问题。 -
@caseus_随后分享了模型合并的最新更改 GitHub 链接,并要求提供堆栈跟踪 (Stack trace) 以进行进一步排查。
▷ #datasets (4 messages):
- PaperMage 库:
@noobmaster29分享了 allenai/papermage 库的 GitHub 链接,建议值得一试。该库支持针对科学论文的 NLP 和 CV 研究。 - Parsr 库:
@visuallyadequate目前正在尝试 axa-group/Parsr 库,该库可将 PDF、文档和图像转换为丰富的结构化数据。 - Tika 库:
@visuallyadequate提到曾使用过 Tika 库,称其提供了目前为止最好的解决方案,但他们尚未测试 PaperMage。 - Unstructured 库:
@joshuasundance分享了 Unstructured-IO/unstructured GitHub 库的链接,该库为构建自定义预处理流水线 (Preprocessing pipelines) 提供开源库和 API。
▷ #rlhf (5 messages):
- DPO Completion:
@caseus_提到在被 Mixtral 的相关工作分散注意力后,需要完成 DPO (Data Programming Override)。 - Unalignment 和 Quality Answers DPO 数据集:
@faldore讨论了需要两个 DPO 数据集的想法,一个用于 “unalignment”(去对齐),另一个用于提供 “quality answers”(高质量回答)。 - Rejected 字段查询与对比:
@nruaif建议针对 rejected 字段询问 Llama 2 7B chat,并将其与 GPT 4 进行对比,指出在 90% 的情况下,Llama 2 7B chat 的回答效果更差。
LangChain AI Discord 总结
- 关于在 LangChain 中将本地模型与 chat LLMs 结合使用的广泛讨论,包括
@_egeres关于使用环境变量和对LLM进行子类化的见解,以及@lhc1921关于使用像 llama.cpp 这样的后端来处理 constrained grammar(受限语法)的想法。 - 多个成员提出的问题仍未得到解答,包括:
@analyticsrepo关于 Google 的 Gemini 集成到 LangChain 的进度问题。@_ashisharya寻求关于 Agent 编码与部署 的全面资源。@xstepz寻求关于 在 Kork 包中限制 pandas 函数可用性 的指导。@yasuke007寻求 AI 开发学习路径的建议,特别是关于在使用 langchain 配合 React.js 时是否有必要掌握 Python 知识。@rajib2189关于 在本地运行语言模型的潜在用例 的咨询。
- 用户
@reletreby发布了 Askly 12 月版本公告,现已集成 OpenAI ChatGPT 3.5 和来自 HuggingFace 的 HuggingFaceH4/zephyr-7b-beta。新功能包括多文件推理、摘要、网页搜索,并要求用户删除并重新上传旧文件以启用新功能。更多详情请见 Askly 博客。
LangChain AI 频道总结
▷ #general (72 messages🔥🔥):
- Google Gemini 集成:用户
@analyticsrepo询问了将 Google Gemini 集成到 LangChain 的状态,但未收到回复。 - LangChain 与本地模型:
@_egeres和@lhc1921深入讨论了在 LangChain 中使用本地模型配合 chat LLMs 的可能性。@_egeres提到可以通过环境变量调整 API 端点并对LLM进行子类化。@lhc1921建议使用能够处理 constrained grammar 的 llama.cpp 等后端。 - Agent 编码与部署资源:
@_ashisharya寻求关于 Agent 编码和部署的综合资源,但未收到回复。 - 配合 Pandas 使用 Kork 包:
@xstepz寻求如何限制其 Agent 通过 Kork 包访问 pandas 函数的指导,但未收到回复。 - AI 开发学习路径:初级 AI 开发者
@yasuke007询问在使用 langchain 配合 React.js 的 AI 开发过程中是否有必要学习 Python,但未收到回复。 - 本地运行语言模型的用例:
@rajib2189询问了本地运行语言模型的可能用例(如个人助手或边缘侧分析),但未收到回复。
▷ #share-your-work (1 messages):
- Askly 12 月版本发布:用户
@reletreby宣布了 Askly 的最新版本,通过集成 OpenAI ChatGPT 3.5 和 HuggingFace 的开源模型HuggingFaceH4/zephyr-7b-beta进行了重大升级。新功能包括多文件推理、摘要、网页搜索等。然而,为了使用这些功能,在 2023 年 12 月 1 日或之前上传过文件的用户需要删除旧文件并重新上传。这对于激活新功能至关重要。完整详情已在 Askly 博客中分享。
Alignment Lab AI Discord 摘要
@astra1337在 demo 演示后与其他人的互动,强调了观众对进一步解释的兴趣。此外,@astra1337询问了关于 Pygmalion AI 在 电子游戏 demo 方面的知名度。@mister_poodle询问了关于针对特定任务微调 Mistral-OpenOrca 的过程,特别关注于提升其在 带有 JSON 输出的命名实体识别 (NER) 任务上的性能。- 围绕绘图工具的对话,重点提到了 Whimsical 和 Excalidraw。
- Whimsical 由
@teknium引入并由@gabriel_syme进行了测试,指出其具有协作功能的倾向。 - Excalidraw 由
@lightningralf建议,他提供了链接 Excalidraw 并提到存在 Obsidian 插件。
- Whimsical 由
Alignment Lab AI 频道摘要
▷ #oo (3 条消息):
- Astra1337 就 Demo 与他人的互动:用户
@astra1337提到在一些 demo 演示之后,有人找他们获取更多信息。 - 关于 Pygmalion AI 的讨论:
@astra1337询问了一位来自 电子游戏 demo 的成员是否了解 Pygmalion AI,这是一个以创建具有记忆的电子游戏角色而闻名的研究小组。
▷ #open-orca-community-chat (1 条消息):
- 微调 Mistral-OpenOrca:
@mister_poodle询问了如何使用个人数据集针对特定任务微调 Mistral-OpenOrca,表达了改进模型在 带有 JSON 输出的命名实体识别 (NER) 任务上表现的意图。在此背景下,@mister_poodle未提供链接或额外信息。
▷ #oo2 (8 条消息🔥):
- 关于绘图工具的讨论:
@teknium介绍了 Whimsical 绘图网站。在尝试后,@gabriel_syme认为它具有协作功能,因为它提示创建工作区。 - Excalidraw 推荐:
@lightningralf推荐了 Excalidraw 作为另一个选择,并链接到了该网站,此外还提到了一个 Obsidian 插件。这是他推荐的链接:Excalidraw。
Latent Space Discord 摘要
只有一个频道有活动,因此无需汇总…
- 使用 qlora、小 batch 和上下文窗口:在回答一个查询时,
@eugeneyan分享说,24GB 的 GPU 应该可以运行小 batch size 和适当上下文窗口的 qlora(batch 为 2,上下文窗口 512 - 1024)。 - 关于 HumanLoop 的功能查询:
@jozexotic对 HumanLoop 新功能开发缓慢表示担忧,特别是无法访问 OpenAI 以外的模型,并询问是否有人知道这些新增功能是否在该平台的近期议程中。 - 对 chatgpt+ 的不满:
@slono表示由于进展缓慢和反复出现的 stream errors,正在考虑取消他们的 chatgpt+ 订阅。
Skunkworks AI Discord 摘要
只有一个频道有活动,因此无需汇总…
pradeep1148: https://www.youtube.com/watch?v=YWYNLaWDoNQ
LLM Perf Enthusiasts AI Discord 摘要
只有一个频道有活动,因此无需汇总…
.psychickoala: 你们有人见过强制 parallel function calling 的最佳实践吗?