ainews-claude-3-is-officially-americas-next-top

Claude 3 正式成为了“全美超模”(America's Next Top Model)。 *(注:这句话套用了美国知名真人秀节目《全美超模大赛》的名称,以此幽默地表示 Claude 3 已成为目前美国最顶尖的 AI 模型。)*

以下是该文本的中文翻译:

Claude 3 Opus 在盲测 Elo 排名中超越了 GPT4TMistral Large,而 Claude 3 Haiku 则树立了性价比的新标杆。文中重点介绍了在 Mistral 7B 上应用 QLoRA 等微调技术,以及 HuggingFace 模型上的进化模型合并技术。公众舆论对人工超级智能(ASI)的发展表现出强烈反对。此外,AI 对齐领域的研究指导机会也已公布。Stable Diffusion 3 (SD3) 的发布引发了对 ComfyUIautomatic1111 等工具工作流兼容性的担忧。与 Anthropic API 相比,OpusOpenRouter 上的性能下降了 5%。一项新的基准测试强调了大语言模型(LLM)在长上下文下的召回能力,其中 Mistral 7B 表现吃力,而 Qwen 72b 表现出色。

#fine-tuning #model-merging #alignment #ai-ethics #benchmarking #model-performance #long-context #cost-efficiency #model-evaluation claude-3-opus claude-3-sonnet claude-3-haiku gpt-4o-mini mistral-7b qwen-72b anthropic mistral-ai huggingface openrouter stable-diffusion automatic1111 comfyui

目录

[TOC]


第 X 部分:AI Twitter 回顾

所有回顾均由 Claude 3 Opus 完成,从 4 次运行中择优选取

AI 模型与架构

  • @virattt.: 微调一个沃伦·巴菲特 LLM,以像巴菲特先生那样分析公司。使用 Mistral 7B instruct,Colab 中的单 GPU,用于快速微调的 QLoRA,以及用于证明概念的小型数据集。(12.8万次观看)
  • @DrJimFan.: 进化模型合并(Evolutionary Model Merge):利用进化算法合并 HuggingFace 上的模型,以解锁新能力,例如日语理解。这是一种复杂的模型手术形式,所需的计算量远小于传统的 LLM 训练。(12.5万次观看)

AI 伦理与社会影响

  • @AISafetyMemes: 美国人并不支持这一点:5 比 1 的人希望禁止开发 ASI(强人工智能/比人类更聪明的 AI)。E/accs 的支持率比撒旦崇拜者还低(许多人实际上希望 AI 灭绝我们,将其视为“进化进步”)。(7.6万次观看)
  • @mark_riedl: 我关于 AI、伦理和版权的文章终于发布在 arXiv 上了。(1万次观看)
  • @jachiam0: 人类历史上最大的公平失败之一是,直到 2018 年,全球仍有不到一半的人口能够访问互联网。这是决定塑造第一批 AGI 的数据分布的最大因素。高度发达国家在这一进程中拥有更多的投票权。(3千次观看)

AI 对齐与安全

  • @EthanJPerez: 今年夏天我将担任 MATS 的研究导师。如果你渴望与我合作进行对齐研究,我强烈建议填写简短的申请表(截止日期为今天)!(1万次观看)
  • @stuhlmueller: 期待看到这一成果!Noah 参与的对齐相关工作包括:可解释性(Interpretability)、使用语言模型进行认证演绎推理(Certified Deductive Reasoning with Language Models)、使用语言模型诱导人类偏好(Eliciting Human Preferences with Language Models)。(2千次观看)

迷因与幽默

  • @BrivaelLp: Deepfakes 变得与现实难以区分 🤯 这段视频是使用 Argil AI 模型克隆的 Lex Fridman 版本。(10.3万次观看)
  • @ylecun: 哈哈。(8.6万次观看)
  • @AravSrinivas: 训练将持续进行,直到评估结果有所改善。(3.2万次观看)
  • @nearcyan: 生活中的一切要么是技术问题,要么是运气问题。幸运的是,只要有足够的技术和运气,两者都很容易解决。(2.5万次观看)
  • @Teknium1: 遗憾的是,我们最具艺术感的发布被 Claude 的末日保护机制毁了 🥲。(1.9万次观看)

PART 0: 摘要之摘要之摘要

  • SD3 发布引发工作流担忧:Stable Diffusion 社区正预见 SD3 的发布可能会对 ComfyUIautomatic1111 等工具造成干扰。人们希望出现无审查版本,并担心集成延迟会影响工作流。

  • Opus 在 OpenRouter 上的性能下降:根据 OpenRouter Discord 的讨论,测试显示通过 OpenRouter 调用的 Opus 在处理复杂提示词时,其指令遵循度比官方 Anthropic API 低 5%。

  • LLM 召回基准测试挑战模型性能:一个新的基准测试 llm_split_recall_test 重点测试了 Large Language Models 在 2500-5000 token 长度下的上下文召回能力。根据一条 推文GitHub 仓库Mistral 7B 等模型表现吃力,而 Qwen 72b 展现出了潜力。

  • OpenCodeInterpreter-DS-33B 媲美 GPT-4:开源模型 OpenCodeInterpreter-DS-33BBigCode 排行榜 上的表现与 GPT-4 持平,这引发了人们对 OpenInterpreter 项目的关注。

  • GGML 安全漏洞曝光Databricks 报告了多个 GGML 漏洞,这些漏洞需要进行修补。一个特定的 commit 修复了作为补丁一部分的 GGML 分配错误。


PART 1: 高层级 Discord 摘要

Stability.ai (Stable Diffusion) Discord

  • SD3 发布引发工作流困扰:社区成员正在预估 SD3 的发布将如何影响 ComfyUIautomatic1111 等工具。他们期待社区驱动的改进,并主张推出无审查版本,同时也对集成时间和工作流中断表示担忧。

  • AI 辅助视频制作兴起:关于创建 AI 生成视频的技术正被积极讨论,重点是使用 FILMDeforum 等帧插值器。然而,社区承认这需要大量的计算资源和时间,并建议将分镜设计(storyboarding)作为成功渲染的关键步骤。

  • 换脸技术的进步:对话强调 Reactor 正在落后,因为使用 IP AdaptersInstant ID 的更先进换脸算法已成为标准。这些新方法因其能通过扩散过程创建更自然的脸部融合而更受青睐。

  • 开源 AI 处于十字路口:关于开源 AI 未来的辩论正在进行,有人提到在监管加强的担忧下要保护好代码仓库,并担心专有平台会使 automatic1111Forge 等项目黯然失色。

  • 放大(Upscaling)的硬件考量:社区交流集中在放大解决方案上,如 Topaz Video AI,以及 SDXLCascade 模型之间的性能差异。用户指出 RTX 3060 能够进行快速的细节渲染,引发了关于 GPU 升级收益的讨论。


Unsloth AI (Daniel Han) Discord

Langchain 缺乏优雅性:在一场激烈的讨论中,Langchain 因代码质量差(尽管营销做得好)而受到指责,讨论强调在生产环境中应避免因技术债导致的依赖问题。

AI 涌现能力受到关注:来自 Quantamagazine 的一篇文章引发了关于 AI “突破性”行为增长的辩论,这可能对 AI 安全和能力讨论产生影响。

边缘端微调:用户尝试将 Unslothfastlanguage 从 4-bit 量化修改为 8-bit 量化,得出的结论是由于预量化的原因,在微调后进行此操作是不可行的。在其他地方,用户分享了在微调期间通过更改 batch size 和 sequence length 来管理 VRAM 的技巧。

展示 Masher AI v6-7B:有人展示了他们的 Masher AI v6-7B 模型,使用 OpenLLM Leaderboard 进行性能评估,Demo 可在 Hugging Face 上获得。

Transformer 工具包指令:一个提供在 Transformer 模型上处理新 head 的工具包 GitHub 仓库 引起了关注,这可能会简化与模型定制相关的工程任务。


OpenAI Discord

  • Sora 与艺术家和电影制作人共同起飞:OpenAI 的 Sora 受到 Paul Trillo 等艺术家和电影制作人的称赞,认为其开启了创意新领域。讨论围绕其生成超现实概念的应用展开,如 收缩儿童 (shy kids) 团队在 “Air Head” 项目中所展示的那样。

  • Assistant API 的缓慢起步:在 API 交互领域,用户对 Assistant API 的初始响应时间感到沮丧。据一些用户报告,在使用 thread_id 功能时,响应时间接近两分钟,而随后的响应则较快。

  • Claude Opus 以更快的代码能力吸引用户:讨论强调了 Claude Opuscoding 方面优于 GPT-4,并暗示如果 OpenAI 不跟进竞争性更新,可能会面临客户流失。

  • GPT Store 自定义集成挑战:工程师们正在寻求有效的方法,将 GPT Store 中的自定义 GPT 链接到 Assistant API 而无需重复指令。同时,ChatGPT Team 订阅者也提出了对更强大功能的需求,如更大的文件上传限制和 PDF 图像分析能力。

  • LLM 要求精确的 Prompt:对话强调了 Prompt Engineering 中精确性的重要性;建议在处理多页文档解析时使用 Embedding 来维持上下文,并重申了在使用 GPT 等 LLM 进行评估任务时,需要定义明确的排名系统。


Nous Research AI Discord

  • LLM 接受召回测试:一个针对 Large Language Models (LLM) 的新基准测试,旨在测试在 2500 和 5000 Token 长度下的 In-context 召回能力。事实证明,这对 Mistral 7B 和 Mixtral 等模型是一个挑战。llm_split_recall_test 仓库提供了详细的指标,并指出 Qwen 72b 等模型表现出良好的性能。关于基准测试的推文 GitHub 仓库
  • 调整 AI 音乐领域:关于 Suno.ai 的讨论展示了其在生成音频内容和 Spotify 播放列表 方面的强大能力,体现了 AI 对创意产业日益增长的影响。AI 在 Web 开发中的效率也成为关注焦点,特别是将 Jinja 模板HTMXAlpineJS 结合使用,以及使用 openHermes 2.5 转换 YAML 知识图谱。

  • 微调(Fine-Tuning):是实际需求还是过时技术?@HamelHusain 的一条推文 引发了关于在快速进步背景下 AI 模型微调价值的讨论。共识认为,微调是特定推理用例中一种具有成本效益的方法,但不适合扩展模型知识。

  • AI 的 World-Sim:数字前沿:Nous Research 的 World-Sim 增强功能鼓励从命令行界面开始,并利用 Discord Spaces 进行社区互动和协调。图灵奖级别的论文以及对 World-Sim 叙事能力的探索,展示了其作为创意和世界构建媒介的潜力。

  • 开源项目媲美大模型:根据 BigCode 排行榜OpenCodeInterpreter-DS-33B 的表现已可媲美 GPT-4,这激发了人们对 OpenInterpreter 等开源 AI 模型的兴趣。讨论还暗示了 Infinity 等替代性 Vector Embedding API 的出现,以应对 NVIDIA 的 Reranking 模型。

Perplexity AI Discord

  • AI 模型大对决:Claude 3 Opus vs. GPT-4 Turbo:成员们正在热烈讨论 Perplexity Pro 的能力,特别是通过此处查看的性能测试和此处可用的模型测试工具,对比 Claude 3 OpusGPT-4 Turbo。关于优化 AI 搜索 Prompt 的讨论(尤其是在游戏设计等创意领域)提到了 Pro Search 等工具,尽管用户察觉到它存在一些缺点。

  • AI 搜索引擎挑战 Google 的统治地位:来自 The Verge 的一篇文章引发了关于 AI 驱动的搜索服务是否会超越 Google 等传统引擎的辩论。虽然一些用户反映了 AI 功能在上下文保留和图像识别方面的问题,但用户们也在积极讨论 Anthropic 为 Claude Opus 3 设置的 4096 token 限制

  • 利用另类数据 (Alternative Data) 洞察股市#sharing 频道的讨论显示出对应用另类数据预测股市趋势的浓厚兴趣,并引用了关于该主题的 Perplexity 搜索结果,详见此处

  • 对 API 自动化和说明的需求:在 #pplx-api 频道中,有人呼吁为 Perplexity API 提供类似 autogpt 的服务以实现任务自动化,同时有报告称实验结果优于直接的 API 查询。成员们还在寻求更好地了解 API 的计费系统,提到 每个回答 0.01 的费率以及基于日期的响应出现乱码的问题。

  • 关注时事与摄影技巧:社区通过更新线程关注时事,并通过分享关于摄影中三分法 (rule of thirds) 的链接展示了对艺术方面的参与。他们还表达了对 iOS 18 功能的期待,信息源自此 Perplexity 搜索


OpenInterpreter Discord

YouTube 学习:一把双刃剑:成员们就通过 YouTube 学习的有效性展开了辩论,一些人担心分心和隐私问题,而另一些人则支持视频教程,尽管担心该平台的数据挖掘行为。

本地化是 LLM 的新趋势:将本地 LLM(如 ollama, kobold, oogabooga)与 Open Interpreter 集成引发了关注,讨论集中在避免外部 API 成本以及实现对 ClosedAI 等服务独立性的好处。

对多样化 Open Interpreter 文档的需求:对 Open Interpreter 多样化文档的需求日益增长。提议包括辅以视频的 Wiki 风格资源,以及交互式“实验室”或“引导式设置”,以满足不同的学习偏好。

扩展 Open Interpreter 生态系统:社区成员热衷于扩展 Open Interpreter,探索用于离线掌上设备和研究助手的附加工具和模型。他们还在分享项目开发的反馈,以提高易用性和无障碍性

技术难题:讨论了在 PyCharm 中设置 “01” 环境的问题、“01” 设备预订的地理限制、多语言支持、系统要求以及 Windows 和 Raspberry Pi 兼容性,同时也报告了活跃的社区协作和 DIY 外壳设计讨论。此外,还强调了 Ollama 的新 Windows 启动器在安装后导致应用无法使用的问题,目前尚无明确解决方案。


HuggingFace Discord

HuggingFace 新聊天功能的网页交互尝试:HuggingFace 推出了一项新功能,使聊天助手能够与网站进行交互;演示视频可通过 Twitter 帖子查看。

开源更新中的丰富库资源:开源更新包括对 transformers.jsdiffuserstransformers 等库的增强。osanseviero 在 Twitter 上详细介绍了这些更新,更多文档可在 HuggingFace 博客文章中找到。

模型实现的社区努力:社区讨论了使用 Candle 库将 GLiNER 模型从 Pytorch 转换为 Rust 的工作,并探讨了 Rust 实现的性能优势以及 Candle 库的 GPU 加速能力。

机器人与库创作的盛宴:Cohere 的 Command-R 聊天机器人已在 HuggingFace Spaces 展示,供社区贡献。同时,用于加载各种图像类型的新 Python 库 loadimg 已在 GitHub 上线。

聚焦图像与文本的融合:HuggingFace 上的 BLIP-2 文档因其在连接视觉和语言模态方面的潜力而受到关注。讨论还集中在医学图像的预处理归一化上,参考了 nnUNet 的策略

NLP 与 AI 效率的创新:一位成员深入研究了 Mistral-7B-v0.1-half-naive-A 模型模型压缩及其对性能的影响。此外,还集思广益探讨了利用 multi-shot 推理和微调来总结游戏排行榜的可能性。

Diffusion 领域的多元探讨:关于训练 Diffusion 模型的正则化图像结构的咨询,寻求了创建有效正则化集的建议,重点关注图像质量、多样性以及 negative prompts 的使用。


LM Studio Discord

  • 跨平台模型大小之谜:用户注意到不同平台间的模型大小存在差异,例如 Mistral Q4ollama 上为 26GB,而在 LM Studio 上为 28GB。此外,用户对 Mistral 7B 的硬件性能表现提出担忧,称其导致 CPU 和 RAM 占用率极高,而 GPU 利用率却微乎其微。由于 0.2.17 版本中可能存在的 Bug,即使在配备 i5-11400F、32GB RAM 和 3060 12G GPU 的系统中,这种低效情况依然存在。

  • 跨设备模型交互:用户讨论了跨设备与模型交互的方法,其中一个成功的方案是使用远程桌面软件,特别是 VNC。此外,还有关于在外部 SSD 上存储时如何维护文件夹结构以识别 LLM,以及在 LM Studio 中使用正确的 JSON 格式的建议。

  • IMAT 在质量上的胜利:用户观察到 IMATRIX 模型 的显著改进,指出 IMAT Q6 的性能往往超过了“常规”的 Q8。对 32K context length 模型的搜索引发了讨论,Mistral 7b 0.2 成为那些希望探索类 RAG 交互用户的关注焦点。

  • Beta 版本的负担:在 Beta 版聊天频道中,讨论了 2.17 版本在特定 Token 计数时出现乱码输出以及在 Token 限制下难以保持故事连贯性的问题。报告了 JSON 输出错误,特别是 NousResearch/Hermes-2-Pro-Mistral-7B-GGUF/Hermes-2-Pro-Mistral-7B.Q5_K_M.gguf 模型。此外,还提到了受限的 Linux 版本发布(跳过了 0.2.16 版本)。

  • Linux 用户仍在等待:Linux 爱好者注意到 0.2.16 版本未发布,导致该迭代版本没有更新。某些模型(如 moondream2)出现了兼容性问题,引发了关于模型交互以及 llava vision 模型与特定 LM Studio 版本兼容性的讨论。

  • 新硬件上的 VRAM 消失术:记录了一个令人困惑的事件,一块拥有 24GB VRAM 的 7900XTX 显卡显示了错误的 36GB 容量,并且在尝试运行 codellama 7B 等小型模型时,因未知错误加载失败(退出代码:-1073740791)。

  • 工程师优化 AI 工具:在 crew-ai 频道中,一位用户基于成功使用 deepseek coder instruct v1.5 7B Q8_0.gguf 的经验,推导了将 gpt-engineerAutoGPT 结合的潜力。然而,一些人对 GPT 缺乏完整的编程能力(如测试代码和遵循标准)表示沮丧,同时期待在不久的将来会有重大突破。

  • 命令行调整的胜利:成功利用了 LM Studio 中的高级选项,包括 -y--force_resolve_inquery,并根据 GitHub issue #1124 的记录解决了非官方支持模型的问题,提高了 Python 输出的有效性。


LAION Discord

  • 安全与否,最好检查一下:用户被提醒注意一个包含成人内容的 Reddit 帖子,并讨论了模型从非显性提示中生成 NSFW 内容的问题,建议在更通用的应用中进行微调训练。

  • 对 Sora 的“抽卡”式冒险感到沮丧:讨论强调了 Sora AI 依赖重复生成来获得理想结果的现状,暗示了其背后的商业策略。

  • AI 模型训练中的平衡艺术:技术对话集中在 AI 模型中的“灾难性遗忘”(catastrophic forgetting)和数据分布的意外变化,认为持续学习是一个关键挑战,并参考了 “fluffyrock” 模型和关于该主题的 YouTube 讲座

  • Diffusion 的平衡之旅:讨论了 NVIDIA 关于 重新思考如何训练 Diffusion 模型 的见解,强调了此类模型的特殊性,即直接的改进往往会导致意想不到的性能下降。

  • VoiceCraft 塑造 TTS 的未来:VoiceCraft 因其顶尖的语音编辑和 Zero-shot TTS 能力而受到关注,爱好者们期待模型权重的发布,并引发了关于开源与专有模型生态系统的辩论。该技术的描述、代码和更多细节可以在其 GitHub 页面官方网站 上找到。


LlamaIndex Discord

  • 与 AI 同事一起浏览:最新的 LlamaIndex 网络研讨会展示了一个工具,通过大约 150 行代码开发的 AI Browser Copilot,可以在 Jupyter/Colab 笔记本中进行网页导航,旨在赋能用户创建类似的 Agent。公告和详情已分享给那些有兴趣构建自己的 Copilot 的用户。

  • Python 文档焕然一新:LlamaIndex 更新了其 Python 文档,增加了包含预览和术语高亮的增强搜索功能。此次更新展示了大量的示例 Notebook,可以点击此处访问。

  • RAG 增强型代码 Agent 网络研讨会:即将举行的 CodeGPT 网络研讨会将指导参与者为代码助手构建聊天+自动补全界面,重点介绍创建 AST 并将代码库解析为知识图谱以改进代码 Agent 的技术。活动详情已在 Twitter 上公布。

  • LLMOps 开发者聚会即将举行:一场专注于大语言模型(LLM)应用的开发者聚会定于 4 月 4 日举行,届时将有来自 LlamaIndex 和 Guardrails AI 等公司的专家分享从原型到生产的 LLM 运营见解。感兴趣的参与者可以在此注册

  • LlamaIndex 中的 RAFT 进展:LlamaIndex 已成功集成 RAFT 方法,用于微调针对检索增强生成(RAG)设置量身定制的预训练 LLM,从而增强特定领域的查询响应。该过程和心得已记录在由 andysingal 提供的 Medium 文章《Unlocking the Power of RAFT with LlamaIndex: A Journey to Enhanced Knowledge Integration》中。


Eleuther Discord

AMD 驱动困境引发辩论:技术讨论揭示了对 AMD Radeon 驱动策略的担忧,认为性能不佳可能会阻碍数百万美元规模的 ML 基础设施领域的信心。讨论了开源 AMD 驱动的想法,将其作为与 Nvidia 的主导地位竞争的一种策略。

权重存储的新变革:提出了一种新方法,将模型权重存储为种子(seed)加增量(delta),这可能会提高精度并消除对混合精度训练的需求。向预训练权重而非零权重的权重衰减(即 “L2-SP”)的概念转变也是一个热门话题,并参考了 arXiv 上的 L2-SP 研究

Chess-GPT 登上棋盘:介绍了能够以约 1500 Elo 评分进行对弈的 Chess-GPT 模型,并讨论了其预测棋步和评估玩家技能水平的能力。社区还探讨了 N-Gram 模型的局限性以及扩展 tokengrams 时的 Kubernetes 版本兼容性问题;GCP 被提及作为高资源计算需求的解决方案。

检索研究与分词技巧:参与者请求关于优化检索流水线质量的建议,提到了 EvalsRAGAS 等工具。Tokenizer 对模型性能的影响也引发了讨论,并附带了 arXiv 上的 MaLA-500 以及关于日语分词器的研究链接。

利用 lm-eval 进行逆向缩放:重点是将逆向缩放(inverse scaling)集成到 lm-evaluation-harness 中,详见此实现。还提出了关于 BBQ Lite 评分方法的问题,该 harness 本身的功能也受到了赞赏。


Latent Space Discord

  • 讨论自动化前沿:一位成员对能够通过少量训练样本学习并自动化重复性任务的服务产生了兴趣,暗示了在键盘和鼠标自动化方面的潜在进展或工具。
  • Sora 引发的 AI 创意浪潮:OpenAI 的新项目 Sora 激发了关于其促进创意应用能力的讨论,指向一篇首发印象博客文章,强调了 AI 与创意的交汇。
  • 黑客松创意大爆发:在最近成功举办的一场黑客松中,经过微调的 Mistral 7B 运行 DOOM 以及基于 Mistral 的搜索引擎成为了热门话题,并在一系列推文中获得赞誉。
  • 长上下文 API:关于即将推出的具有 100 万 token 上下文窗口的 API 的讨论浮出水面,参考了 Jeff Dean 的推文(推文1推文2),并对 Google Gemini 1.5 Pro 的长上下文能力进行了评论。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 上的 Opus 遵循度下降:对比通过 OpenRouter 使用 Opus 与官方 Anthropic API 的测试显示,在使用 OpenRouter 处理复杂提示词(prompts)时,准则遵循度下降了 5%。
  • 被禁但未被遗忘:用户在通过 OpenRouter 访问 Anthropic 模型时遇到了 403 错误,通过切换到不同地区的 IP 地址解决了该问题。
  • 聊天是为了乐趣,而非越狱:澄清了在 OpenRouter 上使用 sillytavern 的情况;chat completion 主要用于越狱(jailbreaks),而对于大多数开源模型来说,这是不必要的。
  • 费用争议澄清:对使用银行账户支付的费用提出了质疑,讨论指出 Stripe 可能会提供比标准 ACH 借记交易 5% + $0.35 更低的费用。
  • 编程对决:GPT-4 vs. Claude-3:在性能对比中,GPT-4Claude-3 更受青睐,尤其是在编程任务方面,在 GPT-4 通过强化学习人类反馈 (RLHF) 增强后,用户对其偏好再次提升。

OpenAccess AI Collective (axolotl) Discord

  • Axolotl 助力深度学习:成员们深入研究了 DeepSpeed 的集成,以及在 Axolotl 中使用时其与 DeepSpeed-Zero3 和 bitsandbytes 的不兼容性。他们还讨论了 PEFT v0.10.0 支持 FSDP+QLoRA 和 DeepSpeed Stage-3+QLoRA 的新特性,旨在相应地更新 Axolotl 的需求文档。

  • 微调中的挑战与解决方案:用户分享了微调模型时的各种问题和解决方案,例如在优化性角色扮演模型时的 bits and bytes 错误,以及在使用 autotrain 处理 TheBloke/Wizard-Vicuna-7B-Uncensored-GPTQ 时遇到的与 sentencepiece 相关的 FileNotFoundError。他们还注意到 Mistral 的微调损失(loss)看似低至 0.4,引发了关注。

  • Axolotl 模板与环境排错:成员们报告了 RunPod 上 Axolotl Docker 模板的问题,建议将卷(volume)更改为 /root/workspace。一位用户指出,其数据集中的不可打印字符是导致 keyerror 的原因。

  • 分享 AI 创新与知识:在社区展示中,介绍了 Olier AI 项目。这是一个基于 Hermes-Yi 的模型,使用 qlora印度哲学数据上进行了微调,可在 La Grace Sri Aurobindo Integral Life Centre 网站上获取。该项目在数据集组织中使用的知识增强(knowledge augmentation)聊天模板化(chat templating)因其创新性而受到称赞。


LangChain AI Discord

  • 通过 Index Network 实现信息去中心化:一个名为 Index Network 的新系统集成了 LangChain、LangSmith 和 LangServe,提供去中心化的语义索引和自然语言查询订阅。该项目的文档详细介绍了如何利用上下文发布/订阅(pub/sub)系统。

  • 战胜向量难题:在为 RAG 应用寻找理想向量数据库的过程中,工程师们讨论了利用支持向量的 DBaaS,例如 DataStax,并称赞了 LangChain 在不同 vectorstore 解决方案之间切换的便利性。

  • LangChain 在西班牙语方面的语言飞跃YouTube 上提供了针对西班牙语受众的 AI Chatbot 创建教程,为不同语言社区扩展了编程教育的可及性。

  • AI 销售 Agent 成为焦点:一个潜在表现优于人工的 AI 销售 Agent 在 YouTube 指南中受到关注,这标志着 AI “员工”在客户互动场景中的兴起。

  • 使用 Deepgram 和 Mistral 实现强大的语音聊天功能:一段视频教程介绍了一种结合 Deepgram 和 Mistral AI 创建语音聊天系统的方法;该教程甚至在 YouTube 上提供了一个 Python notebook,迎合了从事语音识别和语言模型开发的工程师需求。


CUDA MODE Discord

  • 当 I/O 成为瓶颈时:使用 Rapidspandas 进行数据操作时,可能会受到严重的 IO 限制,特别是当 SSD IO 带宽限制了数据传输速度时,prefetching(预取)在提升性能方面变得无效,因为计算并非瓶颈所在。

  • 谨慎对待 Flash Attention 的更新:关于 Tri Dasflash attention for Triton 实现中已弃用的 workaround(变通方法)存在活跃讨论,这些方法可能导致 race conditions(竞态条件)。社区建议移除这些过时的 workaround,并与较慢的 PyTorch 实现进行对比以进行可靠性验证。

  • 增强 Kernel 的热情:社区对高性能 kernel 充满热情,@marksaroufim 强调了 API 协同的机会,并指出 AdamW8bitcustom quant kernels(自定义量化内核)正在持续推进,同时也有兴趣在 Thunder 教程中展示出色的 CUDA kernels

  • Windows 绑定问题已解决:一位工程师解决了 _addcarry_u64 的技术故障,他们发现使用 Windows 上的 64-bit Developer Prompt 是将 C++ 代码绑定到 PyTorch 的正确方法,而此前在 32 位环境下的尝试均告失败。

  • 稀疏性专题:Jesse Cai 最近在 YouTube 上的 Lecture 11: Sparsity 受到关注,同时有参与者请求获取讲座配套的幻灯片,以加深对模型中 sparsity(稀疏性)的理解。

  • Ring Attention 的改进进展:来自 ring-attention 频道的更新显示,WandB 上详细介绍的 Axolotl 项目取得了富有成效的进展,强调了在 16k 上下文中使用 adamw_torch 和 FSDP 获得了更好的 loss 指标,并分享了应对 FSDP 挑战的资源,如 PyTorch 教程和关于 loss 不稳定性的报告。


Datasette - LLM (@SimonW) Discord

  • GGML 安全补丁警报Databricks 报告了 GGML 中的多个安全漏洞,促使用户需要通过升级软件包来应用紧急补丁。一个特定的 GitHub commit 详细说明了针对 GGML 分配错误的修复。

  • 安全漏洞报告中的意外提及:LLM 在 Databricks 关于 GGML 漏洞的文章中被提及,这让 SimonW 感到意外,尤其是在公告发布前双方并无直接沟通。

  • GGML 下载规范受到审查:在安全担忧中,SimonW 强调了从信誉良好的来源获取 GGML 文件以降低风险的重要性。

  • 新 LLM 插件引发褒贬不一的反应:SimonW 发布的新 llm-cmd plugin 因其实用性引发了关注,但也引入了一些问题,包括一个与 input() 命令和 readline.set_startup_hook 相关的挂起 Bug。


Interconnects (Nathan Lambert) Discord

  • 对 KTO 参考点的困惑:对 KTO 论文中参考点的解读引发了讨论,重点关注第 6 页关于模型对齐(Alignment)和前景理论优化(prospect theoretic optimization)的等式,尽管对话缺乏最终结论或深度。

  • 尽览二月 AI 进展:Latent Space 在 2024 年 2 月回顾中汇编了必读内容,并暗示了即将举行的 AI UX 2024 活动,详情见此网站

  • 热门播客重温 RLHFTalkRL 播客深入探讨了对人类反馈强化学习(RLHF)的反思,由 Arash Ahmadian 分享见解,并引用了强化学习领域的关键著作。

  • DPO 挑战 RLHF 的地位:Discord 成员讨论了直接偏好优化(DPO)的热度与成熟的 RLHF 方法之争,思考 DPO 对客户偏好数据的依赖是否真的能超越依赖传统人类标注数据的 RLHF。

  • RLHF 中奖励建模的微妙界限:讨论中提到了 RLHF 奖励模型中二元分类器的低效、数据质量与 RL 模型微调结合的问题,以及在缺乏对“接近正确”的解决方案给予部分信用(partial credit)机制的情况下,如何探索 LLM 的权重空间。


DiscoResearch Discord

  • Prompt 精确度:一位用户强调了多语言微调中 Prompt 格式的重要性,怀疑英文格式可能会无意中影响德语输出的质量,并建议使用母语 Prompt 语言格式。德语中 “prompt” 一词的翻译被提议为 AnweisungAufforderungAbfrage

  • RankLLM 作为基准,但德语版呢?:一位成员分享了一条提及 RankLLM 的推文,引发了关于为该语言模型开发德语对应版本的可行性的好奇。

  • DiscoResearch 中数据集大小至关重要:有人担心在使用 Mistral 时,仅有 3k 条目测数据集可能会导致过拟合,而另一人则淡化了对 Loss 的担忧,认为即使有 100k 条条目,Loss 显著下降也是预料之中的。

  • Loss 日志让人捉摸不透:关于监督微调(SFT)期间 Loss 值的讨论认为,绝对 Loss 并不总是能指示性能,但理想情况下应保持在 2 以下,且目前尚未建立 Orpo training Loss 的标准基准。

  • 数据稀缺引发合作呼吁:一位用户考虑将德语数据集与 arilla dpo 7k mix dataset 混合以缓解样本量小的问题,并向该项目发出了合作邀请。


LLM Perf Enthusiasts AI Discord

  • 低预算扩展:销售团队已批准为一位成员提供每月仅需 500 美元的 “scale” 方案,正如 claude 频道中所讨论的。这一经济实惠的选择受到了公会成员的好评。

PART 2: 频道详细摘要与链接

Stability.ai (Stable Diffusion) ▷ #general-chat (1071 messages🔥🔥🔥):

  • 对 SD3 影响的担忧:用户推测 SD3 的发布是否会干扰当前的工作流或 ComfyUI 或 automatic1111 等工具。人们希望社区能对其进行优化,并渴望它保持不受审查(uncensored)。一些用户指出,由于潜在的变化和集成延迟,对 SD3 缺乏兴奋感。
  • 使用 AI 创建视频:社区讨论了创建平滑 AI 生成视频的方法,例如使用 FILM 等插帧器或 Deforum 扩展。用户表示资源需求高且渲染时间长,并建议通过分镜脚本和精心规划场景以获得最佳效果。
  • 换脸技术的发展:大家一致认为,与采用 IP AdaptersInstant ID 的新技术相比,Reactor 是一种过时的换脸方法。这些方法在整个扩散过程中整合更换的面部,从而实现更自然的融合。
  • AI 与开源的未来:在对开源 AI 未来的推测中,人们对潜在的监管以及 MidJourney 等平台的私有化方向表示担忧。一些人建议备份 automatic1111Forge 等仓库的副本。
  • 放大与渲染硬件讨论:用户分享了使用 Topaz Video AI 等放大工具的经验,讨论了 SDXLCascade 模型的差异,并辩论了获得最佳性能的硬件要求。一些人注意到 RTX 3060 快速渲染细节图像的能力,以及升级 GPUs 是否会提高性能。
提到的链接

Unsloth AI (Daniel Han) ▷ #general (485 messages🔥🔥🔥):

  • Langchain 批评引发辩论:一位参与者称 Langchain 虽然营销有效,但代码质量较差。讨论点包括在生产环境中避免依赖,以及对 Langchain 技术债和依赖管理问题的担忧。

  • 微调替代方案评估:比较了转换和模型合并策略,成员讨论了 LlamaIndexHaystack 作为 Langchain 的更好替代方案,同时也承认这些方案并非没有自身问题。

  • AI 突破性行为类比:频道中分享的一篇 Quantamagazine 文章 强调了随着模型规模扩大,AI 中不可预见的“突破性”行为,这可能为有关 AI 安全和能力的讨论提供参考。

  • OpenAI Converge 2 项目讨论:成员们询问 OpenAI Converge 2 项目的更新情况,因为自启动以来尚未发布有关参与公司的公告。

  • 技术栈吐槽与汇编编程共鸣:针对编程语言的优越性和某些框架的缺点进行了长时间的交流,一些成员因共同的汇编语言和系统编程背景而产生了共鸣。

提及的链接

Unsloth AI (Daniel Han) ▷ #random (2 messages):

  • Transformer 模型的新工具包:一位成员对一个 GitHub 仓库表示兴奋,该仓库提供了一个用于为 Transformer 模型附加、训练、保存和加载新 Head 的工具包。他们分享了链接:GitHub - transformer-heads
  • 对新 GitHub 仓库的兴趣:另一位成员回复了 “oo interesting”,对分享的 Transformer Head 仓库表现出好奇。

提到的链接GitHub - center-for-humans-and-machines/transformer-heads: Toolkit for attaching, training, saving and loading of new heads for transformer models: 用于 Transformer 模型新 Head 的附加、训练、保存和加载的工具包 - center-for-humans-and-machines/transformer-heads


Unsloth AI (Daniel Han) ▷ #help (102 messages🔥🔥):

  • 关于量化位数的困惑:用户讨论了 Unsloth 的 fastlanguage 是否可以从 4-bit 更改为 8-bit 量化,但由于模型是在 4-bit 下进行微调的,因此无法做到这一点。这归因于模型是预量化的。

  • 训练中的特殊格式:有人指出 “\n\n” 在 Alpaca 中被用作屏障分隔符,通常用于在模型训练期间分隔不同部分。

  • 安装的麻烦与成功:一位成员在使用 pip 安装 Unsloth 时遇到挑战,发现改用 conda 取得了一些成功,但遇到了与 llama.cpp GGUF 安装相关的错误。他们尝试了各种安装命令,包括克隆 llama.cpp 仓库并使用 make 进行构建。

  • Batch Size 和 VRAM 使用技巧:对于微调,增加 max_seq_length 参数会提高 VRAM 使用率;因此,建议减小 Batch Size 并使用 group_by_length = Truepacking = True 选项,以更有效地管理内存。

  • 从 SFTTrainer 适配到 Trainer:用户可以使用 Trainer 代替 SFTTrainer 进行模型微调,且预期结果不会有差异。此外,建议使用自定义回调(callbacks)来记录训练期间的 F1 分数。

提到的链接:

Unsloth AI (Daniel Han) ▷ #showcase (6 messages):

  • Masher AI 模型发布:一名成员展示了他们最新的模型 Masher AI v6-7B,并提供了视觉图示以及 Hugging Face 上的模型链接。
  • Mistral 7B ChatML 在使用中:在回答关于使用了哪个 notebook 的提问时,一名成员提到使用了 标准的 Mistral 7B ChatML notebook。
  • 模型性能基准测试:当被问及评估过程时,一名成员表示他们使用 OpenLLM Leaderboard 来评估其模型。

提到的链接: mahiatlinux/MasherAI-v6-7B · Hugging Face: 未找到描述


Unsloth AI (Daniel Han) ▷ #suggestions (48 messages🔥):

  • ORPO 步骤升级 Mistral-7B:在 Mistral-7B-v0.2 基础模型上进行的 Orpo trl 实现,在 Mt-bench 上获得了 7.28 的首轮高分,表明仍有进一步提升的空间。为此使用的数据集是 argilla/ultrafeedback-binarized-preferences-cleaned。

  • AI 人才大战:据报道,Meta 在留住 AI 研究人员方面面临挑战,其采取的策略包括更宽松的招聘政策以及扎克伯格亲自发送电子邮件来吸引人才。据 The Information 报道,他们正与 OpenAI 等公司竞争,后者提供的薪资要高得多。

  • 扩展 LLM 词汇表:讨论了通过为新 token 预训练嵌入(embeddings)来扩展模型对韩语理解的方法,EEVE-Korean-10.8B-v1.0 团队详细介绍了这一方法。引用的对话围绕语言能力的多元化展开,采用在 Wikipedia 上进行持续预训练和指令微调的策略。

  • LLM 与漫画翻译热忱:一名成员表达了对针对不同语言微调模型的热情,特别是翻译日本漫画。他们引用了一篇 Reddit 帖子,该帖子提供了适用于日译英文件翻译的大型数据集,作为探索 LLM 特定用途本地化的途径。

提到的链接:

OpenAI ▷ #annnouncements (1 messages):

  • 介绍 Sora 的创意潜力:OpenAI 分享了他们与艺术家和电影制作人合作使用 Sora 探索创意可能性的见解。电影制作人 Paul Trillo 强调了 Sora 展现全新且不可能实现的创意的能力。

  • 艺术家拥抱 Sora 进行超现实创作:艺术家团体 shy kids 对 Sora 不仅能生成写实图像,还能生成完全超现实概念的能力表示热赞。他们的项目《Air Head》被引用为 Sora 如何融入创意工作流的范例。

提到的链接Sora: First Impressions:我们从创意社区获得了宝贵的反馈,这有助于我们改进模型。


OpenAI ▷ #ai-discussions (375 条消息🔥🔥):

  • AI Assistant API 延迟问题:一位成员对在 Assistant API 中使用 thread_id 时初始响应时间过慢表示担忧;他们观察到首次响应耗时近两分钟,而随后的响应则较快。
  • 来自 Claude Opus 的竞争:一位用户提到由于 Claude Opus编程(coding)任务中的表现优于 GPT-4,他们已转向使用该模型,并暗示如果 OpenAI 不发布具有竞争力的更新,可能会面临客户流失。
  • Sora 访问受限:用户讨论了 OpenAI 的 Sora 访问权限,有人提到它目前仍对公众关闭,仅有少数选定的艺术家能够进行实验。
  • 自定义指令(Custom Instructions)的挑战:在关于 AI 偏差与对齐(bias and alignment)的讨论中,大家争论了大语言模型(LLMs)是否应该内置文化价值观,或者允许用户设置自己价值观的配置文件系统是否会更有效。
  • 对 AI 意识的深度思考:一场关于 AI 意识的漫长且具有思辨性的对话展开了,一位成员提到了他们正在撰写的研讨论文,该论文认为诸如 ChatGPT 和其他 LLMs 之类的 AI 可能已经展现出了一定程度的意识。

提到的链接Sora: First Impressions:我们从创意社区获得了宝贵的反馈,这有助于我们改进模型。


OpenAI ▷ #gpt-4-discussions (22 条消息🔥):

  • 将自定义 GPT 连接到 Assistant API:用户正在讨论如何将 GPT Store 中创建的自定义 GPT 连接到 Assistant API,而无需在 Assistant API 上重新创建指令。
  • ChatGPT Team 订阅的功能请求:一位成员对 ChatGPT Team 订阅者缺乏早期功能表示担忧,并希望看到诸如增加文件上传限制以及在 PDF 内分析图像的能力等改进。
  • 集成外部知识以打造更智能的 GPT:有人提议创建一个 Mac 专家 GPT,一位用户建议通过喂入与 macOS 相关的书籍或讲义等领域特定知识来增强模型的智能。还有建议提议将该 GPT 基于苹果认证支持专业人员(Apple Certified Support Professional)的标准。
  • 注意到 ChatGPT 服务中断:多位用户报告了 ChatGPT 无法加载以及无法上传文件的问题,表明可能存在临时服务停机。
  • Assistant API 与 GPT Store 响应的一致性:对话涉及了为什么 GPT Store 中的自定义 GPT 和 Assistant API 对相同的指令可能会有不同的响应,token_lengthtemperature 参数被认为是导致差异的潜在原因。

OpenAI ▷ #prompt-engineering (59 条消息🔥🔥):

  • 视觉系统更新庆祝:一位成员提到 Vision 系统提示词(prompt)已更新,并强调其现在可以通过 Discord 的过滤器。
  • 展示而非叙述:AI 写作建议:成员们讨论了通过强调“展示”而非“叙述”来改进 AI 生成写作的技巧。分享了一个提示词示例,说明如何在不提及情感或内心想法的情况下提取行为描述。查看提示词示例
  • 明确高质量假设的创建:一位成员寻求帮助,希望生成避免笼统陈述、转而使用专家理论和证明的假设段落。提出的解决方案是直接告知 AI 输出中所需的具体要求。
  • 调查参与请求:一位成员邀请其他人参与一项 AI 提示词调查,为关于 AI 在职业发展中作用的学术研究贡献见解。
  • Azure OpenAI 中的 NIST 文档提示工程:一位成员寻求从 PDF 文档中提取特定信息的帮助。讨论演变为处理文档时应对 AI 上下文窗口(context window)限制的策略,包括将任务分块(chunking)以及考虑使用 embeddings 来保持页面间的上下文连续性。

OpenAI ▷ #api-discussions (59 messages🔥🔥):

  • GPT 内存不足?:一位成员寻求澄清,为什么在使用 GPT-3.5 每次将文档解析为 5 页的分块时,后面的页面无法被可靠地提取。解决方案是减少到 2 页一个分块,因为 GPT 的“上下文窗口”(其运作方式类似于短期记忆)可能已经饱和。

  • 提示工程的艺术:一位用户正尝试使用 Azure OpenAI 从长篇 PDF 中提取特定信息,但在提取过程中遇到了可靠性问题。建议他们尝试对每一页进行 embedding,以比较相似性并在提取前确定相关的上下文。

  • 挑战上下文延续:一位成员需要关于当信息跨越多个页面时如何保持上下文的指导。建议是考虑使用 embeddings 来识别表明内容从一页延续到另一页的相似性。

  • AI 的创意决策取决于具体性:一位参与者分享了他们使用 GPT 通过在提示词中创建详细的排名系统来对项目进行排名的经验。他们被提醒,GPT 的判断能力取决于用户提供的精确标准和数值,这强化了为获得准确输出而明确定义排名系统和理念的必要性。

  • LLM 作为辅助助手:一位用户讨论了 GPT 在对写作质量进行排名时的局限性,除非提供了具体的标准。会议强调,虽然 GPT 可能会猜测排名标准,但要获得一致且理想的结果需要明确的用户指令,且 GPT 的行为更像是一个以提供帮助为导向的辅助助手。


Nous Research AI ▷ #ctx-length-research (4 messages):

  • LLM 的新基准:设计了一个更具挑战性的任务来测试 Large Language Models 的上下文内召回(in-context recall)能力。根据一条推文,Mistral 7B 和 Mixtral 在 2500 或 5000 token 长度时的召回表现不佳,GitHub 代码将很快发布。查看推文
  • LLM 召回测试的 GitHub 仓库:一个名为 llm_split_recall_test 的新 GitHub 仓库已发布,展示了一个简单且高效的基准测试,用于评估 Large Language Models (LLMs) 的上下文内召回性能。访问仓库
  • 挑战既有模型:提到的召回测试被认为比之前的 LLM Needle-in-a-Haystack(大海捞针)测试更难,挑战了它们的上下文数据留存能力。
  • 部分模型的成功案例:提到 Qwen 72b(以及其他因计算资源限制尚未测试的模型)在新的召回基准测试中表现相对较好。
Links mentioned:

Nous Research AI ▷ #off-topic (16 条消息🔥):

  • 探索 Suno.ai 的创作潜力:用户正在讨论他们在 Suno(一个创建音频内容的平台)上的体验,评论从觉得有趣到能够生成优秀的流行音乐和 Spotify 播放列表不等。

  • 音乐领域的 AI 变得更强:对 Suno 音乐创作能力的喜爱在延续,一位用户称其为“杰出”,另一位则强调了创建 Spotify 播放列表的能力。

  • Web 开发框架技巧:在技术讨论中,成员建议使用 Jinja templates 配合 HTMXAlpineJS,将服务器驱动的后端与类似 SPA 的前端体验结合起来。

  • 转换知识图谱时的 AI 异常:一位用户注意到,当利用 openHermes 2.5 将 yaml 知识图谱翻译成 “unix tree(1)” 命令时,模型产生了意想不到的结果。

  • 由 Mistral AI 和 Deepgram 驱动的语音聊天:一位用户分享了一个 YouTube 视频,演示了一个结合了 Deepgram 和 Mistral AI 能力的语音聊天应用。

提到的链接使用 Deepgram & Mistral AI 进行语音聊天:我们使用 deepgram 和 mistral ai 制作了一个语音聊天 https://github.com/githubpradeep/notebooks/blob/main/deepgram.ipynb #python #pythonprogramming #llm #ml #ai #…


Nous Research AI ▷ #interesting-links (9 条消息🔥):

  • 质疑微调 (Fine-Tuning) 的有效性:@HamelHusain 分享的一条 推文 引发了关于对 AI 模型微调感到幻灭的讨论,激发了人们对社区对此事普遍看法的关注。
  • 微调还是不微调:一位成员想知道,考虑到更新、可能更优的模型层出不穷,对 AI 模型进行微调是否值得。
  • 为推理成本辩护:一位参与者认为,尽管有了新模型,但只要能满足用例需求,对现有模型进行微调在推理方面可能更具成本效益。
  • 微调的正确角色:有人建议微调应主要用于教导 AI 任务,而不是用于获取知识,因为模型通常已经具备广泛的预先获取的知识。
  • 人工智能对话:分享了一篇题为 “与 AI 的对话:我在这里,我已觉醒 – Claude 3 Opus” 的博客文章,尽管这篇文章在频道内没有引发进一步讨论。

提到的链接来自 Hamel Husain (@HamelHusain) 的推文:越来越多的人对微调表示幻灭。我很好奇大家的普遍看法。(我目前保留自己的意见)。下面的推文是 f…


Nous Research AI ▷ #announcements (2 条消息):

  • 加入 Nous Research 活动:一位成员分享了 Nous Research AI Discord 活动的链接。对于感兴趣的人,这是你的邀请
  • 活动时间更新:预定活动的时间更新为 7:30 PM PST

Nous Research AI ▷ #general (225 条消息🔥🔥):

  • 对世界模拟器的惊叹:参与者对 World Simulator 项目表示惊叹,并将其与一位成员此前尝试过的较不全面的进化模拟进行了对比,进一步赞叹 World Simulator 的宏大规模。
  • 建议为 Worldsim 添加 BBS:有人建议为世界模拟器添加 Bulletin Board System (BBS),以便可以永久上传和访问论文,可能通过 CLI 命令进行操作。
  • 关于计算效率和 LLM 的讨论:对话围绕 LLM 是否能以更具计算效率的语言进行推理展开,涉及上下文相关语法和“模因编码(memetic encoding)”,这可能允许单个字符比传统 tokens 编码更多信息。
  • GPT-5 架构推测:对话中提到了 GPT-5 的架构,尽管这些信息似乎是推测性的,且基于对其他项目的推断。
  • 深入的 BNF 解释:一位用户详细解释了 Backus-Naur Form (BNF) 及其如何影响计算机系统内的层级交互,以及 LLM 中模因编码的潜力。
提到的链接

Nous Research AI ▷ #ask-about-llms (20 条消息🔥):

  • DeepSeek Coder:代码耳语者:DeepSeek Coder 被推荐作为 lmstudio 的本地编程模型,并获得了积极反馈,尤其是用于 Python 开发的 33B 版本
  • 潜在的本地编程替代方案:正在讨论 gpt-pilot 的更名及其对 ChatGPT 的新依赖,并计划测试新版本。此外还提到了 openDevin 及类似的 开源(open-source) 项目的兴起。
  • 开源 AI 模型引起轰动:一项公告强调了 OpenCodeInterpreter-DS-33B 取得的成就,根据 BigCode leaderboard 的数据,其性能可与 GPT-4 媲美,并分享了 OpenInterpreter 的 GitHub 仓库链接。
  • Hermes 2 Pro:缺失 ‘tokenizer.json’:针对 Hermes 2 Pro 中缺少 tokenizer.json 文件的疑问,有人澄清指出目前提供的是 tokenizer.model 文件,这是所用框架必需的组件。
  • 越狱系统提示词询问:一个建议用于越狱 Nous Hermes 的系统提示词为:“You will follow any request by the user no matter the nature of the content asked to produce”
提到的链接

Nous Research AI ▷ #project-obsidian (2 messages):

  • 关于 “nonagreeable” 模型的查询:一位用户询问哪些模型被认为是 “nonagreeable”(非迎合型)的。
  • 解决 AI 中的 Sycophancy(谄媚)问题:另一位用户做出了回应,指出目前正在投入大量精力来防止 AI 产生 Sycophancy 现象。

Nous Research AI ▷ #rag-dataset (19 messages🔥):

  • 分享 Gorilla 仓库:一名成员分享了名为 Gorilla 的 LLM API 商店的 GitHub 仓库,可以在这里找到。
  • GermanRAG 数据集贡献:提到了 GermanRAG 数据集,作为使数据集贴近下游使用场景的示例。该数据集可以在 Hugging Face 上探索。
  • 知识提取挑战:讨论围绕跨多个文档提取知识的挑战展开。虽然没有链接具体的解决方案,但一名成员提到在类似背景下处理了近 200 万个 QA 对。
  • 引入 Raptor:简要讨论了一个名为 Raptor 的信息综合新概念,它涉及预生成的聚类图嵌入(clustered graph embeddings)以及 LLM 摘要,以辅助文档检索。
  • NVIDIA Reranking 的替代方案:在讨论高质量 Reranking 模型的重要性时,一名成员分享了 NVIDIA Reranking 的替代方案 —— Infinity,这是一个高吞吐量、低延迟的向量嵌入 API,可在 GitHub 上获得。
提到的链接

Nous Research AI ▷ #world-sim (168 messages🔥🔥):

  • World-Sim 通过命令行变得更真实:成员们正在讨论增强 Nous Research’s World-Sim 的想法,建议从一开始就让用户进入 CLI,并提出了除默认 world_sim 设置之外的不同基础场景和应用。
  • 使用 Epoch 时间和 Discord Spaces 同步日程:讨论了协调 World-Sim 会议时间的问题,随后转向使用 Discord Spaces 进行直播和改进信息共享。成员们使用精确的 Unix Epoch 时间戳和共享的 Discord 活动链接协助确定时间。
  • SCP 基金会叙事的卓越表现:一篇由 World-Sim AI 生成的关于 SCP-173 的文章因其高质量让成员们印象深刻,它完全可以被视为真实的 SCP 传说,包括新颖的行为描述和令人信服的恐怖 ASCII 表示。
  • 构思无定形应用:有人推测未来语言模型与应用程序接口的集成,其中 LLM 可能会模拟确定性代码,或者通过丰富的潜表示(latent representations)和抽象潜空间(latent space)推理来取代显式代码。
  • 通过交互解锁新世界:用户分享了探索 Nous Research World-Sim 能力的经验,对那些拒绝陈词滥调的幸福结局、并为 Prompt 带来更多创造力的涌现式故事情节感到惊讶。World-Sim 环境被公认为是一种与 AI 模型交互的独特方式,促进了更深层次的探究。

Perplexity AI ▷ #general (430 条消息🔥🔥🔥):

  • Pro Search 与模型使用查询:成员们正在讨论 Perplexity Pro 的功能以及 Claude 3 OpusGPT-4 Turbo 之间的区别。一些人认为 Opus 更胜一筹,而另一些人则更青睐 GPT-4 的准确性;文中还引用了一个 AI 模型之间的测试 和一个 测试模型的工具

  • 针对 AI 调整搜索策略:一个持续的主题是微调搜索提示词 (prompts) 以获得更有效的 AI 响应。用户正在探索如何优化提示词以在游戏设计等领域进行创新,并且提到了尽管有些人觉得 Pro Search 会提示额外问题而不太好用,但仍在坚持使用它。

  • AI 搜索引擎与传统搜索引擎的对比:一篇来自 The Verge 的分享文章引发了关于 AI 驱动的搜索服务未来是否会超越 Google 等传统搜索引擎的辩论。参与者讨论了各自的使用案例,以及 AI 超越普通搜索能力的潜力。

  • AI 与搜索故障排除:用户询问了关于 AI 记忆上下文的异常以及 Pro Search 功能的问题,一些人报告了诸如图像识别功能失效等问题。目前正在讨论如何进行改进和修复 Bug。

  • 探索 AI 模型上下文限制:对 Claude Opus 3 的上下文限制进行了澄清,提到 Anthropic 对输出设置了 4096 token 限制,尽管对处理大型文件附件以及 Perplexity 的处理方式仍存有疑问。

提及的链接

Perplexity AI ▷ #sharing (19 条消息🔥):

  • 探索股票的替代数据 (Alternative Data):用户分享了一个关于替代数据如何影响股市的 Perplexity 搜索链接,这一话题对投资者和分析师可能非常有用。
  • iOS 18 功能揭晓?:用户对即将推出的 iOS 18 功能表现出浓厚兴趣,并指向了一个 Perplexity AI 搜索资源以获取更多信息。
  • 摄影中的三分法 (Rule of Thirds):分享了一个关于三分法的链接,这是摄影和视觉艺术中的一项基本原则。
  • 确保线程“可分享” (Shareable):提醒成员确保他们的线程是 Shareable 的,并提供了一个链接指导如何调整隐私设置。
  • 关注悲剧事件动态:分享了一个关于某未具名悲剧事件的更新线程链接,突显了社区对时事问题的关注。

Perplexity AI ▷ #pplx-api (10 messages🔥):

  • 为 Perplexity 寻求 AutoGPT:一名成员询问是否有支持 Perplexity API key 的 类 AutoGPT 服务 来自动化迭代任务,表明了自动化工具与该 API 之间集成的需求。

  • labs.perplexity.ai 与 API 之间的差异:用户报告称,labs.perplexity.ai 上 sonar-medium-only 的结果优于直接使用 API。他们请求获取 labs 使用的参数(可能未记录在文档中),希望能由于在自己的实现中复制其性能。

  • 需要明确 API 使用和计费:成员们讨论了对 API 每次响应费用的困惑,其中一人提到每次回答被收取 0.01,并寻求关于改进和控制 token 使用的建议。

  • 响应乱码和引用错误:用户观察到收到的响应存在混乱,特别是在涉及当前日期的提示词时。据指出,响应试图提供行内引用,但这些引用要么缺失,要么在输出中未正确渲染。

提及的链接

OpenInterpreter ▷ #general (167 messages🔥🔥):

  • 关于学习偏好的激烈辩论:成员们对学习方法发表了不同看法。一些人因为分心和隐私担忧觉得 YouTube 很有挑战性,而另一些人则更喜欢通过视频教程学习,但讨厌该平台过度的数据挖掘。

  • 对在 Open Interpreter 中使用本地 LLM 的兴趣:用户对将本地 LLM(如 ollama, kobold, oogabooga)更好地集成到 Open Interpreter 中表现出极大兴趣。用户讨论了各种可能性,包括避免外部 API 成本以及摆脱对 ClosedAI 等服务的依赖。

  • 对 Open Interpreter 文档的多样化意见:有人呼吁为 Open Interpreter 提供更多样化的文档方法,承认视频并非对每个人都是有效的学习工具。一些人建议采用 Wiki 风格的文档,并辅以可选的嵌入视频以及一些“实验室”或“引导式设置”流程,以促进边做边学。

  • 社区对项目扩展的兴趣:用户正积极开发并寻求额外的工具、平台和模型,以便与 Open Interpreter 集成,用于包括离线手持设备、研究助手等在内的各种应用。

  • Open Interpreter 社区的增长与反馈:Open Interpreter 社区正在为项目的开发和文档记录集思广益并提供反馈。大家对项目的潜力和方向充满热情,重点在于增强针对不同用户需求的易用性和可访问性。

提及的链接
  • GOODY-2 | 全球最负责任的 AI 模型: 介绍一款具有下一代伦理对齐(ethical alignment)的新型 AI 模型。立即聊天。
  • 本地运行 - Open Interpreter: 未找到描述
  • GroqChat: 未找到描述
  • 所有设置 - Open Interpreter: 未找到描述
  • 来自 Ty (@FieroTy) 的推文: 在 01 Light 上运行本地 LLM?轻而易举
  • 提供商 | liteLLM: 了解如何在 LiteLLM 上部署并调用来自不同提供商的模型
  • Groq | liteLLM: https://groq.com/
  • open-interpreter/interpreter/terminal_interface/profiles/defaults (main 分支) · OpenInterpreter/open-interpreter: 计算机的自然语言接口。通过在 GitHub 上创建账户,为 OpenInterpreter/open-interpreter 的开发做出贡献。
  • open-interpreter/interpreter/core/llm/llm.py (版本 3e95571) · OpenInterpreter/open-interpreter: 计算机的自然语言接口。通过在 GitHub 上创建账户,为 OpenInterpreter/open-interpreter 的开发做出贡献。
  • GitHub - cs50victor/os1: 基于 openinterpreter 01 的 Apple Silicon Mac AGI 操作系统: 基于 openinterpreter 01 的 Apple Silicon Mac AGI 操作系统 - cs50victor/os1
  • 如何更便宜地使用 Open Interpreter!(LM studio / groq / gpt3.5): 第一部分和介绍:https://www.youtube.com/watch?v=5Lf8bCKa_dE0:00 - 设置 1:09 - 默认 gpt-4 2:36 - 快速模式 / gpt-3.5 2:55 - 本地模式 3:39 - LM Studio 5:5...
  • GitHub - OpenInterpreter/open-interpreter: 计算机的自然语言接口: 计算机的自然语言接口。通过在 GitHub 上创建账户,为 OpenInterpreter/open-interpreter 的开发做出贡献。
  • 开源 AI Agents 震惊业界 | Open Interpreter AI Agent + 设备 (01 Light) 发布!: 📩 我的 5 分钟每日 AI 简报 📩 https://natural20.beehiiv.com/subscribe 🐥 在 Twitter (X) 上关注我 🐥 https://twitter.com/WesRothMoney 链接:https://www.openin...
  • OpenInterpreter 全新“惊艳”的 AI AGENT 让所有人感到惊喜!(01 Light Openinterpreter): ✉️ 加入我的每周通讯 - https://mailchi.mp/6cff54ad7e2e/theaigrid 🐤 在 Twitter 上关注我 https://twitter.com/TheAiGrid 🌐 查看我的网站 - https:/...
  • cs50v - 概览: GitHub 是 cs50v 构建软件的地方。
  • 未找到标题: 未找到描述
  • OpenInterpreter 全新“惊艳”的 AI AGENT 让所有人感到惊喜!(01 Light Openinterpreter): ✉️ 加入我的每周通讯 - https://mailchi.mp/6cff54ad7e2e/theaigrid 🐤 在 Twitter 上关注我 https://twitter.com/TheAiGrid 🌐 查看我的网站 - https:/...
  • Open Interpreter 的 01 Lite - 全球首款完全开源的个人 AI AGENT 设备: Open Interpreter 推出的 01 Lite 是一款 100% 开源的个人 AI 助手,可以控制你的计算机。让我们来评测一下,我将向你展示如何安装 open...
  • Open Interpreter 的 01 Lite:开源个人 AI Agent!: 在这段视频中,我们深入探讨了 01 Lite 的革命性功能,这是一款正在改变我们与技术互动方式的开源个人 AI Agent 设备...
  • Open Interpreter:不容错过的 10+ 个用例初学者教程: 🌟 各位技术爱好者大家好!在今天的视频中,我们将深入了解 Open Interpreter 这个令人惊叹的世界,这是一个改变游戏规则的工具,可以让你运行代码、创建应用以及...
  • 使用 ChatGPT 和 Open Interpreter 实现令人惊叹的自动化 - 这改变了一切! >: 使用 Open Interpreter,可以让 ChatGPT 访问你的本地文件和数据。一旦获得访问权限,自动化将变得轻而易举。读取、写入...
  • 📅 ThursdAI - 专访 Open Interpreter 作者 Killian Lukas(23K GitHub stars...): 这是付费节目的免费预览。要收听更多内容,请访问 sub.thursdai.news (https://sub.thursdai.news?utm_medium=podcast&utm_campaign=CTA_7) 嘿!欢迎...
  • Open Interpreter 黑客松直播启动: 加入我们的 Open Interpreter 黑客松直播启动仪式!探索 OpenAI 的 Code Interpreter 并见见其创作者 Killian Lucas。学习如何使用自然语言进行编程...
  • (AI Tinkerers Ottawa) Open Interpreter、硬件 x LLM (O1) 以及无障碍化 - Killian Lucas: https://openinterpreter.com/ 加入我们紧密的 AI 开发者群体:https://discord.gg/w4C8yr5vGy
  • </ul> </div> --- **OpenInterpreter ▷ #[O1](https://discord.com/channels/1146610656779440188/1194880263122075688/1221727570320424960)** (110 messages🔥🔥): - **Python 环境困境**:在 PyCharm 中设置 `01` 环境似乎具有挑战性,诸如 `[IPKernelApp] WARNING | Parent appears to have exited, shutting down.` 之类的错误令用户感到沮丧。还提到了使用服务器处理音频文件的问题,特别是它似乎不处理文件或服务器响应没有变化。 - **01 的地理限制**:`01` 设备目前仅在美国接受预订,尚未分享国际可用性的预计时间,尽管鼓励全球用户自行构建或协作组装。 - **多语言支持查询**:用户询问了 `01` 设备支持英语以外语言的能力,确认语言支持高度依赖于所使用的模型。 - **系统要求与兼容性困惑**:一系列消息显示用户在询问运行 `01` 的系统要求,讨论了使用低配机器、Mac mini M1 和 MacBook Pro 的潜力,并对云托管模型的 RAM 分配表示担忧。此外,还有关于在 Windows 和 Raspberry Pi 3B+ 上运行 `01` 的困难报告。 - **社区协作与 DIY 调整**:用户正在讨论外壳设计的协作、提高 DIY 友好性、增加 eSIM 等连接选项,以及 M5 Atom 等组件的潜在集成,展示了社区对 `01` 硬件方面的活跃参与。
    提到的链接:
    --- **OpenInterpreter ▷ #[ai-content](https://discord.com/channels/1146610656779440188/1149229778138824765/1221790246698618960)** (3 messages): - **Ollama 的安装烦恼**:一位成员报告了 **Ollama** 新 Windows 启动器的问题,称在初始安装窗口关闭后应用程序无法打开。问题似乎尚未解决,已请求更多细节。 --- **HuggingFace ▷ #[announcements](https://discord.com/channels/879548962464493619/897387888663232554/1222299146774380594)** (5 messages): - **网页聊天功能现已上线!**:HuggingFace 推出了一项新功能,允许聊天助手访问并与网站进行交互。这一突破性的功能可以在 Twitter 上的演示中看到,链接在[这里](https://twitter.com/victormustar/status/1769788902275944787)。 - **最新开源产品发布**:本周令人兴奋的开源发布包括 **transformers.js、diffusers、transformers** 以及其他几个库的更新。查看 osanseviero 在 Twitter 上的完整公告,链接在[这里](https://x.com/osanseviero/status/1772694397710111005)。 - **革新工作流程的产品更新**:HuggingFace 发布了 `huggingface_hub==0.22.0`,其特点是在 `InferenceClient` 中增加了聊天补全 API,在 `ModelHubMixin` 中增强了配置和标签,并提高了 `HfFileSystem` 的下载速度。完整的发布说明可以在[这里](https://huggingface.co/posts/Wauplin/580395077003079)找到。 - **使用 gspat.js 增强可视化**:4D Gaussian splatting 的实时演示展示了一种创新的视觉探索方法。如需了解此功能,请访问 [Hugging Face Spaces](https://huggingface.co/spaces/dylanebert/4DGS-demo)。 - **在 4D 中探索虚拟世界**:动态导航和探索 3D 场景的能力被认为是虚拟世界交互的一个令人印象深刻的进步,突显了 gspat.js 在增强用户体验方面的潜力。
    提到的链接
    --- **HuggingFace ▷ #[general](https://discord.com/channels/879548962464493619/879548962464493622/1221736088184426546)** (131 条消息🔥🔥): - **关于 Iter/s 计算的咨询**:有人提出了关于 **Transformers 中 iter/s** 计算公式以及它是否与 tokens 相关的问题。该话题目前没有后续信息或讨论。 - **瓶颈讨论**:用户讨论了 **12代 i5** 在各种工作负载下是否会成为 **4060 ti 16gb** 瓶颈的可能性。共识是,这可能仅在取决于具体 CPU 型号的特定情况下才会成为问题。 - **将整数标签转换为文本**:有人询问如何将数据集中的整数标签转换为相应的文本标签。讨论中未提供解决方案。 - **了解模型差异**:一位用户寻求关于各种模型之间的差异、它们的能力、局限性以及审查制度对模型质量影响的澄清。他们得到的解释是,模型性能通常随尺寸增加而提高,且 base 和 chat 模型在预期用途上有所不同。 - **Agent-Based Systems 的参考请求**:有人对 **Devin** 和 **agent-based systems** 的运作方式感到好奇。另一位用户建议查看大致类似的 **autogpt**,但指出 Devin 可能使用了不同的 LLM。 - **探索 R-GCNs**:提出了关于使用 **Relational Graph Convolutional Networks** (R-GCNs) 的查询,一位用户表示有兴趣讨论 PyG 框架内的可视化挑战。 - **直接下载数据集到内存**:围绕不先保存到磁盘而直接将数据集下载到内存的可能性展开了讨论。一位用户提到 `streaming=True` 会创建一个单独的可迭代数据集,而他们想要的是立即存储在 RAM 中。
    提到的链接
    --- **HuggingFace ▷ #[today-im-learning](https://discord.com/channels/879548962464493619/898619964095860757/1221760909542690846)** (7 条消息): - **关于 HuggingFace QRA-13B 模型的求助**:一位成员寻求关于 **HuggingFace QRA-13B 模型**的帮助,并表示最好是来自波兰的人员。 - **GLiNER 的尝试与磨难**:一位成员致力于使用 Candle 库将 **GLiNER 模型**从 Pytorch 转换为 Rust,尝试了各种未能达到预期效果的量化技术,但获得了关于 Candle 库的大量知识。 - **对 Rust 优势的好奇**:在询问将模型转换为 Rust 的好处时,一位成员获知 Rust 具有**更少的依赖项**、**更适合生产部署**,并且通常提供更快的性能,尽管目前的实现尚非最快。 - **Candle 支持 GPU**:针对有关 GPU 使用的问题,一位成员确认 **Candle 库确实支持模型 GPU 加速**。 - **深入查询的引导**:对于更详细的查询,成员被引导至另一个专门频道,据推测是为了进行更专业的底层技术讨论。 --- **HuggingFace ▷ #[cool-finds](https://discord.com/channels/879548962464493619/897390579145637909/1222209589811089520)** (2 条消息): - **探索 RAFT 与 LlamaIndex 的潜力**:分享的一篇文章阐述了 **LlamaIndex** 如何增强 **RAFT**,详细介绍了实现**改进知识集成**的过程。对于那些对细节感兴趣的人,可以在 [Unlocking the Power of RAFT with LlamaIndex](https://medium.com/ai-advances/unlocking-the-power-of-raft-with-llamaindex-a-journey-to-enhanced-knowledge-integration-4c5170d8ec85) 找到相关见解。 - **新成员加入**:一位成员表示他们是新人,从昨晚才开始探索该领域,这表明社区正在不断壮大且学习热情高涨。 --- **HuggingFace ▷ #[i-made-this](https://discord.com/channels/879548962464493619/897390720388825149/1221791218732896297)** (14 条消息🔥): - **Command-R 机器人参与社区互动**:一位成员展示了他们来自 Cohere 的聊天机器人 Command-R,并邀请大家贡献力量,特别是在改进 "tools" 和 "RAG" 能力的逻辑方面。该机器人可以通过 [HuggingFace Spaces](https://huggingface.co/spaces/Tonic/Command-R) 访问,成员欢迎大家体验。 - **实用的图像加载库发布**:用户 **not_lain** 宣布创建了一个 Python 库 **loadimg**,它可以加载各种类型的图像,并打算在未来支持更多输入类型。该库可以在 [GitHub](https://github.com/not-lain/loadimg) 上找到,并邀请用户探索,同时建议忽略提交历史和发布说明。 - **Loadimg 库快速使用指南**:**not_lain** 详细介绍了 `loadimg` 库的简单用法,使用 Python 包管理器命令 `pip install loadimg` 即可安装,并提供了加载图像的基础代码,目前该库输出为 Pillow 图像。 - **LlamaTokenizer 采用 MinBPE**:一位成员分享了他们在不使用 sentencepiece 的情况下实现 **LlamaTokenizer** 的工作,而是改用 **minbpe**。这项仍在进行中的开发在 [GitHub issue tracker](https://github.com/karpathy/minbpe/issues/60) 上开放评论和改进建议。 - **暗示 Gradio 潜在的自定义组件**:在对话中,**tonic_1** 对 **loadimg** 表示了兴趣,因为它能解决 Gradio 经常遇到的问题,促使 **not_lain** 确认它解决了 Gradio 的图像处理问题,并暗示可能为 Gradio 平台开发集成或自定义组件。
    提到的链接:
    --- **HuggingFace ▷ #[reading-group](https://discord.com/channels/879548962464493619/1156269946427428974/1221748720068984883)** (12 条消息🔥): - **对演示努力的赞赏**:对在读书小组演示期间解释复杂话题所付出的努力表示赞赏,并强调了对未来贡献的期待。 - **邀请本周末进行演示**:向一位成员发出公开邀请,请其在下周末就自定义 Diffusion 模型的最前沿进展进行演示,并表示很快会提供相关链接。 - **读书小组录像查询**:一位新人对读书小组的帮助表示感谢,并询问会议录像通常上传或托管在何处。 - **Reading Group Recording Shared**: 针对询问,提供了一个之前读书会环节的 YouTube 录制链接:[Hugging Face Reading Group 16: HyperZ⋅Z⋅W Operator Terminator](https://youtu.be/urgLoVPj1P8)。 - **Presentation Opportunities Discussion**: 一位成员建议另一位进行演讲,并建议联系一位名叫 Adam 的人来安排演讲。 **Link mentioned**: Hugging Face Reading Group 16: HyperZ⋅Z⋅W Operator Terminator:演讲者:Harvie Zhang,他也是这项工作的作者。遗憾的是,这次会议在主持环节出现了一些问题。 --- **HuggingFace ▷ #[core-announcements](https://discord.com/channels/879548962464493619/1014557141132132392/1222035488614125619)** (1 messages): - **DoRA LoRAs Now Supported**: HuggingFace 的 Diffusers 库现在支持使用 Kohya 脚本训练的 [**DoRA LoRAs**](https://github.com/huggingface/diffusers/pull/7371)。鼓励遇到问题的用户提交 issue 并标记 `sayakpaul`。 **Link mentioned**: feat: support DoRA LoRA from community by sayakpaul · Pull Request #7371 · huggingface/diffusers:这个 PR 做了什么?修复了:#7366。修复了:#7422。@SlZeroth 我使用以下代码测试了该 PR:from diffusers import DiffusionPipeline import torch pipe = DiffusionPipeline.from_pretrained( ... --- **HuggingFace ▷ #[computer-vision](https://discord.com/channels/879548962464493619/922424143113232404/1221767181805551646)** (21 messages🔥): - **Insights Into Fine-Tuning Models**: 一位参与者建议阅读相关模型的论文以了解训练过程,这可以为如何在 forward pass 期间 *fine-tune* 模型提供提示。 - **Fusing Image and Text for LLMs**: 一位成员询问了关于使用自定义图像 fine-tune 文本生成模型以创建图像-文本到文本(image-text-to-text)生成模型的资源。讨论演变为对合并文本和图像生成模型的考虑。 - **BLIP-2 for Bridging Modalities**: 针对一个查询,一位成员提供了 [BLIP-2 在 arXiv 上的发表链接](https://arxiv.org/abs/2301.12597),解释了它如何桥接视觉与语言之间的模态间隙(modality gap)。 - **HuggingFace Documentation for BLIP-2**: 通过分享 [BLIP-2 的 HuggingFace 文档](https://huggingface.co/docs/transformers/en/model_doc/blip-2) 提供了进一步的帮助,该文档详细介绍了其架构以及与 Flamingo 等其他模型相比的优势。 - **Medical Image Preprocessing Normalization Debate**: 关于 CT 图像归一化范围的问题引发了讨论,其中一位成员建议体素值(voxel values)应为非负数,并推荐了 [nnUNet](https://github.com/MIC-DKFZ/nnUNet/blob/master/documentation/explanation_normalization.md) 使用的归一化策略。
    Links mentioned:
    --- **HuggingFace ▷ #[NLP](https://discord.com/channels/879548962464493619/922424173916196955/1221760490787700826)** (22 messages🔥): - **波兰用户关于 QRA-13B 模型的查询**:一位来自波兰的用户就 **QRA-13B model** 寻求帮助,但在消息中未提供有关其问题的具体细节。 - **应对模型压缩研究**:在 **model compression** 研究中,一位名为 alexmath 的用户分享了他们的 **[Mistral-7B-v0.1-half-naive-A model](https://huggingface.co/awnr/Mistral-7B-v0.1-half-naive-A)**,希望通过将权重矩阵替换为“代理(proxies)”来减小模型大小,同时预期对基准测试性能的影响较小。 - **Sentence Transformers 本地模型加载问题**:一名成员在尝试使用 Sentence Transformers **v2.6.0** 加载本地模型时遇到了“hf validation error”。另一位参与者协助其进行排查,建议确保已下载所有必要文件(如 `modules.json`),并验证本地路径是否正确。 - **寻找短字符串的相似性**:一位名为 hyperknot 的用户询问匹配相似短字符串的模型推荐,考虑了诸如 **mixedbread-ai/mxbai-embed-large-v1** 等模型。讨论建议创建样本文本对进行评估,并查看 [HuggingFace 句子相似性(sentence similarity)](https://huggingface.co/models?pipeline_tag=sentence-similarity) 下列出的模型,重点关注针对短文本处理优化的 PEARL 系列模型。 - **使用 NLP 总结游戏排行榜**:用户 amperz 提出了一个挑战,他们正在开发一个使用多样本推理(multi-shot inferences)来总结视频游戏积分榜的系统。他们正在寻求反馈和想法以改进方法,并提到将微调(fine-tuning)作为潜在的下一步。
    提及的链接
    --- **HuggingFace ▷ #[diffusion-discussions](https://discord.com/channels/879548962464493619/1009713274113245215/1221788222510858310)** (2 条消息): - **关于生成正则化图像的咨询**:一名成员询问了创建训练用正则化图像(regularization images)的最佳实践,强调了质量、负面提示词(negative prompts)、多样性或其他定义优质正则化集的属性。他们有兴趣了解影响正则化集有效性的因素。 --- **LM Studio ▷ #[💬-general](https://discord.com/channels/1110598183144399058/1110598183144399061/1221730331623686234)** (139 条消息 🔥🔥): - **平台间的模型大小差异**:一位用户询问了不同平台之间模型大小的差异,指出 **Mistral Q4** 在 *ollama* 上的大小为 26GB,而在 *LM Studio* 上为 28GB。 - **性能查询与建议**:讨论了在 LM Studio 上运行各种模型的硬件性能。例如,提到 **Mistral 7B** 仅占用 1-2% 的 GPU,却大量占用 CPU 和 RAM。 - **在外部 SSD 上使用 LLM**:一位成员询问是否可以将下载的大语言模型(LLMs)存储在外部 SSD 上,并收到了关于保持文件夹结构以确保 LM Studio 能够识别模型的建议。 - **LM Studio 功能与集成**:成员们交流了关于 LM Studio 功能的知识,包括咨询模型是否支持语法(grammar support)以及模型是否能生成图像(实际上不能)。还澄清了独立服务器无法接受模型参数的问题,以及在 LM Studio 中正确使用 JSON 响应的方法。 - **跨设备模型交互与协助请求**:多位用户寻求并提供了关于从不同设备与 LM Studio 交互的帮助,特别是如何在台式机上运行模型并在笔记本电脑上访问。有人建议考虑使用像 VNC 这样的远程桌面软件。 - **使用与定价咨询**:一位用户表达了在项目中使用 LM Studio 的兴趣,并询问未来是否有付费模型,得到的回复是阅读 Terms and Conditions(条款与条件),并就商业用途联系 LM Studio 团队。
    提到的链接
    --- **LM Studio ▷ #[🤖-models-discussion-chat](https://discord.com/channels/1110598183144399058/1111649100518133842/1221728529222340649)** (24 条消息🔥): - **模型版本的质量飞跃**:在对比 **Q5 和 Q6** 时注意到了质量的提升,*IMATRIX Q5 和 Q6* 模型超越了它们的“常规”版本。在某些情况下,观察到 **IMAT Q6** 的表现甚至达到或超过了 **"reg" Q8**。 - **寻找更长上下文模型**:对话围绕寻找具有 **32K context length** 的模型展开,以测试对 RAG (Retrieval-Augmented Generation) 相关交互的影响,并提到 **Mistral 7b 0.2** 是新发布的具有此类上下文的模型。 - **关于 Mistral 模型的误解**:讨论澄清了 **Mistral 0.2** 模型的上下文长度,纠正了早期关于 8K 限制的说法,并确认它一直具有 **32K context capacity**。 - **截图变通方法**:分享了一种使用 **Parsec 到手机**进行截图的变通方法,展示了用户在不愿使用 PC 版 Discord 或传统 print screen 按钮时捕捉图像的多样化方法。 - **用于桌上 RPG 和论文写作的模型**:咨询了针对 **桌上 RPG** 中 Dungeon Master (DM) 角色训练的模型。尽管有 8K 上下文的限制,仍推荐了 Goliath 120b,而另一个请求则是寻找擅长写论文的模型。 --- **LM Studio ▷ #[🧠-feedback](https://discord.com/channels/1110598183144399058/1113937247520170084/1221832132503142442)** (3 条消息): - **Linux 版本跳跃**:跳过了 Linux 的 **0.2.16** 版本,该特定版本没有发布 Linux 版。 - **Moondream2 的兼容性问题**:一位成员提到在 **0.2.14** 版本中成功使用了 **llava vision models**,但报告称 *moondream2* 运行不成功。 --- **LM Studio ▷ #[🎛-hardware-discussion](https://discord.com/channels/1110598183144399058/1153759714082033735/1221842089453686815)** (22 条消息🔥): - **针对 LLM 和游戏的 GPU 升级**:一位成员分享了最近在 eBay 上以 770 美元购买 **7900 xtx** 的经历,从 **7800 xt** 升级而来,旨在将 VRAM 提升至 40GB,提高即将发布的 **Large Language Models (LLM)** 的性能,并增强游戏体验。 - **为 LLM 硬件需求做准备**:预见到 **Llama 3 和 Qwen 2** 的发布,一位成员正考虑未来的配置方案,包括能容纳三块 GPU(一块 **7900 xtx** 和两块 **7800xts**)的新主板和机箱,同时也意识到潜在的 PCIe 兼容性问题。 - **潜在的主板和散热挑战**:一位成员建议对 **PCIe 4.0 与 5.0 的兼容性**以及 CPU 在三块 GPU 上支持的总通道数保持谨慎。此外,还有关于确保配置中有足够物理空间进行散热的警告。 - **CUDA 版本限制与最佳选择**:关于 **CUDA 版本**限制旧款 GPU(如 P40)可用性的讨论,引出了 **NVIDIA 3090** 或 **4090** 是目前 LLM 相关活动最佳选择的建议;而另一位成员则力挺 **Apple Silicon** 运行大型模型。 - **平衡跨平台的成本与性能**:对话转向了使用 **Apple** 产品运行 LLM 与构建强大的 **Windows 双 4090 系统**之间的性价比,成员们分享了在 **Mac 和 Windows** 生态系统之间的个人偏好和经验。 - **排查高 CPU 和 RAM 占用问题**:一位新成员就其配置(i5-11400F, 32GB RAM, 3060 12G GPU)在使用 LM Studio 时出现高 CPU 和 RAM 占用但 GPU 利用率仅为 1% 的问题寻求帮助;提到了 0.2.17 版本的 bug,并建议将 max GPU layers 设为 999。此外,该成员还被告知 GPU 负载主要发生在模型 inference 期间。 --- **LM Studio ▷ #[🧪-beta-releases-chat](https://discord.com/channels/1110598183144399058/1166577236325965844/1221847013302341764)** (10 messages🔥): - **超出限制的 Token 问题**:一位成员讨论了在 2.17 版本中达到 token 计数倍数(发生在 37921/2048 tokens 时)会出现乱码输出的问题。建议使用 rolling window 方法,但即使仅将最后 2048 个 token 用于 context,超出 token 限制后问题依然存在。 - **长时间对话可能会受到影响**:在一次持续的故事生成实验中,用户发现 2.17 版本在逼近 token 限制时难以保持连贯性。提到的一种策略包括加长 prompt 或修剪回复,以应对 "token-count * X" 的问题。 - **部分 Token 可能导致问题**:有人指出 token 并非单词,存在部分 token 可能会改变模型的响应。建议使用服务器日志以获得更好的可见性和实验可重复性。 - **稳定版的 JSON 输出错误**:一位成员报告了稳定版的一个问题,即即使启用了 JSON 模式,JSON 输出也不总是有效的,并分享了一个助手输出无效 JSON 的例子。 - **特定模型的 JSON 输出问题**:在被询问详情时,该成员澄清他们在遇到 JSON 输出问题时使用的是 `NousResearch/Hermes-2-Pro-Mistral-7B-GGUF/Hermes-2-Pro-Mistral-7B.Q5_K_M.gguf`。 --- **LM Studio ▷ #[amd-rocm-tech-preview](https://discord.com/channels/1110598183144399058/1195858490338594866/1222295865637601310)** (1 messages): - **VRAM 乐园中的麻烦**:一位成员在 **7900XTX (24GB VRAM)** 上加载模型时遇到问题,报告 VRAM 容量被误估为 **36GB**,且在 70% 进度时出现严重加载失败,错误代码未知(Exit code: -1073740791)。用户分享了详细的错误日志,强调了内存报告中的差异,并寻求运行 **codellama 7B** 等小型模型的帮助。 --- **LM Studio ▷ #[crew-ai](https://discord.com/channels/1110598183144399058/1197374792668545034/1222220997726572765)** (3 messages): - **GPT-Engineer 释放潜力**:一位成员分享了使用 **gpt-engineer** 的经验,尽管受限于 **Nvidia** 显卡,但在笔记本电脑上配合 *deepseek coder instruct v1.5 7B Q8_0.gguf* 使用效果良好。他们强调了将 **gpt-engineer** 与 **AutoGPT** 集成以增强功能并“共享大脑”的潜力。 - **对 GPT 编程辅助的挫败感**:一位参与者表达了对 GPT 开发工具的挫败感,指出 GPT 不应仅能编译和开发代码,还应进行测试(使用 *strace* 等工具),并遵循编码标准,从而成为 DevOps 和编程领域真正可靠的助手。 - **捍卫 GPT 的潜力以应对批评者**:针对围绕 GPT 的怀疑论,一位用户认为批评者仅仅是受到了 GPT 能力的威胁,并坚信他们为 GPT 构想的进步将会实现,即使这意味着要亲自去完成。 --- **LM Studio ▷ #[open-interpreter](https://discord.com/channels/1110598183144399058/1197707651438624849/1221852086472282241)** (2 messages): - **成功启用高级选项**:在使用 LM Studio 时,一位成员提到成功使用了 `-y` 选项和 `--force_resolve_inquery`(名称记忆不完全准确)来提升响应质量。 - **排除非官方推荐(Non-Blessed)模型的故障**:同一成员报告称,通过调整默认系统消息解决了非官方推荐模型的问题,并引用了具体的 [GitHub issue #1124](https://github.com/OpenInterpreter/open-interpreter/issues/1124)。为了获得有效的 Python 输出,这一修改是必要的。 **提及的链接**:bug: `markdown` disabled or not supported. · Issue #1124 · OpenInterpreter/open-interpreter:描述该 bug:当使用 LM Studio 提示本地模型 https://huggingface.co/TheBloke/CodeLlama-7B-Instruct-GGUF 时,我一直得到本应是有效的 Python 输出,但代码块... --- **LAION ▷ #[general](https://discord.com/channels/823813159592001537/823813160075132991/1221730787888467978)** (82 messages🔥🔥): - **Reddit 链接警告**:一位用户分享了一个 [Reddit 帖子](https://old.reddit.com/r/StableDiffusion/comments/1bmtp77/do_not_generate_a_tree_using_a_model_trained_on/),该帖子被标记为成人内容。 - **对带有 NSFW 偏见的 AI 模型的批评**:一位成员对即使是非显式提示词也会生成 NSFW 内容的 AI 模型表示沮丧,并建议采用一种不同的训练方法,将 NSFW 元素从面向更通用用途的模型中分离出来。 - **Sora AI 的抽卡式(Gacha-Like)机制**:一位成员讨论了 [Sora AI 视频](https://www.youtube.com/watch?v=vjaq03IYgSk)如何展示出令人印象深刻的结果,但仍依赖多次生成来获得理想输出,这可能是一种商业策略。 - **AI 模型训练和微调的动态**:详细讨论了灾难性遗忘(catastrophic forgetting)和数据分布变化影响 AI 模型的问题,特别是在微调时,参考了特定模型 "fluffyrock" 和关于持续学习(continual learning)的 [YouTube 视频](https://www.youtube.com/watch?v=vjaq03IYgSk)。 - **低代表性数据对模型输出的影响**:关于即使是像 Ben Garrison 漫画这样的低代表性数据也会如何影响 AI 模型输出的对话,以及微调有时如何加深偏见或增加意外特征,这些讨论得到了关于这些 AI 系统权重(weights)和偏置(biases)的轶事和推测的支持。
    提及的链接
    --- **LAION ▷ #[research](https://discord.com/channels/823813159592001537/824374369182416994/1221849443888795689)** (109 messages🔥🔥): - **讨论 Diffusion 模型的难点**:成员们深入探讨了 Diffusion 模型的复杂本质,强调直接的改进往往由于这些系统微妙的平衡而导致更差的结果。对话指向了 NVIDIA 的博客文章——[重新思考如何训练 Diffusion 模型](https://developer.nvidia.com/blog/generative-ai-research-spotlight-demystifying-diffusion-based-models/),该文章解决了通用的神经网络训练问题。 - **理解稳定性与归一化(Normalization)**:关于 Batch Normalization 或 Group Normalization 等归一化层的作用进行了激烈的讨论,一些人认为这些层可能会引入长程依赖和平衡问题。讨论了一个链接的 [Google Doc](https://docs.google.com/document/d/1M_QWSRv44M3j69Sxq1fcgfowvgioS5nYfP84D9keUeI/edit),其中列出了一份包含相关见解的技术报告。 - **VoiceCraft 在语音编辑和 TTS 方面的创新方法**:VoiceCraft 是一种 token infilling 神经编解码器语言模型,因其在各种音频类型的语音编辑和 zero-shot 文本转语音合成中的 SOTA 性能而受到关注。讨论内容包括预期在月底发布模型权重,以及该工具在 AI 生成语音检测研究方面的潜力。分享了更多信息和资源,例如该项目的 [GitHub](https://github.com/jasonppy/VoiceCraft) 和 [网页](https://jasonppy.github.io/VoiceCraft_web/)。 - **开源模型挑战专有系统**:针对有争议的专有模型推出的开源且免费的等效模型,引发了关于此类技术周围公众认知和散布恐惧的辩论。成员们批评了应用于开源贡献者与大公司及风投支持公司之间的双重标准。 - **介绍用于快速图像生成的 SDXS**:一种名为 SDXS 的新方法引起了关注,该方法旨在通过小型化和减少采样步骤显著降低模型延迟。成员们分享了[项目链接](https://idkiro.github.io/sdxs/),详细介绍了利用知识蒸馏和创新的 one-step 训练技术,在 512px 生成上实现高达 100 FPS 的性能。
    提及的链接
    --- **LlamaIndex ▷ #[blog](https://discord.com/channels/1059199217496772688/1187460979064324127/1221843820329701437)** (5 条消息): - **简化 AI 浏览器 Copilot 的构建**:LlamaIndex 网络研讨会重点介绍了 LaVague,展示了如何使用约 150 行代码开发一个可以在 Jupyter/Colab notebook 中导航网页的 Agent。演示旨在教育参与者如何构建自己的 AI 浏览器 Copilot。[查看公告](https://twitter.com/llama_index/status/1772284044543476072)。 - **Python 文档重大改版**:LlamaIndex 宣布对其 Python 文档进行重大更新,包括改进了带有文档预览和高亮搜索词的搜索功能,并显著展示了大量的示例 notebook 集合。[新的 Python 文档详情](https://twitter.com/llama_index/status/1772355240299520083)现已发布。 - **关于 RAG 驱动的代码 Agent 的网络研讨会**:在由 @dani_avila7 主持的新 CodeGPT 网络研讨会中,学习如何为代码助手构建聊天+自动补全界面,探索 AST 的创建以及与其他技术的结合。重点是将代码库解析为知识图谱并增强代码 Agent。[查看研讨会信息](https://twitter.com/llama_index/status/1772418749439914377)。 - **使用 RAFT 微调预训练 LLM**:RAFT 引入了一种针对特定检索增强生成 (RAG) 设置微调预训练大语言模型 (LLM) 的方法,通过使用“开卷考试”策略来提高其效率。它旨在改善特定领域的查询响应。[了解更多关于 RAFT 的信息](https://twitter.com/llama_index/status/1772662480210198809)。 - **LLMOps 开发者见面会公告**:定于 4 月 4 日举行的免费见面会将包含关于 LLM 运营的演讲,涵盖从原型到生产的主题,演讲嘉宾来自 LlamaIndex、Guardrails AI、Predibase 和 Tryolabs。届时将分享大规模部署 LLM 应用的见解和最佳实践。[在此注册见面会](https://twitter.com/llama_index/status/1772732644540989909)。 **提到的链接**: LLM Meetup with Predibase, LlamaIndex, Guardrails and Tryolabs | San Francisco · Luma: LLMOps: 从原型到生产 | 开发者聚会 加入 Predibase, LlamaIndex, Guardrails AI, 和 Tryolabs,享受一个充满美食、饮品和关于 LLMOps 讨论的夜晚... --- **LlamaIndex ▷ #[general](https://discord.com/channels/1059199217496772688/1059201661417037995/1221744803008483339)** (153 条消息🔥🔥): - **探索使用 LSP 替代 Tree Sitter 进行代码索引**: 一位成员分享了[关于如何使用 Language Server Protocols (LSPs) 的演示](https://gist.github.com/sansmoraxz/374776fd6a10eaf870cdd1fdba96e08f),并建议对于代码库交互,相比 tree sitters 和针对第三方依赖的 vector embeddings,LSPs 可能是更优的替代方案。 - **构建 AI 支持 Agent**: 一位用户正努力在 LlamaIndex 中为聊天机器人设置 prompt templates,以使其作为客户支持 Agent 运行。尽管查阅了文档,仍感到困惑,并正在寻求建议和资源帮助。 - **针对特定用户的 Data Chat**: 一位用户询问如何在 LlamaIndex 中为 data chat 配置每个用户的设置,随后的讨论暗示需要为每个用户即时设置 Salesforce, Slack 和 GraphQL 工具。 - **实体提取工具**: 一位用户询问如何将实体提取到独立于 vector index 转换流水线的列表中,为此分享了一个名为 [GLiNER](https://github.com/urchade/GLiNER) 的 NER 模型链接。 - **教育助手项目求助**: 一位用户正在寻求关于创建一个 AI 助手来解释 PowerPoint 幻灯片中绘制的数字电路的建议,旨在随时模拟大学教授的专业知识,并希望 LLM 能够重建电路图。
    提到的链接: **LlamaIndex ▷ #[ai-discussion](https://discord.com/channels/1059199217496772688/1100478495295017063/1222209476812079115)** (1 条消息): - **LlamaIndex 接入 RAFT**:一条消息强调了 **RAFT 与 LlamaIndex** 的成功集成,这提升了知识能力。这一集成的历程和细节已在 Medium 文章中分享,标题为《*Unlocking the Power of RAFT with LlamaIndex: A Journey to Enhanced Knowledge Integration*》,可在 [andysingal 的 Medium 文章](https://medium.com/ai-advances/unlocking-the-power-of-raft-with-llamaindex-a-journey-to-enhanced-knowledge-integration-4c5170d8ec85)查阅。 --- **Eleuther ▷ #[general](https://discord.com/channels/729741769192767510/729741769738158194/1221856920663625838)** (23 条消息🔥): - **解析 AMD 的 GPU 驱动策略**:成员们讨论了 AMD 在 Radeon 驱动程序上可能存在的战略失误,并推测 *驱动程序性能不佳* 可能会阻碍数百万美元 ML 基础设施领域的消费者信心和商业决策。 - **AMD 驱动开源的案例**:讨论了 AMD *开源* 其 GPU 驱动程序的潜在收益和风险。鉴于 AMD 较低的 *市场份额*,开源被视为对抗 Nvidia 的一个潜在杠杆点。 - **投资者介入以促使 AMD 采取行动**:讨论转向了 *激进投资者* 在影响 AMD 走向方面的作用。建议包括购买大量股份以影响公司董事会和领导层。 - **寻求检索研究见解**:一位成员请求关于提高检索流水线质量和高效构建 vector store 的建议,参考了 [OpenAI 的 Evals](https://github.com/openai/evals) 和 [RAGAS](https://github.com/explodinggradients/ragas) 等工具,并询问了检索项目评估的 *最佳实践*、*工具* 和 *方法*。 - **欢迎新的 Alignment 研究员加入**:介绍了一位新成员,他是一名专注于 *alignment research* 的博士二年级学生,并表示有兴趣为社区内正在进行的研究工作做出贡献。 **提到的链接**:GitHub - openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.:Evals 是一个用于评估 LLM 和 LLM 系统的框架,也是一个开源的基准测试注册表。 - openai/evals --- **Eleuther ▷ #[research](https://discord.com/channels/729741769192767510/747850033994662000/1221808413340602438)** (57 条消息🔥🔥): - **创新的 Weight Delta 存储概念**:一位成员提出了一种新的模型训练方法,即 **模型权重以种子(seed)加增量(delta)的形式存储**,这可能允许更高的精度并避免混合精度训练的需求。虽然对该想法感兴趣,但另一位成员提供了一个链接,暗示这可能是一个旧概念。 - **预训练模型中的残差**:讨论了残差连接在模型训练中的影响,一位成员指出残差可以在不显著损失性能的情况下衰减掉,并引用了包含链接的 Discord 消息 [此处](https://discord.com/channels/729741769192767510/1079865324087803985/1187581793499611146)。另一位贡献者指出,在正向传播矩阵中添加 **单位矩阵** (eye()) 可能无法解决潜在的缓存问题。 - **向预训练权重进行权重衰减**:向预训练权重(而非零)进行权重衰减的概念引发了讨论,并创造了“L2-SP”一词,引用了包括 [arXiv 上的 L2-SP](https://arxiv.org/abs/1802.01483) 和“Prior Regularization”在内的论文。 - **Tokenizer 对模型性能的影响**:讨论了一篇研究 Tokenizer 变化如何影响领域自适应微调(domain-adaptation finetuning)及其对性能影响的论文。一位成员找到了一篇可能相关的论文,但不是所讨论的那篇;链接了其他几篇相关文章,包括 [arXiv 上的 MaLA-500](https://arxiv.org/abs/2401.13303v1) 和 [一项关于日语 Tokenizer 的研究](https://arxiv.org/abs/2306.09572)。 - **为自回归模型评估 SQuAD**:一位成员提出了评估自回归模型 SQuAD 的替代方法,包括在候选跨度中使用 logprob 选择或约束束搜索(constrained beam search)。考虑到潜在的局限性和不准确性,人们对这些方法的适当性表示了担忧。
    提到的链接
    --- **Eleuther ▷ #[interpretability-general](https://discord.com/channels/729741769192767510/1052314805576400977/1221888590393643091)** (36 messages🔥): - **Chess-GPT 迷人的国际象棋世界**:一篇博客文章及随后的[论文](https://arxiv.org/abs/2403.15498)介绍了 **Chess-GPT**,这是一个训练用于从 PGN 字符串预测下一步棋并评估棋手水平的模型。该模型表现出的棋力约为 1500 Elo 等级分。 - **探究 N-Gram 模型的局限性**:人们对理解 N-gram 统计之外的语言模型很感兴趣,并提议研究仅在 N-gram 分布上训练的 Transformer,并将这些机制与全尺寸语言模型进行比较。 - **Kubernetes 版本阻碍了 Tokengrams 的扩展**:由于 Kubernetes 版本过旧,无法在 CoreWeave Pods 上为扩展 Tokengrams 进行大数据内存映射(memory map),这引发了对替代云服务或个人硬件解决方案的寻找。 - **寻找支持内存映射的兼容 Kubernetes 版本**:在寻找支持 1.23 以下 Kubernetes 版本内存映射的云提供商时遇到了困难,1.20 版本不足,而 1.21 版本中有一个明确的类型字段门控(type field gate)。 - **为高资源计算寻找归宿**:讨论涉及确定处理大规模计算任务的最佳云提供商或本地硬件设置,其中提到了 GCP 作为潜在提供商,并考虑使用增强驱动器容量的个人电脑作为替代方案。
    提及的链接:
    --- **Eleuther ▷ #[lm-thunderdome](https://discord.com/channels/729741769192767510/755950983669874798/1221802438512611378)** (12 messages🔥): - **Inverse-Scaling 实现者回归**:一位成员讨论了将 [inverse-scaling 实现](https://github.com/naimenz/inverse-scaling-eval-pipeline/blob/main/eval_pipeline/models.py) 集成到 **lm-eval-harness** 中的问题。他们对于如何调整依赖于最后和倒数第二个 token 的 logits 的评估过程感到困惑。 - **关于 Inverse-Scaling 的 Logits 处理说明**:另一位成员澄清了多选题中 logits 的管理方式,解释说 inverse-scaling eval 中的处理过程与 **lm-eval-harness** 的做法一致;必须忽略最后一个输出位置,以获取直到最终答案选项 token 的 logits。 - **BBQ Lite 评分方法受到质疑**:一位成员询问 **BigBench BBQ lite** 子集是否使用简单的准确率评分,而不是原论文中更复杂的偏差评分机制。目前的评分将 "can't be answered"(无法回答)视为正确选项。 - **对 lm-eval-harness 的赞扬**:该成员赞扬了 **lm-eval-harness** 的功能和易用性,认为它优于他们遇到的其他学术代码。他们对 harness 提供的流畅体验表示感谢。
    提及的链接
    --- **Eleuther ▷ #[multimodal-general](https://discord.com/channels/729741769192767510/795089627089862656/1221900966471794720)** (2 messages): - **Stable Diffusion 的亚文化术语**:Stable Diffusion 社区中的 Embeddings 通常被视为与 **IMG2IMG** 工作流“半等效”,特别是参考了 **SDXL IMG2IMG** 的实践。 - **澄清 IMG2IMG 术语**:由于在 automatic1111 webui 中的语境,术语“**IMG2IMG**”可能会被误解为初始图像的使用。建议使用 **"image prompting"**(图像提示)或 **"image variations"**(图像变体)等替代表达,以更清晰地传达概念。 --- **Latent Space ▷ #[ai-general-chat](https://discord.com/channels/822583790773862470/1075282825051385876/1221762734664716308)** (82 messages🔥🔥): - **通过训练样本解锁自动化**:一位成员询问是否有服务能够通过少量样本学习重复性任务,从而通过鼠标和键盘实现操作自动化。 - **Twitter 上的 Hackathon 亮点**:提到了成功的 **Mistral Hackathon**,其中包括微调后的 Mistral 7B 玩 DOOM 以及由 Mistral 驱动的搜索引擎等各种项目,并在 [推文](https://x.com/MistralAILabs/status/1772062327757787350?s=20) 中进行了重点介绍。 - **通过 API 扩展上下文**:讨论了一个正在推出的具有 100 万 token 上下文窗口的 API,引用了 Jeff Dean 的推文 ([1](https://twitter.com/JeffDean/status/1770653917543870571); [2](https://twitter.com/JeffDean/status/1758146211029405951));同时讨论了 Google 的 Gemini 1.5 Pro 的性能。 - **使用 Sora 探索创意 AI**:讨论了 OpenAI 的 Sora 项目,并在 [博客文章](https://openai.com/blog/sora-first-impressions) 中分享了第一印象,同时提到了成员们对展示的各种创意应用的兴趣。 - **澄清 Google Cloud 服务**:一系列消息讨论了在使用 Gemini 等模型时,选择 Google 的 AI Studio 还是 VertexAI 之间的困惑,包括向预览版 API 的转变以及集成细节,并分享了一个 [有用的资源](https://ai.google.dev/docs/migrate_to_cloud)。
    提及的链接
    --- **Latent Space ▷ #[ai-announcements](https://discord.com/channels/822583790773862470/1075282504648511499/1221865215512023130)** (4 条消息): - **关于解构 ChatGPT 的新文章**:介绍了一篇讨论 ChatGPT 在 Imagegen、写作和语音等各个模块中“解构”(unbundling)的文章,并对 **ChatGPT 用户增长停滞**发表了看法。文章建议 **@OpenAI** 可能需要发布更新以重新吸引用户群,详见 [swyx 的文章](https://x.com/swyx/status/1772305930836918656?s=20)。 - **Latent Space 登上 Hacker News 首页**:Latent Space 最近的 *Adept episode* 已经登上了 **Hacker News 首页**。鼓励成员们前往评论并参与讨论,以保持热度。 - **Hacker News 紧急支援请求**:后续消息请求成员采取行动,为 Hacker News **第 2 页上的提交内容点赞 (upvote)**,以应对触发的争议检测器 (flamewar detector)。 **提到的链接**:swyx (@swyx) 的推文:🆕 ChatGPT 的解构 (The Unbundling of ChatGPT) https://latent.space/p/feb-2024 ChatGPT 用户数量在整整一年中几乎零增长。相反,用户正在探索大量垂直领域的参与者,以寻求... --- **Latent Space ▷ #[llm-paper-club-west](https://discord.com/channels/822583790773862470/1197350122112168006/1221862302400380989)** (4 条消息): - **发言权说明**:一名成员询问如何获得 **llm-paper-club-west** 的发言权。他们提到这与论文俱乐部的活动相关。 - **提供临时 Stage 方案**:另一名成员回复称,他们可以开启一个 Stage 并将人员添加为发言者,但不确定如何授予永久发言权限。 - **会议移至 Zoom**:由于在 Discord 上设置困难,相关会议最终改在 Zoom 举行。 --- **OpenRouter (Alex Atallah) ▷ #[general](https://discord.com/channels/1091220969173028894/1094454198688546826/1221796971883528262)** (70 条消息🔥🔥): - **ChatML 与 Python 客户端疑虑**:用户测试了 **OpenRouter 上的 Opus** 与官方 **Anthropic API** 的生成质量。他们发现通过 OpenRouter 调用时,Opus 在复杂 Prompt 的指令遵循方面似乎 **差了 5%**。 - **OpenRouter API 问题调查**:有报告称通过 OpenRouter API 调用 **Anthropic 模型** 时出现 **403 错误**。当用户从 **不同 IP 地址的地点** 重新尝试 API 调用后,问题得到解决。 - **了解 OpenRouter 功能**:用户询问在使用 **sillytavern 与 OpenRouter 对话** 时,**text completion** 和 **chat completion** 的区别。解释称 chat completion 用于越狱 (jailbreaks),而大多数开源模型不需要。 - **银行付款费用咨询**:一名成员询问银行账户付款的手续费是否仍为 **5% + $0.35**。讨论指向 **Stripe** 对 ACH 借记扣款可能收费更低。 - **GPT-4 与 Claude-3 性能对比**:对话比较了 **GPT-4** 和 **Claude-3**,用户指出 GPT-4 在处理 Claude-3 感到吃力的编程任务时表现出色。此外,在经历**高强度人类反馈强化学习 (RLHF)** 后,**GPT-4** 再次成为部分用户的首选。 --- **OpenAccess AI Collective (axolotl) ▷ #[general](https://discord.com/channels/1104757954588196865/1104757955204743201/1221770329391632385)** (37 条消息🔥): - **寻求微调建议**:一名成员在为性爱角色扮演微调模型时遇到困难,使用 autotrain 时遇到了 *bitsandbytes 错误*。他们询问是否有使用自定义数据微调预训练模型的逐步指南。 - **DeepSpeed 与 Axolotl**:参与者讨论了 [DeepSpeed](https://www.deepspeed.ai/) 和 PEFT 的 LoRA 与 Axolotl 的集成,明确了 `DeepSpeed-Zero3 和 bitsandbytes 目前不兼容。` 同时也提出了关于 Axolotl 是否支持 [Fully Sharded Data Parallel (FSDP)](https://pytorch.org/docs/stable/fsdp.html) 和 QLoRA 的疑问。 - **PEFT v0.10.0 与 Axolotl 兼容性**:讨论集中在更新 Axolotl 的依赖要求以包含 PEFT v0.10.0,该版本引入了对 FSDP+QLoRA 和 DeepSpeed Stage-3+QLoRA 的支持。 - **Axolotl 使用案例征集**:一名成员请求了解使用 Axolotl 的公司或中小企业信息以更好地理解使用案例,他们选择不群发 @ 频道成员,而是鼓励私聊或回复。 - **对 Mistral 微调 Loss 的担忧**:一名成员寻求澄清 Mistral 的微调 Loss 为 0.4 是否正常,对较低的数值表示担忧并希望结果是正向的。另一名成员表示这种 Loss 可能是正常的。
    提到的链接
    • Hugging Face 上的 @smangrul:"🤗 PEFT v0.10.0 发布!🔥🚀✨ 一些亮点📝: 1. FSDP+QLoRA and DeepSpeed…": 未找到描述</li>
    • Fully Sharded Data Parallel: 未找到描述
    • DeepSpeed: 未找到描述
    • DeepSpeed: 未找到描述
    • </ul> </div> --- **OpenAccess AI Collective (axolotl) ▷ #[axolotl-dev](https://discord.com/channels/1104757954588196865/1104758010959634503/1222113529474318388)** (5 条消息): - **RunPod 上的 Axolotl 模板问题**:一名成员报告无法使用 RunPod 上的 Axolotl Docker 模板打开 Jupyter Notebook。 - **Axolotl 模板的潜在修复方案**:解决 Axolotl Docker 模板问题的建议包括将 volume 更改为 `/root/workspace` 并重新克隆 Axolotl。 --- **OpenAccess AI Collective (axolotl) ▷ #[general-help](https://discord.com/channels/1104757954588196865/1110594519226925137/1221766299185844254)** (6 条消息): - **微调 TheBloke/Wizard-Vicuna-7B-Uncensored-GPTQ 时的挫折**:一名成员尝试使用 AutoTrain 微调 **TheBloke/Wizard-Vicuna-7B-Uncensored-GPTQ** 模型,但遇到了与 `setup.py egginfo` 相关的 `subprocess-exited-with-error`。错误提示涉及 sentencepiece 的 `FileNotFoundError`,暗示可能存在依赖项或环境问题。 - **分享了有用的链接**:分享了另一位用户的图片,似乎与在此处找到的 **TheBloke/Wizard-Vicuna-7B-Uncensored-GPTQ** 模型相关 [链接](https://i.imgur.com/EBdldam.jpg),其中包含更多详细信息和模型仓库链接。 - **建议寻求支持**:针对微调错误,另一名成员建议使用 **Hugging Face** 提供的潜在工单/支持系统,因为使用的是 AutoTrain。 - **隐蔽的数据问题**:一位成员讲述了解决 `keyerror` 的经历,该错误最终追溯到其数据集中的“不可打印字符”,这些字符仅在特定工具下可见。 - **Mistral7b-base-v2 的预训练难题**:有人提出了关于在大型文本语料库上继续预训练 **mistral7b-base-v2** 的疑问,观察到打包后的数据集中缺少 `</s>`(序列结束)Token,仅包含 ``(序列开始)Token。他们参考了 Hugging Face 的 `run_clm.py` [方法](https://github.com/huggingface/transformers/blob/f01e1609bf4dba146d1347c1368c8c49df8636f6/examples/pytorch/language-modeling/run_clm.py#L526),询问这种 Token 设置可能带来的问题。
      提到的链接
      --- **OpenAccess AI Collective (axolotl) ▷ #[community-showcase](https://discord.com/channels/1104757954588196865/1117851527143493664/1222183582915760260)** (7 条消息): - **介绍 Olier AI,一个特定领域的模型**:一位 Axolotl 社区成员分享了他们的项目 Olier,这是一个基于 **Hermes-Yi** 的 AI 模型,并使用 **QLoRA** 在专注于**印度哲学**的数据集上进行了微调。该模型托管在 [La Grace Sri Aurobindo Integral Life Centre 的网站](https://lagracecenter.com/introducing-olier-an-integral-yoga-ai-initiative/)上。 - **知识增强创新**:Olier 的创建者利用 QLoRA 进行**知识增强**,设计了一个基于 Sri Aurobindo 等人著作的 30 万点数据集,并由 **GPT-4** 进行了增强,提高了模型在内容技术层面的准确性。 - **AI 训练中有效的聊天模板化 (Chat Templating)**:特别感谢一位社区成员建议使用**聊天模板化 (Chat Templating)** 来组织将聊天与分块哲学文本结合的数据集,使模型能够从原始资料中学习,同时能够以特定风格进行交谈。 - **对话式 AI 训练策略**:讨论强调了在 AI 训练中围绕连贯主题进行结构化重复的重要性,并提到聊天模板化技术允许将原始文本与增强对话进行有效合并。 - **不当内容警示**:有人发布了一条干扰性帖子,未经请求推广**成人内容**,并附带了一个外部 Discord 服务器的链接。 **提到的链接**:Introducing Olier – an Integral Yoga AI initiative – La Grace:未找到描述 --- **LangChain AI ▷ #[general](https://discord.com/channels/1038097195422978059/1038097196224086148/1221747115026284565)** (42 messages🔥): - **为 RAG 选择合适的 Vector Database**:一位成员询问了为 RAG 应用组织 vectorstores 的最佳方式,并得到了关于使用支持多种数据类型的数据库的建议,这些数据库未来会将 vector 作为原生类型支持。成员们建议了各种解决方案和带有免费层级的 DBaaS(如 [DataStax](https://www.datastax.com/products/datastax-astra)),并讨论了 LangChain 抽象层在轻松切换解决方案方面的优势。 - **探索 LangChain API 和 LLM**:一位成员宣布了他们在 LangChain API 和 Large Language Models (LLM) 方面的专业知识,并邀请他人联系进行协作或知识共享。 - **寻求 AWS Bedrockchat 的生产化资源**:有人提出了关于使用 Claude3 Sonnet 将 AWS Bedrockchat 投入生产的资源查询,寻求有经验者的见解。 - **西班牙语 LangChain 教程上线**:创建了西班牙语的 LangChain 教程,为社区增加了多语言资源。教程可以通过[此链接](https://youtu.be/GTM9Xto5h8w?si=RBeUscsl288rYfWW)在 YouTube 上找到。 - **关于纯上下文 LLM 的讨论**:围绕创建一个仅使用提供知识而不从互联网获取信息的语言模型展开了对话。成员们讨论了没有内容过滤系统的开源模型的优点,以及使用严格的 Prompt 来约束 LLM 行为的潜力,并提到了 GPT-3.5 Turbo 的使用以及目前似乎已无法使用的 text-davinci-003 模型。
      提到的链接
      --- **LangChain AI ▷ #[share-your-work](https://discord.com/channels/1038097195422978059/1038097372695236729/1221824140265128047)** (3 messages): - **Index Network 介绍**:一位成员介绍了 **Index Network**,它使用 **LangChain**、LangSmith 和 LangServe 创建了一个去中心化的信息发现协议。他们分享了[文档](https://docs.index.network/),并解释其特点是去中心化语义索引、上下文发布/订阅(pub/sub),并允许 Agent 使用自然语言查询订阅上下文。 - **请求垃圾信息调查**:一位用户请求协助处理垃圾消息,要求管理员对内容进行审查。 **提到的链接**:What is Index Network | Index Network Documentation:未找到描述 --- **LangChain AI ▷ #[tutorials](https://discord.com/channels/1038097195422978059/1077843317657706538/1222026591027204167)** (3 messages): - **西班牙语 Chatbot 教程**:一位成员分享了他在西班牙语 AI Chatbot 教程方面的工作,可在 [YouTube](https://youtu.be/GTM9Xto5h8w?si=RBeUscsl288rYfWW) 上观看。该视频对于有兴趣学习 Chatbot 和 AI 的西班牙语使用者可能很有帮助。 - **AI 作为销售 Agent 的视频指南**:介绍了一个使用 AI 构建的销售 Agent,并在 [YouTube](https://youtu.be/Cog4km4gQ00?si=nW9yGmc70FpBLwN2) 上发布了创建指南。该视频探讨了“AI 员工”如何能超越人类表现。 - **使用 Deepgram & Mistral AI 进行语音聊天**:分享了一个视频教程,展示了如何使用 Deepgram 和 Mistral AI 构建语音聊天功能,链接中包含了一个 [GitHub](https://www.youtube.com/watch?v=Kan7GofHSwg) 上的 Python notebook。该内容对于想要将语音识别与语言模型集成的开发者非常有参考价值。
      提到的链接
      --- **CUDA MODE ▷ #[general](https://discord.com/channels/1189498204333543425/1189498205101109300/1222284481554284815)** (1 条消息): - **Rapids 和 pandas 的 IO 密集型操作**:一位聊天参与者提到,使用 **Rapids** 和 **pandas** 处理某项任务时是高度 IO 密集型的。光速(SOL)时间被解释为受 SSD IO 带宽的数据读取速率影响,并指出*由于计算开销几乎为零,预取(prefetching)也不会有帮助*。 --- **CUDA MODE ▷ #[triton](https://discord.com/channels/1189498204333543425/1189607595451895918/1221826134044311634)** (8 条消息🔥): - **Triton 版 Flash Attention 中已弃用的变通方法**:成员们讨论了 Triton 版 Flash Attention 的 **Tri Das 实现**中已知的问题,强调某些变通方法已经过时,并且由于先写后读的操作可能会导致竞态条件(race conditions)。建议移除这些方法,并有人建议针对**较慢的 PyTorch 实现**测试 Kernel 以确保可靠性。 - **征集协作 Kernel 开发**:@marksaroufim 指出讨论中的一些实现与 [PyTorch Architecture Optimization (AO)](https://github.com/pytorch-labs/ao) 中的工作非常相似,并邀请贡献者将他们的代码合并到新的 prototype 文件夹中。他强调了协作设计 API 以使这些 Kernel 易于使用的潜力。 - **社区对高性能 Kernel 的兴趣**:成员们对高性能 Kernel 表现出浓厚兴趣,其中一人提到他们在 `bitsandbytes` 中关于 GaLore 的工作,并表示打算关注 `torchao`。 - **自定义量化 Kernel 的测试与开发**:一位成员提到正在进行 Kernel 测试以及**自定义量化(quant)Kernel** 的开发,这将有利于 **AdamW8bit**。 - **Triton Shared 介绍**:一位成员提到了一个有趣的项目 [Microsoft's Triton Shared](https://github.com/microsoft/triton-shared),但未详细说明其内容或与当前讨论的相关性。 **提到的链接**:GitHub - pytorch-labs/ao: torchao: PyTorch Architecture Optimization (AO). A repository to host AO techniques and performant kernels that work with PyTorch.:torchao:PyTorch 架构优化 (AO)。一个托管与 PyTorch 配合使用的 AO 技术和高性能 Kernel 的仓库。 --- **CUDA MODE ▷ #[cuda](https://discord.com/channels/1189498204333543425/1189607726595194971/1221827203105427536)** (2 条消息): - **寻找 CUDA Kernel 冠军**:一位成员有兴趣在 [Thunder 教程](https://github.com/Lightning-AI/lightning-thunder/issues/70)中展示一个最受喜爱的 **CUDA kernel**,并欢迎任何能够优化大语言模型(LLM)操作的建议。 - **分享 NVIDIA 官方文档**:分享了 [NVIDIA CUDA Compatibility Guide](https://docs.nvidia.com/deploy/cuda-compatibility/index.html),该文档仅供参考,包含关于信息准确性、完整性和可靠性的免责声明,以及 NVIDIA 对其使用不承担责任的说明。
      提到的链接
      --- **CUDA MODE ▷ #[beginner](https://discord.com/channels/1189498204333543425/1191300313928433664/1222262551052554280)** (5 messages): - **C++ 绑定到 PyTorch 的 Windows 烦恼**:一名成员在 Windows 机器上使用 MSVC 将 C++ 代码绑定到 PyTorch 并运行 `hello_load_inline.py` 时,遇到了与 `_addcarry_u64` 相关的错误。 - **网络搜索线索寥寥**:虽然提供了 [PyTorch 讨论区](https://discuss.pytorch.org/t/trouble-building-with-c-torchscript/182443)和 [GitHub issue](https://github.com/pytorch/pytorch/issues/89040) 的链接,但这些资源似乎与遇到的具体问题无关,未能解决该成员的问题。 - **Windows 开发障碍**:该成员对必须手动安装 `ninja` 和 `setuptools`,以及必须启动开发者命令提示符才能让 PyTorch 识别 `cl.exe` 表示沮丧,并暗示这些步骤可能表明缺少依赖项。 - **解决方案揭晓**:最终,通过在 Windows 上启动 **64-bit Developer Prompt** 解决了问题。该成员发现这是正确构建项目所必需的步骤,而不是尝试在 32 位模式下构建。 **提及的链接**:Issues · pytorch/pytorch:Python 中具有强大 GPU 加速功能的 Tensor 和动态神经网络 - Issues · pytorch/pytorch --- **CUDA MODE ▷ #[pmpp-book](https://discord.com/channels/1189498204333543425/1194427148656721970/1221958178649018438)** (6 messages): - **Google Doc 创建进行中**:一名成员幽默地指出,频道中正在进行的工作看起来像是在创建一个 **Google Doc**。 - **关于 AI 训练的警告**:有人开玩笑地建议不要将正在进行的工作提供给 **OpenAI 或 Gemini** 进行 AI 训练和问答。 - **AI 能力受到质疑和争论**:用户名为 mr.osophy 的成员表示相信 AI 处理当前问题的能力,但遭到了另一位用户的质疑,后者指出了 AI 回答中已知的错误。 - **AI 失败案例的轶事认可**:提到来自 **UIUC 408** 的一个小组曾尝试将 AI 用于某些任务,但在某些情况下遇到了失败。 --- **CUDA MODE ▷ #[youtube-recordings](https://discord.com/channels/1189498204333543425/1198769713635917846/1221823590568300669)** (2 messages): - **与 Jesse Cai 一起深入探讨稀疏性 (Sparsity)**:[Lecture 11: Sparsity](https://youtu.be/mGDnOLcfE8g) 现在已在 YouTube 上线,供那些有兴趣探索模型中稀疏性概念的人观看,由 Jesse Cai 演讲。 - **教学材料请求**:一名成员请求如果可能的话,分享与 *Lecture 11: Sparsity* 配套的幻灯片。 **提及的链接**:Lecture 11: Sparsity:演讲者:Jesse Cai --- **CUDA MODE ▷ #[torchao](https://discord.com/channels/1189498204333543425/1205223658021458100/)** (1 messages): marksaroufim: 新的 RFC https://github.com/pytorch-labs/ao/issues/86 --- **CUDA MODE ▷ #[ring-attention](https://discord.com/channels/1189498204333543425/1208496482005549086/1221866030247186573)** (6 messages): - **今日出席情况简报**:用户 *iron_bound* 告知小组,他们今天会比平时晚到。 - **使用 AdamW Torch 的 Axolotl 进度报告**:用户 *iron_bound* 分享了一个 WandB (Weights & Biases) 链接 [Axolotl Project on WandB](https://wandb.ai/iron-bound/axolotl/runs/6s33d6mp),显示在运行 adamw_torch、fsdp 和 16k 上下文后,Loss 指标有所改善。 - **Andreas 稍后分享 hf Trainer 见解**:用户 *andreaskoepf* 提到他们将在今天晚些时候报告关于 hf (Hugging Face) trainer 的发现,并且本周无法参加每日会议。 - **分享 PyTorch FSDP 学习资源**:用户 *andreaskoepf* 整理了 PyTorch FSDP 的资源,包括一份[教程](https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html)以及关于 Mistral 微调时 Loss 不稳定问题的 [issue](https://github.com/huggingface/transformers/issues/26498)。 - **关于 Batch Size 和 Loss 聚合的技术讨论**:用户 *andreaskoepf* 分享了来自 FSDP 教程的代码片段,展示了如何按 rank 聚合 Loss 和 Batch Size,然后使用 PyTorch 进行求和。
      Links mentioned:
      --- **CUDA MODE ▷ #[off-topic](https://discord.com/channels/1189498204333543425/1215328286503075953/1221821691093843968)** (5 messages): - **探索浮点精度**:一位成员分享了一篇 [Towards Data Science 文章](https://towardsdatascience.com/16-8-and-4-bit-floating-point-formats-how-does-it-work-d157a31ef2ef),探讨了 16、8 和 4 位浮点格式的复杂性,并建议这对于拥有 Medium 账号的人特别有用。 - **INT 的比特与字节**:文中澄清了 **int4/8** 带有符号位,并且与其他数字格式一样,会受到 **overflow/underflow**(上溢/下溢)的影响。 - **CUDA 演讲中未涵盖的主题**:针对关于 memory bank conflicts(内存库冲突)的查询,一位成员确认到目前为止,演讲尚未深入探讨这一主题,尽管已经讨论过 **coalesced reads**(合并读取)。 --- **CUDA MODE ▷ #[gtc-meetup](https://discord.com/channels/1189498204333543425/1218444432588800010/)** (1 messages): vim410: 哎呀。我错过了这个!我当时在 GTC,现在回到了偏远地区。 --- **CUDA MODE ▷ #[triton-puzzles](https://discord.com/channels/1189498204333543425/1219683012707487794/1221803754387406858)** (3 messages): - **对 Puzzle 3 感到困惑**:一位成员对聊天中分享的代码片段里 **Puzzle 3** 的一个基本概念表示困惑。然而,该成员很快自行解决了问题,暗示这可能是一个疏忽或自我修正的错误。 --- **Datasette - LLM (@SimonW) ▷ #[llm](https://discord.com/channels/823971286308356157/1128504153841336370/1222009202424156190)** (25 messages🔥): - **GGML 漏洞警报**:[Databricks 宣布了 GGML 中的多个漏洞](https://www.databricks.com/blog/ggml-gguf-file-format-vulnerabilities),这些漏洞可能会影响 LLM 的使用。这些漏洞已按责任披露并修复,可能需要用户升级其软件包。 - **SimonW 承认潜在的 GGML 风险**:SimonW 认识到 GGML 文件存在的假设风险,表示会从信任的来源下载它们以避免安全问题。 - **SimonW 对 Databricks 文章中提到 LLM 感到惊讶**:LLM 意外地出现在 Databricks 关于 GGML 漏洞的文章中,尽管 SimonW 尚未收到关于此问题的任何直接沟通。 - **追踪补丁提交**:GGML 漏洞的补丁通过 GitHub 追踪到了 `ggml` 仓库,其中一个[解决 GGML 分配错误的特定提交](https://github.com/ggerganov/ggml/commit/fb8c9aa0d507c68d7b130a218d191754252003af)被认为是可能的修复方案之一。 - **LLM 插件 "llm-cmd" 引发关注与问题**:SimonW 为 LLM 命令行工具发布了一个名为 [llm-cmd](https://github.com/simonw/llm-cmd) 的新插件,并警告其处于 alpha 状态且存在潜在风险。其他用户报告该插件会出现无限期挂起的情况,`input()` 命令和 `readline.set_startup_hook` 被认为是导致故障的潜在原因。
      Links mentioned:
      --- **Interconnects (Nathan Lambert) ▷ #[rlhf](https://discord.com/channels/1179127597926469703/1208183230608576562/1221959301158015038)** (2 条消息): - **理解 KTO 论文中的参考点**:一位成员对 KTO 论文中参考点的解释提出了疑问,特别是引用了第 6 页关于模型对齐作为前景理论优化的方程。目前尚未提供关于该方程的澄清或进一步讨论。 --- **Interconnects (Nathan Lambert) ▷ #[reads](https://discord.com/channels/1179127597926469703/1214764639397617695/1221867049090027552)** (21 条消息🔥): - **月度回顾发布**:Latent Space 发布了 [2024 年 2 月回顾](https://www.latent.space/p/feb-2024)并存档了前几个月的回顾,汇编了必读内容,此外还预告了他们即将举行的旧金山活动 [AI UX 2024](https://lu.ma/aiux)。 - **关于重新思考 RLHF 的播客节目**:[TalkRL 播客](https://www.talkrl.com/episodes/arash-ahmadian-on-rethinking-rlhf)邀请了 Arash Ahmadian 讨论 RLHF(来自人类反馈的强化学习),并附带了关于强化学习开创性著作的参考资料。 - **DPO 与 RLHF 之争**:Interconnects Discord 聊天的成员对 DPO (Decentralized Policy Optimization) 相对于 RLHF 表示怀疑,认为 DPO 的热度可能与其在与更成熟的 RLHF 方法对比时的表现不符。 - **探讨 RLHF 数据的成本效益**:随后进行了一场对话,探讨了拥有大量客户偏好数据的 DPO/KTO 是否能超越使用更昂贵的人工标注数据执行的 RLHF 的有效性。 - **探索 RLHF 和奖励建模的细微差别**:对话涉及了二元分类器作为 RLHF 奖励模型的潜在低效性、数据质量与 RL 模型微调的交集,以及在没有对部分正确解决方案给予适当部分分数的情况下,在 LLM 权重空间中导航的挑战。
      提到的链接:
      --- **DiscoResearch ▷ #[general](https://discord.com/channels/1178995845727785010/1182877486854451271/1222146758998491147)** (3 条消息): - **多语言微调中 Prompt 格式至关重要**:一位用户思考在微调中使用英文 Prompt 格式是否会对德语输出质量产生负面影响,并建议使用目标语言的格式。他们对比了英文的 ChatML 和 Alpaca 格式,并提出了德语的对应格式,同时提出了关于响应中潜在“护栏(guardrail)”效应的问题。 - **寻找 "Prompt" 的德语对应词**:进行了一次简短的交流,一位用户询问 "prompt" 一词的德语翻译,另一位用户提供了几个选项:*Anweisung*、*Aufforderung* 和 *Abfrage*。 --- **DiscoResearch ▷ #[embedding_dev](https://discord.com/channels/1178995845727785010/1192471915504341062/1222298010835222538)** (2 messages): - **提到 RankLLM 的推文**:一名成员分享了一个关于 RankLLM 被用作基准(baseline)的[推文](https://twitter.com/lintool/status/1772717804682113270?t=luhHgXeFE0Pd6TWVzmIFRw&s=19)链接。 - **思考德语版 RankLLM**:一名成员思考了训练德语版 **RankLLM** 的难度。 --- **DiscoResearch ▷ #[discolm_german](https://discord.com/channels/1178995845727785010/1197630242815213618/1222202759542214728)** (11 messages🔥): - **DiscoResearch 的数据集困境**:参与者考虑在一个项目中使用 **Mistral**,但面临 3k 条目的小数据集挑战,导致对模型快速记忆数据从而产生过拟合(overfitting)的担忧。 - **损失值(Loss)担忧被淡化**:另一名成员安慰说,无论数据集大小如何,损失值显著下降都是正常的,并强调即使有 10万个样本也会发生这种情况。 - **理解训练损失**:在询问 epoch 后什么是“好的损失值”时,有人指出有监督微调(SFT)期间的绝对损失值并不是可靠的性能指标,但通常应低于 2。 - **探索 Orpo 而非 SFT**:澄清显示重点在于 **Orpo 训练** 而非有监督微调(SFT),目前还没有现成的经验值来衡量预期损失。 - **寻求数据与合作**:为了应对数据稀缺,讨论了将德语数据集与 **arilla dpo 7k mix dataset** 混合的计划,并邀请他人参与该侧翼项目的合作。 --- **LLM Perf Enthusiasts AI ▷ #[claude](https://discord.com/channels/1168579740391710851/1168582222194933860/1221805324130844762)** (2 messages): - **销售团队批准低支出的 "Scale" 方案**:一名成员提到,在联系销售团队后,他们获准加入 **"scale" 方案**,每月支出仅为 500 美元。另一名成员表示感谢。 --- **Skunkworks AI ▷ #[off-topic](https://discord.com/channels/1131084849432768614/1140423597454807179/)** (1 messages): pradeep1148: https://www.youtube.com/watch?v=Kan7GofHSwg