ainews-gpt-4o-the-new-sota-everything-frontier

GPT-4o:全新的全能型 SOTA 前沿模型(GPT-4o 版本)

OpenAI 发布了 GPT-4o,这是一款全新的多模态模型,能够以极低的延迟(约 300 毫秒)实时对文本、音频和视频进行推理。它具备语音和视觉能力,通过扩展至 20 万词汇量的分词器提升了非英语语言的性能,并面向包括免费版在内的所有 ChatGPT 用户开放。

GPT-4o 的价格仅为 GPT-4-turbo 的一半,速度快了两倍,且速率限制(rate limits)提高了 5 倍。该模型支持实时语音和视频的输入与输出,并展现出强大的编程能力。此次发布还包括一款全新的桌面应用程序,能够读取屏幕和剪贴板历史记录,这对现有的桌面代理(desktop agent)初创公司构成了挑战。

发布会同时展示了包括图像生成和 3D 物体处理在内的演示,OpenAI 在自动语音识别(ASR)和视觉任务中均达到了业界领先(state-of-the-art)水平。此次更新在社交媒体上引发了广泛讨论,通过与 GPT-4T 的对比,凸显了 GPT-4o 的速度和多功能性。相关评价指出:“GPT-4o 聪明、快速、原生多模态,是迈向更自然人机交互的一步”,并且“功能极其丰富,非常有趣”

#multimodality #vision #speech-recognition #tokenization #real-time-processing #coding #model-performance #model-optimization #desktop-agents gpt-4o gpt-4-turbo openai lmsys multion adept

目录

[TOC]


AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果。我们正在使用 Haiku 进行聚类和流程工程(flow engineering)。

OpenAI 发布 GPT-4o,一款具备语音和视觉能力的多模态模型

  • GPT-4o 能力@sama 介绍了 GPT-4o,这是 OpenAI 的新模型,可以实时跨文本、音频和视频进行推理。它被描述为智能、快速、原生多模态,是迈向更自然的人机交互的一步@gdb 指出它非常多才多艺且充满乐趣
  • 可用性与定价:根据 @sama 的说法,GPT-4o 将向所有 ChatGPT 用户开放,包括免费计划用户。在 API 中,它的价格是 GPT-4-turbo 的一半,速度是其两倍,且速率限制(rate limits)提高了 5 倍 @sama
  • 语言性能提升:GPT-4o 显著提升了非英语语言的性能,包括改进的分词器(tokenizer)以更好地压缩多种语言,正如 @gdb 所指出的。

关键演示与能力

  • 实时语音和视频:GPT-4o 支持实时语音和视频输入输出,据 @sama 称,这感觉非常自然。该功能将在未来几周内向用户推出。
  • 编程能力:GPT-4o 特别擅长编程任务,正如 @sama@sama 所强调的。
  • 情绪检测与语音风格:根据 @sama 的说法,该模型可以检测语音输入中的情绪,并能以具有广泛动态范围的多种风格生成语音输出
  • 多模态输出:GPT-4o 可以生成音频、文本和图像输出的组合,从而实现仍在探索中的有趣新功能,据 @gdb 称。

反应与影响

  • 颠覆性的用户体验:包括 @jerryjliu0@E0M 在内的许多人指出,实时音频/视频输入输出代表了用户体验的巨大飞跃,并将导致更多人与 AI 进行交流。
  • 与其他模型的比较:GPT-4o 被与其他模型进行了对比,@imjaredz 表示它在速度和质量上完胜 GPT-4-turbo。然而,@bindureddy 指出,对于纯语言/编程用例,像 Llama-3 这样的开源模型仍然便宜 5 倍
  • 令人印象深刻的演示:人们对展示 GPT-4o 实时翻译能力 @BorisMPower情绪检测和语音风格控制 @BorisMPower 以及唱歌和戏剧化内容 @swyx 的演示印象深刻。

其他 AI 新闻与讨论

  • 苹果与 OpenAI 的交易:有传言称 苹果与 OpenAI 的交易刚刚达成,就在 OpenAI 发布语音助手的前一天,这引发了关于新版 Siri 将由 OpenAI 技术驱动的猜测 @bindureddy
  • Anthropic 宪制 AI (Constitutional AI):Anthropic 为其 Claude 模型发布了一个新的提示词工程(prompt engineering)工具,可以生成针对不同任务优化的提示词,正如 @adcock_brett 所分享的。
  • 开源与闭源 AI 之争:关于开源与闭源 AI 开发的权衡存在各种讨论。一些人,如 @ylecun,认为开源前沿模型对于实现微调系统和助手 AI 的多样性至关重要。其他人,如 @vkhosla,则对开源模型的国家安全影响表示担忧。

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!

OpenAI 即将发布的公告

AI 能力的进展

开源 AI 发展

优化 AI 性能

幽默与迷因 (Memes)


AI Discord 回顾

摘要之摘要的摘要

Claude 3 Sonnet

1. 高效 AI 模型训练与推理

  • ThunderKittens 在优化 CUDA kernels 方面正受到关注,在 tensor core 管理上被认为比 CUTLASS 更易上手。它有望超越 Flash Attention 2
  • 关于 fusing kernelstorch.compile 中的 max-autotuneDynamo vs. Inductor 以及使用 Triton 进行 profiling 的讨论旨在提升性能。Triton Workshop 提供了相关见解。
  • llm.c 中集成的 ZeRO-1 通过优化 VRAM 使用量,实现了 54% 的吞吐量提升,从而支持更大的 batch sizes。
  • llm.cLM Studio 中改进 带有 GPU 支持的 CI 的努力凸显了对硬件加速的需求。

2. 开源 LLM 进展

  • Yi-1.5 模型(包括 9B、6B 和量化后的 34B 变体)在各种 fine-tuning 任务中变得流行。
  • MAP-Neo(一个透明的双语 4.5T LLM)和 ChatQA(在对话式 QA 方面超越了 GPT-4)引发了广泛关注。
  • Falcon 2 11B 模型凭借 5T 精炼数据和宽松的许可证吸引了兴趣。
  • 讨论了用于高效数据蒸馏的 Farzi 和用于 attention approximation 的 Conv-Basis 等技术。

3. 多模态 AI 能力

  • OpenAI 的 GPT-4o 集成了音频、视觉和文本推理,其语音交互和图像生成的实时演示令人印象深刻。
  • VideoFX 展示了作为开发中项目的早期视频生成能力。
  • 对语音数据集进行 Tokenizing 并在音频数据上训练 Transformers 是重点领域,正如 Twitter 帖子YouTube 视频 所展示的那样。
  • PyWinAssistant 通过自然语言实现 AI 对用户界面的控制,利用了 Visualization-of-Thought 技术。

4. 关于 AI 安全、伦理与监管的辩论

  • 关于 OpenAI 监管举措(如 GPU signing 和与白宫合作)的讨论引发了对其可能导致垄断的批评。
  • 针对 Midjourney 等 AI 艺术服务对艺术家生计的影响以及潜在的法律后果的担忧日益增加。
  • Microsoft 发布 WizardLM-2-8x22B 因其与 GPT-4 的相似性而面临争议。
  • 成员们分析了 AI 版权影响,以及提供赔偿保障的公司如何影响较小的 AI 创业公司。
  • 检测 untrained tokens(如 SolidGoldMagikarp)的努力旨在提高 tokenizer 的效率和模型的安全性(arXiv 论文)。

Claude 3 Opus

以下是 Discord 频道中 3-4 个主要主题的高层级摘要,包含重要的关键词、事实和 URL,并在相关处加粗并链接至来源:

  • GPT-4o 发布,评价贬褒不一:OpenAI 发布了 GPT-4o,这是一款支持文本、图像和音频输入的多模态模型。它提供有限制的免费访问,并为 Plus 用户提供高级功能。工程师们注意到了它的速度和成本效益,但批评其与 GPT-4 相比记忆力较短且推理存在不一致。人们对即将推出的语音和视频功能充满期待。GPT-4o 还在 LMSys Arena 榜单上位居榜首

  • Falcon-2 和 Yi 模型受到关注:开源的 Falcon-2 11B 模型在 5T 精炼数据上训练而成,已以宽松许可证发布。讨论强调了其多语言和多模态能力,尽管存在一些限制性条款。与此同时,01.AI 的 Yi-1.5 系列因在各项任务中的强劲表现而获得赞誉,其量化变体(如罕见的 34B 模型)非常适合 24GB GPU。

  • 工具和技术提升 LLM 效率ThunderKittens 等新工具承诺提供优化的 CUDA kernel,性能可能超越 Flash Attention 2。Triton IndexAwesome Triton Kernels 仓库对 Triton kernel 进行了编目以供探索。knowledge distillationdepth scaling 以及 Memory MosaicsConv-Basis attention 等新型架构被用于探索增强 LLM 微调和推理效率。

  • AI 发展中的伦理和法律辩论持续存在:对话围绕 AI 生成艺术对艺术家生计的影响展开,考虑了公平使用、衍生作品以及 Stability AI 和 Midjourney 可能面临的法律挑战。AI 版权对创新资金的影响,以及大型科技公司相对于小型实体的赔偿问题,仍然是备受争议的话题。

如果您希望我详细阐述摘要的任何部分,或者有其他问题,请告诉我!

GPT4T (gpt-4-turbo-2024-04-09)

主要主题:

  1. 监管担忧与垄断举措:关于 OpenAI 监管行动的讨论和担忧非常显著,特别是那些可能有利于大公司的做法,可能导致垄断环境。成员们对 OpenAI 的举动反应不一,批评主要集中在可能损害小型竞争对手的限制上。

  2. 新模型发布与增强:多个 Discord 频道讨论了 GPT-4o、WizardLM 和 Falcon 2 等新模型的发布及其能力。这些模型的发布引发了关于其增强的多模态能力、性能改进以及对其现实应用前景的兴奋或怀疑。

  3. 技术工具与创新:各个社区深入探讨了技术层面,讨论了用于优化 CUDA kernel 的 ThunderKittens、stable diffusion 创新以及模型训练技术的进步等新工具和更新。重点在于优化性能和整合最新的技术进步。

  4. 社区参与和推测:在多个平台上,成员们对 AI 对各行各业的影响进行了前瞻性推测。辩论涉及部署 AI 驱动服务的法律影响、AI 巨头潜在的垄断行为,以及社区在塑造 AI 发展伦理和政策方面的作用。

关联 URL 的重要讨论:

  • HuggingFace 的回归分析理解 LLM 中的 Depth Scaling
  • OpenAI GPT-4o 发布特性:因其显著的性能提升和多模态能力在多个 Discord 讨论中被提及。官方发布说明链接:GPT-4o 发布详情
  • ThunderKittens 优化工具:因增强 CUDA 操作而受到关注,链接如下:ThunderKittens GitHub
  • Falcon 2 的发布:在不同 Discord 频道中讨论了其多语言和多模态能力,更多详情见:Falcon 2
  • 关于 AI 艺术的法律担忧:关于对艺术家的影响以及围绕 AI 生成艺术的法律斗争的激烈讨论非常普遍,特别是在讨论 Stability AI 和 Midjourney 运营的平台中。

GPT4O (gpt-4o-2024-05-13)

  1. 监管挑战与平台控制:
    • OpenAI 的监管举措: 多个社区讨论了 OpenAI 通过强制性 GPU 签名以及与白宫合作等措施实施更严格控制的行为,引发了对其垄断倾向的担忧(例如 [Unsloth AI (Daniel Han)])。
    • 竞争格局: 也有人担心这些举措可能会使小型竞争对手边缘化,从而有利于大型科技公司,这表明人们普遍担心 AI 领域的创新会受到限制 Nous Research AI
  2. 新模型的进展与部署:
    • GPT-4o 发布: 社区对 GPT-4o 的发布表现出极大的热情,强调了其在一定限制下的免费公开访问,以及集成音频、视觉和文本推理的多模态能力 OpenAI
    • 社区反应: 一些人对 GPT-4o 相较于之前模型的表现持复杂态度,对新功能的兴奋被已注意到的推理不一致性所掩盖 Perplexity AIHuggingFace
  3. 关注技术优化与微调:
    • ThunderKittens: 因其极具前景的内核性能提升而受到关注,被认为优于 Flash Attention 2 等现有方法 CUDA MODEUnsloth AI (Daniel Han)
    • 微调问题: 多个社区提到了在微调 Llama3 等模型时遇到的困难,并讨论了具体的解决方案和优化技术 HuggingFace
  4. 应用与用例创新:
    • 世界模拟与 AI Agents: 社区分享了运行模拟的平台(如 Websim)以及用于生成 PowerPoint 演示文稿等任务的 AI agents。此外,人们对增强模拟能力(包括集成数字音频工作站)表现出显著兴趣 Nous Research AI
    • 社区工具共享: 用户频繁分享代码示例、脚本和教程,以协助设置和配置 AI 工具,强调了 LangChain AIHuggingFace 等跨项目协作知识共享的重要性。

重要链接:

  1. WizardLM GitHub: https://huggingface.co/alpindale/WizardLM-2-8x22B
  2. ThunderKittens GitHub: https://github.com/HazyResearch/ThunderKittens
  3. OpenRouter API Watcher Demo: https://orw.karleo.net/
  4. RAG Pipeline Tutorial: https://zackproser.com/blog/langchain-pinecone-chat-with-my-blog
  5. Deep Learning Initialization Guide: https://www.deeplearning.ai/ai-notes/initialization/index.html
  6. AI 研究论文 (相关链接):

PART 1: 高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

  • OpenAI 的监管辩论升温:社区讨论了 OpenAI 最近采取的收紧控制的举措,特别关注强制性 GPU 签名以及与白宫的合作。人们担心这会创造一个有利于大公司而非小型竞争对手的垄断环境。

  • WizardLM 成为焦点:尽管存在争议,WizardLM-2-8x22B 模型仍获得了支持,该模型最初由 Microsoft 发布,与 GPT-4 有相似之处。该模型引发了关于其可用性和潜在审查的讨论,相关资源已在 WizardLM GitHub 页面分享。

  • 追求巅峰性能的微调与工具:在技术方面,出现了关于模型微调的高效方法和工具的讨论。ThunderKittens 内核因其极具前景的性能提升而受到关注,其表现可能超越 Flash Attention 2,详情见 ThunderKittens GitHub

  • Unsloth AI 获得多 GPU 支持:Unsloth AI 因其高效的模型微调能力而受到认可,并计划支持多 GPU 功能。该工具无需独立分支即可集成新模型变体的能力受到了重视,详见 Unsloth GitHub

  • Llama3 微调中的挫折:工程师们交流了解决 Llama3 模型微调挑战的策略,讨论了数据集大小、padding 异常以及从 FP16 到 GGUF 格式的转换。诸如 GGUF tokenizer 的分词不准确等技术问题也是一个关键话题。

  • Altman 问答环节一瞥:OpenAI 举办了与 CEO Sam Altman 的问答环节,重点关注 Model Spec 并促进社区参与。该会议的动机在 Model Spec 文档中有所概述。

  • Llama 变体针对 Token Classification 进行微调:一位工程师贡献了针对 Token Classification 任务优化的 Llama 变体,使用了 LoRA 适配器并在 conll2003 数据集上进行了训练。这些模型可以通过其 Hugging Face collection 获取。


Stability.ai (Stable Diffusion) Discord

  • SD3:神话多过模型?:公会中的讨论充斥着关于 Stability AI 传闻中的 SD3 的猜测,类似于对 Half-Life 3 的期待。由于缺乏官方发布日期,用户中交织着希望与失望。

  • 微调协助请求得到回应:一位专家挺身而出,协助进行用于广告生成的 Stable Diffusion XL 微调,并强调了他们在 creativio.ai 机器学习后端方面的经验。

  • 模型使用与配置的复杂性:用户分享了在下载和设置大型模型(如 CohereForAI 的 C4AI Command R+)以及 KoboldAIOogaBooga 等软件时遇到的挑战。这些困难凸显了与软件配置和模型文件管理相关的复杂性。

  • 艺术风格与动画见解:有人建议使用 gpt-4 来识别艺术风格,并推荐使用 animatediff 配合 controlnet tile 的方法来制作动画,以保持与原始作品美学风格一致。

  • 图像超分辨率探索:一位用户寻求使用 Automatic1111 的 forge 配合 controlnet 来提高图像分辨率的专业知识,这反映了社区内对实现细致且高质量图像上采样的广泛兴趣。


OpenAI Discord

  • GPT-4o 对公众开放:OpenAI 发布了 GPT-4o,提供免费访问,但对使用量有限制,高级功能保留给 Plus 用户。该模型以多模态能力脱颖而出,集成了音频、视觉和文本推理。发布详情使用信息

  • 对 GPT-4o 性能的复杂情绪:工程师社区对 GPT-4o 的反应不一,强调了其增强的速度和成本效益,但与前代产品相比,其记忆跨度较短,且偶尔会出现推理不一致的情况。对语音和视频功能集成的兴奋显而易见,但由于目前缺乏可用性以及对推出时间表的困惑,这种兴奋有所减弱。

  • 微调 AI 工具集:关于 APIs 的讨论反映了技术人群对 GPT-4T 扩展的 128k context 在更细微应用中的兴趣,以及在高温度设置下管理随机性的策略。实际关注点包括通过其 定价页面 密切监控 OpenAI 的静态定价,并等待 Memory FAQ 中讨论的每个 GPT 记忆功能的实现。

  • 使用 Gemini 1.5 的编程难题:AI 工程师正在排查影响使用 Gemini 1.5 的应用程序响应的审核过滤器问题,并分享了使用 Python 脚本创建、管理和链接到可下载文件目录的步骤——这表明了他们解决破坏沉浸感的应用程序限制的机智方法。

  • 带有监管功能的 ChatGPT:一位用户询问如何构建一个 带有 3.5 模型的 ChatGPT 克隆版,该版本包含由监管机构进行的监控,这暗示了一种将界面复制扩展到行政监督领域的细致方法。


Nous Research AI Discord

  • Llama 在超过 8k 时表现吃力llama 3 70b 模型在生成超过 8,000 个 token 的内容时表现出连贯性问题。

  • 介绍 MAP-NeoMAP-Neo 项目已揭晓;这是一个透明的双语 LLM,在 4.5 万亿个 token 上训练而成,资源和文档可在 Hugging Face、其 数据集 和 GitHub 仓库 中找到。

  • 通过 ChatQA 彻底改变对话式 QA:一篇 arXiv 论文 详细介绍了一项突破,ChatQA-70B 在对话式 QA 方面超越了 GPT-4,它利用了 IBM/Redhat 的 InstructLab 框架,该框架通过每周策划的数据集更新引入增量增强,文档记录在 此处

  • 世界模拟技术讨论:成员们对 WorldSim 表达了热情,这是一个运行模拟和讨论哲学的平台,并就模拟器命令问题进行了技术讨论和错误报告。他们希望世界模拟能有扩展功能,如数字音频工作站集成。

  • GPT-4o 引发辩论GPT-4o 对 AI 领域的影响在社区内引发了争议性观点,讨论了其优点(如改进的代码性能和定量效率),以及对其专有性质和对开源 AI 可能带来的挑战的担忧。


Latent Space Discord

  • 值得称赞的博士论文:一篇 NLP 博士论文引起了关注和赞誉,作者的成就获得了 社交媒体的公开表扬

  • 数据一个都不能少:讨论转向了 Llama 3 庞大的 15 万亿 token 训练,引发了关于数据来源的辩论,并与 Stella Biederman 关于数据必要性的立场形成了对比。

  • AI 基础设施 - 征求反馈:一篇 Substack 文章概述了为 AI Agent 设计的新基础设施服务,并征求社区的意见 点击此处阅读更多

  • Falcon 2 起飞,但翅膀受限Falcon 2 的发布 引发了关于其领先的、多语言和多模态功能的讨论。然而,其许可条件因限制性过强而引起了关注。

  • GPT-4o 令人惊叹:关于 GPT-4o 能力的揭秘,包括其低延迟和多功能的响应,引发了关于 API 访问和实际表现的辩论,爱好者们分享了 OpenAI 的最新发布内容

  • OpenAI 观看派对 - 快来加入!:一位公会成员宣布了 OpenAI 活动的观看派对,活动开始前 30 分钟将举行预热庆祝活动 Discord 邀请

  • 观看派对的小插曲:在 OpenAI 春季发布会上,直播音频最初出现了一些小问题,但社区的快速提示帮助改善了情况。

  • 苹果 vs 谷歌 - 推测之战:在苹果在 AI 领域落后的传闻中,公会成员分享了关于 Siri 是否可能集成 GPT-4o 的见解,并暗示了监管方面的担忧 相关讨论

  • GPT-4o 的现场印象:GPT-4o 情感语音能力及其多模态熟练程度的现场演示让工程师们感到惊叹,引发了关于实时生产力和创意应用的讨论 活动回放

  • AI 的下一步 - 在顶级联赛中竞争:社区推测了 GPT-4o 的竞争后果,以及对 Google、Siri 等应用的潜在颠覆,一些人认为这些步骤是迈向模拟人类交互的一大步。


Perplexity AI Discord

  • Cheerio 的挑战者:用户正在寻找一种比 Cheerio 库 更快的 HTML 内容提取替代方案。一位用户引导其他人查看 Perplexity 的 AI 搜索 以获取更多信息。

  • 在 AI 服务之间做出选择:讨论对比了 ChatGPT PlusPerplexity Pro,后者因其作为 AI 搜索引擎的定位而受到称赞,支持 Collections 和模型灵活性等功能。Claude 3 在 Perplexity Pro 中的使用限制是一个痛点,用户正在关注 YesChat 以获得更慷慨的配额。

  • GPT-4o 抢尽风头:社区热切关注 GPT-4o 的发布,讨论了其优于前代模型的速度和能力。关于 Perplexity 何时将 GPT-4o 纳入其服务的关注度很高。

  • Perplexity 掌舵 AI 搜索Alexandr Yarats最近的采访 中成为焦点,揭示了他从 Yandex 和 Google 到成为 Perplexity AI 搜索负责人的职业轨迹。

  • 教程咨询显示了多样化的用户群体:用户对西班牙语 Perplexity AI 教程的需求标志着该平台的全球影响力以及对多语言支持资源的需求。分享了一个“深度探讨”的链接,尽管没有详细说明:深度探讨 Perplexity


HuggingFace Discord

  • 在入门级硬件上释放 LLM 潜力:由于 MistralLLaMa3 等开源 LLM 模型对硬件的需求低于 ChatGPT,社区对其展开了讨论。诸如 LM Studio 之类的资源允许用户发现并运行本地 LLM

  • 推进 AI 故障排除的前沿:讨论了各种技术问题,包括在 StableDiffusionPipeline 中禁用安全检查时遇到的问题、GPTRAG 应用中的数据检索挑战,以及在 Nvidia A10G 硬件上微调 GPT-2 XL 等模型。此外,关于 OpenAIGPT-4o 及其能力的讨论也非常热烈。

  • AI 学习的动态方法:从涉及容器化应用的 genAI 用户体验YouTube 视频),到 DeepLearning.ai 关于 Neural Network Initialization 的教程(deeplearning.ai 文章),以及针对 VAR 论文的 JAXTPU 集成(Equinox 的 GitHub)——社区展示了丰富的学习资源。

  • 移动端 Phi-3 与机器人技术的突破:重点资源包括一篇关于 Phi-3 在智能手机上运行效率的论文(arXiv 链接)、用于理解深度学习概念的书籍《Understanding Deep Learning》,以及一种新型的机器人 3D Diffusion Policy (DP3)3D Diffusion Policy 网站)。

  • 创新作品与 AI 部署:社区成员展示了一系列项目:AI 驱动的故事生成器(Alkisah AI)、古兰经经文工具(Kalam AI)、一个 OCR 框架(GitHub 上的 OCR Toolkit)、微调后的 Llama 变体(HuggingFace 集合),以及一个 AI Discord chatbot 教程(YouTube 视频)。


LM Studio Discord

GPT Agent 陷入学习困境GPT Agent 无法将新信息同化到其基础知识中引发了讨论,文中澄清了信息是如何作为“知识”文件存储的,而这些文件并不会更新 Agent 的核心理解。

高科技追求中的硬件障碍:工程师们在 128GB RAM 的硬件上运行 Llama 3 70B Q8 等高级模型时面临挑战,PCIe 3.0 造成的瓶颈通过更换为 PCIe 4.0 主板得以解决。事实证明,使用显存(VRAM)不足 6GBGPU 来运行大型模型是徒劳的。

Yi 模型引发热潮:包括 9B 和量化 34B 变体在内的 Yi-1.5 模型在各种任务中获得了赞誉和推荐,量化模型利用 llama.cpp 提升了性能。

提升效率的工具更新LM Studio0.2.22 更新引入了命令行工具 lms 用于模型管理,并修复了 llama.cpp 中的错误;同时,社区正在攻克将 OpenInterpreter 连接到 LM Studio 以及在 Linux 服务器上配置无头(headless)安装的复杂问题。

寻求研究合作:抛开公司术语,对话寻求在各种设置下运行 MemGPT 的帮助并分享经验,展现了优化该 AI 模型的集体努力。


OpenRouter (Alex Atallah) Discord

JetMoE 8B Free 遇到障碍JetMoE 8B Free 模型 由于上游负载过高正经历停机,所有请求均返回错误 (502),直至另行通知。

关注模型——OpenRouter API Watcher:一个名为 OpenRouter API Watcher 的开源工具已发布,它可以跟踪 OpenRouter 模型可用性的变化,通过 Web 界面和低开销的 RSS 提要提供每小时更新。查看 演示

Rubik’s AI Pro 的 Beta 测试机会:用户可以对 Rubik’s AI Pro(一款先进的研究助手和搜索引擎)进行 Beta 测试并提供反馈,使用 RUBIX 优惠码可获得 2 个月的免费高级版访问权限。更多详情请访问 Rubik’s AI

Jetmoe 的局限性:已确认 Jetmoe 无法访问互联网,这限制了其使用场景,但它在学术研究方面仍然有用。

GPT-4o 加入 OpenRouterGPT-4o 已加入 OpenRouter 的模型库,支持文本和图像输入,因其性能和极具竞争力的价格而备受关注,尽管它目前尚不支持视频和音频输入。

Modular (Mojo 🔥) Discord

  • Mojo 对模式匹配(Pattern Matching)的思考:关于在 Mojo 中实现模式匹配展开了激烈的辩论,支持者持肯定立场,认为其有助于编译器效率和完备的 case 处理。相反,反对意见则基于对传统 if-else 结构的审美偏好。

  • Mojo 崛起,Rust 的复杂性受到审视:Mojo 的编译器被描述为比 Rust 的编译器更易于导航和直观,这是一个热门话题。讨论延伸到了 Mojo 的未来发展,以及 Mojo 与 MLIR 之间潜在的关系。

  • Mojo 的创新与贡献:交流了在 Mojo 中引入类似 yield 的行为和新哈希技术的想法。指向 此 Pull RequestYouTube 演讲 的链接也引发了关于该语言所有权模型(Ownership Model)的讨论。

  • Nightly 版本与增强的 Mojo 性能GitHub Issues 上关于 Ubuntu 中 CI 测试、自定义 Hasher 结构提案以及 Mojo List 结构性能优化的讨论,突显了活跃的 Nightly 构建及其在持续开发节奏中的作用。

  • Mojo 生态中的字符串构建:一个新的 MoString 仓库受到关注,它提供了 StringBuilder 方法的变体以及一种减少 Mojo 中内存分配的方法,可在 GitHub 上获取。


CUDA MODE Discord

  • ThunderKittens 引起共鸣:工程师们对 ThunderKittens 表现出极大兴趣,这是一个专注于优化 CUDA kernel 的项目。它被认为在 Tensor Core 管理方面比 CUTLASS 更易上手,其仓库包含 NanoGPT-TK 等项目,因其在 GPT 训练中的性能而受到赞誉。

  • Triton 扩张的宇宙:关于 Triton 的知识共享达到顶峰,推荐了高级学习资源,包括详细的 YouTube 讲座 和指向 GitHub 仓库(如 PyTorch 的 kernel)的指针。随着对内部性能和可能超越当前实现的新领域特定语言(DSL)的讨论,兴奋之情溢于言表。

  • 按需学习:宣布了即将举行的关于 算子融合(fusing kernels)CUDA C++ scans 的专家讲座,地点设在 Zoom。伊利诺伊大学关于并行编程的系列讲座也可访问,提供 Zoom 会议 和完整的 YouTube 播放列表 供独立学习。

  • 性能调优攻坚:讨论涉及了提升性能的技术,从在 CUDA kernel 外部进行计算,到对 kernel 使用 max-autotune,再到使用 Dynamo over Inductor 的编译器动态,强调了 kernel 融合收益与配置成本之间的细微权衡。

  • 社区支持与问题解决:咨询范围从理解 CUDA 的 GPU 内存管理,到寻求热成像人脸识别的项目协助,涉及对见解、论文和 Git 仓库的请求。此外,在课程内容和构建的 GPU 兼容性检查方面也有着富有成效的互动。


Eleuther Discord

  • 警惕合成数据炒作!:尽管对合成数据持看好态度,但由于 5-7 年前曾出现过类似的炒作周期,一些工程师仍保持谨慎,质疑随着新从业者的加入,关键教训是否能得到传承。
  • 卷积沉思录:AI 工程师正在比较 CNN, Transformer 和 MLP 在视觉任务中的表现,如 arXiv 论文讨论所述,这表明虽然中等规模下表现相当,但扩大规模可能需要混合方法。
  • 模型压缩方面的努力:关于模型压缩对特征和神经电路影响的讨论不断涌现,思考压缩过程中丢失的特征是冗余的,还是揭示数据集多样性的关键专业化特征。
  • 对新注意力方法的关注:一种使用卷积矩阵的高效注意力近似方法引发了讨论,但也伴随着一些质疑,考虑到现有的 Flash Attention 等方法,以及关于大语言模型 (LLMs) 深度缩放的讨论,参考了 SOLARYi 1.5 模型
  • Falcon-2 洞察与版权对话Falcon-2 11B 的发布引发了讨论,该模型在高达 5T 的精炼数据上训练并采用宽松许可证;同时,关于 AI 版权影响的持续辩论强调了竞争优势可能向 Microsoft 等提供赔偿保障的大公司倾斜,这可能对小型参与者产生寒蝉效应。

Interconnects (Nathan Lambert) Discord

  • GPT-4o 登顶:OpenAI 最新的模型 GPT-4o 已被证明在编程方面优于前代,并可能在 MATH 等其他基准测试中提高门槛。它也成为了 LMSys Arena 上最强的模型,对所有其他模型都拥有更高的胜率。
  • 从 PPO 视角理解 REINFORCE:一个 Hugging Face PR 揭示了 REINFORCE 是 PPO 的一个特例,为这两种强化学习方法之间的关系提供了一个有趣的视角,相关内容记录在最近的一篇论文中。
  • 开发中的 VideoFX 引人关注:VideoFX 的早期片段展示了其不断增长的能力,通过 Twitter 上的预览内容引发了关注。
  • Tokenizer 调优提升效率:OpenAI 为其 Tokenizer 推送了新更新,通过使用更大的词表来提高处理速度,详见最近的 GitHub commit
  • 具有病毒式传播潜力的视频引起关注:在 Interconnects 的 #reads 频道中,某些视频播放量的激增引发了关于推广策略的讨论,其中一个目标是受另一个 Hugging Face 视频启发,旨在达到更高的播放量。甚至还有关于绕过 Stanford 的许可协议以更广泛传播视频内容的讨论。

LAION Discord

  • AI 带来的艺术焦虑:工程师们讨论了 AI 艺术对艺术家生计的影响,研究了 Midjourney 等服务对艺术销售的影响以及潜在的 法律后果。一些人主张公平使用(fair use),而另一些人则对衍生作品表示担忧,并参考了 The Legal Artist 的见解。

  • 围绕 AI 的法律热议:在当前环境下,关于 StabilityAI 和 Midjourney 可能面临法律挑战的讨论不断,一些人希望 David Holz 为其工作承担后果。讨论还涉及了陪审团裁决对此类法律案件走向的不可预测影响。

  • AI 效率的演进:关于 AI 模型效率提升的提及引发了兴趣,重点关注了 Civitai 上微调的 Pixart Sigma 模型,以及 FlashAttention-2 所展示的 AI 算力进步。

  • Falcon 2 启航:公告强调了 Falcon 2 模型的发布,其性能优于 Meta 的 Llama 3,详细信息可通过 Technology Innovation Institute 获取。

  • 音频的文本化转换:工程师们探索了将语音数据集转换为 Token 的方法,强调了针对情感和说话者属性的高质量标注。他们分享了一篇 Twitter 帖子 和一段 YouTube 视频,内容关于使用音频数据训练 Transformer 以供进一步理解。


LangChain AI Discord

  • 使用 LangChain 提取 ISO 日期:针对一名成员关于如何提取日期并将其转换为 ISO 格式的请求,社区分享了在 Python 和 JavaScript 中使用 DatetimeOutputParser 的代码示例,突出了 LangChain 在结构化输出方面的功能。

  • 将本地 LLM 与 LangChain 连接:对话包括了如何使用 LangChain 集成 Ollama 等本地开源 LLM 的指导,Kapa.ai 提供了模型定义和提示词(prompt)创建的详细分解

  • 超越 InMemoryStore 的持久化存储方案:在寻求 LangChain 和 Gemini 内部持久化存储替代方案的过程中,一些人指向了 LangChain 文档以寻找潜在解决方案,从而超越受限的 InMemoryStore

  • HuggingFace 集成的常见障碍:用户分享了在将 HuggingFace 模型与 LangChain 集成时遇到的常见问题及修复方法,强调了模型兼容性和精确 API 交互的重要性。

  • 增强 LangChain 技能的教程与资源:社区重点推荐了诸如 YouTube 教程 和关于使用 LangChain 构建 RAG 流水线的详细 博客文章,并征集关于 LangChain 应用中流式传输和会话管理的指导。


LlamaIndex Discord

  • 自动生成幻灯片:利用 Llama 3 RAG 流水线,开发了一个结合 Python-pptx 自动生成 PowerPoint 演示文稿的新系统。工作流和集成细节在 文章 中分享。

  • 对 Reflection(反思机制)的反思:Hanane Dupouy 探索了创建一个能够对股票价格进行反思的金融 Agent,这为高级 CRITIC 应用展示了前景,其 分享 中提供了深入解释。

  • 通过 RAG 进行内容审核:概述了如何建立一个 RAG 流水线,通过将图像转换为文本并根据索引规则进行检查,来审核用户生成的图像,并提供了更 详细的步骤

  • 深度剖析 RAG 系统:@kingzzm 提供了一篇全面的文章,涵盖了使用 TruLens, Ragas, UpTrain 和 DeepEval 等库对 RAG 系统进行的评估,并附带了 指标文章 的链接。

  • 蒸馏知识,优化模型:推荐了一篇以讨论为中心的 博客文章,内容关于用于微调 GPT-3.5 的知识蒸馏(knowledge distillation)技术,适合希望提高模型准确性和性能的工程师。


OpenAccess AI Collective (axolotl) Discord

技术内行分享 AI 见解

  • LLAMA3 的指令层秘密:一项 分析 显示,LLAMA 3 的关键权重集中在 K 和 V 层,这表明可以通过冻结这些层来诱导风格变化,而不影响其指令处理能力。

  • OpenOrca 的实用性与 AI 效率:AI 爱好者评估了为 GPT-4o 重新运行 OpenOrca 去重工作的可行性,成本约为 650 美元;同时重点讨论了如 BasedMonarch MixerH3FlashAttention-2 等提高计算效率的方法,详见 博客文章

  • 开发乱象:依赖与 Docker 困扰:开发者报告了从使用 Docker 时出现的 AttributeError ‘LLAMA3’ 错误到导致冲突的过时依赖等各种困难,并强调了从 torch 2.0.0 迁移到 2.3.0 的过程中需要更新 fastchatpyet

  • AXOLOTL 交互中的错误与问题:AI 社区面临着多种挑战,包括将模型转换为 GGUF 格式时的错误消息、加载 Gemma-7B 以及将 QLoRA 合并到基座模型中的实际操作问题,这些问题在帖子讨论中往往尚未得到解决。

  • 尚无快速解决方案:针对 Axolotl-phorm-bot 关于 剪枝支持持续预训练LoRa 方法 以及 QLoRA 合并技术 等话题的咨询,虽然触发了对 Axolotl 仓库的搜索,但未能提供即时解决方案 —— 详情请查看 Phorm 平台

部署实用的解决方案和无缝更新仍然是应对新兴 AI 技术难题的共同目标 —— 后续将有更多更新与突破。


OpenInterpreter Discord

古怪的错误与飞速的性能:Claude API 用户报告了阻碍使用的 “古怪错误”,而 GPT-4o 则因其迅捷的性能(达到“最低 100 tokens/s”)而获得赞誉。Mixtral 和 Llama3 等本地模型被认为逊色于 GPT-4

PyWinAssistant 展示 AI 对 UI 的控制:一个名为 PyWinAssistant 的开源项目允许通过自然语言控制用户界面,并利用 Visualization-of-Thought 进行空间推理。随着用户分享 GitHub 仓库 和实况 YouTube 演示,热度不断上升。

硬件难题与软件方案LiteLLM、Groq 和 Llama3 的集成已成功确认,而另一位用户则在连接其 01-Light 设备时遇到困难。此外,Python 脚本执行中出现的独立问题通过正确导入 OpenInterpreter 得到了解决。

发货更新与支持渠道:关于 01 硬件 的查询带来了即将分批出货的消息,且该硬件的 iOS 应用 正在 Beta 测试中,已在 GitHub 上分享。订单取消请联系 help@openinterpreter.com

开发者关于模型切换的讨论01 开发预览版引发了关于使用 poetry run 01 --local 切换到本地模型的交流,并提供了关于模型选择命令的见解。


tinygrad (George Hotz) Discord

  • 张量讨论应对可变形状 (Variable Shapes):工程师们讨论了如何在 tinygrad 中表示具有 variable shapes 的张量,由于 token 数量的变化,这一话题在 transformers 中尤为重要。他们参考了 Tinygrad 对可变形状的处理 以及来自 Whisper 的代码片段(片段 1片段 2)以获取灵感。

  • Dim 与 Axis:术语不同,概念相同?:有人寻求澄清张量操作中 “dim” 和 “axis” 之间的术语差异,结论是这两个术语大多可以互换使用,任何差异可能都源于历史惯例。

  • 调试训练期间的 AssertionError:一位用户在进行 bigram 模型训练时遇到了与缺失梯度相关的 AssertionError,这引发了关于正确设置(Tensor.training = True)的讨论。对话中引用了一个 GitHub pull request 以防止此类问题发生。

  • 神经图灵机 (NTM) 中的特征聚合:一个 NTM 实现引发了关于通过张量操作和优化进行特征聚合的讨论,为此双方交换了代码示例,并讨论了关于提高效率的想法(聚合特征代码)。

  • 解决反向传播 (Backprop) 中的 where 挑战:参与者们解决了一个在 tinygrad 中使用 where 调用导致 RuntimeError反向传播问题。解决方法涉及 detach().where() 方法,突显了 PyTorch 到 tinygrad 的梯度转换挑战。


Cohere Discord

  • Token 问题与模型机制:针对输入 token 意外激增的疑问得到了澄清;使用命令 ‘r’ 进行网页搜索会导致上下文传递和更高的 token 计数,从而产生计费。同时,像 SolidGoldMagikarp 这样的语言模型中存在的 “glitch tokens” 挑战在一篇 相关的 arXiv 论文 中得到了确认,该论文讨论了这些潜在问题 token 的检测方法。

  • 开源 Embedding 与计费难题:由于缺乏回应,关于 embedding 模型开源性质的问题未达成共识。在另一个问题中,关于 0.63 美元费用的计费困惑得到了解决,这归因于自上次发票以来的应付金额。

  • Aya 对比 Cohere Command Plus - 模型之争:在 Aya 和 Cohere Command Plus 模型的对比中,据报告 Aya 的准确性较低,即使在 0 temperature 设置下也是如此,一位用户建议其最佳用例是在翻译任务中。

  • 专用 LLM 在电信领域寻求新突破:分享了一个为电信行业(重点关注 5G 等领域)定制大语言模型 (LLM) 的挑战,更多细节可以在 Zindi Africa 竞赛页面 找到。

  • 寻找 Chat-with-PDF 解决方案:征集使用 Cohere 的 “chat with PDF” 应用程序参考资料,目的是促进成员间的协作和知识共享。


Datasette - LLM (@SimonW) Discord

  • GPT-4o 表现仍不尽如人意:成员们分享了对 GPT-4o 准确性的失望,在要求模型列出其在图书馆场景中“看到”的书名时,成功率仅为 50%。
  • 语音助手营销失误:最近的语音助手推广失误,包括设备发出不必要的傻笑,遭到了用户的批评,称其“令人尴尬”。
  • 自定义指令可能改进语音助手:人们寄希望于通过自定义指令来改善与语音助手的交互,旨在消除尴尬行为。
  • AGI 信仰者俱乐部成员稀缺:对于 AGI 的短期发展普遍持怀疑态度,工程师们表示不相信其即将到来。
  • LLM 的边际收益递减规律:讨论表明,大家一致认为大语言模型新版本的改进正在减弱,而当前模型仍有未被开发的潜力。

Mozilla AI Discord

  • 警惕虚假仓库:一则公告警告存在虚假 OpenELM 仓库;目前没有可用的 OpenELM GGUF (GitHub User File),提醒社区防范潜在诈骗。

  • llamafile Archives 获得提升:提到了一个用于升级 llamafile Archives 的新 pull request (PR),该脚本基于 Brian Khuu 的博客 中的脚本,为文件处理流程提供了改进和维护。

  • 容器化获得批准:解决了关于使用 podman 或 kubernetes 等容器化工具的困惑,确认在操作中使用容器是获得批准的,并鼓励以此实现部署的一致性和可扩展性。

  • Hermes-2-Pro 性能检查:分享了在 AMD 5600U 上运行 Hermes-2-Pro-Llama-3-8B-Q5_K_M.gguf 的经验,指出响应时间约为 10 秒,RAM 使用峰值达到 11GB

  • 模型故障排除:Batch Size 错误:有报告称一个错误影响了 Llama 8B 和 Mistral 模型,涉及 update_slots 和 n_batch 大小问题。较高的 RAM 分配 似乎可以缓解该问题,而该问题在 LLaVa 1.5Llama 70B 等其他模型中较少见。


DiscoResearch Discord

搜索德语内容:为了训练一个 Text-to-Speech 模型而寻找多样化的德语 YouTube 频道,建议使用 Mediathekview 下载内容。Mediathekview 的 JSON API 也被强调为一个资源丰富的工具,详见 GitHub 仓库

保持英语交流:讨论中发布了一项提醒,确保英语作为主要的沟通语言,可能是为了保持讨论的可访问性。

Demo 状态检查:关于一个未识别 Demo 状态的查询未收到回复,表明要么缺乏信息,要么该查询未受到关注。

为……点赞:通过简短的 “It’s really nice” 评论表达了正面反馈,但并未展开说明满意的具体背景。

对 RT Audio 接口的好奇:社区对聊天之外应用中的 “RT Audio interface” 表现出明显的好奇和兴奋,但目前尚未在讨论中分享相关经验或结果。


LLM Perf Enthusiasts AI Discord

  • Claude 在 Haiku 任务中击败 Llama:在一次语言能力的对决中,工程师们比较了 Claude 3 Haiku 的子模型准确率与 Llama 3b Instruct 的实体提取能力。初步的模糊匹配实验证明无果,引发了对更复杂的子模型匹配技术的兴趣。

  • 预告和配音引发关注:随着 OpenAI 的 Spring Update 的预告,社区的期待感正在上升,该更新承诺推出 GPT-4o。一个显著的亮点是 Scarlett Johansson 在更新中担任配音,这在成员中引发了惊讶和欢笑。

  • 音频未来讨论:技术讨论推测了 OpenAI 潜在的音频功能集成,设想为 AI 助手提供直接的音频输入输出支持。

  • OpenAI 更新可用:渴望最新进展的工程师关注了 OpenAI Spring Update,其中包含关于 GPT-4o、ChatGPT 增强功能等信息,已于 2024 年 5 月 13 日直播。


Alignment Lab AI Discord

AlphaFold 走向社交化AlphaFold3 Federation 已开始行动,邀请参与者参加美国东部时间 5 月 12 日晚上 9 点的会议,重点讨论更新和流水线开发,公开邀请链接见此处

fasteval 濒临终结fasteval 项目似乎即将结束,但仍希望有人能接手;目前的维护者愿意转让在 GitHub 上的项目,否则他们建议将其归档。


AI Stack Devs (Yoko Li) Discord

  • 需要速度自定义?:用户对个性化 AI Town 体验表现出浓厚兴趣;具体包括调整角色移动速度NPC 数量。这些反馈表明用户希望对游戏机制拥有更多控制权。

  • 平衡 NPC 交互:一位用户建议通过降低 NPC 交互频率来优化 AI Town,从而提高玩家与 NPC 交互的质量。他们强调了在本地使用 llama3 模型运行 AI Town 时面临的性能挑战。


Skunkworks AI Discord

  • 技术爱好者的随性分享:用户 pradeep1148 在 #off-topic 频道分享了一个 YouTube 视频,AI 工程师同行可能会感兴趣。视频内容未作说明,因此其与技术讨论的相关性尚不明确。

YAIG (a16z Infra) Discord

  • AI 讨论达成共识pranay01 的回复一如既往地简短,仅用一个简单的“同意!”(Agree!)结束,这反映了双方达成了一致,或者标志着关于某个潜在复杂的 AI 基础设施话题讨论的结束。目前没有更多上下文来详细说明该共识的具体性质。

MLOps @Chipro Discord 没有新消息。如果该服务器长时间保持沉默,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该服务器长时间保持沉默,请告知我们,我们将将其移除。


第 2 部分:各频道详细摘要与链接

Unsloth AI (Daniel Han) ▷ #general (833 条消息🔥🔥🔥):

  • 社区批评 OpenAI 的监管举措:成员们讨论了 OpenAI 的 GPU 签名以及与白宫的合作,认为这是垄断和控制 AI 领域的举动。有人指出 OpenAI 希望将授权设为强制性,从而限制竞争(“当技术监管只对顶尖公司有利时,我真的讨厌任何形式的技术监管”)。

  • 尽管存在争议,对 ‘WizardLM’ 的支持仍在扩大:成员们分享了关于备受争议的 WizardLM-2-8x22B 模型的资源链接。参与者强调,该模型最初由 Microsoft 发布,后来因其与 GPT-4 的相似性而被审查(下架)(WizardLM GitHub)。

  • Discord 成员讨论高效微调和新工具:讨论了各种工具和内核(如 ThunderKittens),用于改进模型训练和推理。一个名为 ThunderKittens 的新内核因其有望超越 Flash Attention 2 而受到关注 (ThunderKittens GitHub)。

  • Unsloth 获得好评并发布更新:用户对 Unsloth 用于高效微调模型的库表示赞赏。Unsloth 宣布了即将推出的多 GPU 支持,以及对 Qwen 最新版本等模型的集成,且无需特定的额外分支要求 (Unsloth GitHub)。

  • 讨论 Llama 模型的微调挑战:成员们分享了关于微调过程的经验和排错建议,特别是关于提供数据集大小和 Padding(填充)问题。将模型格式从 FP16 转换为 GGUF 等不同格式的处理也是一个显著的话题。

提及的链接

Unsloth AI (Daniel Han) ▷ #random (15 条消息🔥):

  • OpenAI 举办问答活动以促进社区参与:OpenAI 首席执行官 Sam Altman 在 Reddit 上举行了问答活动,讨论新发布的 Model Spec,鼓励社区互动和提问。该文档概述了 OpenAI API 和 ChatGPT 中期望的模型行为。

  • 对 AI 更新的复杂情绪:成员们对 OpenAI 潜在的更新表达了各种情绪。虽然有人希望能带来新的活力,但也有人考虑到过去的经验和当前的市场动态,持谨慎乐观或怀疑态度。

  • 对 OpenAI 发布开源模型的怀疑:讨论强调了对 OpenAI 发布开源模型的质疑,原因是这可能对其商业模式和声誉产生影响。讨论中将其与 Meta 等其他公司进行了比较,后者的开源发布要么是被迫的,要么是对竞争的战略性回应。

  • 关于 AI 发展宣传未来的辩论:频道中讨论了关于“AI 寒冬”的报道是否会影响 OpenAI,共识倾向于由于 OpenAI 目前的行业地位,影响微乎其微。讨论还涵盖了发布开源 AI 模型的动机和风险。

提到的链接

Unsloth AI (Daniel Han) ▷ #help (312 条消息🔥🔥):

  • 量化模型与 TGI 的挑战:一位成员指出,在使用 TGI 时,量化模型经常在 HF 专用推理上导致分片错误(sharding errors)。他们注意到模型需要通过 model.save_pretrained_merged(...) 以 16-bit 格式保存以避免问题(TGI 需要 16-bit 模型)。

  • GGUF Tokenizers 的问题:讨论了关于 Tokenization 的问题,特别是 Gemma 的 GGUF 模型。成员们指出了诸如错误的 Tokenization 以及在第一个 Token 中添加额外空格等问题。

  • 在 Colab 上微调 Llama3 模型:多个用户在微调 Llama3 模型时遇到并解决了问题。一位用户提到,通过手动保存为 GGUF 并确保模型正确保存和加载找到了解决方案,相关的文档和示例 Notebook 是有效的指南。

  • 多 GPU 和多云讨论:针对多 GPU 和基于云的训练选项进行了建议和辩论。一些成员对高昂的价格表示担忧,并提议与云服务提供商建立潜在的合作伙伴关系,为商业用户提供具有成本效益的解决方案。

  • 在 Colab 上安装 Unsloth 的问题:解决了在 Colab 上安装和导入 Unsloth 的相关问题。解决方案包括确保正确的运行时设置(特别是 GPU 设置)并严格遵循指令。

提到的链接

Unsloth AI (Daniel Han) ▷ #showcase (1 条消息):

  • SauravMaheshkar 分享 Llama 微调变体: 一位成员一直致力于微调 用于 Token Classification 的 Llama 变体,并将部分模型权重上传到了 🤗 hub。微调后的变体包括在 conll2003 数据集上使用 LoRA adapters 训练的 unsloth/llama-2-7b-bnb-4bit,并分享了 合集链接

提到的链接: LlamaForTokenClassification - a SauravMaheshkar Collection: 未找到描述


Stability.ai (Stable Diffusion) ▷ #general-chat (976 条消息🔥🔥🔥):

  • Discord 用户对 SD3 是否存在表示疑问: 用户们对 Stability AI 即将推出的 SD3 进行了猜测,质疑它是否会发布。情绪各异,有人对错过发布日期表示失望,也有人幽默地将这种情况比作“半条命 3”。

  • SDXL 微调需要专业知识: 一个寻求微调 Stable Diffusion XL 以生成产品广告的求助得到了回应。一位经验丰富的用户表示愿意提供帮助,并展示了他们过去在 creativio.ai 的 ML 后端工作成果。

  • 查找和使用 AI 任务模型极具挑战性: 用户讨论了下载和运行大型语言模型(如 CohereForAI 的 C4AI Command R+),以及配置 KoboldAI 和 OogaBooga 等软件的复杂过程。用户对其中的难度和庞大的文件大小表示沮丧。

  • 识别艺术风格并制作动画: 用户建议通过学习艺术史或使用工具如 gpt-4 来识别艺术风格。对于接近原图的轻微动画,建议使用 animatediff 配合 controlnet tile 等方法。

  • 图像放大(upscaling)的挑战:一位用户在使用带有 ControlNet 的 Automatic1111 Forge 进行图像放大时遇到了困难。他们寻求关于如何实现高质量、高细节放大的建议。

提到的链接

OpenAI ▷ #annnouncements (2 条消息):

  • GPT-4o 提供有限制的免费公开访问:OpenAI 宣布推出 GPT-4o,并向所有人免费提供浏览、数据分析和记忆等功能,但设有使用限制。Plus 用户将享受高达 5 倍的使用限额,并能抢先体验 macOS 桌面应用以及下一代语音和视频功能等特性。更多信息
  • 介绍具备多模态能力的 GPT-4o:OpenAI 的新旗舰模型 GPT-4o 可以跨音频、视觉和文本进行实时推理。文本和图像输入功能现已在 API 和 ChatGPT 中上线,语音和视频功能将在未来几周内推出。详情点击这里

OpenAI ▷ #ai-discussions (684 条消息🔥🔥🔥):

  • GPT-4o 亮相,评价褒贬不一:成员们讨论了新 GPT-4o 的表现,指出它速度更快、价格更便宜,但与 GPT-4 相比,在推理方面存在不一致性,且记忆力较短。一些用户赞赏其能力,而另一些用户则认为 GPT-4 在处理自定义指令时具有更好的推理能力。
  • 逐步推出的混乱与对功能的期待:成员们在通过 API 和 ChatGPT 获取 GPT-4o 访问权限时经历了不同的推出时间。大家对即将推出的实时摄像头使用和新的语音功能表现出明显的狂热,尽管这些功能尚未完全推出。
  • 经典模型与新模型的辩论:考虑到 GPT-4o 较低的成本和快速的性能,用户们辩论了在 GPT-4o 可用时维持 GPT-4 的实用性。一些人指出了 GPT-4 表现仍然更好的特定案例,导致在选择使用哪个模型上出现了分歧。
  • 功能可用性查询:关于特定功能可用性的查询非常突出,例如新的 macOS 应用、视觉能力以及 GPT-4o API 中的语音克隆。澄清说明其中许多功能将在未来几周内逐步提供。
  • 普遍的兴奋与怀疑:社区对新更新表达了兴奋与怀疑交织的情绪,许多人期待更广泛的访问权限,并在实际应用中测试新功能。
提到的链接:

OpenAI ▷ #gpt-4-discussions (126 messages🔥🔥):

- **Issues Passing Files to GPT Actions**: A member asked if anyone figured out how to pass uploaded files to a GPT action. There wasn't a clear resolution provided in the discussion.

- **GPT-4T API Provides Higher Context**: Discussion highlighted that the API for GPT-4T is less restrained and currently allows a 128k context. Members discussed the nuances of this capability.

- **Random Output with High Temperature Settings**: A member experienced random outputs when setting the temperature above 1.5. Another advised keeping the temperature below 1 for stable and coherent responses.

- **Fetching OpenAI Model Pricing**: Members shared that OpenAI pricing is static and can be reviewed on the [OpenAI pricing page](https://openai.com/api/pricing/). There are no alerts for pricing changes, so users need to monitor the page manually.

- **Custom GPTs and Cross-Session Memory**: There was confusion about custom GPTs' cross-session memory capabilities, clarified by a member noting that per-GPT memories have not rolled out yet. More details about this can be found in the [OpenAI Memory FAQ](https://help.openai.com/en/articles/8590148-memory-faq).

OpenAI ▷ #prompt-engineering (32 messages🔥):

  • Gemini 1.5 的审核过滤器(Moderation Filter)问题:一位用户报告称,由于未指定的审核过滤器,他们的应用程序在处理与 “romance package” 相关的查询时始终失败。尽管已将所有屏蔽选项设置为“无”并尝试了不同的设置,问题依然存在,这使得他们在一家大型度假村的集成实施变得困难。
  • 关于安全设置(Safety Settings)的讨论:成员们讨论了审核过滤器的问题是否是因为安全设置没有被显式禁用。一位成员建议在 AI Lab 中进行测试,以确保没有语法错误影响结果。
  • API Keys 和温度设置(Temperature Settings)实验:用户尝试生成新的 API Keys 并调整温度设置来解决问题,但均未成功。这使他们得出结论,问题可能出在 Google 方面。
  • 提供帮助并建议进行语法检查:另一位成员提供了帮助,并建议在 AI Lab 中检查语法,以确认问题并非由不正确的语法或安全过滤器设置引起。用户对这一协助表示感谢,但仍坚信问题是外部原因导致的。
  • 用于文件操作的 Python 脚本:一位用户分享了一个 Python 脚本片段,概述了创建目录、在不同会话中编写 Python 文件以及压缩目录的过程。该脚本演示了一种显示下载生成的 zip 文件链接的方法。

OpenAI ▷ #api-discussions (32 messages🔥):

  • Gemini 1.5 中的审核过滤器问题:一位用户报告了他们的应用程序在用户查询 “romance package” 或类似话题时持续失败的问题。尽管更改了默认设置并生成了新的 API Keys,问题依然存在,这表明可能存在模型训练限制。
  • 排除 AI 安全设置故障:另一位用户建议显式禁用安全设置以潜在地解决此问题。他们强调了确保安全过滤器被正确关闭的重要性,并提供了一种截图方法进行进一步验证。
  • Google AI Lab 潜在解决方案:对话转向在 Google AI Lab 进行测试,以确定语法错误是否是原因。建议包括检查安全过滤器,并可能在实验室中测试语法错误。
  • 在 Python 中创建文件目录:一位用户请求关于创建完整文件树、在 Python 会话中编写文件以及压缩目录的指导,并要求在完成后提供下载链接。该任务涉及通过 Python 脚本以编程方式设置目录结构并管理文件。

OpenAI ▷ #api-projects (2 messages):

  • 创建带有追踪功能的 ChatGPT 克隆版:一位用户询问了创建一个利用 3.5 modelChatGPT clone 的可行性,但要求组织能够监控用户消息。这意味着在复制 ChatGPT 界面的同时增加消息追踪功能。

Nous Research AI ▷ #ctx-length-research (1 messages):

king.of.kings_: 我正努力让 llama 3 70b 在超过 8k tokens 时保持连贯性,哈哈。


Nous Research AI ▷ #off-topic (15 messages🔥):

  • 法国的极光:一位成员提到在法国奥弗涅(Auvergne)的阿尔韦尼亚(Arvenia)中心火山上空看到了北极光(aurora borealis)。这种超现实的自然现象引起了他们的注意,并认为值得分享。
  • 分享 YouTube 链接:分享了两个 YouTube 链接:一个标题为 “Udio Testing: You never knew your own name : whispers in the void”,另一个由另一位成员分享,没有额外描述。
  • 介绍 MAP-Neo:一位用户宣布发布 MAP-Neo,这是一个基于 4.5T tokens 训练的全透明双语 LLM,并分享了 Hugging Face 链接、数据集以及 GitHub repository
  • 《天国:拯救》烹饪机制:一位用户讨论了游戏《天国:拯救》(Kingdom Come: Deliverance)中的永久炖菜机制,并指出其历史准确性。他们分享了一个涉及慢炖蔬菜和肉类的个人食谱,强调了根据饥饿程度改变烹饪方法。

  • RPA 和软件自动化:一位成员询问是否有库可以像 RPA 自动化那样,通过 RDP 直接与软件窗口进行交互。另一位成员建议使用 Frida 进行运行时钩子(runtime hooks)并通过 HTTP API 暴露功能,尽管由于无法访问软件二进制文件(binaries),人们对复杂性表示了担忧。
提到的链接

Nous Research AI ▷ #interesting-links (6 条消息):

  • 神经网络中的分层相关性重构 (Hierarchical Correlation Reconstruction):一位成员发布了一篇 arXiv 论文 的链接,讨论通过分层相关性重构来优化人工神经网络。该论文将典型的单向值传播与生物神经元的多向操作进行了对比。

  • Taskmaster 剧集角色扮演应用:另一位成员分享了他们创建的一个 React 应用,用于角色扮演 Taskmaster 参赛者,该应用使用了一个编码了剧集每个阶段的状态机。用户需要输入自己的 OpenAI 密钥,可能会遇到一些笨拙的输出,但可以查看 GitHub 上的代码

  • Yi-1.5-34B-Chat 模型更新:一条消息强调了 Hugging Face 上的 01-ai/Yi-1.5-34B-Chat 模型。该模型最近进行了更新,已有超过一千次使用,详见此处

  • 详细的军工复合体知识图谱:一位成员使用 Mistral 7B instruct v 0.2 及其框架 llama-cpp-agent,创建了一个包含 40 个节点的军工复合体知识图谱。他们分享了 GitHub 上的框架,该框架支持各种服务器和 API,如 llama.cpp 和 TGI。

  • 关于 OpenAI 技术与策略的详细思考:一位用户链接到了一个 Twitter 线程,深入探讨了 OpenAI 在音频到音频映射和视频流到 Transformer 方面的进展。它推测了 OpenAI 的战略举措以及潜在的 Apple 集成,并将 GPT-4o 视为 GPT-5 的前奏。

提到的链接

Nous Research AI ▷ #general (741 条消息 🔥🔥🔥):

  • OpenAI 的 GPT-4o 引发意见分歧:成员们讨论了 GPT-4o 的发布,注意到其双向输入输出能力和提升的代码性能。关于其较低的 token 限制 (2048) 以及对开源 AI 社区的潜在影响存在显著争议。
  • 速度提升带来的复杂感受:用户注意到 GPT-4o 速度的提升和成本的降低,将其效率归功于潜在的 quantization 和模型尺寸的减小。尽管有这些优势,一些人仍对其有限的 token 输出和定价感到失望。
  • 对 OpenAI 竞争策略的担忧:几位成员对 OpenAI 的做法表示沮丧,认为其旨在主导市场并边缘化开源替代方案。这种情绪凸显了 AI 社区内部关于闭源与开源模型之间持续存在的紧张关系。
  • 技术演示与问题:成员们在各种场景下测试了 GPT-4o 的能力,包括 API 性能和数学推理。一些人观察到了不一致的结果,并推测了原因,例如潜在的 quantization 伪影或模型局限性。
  • 对专业化服务的影响:讨论还涉及了 GPT-4o 的特性可能如何影响专注于音频生成和多模态能力的专业化服务公司,ElevenLabs 被提及为可能受到影响的实体。
提到的链接

Nous Research AI ▷ #ask-about-llms (48 条消息🔥):

  • Attention Block 的 MoE 架构探索: 成员们讨论了 MoE (Mixture of Experts) 架构的结构,特别是询问是否包含 attention blocks。有人指出,传统上只有 FFN 层是 MoE 的一部分,尽管研究中已经探索过 MoE attention。

  • 结合自回归模型与扩散模型:有人对将文本领域青睐的自回归模型 (Autoregressive Models) 与图像领域使用的扩散模型 (Diffusion Models) 合并以创建强大的多模态模型的可行性感到好奇。一位成员就这一概念寻求验证和想法,表明架构的融合可能会提供更强的性能。

  • 理解并使用提示词模板 (Prompt Templates):对话涵盖了提示词模板的不同格式,解释了它们在模型响应中的重要性。讨论了如 Alpaca Prompt Format 和 ChatML 等特定格式,以及根据所使用的模型(如 Hermes)的最佳实践。

  • 防止模型给出刻板的“人生教训”:成员们集思广益,探讨如何阻止模型在检测到潜在不安全输入时默认给出通用的“安全”响应。建议使用系统提示词 (System Prompts) 和特定的微调技术作为解决方案,包括 HuggingFace 上的资源以及 Alignment Forum 上关于减轻模型拒绝行为的一篇文章。

  • 使用特定数据集进行微调 (Fine-Tuning) 的挑战:一位成员寻求关于使用 dolphin-2.9 数据集微调 llama3 的建议,但在使用 torchtune 和兼容性方面遇到了问题。经过一些故障排除和实用建议(包括更新 flash-attn 和解决 MPI 依赖关系),他们成功推进了环境配置。

提及的链接

Nous Research AI ▷ #rag-dataset (5 messages):

  • 新 ChatQA 模型表现优于 GPT-4:一篇名为 ChatQA 的 arXiv 论文介绍了一种对话式问答 (QA) 模型,其准确率达到了 GPT-4 级别。据报道,ChatQA-70B 在 10 个对话式 QA 数据集上的表现优于 GPT-4,且不依赖于来自 OpenAI GPT 模型的合成数据。

  • InstructLab 在无需全面重新训练的情况下增强 LLM:IBM/Redhat 的新项目 InstructLab 通过使用大模型作为老师和分类体系 (taxonomy) 来生成合成数据集,从而为 LLM 增加新的技能和知识。该框架允许通过策划的数据集和每周构建来对模型进行增量添加。

提及的链接
  • ChatQA: Building GPT-4 Level Conversational QA Models:在这项工作中,我们介绍了 ChatQA,一系列获得 GPT-4 级别准确率的对话式问答 (QA) 模型。具体来说,我们提出了一种两阶段指令微调方法,可以……
  • InstructLab:InstructLab 有 10 个可用的仓库。在 GitHub 上关注他们的代码。

Nous Research AI ▷ #world-sim (22 messages🔥):

  • Websim 受欢迎程度上升:成员们对 Websim 表现出极大的兴趣,该平台被描述为“一个非常酷的商业/创业模拟器”,并积极分享链接来建立基地和探索不同场景。其中一个分享的链接是 websim.ai

  • “同意 (Consent)” 成为趋势:在一次俏皮的互动中,一位成员强调了“同意 (consent)”的重要性,幽默地建议“consent is haut!(同意很酷!)”。这是分享 websim.ai 链接的消息的一部分。

  • 关于模拟平台的讨论:成员们表现出扩展世界模拟工具能力和功能的兴趣。例如,有人提到在 worldclient 中需要数字音频工作站 (DAW) / VST,指的是其潜在的实用性。

  • Bug 报告和技术问题:几位成员指出了 WorldSim 的技术问题,例如 “!back” 等命令会无意中重启模拟器,以及请求时上下文无法清除的问题。他们还提到了响应被截断以及输入字符的问题。

  • 哲学与 websim 沙龙邀请:一位成员邀请其他人加入聊天中的 哲学与 websim 沙龙,表达了对社区内进行更深层次讨论的兴趣。他们协调了时区以方便参与。

提到的链接

Latent Space ▷ #ai-general-chat (93 条消息🔥🔥):

  • 顶尖 NLP 博士关注:一位成员关注了一篇著名的 NLP 博士论文,分享了一个带有赞誉的 Twitter 链接。另一位成员幽默地评论了其令人印象深刻的简历。

  • 数据短缺讨论:分享了一个关于数据短缺的精彩帖子,指出 Llama 3 是在 15 万亿个 token 上训练的。这引发了关于数据声明及其背后来源的对话,并强调了 Stella Biederman 的不同观点。

  • AI Agent 基础设施服务:一位来自新加坡的成员分享了一份关于 AI Agent 新基础设施服务的草案并征求反馈,引导感兴趣的人阅读他们的 Substack 帖子

  • Falcon 2 发布:社区讨论了 Falcon 2 的发布,注意到其开源、多语言和多模态的能力。尽管其功能令人印象深刻,但人们对许可条款表示担忧,一些人认为这些条款具有限制性。

  • GPT-4o 热潮:成员们积极参与关于新 GPT-4o 的讨论,分享了各种见解和链接,包括对语音延迟和功能的推测。一些人思考了其 API 访问和性能,并提供了 API 文档链接和实时观察。

提到的链接

Latent Space ▷ #ai-announcements (1 条消息):

  • OpenAI 观影派对预热:一名成员宣布了明天举行的 OpenAI 活动的观影派对 (watch party)。预热环节于 9:30 开始,即活动开始前半小时,更多详情请见 Discord 活动链接

提到的链接Discord - 与好友和社区聊天的新方式:Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、聚会,并与你的好友和社区保持紧密联系。


Latent Space ▷ #llm-paper-club-west (710 条消息🔥🔥🔥):

  • 音频问题困扰 OpenAI 春季发布会观影派对:在 OpenAI 春季发布会观影派对初期,成员们遇到了音频问题,观众无法听到直播主持人的声音。退出并重新加入的建议帮助缓解了一些问题。

  • 对 Apple 和 Google 技术的推测与反应:参与者推测了 Apple 面临的挑战以及 Apple 授权技术的潜力,并强调了 Siri 的劣势。分享了一个 Twitter 讨论链接,探讨 Apple 是否会因为潜在的 Gemini 和反垄断担忧而采用 iOS 18 讨论的集成方案 相关推文

  • GPT-4o 大放异彩:新的 GPT-4o 模型被强调可在 ChatGPT 中免费使用,引发了关于性能、成本以及无需订阅即可使用的讨论。分享了一篇包含自行泄露性能指标的推文 相关推文

  • AI 能力和现场演示令观众惊叹:用户对实时演示印象深刻,包括具有情感范围和打断能力的语音模式更新,以及 GPT-4o 的多模态交互。讨论内容包括实时响应能力、语音合成的改进,以及 YouTube 上的演示链接 活动链接

  • 即时反应及可能的竞争优势:大家分享了对这些进展可能如何影响 Google 等竞争对手,以及对 Siri、Copilot 和 Replika 等应用的潜在影响的兴奋之情,一些人推测这是迈向人类水平交互的一步。评论包括与现有技术的比较以及对未来 AI Agent 的影响。

提到的链接

Perplexity AI ▷ #general (658 条消息🔥🔥🔥):

- **Cheerio 库的替代方案**:一位用户询问是否有比 Cheerio 库更快的方法从 HTML 字符串中提取内容。另一位用户提供了 [Perplexity 的 AI 搜索](https://www.perplexity.ai/search/Is-there-a-xOtvxOveTGSfbae88ElQMA)链接以供进一步探索。

- **ChatGPT Plus vs. Perplexity Pro**:讨论强调了 ChatGPT Plus 和 Perplexity Pro 的比较优势,包括上下文窗口大小和通用 AI 能力。用户分享了他们的经验,称 Perplexity 更专注于作为一款具有特定功能(如 collections 和模型灵活性)的 AI 搜索引擎。

- **Claude 3 Opus 限制**:用户频繁提到对 Perplexity Pro 中施加的 Claude 3 Opus 使用限制感到不满。一位用户建议考虑将 YesChat 作为替代方案,它提供更慷慨的使用配额。

- **GPT-4o 发布热潮**:关于 GPT-4o 发布的讨论非常热烈,注意到了其速度和能力的提升。人们期待 Perplexity 何时会集成 GPT-4o,并将其与 Claude 3 Opus 等现有模型进行对比,认为它可能会超越后者。

- **Perplexity 的上下文处理**:用户讨论了 Perplexity 在处理上下文窗口和 RAG (retrieval-augmented generation) 方面的有效性。共识是,虽然 32k tokens 似乎是标准配置,但仍存在不确定性,并渴望更强大的上下文处理能力。
提到的链接

Perplexity AI ▷ #sharing (21 条消息🔥):

  • Alexandr Yarats 领导 Perplexity Search:一份 Alexandr Yarats 的访谈 揭示了他从 Yandex 到 Google,最终加入 Perplexity AI 担任搜索负责人的历程。Yarats 讨论了他最初在数学、概率论和统计学背景驱动下对 machine learning 的兴趣。

  • 理解 Bernoulli’s Fallacy:一位成员分享了一个链接,解释了 Bernoulli’s Fallacy。讨论旨在澄清概率与统计中关于该谬误的误解。

  • 严重地磁暴:参考一项搜索讨论了关于严重地磁暴的见解。讨论的影响包括对卫星运行和电网的影响。

  • Eurovision 2024 更新:Eurovision 爱好者讨论了与 2024 年赛事相关的更新,详见搜索结果

  • 镁的重要性:一位用户询问了镁的重要性,随后提供了一份详细解释,可在此处查看。该矿物质对各种身体机能至关重要,文中详细阐述了其在健康中的作用。

提到的链接Alexandr Yarats,Perplexity 搜索负责人 – 访谈系列:Alexandr Yarats 是 Perplexity AI 的搜索负责人。他于 2017 年在 Yandex 开始职业生涯,同时在 Yandex School of Data Analysis 学习。最初的几年虽然紧张,但收获颇丰……


Perplexity AI ▷ #pplx-api (4 条消息):

  • 用户请求 Perplexity 教程:一位用户请求 Perplexity AI 的教程,用西班牙语问道 “dame un tutoria de perplexity por favor”。这表明部分用户可能正在寻求非英语语言的指导。
  • 提供深度探讨链接:一位成员分享了一个指向 Discord 消息的“深度探讨 (deep dive)”链接,推测与 Perplexity AI 更全面的指南或信息有关。深度探讨链接

HuggingFace ▷ #general (389 条消息🔥🔥):

  • 寻找开源 LLM 模型替代方案:成员们讨论了各种开源 LLM 模型,如 MistralLLaMa3,与 ChatGPT 的免费版本相比,这些模型可以在较低的硬件要求下运行。文中还提到了 You.com 等可以尝试这些模型的平台。
  • 调试 Stable Diffusion 流水线:一位成员提供了一段 Python 代码片段,用于在 StableDiffusionPipeline 中使用 from_pretrained() 时禁用 safety checker。另一位成员报告了出现黑图的问题,表明解决方案尚不完整。
  • RAG 应用中 GPT 的数据检索问题:用户讨论了在 Retrieval-Augmented Generation (RAG) 应用中,GPT 从文件中检索数据的有效性难题。建议的改进措施包括优化数据集和使用更好的 embedding models。
  • OpenAI 的新发布:一些参与者对 OpenAI 最近发布的 GPT-4o 进行了评论,指出了其实时音频、视频和语音合成能力。人们对拟人化 AI 功能的长期影响表示担忧。
  • HuggingFace 文档与 AutoTrain:向初学者推荐了 HuggingFace 文档,并提出了关于在 Nvidia A10G 硬件上使用 AutoTrain 微调 GPT-2 XL 等模型所需时间的问题。
提到的链接

HuggingFace ▷ #today-im-learning (3 条消息):

  • MedEd AI 用户体验概览:一段 YouTube 视频 简要介绍了 生成式 AI (genAI) 用户体验,重点介绍了容器化应用的使用、多模态医疗顾问,以及未来关于 RA 生成、免费层级访问和成本意识模型的计划。视频涵盖了从介绍到不同时间点的详细功能。

  • DeepLearning.ai 关于神经网络初始化:一位成员分享了来自 deeplearning.ai 的信息资源,解释了有效初始化对于防止梯度爆炸/消失等问题的重要性。该教程概述了神经网络的常见训练过程,并强调了选择正确初始化方法的重要性。

  • 为 VAR 论文探索 JAX 和 TPU:另一位成员讨论了将 VAR 论文(专注于一种新的图像自回归建模范式)移植到使用 Equinox 进行 TPU 加速的 Jax 兼容库中(Arxiv 论文)。他们分享了 Equinox 的 GitHub 仓库 以进一步阐述所使用的工具。

提到的链接

HuggingFace ▷ #cool-finds (10 条消息🔥):

  • Phi-3 在智能手机上表现出色:一位成员强调 Phi-3 在智能手机等低功耗设备上运行良好。在多位作者撰写的这篇论文中可以了解更多信息。
  • 深度学习入门书籍:分享了一本用于理解深度学习的“好书”。点击这里查看。
  • 神经网络权重初始化:分享了来自 deeplearning.ai 的一个有趣资源,关于初始化神经网络权重以及梯度爆炸/消失的问题。更多详情请见链接
  • GPT 可视化:一位成员发现了一个酷炫的 GPT 可视化工具并进行了分享。在此查看
  • 机器人的 3D Diffusion Policy:介绍了 3D Diffusion Policy (DP3),这是一种全新的机器人视觉模仿学习方法,使用来自稀疏点云的 3D 视觉表示。该方法在极少演示的情况下比基准线提高了 24.2%;更多见解请见这里
提及的链接:

HuggingFace ▷ #i-made-this (7 条消息):

  • 支持 4 种语言的 AI 故事讲述者因闲置而停用:一位成员展示了一个支持英语、马来语、中文和泰米尔语的 AI 驱动故事讲述者,链接在这里,但指出该 Space 目前因缺乏使用而处于非活跃状态。

  • 古兰经经文工具等待用户:他们还构建了一个 AI 工具,用于根据古兰经经文创建精美的海报,可在这里获取,但该 Space 同样因闲置而处于非活跃状态。

  • OCR 工具包集成多个框架:开发了一个 OCR 框架,集成了 DocTr、PaddleOCR 和 Google Cloud Vision,易于使用和可视化,代码和文档可在 GitHub 上获取。该工具包允许无缝尝试不同的 OCR 框架。

  • 分享了用于 Token Classification 的微调 Llama 变体:在 HuggingFace Hub 上分享了使用 Llama 变体进行 Token Classification 微调的模型。详情和模型(如在 conll2003 上训练的 unsloth/llama-2-7b-bnb-4bit)可在集合中找到,即将发布的博客文章将分享在 Weights & Biases 上。

  • 发布了新的 AI Discord 聊天机器人教程视频:发布了一个关于创建具有网页搜索功能的 AI Discord 聊天机器人的 YouTube 视频链接,包括包含详细说明的 git 仓库。

  • 区分噪声文本与干净文本现在变得更简单:使用 PleIAs 数据集推出了一个 OCR 质量分类器用于文本分类,可以轻松区分噪声文本和干净文本。所使用的小型编码器可以作为文档质量的新过滤器,详情可在集合中查看。

提及的链接:

HuggingFace ▷ #reading-group (2 条消息):

  • YOCO Decoder-Decoder 架构降低 GPU 显存需求: 一位成员分享了一篇 arXiv 论文,介绍了一种用于大语言模型的新架构 YOCO。该设计采用 cross-decoder 堆叠在 self-decoder 之上的结构,旨在降低 GPU 显存占用的同时,保留全局注意力(global attention)能力并提升 prefill 速度。

提到的链接: You Only Cache Once: Decoder-Decoder Architectures for Language Models: 我们为大语言模型引入了一种名为 YOCO 的 decoder-decoder 架构,它仅对键值对(key-value pairs)进行一次缓存。它由两个组件组成,即堆叠在 self-decoder 之上的 cross-decoder。…


HuggingFace ▷ #computer-vision (6 条消息):

  • 关于使用 UNet 进行类别条件扩散(Class-Condition Diffusion)的讨论: 一位用户分享了他们参考 HuggingFace 扩散模型课程 使用 UNet 进行类别条件扩散的经验,并询问是否有关于潜在扩散模型(latent diffusion models)的类似资料。

  • 使用 Diffusers 的 Stable Diffusion: 另一位用户提供了一个 HuggingFace 关于 Stable Diffusion 的博客文章 链接,其中讨论了如何将 Diffusers 库与该文本生成图像的潜在扩散模型结合使用,并提供了额外的教育资源。

  • YOLOv1 实现困难: 一位用户表示在自定义数据集上从零开始实现 YOLOv1 遇到了困难,并寻求经验人士的帮助。他们随后澄清,其目标是创建一个以 ResNet 为骨干网络的教学用 mini-YOLO。

  • YOLOv1 对比 YOLOv5 或 YOLOv8: 另一位用户质疑是否有必要使用 YOLOv1 而不是 YOLOv5 或 YOLOv8 等更新版本。原发布者解释说,选择 YOLOv1 是出于教育和教学目的,旨在通过自定义数据集实现一个更简单版本的 YOLO。

提到的链接:

HuggingFace ▷ #NLP (7 条消息):

  • 会议记录分块(chunking)的挑战: 一位用户正在寻求关于如何高效地对会议记录进行分块,以便利用 LLM 提取行动建议的见解。他们提到尝试按发言人变更进行分隔,但发现交互之间的相似度分数较低(0.45)。

  • 后续消息与相似度分数: 另一位成员评论说,即使主题保持不变,后续消息也不一定具有较高的相似度分数。他们建议找到最相关的分块,并编写一个函数来获取相邻的分块,以满足用户的需求。

  • 检索与生成评估建议: 有建议提出应将检索和生成组件分开,独立进行评估,并针对不同的配置(如分块大小和重叠度)对检索器结果进行基准测试。推荐使用“平均倒数排名”(mean reciprocal rank)指标进行评估。

  • 自定义 Hugging Face tokenizer 训练问题:一位用户分享了他们根据 2021 年的 YouTube 视频 的指导,创建和训练自定义 Hugging Face tokenizer 并在将其与 Transformer 集成时遇到的问题。他们报告了错误,ChatGPT 指出该 tokenizer 的格式可能不正确。

提到的链接构建新的 tokenizer:学习如何使用 🤗 Tokenizers 库构建你自己的 tokenizer,对其进行训练,然后如何在 🤗 Transformers 库中使用它。此视频是…的一部分。


HuggingFace ▷ #diffusion-discussions (14 条消息🔥):

  • 通过这些资源深入了解 Diffusion 模型:一位成员征求关于理解 Diffusion 模型、采样器(samplers)及相关主题的建议。他们被引导至 DDPM & DDIM 论文Fast.ai 的课程,该课程包含与 Stability.ai 和 Hugging Face 的合作。

  • 在 macOS 上安装 SadTalker 遇到困难?:一位用户请求在 macOS 上安装 SadTalker 的紧急帮助。有人建议搜索错误信息以寻找更准确的答案。

  • 动手实践 Inpainting:有人询问如何对个人图像使用 Inpainting。随后分享了关于使用 🤗 Diffusers 库 进行 Inpainting 的深入解释和指南。

  • 创建自定义图像数据集:有人询问如何使用自己的自定义图像数据集而不是互联网数据。他们被引导至一份关于使用 🤗 Datasets 库创建数据集的指南。

  • 关于 Command-R+ 本地推理引擎的建议:有人随口询问关于为 Command-R+ 构建本地推理引擎的问题。一位成员建议向专注于 NLP 的小组寻求建议,以获得更相关的输入。

提到的链接

LM Studio ▷ #💬-general (183 条消息🔥🔥):

  • 用户在 GPT Agent 学习方面遇到困难:用户对 GPT Agent 无法从额外信息中学习表示担忧,其他用户澄清说,上传的文件被保存为“知识”文件,但并不会持续修改 Agent 的基础知识。
  • 在 Linux 中使用 RTX 4070 处理摘要任务:一名成员询问了关于在 GNU/Linux 系统(配置为 Intel i5, RTX 4070, 64GB RAM)上总结 PDF 的规格要求,结果被告知 LM Studio 目前尚不支持“与文档对话”(chat with docs)功能。
  • 多 GPU 设置的性能问题:一名用户在多 GPU 设置下运行模型时遇到问题,报告性能极慢。问题被确定为可能与 PCIe 3.0 的硬件设置有关,通过更换配备 PCIe 4.0 的主板可以解决。
  • 网络环境下访问 LM Studio 功能的问题:多名用户报告在访问 LM Studio 模型时遇到困难,通常是由于网络错误或地理位置被屏蔽。建议使用带有 IPv4 的 VPN 等解决方案。
  • 探索本地模型部署的替代方案:讨论包括了关于使用具有充足 VRAM 的系统进行本地模型部署的建议,强调 8GB+ 显存的 GPU 相比仅 CPU 的设置具有更好的性能和可用性。
提到的链接

LM Studio ▷ #🤖-models-discussion-chat (92 条消息🔥🔥):

  • Yi-1.5 模型受到关注:LM Studio 社区成员对新的 Yi-1.5 模型 以及 9B、6B 和即将推出的 34B 量化版本感到兴奋。成员们赞赏 Yi-1.5 的表现,指出它在各种微调任务中表现良好,但也提到了诸如对其身份产生困惑等问题。

  • 低端硬件面临的挑战:用户讨论了在 RTX 3050 6GB 等受限硬件上运行高级模型的困难,以及它对编程或长上下文处理等任务带来的限制。建议转向使用轻量级模型,或通过 itch.io 等易于访问的平台使用 Stable Diffusion 等工具。

  • 音频清理解决方案:对于需要清理音频的用户,讨论了 VoicecraftRVC 等选项,以增强音频质量较差的教学视频,类似于 Adobe 的 Podcast Enhance。

  • 微调问题与见解:关于微调数据集的咨询引发了对测试数据构成的讨论,建议倾向于混合使用正常的问答对。分享了关于模型经常由不同的人进行量化,并且有时在名称中带有微调(finetune)标识的见解。

  • Command R+ 模型受到称赞Command R+ 模型受到了高度赞扬,用户因其更长的上下文长度、更高的智能水平以及缺乏审查而推荐它,这使得它比 Llama 3 70B 等其他模型更受青睐。


LM Studio ▷ #🧠-feedback (4 messages):

  • 成员分享正面反馈:一位用户对从另一位成员那里获得的有用反馈表示感谢,表明社区内存在积极的互动。

  • Innosetup 的替代方案:一位成员根据以往经验,建议使用 InnosetupNullsoft Installer 作为软件安装的优秀开源替代方案。

  • 在 Debian 上使用 Starcoder 模型的挑战:一位成员描述了在 Debian 12 上使用 starcoder2-15b-instruct 模型时遇到重复响应和偏离主题回答的情况。他们指出,这种行为在不同平台和设置(包括应用聊天框和 VSC server)中都是相似的。

  • Instruct 模型的局限性:另一位成员澄清说,instruct models 通常不是为多步对话设计的。他们强调,这些模型旨在执行单一命令并直接对其做出响应。


LM Studio ▷ #⚙-configs-discussion (7 messages):

  • Playground 模式需要 GPU:一位用户询问在显存(VRAM)仅为 4GB 的情况下,是否可以在 RAM + CPU 上运行 playground 模式。另一位成员确认 playground mode 仅限 GPU
  • 针对可疑链接的警告:一位用户警告他人不要点击一个短链接,指出它并没有指向 Steam。该警告通过一个 Johnny Depp 的 GIF 和反复强调的 “go away” 来加强。
  • 使用 Word 文件进行 LLM 训练:一位用户询问是否可以使用包含教学大纲内容的 Word 文件来训练 Large Language Model (LLM),以用于问答目的。该查询没有后续回复。

提到的链接Shoo Go Away GIF - Shoo Go Away Johnny Depp - Discover & Share GIFs:点击查看 GIF


LM Studio ▷ #🎛-hardware-discussion (106 messages🔥🔥):

  • 在有限硬件上运行大模型失败:成员们讨论了在拥有 128GB RAM 的硬件上运行 Llama 3 70B Q8 的经验,指出它通常太慢或无法加载。一个例子提到在 4090 显卡配合 128GB 内存运行 70B Q4 模型时速度仅为 2 tok/s,凸显了局限性。

  • 大语言模型(LLM)的 CPU 推理速度极慢:仅在 CPU 上运行像 Llama 3 70B 这样的大模型会导致速度极慢,通常只能达到个位数的 token/s 性能。一个显著的例子提到在禁用 i5 12600K 的 E-cores 后,速度仅为 0.6 tok/s。

  • GPU 显存限制的挑战:显存(VRAM)有限(如 2GB)的用户发现,即使尝试卸载层(offload layers),它在运行高级模型时也几乎毫无用处。“2GB 显存完全没用——你至少需要 4GB,最好是 6GB,才能开始发挥作用。”

  • 不同 GPU 的混合测试结果:尽管规格更高,但在使用 LM Studio 时,某些成员的 Tesla P100 表现比 GTX 1060 还要差。禁用“硬件加速 GPU 调度”(Hardware-accelerated GPU scheduling)显示性能有 5% 的小幅提升。

  • 文档与后端查询:用户对 LM Studio 中的 llama.cpp 后端如何处理计算,以及它是否利用 FP32 或 FP16 和 Tensor cores 感到好奇。澄清内容包括它通常使用量化模型,这会显著降低精度。


LM Studio ▷ #🧪-beta-releases-chat (12 messages🔥):

  • CodeQwen1.5 在 RTX 3050 上的编码表现出色:一位成员推荐 CodeQwen1.5 作为高效的编码模型,指出其表现优于 DeepSeek Coder。该模型的 4b 量化版本约为 4.18 GB,非常适合 RTX 3050 GPU。
  • Hugging Face 的编码排行榜是一个有用的资源:另一位成员分享了其网站上 Hugging Face 编码排行榜 的链接,用户可以在那里查看 7b 或更低参数编码模型的详细信息。bigcode-models-leaderboard
  • llama.cpp 更新与 Bug 修复:在回答有关新功能的查询时,一位用户澄清说,最新的构建版本主要包含 Bug 修复以及 llama.cpp 的更新。用户没有报告任何新的隐藏功能。
  • 机器人绕过自动审核(automod):一位用户对一个可疑链接发表了评论,该链接可能是为了赚取广告或推荐收入,并指出它绕过了自动审核。这突显了在聊天中对潜在垃圾邮件或恶意链接持续保持警惕的重要性。

提到的链接Big Code Models Leaderboard - a Hugging Face Space by bigcode:未找到描述


LM Studio ▷ #memgpt (4 条消息):

  • 寻求 MemGPT 帮助:一位成员请求有 MemGPT 经验的人提供协助,引发了不同信心程度的回复和致歉。
  • 设置问题:一位回复者提到成功通过 Kobold 设置了 MemGPT 并完成了内存调整,但承认在 LM Studio 上的实现遇到了困难。

LM Studio ▷ #amd-rocm-tech-preview (2 条消息):

  • 购入 RX 7900 XT:一位成员分享了以 700 欧元购入 RX 7900 XT 的兴奋之情,提到其性能足以满足他们的需求。
  • 推荐更大的模型:另一位成员建议尝试 Command-R+Yi-1.5 的量化版本,暗示新 GPU 可以处理更大的模型。

LM Studio ▷ #open-interpreter (4 条消息):

  • 关于将 LM Studio 连接到 OpenInterpreter 的困惑:一位用户询问如何将 LM Studio 连接到 OpenInterpreter 的指南。对话显示,他们在尝试运行服务器时(无论是否连接)都一直遇到错误。

LM Studio ▷ #model-announcements (1 条消息):

  • 新 Yi 模型上线!:LM Studio 社区在其 Hugging Face 页面上发布了新的 Yi 模型。有多种尺寸可选,包括稀有的 34B 模型,非常适合拥有 24GB 显卡的用户。

  • 由 Bartowski 提供的 GGUF 量化:这些模型采用了由社区成员 Bartowski 提供的 GGUF 量化,基于 llama.cpp 版本 b2854。这确保了最高的质量和增强的性能。

  • 模型详情与性能:所有 Yi-1.5 模型都是升级版本,经过 500B tokens 高质量语料库的持续预训练,并在 3M 个多样化样本上进行了微调。它们旨在各种任务中表现出色。

  • 模型链接:在此查看新模型:


LM Studio ▷ #🛠-dev-chat (19 条消息🔥):

  • 关于 llama.cpp 的 Vulkan 后端讨论:一位成员询问关于在 LM Studio 中运行 llama.cpp 的 Vulkan 后端或使用后端 API 的事宜。另一位成员回复称目前还没有针对此问题的解决方案。

  • LM Studio CLI 工具发布公告:一位成员分享了 LM Studio 0.2.22 及其配套 CLI 工具 lms 的发布,该工具允许进行模型管理和 API 服务器控制。该工具可在 GitHub 上获取,并随 LM Studio 的工作目录一起分发。

  • 关于后端 API 请求的澄清:讨论澄清了最初的查询是关于将 LM Studio 连接到 llama.cpp HTTP 服务器,而不是建议的 CLI 工具

  • 无头(Headless)安装问题:成员们讨论了由于 AppImage 的 FUSE 问题,在无头 Linux 云服务器上安装 LM Studio 的困难。替代建议包括尝试 Ollama 或从基础环境编译 llama.cpp

提到的链接Introducing lms - LM Studio's companion cli tool | LM Studio:今天,伴随着 LM Studio 0.2.22,我们发布了 lms 的第一个版本 —— LM Studio 的配套 CLI 工具。


OpenRouter (Alex Atallah) ▷ #announcements (2 条消息):

  • JetMoE 8B Free 停机: JetMoE 8B Free 模型 目前由于上游过载而下线。在另行通知前,所有请求都将返回空响应并报错 (502)。

  • 多模态模型现已上线: OpenRouter 上现在有两个新的多模态模型正在运行。查看 OpenAI: GPT-4oLLaVA v1.6 34B

提到的链接:
  • JetMoE 8B by jetmoe | OpenRouter: Jet MoE 来自于包括学术界到行业资深人士在内的广泛团队,是 MIT、Princeton、IBM、Lepton 和 MyShell 的共同努力成果。该模型完全开源并经过训练...
  • OpenAI: GPT-4o by openai | OpenRouter: GPT-4o(“o”代表“omni”)是 OpenAI 最新的 AI 模型,支持文本和图像输入以及文本输出。它保持了 [GPT-4 Turbo](/models/open... 的智能水平
  • LLaVA v1.6 34B by liuhaotian | OpenRouter: LLaVA Yi 34B 是一个通过在多模态指令遵循数据上微调 LLM 训练而成的开源模型。它是一个基于 Transformer 架构的自回归语言模型。基础 LLM: [Nou...

OpenRouter (Alex Atallah) ▷ #app-showcase (2 messages):

  • 轻松追踪 OpenRouter 模型变更: 一位成员介绍了 OpenRouter API Watcher,这是一个开源工具,旨在利用 SQLite 数据库监控并存储 OpenRouter 模型列表的变更。它提供 Web 界面和 RSS 订阅源以获取更新,每小时查询一次 API 以保持 minimal overheadDemo
  • 成为 Rubik’s AI Pro 的 Beta 测试员: 另一位成员邀请用户参与测试一款高级研究助手和搜索引擎,提供 2 个月的免费高级版权限,可访问 GPT-4 Turbo 和 Claude 3 Opus 等模型。感兴趣的用户请私信 (DM) 反馈,并使用优惠码 RUBIX 进行免费试用。Rubik’s AI
提到的链接:

OpenRouter (Alex Atallah) ▷ #general (251 messages🔥🔥):

- **Jetmoe 缺少联网访问**: 当被问及 **Jetmoe** 是否有联网访问权限时,回答很明确:“不,它没有。” 尽管有此限制,Jetmoe 仍被认为适合学术研究。
  
- **OpenRouter 积极采取反欺诈措施**: 关于反欺诈更新的讨论显示,由于信用卡盗刷 (skimming) 造成的损失,**OpenRouter** 已实施相关措施打击欺诈。用户可以选择加密货币交易以避免提供个人信息。

- **正在考虑支持 Embedding 模型**: 当被问及 Embedding 模型支持时,提到 **OpenRouter** 正在改进后端,并将 Embedding 模型列入队列,但目前还没有明确的 roadmap。

- **Prompt 格式不一致问题**: 用户讨论了像 **Claude** 这样的模型与专注于 RP (role-playing) 或通用任务的模型在处理指令上的差异。强调了在为不同模型编写有效 Prompt 时需要不断尝试 (trial and error)。

- **OpenRouter 添加 GPT-4o**: **GPT-4o** 加入 OpenRouter 引发了热烈讨论,用户注意到其极具竞争力的定价和在 Benchmark 中的高性能。OpenRouter 将支持 GPT-4o 的文本和图像输入,但视频和音频暂不可用。
提到的链接:

Modular (Mojo 🔥) ▷ #general (65 条消息🔥🔥):

  • 讨论 Mojo 中使用管道操作符的隐式变体:一名成员询问 Mojo 是否会采用带有管道操作符的隐式变体,另一名成员分享了 PEP 604 的链接作为对比。讨论涉及了潜在的语法以及模式匹配的处理。

  • 模式匹配辩论趋于白热化:关于 Mojo 中模式匹配与使用 if-else 语句的价值和美学展开了热烈讨论。支持者强调了模式匹配如何确保情况的完备性以及编译器优化,而批评者则认为其在视觉上不够美观。

  • Mojo 与 Rust:编译器经验分享:成员们对比了 Mojo 和 Rust 编译器的使用体验,指出 Rust 被认为更复杂且更难上手,而 Mojo 更简单、更直接的方法受到了赞赏。辩论还包括对 Rust 优化能力以及对 Mojo 未来功能稳健性预测的看法。

  • 关于贡献 Mojo 编译器的咨询:一位用户询问如何为 Mojo 编译器做贡献,得到的回复是目前 Mojo 编译器尚未开源。同时澄清了 Mojo 编译器是用 C++ 编写的,而不是 Mojo。

  • 关于 Mojo 与 MLIR 关系的讨论:简要讨论了使用 MLIR 自举 Mojo 的可能性,以及未来在 Mojo 中重建 MLIR 是否可行。对话承认了 MLIR 的 C++ 起源,并提出了未来发展的问题。

提到的链接PEP 604 – 允许将联合类型写为 X | Y | peps.python.org:未找到描述


Modular (Mojo 🔥) ▷ #💬︱twitter (1 条消息):

ModularBot:来自 Modularhttps://twitter.com/Modular/status/1790046377613144201


Modular (Mojo 🔥) ▷ #📺︱youtube (1 条消息):

  • Modular 的新视频发布公告ModularBot 分享了他们的 YouTube 频道发布了一个新视频。你可以点击 这里 查看最新内容。

Modular (Mojo 🔥) ▷ #🔥mojo (85 条消息🔥🔥):

  • 基准测试的存储与运行:成员们讨论了在仓库中存储和运行基准测试的最佳方式,一位用户建议将基准测试包含在 tests 文件夹中可能比较实用。另一位用户询问了对内存使用情况进行基准测试的方法。

  • Mojo 中的语法讨论:关于解引用语法存在争议,一些人建议使用 C++ 风格的 * 会更符合人体工程学,但包括 Chris Lattner 在内的其他人则主张使用 p[],因为它组合性好且符合 Pythonic 风格。

  • Mojo 中的迭代器实现:由于 Mojo 目前缺乏真正的 yield 功能,Joker 讨论了通过复制 torchdata API 在 Mojo 中实现类似 “yield” 的行为。他们详细介绍了自己的方法,并遇到了类型约束和参数化 Trait 的问题。

  • Tree Sitter 语法分支:Lukas Hermann 提到他们编写了一个 Tree Sitter 语法分支,并在 Helix 和 Zed 等文本编辑器中成功进行了测试,计划清理装饰器并添加测试。

  • 深入探讨 Mojo Ownership:分享了一个由 Chris Lattner 主讲的 YouTube 演讲 链接,详细解释了 Mojo 中的 Ownership。成员们讨论了从 Python 背景转向理解 Ownership 概念时的困难,以及展示这些理念为何重要的示例的重要性。

提及的链接

Modular (Mojo 🔥) ▷ #performance-and-benchmarks (1 条消息):

  • 在 GitHub 上发布 MoString:一位成员宣布为 MoString 创建了 GitHub 仓库,重点关注 Mojo 中 StringBuilder 理念的各种变体。他们添加了一个 optimize_memory 方法来减少分配的内存,并邀请社区贡献力量,以探索适合 Mojo 标准库的实现。

提及的链接GitHub - dorjeduck/mostring: variations over StringBuilder ideas in Mojo:Mojo 中 StringBuilder 理念的变体。欢迎在 GitHub 上为 dorjeduck/mostring 的开发做出贡献。


Modular (Mojo 🔥) ▷ #nightly (64 条消息 🔥🔥):

  • 自定义 Hasher struct 提案引发辩论:一位成员对强制开发者创建自定义 Hasher struct 表示担忧,更倾向于像 Python 的 __hash__ 那样更简单的方法。提案作者提供了额外的 示例,展示了他的实现旨在提供的灵活性和简洁性。

  • Ubuntu 上的 CI 测试失败引发行动:成员们讨论了 Ubuntu 上 CI 测试挂起的问题,并建议在工作流中添加超时设置。一个 Pull Request 已被创建用于实现这些超时,并指出 GitHub Actions 在此期间可能会出现异常的 “pending” 状态。

  • 关于 List extend 方法的重大性能发现:一位成员分享了基准测试结果,显示通过内存预分配策略可以大幅提升 Mojo List 的 extend 方法性能。这引发了关于在类似任务中借鉴 Rust 的 vector 分配策略优点的讨论。

  • 嵌套数组导致 Segmentation faults:一位成员报告了在处理嵌套数组时出现 Segmentation faults 的问题,并询问该问题是否与 Variadic pack 或 Lifetime management 有关。这引发了关于数组迭代器中引用处理的深入见解。

  • 对 Nightly 版本发布的兴奋:社区庆祝 Mojo 转向自动 Nightly 版本发布(被称为 “nightly nightlies”),并讨论了其影响,例如缩短了代码提交与可用版本之间的延迟。

提及的链接

CUDA MODE ▷ #general (5 messages):

  • GPU 显存管理困惑得到澄清:一位拥有 8GB GPU 的用户注意到,当专用 GPU 显存耗尽时,CUDA 会使用共享内存。他们观察到在此过程中速度显著变慢,并寻求资源以了解其工作原理。
  • 直接联系 Discord CEO 获取技术支持:一位成员幽默地报告说,他们直接与 Discord CEO 交流以解决 stage 稳定性问题,从而促使团队迅速采取行动。他们的成功引起了其他成员的轻松回应。

CUDA MODE ▷ #triton (43 messages🔥):

  • 新的 Triton 讲座受到赞誉:一位成员分享了一个名为 “Lecture 14: Practitioner’s Guide to Triton” 的 YouTube 视频 以及配套的 GitHub 描述。这是学习更多关于 Triton kernel 的资源。

  • 贡献者分享 Conv2D Kernel 资源:讨论中包含了 Triton 中现有 Conv2D kernel 实现的链接,这些实现可以在 PyTorch 的 kernelattorch 仓库 中找到。鼓励大家向 Triton 主仓库或其他相关仓库做出贡献。

  • Triton Kernel 编目受到关注Triton IndexAwesome Triton Kernels 仓库被提及为编目和发现 Triton kernel 的宝贵资源。Kernl,一个旨在让 PyTorch Transformer 模型在 GPU 上运行更快的工具,也被重点介绍:Kernl GitHub

  • 对 ThunderKittens 的关注:一种名为 ThunderKittens 的新 DSL 通过 Twitter 发布并引发了热烈讨论。它承诺让在 CUDA 中编写 AI kernel 变得更简单、更高效,性能有可能超越 Triton 的 Flash Attention。

  • Flash Attention 性能对比:针对 Triton 的 Flash Attention 与 ThunderKittens 中的新实现之间的性能差异进行了详细讨论。一些成员指出,通过适当的调优和配置可能会缩小性能差距,并建议进行持续的改进和基准测试。

提到的链接

CUDA MODE ▷ #cuda (9 条消息🔥):

  • ThunderKittens 加速 kernelThunderKittens 的 GitHub 仓库专注于用于加速 kernel 的 tile primitives。这是 HazyResearch 的一个项目,旨在提高 CUDA 操作的效率。

  • 用于优化 GPT 训练的 NanoGPT-TKNanoGPT-TK 被誉为训练和微调中等规模 GPT 最简单、最快的仓库。该仓库还幽默地强调它包含“小猫(kittens)”,以此呼应项目名称。

  • 以幽默的方式解释 FlashAttention:一篇博客文章描述了 HazyResearch 通过 ThunderKittens 等项目简化 AI kernel 构建思路的努力。他们引用了 NeurIPS 主旨演讲,并利用幽默感弥合了复杂技术模型与通俗易懂的解释之间的鸿沟。

  • Swizzling 减少内存 bank 冲突:讨论澄清了 Swizzling 有助于避免 memory bank 冲突,从而提高 CUDA 编程中的内存访问效率。提供了 NVIDIA 文档 的链接以供进一步阅读。

提到的链接

</div>


CUDA MODE ▷ #announcements (1 条消息):

  • Fusing Kernels 演讲公告:一场关于 fusing kernels 的演讲即将在 7 分钟后开始,主讲人为 <@488490090008674304>。演讲将在 Zoom 上进行,参会者请在指定频道 <#1238926773216084051> 发布聊天内容和提问。

提到的链接加入我们的云高清视频会议:Zoom 是现代企业视频通信的领导者,拥有简单、可靠的云平台,适用于移动端、桌面端和会议室系统的视频和音频会议、聊天及网络研讨会。Zoom …


CUDA MODE ▷ #algorithms (1 条消息):

random_string_of_character: https://arxiv.org/abs/2405.05219


CUDA MODE ▷ #beginner (14 条消息🔥):

  • 通过 Zoom 参加伊利诺伊大学 PMPP 系列讲座:“我们将在 10 分钟后开始伊利诺伊大学 PMPP 系列的第 4 场讲座……这是 Zoom 链接。” 这些讲座通常在每周六举行,详情会在专门的 Discord 服务器中分享。
  • PMPP 讲座的比喻非常生动:“我喜欢他把 warps 比作军队中的排(platoons)”,这让复杂的概念变得更容易理解。
  • 课程详情和获取方式:这门关于应用并行编程的课程可以在 YouTube 上观看,课程播放列表 经常被分享。尽管是 2018 年的课程,但它仍然是一个宝贵的资源。
  • 集成和公告礼仪:Laith0x0 和 Wilson 在这里发布公告,但倾向于不滥用提及(mentions)。Marksaroufim 建议使用专门的 Discord 频道来分享更持久的信息。
  • 兼容性查询和构建依赖:Geri8904 正在寻求 torch-tensorrt 与不同 CUDA 和 Torch 版本的兼容性信息,并遇到了软件包安装问题。safelix 也遇到了缺失构建依赖的问题,并寻求一份全面的 requirements.txt 文件建议。
提到的链接
  • UIUC ECE408/CS483 Spring 2018 Hwu:这是伊利诺伊大学厄巴纳-香槟分校一门名为“应用并行编程”的初级/高级本科课程。它通常也被称为...
  • UIUC ECE408/CS483 Spring 2018 Hwu:这是伊利诺伊大学厄巴纳-香槟分校一门名为“应用并行编程”的初级/高级本科课程。它通常也被称为...
  • 加入我们的云高清视频会议:Zoom 是现代企业视频通信的领导者,拥有简单、可靠的云平台,适用于移动端、桌面端和会议室系统的视频和音频会议、聊天及网络研讨会。Zoom ...

CUDA MODE ▷ #pmpp-book (1 条消息):

  • CUDA 专家讲座日期公布PMPP 作者 Izzat El Hajj 将于 5 月 24 日讨论 scan 操作。5 月 25 日,Jake 和 Georgii 将解释如何使用 CUDA C++ 构建高级 scan;活动详情请见 此处

提到的链接Discord - 与朋友和社区聊天的新方式:Discord 是通过语音、视频和文字进行交流的最简单方式。在这里聊天、聚会,并与你的朋友和社区保持紧密联系。


CUDA MODE ▷ #off-topic (5 条消息):

  • 寻求热成像人脸识别项目的帮助:一位成员为其名为 ‘Thermal Face Recognition’ 的大学毕业设计寻求见解、资源(如研究论文、GitHub 仓库或一般建议)。他们的目标是预测两张热成像人脸图像是否属于同一个人。
  • 寻求并给予澄清:一位成员询问该项目是否涉及匹配同一个人的两张热成像人脸图像、检测边界框或面部关键点。项目被澄清为与预测两张图像是否为同一个人相关。

CUDA MODE ▷ #irl-meetup (1 条消息):

boxxy_ms: 有人在多伦多吗?


CUDA MODE ▷ #triton-puzzles (2 条消息):

  • Oscar_yu 寻找官方解答:Oscar_yu 询问是否有官方解答,以验证其实现的数值正确性。他随后表示在 Misha 的帖子中找到了 Joey 的解答,并表达了感谢。

CUDA MODE ▷ #llmdotc (67 条消息🔥🔥):

- **ZeRO-1 助力显存之战**:讨论了 ZeRO-1 的集成,基准测试显示通过优化 VRAM 使用量,训练吞吐量提升了 54%,允许 batch size 从 4 增加到 10,从而充分利用 A100 的 40GB VRAM 容量。更多详情请点击[此处](https://github.com/karpathy/llm.c/pull/309)。
- **GPU 工作负载优化见解**:成员们讨论了在 CUDA kernel 之外进行计算以优化整数除法和 memory-bound kernel 的好处。分享了关于使用 2D/3D grid 和 thread coarsening 以提高效率的观点,并辅以详细的[代码讨论](https://github.com/karpathy/llm.c/blob/master/train_gpt2.cu#L689)。
- **ThunderKittens 引起关注**:HazyResearch 的 [ThunderKittens](https://github.com/HazyResearch/ThunderKittens) 在 H100 llm.c 优化方面的潜力引发了热议。成员们认为它是比 CUTLASS 更低层级的抽象,用于管理 Tensor Core 布局。
- **努力改进支持 GPU 的 CI**:讨论围绕 llm.c 的 CI 缺乏 GPU 以及弥补这一差距的方法展开,并注意到 GitHub Actions 最近推出了 GPU runner 的 beta 测试。建议包括升级 GitHub 方案,并参考了当前的定价[详情](https://docs.github.com/en/billing/managing-billing-for-github-actions/about-billing-for-github-actions#per-minute-rates-for-larger-runners)。
提到的链接

CUDA MODE ▷ #lecture-qa (48 条消息🔥):

  • Max-Autotune 通过彻底的超参数调优提升性能torch.compile 中的 max-autotune 模式利用基于 Triton 的矩阵乘法和卷积,尝试更多超参数以获得潜在更快的 kernel。作为权衡,它的编译时间更长。torch.compile 文档
  • Dynamo 与 Inductor 教程:成员们分享说,与 Inductor 相比,Dynamo 的教程更全面,并强调了拥有更好的处理 dynamic shapes 材料的重要性。为对 Dynamo 内部工作原理感兴趣的人提供了额外资源的链接。PyTorch Workshops
  • Fusion 的益处与局限性辩论:讨论强调,融合(fusing)kernel 通常会减少全局内存的读/写,这有利于 memory-bound 的 kernel,但过度的融合可能会增加开销而没有实质性收益。普遍观点是除非证明适得其反,否则应广泛进行融合。
  • 对 Triton 内部原理和性能分析的兴趣:几位成员表示需要关于 Triton 内部原理和详细分析方法的讲座,以区分开销、HBM-SRAM 通信和实际计算时间。推广了一个即将举行的研讨会以获取更多见解。Triton Workshop
  • 讲座录像的可用性:由于时区差异和日程繁忙,成员们询问讲座录像何时可用。回复指出可能会有延迟,但很快会处理。
提及的链接:

CUDA MODE ▷ #youtube-watch-party (5 条消息):

  • 为应用并行编程共享的 ECE408 幻灯片: ECE408 2019 年春季版的课程材料,在此获取,包括时间表、项目计划和教职员工办公时间。该课程强调通过 Blackboard 进行成绩分配,并通过 Piazza 进行讨论。

  • CUDA 视频的 YouTube 观看派对: 该频道举办观看派对,参与者一起在 YouTube 上观看 CUDA 相关视频,特别关注 Programming Massively Parallel Processors 系列。会议鼓励每 10-15 分钟进行一次讨论,以便提问和分享知识。

  • 预定观看时间: 观看环节安排在周六,EMEA 参与者为 7:30 GMT,NAM 参与者为 18:00 GMT。特定成员将为会议提供 Zoom 链接。

  • 18 讲之后的计划: 在完成 18 讲之后,小组可能会重新观看 CUDA Mode 视频,或选择另一个经过审查的高质量并行处理系列。这确保了在并行编程主题上的持续学习和参与。

提到的链接:

Eleuther ▷ #general (61 条消息🔥🔥):

  • GPTs Agents 在初始训练后无法学习: 一位成员对 GPTs Agent 在初始训练后无法从提供的额外信息中学习表示担忧。另一位成员澄清了这一误解,解释说上传的文件被保存为“知识”文件,供 Agent 在需要时参考,但它们不会持续修改 Agent 的基础知识

  • 研究人员批评层重复: “这就像他们只是通过复制层来引入噪声,却称模型变得更聪明了,” 一位评论者批评了通过复制层将 Llama 70b 扩展到 120b 和 160b 的努力。另一位用户补充道 “他们也在对此进行微调”。

  • 关于 Zero-shot 泛化的最新 arXiv 论文: 最近的一篇 arXiv 论文 讨论了多模态模型在 Zero-shot 泛化中的性能问题,引发了广泛辩论。批评者指出该论文的发现并不令人意外,并强调该论文没有解决组合泛化(compositional generalization)问题。

  • Falcon-2 11B 发布引起关注: Falcon-2 11B 已发布,在 5T 精炼 Web 数据上训练,具有 8k 上下文和 MQA attention 以改进推理。由于其宽松的许可证和新的尺寸,它引起了人们的兴趣。

  • 关于版权对 AI 发展影响的讨论: 成员们讨论了 AI 版权问题 如何影响小玩家和初创公司。对话强调,像 Microsoft 这样提供赔偿保障的公司可能会在资金和创新竞争中占据主导地位,这可能对较小的 AI 企业产生寒蝉效应。

提到的链接No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance:网络爬取的预训练数据集是 Multimodal 模型(如用于分类/检索的 CLIP 和用于图像生成的 Stable-Diffusion)令人印象深刻的 "Zero-Shot" 评估性能的基础…


Eleuther ▷ #research (79 条消息🔥🔥):

  • 新型 Attention 近似方法亮相:一位成员分享了一篇 arXiv 链接,介绍了一种使用卷积矩阵进行 Attention 计算的高效近似方法。另一位成员对其与 Flash Attention 等现有方法相比的实际应用价值表示怀疑。

  • LLM 中的 Depth Upscaling 引起关注:讨论了 “Depth Upscaling” 的系统化方法,相关论文包括 SOLAR 和 Yi Granite Code 模型 Yi 1.5,内容涵盖了合适的数据集以及改进语言模型的流行技术。

  • 通过 Farzi 进行高效数据蒸馏:一种名为 Farzi 的新方法将事件序列数据集总结为更小的合成数据集,同时保持性能,如 arXiv 链接 所示。作者声称在合成数据上的下游性能高达 120%,但也承认在 T5 等大型模型和 C4 等数据集上的扩展挑战。

  • Token Glitch 检测方法发布:讨论了一项专注于识别 LLM 中未训练和训练不足的 Token 的研究,详见 此 arXiv 链接。该方法旨在提高 Tokenizer 效率和整体模型安全性。

  • Memory Mosaics 的新兴研究:通过 arXiv 链接 分享了一种名为 Memory Mosaics 的新方法,该方法提出了一种用于预测任务的关联记忆网络,在中等规模的语言建模任务上展示了与 Transformer 相当的竞争性能。

Links mentioned:

Eleuther ▷ #scaling-laws (7 条消息):

  • 看好合成数据,但保持谨慎:一位成员表示看好 synthetic data,而另一位成员则持怀疑态度,指出这“在 5-7 年前也经历过完全相同的炒作周期”,并担心由于大量新领域专业人士的涌入,过往的教训可能无法传承。
  • MLP 与 Transformer 及 CNN 的对比:一位成员引用了两篇 arXiv 论文,讨论了在视觉任务中 CNN, Transformer 和 MLP 的对比。他们强调了一项经验性研究,该研究表明虽然所有结构在中等规模下都能达到具有竞争力的性能,但随着网络规模的扩大,它们表现出截然不同的行为,因此主张采用混合方法。
提及的链接

Eleuther ▷ #interpretability-general (3 条消息):

  • NeurIPS 最后时刻投稿征集:一位成员询问是否有人有兴趣为 NeurIPS 进行最后时刻的投稿。他们提到想做一些类似于 Othello 论文 的研究。
  • 模型压缩对特征/电路的影响:另一位成员提出了一个问题:在压缩模型时,哪些类型的 特征/电路(features/circuits)会丢失?他们思考这些特征是完全无用的,还是仅仅针对训练分布的小子集过度专业化,并建议此类特征可以反映数据集的多样性。

Eleuther ▷ #gpt-neox-dev (1 条消息):

oleksandr07173: Hello


Interconnects (Nathan Lambert) ▷ #news (120 条消息🔥🔥):

- **VideoFX 生成内容初探**:一位用户分享了 [VideoFX 视频片段链接](https://fxtwitter.com/bedros_p/status/1789256595123179701?s=46),表示还有更多示例,但目前仍处于开发中(WIP)。分享的片段展示了 VideoFX 生成内容的早期能力。
  
- **GPT-4o 成为焦点**:[Liam Fedus 宣布](https://x.com/liamfedus/status/1790064963966370209?s=46) GPT-4o 成为新的 SOTA 模型。用户讨论了其在编程方面优于旧版本的表现,并对其在 MATH 和其他基准测试中的潜力进行了推测。

- **OpenAI 的新分词器**:一位成员分享了 OpenAI 新分词器(Tokenizer)的 [GitHub commit](https://github.com/openai/tiktoken/commit/9d01e5670ff50eb74cdb96406c7f3d9add0ae2f8)。此次更新似乎通过使用更大的词汇表提高了处理速度。

- **对 OpenAI 最新演示的反应**:尽管一位用户认为演示令人印象深刻,但他们认为除了 UI 改进之外,没有看到任何根本性的创新。其他讨论包括对 GPT-4o 能力及其可用性的推测,以及关于 OpenAI 数据策略的问题。

- **GPT-4o 称霸 LMSys Arena**:LMSys 组织 [分享了激动人心的消息](https://x.com/lmsysorg/status/1790097588399779991?s=46),GPT-4o 在 LMSys Arena 上超越了所有模型,Elo 分数显著提升。用户特别强调了该模型在推理和编程方面的增强。
提及的链接

Interconnects (Nathan Lambert) ▷ #ml-questions (1 条消息):

  • TRLOO 论文解释 REINFORCE 是 PPO 的特例:一位成员分享了一个 Hugging Face PR,并指出其关于 REINFORCE 在实现中如何作为 PPO 特例的解释。他们还链接到了引用的论文

提到的链接PPO / Reinforce Trainers by vwxyzjn · Pull Request #1540 · huggingface/trl:此 PR 支持 https://arxiv.org/pdf/2402.14740.pdf 中的 REINFORCE RLOO 训练器。注意 REINFORCE 的 loss 是 PPO 的一个特例,如下所示,它与提出的 REINFORCE loss 相匹配…


Interconnects (Nathan Lambert) ▷ #random (5 条消息):

  • ChatbotArena 赞赏:一位成员评论说 ChatbotArena 上的用户非常专业,另一位成员表示赞同,强调它在决定未来方面起着关键作用。
  • GPT-3.5 开源:针对 GPT-3.5 开源的可能性进行了简短的推测性讨论。一位成员幽默地指出,这只有在“太阳从西边出来”(hell freezes over)时才会发生。

Interconnects (Nathan Lambert) ▷ #reads (11 条消息🔥):

  • 视频一天内获得 6k 播放量“该死,一天 6k 播放量” —— 一位成员对这一快速成功感到惊叹。相比之下,其他视频的播放量被指出在 “20k” 左右。
  • Natolambert 旨在提高播放量“我需要提高这些数据” —— 表达了增加视频播放量的意图。这是受另一个达到 “150k” 播放量的 Huggingface 视频启发的。
  • 关于在 X 上发布视频的讨论:建议将视频发布到 X,并提到了原生上传。虽然对 Stanford 的许可协议有所顾虑,但被略过了,因为 natolambert 认为他们不会追究,称可以 “请求许可”,但无论如何都会发布。

LAION ▷ #general (109 条消息🔥🔥):

  • 艺术家与 AI 服务之争升温:成员们讨论了像 Midjourney 这样生成艺术作品的 AI 服务是否损害了艺术家的收入。讨论内容包括 AI 商业服务对艺术销售的影响、潜在的法律影响,以及合理使用(fair use)与衍生作品之间的区别,并提供了指向 The Legal Artist 以及多篇提供背景信息的文章链接。
  • StabilityAI 和 Midjourney 的法律困境:成员们讨论了 StabilityAI 潜在的倒闭可能性,并表达了对艺术家 David Holz 的蔑视,希望公开披露的信息能带来后果。见解包括陪审团可能在不遵循法律的情况下影响判决结果,以及对 Midjourney 做法的更广泛影响。
  • DeepSeek LLM 与高效 AI 模型:Civitai 上分享了一个新的经过微调的 Pixart Sigma 模型,因其非 NSFW 用途而受到称赞。与此同时,一篇博客文章强调了 AI 计算效率方面的进展,介绍了包括 FlashAttention-2 在内的创新技术。
  • Falcon 2 系列发布:分享了 Falcon 2 模型的发布说明和规格,声称其性能优于 Meta 的 Llama 3。指向 Technology Innovation Institute 的链接提供了更多细节。
  • OpenAI 发布 GPT-4o:OpenAI 发布了 GPT-4o,其具备实时通信和视频处理功能,引发了广泛关注。成员们注意到了其性能提升、免费访问以及语音模式的更新,详见 OpenAI 的公告
提到的链接

LAION ▷ #research (5 条消息):

  • 将语音数据集转换为 Token:一位成员强调了将大量语音数据集转换为 Token 的必要性。他们还强调了“关于情感和说话人属性的高质量标注”的重要性,并分享了一个关于使用音频训练 Transformer 的 Twitter 帖子YouTube 视频链接。
  • 数学符号与采样函数:关于在形式数学中使用符号表示元素序列(特别是以 i 为索引的 z 收敛于 z_t)以及 T 作为采样函数的潜在作用进行了技术讨论。在没有更多上下文的情况下,认为进一步阐述较为困难。

提到的链接来自 LAION (@laion_ai) 的推文:想把音频当作文本来训练 Transformer 吗?- 方法如下。:) https://youtu.be/NwZufAJxmMA https://discord.gg/6jWrFngyPe


LangChain AI ▷ #general (105 条消息 🔥🔥):

  • 在 LangChain 中提取日期并转换为 ISO 格式:一位成员分享了一个包含日期的 Prompt,并询问如何使用 LangChain 提取这些日期并将其转换为 ISO 格式。Kapa.ai 提供了使用 DatetimeOutputParser 处理此过程的 Python 和 JavaScript 详细代码示例。

  • 在 LangChain 中设置本地开源 LLM:一位用户询问如何在 LangChain 中将工具(tools)与 Ollama 等本地开源 LLM 结合使用。Kapa.ai 解释了相关流程,包括在 Python 和 JavaScript 中定义模型和创建 Prompt。

  • 处理模糊的模型输出并降低 Function Calls 的延迟:成员们讨论了在通过 LangChain 在数据库中创建实体时,优化模型输出和响应时间的方法。建议集中在针对特定任务的模型选择,以及通过加快 Function Call 响应速度来改善 UX。

  • LangChain 中 docstore 的持久化存储替代方案:一位用户询问了在 LangChain 和 Gemini 的多模态 RAG 设置中,替代 InMemoryStore 进行持久化存储的方案。其他成员建议查阅 LangChain 文档以获取更多选项。

  • HuggingFace 与 LangChain 的常见错误及模型上下文使用:讨论了 HuggingFace 上 facebook/bart 的验证错误以及与 API 使用和模型支持相关的常见问题。解决方案包括使用正确支持的模型以及调整 Prompt 或 API 使用。

提到的链接

LangChain AI ▷ #share-your-work (4 messages):

  • AI 视频推荐惊艳全场:查看社区中分享的这个 YouTube 视频,由于其与 LangChain 群体的相关性,可能会引起关注。

  • 关于 IndexNetwork 的 Twitter 线程引起关注:一名成员分享了 IndexNetwork 的一条引人入胜的 Twitter 线程,引起了 AI 爱好者的注意。

  • 开源 Code Interpreter 替代方案发布:一位社区成员介绍了 NLAVIDA,这是 ChatGPT Plus 中高级数据分析工具的开源替代方案。他们计划扩展其功能以支持像 Llama 3 这样的开源 LLM。

  • RAG Pipeline 教程令开发者兴奋:一位成员正在编写一份深入的教程,关于如何使用 LangChain、Next.js 和 Pinecone 构建自定义 RAG Pipeline。该指南涵盖了从数据处理代码到客户端聊天界面演示的所有内容。

提到的链接:

LangChain AI ▷ #tutorials (3 messages):

  • YouTube 教程分享:一位成员分享了一个对某些 LangChain 功能非常有用的 YouTube 教程

  • 使用 LangChain 和 Pinecone 与博客聊天:Zack Proser 创建了一篇博客文章,解释了他如何在他的网站上集成聊天功能以查询博客内容。他提供了复制该功能所需的一切,包括 Ingest 代码、用于 Embeddings 和 Vector Search 的 API 路由代码,以及客户端聊天界面。

  • 寻求关于会话处理与 Streaming 的教程:一位成员请求推荐关于在 LangChain 中管理 History、处理 Session 以及启用 Streaming 的教程。他们提到根据当前的文档很难让 Streaming 功能正常工作。

提到的链接: 使用 LangChain, OpenAI 和 Pinecone 为你的博客构建 RAG pipeline: 即使我不在身边,你也可以与我的文章聊天,并向我提问我已经回答过的问题


LlamaIndex ▷ #blog (8 messages🔥):

  • 使用 Llama 3 生成 PowerPoint:重点介绍了 @naivebaesian 的一篇文章,内容是关于使用 @llama_index 构建一个可以生成 PowerPoint 幻灯片的 Llama 3 RAG Pipeline。它利用了 Python-pptx 库,可以在这里找到。

  • 构建具有 Reflection 能力的金融 Agent:Hanane Dupouy 展示了如何创建一个能够对股票价格进行反思的 Agent。技术包括为 Tool 使用实现 CRITIC,更多细节请参见这里

  • 使用 RAG 进行内容审核:@cloudraftio 详细介绍了为用户生成的图像设置 RAG Pipeline 进行内容审核。该过程涉及将图像说明(Captioning)转换为文本,并将其与索引规则进行匹配,更多信息见这里

  • 使用多个库评估 RAG 系统:@kingzzm 提供了一篇关于使用 TruLens、Ragas、UpTrain 和 DeepEval 等库评估 RAG 系统的详尽文章。讨论了一套全面的评估指标,文章可在这里获得。

  • GPT-4o 多模态能力演示:一个展示 GPT-4o 多模态能力的简单演示,其中 @seldo 的狗展示了它的实力。点击这里查看演示以及对亚马逊 4000 美元二手运动鞋的幽默解读。

提及的链接

LlamaIndex ▷ #general (87 条消息🔥🔥):

  • Condense Plus Context Bug 已识别并修复:讨论显示 condense_plus_context 方法忽略了后处理器 (postprocessor),这是一个 Bug。一位用户确认该问题已在最新版本中修复。

  • 配置问题导致的混合搜索 (Hybrid Search) 错误:一位用户在混合搜索中遇到了 ValueError。另一位成员澄清,需要在 QdrantVectorStore 构造函数中启用 hybrid,而不是在检索器 (retriever) 中。

  • LlamaIndex 的易用性和灵活性受到称赞:多位用户强调了 LlamaIndex 相比其他 AI 构建工具的易用性、灵活性和完善的文档。用户赞赏 LlamaIndex 专注于检索增强生成 (RAG) 的方法,使开发更加顺畅。

  • 元数据 (Metadata) 查询方式已明确:澄清了在查询过程中如何使用 TextNodes 中的元数据。解释称元数据有助于过滤和其他用途,但需要在创建节点期间进行适当配置。

  • CSV 解析的 Python 代码示例:提供了关于如何高效读取、解析和索引 CSV 文件的详细指导,强调了 CSVReader 类的使用。分享了代码片段和进一步资源的链接以供深入理解。

提及的链接

LlamaIndex ▷ #ai-discussion (3 条消息):

  • 通过知识蒸馏 (Knowledge Distillation) 微调 GPT-3.5:成员们讨论了一篇关于通过知识蒸馏微调 GPT-3.5 judge 的博客文章。一位用户强调了此类文章的重要性,指出目前向用户展示如何有效微调模型的资源还不够。

提及的链接Knowledge Distillation for Fine-Tuning a GPT-3.5 Judge: Enhancing Accuracy and Performance :未找到描述


OpenAccess AI Collective (axolotl) ▷ #general (30 条消息🔥):

  • Llama 3 Instruct 微调调查:一位成员分享的分析拆解了 Instruct 版和 Base 版 Llama 3 之间的权重差异,指出“大多数变化似乎是随机分散的”,但在 K 和 V 层有聚集。这可能表明冻结 K/V 层可能允许进行“更多风格化的微调”,而不会严重影响 Instruct 能力。

  • OpenOrca 重新运行的成本和可行性:另一位成员正在寻求赞助,以资助在 GPT-4o 上重新运行 OpenOrca 去重。处理输入和输出 Token 的估计成本约为 650 美元,可能会选择批处理任务 (batch job) 选项以降低支出。

  • AI 计算效率关注点:分享的一篇博客文章深入探讨了近期降低 AI 计算消耗的努力。它引用了多种旨在提高 AI 运行效率的方法,如 Based、Monarch Mixer、H3 和 FlashAttention-2。

  • 期刊出版延迟的挫败感:表达了对期刊出版延迟的沮丧,担心论文发表时可能“已经过时”。一位受访者指出,尽管过程充满挑战,但发表两篇论文通常足以获得博士学位。

  • Bluesky vs. Substack 博客选择:关于使用 Substack 还是 Bluesky 进行博客创作的讨论提到,虽然 Bluesky 目前仅限于线程和帖子,但它拥有“相当极客的受众”。

提到的链接

OpenAccess AI Collective (axolotl) ▷ #axolotl-dev (11 messages🔥):

  • 合并的 Pull Request 引发讨论:成员们简要注意到最近的一次合并成功。有人评论道:“太棒了,合并了。”

  • Llama3 聊天模板的 pyet PR 引发错误:一位成员询问是否有人尝试过针对 LLAMA3 聊天模板 的新 pyet PR。他们遇到了 AttributeError: ‘LLAMA3. Did you mean: ‘LLAMA2’?

  • 更新依赖项解决问题:一位成员提到更新 fastchat 解决了新 PR 的问题。另一位确认:“pr + fastchat 在我这里运行正常。”

  • 对过时依赖项的担忧:对 peft 0.10.0accelerate 0.28.0deepspeed 0.13.2flash-attn 2.5.5xformers 0.0.22transformers @ 43d17c 等过时依赖项表示担忧。他们强调这些配置默认使用 torch 2.0.0,而 2.3.0 已经发布。


OpenAccess AI Collective (axolotl) ▷ #general-help (11 messages🔥):

  • FSDP 和 FFT 兼容性受到质疑:一位成员询问 FSDP 是否支持 FFT,或者是否仍然存在问题。另一位建议尝试 DeepSpeed。
  • 确认 DeepSpeed 可用:另一位成员确认 DeepSpeed 在提议的场景下可以工作。
  • Docker 使用中的 LLAMA3 AttributeError:一位成员在 Docker 中遇到了 AttributeError: LLAMA3,被建议更新 fastchat 但未解决问题,而 git cloning 解决了。
  • 更新 pip 依赖以修复 LLAMA3 错误:另一位用户建议更新 pip 依赖项来修复 LLAMA3 错误,并根据自身经验进行了确认。

OpenAccess AI Collective (axolotl) ▷ #axolotl-help-bot (10 messages🔥):

  • 在 axolotl CLI 中更改 system_prompt:一位成员询问在使用 axolotl.cli.inference 时如何更改 system_prompt。讨论中没有提供直接的解决方案。

  • 合并模型转换为 GGUF 时报错:用户在将合并后的模型转换为 GGUF 时遇到错误,具体是由于缺少匹配的 tokenizer 导致的 FileNotFoundError。详情包括模型文件路径和具体的错误信息。

  • 训练后 Gemma-7B 的 RuntimeError:用户尝试加载训练后的 Gemma-7B 模型时,由于 model.embed_tokens.weight 的尺寸不匹配导致 RuntimeError。他们提供了训练前后的文件结构详情,但问题仍未解决。

  • 如何无精度问题地将 qlora 合并到基础模型:另一位用户询问如何将 qlora 合并到基础模型而不面临精度问题(fp16/32)。在可见的讨论部分没有讨论解决方案。

提到的链接OpenAccess-AI-Collective/axolotl | Phorm AI Code Search:更快地理解代码。


OpenAccess AI Collective (axolotl) ▷ #axolotl-phorm-bot (9 messages🔥):

  • 关于 Axolotl 剪枝支持的问题:用户询问 Axolotl 是否支持剪枝(pruning),Phorm 对 OpenAccess-AI-Collective/axolotl 发起了自动搜索,但尚未提供明确答案。搜索结果表明,更多信息可以在 Phorm 的 官方页面 找到。

  • 持续预训练(Continuous pretraining)和 LoRa 方法咨询:有用户询问了关于持续预训练和各种 LoRa 方法的技巧。Phorm 再次在相关仓库中启动了搜索,但未能立即提供答案,建议用户稍后在其平台上查看。

  • 将 QLoRA 合并到基础模型:一位用户询问了如何将 QLoRA 合并到基础模型中,并将问题定向到了 Discord 中的一个特定小组。该问题尚未得到即时回复。

提到的链接OpenAccess-AI-Collective/axolotl | Phorm AI Code Search:更快地理解代码。


OpenInterpreter ▷ #general (41 条消息🔥):

  • Claude API 因“愚蠢的错误”失败:一位用户对 Claude API 无法使用表示沮丧,报告称它“给出了一个愚蠢的错误(goofy error)”。其他成员也在寻找解决方案。

  • 在 01 开发预览版中选择本地模型:讨论强调了 01 开发预览版如何默认使用 OpenAI,以及如何通过 poetry run 01 --local 切换以选择所需的模型。一位用户建议了用于模型选择的命令,并对此进行了说明。

  • OpenInterpreter 的 Python 脚本故障排除:一位成员在运行带有 interpreter.chat 函数的 Python 代码时遇到问题,但通过使用 from interpreter import OpenInterpreter 解决了该问题。

  • 最好的本地模型仍落后于 GPT-4:用户将 Mixtral、Phi、Llama3 等各种本地模型与 GPT-4 进行了比较,并表示失望。一位用户指出:“如果我没有先尝试 GPT-4,我肯定会对其他模型印象深刻。”

  • GPT-4o 的速度令用户印象深刻:用户对 GPT-4o 的性能感到兴奋,报告速度达到“至少 100 tokens/s”,并指出它“比之前快了 2 倍多”。分享了一个尝试它的命令:interpreter --model openai/gpt-4o

提到的链接

OpenInterpreter ▷ #O1 (21 条消息🔥):

  • 确认 LiteLLM 与 Groq-Llama3 配合正常:成员们讨论了集成 LiteLLM、Groq 和 Llama3 的问题。一位成员确认,“它运行良好”

  • M5 板的网站连接问题“我再也打不开网站了。我尝试过重新刷机,并为此折腾了好几个小时。” 一位成员描述了在尝试连接其 01-Light 设备时,大量的故障排除尝试均告失败。

  • 01 硬件应用现已发布:一位成员“有机会构建了 01 硬件测试版”,并创建了一个更易于访问的应用版本用于早期测试。他们分享了 GitHub 仓库链接,并提到 TestFlight 审批尚在进行中。

  • 退款请求和支持:一位成员询问如何取消订单,并被建议发送电子邮件至 help@openinterpreter.com

  • 即将到来的 01 批次发货:一位成员询问了下一批 01 的发货情况,并获知“第一批预计在 11 月发货”


OpenInterpreter ▷ #ai-content (4 条消息):

  • 对 PyWinAssistant 的兴奋:一位用户分享了 PyWinAssistant 的 GitHub 链接,将其描述为“第一个开源的 Large Action Model 通用型 Artificial Narrow Intelligence,仅通过使用自然语言即可完全控制人类用户界面。”他们强调 PyWinAssistant 利用思维可视化(Visualization-of-Thought)来激发 LLM 中的空间推理能力。
  • PyWinAssistant 实际运行:另一位用户提到他们成功运行了 PyWinAssistant,并分享了一个演示其运行情况的 YouTube 视频。视频中包含了 PyWinAssistant 控制人类用户界面的示例,并展示了 Autogroq 和 websim 等其他工具。
提到的链接

tinygrad (George Hotz) ▷ #learn-tinygrad (38 messages🔥):

  • 理解 Tensor 中的可变形状:讨论了为了优化而表示具有可变形状的 Tensor,特别是在 token 数量会发生变化的 Transformer 中。用户引用了一篇 Tinygrad Notes 文章 以及来自 Whisper 代码的示例(示例 1示例 2)。

  • 澄清 Tensor 和 Axis 术语:有人提问关于 Tensor 在 sum 和 concatenate 等操作中 “dim” 和 “axis” 的区别。会议指出它们通常指代相同的概念,但由于历史原因在不同上下文中使用。

  • 处理训练中缺失的梯度:一位用户在训练 bigram 模型时遇到了与 Tensor.training 相关的 “AssertionError”,通过设置 Tensor.training = True 解决了该问题。讨论中引用了相关的 GitHub 代码 并提出了改进错误信息的建议。

  • 使用 Tensor 操作聚合特征:另一位用户寻求关于为简单的 Neural Turing Machine 实现特征聚合的建议。他们讨论了 Tensor 操作,提供了代码示例,并探索了优化技术,分享了 聚合特征 GitHub 代码

  • 通过 where 调用进行反向传播的问题:在 tinygrad 中通过 “where” 调用进行反向传播时遇到障碍(该操作在 PyTorch 中可行),由于缺失梯度导致 RuntimeError。提出了一种涉及使用 detach().where() 的解决方案来解决梯度分配问题。

Links mentioned:

Cohere ▷ #general (24 条消息🔥):

  • Embedding 模型咨询引起关注:一位用户询问 Embedding 模型是否开源。该查询未收到进一步的信息或回复。
  • 计费困惑得到解决:一位用户对计费数字表示困惑,特别是一笔未解释的 $0.63 费用。他们后来解决了困惑,意识到该数字代表自上次发票以来的应付金额,尽管他们仍然觉得解释不够清晰。
  • Web command token 澄清:一位用户询问在使用 command r 进行网页搜索时,为什么输入 token 会激增,怀疑网页访问会产生额外的 token 成本。另一位用户确认搜索结果确实会传递到 context 中,并因此产生费用。
  • SolidGoldMagikarp token 问题分析:一位用户感谢另一位用户链接了一篇 arXiv 论文,该论文讨论了导致语言模型出现异常行为的“故障 token”(glitch tokens)问题,以及检测此类 token 的方法。
  • Aya 与 Cohere Command Plus 模型对比:一位用户寻求 Aya 和 Cohere Command Plus 模型之间的基准测试,报告称即使在 0 temperature 下,Aya 也会出现不准确的情况。另一位用户建议仅将 Aya 用于翻译任务。

提到的链接Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models:语言模型中 tokenizer 创建与模型训练之间的脱节,已知会导致某些输入(如臭名昭著的 SolidGoldMagikarp token)诱发异常行为。…


Cohere ▷ #project-sharing (2 条消息):

  • 电信领域的 LLM 专业化:一位成员分享了一个在 5G 等电信领域实现大语言模型(LLM)专业化的新挑战。有关竞赛的更多详情可以在 Zindi Africa 的竞赛页面上找到。

  • 寻求“与 PDF 聊天”应用程序:另一位成员询问是否有人使用 Cohere 创建了“与 PDF 聊天”类型的应用程序。他们请求提供任何相关的 GitHub 仓库或博客文章以供参考。

提及链接Zindi:未找到描述


Datasette - LLM (@SimonW) ▷ #ai (23 messages🔥):

  • GPT-4o 仍未达标:用户对 GPT-4o 表示失望,指出尽管它更快更便宜,但在准确列出书架上的书籍等简单任务上仍然表现不佳。“目前在图书馆测试,它漏掉了书名,添加了不存在的书籍,准确率仅约 50%。”
  • 语音助手的糟糕公关:一些人认为最近针对语音助手的公关努力令人尴尬,部分原因是助手会咯咯笑,这被视为一个糟糕的营销选择。“简直是一个令人尴尬的选择。”
  • 自定义指令来救场:讨论中提到希望通过自定义指令让语音助手不那么令人尴尬。“我希望我们可以使用自定义指令来稍微收敛一下!”
  • AGI 怀疑论蔓延:对 AGI 即将到来的怀疑显而易见,一些成员建议他们应该为不相信者建立一个俱乐部。“有时我觉得自己是湾区少数几个不指望下周就发布 AGI 的人之一。”
  • LLM 边际收益递减:共识似乎正在形成,即 LLM 版本之间的改进(例如 4 对比 3)显示出边际收益递减,而当前模型中仍存在未开发的潜力。“我一直在对话中向人们指出,3 对比 2 的跨越比 4 对比 3 更大。”

Datasette - LLM (@SimonW) ▷ #llm (1 messages):

simonw: https://twitter.com/simonw/status/1790121870399782987


Mozilla AI ▷ #llamafile (15 messages🔥):

  • 虚假 OpenELM 仓库警告:一名成员警告说 “这是一个虚假仓库,目前还没有 OpenELM 的 GGUF 版本。” 另一名成员讽刺地评论道 “至少 AI 行业正在赶上游戏行业了。”
  • llamafile 归档升级的 Pull Request:分享了一个 PR 链接,标题为 “添加了升级 llamafile 归档的脚本。” 上下文提到从 外部博客 移植。
  • 容器使用说明:关于使用 podman 或 kubernetes 等容器存在一些困惑,澄清为 “使用容器完全没问题。”
  • Hermes-2-Pro 性能:一名成员报告称 “Hermes-2-Pro-Llama-3-8B-Q5_K_M.gguf”“AMD 5600U” 上运行流畅,响应时间约 10 秒总 RAM 使用峰值约为 11GB
  • Llama 和 Mistral 的 Batch Size 错误:多名成员报告了 Llama 8B 和 Mistral 模型中反复出现的错误:update_slots: failed to find free space in the KV cache, retrying with smaller n_batch = 1。在分配更高 RAM 以及使用 LLaVa 1.5Llama 70B 等其他模型时,此问题似乎不太明显。
提及链接

DiscoResearch ▷ #general (9 messages🔥):

  • 德国 TTS 项目寻求播客/YouTube 频道建议:一名成员正寻求编制一份高质量、内容多样的德国 YouTube 频道列表,以训练文本转语音(TTS)模型。另一名成员建议使用 Mediathekview 下载德国各频道的广播和电影。

  • 使用 Mediathekview 管理德国视频资源:成员们讨论了使用 Mediathekview 及其下载和管理德国媒体内容的潜力,包括下载其数据库的可行性。有人建议利用 Mediathekview 的本地数据库,位于 %userprofile%\.mediathek3\databasemediathekview.mv.db

  • 使用 Mediathekview 的 JSON API:有人指出 Mediathekview 提供了一个可用于查询数据的 JSON API,并参考了 GitHub 仓库 以了解更多细节。

  • 鼓励保持英文交流:一名成员提醒其他人,频道内的讨论应保持使用英文。

  • 对非聊天应用中的 RT Audio 接口感到兴奋:一位用户表达了对 “RT Audio 接口” 的兴奋,并询问在非聊天应用中是否有任何第一手经验或结果,表现出对其能力的浓厚兴趣。

提及的链接

DiscoResearch ▷ #discolm_german (2 条消息):

- **Demo 状态查询**:一位用户询问:“Demo 挂了吗?”但该查询未得到回应。
- **正面反馈**:另一位用户评论道:“真的很棒,”表达了满意之情,但未做进一步说明。

LLM Perf Enthusiasts AI ▷ #general (4 条消息):

  • Claude 3 Haiku 与 Llama 3b 引发关注:成员们讨论了 Claude 3 HaikuLlama 3b Instruct 的性能。一位成员分享了他们构建自动评分服务以从文档中提取实体的经验,并表示需要精确的子模型匹配,提到最初尝试使用模糊字符串算法(fuzzy string algorithms)和类似模式匹配的方法并未成功。

LLM Perf Enthusiasts AI ▷ #gpt4 (6 条消息):

  • 关于音频集成的推测:成员们讨论了 OpenAI 可能正在开发与音频相关的功能,有人建议这可能涉及“直接向某些助手提供音频输入输出支持”。
  • OpenAI 春季更新预告:分享了一个 YouTube 链接,暗示了新功能,包括作为 OpenAI Spring Update 一部分引入的 GPT-4o。该活动将发布关于 ChatGPT 等内容的更新。
  • Scarlett Johansson 担任配音:社区对 Scarlett Johansson 在新更新中担任配音感到惊讶和有趣。一位成员惊呼:“不敢相信他们请到了 scarjo 来配音”,随后发了句 “lol”。

在此观看完整更新

提及的链接Introducing GPT-4o:OpenAI 春季更新 —— 于 2024 年 5 月 13 日星期一直播。介绍 GPT-4o、ChatGPT 的更新等。


Alignment Lab AI ▷ #general-chat (3 条消息):

  • AlphaFold3 Federation 邀请报名:一名成员宣布 AlphaFold3 Federation 开始运作,并分享了 5 月 12 日美国东部时间晚上 9 点即将举行的会议的 报名链接。议程包括进度更新、流水线设计和问答环节。

  • 请求服务器 ROLE 信息:一名成员询问在哪里可以找到服务器的 ROLE 信息,并艾特了另一位用户进行澄清。未提供关于可用角色的进一步细节。

提及的链接AlphaFold3 [AF3] Federation Meet · Luma:当前进度更新。由首席开发人员主讲关于 Alpha Fold 3 集成现状的报告。讨论在初始阶段遇到的任何问题……


Alignment Lab AI ▷ #fasteval-dev (3 条消息):

  • Fasteval 项目可能停止:一名成员询问了 fasteval 项目的延续情况。另一名成员回应称他们不打算继续该项目,但如果有负责的人愿意接手,他们愿意转让 GitHub project 的所有权;否则,他们建议归档 fasteval 频道。

AI Stack Devs (Yoko Li) ▷ #app-showcase (1 条消息):

  • 修改 AI Town 设置:一名成员询问了是否可以修改 AI town 中的 角色移动速度NPC 数量。这表明了对自定义游戏机制的兴趣。

AI Stack Devs (Yoko Li) ▷ #ai-town-dev (1 条消息):

  • 优化 NPC 交互频率以提升性能:一位用户询问是否可以通过调整代码来降低 NPC 之间的交互频率。他们建议重新分配计算资源以增强玩家与 NPC 的交互,并指出在本地机器上使用 llama3 模型运行 AI town 非常吃力。

Skunkworks AI ▷ #off-topic (1 条消息):

pradeep1148: https://www.youtube.com/watch?v=KQ-xGVFHDkw