ainews-sxxx

暴风雨前的宁静

以下是该文本的中文翻译:

Anthropic 在预期发布重大产品前,正以高达 400 亿美元 的估值筹集资金。OpenAI 推出了全新的推理模型 o1o1-mini,提高了速率限制,并发布了多语言 MMLU 基准测试。阿里巴巴 发布了支持 29 种以上语言的开源模型 Qwen2.5,以更低的成本展现出与 GPT-4 相当的性能。微软贝莱德 (Blackrock) 计划向 AI 数据中心投资 300 亿美元,同时 Groq 与沙特阿美 (Aramco) 合作建设全球最大的 AI 推理中心。机器人领域的进展包括迪士尼研究院和苏黎世联邦理工学院 (ETH Zurich) 开发的基于扩散模型的机器人动作生成技术,以及普渡机器人 (Pudu Robotics) 推出的半人形机器人。Slack 和微软推出了集成在其平台中的 AI 智能体。研究亮点包括利用双块注意力机制 (Dual Chunk Attention) 实现 Llama-2-70b 的长文本扩展,以及通过 KV 缓存量化使 Llama-7b 模型支持 100 万 token 的上下文。

#long-context #kv-cache-quantization #diffusion-models #reinforcement-learning #robotics #ai-integration #multilinguality #model-benchmarking #model-performance #model-optimization o1 o1-mini qwen2.5 gpt-4 llama-2-70b llama-7b anthropic openai alibaba microsoft blackrock groq aramco disney eth-zurich pudu-robotics slack

Peace is all you need.

2024年9月20日至9月23日的 AI News。我们为您检查了 7 个 subreddits、433 个 Twitter 账号30 个 Discord(221 个频道,6206 条消息)。预计节省阅读时间(以 200wpm 计):719 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

虽然没有明确的头条新闻,但在本周 Anthropic 和 Meta 预期的大动作之前,有很多值得注意的小动态:


目录频道摘要 已移至此邮件的网页版:


AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成,取 4 次运行中的最佳结果。

AI 发展与行业动态

  • OpenAI 的新模型@adcock_brett 报道了 OpenAI 发布的新推理模型 o1 和 o1-mini,旨在处理科学、编程和数学领域的复杂任务。@JvNixon 指出这些模型在输出质量上有主观上的提升。OpenAI 还提高了速率限制,o1-mini 增加至每天 50 条消息,o1-preview 增加至每周 50 条消息。

  • Qwen2.5 模型:阿里巴巴发布了 Qwen2.5,这是一个开源模型,包含通用、编程和数学版本,支持 29 种以上语言。@_philschmid 将其性能与 GPT-4 进行了比较,指出其以极低的成本实现了类似的性能。

  • AI 基础设施:Microsoft 和 Blackrock 正在筹集 300 亿美元用于投资新建和现有的 AI 数据中心,总投资潜力可达 1000 亿美元。Groq 与 Aramco 合作建造“全球最大的 AI 推理中心”,配备 19,000 个 LPUs,最终将扩展至 200,000 个。

  • 机器人领域的 AI:Disney Research 和 ETH Zurich 展示了 ‘RobotMDM’,该技术将基于扩散的动作生成与 RL 相结合,用于机器人运动。普渡机器人(Pudu Robotics)发布了他们的第一代“半人型”(semi-humanoid)机器人。

  • 技术产品中的 AI 集成:Slack 宣布了新的 AI 驱动功能,包括频道内的 AI Agent。Microsoft 介绍了 Microsoft 365 Copilot 中的 Agent,可跨多种 Microsoft 产品工作。

AI 研究与技术

  • 长上下文模型:一篇关于“无需训练的大语言模型长上下文缩放”的论文介绍了 Dual Chunk Attention (DCA),使 Llama2 70B 在无需持续训练的情况下支持超过 100k tokens 的上下文窗口。

  • KV Cache 量化“KVQuant”论文提出了量化缓存 KV 激活的技术,允许在单个 A100-80GB GPU 上运行上下文长度高达 100 万的 LLaMA-7B 模型。

  • 检索技术@_philschmid 讨论了 SFR-RAG,这是一个针对 RAG 进行微调的 9B LLM,其在学术基准测试中的表现可媲美更大的模型。

  • 合成数据@rohanpaul_ai 强调了合成数据在训练 Qwen2.5-Coder 中的关键作用,详细介绍了生成过程、验证以及与开源数据集的整合。

AI 工具与应用

  • GitHub 文件整理工具@rohanpaul_ai 分享了一个 GitHub 仓库,该工具使用本地 LLM 来理解并根据内容对文件进行分类。

  • 金融研究助手@virattt 正在使用 LangChain 构建一个开源金融研究助手,配备了强大的金融和网络数据搜索工具。

  • 类 Perplexity 体验@LangChainAI 分享了一个使用 LangGraph、FastHTML 和 Tavily 创建类 Perplexity 体验的开源仓库,支持包括 GPT-4 和 Llama3 在内的不同模型。

AI 伦理与监管

  • 加州 AI 法案 SB 1047:关于加州 AI 法案 SB 1047 的辩论仍在继续。@JJitsev 认为该法案存在严重缺陷,它监管的是通用技术而非其应用。多位 AI 研究人员和机构对该法案对 AI 研发的潜在影响表示担忧。

其他

  • GitHub 上的 AI 贡献@rohanpaul_ai 指出,自 OpenAI 发布 ChatGPT 以来,GitHub 上的 AI 贡献量激增了 230%。

  • AI 数据中心@ylecun 建议未来的 AI 数据中心将建在能源产地附近,特别是核电站旁边,以获得高效、低成本且低排放的电力。


AI Reddit 摘要

/r/LocalLlama 摘要

主题 1. Qwen2.5 成为新的开源 SOTA,取代更大规模的模型

  • 谁在日常配置中用 Qwen2.5 替换了原有模型?如果是这样,你替换了哪个模型?(分数:42,评论:30):据报道,Qwen2.5 在广泛的任务中实现了 state-of-the-art (SOTA) 性能,模型参数规模从 0.5B 到 72B 不等。帖子作者正在询问已将 Qwen2.5 集成到日常工作流中的用户,询问他们具体替换了哪些模型以及用于什么任务。
    • Professional-Bear857Llama 3.1 70B IQ2_M 替换为 Qwen2.5 32B IQ4_XS,用于代码编辑/纠错和通用查询,理由是 GPU 功耗更低,且性能与 Mistral Large 相当。
    • 用户正在尝试将 Qwen2.5 用于各种任务,包括文章和 YouTube 视频摘要Matteogeniaccio 使用自定义的 Python 设置和 llama.cpp server 来处理不同的内容类型并提取关键信息。
    • 虽然一些用户称赞 Qwen2.5 的指令遵循能力,但也有人报告了褒贬不一的结果。Frequent_Valuable_47 发现 Gemma2 2B 在 YouTube 转录摘要方面优于 Qwen2.5 1.5B,尽管 Qwen2.5 拥有 120k token context,而 Gemma 仅为 8k

主题 2. 在 Open WebUI 中使用 gVisor 沙箱实现安全代码执行

  • Open WebUI 中的安全代码执行(分数:324,评论:24):Open WebUI 已经实现了使用 Docker 容器进行安全代码执行,以增强安全性。此功能允许用户在隔离环境中运行代码片段,在实现交互式编程体验的同时,防止对宿主系统造成潜在伤害。该实现利用 Docker SDK 进行容器管理,并包含一个超时机制来自动终止长时间运行的进程。
    • 代码执行功能已在 GitHub 上线,并使用 gVisor 进行沙箱隔离。它提供两种模式:用于在 LLM 消息中运行代码块的 “Function” 模式,以及允许 LLM 自主执行代码的 “Tool” 模式。
    • 用户讨论了将支持扩展到 Go 等其他语言,开发者解释说,这需要修改 Sandbox 类和解释器选择代码。该工具目前适用于 Ollama 后端和标记为支持 tool calling 的模型。
    • 用户对处理缺失依赖项以及对更强大功能(如 artifacts 和增加并发请求)的需求表示关注。开发者确认 Open WebUI v0.3.22 包含了使该工具正常运行所需的修复。

主题 3. 针对角色扮演场景优化的 NSFW AI 模型

  • 最喜欢的轻量级 NSFW RP 模型(20B 以下)?(分数:180,评论:156):该帖子比较了各种 20B 参数以下的轻量级 NSFW RP 模型,并将它们分类为“好”、“极好”和“绝对精彩”。作者专门使用 EXL2 模型,首选包括 MN-12b-ArliAI-RPMax-EXL2-4bpwestopia-13b-llama-2-4bpw-exl2Mistral-Nemo-Instruct-2407-exl2-4bpw。列出的大多数模型是 4-4.5bpw(bits per weight)变体,规模从 7B 到 13B 参数不等。
    • 用户讨论了各种 NSFW RP 模型,其中 L3-Nymeria-Maid-8B-exl2Cydonia 22B 被强调为特别令人印象深刻。Nicholas_Matt_Quail 提供了关于模型演进的广泛见解,指出 Cydonia 22B 感觉像是对 12B 模型的重大升级。
    • 社区分享了针对不同 VRAM 容量的建议,包括适用于 4GB 的 Sao10K_L3-8B-Stheno 和适用于更高容量的 L3-Super-Nova-RP-8B。用户强调了正确的 sampling techniquesinstruct templates 对于获得最佳模型性能的重要性。
    • 讨论涉及了无审查模型的使用场景,包括露骨的性内容以及涉及暴力或黑暗主题的非性场景。chub.ai 网站被提及作为角色卡和 RP 场景的资源。

主题 4. Qwen2.5 模型的越狱和审查测试

  • Qwen2.5 可以被越狱,但并不完美。 (Score: 49, Comments: 24): Qwen2.5 模型 (72b, 32b, 14b) 使用 Ollama 和 Open-webui 进行了审查测试,最初尝试询问有关维吾尔族迫害的问题时,结果为 100% 拒绝。随后开发了一个自定义 System Prompt 来鼓励无偏见、详细的回答,成功绕过了关于维吾尔族和香港问题的审查,在 20 次测试中实现了 100% 无审查回答。然而,该方法对有关中国政府的直接问题证明是无效的,表明在这些话题上存在持久的“封锁”,而关于其他政府(如美国)的问题则得到了更具批判性的回答。
    • 用户讨论了模型的回答,一些人注意到它对美国的政治贪婪给出了“措辞考究的重击”,而在中国话题上则更为克制。32b 模型因其性能受到称赞,并提到了 128k Context 能力。
    • 关于模型的回答是代表审查还是训练数据的偏见引发了辩论。一些人认为模型的亲华立场可能反映了其训练数据,而非刻意的审查,而另一些人则暗示某些话题可能被“消融”(ablation)了。
    • 一位用户使用关于天安门广场的 Prompt 测试了 14b 模型,收到了出人意料的详细回答,涵盖了关键事件及其后果。这引发了关于模型处理敏感话题的能力以及 Prompt 措辞对回答影响的讨论。

Theme 5. 对新 Command-R 模型更新的热情有限

  • 没人喜欢新的 Command-R 吗? (Score: 33, Comments: 28): 该帖子讨论了 Cohere 最近对 Command-R 模型的改进,指出与大约六个月前的首次发布相比,公众热情有所下降。尽管 Cohere 声称在推理、RAG、数学和编码方面增强了能力,但作者观察到明显缺乏针对更新模型的 Benchmark、博客文章、LocalLLaMA 适配或 YouTube 评论。帖子最后询问是否有人在使用新的 Command-R,并邀请用户分享他们的经验。
    • 用户将 Command-RQwen2.5-32BMistral 123bMagnum 123b 等其他模型进行了比较,对性能的评价褒贬不一。一些人发现 Command-R 在故事创作文档聊天等特定任务上表现更好,而其他人则更喜欢替代模型。
    • Command-R 的非商业许可证被认为是限制兴趣和采用的一个重要因素。用户对限制性条款表示沮丧,特别是禁止将输出用于商业用途,鉴于 Cohere 的数据收集实践,一些人认为这很虚伪。
    • 据指出,与最初版本相比,新的 Command-R 在 RP/ERP 方面表现更差,而最初版本曾意外地在这一领域表现出色。然而,GQA 的改进使得在高达 128k 的长 Context 长度下表现更好,可能有利于 RAG 和 Tool Use 应用。

其他 AI Subreddit 回顾

r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity

AI 研究与技术

  • Google Deepmind 推进多模态学习:一篇关于联合样本选择的论文展示了数据策展如何加速多模态学习。(/r/MachineLearning)

  • Microsoft 的 MInference 加速长上下文推理MInference 能够在保持准确性的同时,为长上下文任务实现高达数百万个 token 的推理。(/r/MachineLearning)

  • 通过 10 亿个网络策划的角色扩展合成数据生成:一篇关于扩展合成数据生成的论文利用 Large Language Models 中的多样化视角,从网络策划的角色中生成数据。(/r/MachineLearning)

AI 模型发布与改进

AI 应用与实验

AI 伦理与社会影响

AI 幽默与梗图

  • 电路板长矛:一张带有电路板尖端的长矛的幽默图片,引发了关于后末日场景和 AI 角色的讨论。(/r/singularity)

  • AI 对邪恶的看法:一段 ChatGPT 对话,其中 AI 将“人类”识别为邪恶的根源,引发了关于 AI 伦理和人性的辩论。(/r/OpenAI)


AI Discord 摘要

由 O1-preview 生成的摘要之摘要的总结

主题 1:AI 模型新发布与更新

主题 2:AI 工具与模型的挑战与问题

  • Perplexity Pro 用户面临订阅困扰:用户报告 Perplexity Pro 状态间歇性丢失,并遇到 ‘Query rate limit exceeded’ 错误;退出登录等临时修复措施仅部分有效。
  • LM Studio 更新后模型加载出现障碍:在更新 LM Studio 后,用户在加载模型时遇到挑战,部分用户不得不回滚版本以恢复功能。
  • OpenRouter 默认禁用 Middle-Out TransformOpenRouter 已默认禁用 middle-out transform,这影响了用户的工作流,并引发了关于 Prompt 处理的困惑。

主题 3:创意领域的 AI

主题 4:AI 研究与实践的发展

主题 5:社区活动与协作

  • CUDA MODE 黑客松展示创新项目:黑客松在一天内产生了超过 40 个项目,入选路演的团队专注于商业可行性和创新,彰显了社区的协作精神。
  • 参与者寻求 AI 实习机会:成员们正积极寻求关于在哪里寻找 AI 实习的建议,反映了社区对在 AI 领域发展职业生涯的浓厚兴趣。
  • 为智能家具提议 Open Interpreter 模块:一位成员提议为 Kequel 模块化定制床头柜创建一个 Open Interpreter 模块,并寻求社区协作。

第 1 部分:高层级 Discord 摘要

HuggingFace Discord

  • HuggingFace Spaces 宕机:用户报告了 HuggingFace Spaces 的重大问题,经历了持续数小时的 ‘500 Internal Error’ 和文件上传失败。
    • 这次停机令依赖该平台进行模型访问和内容上传的用户感到沮丧,凸显了其对生产力的影响。
  • 模型微调简化:一位用户寻求在包含 350 条记录 的操作系统和硬件问题数据集上微调模型的帮助,并通过 SimpleTuner 等共享资源找到了支持。
    • 多位用户讨论了模型训练工具,发现了有效的解决方案,包括 YouTube 视频推荐和社区见解。
  • 秒级 3D 内容创作:一位成员分享了 threestudio GitHub repo,声称可以在 10 秒 内生成 3D 对象。
    • 另一位参与者推荐使用 ‘stable fast 3D’,据称该工具可以在不到一秒的时间内从图像生成对象,可在 Hugging Face space 中使用。
  • Gradio 5 Beta 发布Gradio 5 (Beta) 正式发布,根据开发者反馈进行了性能增强、设计更新,并推出了用于快速应用测试的实验性 AI Playground
    • 该 Beta 版本承诺大幅提升性能,特别是在服务器端渲染方面,同时通过第三方审计确保了安全性的提高。
  • 开发 AI 驱动的 RPG:一位开发者正在开发一款集成具有记忆和联网功能的 AI Agent 的 RPG,在系统构建方面面临复杂挑战。
    • 他们向社区寻求贡献,强调了实现这种复杂游戏结构的重大挑战。

aider (Paul Gauthier) Discord

  • Aider v0.57.0 带来令人兴奋的更新Aider v0.57.0 的发布通过多项更新增强了性能,包括对 OpenAI o1 models 的支持、改进的 Windows compatibility 以及新 Cohere models 的集成。
    • 它还修复了多个 Bug,用户可以在此处查看完整的 change log
  • Aider 和 OpenRouter 已就绪但过程坎坷:用户分享了在 OpenRouterClaude models 中使用 Aider 的混合体验,经常遇到“过载”错误和困惑。
    • 一些成员成功访问了 Anthropic 模型,而另一些成员则对当前高流量期间服务的可靠性表示担忧。
  • 对 Embeddings 的质疑:一位成员对 embeddings 的价值表示怀疑,主张采用一种 DIY 方法,模仿 llama index 中看到的树状结构方法。
    • 这一讨论指向了 AI 领域的广泛趋势,一些人将 RAG 工具的激增归因于 VC funding 而非真实需求。
  • Aider 优化的创意解决方案:为了简化工作流程,建议使用 ripgrep 快速搜索工具以更好地与 Aider 集成,强调了开发速度的重要性。
    • 用户还讨论了在 Aider 设置中使用较低的 token 计数以提高清晰度并减少困惑,特别是在处理大型仓库时。
  • Git 和聊天处理增强:Aider 的仓库映射(repository mapping)有助于跟踪代码更改和交互,尽管某些配置促使用户关闭自动刷新以保持高效的搜索能力。
    • HuggingFace models 的集成以及使用 .env 文件管理环境设置增强了 Aider 在 AI 配对编程中的可用性。

Eleuther Discord

  • 与 Cerebras 联合发布 μ-Parameterization 指南:今天,我们很高兴能联合发布博文 《最大更新参数化从业者指南》(The Practitioner’s Guide to the Maximal Update Parameterization),旨在提高训练社区对 μ-parameterization (μP) 的易用性。
    • 该指南包括逐步实现指令以及在 EleutherAI/nanoGPT-mup 上的简单实现,解决了原始材料中常见的易用性问题。
  • 在 GPT-4 中使用余弦相似度:一位用户正在评估 GPT-4 在不进行微调的情况下执行分类任务的效果,考虑根据测试集的余弦相似度动态选择示例,以改进 In-context learning。
    • 有人担心在 Prompt 中包含相似的测试示例可能会导致测试集泄漏(Test set leakage),需确保测试问题本身不被包含在内。
  • 关于课程学习(Curriculum Learning)有效性的辩论:目前正在讨论 AI 中课程学习 (CL) 的有效性,一些人对其是否比传统训练方法有显著改进持怀疑态度。
    • 成员们指出,目前缺乏保证的数据过滤最佳实践,这影响了 CL 的实际应用。
  • MMLU_PRO 采样逻辑需要关注./leaderboard/mmlu_pro 任务与其原始实现有所不同,因为它在 Few-shot 采样时忽略了问题类别,具体可见这段代码
    • 另一位用户建议更新采样逻辑,以根据问题类别提高准确性,代码详见此处
  • 激活函数文档不同步:一位成员指出,文档中列出的可用激活函数并未反映代码中的完整范围,特别是关于 Swiglu 的部分。
    • 另一位成员确认文档尚未更新,并引用了定义这些函数的特定代码行

Unsloth AI (Daniel Han) Discord

  • KTO Trainer 需要参考模型:成员们澄清 KTO trainer 需要一个参考模型来计算奖励,建议在微调期间使用未经改动的基座模型进行比较。
    • 建议从参考模型中预生成响应,以节省训练期间的显存。
  • Qwen 模型 Bug 报告出现用户注意到 Qwen 2.5 模型在更新后出现异常行为,特别是 Prompt 模板生成错误响应的问题。
    • 已确认较小的模型对 Prompt 格式非常敏感,从而导致了这些问题。
  • RAG 实现引起关注:参与者讨论了使用检索增强生成 (RAG) 来改进模型响应并在分析过程中增强知识保留。
    • 一位用户建议在 RAG 中有效地利用现有数据集,以避免训练过程中的知识丢失。
  • SetFit v1.1.0 发布,增强训练功能SetFit v1.1.0 的发布现在采用 Sentence Transformers Trainer,以便在 CPU 和 GPU 上进行高效的分类器训练,解决了之前的问题。
    • 关键更新包括 MultiGPU 支持,并将 ‘evaluation_strategy’ 弃用改为 ‘eval_strategy’,同时新增对 Python 3.113.12 的支持。
  • 分类器训练采用结构化方法:训练 SetFit 分类器模型涉及两个阶段:首先微调 Sentence Transformer Embedding 模型,然后将 Embedding 映射到类别。
    • 这种结构化方法提高了性能和效率,特别是配合 1.1.0 版本中的新特性。

Perplexity AI Discord

  • Perplexity Pro 订阅困扰:多位 Perplexity 用户报告间歇性失去 Pro 身份,并遇到类似“Query rate limit exceeded”的错误消息。退出并重新登录等临时修复方法仅能偶尔解决问题,但凸显了更新后系统范围内的延迟问题。
    • 用户担心持续存在的 Bug 可能会严重影响他们在平台上的体验。
  • AI 模型对决:Llama vs. Perplexity:讨论显示 llama-3.1-sonar-large-128k-online 的表现逊于 Perplexity web app,用户注意到其回答不完整且格式不一致。针对改进输出提出了建议,重点在于抓取来源引用。
    • 性能上的差异引发了对该模型在实际应用中可靠性的质疑。
  • Chain of Thought 推理的奥秘:成员们参与了关于 Chain of Thought reasoning 资源的讨论,旨在提升 AI 的逻辑和推理能力。分享了一份详细介绍实现的指南,增强了开发复杂 AI 模型的工具包。
    • 进一步的讨论强调了这种推理方式在提高 AI 现实场景功能能力方面的持续应用。
  • 对 Perplexity API 引用的不满:用户对 Perplexity API 不稳定的引用功能表示失望,尽管有明确要求,但往往无法提供一致的参考文献。批评指出,API 的可靠性在很大程度上取决于准确的引用提供。
    • 这种不一致性可能会损害该 API 在专注于严肃应用的开发者社区中的声誉。
  • OCR 服务在 Azure 部署的可能性:人们对在 Azure 上部署 Perplexity API 以提供 OCR 服务表现出好奇,反映出对 API 在云环境中实际应用的兴趣日益增长。这可能为利用该 API 功能集成 OCR 能力开辟新途径。
    • 关于 Azure 部署的咨询量表明,向基于云的 AI 解决方案发展的趋势正在演变。

GPU MODE Discord

  • 黑客松团队协作:参与者制定了黑客松的协作策略,建议通过指定频道进行自我组织和沟通,以优化团队合作。
    • 成员建议由于停车位有限,使用 Uber 出行,强调了后勤规划对活动成功的重要性。
  • CUDA Mode 活动亮点:黑客松在积极的反馈中拉开帷幕,展示了显著的项目和协作成果,激励了参与者对未来努力的信心。
    • 十支团队被选中进行路演,评委关注商业可行性和创新,并提醒各团队按时完成提交。
  • KLDivLoss 与 Kernel 问题:对 KLDivLoss 反向传播 kernel 的担忧引发了关于其公式准确性以及与较大词表大小相关的潜在循环展开(loop unrolling)问题的讨论。
    • 参与者建议研究 KLDivLoss 与 Cross-Entropy 实现之间的关系,以增强模型性能并减少差异。
  • WebGPU vs. MPS 性能:成员指出,虽然在 macOSMPS 的性能优于 WebGPU,但 WebGPU 仍处于开发阶段,尚未达到峰值性能,表明仍有改进空间。
    • 目前正在协作推动优化 MPS 和 WebGPU 之间的 kernel 对比,并呼吁社区就增强实现提供建议。
  • 算力额度与支持需求:参与者明确了如何领取 compute credits,确认不会发送确认邮件,但资金会在注册后不久到账。
    • 跨节点安装 Python 包的支持被确认成功,反映了社区在解决问题时的资源共享精神。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 支持云端测试:订阅者现在可以直接在云端测试 OpenRouter 服务,无需本地安装;提供了一个包含 Loom 视频的小型演示。
    • 这种设置方便用户快速高效地探索各项功能。
  • 即将举行关于 OpenRouter 高级用法的网络研讨会:即将举行的直播研讨会定于 美国东部时间中午 12 点,重点讨论如何扩展到数千个并行 Agent 和代理 (proxies)
    • 通过查看相关 YouTube 频道的 Live 标签页了解更多详情。
  • 默认禁用 Middle-Out TransformOpenRouter 已正式默认禁用 Middle-Out Transform,这影响了许多用户的工作流。
    • 这一变化引起了关注,凸显了该功能对于各种前端和后端系统的重要性。
  • 关于 Anthropic 新模型发布的猜测升温:传闻暗示 Anthropic 即将发布新模型,有迹象表明将在 Google 活动期间宣布。
    • 该公告可能会伴随大量的免费 Token 优惠,引发了开发者之间的讨论。
  • 探讨私有 LLM 服务器:一名成员询问参与者是自己在运行私有 LLM 服务器,还是在使用第三方服务。
    • 该询问引发了关于这些服务器管理和运营的讨论。

Nous Research AI Discord

  • 音乐制作 AI 在音乐理论方面面临挑战:讨论显示,音乐制作领域的大模型在处理基础乐理任务(如和弦转调)时面临挑战,目前正尝试使用 feline AI 生成 MIDI 文件。
    • 参与者一致认为,由于训练样本有限,乐谱 (music notation) 仍是一个重大障碍。
  • Bittensor 引发伦理担忧:成员们对 Bittensor 似乎在未妥善致谢的情况下复制 Nous Research 的分布式训练算法表示担忧,对 AI 领域的伦理实践提出质疑。
    • 对话表明,分布式训练的创新必须优先于单纯增加参数量。
  • 新型医疗 LLM 亮相:推出了多款新模型,包括 HuatuoGPT-IIApollo,旨在增强医疗 AI 能力,特别是在基因-表型映射和多语言应用方面。
    • HuatuoGPT-Vision 也展示了其多模态处理实力,提升了医疗数据处理的可访问性。
  • LLM 变革临床试验:LLM 正被用于改进临床试验,特别是 AlpaPICO,它可以生成 PICO 框架,简化了临床报告流程。
    • 这些进步旨在提高医疗文档的质量并改善临床环境中的工作流。
  • 探索用于推理的 RL 环境:目前正在讨论创建专门为推理任务定制的 RL 环境,强调需要类似于开源微调的多样化设置。
    • 成员指出,成功的训练在很大程度上取决于高质量数据集和环境的选择。

Cohere Discord

  • AI 在心理健康支持中的作用:成员们讨论了心理健康问题患者可能因为病耻感而更倾向于与聊天机器人交流,这使得在医疗保健中合规使用 AI 变得至关重要。
    • 虽然 AI 可以辅助心理健康诊断,但必须遵守 data privacy regulations(数据隐私法规),且不能取代专业护理。
  • 解决 AI 系统中的偏见:小组强调了教授动机性推理和确认偏误的重要性,以提高使用 AI 时的批判性思维。
    • 他们一致认为 AI 的建议应基于具有严格伦理标准的 scientific advice(科学建议)。
  • Cohere 的研究重点非常多样:Cohere 致力于包括语言模型、效率、安全和 AI 政策在内的各种课题,相关资源可在其 research papers page 找到。
    • 鼓励成员探索这些主题,作为其持续职业发展的一部分。
  • Embedding 调用参数更新:一位用户在进行 embedding 调用时遇到了错误,提示 ‘embedding_types parameter is required‘,这表明最近的要求发生了变化。
    • 这引发了 Cohere team 的澄清,因为之前的文档说明该参数是可选的。
  • AI-Telegram-Chatbot 项目发布:一位成员分享了他们的 AI-Telegram-Chatbot GitHub 仓库,展示了 Cohere AI 的实际应用。
    • 该机器人旨在通过 AI-driven responses(AI 驱动的响应)增强用户交互,反映了人们对 Cohere 技术实际应用的广泛兴趣。

Modular (Mojo 🔥) Discord

  • Mojo 反馈最后召集:参加一个 30 分钟的简短电话会议,分享你对 Magic 的看法;参与者将获得专属周边(swag)。你可以在这里预约。
    • 参与至关重要,这有助于改进 Magic 并从社区收集更广泛的经验。
  • Mojo 的 Python 集成难题:成员们讨论了将 Python libraries 集成到 Mojo 中的可行性,并对可能影响性能的 GIL 冲突表示担忧。他们思考为 Python 类创建直接的 Mojo 文件是否能简化使用。
    • 社区保持谨慎态度,强调虽然集成是有益的,但可能会影响 Mojo 的效率和目标。
  • MAX 自定义算子(Custom Ops)需要明确说明:关于 MAX custom ops 状态的查询引发了对 modular documentation 中记录的更改的关注。成员们正在寻求有关最近更改或函数移除的更新。
    • 社区成员渴望获得更清晰的文档,表达了对正确使用 MAX 操作指南的迫切需求。
  • Mojo 中的位打包(Bit Packing)和结构体(Structs):讨论围绕 Mojo 中缺乏原生 bit packing 展开,成员们考虑使用手动打包和变长类型等替代方案来优化结构体大小。讨论中还出现了关于结构体对齐对性能影响的担忧。
    • 提到了利用 LLVM 增强功能来管理不同位宽的可能性,这为解决这些效率问题提供了一条路径。
  • Mojo 向通用编程语言演进:用户对 Mojo 成为成熟的 general-purpose language 表示乐观,认为其能力超出了单纯的 AI 应用。与 MAX 等平台的集成被视为实现更广泛可用性的关键。
    • 这种情绪表明大家共同渴望看到 Mojo 在保持高性能和竞争力的同时不断进化。

LM Studio Discord

  • LM Studio 模型遇到加载障碍:用户在更新 LM Studio 后(尤其是 CUDA Llama.cpp v1.1.9 更新后)面临模型加载挑战,触发了包括清除缓存在内的各种修复尝试。
    • 许多用户选择回滚版本,分享了在持续的挫败感中恢复功能的解决方案。
  • 不支持图像生成模型:讨论显示 LM Studio 不支持像 Flux 这样的图像生成模型,会导致“unknown model architecture”错误。
    • 用户澄清这些模型是为其他平台设计的,明确了 LM Studio 的使用边界。
  • DDR6 发布时间线不确定:关于 DDR6 可用性的担忧浮现,用户推测广泛采用可能要到明年年底。
    • 持续的讨论反映了在消费级硬件能够充分利用该技术之前,仍处于等待明确规范的阶段。
  • RTX 4090 性能表现参差不齐RTX 4090 的性能指标出现差异,测试结果从低于 20t/s 到有争议的 60t/s 不等。
    • 不一致性表明在不同模型配置下的设置和测量存在挑战,引发了对性能一致性的质疑。
  • ROCm 支持流程简化:对 ROCm 支持感兴趣的用户了解到,最新版本的 LM Studio 通过自动检测 ROCm 安装简化了流程。
    • 预计此更新将为依赖 AMD GPU 设置的用户提供更便捷的安装。

Stability.ai (Stable Diffusion) Discord

  • 探索 Stable Diffusion 功能:用户讨论了 Stable Diffusion 的各个方面,包括 Dalle3 功能 以及 Flux 在 VRAM 利用率方面的限制。
    • 对话强调了特定工具,如旨在增强 prompt 的 boorutag 自动补全。
  • FLUX 模型利用面临 VRAM 挑战:成员分享了使用 FLUX 模型 的经验,详细说明了使用 LoRAs 和在图像生成过程中管理 VRAM 的挑战。
    • 建议采用将 text encoders 保留在 DRAM 上等技术来优化模型性能。
  • 为角色一致性训练 LoRAs:讨论集中在对精确 prompt 的需求以及训练 LoRAs 以在漫画等项目中保持一致的角色生成。
    • 参与者提到使用 IP adapters 来提高图像创建过程中的角色连贯性。
  • 用于图像补全的 Inpainting 技术:用户寻求关于 inpainting 技术 的建议,以便在保持风格和连贯性的同时有效填充图像缺失部分。
    • 推荐使用 FooocusRuinedFooocus UI 等工具来增强 inpainting 过程。
  • AI Art 生成的一致性:对话围绕通过使用相同的 prompt 和设置来确保 AI art 的一致性展开。
    • 强调了保持一致的 seeds 和设置,以及有助于在生成的图像中保持风格的工具。

OpenAI Discord

  • o1-mini 在创意写作方面表现不佳o1-mini 在诗歌创作中受困于陈词滥调和可预测的结构,与 Claude Opus 3 相比,其创意深度稍逊一筹。用户一致认为,提高 Prompt 的特异性可能会改善结果。
    • 改进 Prompting 可能会释放更好的创造力,但目前的性能限制仍然是一个挫折。
  • 分享高效的 Embedding 存储实践:一位成员讨论了针对 12-13k 文本集合的 Embedding 高效存储方案,重点介绍了 S3 和 OpenAI 的 Vector Store 作为主要选项。目标是实现有效的聚类和检索。
    • 这次对话反映了人们对优化 AI 数据管理方法的持续关注。
  • AI 工具应对 PDF 分析:一位用户寻求能够分析 PDF 的工具,包括为 AI 知识库将图像转换为文本,许多 RAG 解决方案被指出支持 PDF 集成。然而,在准确转换图像方面仍存在差距。
    • 社区认识到推进多模态模型以更有效地处理此类任务的必要性。
  • 考察 AI 聊天机器人模型性能:参与成员对比了 AI 聊天模型,强调了 o1-mini 在创意写作任务中不如 Claude Opus 3。讨论突出了 Prompting 在最大化模型输出方面的关键作用。
    • 人们对即将推出的、有望在创意领域提升性能的模型表现出浓厚兴趣。
  • 关于企业级 gpt-o1-preview 配额的见解:讨论显示,有人推测企业账户的 gpt-o1-preview 配额可能与 Tier 5 限制一致,正如 Rate Limits 指南中所引用的那样。
    • 成员们正在寻找更清晰的文档来解锁这些企业功能

Latent Space Discord

  • OpenAI 设备开发确认:Jony Ive 确认正在开发一款 OpenAI AI 设备,Sam Altman 已与 Apple 达成分销协议,可能重塑智能手机市场。
    • 社区对与这款即将推出的设备相关的传闻订阅模式反应不一。
  • AI SDK 3.4 增强工具执行AI SDK 3.4 的发布引入了自动多步工具执行,促进了各种编程语言的后端开发。
    • 利用该 SDK 的值得注意的应用包括用于 SQL 翻译的 postgres.new 和多功能 Web 开发 Agent v0
  • Elicit.org 在研究领域赢得赞誉Elicit.org 因其在简化学术文献综述方面的能力而受到成员称赞,使研究过程更加高效。
    • 用户强调了社区推荐在发现相关 AI 工具和发展方面的重要性。
  • Gorilla Leaderboard V3 挑战 LLMBFCL V3 的推出旨在评估 LLM 如何处理多轮工作流和 Function Calling,这对于复杂的 AI 任务至关重要。
    • 该排行榜解决了对现实世界 AI 应用至关重要的性能指标。
  • Anthropic 准备进行巨额融资:Anthropic 正在进行讨论,估值可能在 300 亿至 400 亿美元之间,可能使其之前的估值翻倍。
    • 这一融资举动发生在竞争激烈的 AI 市场中,反映了投资者巨大的信心。

Interconnects (Nathan Lambert) Discord

  • O1 模型的推理飞跃:最近的讨论揭示了 O1 改进后的推理能力在挑战性基准测试中从 0% 跃升至 52.8%,暗示了可能使用了合成数据训练。
    • 这表明了重大进展,可能与在复杂任务中利用有效的训练方法论有关。
  • Anthropic 寻求估值提升:有消息称 Anthropic 正在寻求融资,这可能将其估值推高至 300 亿至 400 亿美元,可能是其先前价值的两倍。
    • 这反映了在激烈竞争中,投资者对 AI 初创生态系统的热情不断高涨。
  • Shampoo 训练了 Gemini,引发关于信息把关的讨论:经确认,Shampoo 被用于训练 Gemini,这引发了社区内关于信息把关(gatekeeping)的讨论。
    • 尽管论文已经公开,但许多人对 Shampoo 在此背景下的作用所带来的影响表示惊讶。
  • GameGen 扩散模型突然退出:讨论集中在 GameGen 扩散模型在 GitHub 上的迅速崛起和意外消失,引起了用户的困惑。
    • 这一事件呼应了人们对 AI 游戏开发领域中“卷款跑路”(rug pulls)的担忧。
  • Twitter 安全问题升级:正如社区警报中所报道的,最近许多 Twitter 账号被黑,导致影响知名用户的 Meme 币诈骗。
    • 有人质疑安全问题是源于 SIM swapping 还是固有漏洞,特别是当开启了 2FA 安全验证的账号仍然遭到入侵时。

LlamaIndex Discord

  • 使用 NVIDIA NIM 构建 RAG 应用:一篇关于 NVIDIA NIM 的优秀教程指导用户创建一个全栈 RAG 应用,连接了 Llama 3ArXiv 数据集、作为向量数据库的 Milvus 以及用于应用界面的 Gradio
    • 该项目展示了实现强大 RAG 功能所需的关键组件的有效集成。
  • Nudge 微调改进 EmbeddingNUDGE 提供了一种非参数化的 Embedding 微调方法,将过程从数小时缩短至数分钟
    • 这一创新突显了模型 finetuning 操作效率的显著提升。
  • 多模态 RAG 应对产品手册:讨论集中在构建多模态 RAG 系统,以简化对复杂产品手册(如宜家家具组装手册)的理解。
    • 该方法表明需要复杂的设置来高效地索引、搜索和检索数据,从而提升用户体验。
  • Cleanlab 的 TLM 增强信任:一篇文章讨论了 Cleanlab 的 TLM 如何改进 LlamaIndex 中的 RAG 系统,重点是提高 AI 在法律等关键应用中输出的可靠性。
    • 它强调了能够产生准确响应的可靠 AI 系统的重要性,以对抗普遍存在的不完整和过度自信的输出问题。
  • 使用 LitServe 进行本地模型服务:来自 LightningAILitServe 提供了一个使用 FastAPI 提供服务并扩展 LLM 模型的框架,如 LlamaIndex 的演示所示。
    • 该框架允许用户构建高效的 RAG 服务器并进行本地托管,从而改进操作工作流。

DSPy Discord

  • DSPy 2.5.0 低调发布期待已久的 DSPy 2.5.0 已经发布,简化了迁移过程并弃用了所有 2.4 版本之前的 LM 客户端,鼓励用户通过 dspy.LM(model_name, **kwargs) 转换到受支持的提供商。
    • 随着用户适应新版本,官方正积极征求反馈,并提供文档和支持以协助过渡。
  • Chat Adapter 改进解决了重复响应问题:成员们讨论了对自定义 Chat Adapter 的需求,因为较小的 LLM 模型(<7B)在 ‘chat complete’ 模式下会产生重复响应,该解决方案目前正在测试中。
    • 这一增强功能旨在提升用户体验,早期采用者的反馈对于微调新架构至关重要。
  • 合成数据生成速度飙升:一份报告强调了在微调较小模型后,合成数据生成速度取得了显著提升,从每秒 30 个 token 增加到 2500 个 token
    • 这一进步使 DSPy 成为高效生成大规模合成训练数据的有力工具。
  • TrueLaw 凭借 DSPy 见解引起关注:在最近的一期 MLOps Podcast #260 中,TrueLaw Inc. 的 CTO Shiva Bhattacharjee 讨论了如何利用 DSPy 解决特定领域的专业问题。
    • 对话强调了领域特定模型 (domain-specific models) 对提升性能的重要性,特别是在法律行业。
  • 文本分类的挑战与咨询:一位成员提出了关于为复杂的文本分类任务扩展 docstrings 的可能性,寻求提高 LLM 理解能力的方法。
    • 还有人询问在 Groq 上可用的 Chain of Thought (COT) 方法,表明了对扩展测试能力的浓厚兴趣。

Torchtune Discord

  • CUDA Hackathon 的好奇探索者:一位成员询问是否有人参加即将举行的 CUDA Mode IRL hackathon,引发了从活动中获取见解的兴趣。
    • 这是一个讨论 GPU 编程和优化策略最新进展的好机会。
  • 优化 CPU Offloading 以提升性能:针对优化器中缺失 CPU offloading 的问题(特别是在 full_finetune_single_device.py 中)引发了关注,这暗示了由于遗留问题可能导致的性能下降。
    • 成员们建议默认采用 PagedAdam 以提高内存效率,并强调了向更优化方法持续过渡的重要性。
  • KV Caching 面临挑战:讨论集中在 40GB 显存的机器上使用 KV caching 且 Batch Size 为 8 时,qwen2.5 1.5B 模型 出现的 OOM 问题
    • 成员们建议通过检查 KV cache 的形状来排查故障,以确定其是否已正确初始化为最大长度,旨在缓解此类问题。
  • 模型评估中的 Batch Size 困惑:关于增加 Batch Size 对模型评估影响的辩论浮出水面,特别是在多任务场景下。
    • 参与者倾向于分析与 Cache 初始化相关的权衡,以及 CPU 和 GPU 之间权重和梯度 (weights and gradients) 的交互。
  • 评估 Recipe Bug 修复历程:重点讨论强调了一个解决组任务评估 Recipe 中 Bug 的 PR,如 PR #1642 所示,这表明在实施更改时需要及时发布补丁。
    • 大家一致同意在等待 评估 Recipe 最新更新的同时,应迅速处理已识别的修复补丁。

LAION Discord

  • CLIP Retrieval 替代方案匮乏:成员们讨论了 CLIP Retrieval 替代方案的稀缺性,并指出 rom1504 可能不会再对其进行维护。
    • 一位用户表示,他们的研究项目需要一个兼容 LAION 400M 的后端解决方案。
  • 寻求 AI 实习机会:一位用户请求关于在哪里寻找 AI 实习机会的建议,强调了社区指导的重要性。
    • 这一询问反映了人们对在 AI 领域推进职业发展的兴趣日益增长。
  • 模型训练数据集分享:一个用于训练 Llama-3.1 的数据集被上传到了 Hugging Face,并征求关于其编程有效性的反馈。
    • 分享的数据集包含详细的应用描述,引发了关于最佳实践的讨论。
  • 总结器 AI 需要反馈:一位用户分享了他们新开发的 总结器 AI,并寻求社区测试和反馈。
    • 对其潜力的认可伴随着关于消息长度自定义的建议,以提高可用性。
  • 播放列表生成器项目介绍:一位用户展示了 Adify,这是一个根据用户提示词创建 Spotify 播放列表的生成器。
    • 该项目获得了积极的反响,表明人们对创新音乐生成工具的浓厚兴趣。

tinygrad (George Hotz) Discord

  • VGA 重新夺回 GPU 连接荣光:一位用户确认他们的 GPU 仅通过 VGA 连接,克服了与显示密码错误相关的问题。
    • 这种变通方法使他们能够使用较旧的 VGA 连接成功为设备供电。
  • ShapeTracker 合并性悬赏咨询:有关于在 LeanShapeTracker 合并性的悬赏状态查询,并表达了将其作为本科论文课题的兴趣。
    • 尚未解决的状态激起了渴望探索这一复杂课题的学生们的好奇心。
  • Answer AI 讨论成本效益:讨论围绕 Answer AI 盒子的成本效益展开,其价格可能优于当前解决方案,包括潜在的批量折扣。
    • 参与者希望展示这种经济型配置的基准测试,旨在证明其财务可行性。
  • Tinygrad 的云集成概念蓬勃发展:用于集成到 tinygrad 的 CLOUD=1 选项引起了关注,旨在简化功能而不依赖 AWS 风格的虚拟化。
    • 成员们讨论了该设备选项如何在保持性能的同时增强可用性。
  • Metal 教程提供见解:分享了一个关于 Metal 教程的 GitHub 链接,扩展了关于 tinygrad 集成的知识。
    • 该教程为热衷于提高 tinygrad 中 Metal 相关技能的贡献者提供了资源。

LangChain AI Discord

  • Agent 在本地 AI 集成中面临问题:用户报告称,在六个月的间隔后,Agent 无法与本地 AI 配合使用,并建议将 Ollama 作为更好的替代方案。
    • 这展示了在动态开发环境中对兼容本地 AI 解决方案的持续探索。
  • 关于最佳向量库选项的辩论:关于 HuggingOpenAIOllama 哪个是其项目的最佳向量库(Vector Store)展开了激烈讨论。
    • 选择正确的向量库可能会对性能可扩展性产生关键影响。
  • 聊天机器人项目中的 PDF 处理优化:一位用户寻求在向量数据库中高效拆分和存储 PDF 内容的方法,以避免冗余的中间步骤。
    • 这一改进将简化工作流程,提高整体处理性能。
  • 文本生成推理参数的挑战:针对即使将 return_full_text 设置为 false,输出中仍意外出现 **< end >** token 的问题提出了询问。
    • 这表明需要提高推理参数的清晰度,以便用户更好地控制。
  • 作品集聊天机器人帮助用户咨询:一位用户为其作品集推出了聊天机器人助手,方便回答客户关于其服务的咨询。
    • 他们欢迎社区反馈以进一步完善该工具,体现了开发中的协作精神。

OpenInterpreter Discord

  • 针对床头柜的 Open Interpreter 模块:一位成员提出了为 Kequel 模块化可定制床头柜 创建 Open Interpreter 模块的想法,并询问是否有合作意向。
    • 该倡议旨在增强智能家居技术的集成,邀请其他开发者贡献想法和进行开发。
  • Open Interpreter 的用户界面挑战:在使用命令行输入时,屏幕可见性引起了关注,促使人们提出增强视觉清晰度的解决方案。
    • 成员们讨论了在 Open Interpreter 处理外部输入时改善用户体验的潜在权变措施。
  • LiveKit 在 Android 上拦截明文连接:一位用户注意到较新的 Android 手机会阻止 01 移动应用通过 HTTP 连接到本地 LiveKit 服务器,提示“不允许明文通信 (CLEARTEXT communication not permitted)”。
    • 他们建议使用 ngrok 获取 HTTPS 端点,这可以有效解决暴露服务器用户的连接问题。
  • GitHub 关于明文通信的解决方案:一个 GitHub issue 详细说明了一项提议,即严格针对本地网络启用明文通信,并确保就安全问题向用户发出通知。
    • 这解决了连接挑战,同时平衡了开发者与本地设备交互时的网络安全。
  • 调查后端请求循环:一位成员质疑 Open Interpreter 发送的频繁后端请求,怀疑存在无限循环的情况。
    • 寻求关于后端响应预期的澄清,以帮助确定准确的请求结论。

OpenAccess AI Collective (axolotl) Discord

  • Qwen 2.5 获得比 Llama 3.1 更多的赞誉:一位成员指出 Qwen 2.5 获得了强烈的正面反馈,如 Reddit 对比 所强调的,其在基准测试中略微优于 Llama 3.1
    • 这提高了社区对最新模型对比中经过验证的性能指标重要性的认识。
  • Axolotl 中的长上下文挑战:关于 Axolotl 在 ShareGPT 中处理长于 max_seq_len 的对话能力的讨论,反映了社区对上下文管理的兴趣。
    • 随着成员们深入研究模型训练协议,这些训练复杂性的清晰度仍然是一个热门话题。
  • Llama 3.1 的 Rope Scaling 争论:一位成员质疑在约 120K tokens 的长上下文 CoT 轨迹上训练 Llama 3.1 8B 时,是否必须使用 rope_scaling,因为在 sequence_len 超过 40K 时遇到了内存问题。
    • 尽管使用了带有 deepspeed zero3 的多 GPU 环境,但处理长上下文的复杂性继续引发工程师之间的讨论。
  • 微调峰值查询:用户报告在 100K 行数据集上进行微调时出现了意外的峰值,促使人们寻找与特定数据点的相关性。
    • 启用更广泛日志记录的努力被证明是不够的,使得微调机制仍处于审查之中。

Alignment Lab AI Discord

  • Sentx.ai 进军意识开发领域:Sentx.ai 正在开拓意识开发工作,目前仍处于早期阶段。他们正在积极征求普遍意见,特别是关于其 Alignment 方法的意见。
    • 鼓励成员评估意识开发对未来 AI Alignment 的务实影响。
  • 提出 AI Alignment 的自我调整方案:Sentx.ai 介绍了一种让模型自我调整其与人类价值观对齐 (Alignment) 的策略,避免硬性限制。这种方法旨在围绕有效的 Alignment 实践培养持续对话
    • 社区成员正在讨论自我调整模型在现实场景中的影响及其潜在益处。
  • 征集 Alignment 项目合作:公开邀请分享关于类似项目的信息,以促进 Alignment 开发方面的合作。鼓励成员交流见解并进行私下联系。
    • 这种协作精神旨在增强对更有效的 AI Alignment 策略的集体贡献。

Mozilla AI Discord

  • SQLite 全文搜索增强:一场新的见面会将探讨如何将 SQLite 内置的全文搜索引擎sqlite-vec 结合,以提高效率。
    • 本次会议承诺提供更完整和准确的搜索结果,迎合寻求高效搜索能力的开发者。
  • Mozilla 启动 AI Builders Accelerator:Mozilla 首届 AI Builders Accelerator 班次已宣布并将很快启动。
    • 计划详情可以在这里找到,旨在支持前沿的 AI 项目。
  • SoraSNS:一个新的 Fediverse 客户端:一位前 Apple 工程师发布了 SoraSNS,这是一个集成 local AI 以学习用户兴趣的 Fediverse 客户端。
    • 该客户端旨在通过提供自适应的 ‘For You’ 时间线来增强用户体验。
  • 开源 AI 应对挑战:Mark Surman 在 The New Stack 中强调,讨论定义开源 AI 的潜力,以应对该领域的各种挑战。

Gorilla LLM (Berkeley Function Calling) Discord

  • BFCL V3 重塑 LLM 评估Berkeley Function-Calling Leaderboard (BFCL) V3 引入了一种全新的评估方法,用于评估多轮 (multi-turn) 函数调用,增强了 Agent 系统能力。
    • 此版本允许模型管理复杂的交互,这对于 LLM 执行复杂任务至关重要。
  • 状态管理是必须的:LLM 中的状态管理 (State Management) 至关重要,它使系统能够验证任务结果,例如检查股票购买是否成功。
    • 这突显了在任务执行后,通过 API 进行内部状态查询的关键性。
  • 告别短上下文模型:随着 BFCL V3 的发布,不鼓励依赖短上下文模型,因为任务需要更广泛的上下文才能有效执行。
    • 这对于复杂任务尤为关键,例如对数百个文件进行排序。
  • 排行榜设定新标准:在社区见解的推动下,BFCL V3 为评估 LLM 功能(特别是函数调用)建立了金标准
    • 这反映了与企业开源贡献者持续合作以完善评估实践。
  • 深入探讨 BFCL V3 性能:一篇新的博客文章详细介绍了 BFCL V3 评估方法,讨论了如何在实际应用中评估模型的成本延迟

LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该社区长期沉寂,请告知我们,我们将将其移除。


MLOps @Chipro Discord 没有新消息。如果该社区长期沉寂,请告知我们,我们将将其移除。


DiscoResearch Discord 没有新消息。如果该社区长期沉寂,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该社区长期沉寂,请告知我们,我们将将其移除。


第 2 部分:详细的频道摘要和链接

完整的各频道详细分析已针对电子邮件进行了截断。

如果您想查看完整的详细分析,请访问此电子邮件的网页版本:

如果您喜欢 AInews,请分享给朋友!提前感谢!