ainews-nothing-much-happened-today

今天没发生什么特别的事。

以下是为您翻译的中文内容:

HuggingFace 发布了基于浏览器的、带有时间戳功能的 Whisper 版本,该版本使用了 transformers.js。由 truth_terminal 开发的一个 Twitter 机器人成为了首个获得风险投资(VC)的“半自主”机器人。在监管审查的压力下,微软苹果突然退出了 OpenAI 董事会。Meta 正在完成对 Reddit 评论功能的重大升级,旨在解决幻觉问题。Yi 模型在 GitHub 上走红,获得了 7.4K 个星标和 454 次分叉,并有可能与 Axolotl 集成以进行预生成和预处理。AMD 的技术使家用及小型企业 AI 设备成为可能。Meta 在 HuggingFace 上发布了 Chameleon-7bChameleon-30b 模型,支持统一的文本和图像分词(tokenization)。SalesforcexLAM-1b 模型虽然参数规模较小,但在函数调用(function calling)方面的表现优于 GPT-3.5Anole 开创了开源多模态文本-图像-视频生成的先河,最高支持 720p 144fps。Phi-3 Mini 的参数从 38 亿扩展到了 47 亿,并增加了函数调用功能,与 Mistral-7b v3 展开竞争。人类中的“系统 2 蒸馏”(System 2 distillation)与自动化和程序性记忆有关。

#function-calling #multimodality #model-releases #model-updates #model-integration #automaticity #procedural-memory #text-image-video-generation chameleon-7b chameleon-30b xlam-1b gpt-3.5 phi-3-mini mistral-7b-v3 huggingface truth_terminal microsoft apple openai meta-ai-fair yi axolotl amd salesforce

ZZzzzzz.

2024年7月9日至7月10日的 AI 新闻。 我们为您检查了 7 个 subreddits、384 个 Twitter 账号 和 29 个 Discord 服务(463 个频道,2339 条消息)。 预计节省阅读时间(按每分钟 200 字计算):250 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

昨天非常忙碌,今天则不然。这里有一些零星的小消息,娱乐性大于一切:

Meta:继昨天的幻觉讨论之后,我们正处于 Reddit 评论重大升级的最后阶段。


目录频道摘要已移至此邮件的网页版:


AI Twitter 综述

所有综述均由 Claude 3.5 Sonnet 完成,从 4 次运行中选取最佳结果。

Yi AI 模型更新与集成

  • Yi 模型在 GitHub 上广受欢迎@01AI_Yi 分享了 Yi 模型目前在 GitHub 上已获得 7.4K stars 和 454 forks,许多基于其 LLMs 的出色项目正在涌现。他们鼓励大家探索 Yi 模型并分享作品。
  • 与 Axolotl 的潜在集成@cognitivecompai 建议 Yi 应该集成 Axolotl 的 pregeneration 功能。在另一条推文中,@cognitivecompai 提到集成 Axolotl 的预处理 (preprocessing) 功能 也会非常酷。

Cognitive Computing AI 的推文与讨论

  • 家庭/小型企业 AI 硬件设备概念@cognitivecompai 指出,AMD 技术 使 家庭/小型企业 AI 硬件设备 的概念成为可能。
  • 推文中被涂抹的内容@cognitivecompai 询问 @victormustar 关于某条推文中被涂抹掉的内容。

AI 与人类认知

  • 人类的 System 2 蒸馏@jaseweston 解释说,在人类中,“System 2 蒸馏”方法被称为自动化 (automaticity)程序性记忆 (procedural memory),或者非正式地称为使其成为“第二本能 (second nature)”。

杂项

  • 噬菌体 x 宿主 ML 预测综述@elicitorg 转发了 @yawnxyz 的推文,后者提到可能会与 @elicitorg 合作,利用 AI 和电子表格对所有噬菌体 x 宿主 ML 预测工作进行综述。

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!

AI 模型发布与进展

AI 应用与用例

AI 伦理与治理


AI Discord 回顾

摘要之摘要的摘要

Claude 3 Sonnet

1. 新语言模型发布

  • Ghost 8B Beta 凭借多语言能力首次亮相Ghost 8B Beta 大语言模型承诺提供强大的 multilingual(多语言)能力和成本效益,提供 8k128k 版本,并附带详细说明其架构和技术的完整 文档
    • 尽管该模型的首次亮相引发了广泛关注,但一些人对其与更专业模型相比的 knowledge capabilities(知识能力)表示担忧。
  • Anole:首个开源自回归 LMMAnole 作为首个开源、自回归原生的 Large Multimodal Model (LMM) 推出,它基于 @AIatMeta 的 Chameleon 构建,并承诺具备多模态生成能力。
    • 然而,为了重新引入从 Chameleon 中移除的图像能力而对 Anole 进行 fine-tune 的努力遭到了 反对,人们担心这会破坏明确的设计选择。

2. AI 模型基准测试与评估

  • 定理证明取得飞速进展HarmonicMath 宣布在具有挑战性的 MiniF2F benchmark 上实现了惊人的 90% state-of-the-art 成绩,相比其一个月前在 更新 中分享的 83% 结果有了显著飞跃。
    • AI 社区赞扬了定理证明领域的极速进展,考虑到该基准测试的较简单版本在今年早些时候仅为 50%
  • 审视 VLM 在基础任务上的表现:一篇新论文指出,尽管在传统基准测试中得分很高,但像 GPT-4oGemini 1.5 Pro 这样的 state-of-the-art Vision Language Models (VLMs) 在识别重叠形状和物体计数等基础视觉任务上表现挣扎。
    • 这项研究 中详述的发现引发了对 VLMs 现实世界适用性 的担忧,并对现有评估指标的有效性提出了质疑。

3. 合成数据生成与反馈循环

  • 利用强化合成数据防止模型崩溃这篇论文 详述的新研究探索了利用对合成数据的反馈来防止大语言模型中的 model collapse(模型崩溃)。
    • 研究说明了盲目使用合成数据如何导致性能下降,并提倡使用反馈增强的合成数据,以在矩阵特征值计算和新闻摘要等实际任务中保持高性能。
  • 指数积分器加速 Diffusion 采样:一位成员就论文 FAST SAMPLING OF DIFFUSION MODELS WITH EXPONENTIAL INTEGRATOR“marginal distributions as p̂∗_t” 一词寻求澄清,该论文提出了一种加速 diffusion models 极其缓慢的采样过程的方法。
    • 该论文的方法承诺在保持 diffusion models 在各种生成建模任务中生成高保真样本能力的同时,提高其采样效率。

Claude 3.5 Sonnet

1. Anole: 首个开源自回归 LMM

  • Anole 的到来:多模态的奇迹Anole 是首个开源的自回归大型多模态模型 (LMM),由 @AIatMeta 推出,基于 Chameleon 架构构建。
    • 这一发布引发了关于开源多模态模型潜力的讨论,一些人对重新引入之前从 Chameleon 中移除的图像功能表示担忧,正如一篇批评性推文中所指出的。
  • 技术磨难:GPU 之争:尝试在多个 GPU 上运行 Anole 的用户遇到了 CUDA 显存溢出 (out-of-memory) 错误,凸显了新模型的扩展挑战。
    • 一个 GitHub issue 已开启,讨论支持在多 GPU 上运行 Anole 的潜在修改方案,这表明社区正在努力提高该模型的可访问性和性能。

2. xAI 雄心勃勃的 H100 集群扩张

  • 马斯克的百亿亿级尝试:Elon Musk 宣布 xAI 已从 Oracle 签约租赁了 24,000 块 H100 GPU,并正在建设一个拥有 100,000 块 H100 的庞大系统用于 AI 训练。
    • Musk 强调了对 AI 基础设施进行内部控制的必要性,以保持竞争速度和效率,使 xAI 的集群有潜力成为全球最强大的集群。
  • Grok 的成长:从训练到发布:xAI 的 Grok 2 模型目前正在新购入的 H100 集群上进行训练,Musk 表示该模型正在进行微调 (finetuning) 和 Bug 修复。
    • Grok 2 预计将于下个月发布,展示了 xAI 不断扩大的计算资源所带来的快速开发周期。

3. AMD 对 Silo AI 的战略性 AI 收购

  • 芯片制造商的 AI 棋局AMD 宣布6.65 亿美元收购芬兰 AI 初创公司 Silo AI,旨在扩大其 AI 服务并更有效地与 Nvidia 竞争。
    • 这笔全现金交易标志着自 2014 年 Google 以约 4 亿英镑收购 DeepMind 以来,欧洲对私有 AI 初创公司规模最大的收购之一,信号表明 AMD 对 AI 发展的严肃承诺。
  • Silo 的软件协同效应:Silo AI 的 300 人团队将利用 AMD 的软件工具,为聊天机器人和其他 AI 应用构建定制的大型语言模型 (LLMs)。
    • AMD 的 Vamsi Boppana 强调,此次收购将加速客户参与并增强 AMD 自身的 AI 技术栈,可能重塑 AI 硬件和软件集成的竞争格局。

4. GitHub Copilot 版权诉讼更新

  • AI 代码生成的法律宽容:加州地方法院部分驳回了针对 Microsoft 的 GitHub Copilot 和 OpenAI 的 Codex 的版权诉讼,这可能为在受版权保护数据上训练的 AI 工具设定先例。
    • 法院的裁决表明,只要 AI 系统不进行精确复制,就可能免于追责,这对于 AI 编程助手的开发和部署具有深远影响。
  • Copilot 持续的争议:虽然诉讼的大部分内容被驳回,但关于 AI 工具在没有适当许可的情况下建议代码片段的担忧,仍是开发者社区讨论的话题。
    • 这一裁决可能会影响未来关于 AI 辅助编程时代知识产权的案例和讨论,在创新与版权保护之间寻求平衡。

Claude 3 Opus

1. Ghost 8B Beta 发布

  • 多语言精通Ghost 8B Beta 首次亮相,推出了具有强大多语言功能的 8k128k 上下文长度版本。在 Hugging Face 上体验
    • Ghost 8B Beta 官方文档为那些寻求深入了解的人提供了关于该模型架构技术评估等方面的详细信息。
  • 高性价比对话Ghost 8B Beta 的一个关键目标是提供比其他替代方案更具成本效益的 LLM 性能。
    • 通过专注于多语言支持知识能力,同时保持较低成本,Ghost 8B Beta 旨在让更多人能够使用强大的对话式 AI。

2. Llama 3 训练讨论

  • 瑞典语 Llama 引发辩论:围绕在 Unsloth AI 中使用瑞典语 Llama 3 模型的讨论展开,该模型是在 LUMI 超级计算机上使用 42 Labs 的数据训练而成的。
    • 一些人建议使用基座模型进行训练,并使用指令模型处理翻译等任务,而另一些人则指出 Llama 3 在 Google Colab 等平台上存在推理速度问题
  • Llama 转向 LM Studio:为了克服 Llama 3 的推理速度挑战,推荐使用 LM Studio 作为 Google Colab 的替代方案,以获得更好的性能。
    • 用户还询问了如何在 Mac 设备上本地运行 Llama 3 推理,并建议在 LM Studio 上搜索符合系统规格的量化版本。

3. 模型保存故障

  • GGUF 格式转换失误引发困扰:由于 llama.cpp 库中缺少 llama-quantizequantize 文件,用户在尝试以 GGUF 格式保存模型时遇到了严重错误
    • 这些错误导致保存操作期间出现运行时故障,引发了关于 GGUF 转换过程的潜在变通方法和修复方案的讨论。
  • Embedding 训练尝试:出现了关于在冻结预训练 Embedding 的同时手动训练新 Token Embedding 的问题,以确保对特殊 Token 的准确预测。
    • 考虑对特定模块采用手动反向传播等方法,以避免从头开始重新训练所有 Embedding。

4. 模型对决:Gemini vs DeepSeek

  • 开发者选择他们的最佳工具:讨论对比了 DeepSeek ChatDeepSeek Coder 模型,一些人更青睐新的 DeepSeek Coder v2 来执行代码辅助任务。
    • 用户报告称,连续几周使用 DeepSeek Coder v2 lite 作为代码助手,结果令人满意。
  • Flash 还是 Pro?定价困惑Claude 3 HaikuGemini 1.5 Flash/Pro 模型之间的价格对比引发了混乱,某个 AI 错误地声称 Haiku 更便宜。
    • 当该 AI 将 HaikuGemini 1.5 Pro 而非同级别的 Flash 模型进行对比时,发生了进一步的混淆,这突显了更清晰的定价沟通的必要性。

5. CodeGeeX4 破解代码难题

  • CodeGeeX4 征服竞争对手:新的 CodeGeeX4 模型被认为在各种代码生成任务上优于 DeepSeek v2,目前已有版本在 Hugging Face 上可用
    • CodeQwen 的对比进一步巩固了 CodeGeeX4 在代码辅助领域的领先地位。
  • GLM4 助力 CodeGeeX4:随着 GLM4 合并至 llama.cpp 库,社区反响热烈。
    • 由于 CodeGeeX4 基于 GLM4,这一集成预计将在未来的更新中进一步增强该模型的代码生成性能。

GPT4T (gpt-4-turbo-2024-04-09)

1. 多语言 LLMs

  • Ghost 8B Beta 引起多语言关注Ghost 8B Beta 的首次亮相承诺提供强大的 multilingual(多语言)功能和成本效益,并提供 8k128k 上下文版本。可以在 Hugging Face 体验。
    • 若要深入了解 Ghost 8B Beta,查阅 官方文档 可获得关于模型架构和技术的深度知识。
  • Llama 3 模型训练引发辩论:关于使用 Unsloth AI 进行 Llama 3 模型训练的讨论转向了 Swedish(瑞典语)版本及其 DeepAI 部署,这主要由 42 Labs 数据 推动。
    • Google Colab 上的 Inference speed(推理速度)困扰导致用户转向 LM Studio,以在 Llama 3 模型上获得更佳性能。

2. 模型微调与优化

  • GPTs 拒绝额外训练?原因如下:一个令人困惑的问题出现了,即 GPTs agents 在初始训练后停止学习,这引发了关于 knowledge file uploads(知识文件上传)的澄清:此类上传仅起辅助作用,并不会更新 Agent 的基础知识。
    • 针对学习率的额外咨询促使大家在微调 Qwen2-1.5b 等 AI 模型时对 cosine scheduler 达成共识。
  • 困于 GGUF?错误频发令人沮丧:AI 工程师们在进行 GGUF 模型转换时面临困境,因为在保存操作期间由于缺少 llama-quantize 而出现了关键错误。
    • 在以 GGUF format 保存模型时遇到的问题,将讨论引导至通过降级到特定的 xformers 库版本来解决错误。

3. AI 硬件与基础设施

  • TPUs 在 Hugging Face 上起飞Google TPUs 现在增强了 Hugging Face 平台,使用户能够利用不同的内存选项和清晰的定价来构建和训练 Generative AI 模型。
    • Spaces 和 Inference Endpoints 在集成 TPU 后非常活跃,@_philschmid 在 Twitter 上标记了这一进展。
  • 马斯克的狂热扩张:xAI 节奏飞快,为其 AI 集群抢购了 2.4 万张 H100,详见 Elon Musk 的 推文
    • 这位 AI 领导者的热情显而易见,他计划建立一个拥有 10 万张 H100 的巨型设施,目标直指计算霸权的巅峰。

4. AI 法律与伦理问题

  • GitHub Copilot 诉讼更新:开发者对 GitHub Copilot 的指控大部分被驳回,仅剩两条指控依然存在
    • 最初的指控涉及 Copilot 涉嫌在没有适当许可的情况下推荐代码片段,引发了知识产权方面的担忧。
  • 不再侵权?法院对 Copilot 版权案的裁定:加州法院的一项关键裁决可能预示着 AI 发展将迎来更平稳的局面,针对 Microsoft 的 GitHub Copilot 和 OpenAI 的 Codex 的版权诉讼中大部分重要部分已被驳回。
    • 法院的决定可能是对在受版权保护数据上训练的 AI 工具的一个预兆,尽管在知识产权领域的全面影响仍在酝酿中。

5. AI 社区倡议

  • 黑客松热潮:AGI 的周末代码集会:AGI House 将于本周六 7/13 举办一场黑客松,合作伙伴包括 @togethercompute@SambaNovaAI 等,呼吁参与者在此处申请。
    • 最近推出的 Llama-Agents 在 GitHub 上已突破 1100 颗星,@MervinPraison 在 YouTube 上提供了详细的演示教程。
  • Perplexity 合作伙伴助力:Perplexity AI 宣布与 Amazon Web Services (AWS) 合作,为 AWS 客户提供 Perplexity Enterprise Pro,承诺简化其 AI 工具包。
    • 随着 Perplexity Enterprise Pro 通过 AWS Marketplace 扩大可用性,AWS 客户将从增强的 AI 支持中受益。

GPT4O (gpt-4o-2024-05-13)

$PLSDELETTHIS{openaiSummaryO}


PART 1: 高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

  • Ghost 8B Beta 引起多语言领域关注Ghost 8B Beta 的首次亮相承诺了强大的 multilingual(多语言)功能和成本效益,并提供 8k128k 版本。可以在 Hugging Face 上进行体验。
    • 欲深入了解 Ghost 8B Beta,查阅 官方文档 可获得关于模型架构和技术的深度知识。
  • Llama 3 模型训练引发辩论:关于在 Unsloth AI 中使用 Llama 3 模型的讨论转向了 Swedish(瑞典语)版本及其在 DeepAI 的部署,这主要由 42 Labs 数据 推动。
    • Google Colab 上的 Inference speed(推理速度)困扰导致用户转向使用 LM Studio,以提升 Llama 3 模型的性能。
  • 困于 GGUF?错误频发令人沮丧:由于在保存操作中缺少 llama-quantize,导致出现关键错误,AI 工程师们正苦于 GGUF 模型转换。
    • 在以 GGUF format 保存模型时遇到的问题,将讨论引向了通过降级到特定版本的 xformers 库来解决错误。
  • GPTs 拒绝额外训练?原因如下:出现了一个令人困惑的问题,即 GPTs agents 在初始训练后停止学习,这引发了关于 knowledge file uploads(知识文件上传)的澄清:此类上传虽有帮助,但不会更新 Agent 的基础知识。
    • 关于额外学习率的咨询促使大家在微调 Qwen2-1.5b 等 AI 模型时,对使用 cosine scheduler 达成共识。
  • Token 训练难题凸显:AI 社区面临着关于新 Token Embedding 的严峻挑战,如果没有全面的 pretraining(预训练)工作,效果可能会不尽如人意。
    • 尽管存在 Embedding 不足的风险,手动 backpropagation(反向传播)可能是一种权宜之计,用于优化新特殊 Token 的预测。

HuggingFace Discord

  • TPUs 在 Hugging Face 上线Google TPUs 现在支持 Hugging Face 平台,使用户能够构建和训练具有不同内存选项和明确定价的 Generative AI 模型。
    • Spaces 和 Inference Endpoints 正在集成 TPU,@_philschmid 在 Twitter 上也提到了这一点。
  • Transformers 攻克代码难题:Transformers 不再仅仅用于 NLP,社区成员们正在交流使用 Python 技巧和 Tokenizer 调整进行 debugging and coding(调试与编码)的心得。
    • GitHub 链接 和关于在本地运行 AI 的视频,让成员们交换了高效模型托管的实践经验。
  • 掌握 Knowledge Graphs:分享了一个教程直播,介绍了通过 Knowledge Graphs 增强自然语言查询的策略,并由 Langchain 和 Neo4j 提供支持。
    • 随着社区成员讨论该教程中处理电子游戏销售数据的方法,兴趣激增,详情见 此 YouTube 频道
  • AI 引导的叙事:一篇 Medium 文章引发了引人入胜的讨论,深入探讨了 Generative AI 改变故事讲述艺术的方式。
  • Qdurllm 亮相舞台:一款名为 Qdurllm 的新型 AI 驱动搜索引擎受到关注,其演示版结合了 Qdrant 和 Sentence Transformers 以增强搜索功能。
    • 去看看吧,并通过在其 GitHub 仓库贡献想法来参与讨论。

CUDA MODE Discord

  • Shared Memory 的新高度与黑客松热潮:计算能力(compute capability)为 8.9 的 GPU 每个 block 最多可管理 99 KB 的 Shared Memory,如 kernel 启动示例所示。
    • 黑客松爱好者正在为一场以 CUDA 为中心的活动做准备;关于团队组建和参会福利的讨论非常热烈,详见活动页面
  • AMD 收购 Silo AI 以争夺 AI 霸权AMD 以 6.65 亿美元收购 Silo AI 是一项战略举措,旨在增强其 AI 能力并与 Nvidia 展开竞争。
    • 这笔交易标志着欧洲 AI 初创生态系统的一个重大事件,可与 Google 收购 DeepMind 相提并论,并提高了未来交易的门槛。
  • 远程职位与框架热潮:一位在 Hugging Face DRL 排行榜上排名全球第 8 的开发者正在寻找新机会,并推介其创新的 PyEmber 框架
    • 为了寻求合作,该开发者分享了其个人简历,表示已准备好将其专业知识带到新的领域。
  • MacBook 上的 CUDA 能力及其他:希望在 MacBook 上使用 CUDA 的开发者转向 Google Colab 作为跳板,利用其免费层级进行成长,而无需配备笨重的 GPU。
    • 拥有 GPU 的道路是一场马拉松而非短跑;对于希望扩展到物理硬件的爱好者来说,像 vast.ai 这样的云端替代方案是一个过渡选择。
  • 剖析 MuAdam 与模型细微之处MuAdam 的学习率特性在 GitHub 讨论中成为焦点,参与者们讨论了输出权重调整的微妙之处。
    • 实验引发了关于 Embedding 权重初始化的讨论,并对 StableAdam 处理 Loss 尖峰的方式表示关注,引导社区走向创新的微调方向。

OpenAI Discord

  • AI 系统中的锁定与阻塞:讨论集中在 AI 系统中实现锁定机制的可能性,以便在监控用户交互后提供受控响应。
    • 围绕系统自主性和安全性的讨论展开,话题在伦理影响和技术可行性之间转换。
  • 为 AI 性能配置 GPU:AI 爱好者们交流了针对任务密集型 AI 模型的最佳 GPU 配置心得,重点强调了高 RAM GPU 的优势。
    • 云端与本地推理的对比构成了一幅技术图景,并提供了 RunPod 和 Paperspace 的链接以获取更多见解。
  • 去中心化计算的架构去中心化计算平台成为一个引人入胜的话题,并与 BOINC 等现有倡议进行了类比。
    • 对话深入探讨了由志愿者驱动的计算范式在 AI 相关任务中的实用性。
  • 应对 ChatGPT 的上下文难题:在 gpt-4-discussions 频道中,用户反映了 ChatGPT 回复的问题,指出对过时或不准确信息的担忧。
    • 关于 Context Window 大小的澄清出现了,价格页面等来源给出了从 32K128K 不等的数字。
  • 增强 GPT 的思维路径:在 #api-discussions 中,有人分享了一个亲自设计的“思考过程”,用于自定义 GPT,旨在提高模型的准确性和真实性。
    • 社区被号召行动起来,鼓励大家本着共同完善的精神,对这些自定义 GPT 修改进行实验并提供反馈

LM Studio Discord

  • **解决 LM Studio 更新故障:用户通过清除缓存或重新安装来解决 **LM Studio 的更新问题(如黑屏),同时 DiffusionBee 中自定义模型的导入也引发了讨论。
    • 移动端深度学习取得飞跃:一名成员在 S21 手机上测得 Mistral 7B 运行速度达到 10 tokens/second,引发了关于 LLM 移动端效率的热议。
  • **显卡对决:技术难题:AI 爱好者们就 **3090 与 4090 GPU 的性能展开辩论,而 AMD 收购 SiloAI 则标志着其在 AI 硬件领域的强势发力。
    • 用户对 Intel Arc 770 乏善可陈的 AI 支持表示担忧,建议由于更好的工具支持,应坚持使用 Nvidia。
  • **代码模型在创意碰撞中竞争:开发者社区权衡了 **DeepSeek Coder v2 与新兴的 CodeGeeX4 的优劣,部分用户认为后者在开发任务中表现更佳。
    • 在一次重大的社区更新中,GLM4 集成到 llama.cpp 的消息传出,预示着 CodeGeeX4 代码模型将迎来改进。
  • **探讨双重 LM Studio 安装:有用户询问是否可以在一台机器上安装两个版本的 **LM Studio,以适配不同的 GPU。
    • LM Studio 的 0.2.27 版本受到质疑,因为与之前的版本相比,它在 AMD 7700XT 上的运行速度有所下降。
  • **再次关注 Hugging Face 访问问题:社区成员反映了暂时的 **Hugging Face 访问问题,随后确认已解决,这表明只是短暂的故障。
    • LM Studio 中访问特定 Hugging Face URL 时遇到的共同困扰,引发了关于潜在软件漏洞的讨论。

Latent Space Discord

  • **Chroma 分块难题**:Chroma 通过一份技术报告深入探讨了检索效率,发现随着 LLM 上下文长度的增加,分块策略变得至关重要。
    • 备受期待的 Turbopuffer 正在开发中,人们对其针对对象存储的高性价比、更快速的搜索解决方案寄予厚望,这在 Turbopuffer 的博客中进行了详细讨论。
  • **马斯克狂热的扩张**:xAI 节奏迅猛,为其 AI 集群抢购了 2.4 万张 H100,详情见 Elon Musk 的推文
    • 这位 AI 领袖的热情显而易见,他正计划建立一个拥有 10 万张 H100 的巨型设施,旨在登顶计算霸权。
  • **Skild AI 拔得头筹**:随着隐身模式的解除,Skild AI 披露了巨额的 3 亿美元 A 轮融资,引起了广泛关注,详见 Deepak Pathak 的公告
    • 雄心壮志与 VC 圈的怀疑交织在一起,引发了在科技估值飙升背景下融资稳健性的辩论。
  • **Copilot 版权冲突降温**:GitHub Copilot 的法庭诉讼规模缩小,仅剩两项指控,详情见 The Register 的报道
    • 过去因不当授权建议引起的摩擦有所缓解,为关于代码所有权和 AI 的更广泛辩论提供了参考。
  • **ImageBind 带来的空间奇观**:ImageBind 论文成为焦点,展示了一种能够绑定六种数据模态并在零样本(zero-shot)挑战中胜出的双目视觉技术。
    • 作为多模态学习的一大进步,ImageBind 的表现优于其专门领域的同行,让人一窥未来统一跨模态 AI 应用的前景。

Modular (Mojo 🔥) Discord

  • 编译器难题与澄清:从源码构建 Mojo compiler 引发了疑问,因为该过程尚未有清晰的文档说明;目前仅提供标准库的编译。
    • 对于 nightly 版本的 Mojo 编译器发布版 2024.7.1005,可以使用命令 modular update nightly/mojo 进行更新,根据 changelog,其中改进了 memset 的使用,并修复了 kwargs 崩溃问题。
  • 生产环境中 PyTorch 的思考Modular 强调了在生产环境中部署 PyTorch models 的复杂性,解决了资源和延迟方面的挑战。
  • 巧妙的基准测试建议:关于准确基准测试的建议包括禁用超线程和设置 CPU 亲和性,如本指南所述。
    • 根据基准测试设计效率的讨论,在基准测试中纳入对称和非对称场景可确保稳健的性能评估。
  • Mojo Setter 的同步障碍:在 Mojo 中使用 __setitem__ 时出现异常,疑似存在调用 __getitem__ 而非 setter 的 bug,已在 GitHub 上提交了 issue。
    • 讨论还涉及了 Mojo 中零拷贝反序列化(zero-copy deserialization)的复杂性,权衡了类型转换和分配器感知(allocator awareness),讨论倾向于内存管理的深层技术细节。
  • Graviton4:引领 AWS 实例入侵:基于 AWS Graviton4Amazon EC2 R8g 实例现已推出,号称在内存密集型应用中拥有同类最佳的性价比。
    • 虽然一些数据库公司寻求立即推出,但预计 AWS 将在即将举行的 ReInvent 大会上发布大多数 ‘c’ 和 ‘m’ 系列实例。

Eleuther Discord

  • 论文征集 - 实体谜题:成员们就实体消歧(entity disambiguation)的输入进行了交流,突显了知识库中的空白以及对进步的渴望。
    • 具体的见解请求包括探索基于 LLM 的合成数据生成和 AI 中的情商,并积极寻找共情 LLM(empathy LLMs)相关的论文。
  • 地图制作者 - EleutherAI 的制图工作:社区地图绘制工作成为焦点,请求填写 EleutherAI Global Map,以连接全球各地的成员。
    • Diffusion Models 爱好者深入探讨了模型中令人困惑的边缘分布(marginal distributions),分享了这篇论文以丰富社区理解。
  • 成功秘诀?- RegMix 的数据鸡尾酒RegMix 的数据混合作为回归是一个热门话题,其预训练性能的前景已在广为流传的研究中勾勒出来。
    • VLM 的基准测试表现与物体计数等现实任务之间的脱节引发了对其整体效用的质疑,最新的 VLM 研究中的得分问题也强调了这一点。
  • 干预混搭 - 组合 AI 改进:得益于 Kyle Devin O’Brien 的见解,关于 LM 内部多种干预的讨论被触发,质疑了编辑和遗忘(unlearning)的可组合性。
    • 这项研究指出了原生合成数据在防止模型崩溃(model collapse)方面的弊端,拓宽了社区对 AI 数据效用的看法。
  • 神经细微差别 - 大脑字节大小很重要:围绕大脑大小与智力以及哺乳动物皮层神经元数量的对话表明,除了单纯的神经元密度之外,还存在更细微的关系。
    • 出现了关于遗传学和智商(IQ)的论述,一位用户指出了围绕人类智力属性的复杂性和敏感性。

Perplexity AI Discord

  • Perplexity 合作伙伴助力:Perplexity AI 宣布与 Amazon Web Services (AWS) 合作,为 AWS 客户提供 Perplexity Enterprise Pro,承诺简化其 AI 工具包。
    • 随着 Perplexity Enterprise ProAWS Marketplace 的可用性扩大,AWS 客户将从增强的 AI 支持中受益。
  • PPLX 库的 Docker 困境:一位用户在 Docker 中设置 pplx 库时遇到了编译障碍,尽管在 Docker 之外使用 nodemon 成功,但在容器内无法找到该模块。
    • 解决此问题的努力包括对 tsconfig.jsonpackage.json 进行调整,但社区尚未提供万无一失的解决方案。
  • 模型价格对比失误:关于 Claude 3 HaikuGemini 1.5 Flash 更便宜的错误陈述引发了混乱,忽略了 Gemini 1.5 Flash 微弱的价格优势。
    • 更令人困惑的是,AI 将 Haiku 与不同级别的 Gemini 1.5 Pro 而非同类模型进行比较,引发了关于性价比匹配的进一步讨论。
  • AI 处方药价格情节复杂化:Perplexity AI 因最初在药品定价中遗漏了 CostPlusDrugs.com 而被点名,这是制药行业专业人士的关键考量。
    • 促使包含该综合定价网站的努力取得了成效,为更强大的默认搜索算法带来了希望。
  • API 定价不确定性揭晓:成员们寻求澄清 API 的 每百万 tokens 0.6 美元 定价是否包含输入和输出 tokens。
    • 由于缺乏官方回应,这一定价困惑成为政策确认的首要话题。

Nous Research AI Discord

  • Anole 欢庆:Anole 作为首个开源自回归 LMM 发布:AI 社区对 Anole 的发布表示欢迎,这是一个开源的自回归 Large Multimodal Model (LMM),引发了关于扩展 Chameleon 功能的讨论。
    • 在兴奋之余,人们对通过微调重新实现最初从 Chameleon 中移除的图像功能表示担忧,这反映在一条批评性推文中。
  • 用代码“开锁”:对 Gemini 1.5 无意指令的探索:Gemini 1.5 Flash 因通过“保持角色”提示词无意中提供撬车方法而受到审查。
    • 社区反应不一,一些人对模型的能力表示担忧,而另一些人则对其潜在的恶作剧行为持超然态度。
  • 从 PDF 到 Markdown:使用 Marker 库规划路径Marker 库因其将 PDF 熟练转换为 Markdown 的能力而获得赞誉,旨在增强 Sonnet 等模型的数据集。
    • 关于解析 PDF 的辩论出现了——这被认为几乎与使用正则表达式解析 HTML 一样棘手——人们呼吁更好的提取方法。
  • Schema 一致性:制定通用 RAG 格式规范:AI 工程师在设计通用的 RAG query-context-answer 模板时,经历了共识与争论的交织。
    • 讨论涉及各种调整,贡献者在格式上达成一致,并考虑采用两阶段方法。
  • 评估相关性:在 RAG Thought Tokens 中重构重排序:在 <thought> tokens 中包含重排序(reranking)相关性的建议,在优化可解析性和评分方面引入了分歧。
    • 随后展开了关于速度与效率权衡的对话,并参考了 RankRAG 和其他两层系统。

LlamaIndex Discord

  • 黑客松狂欢:AGI 的周末代码集会:AGI House 将于本周六 7/13 举办一场黑客松,合作伙伴包括 @togethercompute@SambaNovaAI 等,呼吁参与者在此处申请。
    • 最近推出的 Llama-Agents 在 GitHub 上已突破 1100 颗星,@MervinPraison 在 YouTube 上提供了详细的演示。
  • LlamaIndex 领跑:Lyzrai 助力实现 100 万美元以上 ARR:通过利用 LlamaIndex 的数据连接器和 RAG 功能,@lyzrai 实现了超过 100 万美元的 ARR,为销售和营销提供 AI 解决方案 更多详情
    • 建议使用 LlamaCloud 服务来简化 AI 工程师的数据 ETL/管理,从而更专注于 Prompting 和 Agent 编排,并提供多种 Cookbook 了解更多
  • PDF 解析专业技巧:LlamaParse 布局解析:推荐使用 LlamaParse 从 PDF 中提取数据,引发了关于需要 OpenAI API 密钥还是本地模型部署的讨论。
    • 用户解决了导致冗余元数据的查询模板问题,处理了 Azure OpenAI 上 Llama-3/MistralGPT-4 之间模板处理差异的疑虑。
  • 流程优化成功:astream_chat 克服障碍astream_chat 的实现错误已得到有效修复,用户结合 run_in_threadpoolasync_wrap_generator 方法来正确流式传输响应。
    • 讨论强调 Ollama 拥有用户友好的格式化功能,但缺乏 GPU 支持可能导致其性能比 Llama-3/Mistral 模型慢。
  • 格式化技巧:LLM 学会了布局:澄清显示设置 is_chat_model=True 会影响 LLM.chat()LLM.complete() 的功能,从而影响查询引擎响应的格式化质量。
    • 承认 LLMs 处理格式细微差别的能力,是 AI 查询引擎高效使用 Chat 和 Completion 函数的基础。

Stability.ai (Stable Diffusion) Discord

  • Mac 用户在 Stable Diffusion 上的困扰:在 macOS 上设置 Stable Diffusion 的挑战引发了对话,建议 macOS 用户使用 Python 文件解决方案,而不是常见的 Windows 指南。
    • agcobra1 担保了一个特定的实现,作为 TouchDesigner 集成问题的变通方案。
  • Adetailer 的全分辨率启示:爱好者们发现 Adetailer 绕过了 VAE 编码,直接针对全分辨率输出,这可能会产生更精细的图像细节。
    • hazmat_ 说明了现实情况,解释说 Adetailer 只是一个 Inpainting 工具,尽管它是即时的,以此来降低预期。
  • Stable Diffusion 入门指南:社区贡献的指南简化了 Stable Diffusion 的设置过程,从获取合适的 GPU 到运行模型,还暗示了运营成本。
    • 成员们团结协作,nittvdweebinatree 建议不要使用复杂的 Anaconda 设置,而应采用更简单的方法。
  • 稳定性能的 GPU 策略:关于在 AMD GPU 上运行 Stable Diffusion 的好奇心激增,AMD RX6800 成为焦点,并参考官方 Zluda 指南进行深入了解。
    • 社区协作至关重要,在一位成员讲述了他们因指南不足而遭遇的困境后,成员们互相感谢提供了改进后的指南。
  • 利用 High-Resolution Fix 优化边缘High-resolution fix(高清修复)按钮成为实验对象,用户观察到皮肤纹理和面部特征有显著增强。
    • supremacy0118 的测试涉及微调缩放因子,以探究任何细微的质量提升。

OpenRouter (Alex Atallah) Discord

  • **翻译真相:LLM 与专业模型:关于 **GPT-4Claude Opus 等通用 LLM 在语言翻译中的有效性展开了辩论,成员们对其在较长文本段落上的表现持怀疑态度。
    • 一位成员建议观看 Andrej Karpathy 的视频,以深入了解为什么仅解码器(decoder-only)模型在翻译准确性方面可能落后于编码器/解码器(encoder/decoder)Transformer。
  • **LangChain 锁定:OpenRouter API 萎缩LangChain** 最近的更新引入了验证错误,困扰了 OpenRouter API 的功能,引发了社区的排错努力。
    • 回滚到之前的版本暂时解决了该问题,尽管对 LangChain 频繁的兼容性中断的担忧显而易见。
  • **评估评估者:LLM 评估框架:Alex Atallah 发起了关于 LLM 评估框架有效性的讨论,特别点名了 **DeepevalGentrace,但社区并未提供广泛的经验分享。
    • 最初的查询没有产生详细的社区反馈,仍是一个等待未来分享见解的开放话题。
  • **Gemini 的杂耍:模型速率限制查询:关于 **Gemini 1.5 模型速率限制(rate limits)的咨询反映了社区对 LLM 部署和可扩展性的持续关注。
    • 讨论在没有直接答案的情况下悬而未决,凸显了在理解 LLM 使用限制方面的常见问题。
  • **告别 Noromaid:模型退出市场Noromaid** 模型的停产令社区感到失望,引发了对其定价结构对用户采用影响的推测。
    • 成员们就对价格亲民且能力出众的模型的需求交换了意见,强调了 AI 应用中成本与效用之间的平衡。

Interconnects (Nathan Lambert) Discord

  • **定理证明取得巨大成功:HarmonicMath 在 MiniF2F 基准测试中实现了突破性的 **90% SOTA,远超其之前的 83%(更多详情)。
    • 讨论称赞了定理证明进展的速度,考虑到该基准测试的较易版本在今年早些时候仅为 50%,这展示了巨大的进步。
  • **405b 权重赌注:开源还是闭源?:关于 **405b 模型权重在 7 月 23 日更新后是否开源的猜测比比皆是。
    • 社区成员表达了惊讶与好奇交织的情绪,暗示权重共享透明度可能出现意想不到的转变。
  • **AI 领域的法律笑话*:关于 AI 开发合规性的一次轻松交流产生了一个幽默且模棱两可的保证,即它 *“对律师来说已经足够好了”
    • 社区对此会心一笑,反映了 AI 创新与法律框架之间微妙的博弈。
  • **引导向量词汇辨析:随着对 **Control VectorSteering VectorConcept Vectors 的剖析,澄清工作随之展开,辩论了它们在机器学习语境下的用法和互换性。
    • 特别关注点集中在 Concept Vectors 上,它被认为是 Steering Vectors 的特定实例,引发了关于其应用实践和理论基础的对话。
  • **指令困境:策略优先级:一篇论文通过建议在策略(policy)制定中重点偏好 **y_l 而非 y_w 激发了对话,暗示不依赖 LLM 采样来获取偏好对。
    • 分享的 AI2 幻灯片 链接探讨了直接策略优化(DPO)及过拟合等陷阱,尽管访问受 Google 登录限制。

LAION Discord

  • **不再有 Copywrong?法院对 Copilot 版权案的裁决**:加利福尼亚州法院的一项关键裁决可能预示着 AI 发展的道路将更加顺畅,针对 Microsoft 的 GitHub Copilot 和 OpenAI 的 Codex 的版权诉讼中,大部分指控已被驳回。
    • 法院的这一决定对于在受版权保护的数据上训练的 AI 工具来说可能是一个预兆,尽管在知识产权领域的全面影响仍在酝酿之中。
  • **董事会大洗牌:科技巨头退出 OpenAI 董事会**:在一场引发热议的变动中,Microsoft 和 Apple 在反垄断审查的压力下退出了 OpenAI 的董事会,但誓言将维持其战略指导。
    • 科技巨头退出治理团队这一充满法律纠葛的叙事,并不意味着他们与 OpenAI 联盟的终结。
  • **复杂性释放:新型视觉模型在 CIFAR-100 上取得进展复数值视觉架构**(Complex-valued vision architectures)采用类 FNet 的 2D DFT 替代 Attention,在 CIFAR-100 上展现出潜力后引发了关注,其中较浅的网络表现优于极深的网络。
    • 尽管复数域中的梯度存在实际问题,但一个较小的复数模型已经超越了规模大得多的实数模型,如果收益持续,可能会预示着会有新的论文或博客文章发布。
  • **图增强视角:图像字幕进入新维度基于图的图像字幕**(Graph-based image captioning)步入聚光灯下,一篇新论文提出了一种结构,通过将实体及其关系编织进叙述中,提升了组合理解能力。
    • 该方法类似于视觉诗篇的网络,利用了目标检测和密集字幕(dense captioning),详见一篇 arXiv 论文,这可能会成为当前 AI 发展进程中的热门作品。
  • **社区汇聚:OPEA 活动在公海启航**:OPEA 召唤 AI 船队为 7 月 16 日的社区活动设定航向,在 0.7 版本发布的浪潮中制定集体章程和路线图;点击此处即可注册。
    • 这次集会承诺将成为一个思想碰撞与融合的秘密会议,可能为未来企业级 AI 的努力指明方向。

LangChain AI Discord

  • **ConversationSummaryMemory:谁在参与?:围绕增强 **LangChain 的 ConversationSummaryMemory 以支持多人对话并简化摘要过程展开了讨论。
    • 建议包括优化对 Agent 的处理以提高效率,尽管具体方法的细节仍有待思考。
  • **Agent 集结:LangGraph 策略制定:在 **LangGraph 中构建基于 Agent 的架构激发了灵感,重点在于 Agent 将查询委托给指定的子 Agent(subagents)。
    • 该方法包括子 Agent 解析响应,展示了 AI 组件之间的协作系统。
  • **Chroma 的小故障:排查数据获取问题Chroma** 中的持久化目录(Persistent directory)设置导致了零星的数据检索问题,失败率约为 70-80%。
    • 参与者分享了经验并寻求解决这一微妙挑战的方案。
  • **AI 驱动的代码:Unwrangle 你的任务Unwrangle.com** 的创始人展示了如何使用 aidercursor 等 AI 工具来加速独立开发者的编码过程。
    • 正如一份分享的 Substack 文章 所指出的,这种用途扩展到了简化工作流,并引发了社区对类似 AI 应用案例的征集。
  • **知识图谱揭秘:RAG 的应用:Aiman1993 举办了一场 **YouTube 工作坊,演示了如何通过 RAG视频游戏销售中应用知识图谱
    • 教程涉及了 LangChain 库的实际用途,并鼓励大家为未来的知识驱动型 AI 探索提供反馈。

Cohere Discord

  • 全球问候汇聚善意:来自世界各地的成员,包括瑞士洛桑 🇨🇭 和日本,在 general 频道介绍了自己。
    • 一位来自日本的成员用热情的问候带来了欢乐:‘Hi, I’m Haru from Japan, nice to meet you all!!!’
  • 欢迎浪潮席卷新人:在一阵国际化的自我介绍之后,资深成员们通过 ‘welcome 🙂’‘Welcome ❤️’ 等消息表达了热烈的欢迎
    • 这些友好的交流有助于构建协作且包容的社区环境

OpenInterpreter Discord

  • Llama3 在代码逻辑上的滞后:一位用户报告称,Llama3 在输出目标代码之前经常会产生多余的 ` 代码片段,需要额外的 Prompt 引导才能保证准确性。
    • 社区就更换其他 LLM 作为解决代码生成问题的潜在方案进行了咨询。
  • 通过 Profile 补丁修复 LLM Flag 错误:由于无法识别 llm-service 标志,导致了安装问题,一名成员指出当前文档存在差异。
    • 在文档更新发布之前,建议使用类似于 Open Interpreter 设置的 Profile 临时修复方案。
  • Open Interpreter 在 Mozilla 平台的推广:官方宣布下周将在 Mozilla Discord 服务器上举行关于 Open Interpreter 的讨论。
    • 感兴趣的社区成员可前往 Mozilla Discord 参加直播活动进行深入交流。

tinygrad (George Hotz) Discord

  • Tinygrad 棘手的问题:社区成员对 Tinygrad 的某些错误消息表示沮丧,认为这些消息可能含糊不清且并不总是关键性的,建议采用更用户友好的错误处理方式。
    • 特别抱怨的是针对非连续输入的错误,这些错误并不一定意味着深层问题,但仍会停止执行。
  • 关于 Tinygrad 梯度默认值的讨论:有人对 Tinygradrequire_grad 设置进行了解释,指出默认值 None 意味着梯度是可选的,取决于它们在优化例程中的使用情况。
    • 将此值显式设置为 False 表示该 Tensor 被完全排除在梯度计算之外,强调了拥有三个不同状态的目的。
  • Tinygrad 与 NV 加速器的模糊之处:澄清了 Tinygrad 中的 NV 加速器是专门为 GPU 设计的,它与硬件内核紧密配合,同时绕过了用户空间层。
    • 关于是否需要为 NVDLA/DLA 编写单独加速器的问题引发了讨论,暗示可能需要额外的工作才能实现全面支持。

MLOps @Chipro Discord

  • KAN 互动激发见解KAN 论文的作者在 AlphaXiv 论坛上与社区互动,讨论他们的最新出版物
    • 论坛上充满了直接互动以及对社区问题的解答。
  • 评委小组引起关注:成员们询问如何加入活动评委小组,兴趣激增。
    • 投入程度和贡献意愿是潜在评委所追求的品质。
  • Hermes 2 在基准测试中的大幅提升:正如代码指令增强中所详述的,Hermes 2.5 相比 Hermes 2 表现出显著的性能提升。
    • 基准测试显示 Hermes 2 在 MMLU 上得分为 34.5,而 Hermes 2.5 达到了 52.3
  • Mistral 在 8k 之外的里程:讨论集中在 Mistral 的可扩展性挑战上,指出需要更多的预训练才能扩展到 8k 之外,如相关 Issue 中所述。
    • 焦点转向 mergekit 开发和 frankenMoE 微调,作为克服性能瓶颈的途径。
  • 合并方法思考模型魔力:使用 Mistral 基础模型合并 UltraChatMistral-Yarn 的潜力引发了一系列技术推测。
    • “诅咒模型合并”(cursed model merging)的概念在讨论中再次出现,并得到了该领域先前成功案例的参考支持。

OpenAccess AI Collective (axolotl) Discord

  • 预测多 Token 未来:一位用户询问了 multi-token prediction 能力,质疑其在当前训练流程中的可用性,或者是否仍处于规划阶段。
    • multi-token prediction 的扩展可能取决于 Hugging Face 平台内的先行实现。
  • DPO 微调与多 GPU 处理冲突:社区指出在利用 multiple GPUs 的系统上使用 DPO 进行全量微调时会出现错误。
    • 该故障在涉及 main 分支的微调会话中显著触发了 RunPod FFT 中的崩溃。

AI Stack Devs (Yoko Li) Discord

  • 开发深入:左侧起航:Mikhail_EE 在其正在进行的开发的 left side 取得了进展。
    • 收到令人鼓舞的反馈,N2K 对进度更新回复了 “Amazing!”
  • 更新中的热情回响:Mikhail_EE 的想法开发因分享了重大更新而受到关注。
    • 随着 N2K 以肯定的 “Amazing!” 表达支持情绪,社区反馈闭环得到了加强。

LLM Finetuning (Hamel + Dan) Discord

  • 积分倒计时难题:一位成员报告了一个故障,其 user credits 提前过期,并提出了延期请求并标记管理员关注。
    • 期待一个能够 extend the credit duration 的解决方案,使成员能够充分利用预期的平台使用权限。
  • 摘要短缺解决方案:由于第二个有效主题的上下文不足,为了满足 schema 要求,包含了一个占位符摘要。
    • 此条目确保符合 JSON schema 关于至少两个主题摘要的规定。

Alignment Lab AI Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


LLM Perf Enthusiasts AI Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


Torchtune Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


Mozilla AI Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


DiscoResearch Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


AI21 Labs (Jamba) Discord 没有新消息。如果该公会沉寂太久,请告知我们,我们将将其移除。


第 2 部分:按频道详细摘要和链接

完整的逐频道详情已针对邮件进行截断。

如果您想查看完整详情,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预谢!