ainews-anthropic-cracks-the-llm-genome-project

Anthropic 的“LLM 基因组计划”:在 Claude Sonnet 上学习与钳制 3400 万个特征。

Anthropic 发布了其机械可解释性(MechInterp)系列的第三篇论文 《扩展单语义性》(Scaling Monosemanticity),将可解释性分析扩展到了 Claude 3 Sonnet 上的 3400 万个特征

这项工作引入了字典学习(dictionary learning)的概念,用以分离重复出现的神经元激活模式,通过组合特征而非神经元,使模型的内部状态更具可解释性。论文揭示了与代码、错误、阿谀奉承(sycophancy)、犯罪、自我表征和欺骗相关的抽象特征,并通过固定(clamping)特征值展示了对模型行为进行有意识修改的可能性。

这项研究标志着在前沿规模的模型可解释性神经网络分析领域取得了重大进展。

#model-interpretability #dictionary-learning #neural-networks #feature-activation #intentional-modifiability #scaling #mechanistic-interpretability claude-3-sonnet claude-3 anthropic scale-ai suno-ai microsoft

Dictionary Learning is All You Need.

2024年5月20日至5月21日的 AI 新闻。 我们为您检查了 7 个 subreddits、384 个 Twitter 账号29 个 Discord 社区(376 个频道,6363 条消息)。 预计节省阅读时间(按 200wpm 计算):738 分钟。目录和 Discord 摘要已移至此邮件的网页版:

今天是新闻相对密集的一天,有来自 Scale AISuno AI 的巨额融资,以及对 Microsoft Build 发布内容的持续反响(如 Microsoft Recall),但我们在这里尽量保持技术性。

今天最大的新闻可能是 Anthropic 的 Scaling Monosemanticity,这是继 Toy Models of Superposition (2022) 和 Towards Monosemanticity (2023) 之后,其现代 MechInterp 三部曲的第三部。第一篇论文专注于极小 ReLU 网络(5 个神经元上最多 8 个特征)的“主成分分析”,第二篇在真实的 Transformer(512 个神经元上 4096 个特征)上应用了 Sparse Autoencoders,而这篇论文现在扩展到了 Claude 3 Sonnet 上的 100万/400万/3400万个特征。这在真实的、前沿级模型上开启了各种可解释性的魔法:

image.png

image.png

一定要看看 特征 UMAPs

与其使用相对高深莫测的“superposition(叠加)”概念,现在的类比是“dictionary learning(字典学习)”,Anthropic 将其解释为:

借鉴自经典机器学习,它隔离了在许多不同上下文中重复出现的神经元激活模式。反过来,模型的任何内部状态都可以用少数活跃特征而不是许多活跃神经元来表示。正如字典中的每个英语单词都是由字母组合而成,每个句子都是由单词组合而成,AI 模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。(更多阅读请见注释

Anthropic 的 3400 万个特征编码了一些非常有趣的“抽象特征”,比如代码特征,甚至是 错误

image.png

sycophancy(谄媚)、crime/harm(犯罪/伤害)、self representation(自我表征),以及 deception and power seeking(欺骗和追求权力):

image.png

完整可解释性研究的标志性证明是意图可修改性,Anthropic 通过将特征值钳制在其最大值的 -2 倍到 10 倍之间展示了这一点:

您正在通过电子邮件阅读此内容。我们正将更多内容移至网页版,以创造更多空间并节省您的收件箱容量。如果您愿意,请在 网页版 查看摘录的图表。

不要错过来自 Emmanuel AmeisenAlex AlbertLinus LeeHN 的详细分析。



AI Twitter 摘要

所有摘要均由 Claude 3 Opus 生成,取 4 次运行中的最佳结果。我们正在使用 Haiku 进行聚类和流程工程(flow engineering)。

微软为 AI 时代推出 Copilot+ PC

  • Copilot+ PC 被称为 Windows 40 年来最大的更新@mustafasuleyman 指出,Copilot+ PC 是目前速度最快、性能最强大的 AI 就绪型 PC,通过围绕 Copilot 重新构建整个技术栈,为 AI 时代重新定义了 PC。
  • 在 Copilot+ PC 上演示了实时 AI 共同创作和相机控制@yusuf_i_mehdi 展示了 Copilot 控制 Minecraft 游戏的过程,同时 @yusuf_i_mehdi 演示了 PC 上的实时 AI 共同创作。
  • Copilot+ PC 具备“过目不忘”的记忆能力和顶尖性能@yusuf_i_mehdi 强调了 Copilot 对 PC 上执行的所有操作具有“过目不忘”(photographic memory)的记忆力。他还称其为史上速度最快、最强大且最智能的 Windows PC

Scale AI 以 138 亿美元估值融资 10 亿美元

  • Scale AI 在由 Accel 领投的融资轮中以 138 亿美元估值筹集了 10 亿美元@alexandr_wang 宣布了这一融资消息,并表示 Scale AI 在加速前沿数据供应和铺平 AGI 之路方面处于前所未有的有利地位。
  • Scale AI 通过提供数据为几乎所有领先的 AI 模型提供动力:作为与算力和算法并列的三大 AI 支柱之一,@alexandr_wang 解释说 Scale 正在为几乎所有领先的 AI 模型提供数据支持。
  • 资金将用于加速前沿数据供应并为 AGI 铺路@alexandr_wang 表示,这笔资金将帮助 Scale AI 进入下一阶段,即加速前沿数据的丰度,为通往 AGI 铺平道路。

Suno 融资 1.25 亿美元以构建 AI 驱动的音乐创作工具

  • Suno 融资 1.25 亿美元,让任何人都能用 AI 创作音乐@suno_ai_ 将利用这笔资金加速产品开发并扩大团队,通过技术放大人类的创造力,构建一个每个人都能创作音乐的未来。
  • Suno 正在招聘人才,为音乐人社区构建最佳工具:Suno 认为他们的社区值得拥有最好的工具,这需要具备技术专长且真正热爱音乐的顶尖人才。他们邀请人们加入,共同塑造音乐的未来。

Meta 自动测试生成工具的开源实现发布

  • Cover-Agent 作为 Meta 自动测试生成论文的首个开源实现发布@svpino 分享了 Cover-Agent,这是一个开源工具,实现了 Meta 在 2 月份发表的关于自动增加现有代码库测试覆盖率的论文。
  • Cover-Agent 生成独特且有效的测试以提高覆盖率,表现优于 ChatGPT@svpino 强调,虽然自动单元测试生成并不新鲜,但要做好却很难。Cover-Agent 只生成能够运行并增加覆盖率的独特测试,而 ChatGPT 则会产生重复、无效且无意义的测试。

Anthropic 发布关于解释领先大语言模型的研究

  • Anthropic 在最新研究中首次详细展示了领先大语言模型的内部机制:在名为 “Scaling Monosemanticity” 的新研究论文和博客文章中,Anthropic 对领先的 Large Language Model 内部进行了前所未有的详细展示。
  • 从 Anthropic 的 Claude 3 Sonnet 模型中提取出数百万个可解释特征:利用无监督学习技术,@AnthropicAI 从 Claude 3 Sonnet 的激活层(activations)中提取了可解释的“特征(features)”,这些特征对应于模型学习到的抽象概念。
  • 部分提取的特征与安全相关,为潜在的模型故障提供了见解@AnthropicAI 发现了与令人担忧的能力或行为(如不安全代码、偏见、不诚实等)相对应的安全相关特征。研究这些特征可以深入了解模型的潜在故障模式(failure modes)。

迷因与幽默

  • OpenAI 未经许可克隆 Scarlett Johansson 的声音,引发《小美人鱼》式的类比@bindureddy@realSharonZhou 对 OpenAI 未经许可为其 AI Agent 助手克隆 Scarlett Johansson 声音的新闻做出反应,并将其与《小美人鱼》的情节进行了类比。
  • 由于电子马克杯,收藏的加热咖啡杯遗憾被闲置@ID_AA_Carmack 思考电池能量密度是否足以支撑一个加热搅拌棒,从而为任何杯子提供电子温度控制,因为他妻子的 Ember 马克杯让她其他的杯子都派不上用场了。
  • 针对 Microsoft Copilot 的“过目不忘”,Linux 权限迷因引发关注@svpino 分享了一个关于 Linux 文件权限的迷因,以回应 Microsoft Copilot 具备“过目不忘”记忆力(photographic memory)的功能。

AI Reddit 摘要

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!

OpenAI 争议与法律问题

GPT-4o 和 Copilot 演示与功能

AI 进展与通往 AGI 之路

幽默与梗图


AI Discord 回顾

摘要的摘要的摘要

  1. 优化模型以突破界限
  • Transformer 集成与模型贡献引发热议:工程师们正在将 ImageBind 集成到 transformers 库中,同时另一位工程师的 PR 已被合并,修复了微调 AI 模型的一个问题。此外,llama-cpp-agent 通过利用 ZeroGPU 暗示了在计算效率方面的进展。
  • Modular 带来的 LLM 效率提升:Modular 的新 nightly 版本在改进的 SIMD 优化和异步编程技术的支持下,有望通过 Mojo 中的 k-means 聚类等方法带来巨大的性能提升。

  • 成员们强调了像 Torch 的 mul_() 这样的工具的重要性,以及 vLLM 和内存优化技术在显存(VRAM)受限系统上增强模型性能的实际用途。
  1. 斯嘉丽·约翰逊反击 AI 语音克隆

    • 斯嘉丽·约翰逊对 OpenAI 的诉讼:约翰逊因语音复制争议起诉 OpenAI,迫使该公司移除该模型,并可能重塑围绕 AI 生成语音克隆的法律格局。

    • 讨论强调了关于声音肖像权和知情同意的伦理与法律辩论,行业内将其与涉及 Drake 等音乐家的未经授权内容移除事件进行了对比。

  2. 新 AI 模型引爆基准测试

    • Phi-3 模型与 ZeroGPU 激励 AI 开发者:微软在 HuggingFace 上发布了 Phi-3 small (7B)Phi-3 medium (14B) 模型,它们具有 128k 的上下文窗口,在 MMLU 和 AGI Eval 任务中表现出色。与此同时,HuggingFace 新推出的 ZeroGPU 计划提供价值 1000 万美元的免费 GPU 访问权限,旨在推动独立开发者和学术界的 AI Demo 创作。

    • 发现 PaliGemma 的文档处理能力Merve 强调了 PaliGemma 在文档理解方面的强大实力,并分享了一系列 Hugging Face 链接和相关推文。关于 Mozilla 的 DeepSpeech 以及从 LangChain3D Gaussian Splatting 的各种资源咨询,显示了社区对多样化 AI 技术的广泛兴趣。

    • 适用于 LLM 的 M3 Max 的性能受到称赞,尤其是在配备 96GB 内存的情况下,这为模型能力的重大跨越提供了动力,并为大语言模型训练效率设定了新标准。

  3. 协作努力塑造 AI 的未来

    • Hugging Face 的 LangChain 集成:新软件包旨在促进模型无缝集成到 LangChain 中,为社区项目提供新的架构并优化交互能力。

    • Memary 网络研讨会 展示了一种用于自主 Agent 的开源长期记忆解决方案,解决了知识图谱生成和记忆流管理中的关键需求。

  4. AI 社区关于伦理和实用 AI 实现的热议

    • Anthropic 的负责任缩放政策:计算能力的提升预示着即将到来的重大创新,并与新的负责任缩放政策(Responsible Scaling Policy)保持一致,以管理 AI 开发中的伦理问题。

    • AI 领域的协作 在巴黎和旧金山的 PizzerIA 聚会等活动中继续蓬勃发展,增强了检索增强生成(RAG)技术以及社区对 AI 创新的参与度。


邮件中的各频道详细解析现已截断。

如果您想查看完整的解析,请访问此邮件的网页版本:

如果您喜欢 AInews,请分享给朋友!提前感谢!