ainews-claude-crushes-code-92-humaneval-and
Claude 碾压编程:92% HumanEval 评分与 Claude.ai Artifacts 功能
由 Anthropic 发布的 Claude 3.5 Sonnet 被定位为 Claude 3 Opus 的帕累托改进(Pareto improvement),其运行速度是后者的两倍,而成本仅为五分之一。
它在 GPQA、MMLU 和 HumanEval 等基准测试中取得了行业领先(state-of-the-art)的成绩,在视觉任务上甚至超越了 GPT-4o 和 Claude 3 Opus。该模型在编程能力方面展现出显著进步,测试用例通过率从 Claude 3 Opus 的 38% 提升至 64%,并能够自主修复拉取请求(pull requests)。
此外,Anthropic 还推出了 Artifacts 功能,使用户能够在动态工作区中与 AI 生成的内容(如代码片段和文档)进行交互,类似于 OpenAI 的代码解释器(Code Interpreter)。此次发布突显了模型在性能、成本效益和编程熟练度方面的提升,预示着大语言模型(LLM)在软件开发领域将发挥越来越重要的作用。
Claude 3.5 Sonnet 就足够了?
2024年6月19日至6月20日的 AI 新闻。 我们为您查看了 7 个 subreddits、384 个 Twitter 账号 和 30 个 Discord 社区(包含 415 个频道和 3577 条消息)。 预计节省阅读时间(按每分钟 200 字计算):392 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!
今日头条名义上是 Claude 3.5 Sonnet —— 表面上是 Anthropic 对 GPT-4o 的回应:

包括声称在 GPQA、MMLU 和 HumanEval 上达到 SOTA:

以及“在所有标准视觉基准测试中超越了 Claude 3 Opus”。
https://www.youtube.com/watch?v=dhxrHvgXpSM&embeds_referring_euri=https%3A%2F%2Fwww.anthropic.com%2F&embeds_referring_origin=https%3A%2F%2Fwww.anthropic.com&feature=emb_title
Model card 展示了原本属于 Opus 级别的上下文利用能力现在已扩展到 Sonnet:

我们没有关于驱动这些变化的太多技术细节,但 Anthropic 将其宣传为对 Claude 3 Sonnet 和 Claude 3 Opus 的帕累托改进(Pareto improvement):

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升结合极具性价比的定价,使 Claude 3.5 Sonnet 成为处理复杂任务(如上下文敏感的客户支持和编排多步骤工作流)的理想选择。
然而,除了通用能力和效率提升之外,宣传的更大重点是 Claude Sonnet 的编程能力:
“Claude 开始变得非常擅长编程并能自主修复 pull requests。很明显,一年之内,很大比例的代码将由 LLM 编写。” - Alex Albert
https://www.youtube.com/watch?v=A598ESCoC70


这似乎得到了 Claude.ai 发布的 “Artifacts” 功能的支持:
一项扩展用户与 Claude 交互方式的新功能。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些 Artifacts 会出现在对话旁边的专用窗口中。这创建了一个动态工作区,用户可以实时查看、编辑并基于 Claude 的创作进行构建,将 AI 生成的内容无缝集成到他们的项目和工作流中。
这似乎是 Anthropic 对 OpenAI 的 Code Interpreter 或 Cognition Labs 的 Devin 的回应。
AI Twitter 摘要
所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和流程工程(flow engineering)。
Anthropic 发布 Claude 3.5 Sonnet
- 性能:@alexalbert__ 指出 Claude 3.5 Sonnet 在关键评估中优于竞争对手模型,速度是 Claude 3 Opus 的 两倍,成本仅为 五分之一。它在理解细微差别、幽默和复杂指令方面表现出显著进步。@AnthropicAI 强调它现在在 GPQA, MMLU, 和 HumanEval 等多个基准测试中超越了 GPT-4o。
- Artifacts 功能:@AnthropicAI 推出了 Artifacts,允许用户生成文档、代码、图表、图形或游戏,并显示在对话框旁边进行实时迭代。@alexalbert__ 提到由于这个功能,他已经停止使用大多数简单的图表、绘图和可视化软件。
- 编程能力:在 Anthropic 的内部 pull request 评估中,@alexalbert__ 分享了 Claude 3.5 Sonnet 通过了 64% 的测试用例,而 Claude 3 Opus 为 38%。@alexalbert__ 引用一位工程师的话说,它修复了他们正在使用的开源库中的一个 bug。
- 可用性:@AnthropicAI 指出该模型在 claude.ai 和 Claude iOS 应用上免费提供。Claude Pro 和 Team 订阅者可获得更高的速率限制。也可通过 Anthropic API, Amazon Bedrock, Google Cloud 的 Vertex AI 获取。
Ilya Sutskever 的新公司:Safe Super Intelligence (SSI)
- 目标:@ilyasut 表示他们将直奔目标,通过一支精干的顶尖团队实现革命性突破,专注于安全超级智能,拥有单一的焦点、目标和产品。
- 反应:像 @bindureddy 这样的人称赞其对 AGI 的专注而不过分痴迷于金钱。其他人如 @DavidSHolz 将其比作 AI 领域的 Yahoo/AOL/pets dot com 时代。@teortaxesTex 推测这破坏了美中签署具有约束力的 AGI/ASI 条约的可能性。
- 融资:@ethanCaballero 质疑 SSI 如何在一年内筹集 100 亿美元,否则他们将“落地即成仁”。
AI 基准测试与评估
- Mixture of Agents (MoA):@corbtt 介绍了 MoA 模型 + FT 流水线,其表现优于 GPT-4,但成本低 25 倍。人类在 59% 的情况下更倾向于 MoA 的输出而非 GPT-4。在 Arena-Hard (84.8) 和 Alpaca Eval (LC 68.4) 上达到了新的 SOTA。
- Infinity Instruct:@_philschmid 分享了这个包含 300 万样本的去重指令数据集。计划在 6 月底发布 1000 万样本版本。Mistral 7B 的 SFT 实验在 MT Bench 上达到 7.9,将 MMLU 提升了 6%,HumanEval 提升至 50%。
- τ-bench:@ShunyuYao12 在 Sierra Platform 推出了 τ-bench,用于评估当前基准测试遗漏的关键 Agent 能力:鲁棒性、复杂规则遵循和人类交互技巧。
梗图与幽默
- 关于 AI 鼠标上的 Logi AI Prompt Builder 的梗图:@nearcyan
- 关于 AI 领域的 Yahoo/AOL/pets dot com 时代的梗图:@DavidSHolz
- 关于 Claude 3.5 的加密莎士比亚十四行诗:@AnthropicAI
- 关于 SSI 筹集 100 亿美元融资的梗图:@bindureddy
AI Reddit 摘要回顾
涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!
AI 公司与进展
- Dell 与 NVIDIA 合作打造“AI 工厂”:在一条 推文 中,Michael Dell 宣布 Dell 正与 NVIDIA 合作建设“AI 工厂”,为 “xAI 的 grok” 提供动力,暗示这两家科技巨头之间的一项重大 AI 基础设施计划。
- Anthropic 的 Claude AI 展示了强大的法律推理能力:根据一项 分析,Anthropic 的 Claude AI 在 37 个案例中的 27 个 中与最高法院的裁决一致,展示了其理解和推理复杂法律问题的能力。
- Meta 的 Chameleon 语言模型训练数据集曝光:Meta 的 Chameleon AI 模型文件显示,它是 基于 涵盖法律内容、代码、安全/审核数据等多样化数据集训练而成的,这让外界得以洞察 Meta 优先考虑的知识领域。
AI 能力与基准测试
- Microsoft 开源 Florence-2 视觉模型:Microsoft 以开源许可证 发布 了其 Florence-2 视觉基础模型,该模型在视觉问答、目标检测和图像描述等任务中表现出 强劲性能。
- LI-DiT-10B 宣称超越 DALLE-3 和 Stable Diffusion 3:一张 对比图 表明,LI-DiT-10B 模型在图文对齐和生成质量上超过了 DALLE-3 和 Stable Diffusion 3,并计划在进一步优化后推出公共 API。
- 基于 Llama 的 70B 参数故事写作模型发布:DreamGen Opus v1.4 是一款基于 Llama 3、专注于故事生成的 70B 参数语言模型,现已 发布。随之发布的还有详细的使用指南和示例提示词,展示了其创意写作能力。
讨论与观点
- 对 Stability AI 业务前景的担忧:一篇 评论文章 针对 Stable Diffusion 3 发布过程中出现的问题及其他因素,对 Stability AI 商业模式的可持续性和未来前景提出了质疑。
梗图与幽默
- AI 梗图涉及了 AI 初创公司的 快速增长,调侃 了 OpenAI 名不副实的封闭模型,并讽刺了 Stability AI 对 Stable Diffusion 3 问题的 处理方式。
- 一张梗图 想象 了 Doc Brown 对 2045 年 AI 进展的震惊反应,以此致敬技术进步的飞速。
AI Discord 回顾
摘要之摘要的摘要
1. 模型性能优化与基准测试
-
[量化 (Quantization)] 技术如 AQLM 和 QuaRot 旨在保持性能的同时,在单个 GPU 上运行大型语言模型 (LLMs)。例如:在 RTX3090 上运行 Llama-3-70b 的 AQLM 项目。
-
通过 Dynamic Memory Compression (DMC) 等方法努力提升 Transformer 效率,在 H100 GPUs 上可能将吞吐量提高多达 370%。例如:@p_nawrot 发表的 DMC 论文。
-
关于优化 CUDA 操作的讨论,例如融合逐元素操作(fusing element-wise operations),使用 Thrust 库的
transform来实现接近带宽饱和的性能。例如:Thrust 文档。 -
在 AlignBench 和 MT-Bench 等基准测试中对模型性能进行比较,DeepSeek-V2 在某些领域超越了 GPT-4。例如:DeepSeek-V2 发布公告。
2. 微调挑战与提示词工程策略
-
在将 Llama3 模型转换为 GGUF 格式时,存在保留微调数据的困难,并讨论了一个已确认的 bug。
-
提示词设计 (Prompt design) 和使用正确模板(包括文本结束标记 end-of-text tokens)对于微调和评估期间影响模型性能的重要性。例如:Axolotl prompters.py。
-
提示词工程 (Prompt engineering) 策略,如将复杂任务拆分为多个提示词,研究 logit bias 以获得更多控制。例如:OpenAI logit bias 指南。
-
教导 LLMs 在不确定时使用
<RET>标记进行信息检索,从而提高在低频查询上的表现。例如:ArXiv 论文。
3. 开源 AI 发展与协作
-
发布 StoryDiffusion,这是一个采用 MIT 许可证的 Sora 开源替代方案,尽管权重尚未发布。例如:GitHub 仓库。
-
发布 OpenDevin,这是一个基于 Cognition 的 Devin 的开源自主 AI 工程师,举办了网络研讨会且在 GitHub 上的关注度日益增长。
-
呼吁在开源机器学习论文上进行协作,该论文旨在预测 IPO 成功,托管在 RicercaMente。
-
围绕 LlamaIndex 集成的社区努力,包括在更新后遇到的 Supabase Vectorstore 问题和包导入问题。例如:llama-hub 文档。
4. 多模态 AI 与生成模型创新
-
Idefics2 8B Chatty 专注于提升聊天交互体验,而 CodeGemma 1.1 7B 则精进了编程能力。
-
Phi 3 模型通过 WebGPU 将强大的 AI 聊天机器人带入浏览器。
-
结合 Pixart Sigma + SDXL + PAG 旨在实现 DALLE-3 级别的输出,并具有通过微调进一步完善的潜力。
-
开源项目 IC-Light 专注于改进图像重光照(image relighting)技术。
5. 其他
- Stable Artisan 将 AI 媒体创作引入 Discord: Stability AI 推出了 Stable Artisan,这是一个集成了 Stable Diffusion 3、Stable Video Diffusion 和 Stable Image Core 等模型的 Discord 机器人,用于直接在 Discord 内进行媒体生成和编辑。该机器人引发了关于 SD3 开源状态以及引入 Artisan 作为付费 API 服务的讨论。
第一部分:高层级 Discord 摘要
Unsloth AI (Daniel Han) Discord
Ollama 获得 Unsloth 支持:工程师们对 Unsloth AI 对 Ollama 的新支持表现出浓厚兴趣,官方提供了一个用于测试的 Colab 链接,并向早期采用者征集 Bug 报告。
分布式训练的提炼:深入探讨了分布式数据并行 (DDP),重点关注跨多 GPU 扩展模型,强调了模型准确性、token 以及训练中上下文处理的重要性。
Anthropic 创新推出 Claude 3.5 Sonnet:Anthropic 发布 Claude 3.5 Sonnet 的公告吸引了工程师们的关注,因为它树立了新的行业模型标准。
澄清 CausalLM 的困惑:一系列消息解决了关于训练期间 causalLM loss 计算的困惑,将其与传统 Masked LM 任务中的 loss 计算进行了比较,指出了其在下个词预测准确性方面的聚合特性。
部署难题与预训练查询:AI 工程师讨论了模型部署中的实际挑战和解决方案,例如使用 Conda 解决 llama3 库版本兼容性,以及持续预训练和微调 instruct 模型的策略,相关的有益讨论可以在这里找到。
OpenAI Discord
-
GPT-4o 激发工程好奇心:工程师们辩论了 GPT-4o 的推理能力,注意到它相对于其他模型的进步,并期待它在更大的模型(如假设的 GPT-5)中的实现。关注点集中在 AI 的理论极限和实际应用,特别侧重于 OpenAI 的产品与 Claude 3.5 和 Google’s Gemini 等竞争对手的对比。
-
挑战 ASI 的边界:关于人工超智能 (ASI) 的讨论提出了关于实现“上帝般智能”及其伦理影响的问题。辩论在对 ASI 局限性的担忧与对其前所未有的技术进步的热情之间摇摆。
-
实际 Prompt Engineering 的苦恼:工程师们分享了对 OpenAI assistants 中 token 使用量的沮丧,简单的命令却产生了意想不到的高 token 计数。在创意方面,DALL-E 在生成不对称图像方面的局限性促使人们建议使用更多样化的描述性短语,但承认效果有限。
-
工程师的心声:呼吁更新与替代方案:用户对 OpenAI 停滞不前的更新(例如 Sam Altman 承诺的语音发布)表示不满,并讨论了使用 Google’s AI Studio 的聊天体验,注意到 Gemini 在处理长上下文窗口方面的卓越性能。
-
AI 在长输出和系统指令方面的实际局限性:ChatGPT 被指出因其 token 限制而在生成可靠的长输出方面存在困难。此外,关于 GPT-3.5-turbo-0125 有时会忽略系统指令的报告,导致了需要更清晰、更简化的指令以确保合规性的建议。
Stability.ai (Stable Diffusion) Discord
-
Stability AI 首席执行官备受关注:Shan Shan Wong 已被确认为 Stability AI 的 CEO。一些成员调侃未来可能会分享独家更新,但未提供具体细节。
-
AI 创作者的许可困扰:由 stabilityai/stable-diffusion-xl-base-1.0 模型生成的 AI 图像引发了关于许可的疑问,成员们正在探索使用各种 Creative Commons 许可。该模型在 CreativeML Open RAIL++-M License 下运行。
-
艺术社区频道被砍:由于活跃度低和机器人垃圾信息,Cascade 以及其他艺术相关的社区频道被删除,这在成员中引起了骚动。一名管理员指出,如果社区表现出重新关注的兴趣,这些频道可以恢复。
-
Turbo 与微调模型的对决:一些成员看重 Turbo 模型在速度和灵活性方面的价值,而另一些成员则主张在需要特定细节或概念准确性的任务中使用微调模型(Finetuned models),如 Juggernaut 和 Pony。
-
介绍 Mobius,去偏见模型:Mobius 模型被强调为去偏见扩散模型的领导者,它利用领域无关(domain-agnostic)的方法来减少偏见。讨论中提到了关于其大小和要求的问题,例如 clip skip 3 及其 Lora 兼容性。
链接:Hatsune Miku Gif, Mobius on Civitai, ComfyUI_TensorRT GitHub, Google Colab notebook。
Perplexity AI Discord
-
Perplexity CEO 对话 Lex Fridman:在一次引人入胜的播客节目中,Perplexity 的 CEO 讨论了 AI 对搜索和互联网的强大影响,并引用了 Larry Page 的格言“用户永远不会错”来激发灵感。视频可在 YouTube 上观看。
-
技术故障与突破:用户遇到了 Pro Search 在开启时无法找到来源的问题,这与 iPhone 应用的表现不一致,引发了社区的升级反馈。同时,人们对升级到 Claude 3.5 Sonnet 充满期待,尤其是它在创意写作方面的潜力,尽管其具体的集成方式仍是一个令人好奇的点。
-
AI 伦理成为焦点:一篇 Wired 的文章引发了关于 Perplexity 是否遵守 robots.txt 的辩论,一些用户为 AI 在检索用户请求信息中的作用辩护,而另一些用户则敦促进行更严格的审查。
-
前景与迷幻剂:对话从英国文学专业的高薪职业路径转向了围绕 Lululemon 收益的财务投机,并与关于迷幻体验如何改变个人信念系统的讨论形成了鲜明对比。
-
API 适应性的阵痛:Perplexity API 展示了坚实的性能,尤其是在运行大型 LLM 方面表现出色,但因其受限的定制化以及缺乏诸如通过 API 访问 Pages 等功能而受到批评。不过,通过 Perplexity API 设置页面 重置 API 密钥已变得非常简单。
CUDA MODE Discord
Character.AI 推动高效 INT8 训练:Character.AI 致力于通过 INT8 optimization 实现 AGI,其推理查询量已达到 Google Search 访问量的 20% 左右。关于其是否使用 Adaptive Quantization (AQT) 的探讨仍在继续。阅读更多。
Kernel Profiling 与 Triton 攻坚:Nsight Compute 是分析 CUDA kernels 以消除代码库性能 Bug 的首选工具,而 Triton 3.0.0 被誉为修复了众多问题的版本,并提供了详细的升级指南。GitHub profiling 脚本 以及 Kernel profiling YouTube 资源。
新兴 AI 突破:Qwen2、DiscoPOP 和 Mixture of Agents 的进展正在塑造 AI 的未来,并具有提升 LLM performance 的潜力。Open Empathic 和 Advisory Board GPT 等正在展开的研究项目为模型利用提供了创意视角。AI Unplugged 报道。
通过 Quantization 进行优化并引入 FPx:在精调细节的同时,社区评估了 tinygemm 的兼容性,迎接 FP8 quantization 的挑战,并思考 XLA 与量化模型的集成。uint2 quantization 与 FP16 的性能对比显示出显著的加速效果。量化代码参考。
利用新技术提升硬件性能:在 H100 box 上对 1558M 模型的实验表明,其速度比 A100 快 2.5 倍,从前沿硬件进步中获得了切实的效率提升。速度优化持续成为焦点,文中提到了通过 torch compile max autotune 实现了 20% 的提升。
Nous Research AI Discord
-
Hermes 2 Theta 超越 GPT-4:Hermes 2 Theta 70B 在 MT-Bench 上获得了 9.04 分,超越了 GPT-4-0314 的 8.94 分,展现了更强的创造力和能力。它是 Nous Research、Charles Goddard 和 Arcee AI 合作的产物,FP16 和 GGUF 版本均已在 Hugging Face 上线。
-
General 频道热议 Claude 3.5 Sonnet:社区对 Claude 3.5 Sonnet 的发布反应热烈,称赞其速度和问题解决能力,认为它是 AI 能力的一次飞跃。同时,关于模型解析的讨论强调了将特定模型的 tool calls 转换为标准格式的重要性,并建议将反向模板(reverse templates)整合进
tokenizer_config.json。 -
新资源预告:成员们在 #ask-about-llms 频道暗示即将发布新资源,引发了同行的好奇和期待。
-
模型集成技术受到关注:#general 频道中的一项建议描述了一种将工具直接合并到模型 prompts 中的方法,这可能有助于更流畅地使用多个 AI 工具。
-
音乐视频活跃讨论氛围:在一段轻松的交流中,一名成员在 #world-sim 频道分享了一个 YouTube 音乐视频,为技术讨论增添了调剂。
Torchtune Discord
-
直接数据流式传输指日可待:用户强调了 Torchtune 目前的局限性,因为内存中的数据集仍需从 Hugging Face (HF) locations 下载到本地磁盘。他们正在转向 streaming datasets(流式数据集)以绕过磁盘保存。
-
配置 HF 数据集:轻而易举:社区一致同意在
torchtune.dataset.chat_dataset中使用conversation_style: openai配置 HF 数据集,这应该能与 Torchtune 无缝集成。 -
序列长度争论定格在 8k:关于 llama3 最大序列长度的讨论达成共识,最高可达 8192 个字符,尽管有人对 VRAM capacity limitations(VRAM 容量限制)表示担忧。
-
内存管理速成课:针对模型训练期间(特别是使用 qlora 和 lora 时)出现的 RAM 相关崩溃,建议将层 offload 到 CPU,并解决 ROCm 设置中的怪癖以确保运行顺畅。
-
探索 ROCm 迷宫:关于为 AMD GPUs 设置 ROCm 的讨论揭示了几个问题,但社区分享的资源(包括一个关于在 6900 XT 上成功运行 ROCm 的 Reddit 帖子)被证明非常有价值。为了简单有效,从源码构建(Building from source)是推荐的途径。
HuggingFace Discord
AI 集成在脚本编写中非常方便:用户讨论了在 VSCode 中集成 Stable Diffusion,并建议通过编辑器内的终端运行命令。还有人提到使用 stable-diffusion-3-medium-diffusers 模型作为 Stable Diffusion 3 中缺失模型索引的变通方案。
LLM 关于药物名称和微调问题的辩论:NLP 模型表现出对通用药物名称(如对乙酰氨基酚)而非品牌名(如泰诺)的偏好,这暗示了可能存在数据污染,正如这项研究所讨论并在排行榜上展示的那样。同时,一位成员在利用 TRL 和 QLoRa 微调 Llama 3 时遇到了问题,并链接了他们的代码和潜在解决方案。
挑战多表数据合成的假设:一位成员审视了生成合成多表数据库(特别是包含日期列的数据库)的挑战,一篇文章比较了三家数据合成供应商。此外,一篇论文提出了 ToolkenGPT,这是一种让 LLM 通过 tokenization 使用外部工具的方法,旨在绕过微调和 in-context learning 的限制。
蛋白质预测获得并行处理能力提升:用户庆祝了 BulkProteinviz 的更新,这是一个开源的蛋白质结构预测工具,现在支持同时进行多个预测。这可能会显著加速计算生物学的研究。
Llama 3:70B 寻求规模升级:一位工程师询问了如何增加通过 Ollama 管理的 Llama 3:70B 训练数据的技巧,试图从 40GB 增加到 200GB,以进行更稳健的本地训练。
Modular (Mojo 🔥) Discord
MLIR 的 Kgen Dialect 引发困惑:社区成员对 MLIR 中的 kgen dialect 感到困惑,因为它缺乏公开文档,一位用户形容其代码非常混乱。在 MLIR 中实现 256-bit integers 的建议解决方法包括使用 SIMD[DType.int64, 4] 或 定义 i256 类型,参考自 GitHub 引用。
Mojo 乘上开源浪潮:成员们获悉 Mojo 语言已部分开源,其编译器将逐步开源,详见 博客文章。讨论揭示了 Mojo 目前在生产环境中的实际局限性,并建议在成熟之前不要将 Mojo 用于复杂的自动化工作。
通过包管理器和直播演进 Mojo 生态系统:Mojo 的包管理器正在开发中,社区提出了诸如 Hammad-hab 的 pkm 等建议。此外,社区受邀参加 Modular 社区直播,讨论 MAX Engine 和 Mojo 的进展,可在 YouTube 上观看。
Modular “引擎室”中紧迫问题的蓝图:针对 MAX Engine 中的 execute 函数提供了详细说明,指出它可以接收可变参数 NamedTensor 或 Tuple[StringLiteral, EngineNumpyView],如 Model 文档 所述。
Nightly 版本,谨慎处理 Mojo:宣布发布最新的 Mojo 编译器版本 2024.6.2005,用户可以查看 更新日志 了解详情。此外,还推出了一款名为 “mojo_dev_helper” 的新工具,供标准库贡献者使用,更多详情见 GitHub。
AI Stack Devs (Yoko Li) Discord
-
垃圾信息风暴袭击 Discord:Discord 公会内的多个频道受到垃圾信息机器人的困扰,这些机器人推广包含 OnlyFans 泄露内容的 “18+ 免费内容”,并附带一个非法 Discord 服务器链接。所有实例中共享的邀请 URL 为 加入 Discord 服务器!。
-
社区采取行动打击垃圾信息:在大量不当内容出现后,成员们采取行动举报并屏蔽了垃圾信息的来源。已确认对一名被举报的用户采取了措施,表明了社区内的警惕性。
-
Nitro Boost 赠送诈骗警示:除了成人内容垃圾信息外,还提到了所谓的 Nitro Boost 赠送活动,这很可能是与同一垃圾 Discord 链接相关的网络钓鱼尝试或诈骗的一部分。
-
重复的目标频道:垃圾信息并非孤立存在,而是出现在从 #committers 到 #ai-explained-cartoons 的各个频道中,表明这是一个普遍存在的问题。
-
成员的担忧与迅速响应:在垃圾信息泛滥期间,成员们表达了对需要采取迅速行动的担忧,并得到了肯定的回应,表明社区在处理此类干扰方面反应迅速且积极。
LM Studio Discord
LM Studio 0.2.23 的新里程碑:LM Studio 0.2.23 版本因其速度提升而备受赞誉,极大地提高了效率。用户反映在运行 Deepseek Coder v2 时遇到了“不支持的架构”错误,但指出通过禁用 flash attention 并使用 0.2.25 版本的 deepseek coder 预设可以缓解该问题。
硬件难题与 GPU 辩论:讨论围绕大型语言模型(LLM)对 VRAM 的巨大需求展开,建议为 34GB 模型配备 38GB+ 的 VRAM 以获得流畅性能,并辩论了 Nvidia 3090 与 4090 在性价比和 VRAM 容量方面的优劣。AMD 7900XT 对 LLM 的适用性受到质疑,原因在于 ROCm 支持问题以及在某些系统上的通用检测故障。
寻求前端灵活性:工程师们正在探索在各种设备上部署本地 LLM 服务器的前端选项,every-chatgpt-gui 和 awesome-chatgpt 仓库是常见的起点。一些人对 llama 相关 subreddit 中过于激进的自动审核表示不满。
模型讨论中的技术特性:Nvidia 的新故事叙述模型因其在强化内容方面的平衡而引起关注。Opus 的上下文容量范围引发了辩论,人们寄希望于扩展限制。DeepSeek Coder V2 Lite 有一种特殊的倾向,除非使用旧模板,否则会偏向于使用中文回答。在进行了一些实际测试后,用户表现出对新模型优于 Midnight Miqu 产品的偏好。
Beta 版和技术预览版的瓶颈:LM Studio 的最新 Beta 测试显示,在 Linux Mint 上存在 Nvidia 4070 GPU 的检测问题,以及 DeepseekV2 模型的运行故障。M1 Mac 用户在利用 GPU 加速时面临不一致的情况,而 AMD 用户则被引导安装 ROCm 软件包以确保 GPU 兼容性。
OpenRouter (Alex Atallah) Discord
- 更快、更便宜、更好的 Claude:Anthropic 推出了新的 Claude 3.5 Sonnet,声称其性能优于前代 Opus,同时价格便宜 5 倍,速度快 2.5 倍;它除了标准版本外还提供自我审核版本,价格详情见 推文。
- Stripe 额度显示故障:导致额度排队错误的 Stripe 支付问题已得到解决,过去半小时内受影响的交易已成功处理。
- Nemotron 的托管挑战:Nemotron 在托管商中并不受欢迎,主要是因为其 3400 亿参数的庞大体积以及与流行推理引擎缺乏兼容性。
- Dolphin Mixtral 的开放许可优势:Dolphin Mixtral 1x22b 模型获得了赞誉,该模型可在 HuggingFace 上获取,并被认为有潜力替代 Codestral,同时避免了许可限制。
- 澄清 DeepSeek-Coder V2 的限制:解决了关于 DeepSeek-Coder V2 上下文长度的困惑;尽管其模型卡片声称支持 128K,但进一步澄清显示,由于 OpenRouter 的托管限制,目前上限为 32K。
Eleuther Discord
-
1B 互联网争论解决器?成本 vs 实用性:关于专门训练一个 1B 模型来解决互联网争论的可行性展开了激烈辩论,关注点在于高昂成本与模型训练时间的对比,而在一个 H100 节点上,该训练时间可以缩短至两天以内。
-
技术困扰:Selectolax、Lexbor 和 NumPy 的痛苦:工程师们面临 Selectolax 和 Lexbor 导致段错误(segmentation faults)的技术问题,并且在
lm-eval-overview.ipynb中苦于 NumPy 2.0 的兼容性问题,即使降级后仍未解决。 -
Warc 与速度狂魔:关于 CC Warc 文件处理 的讨论中,成员们分享了各种优化方案,有报告称使用 100 个进程处理一个 Warc 需要 60 秒,而另一种方法则利用 32 个进程进行并行处理。
-
Data Hub 盛宴:Epoch AI 的 Data Hub 现在编目了 800 多个模型,旨在造福研究人员、政策制定者和利益相关者,并指出正如一份 CNAS 报告所讨论的,到 2030 年代前沿 AI 可能会出现计算爆炸。
-
研究财富:从 Token 数据集到 Slot SSMs:研究频道的讨论涵盖了多样化的话题,包括来自 DCLM-Baseline 的 4T Token 数据集的性能影响,一篇论文中介绍的用于更好序列建模的 SlotSSMs,模型在医疗应用中难以处理药物品牌名的问题,训练后增强技术如 LAyer-SElective Rank reduction (LASER),以及用于解决 LLM 中表面形式竞争(surface form competition)的领域条件 PMI。
Interconnects (Nathan Lambert) Discord
-
Claude 3.5 Sonnet 占据领先地位:Anthropic 推出了 Claude 3.5 Sonnet,宣称拥有更快的速度和更高的成本效益,并承诺未来将推出名为 Haiku 和 Opus 的模型。与此同时, Character.AI 专注于为其 AGI 优化推理,能够每秒处理 20,000 次查询——相当于 Google 搜索量的 20%。
-
青少年驱动的 AI 参与度:Character.AI 的会话时长显著增加,尤其是在年轻用户中,超过了 ChatGPT 的参与度。此外,Claude 3.5 Sonnet 在 aider 的代码编辑排行榜上名列前茅,尤其擅长 “whole” 和 “diff” 编辑格式。
-
AI 安全领域的“酸葡萄”心理?:成员们对 AI 安全的信任和实施表示怀疑,带有讽刺性的“相信我,兄弟”情绪,并引用了 Eliezer Yudkowsky 对 AI 对齐计划的挑战。Scott Aaronson 对 Ilya Sutskever 寻求理论上稳健的对齐立场的叙述也浮出水面。
-
Kling 胜过 Sora:快手发布了 可灵 (Kling),这是一款向公众开放的文本生成视频 AI 模型,它提高了标准,可以生成 1080p、30fps 的两分钟视频,这与 OpenAI 的 Sora 不同。此外,人们对 Meta 使用 5000 个 V100 生成合成数据的做法感到好奇,Nathan Lambert 正在重新审视这一话题。
LlamaIndex Discord
-
CrewAI 与 LlamaIndex 联手:CrewAI 宣布通过与 LlamaIndex 集成来增强多 Agent 系统,提供了一种定义 Agent “crew” 的方法,这些 Agent 可以利用 LlamaIndex 的功能来执行任务。有关此集成的详细信息可以在他们最新的博客文章中找到。
-
AI Fair 的未来演讲者:LlamaIndex 的创始人计划在 AI Engineer’s World’s Fair 上发表演讲,于 6 月 26 日讨论 知识助手的未来 (Future of Knowledge Assistants) 并发布一些重大公告,并在 6 月 27 日进行另一场会议。欲了解更多信息,爱好者可以在此了解更多。
-
向量存储定制查询:工程师们正在探索 LlamaIndex 的 VectorStoreIndex 的灵活性,提出了关于添加序列标识符、自定义相似度分数和异步节点检索的问题,尽管由于当前的限制,某些功能可能需要自定义实现。
-
从文档生成知识:分享了关于使用 LlamaIndex 的
DatasetGenerator从 PDF 生成问题的讨论,包括一个利用 OpenAI 模型完成该任务的示例。 -
索引持久化变得简单:对话重点讨论了存储持久化索引,强调了在 LlamaIndex 中使用
storage_context.persist()来存储 DocumentSummaryIndex,并附带了实用的代码说明。
OpenAccess AI Collective (axolotl) Discord
-
Nemotrons API 速度提升:成员们报告了 Nemotrons API 的改进,强调了显著的速度提升以及新发布的 reward model。
-
Turbcat 还是 Turbca?:对 Turbcat 的争论进行了澄清;它是模型名称,而 Turbca 是其背后的开发者。数据集配置和 tokenization 方法的问题引发了讨论和担忧。
-
Tokenization 的困扰与解决方案:关于 tokenization 以及如何处理 end of text (EOT) token 展开了激烈的辩论,一名成员展示了 Multipack with Flash Attention documentation 以展示最佳实践。
-
Qwen 模型的偏见揭秘:社区对 Qwen 模型 的偏见以及调整的需求表示担忧,并指向 Chinese LLM censorship analysis 以深入了解该模型潜在的宣传倾向。
-
Layer-Pruning 与 QLoRA 的完美结合:提到了 layer-pruning 与 QLoRA 的交叉应用,一名成员引用了其在提高模型性能(MMLU 分数提高多达 10 分)方面的成功应用,并提供了 a Hugging Face model card 获取实际应用细节。
LangChain AI Discord
-
单引号拯救系统:一位用户发现,在 SystemMessage 中用单引号替换反引号可以解决数据注入问题。
-
分块并征服长文本:讨论了处理来自网页抓取的大型文本数据的策略,包括 token 限制以及如何有效地合并分块响应,并附带了 LangChain documentation 的链接。
-
PDF 困扰向量数据库:一位用户发现使用 PDF 文档从向量数据库检索数据具有挑战性,系统给出了无意义的“我不知道”回答。
-
像专家一样管理事件流:分享了 astream_event 中的事件过滤技术,并指向 LangChain documentation 中的特定章节来指导用户完成该过程。
-
发布美食 AI 助手和聊天机器人:TVFoodMaps 推出了一项 AI 驱动的功能,帮助用户查找电视节目中出现的餐厅(需要高级会员);同时分享了使用 OpenAI & LangChain 创建 SQL agents 指南并征求反馈。一篇 Medium 文章介绍了一个名为 Conversational Time Machine 的新概念,探讨了 LangGraph Support Chatbot 的开发和用途。
tinygrad (George Hotz) Discord
近似计算的赏金猎人:为了完成在 function.py 中为 LOG2、EXP2 和 SIN 实现泰勒近似(Taylor approximations)的赏金任务,出现了关于在 ops.py 中添加位运算的问题,社区担心操作数量膨胀。实用性战胜了纯洁性,因为对新操作的需求与追求极简主义的目标产生了竞争。
多 GPU 探索继续:关于 NVLink 多 GPU 支持的澄清让大家了解到 GPU 是通过 PCI-E 连接的,并分享了一个 GitHub 资源,证明了 NVIDIA 具有 P2P 支持的 Linux 开源 GPU 内核模块。
Diffusion 模型的极高门槛:一位社区成员将 diffusion 模型从 PyTorch 移植到 tinygrad,引发了关于代码质量的辩论,George Hotz 为项目准入设定了很高的标准。鼓励贡献者提交 PR 以供审查。
Clip, Clip, 万岁?还是求救?:针对 TinyGrad 中 clip_grad_norm_ 的实现进行了深入的技术剖析,Metal 的限制迫使大家讨论将 tensor chunking 作为一种变通方案。这标志着在硬件限制下进行优化的持续斗争。
权重绑定,Bug 现身:一个涉及 TinyGrad 中权重绑定(weight tying)的疑似 Bug 被曝光,揭示了两个表面上链接的 tensor 正在被独立优化。社区正在处理此案,建议修正库以实现一致的权重优化。
LLM Finetuning (Hamel + Dan) Discord
-
Discord 社区存续讨论:成员们讨论了课程结束后 Discord 服务器的持续活跃度,认为这将取决于成员和版主的参与度,目前尚未列出具体计划。
-
专家级 LLM 直播预告:宣布了一场与来自 Amazon 的 Eugene Yan 和来自 Hex 的 Bryan Bischof 进行的直播,讨论现实世界中的 LLM applications。直播将分享针对 prompt engineering、评估和工作流优化的见解。感兴趣的成员可以在此处注册,并探索他们在 O’Reilly 报告中详细记录的学习成果。
-
Finetuning 见解与需求:关于自定义 LLM workloads,讨论包括对欺诈检测等特定角色需要进行 fine-tuning,而语言翻译等通用任务则可能不需要。此外,Jarvis Lab 即将推出的 Docker 功能以及 Modal 的用户体验增强在 finetuning 方面引起了热议。
-
额度与访问问题成为焦点:多名成员在 LangSmith 和 OpenAI 等平台上寻求有关额度和账户访问的帮助,通常会提供 ID 或电子邮件以寻求解决,这表明存在一定程度的困惑或技术问题。
-
技术故障与突破:在赞扬设计良好的 eval 框架的同时,用户报告了从 Predibase 的 CORS 错误到 OpenAI 上的额度可见性等各种技术问题,反映了在将 LLM 应用于项目的实际过程中用户体验的复杂性。
OpenInterpreter Discord
-
AI 讨论中超越财富的收获:成员们开玩笑讨论 OpenInterpreter (OI) 是否能让人在财务上更富有,引发了关于实现 100% 富有而非仅 5% 的俏皮话。在另一个话题中,围绕 Claude 3.5 Sonnet 的讨论显示,用户更喜欢它的对话风格而非 GPT-4。
-
AI 模型角逐最高荣誉:关于最佳无审查模型的辩论浮出水面,”2.8 dolphin” 和 “mistral 3/31/24” 被提及为竞争者。观点各异,表明用户对每个模型的体验不同,目前尚未出现公认的最佳模型。
-
Open Interpreter 的记忆功能:关于 OpenInterpreter 潜在长期记忆能力的咨询引发了讨论,但尚未产生结论性的解决方案。成员们正在积极研究如何为 OI 配备持久化内存。
-
OpenInterpreter 暂定的制造里程碑:#O1 频道的一份更新指出,根据 Ben 的公告,首批 1,000 台 OpenInterpreter 设备预计将在 10 月 31 日至 11 月 30 日之间发货。用户对订单状态和在首批货件中的排位感到好奇。
-
本地任务导向控制器的实用 AI 魔法:一段演示展示了一个完全本地的、控制计算机的 AI 通过读取便签上的密码成功连接到 WiFi,说明了 AI 在执行日常任务中的有效性。该示例反映了 AI 简化日常技术交互的潜力。
LAION Discord
-
图谱化标注(Graph-Based Captions)实现跨越:GBC10M 数据集(CC12M 的图谱化重新标注版本)现已在 Hugging Face 上可用。目前正在努力争取更宽松的许可证,并将数据集迁移到 Hugging Face 上的 Apple organization,计划在 arXiv 上发表配套论文,并在代码完善后发布。
-
对抗鲁棒性辩论升温:学术界爆发争论,Carlini 和 Papernot 等专家就对抗鲁棒性问题向 Glaze 作者发起挑战,特别是针对扰动预算(perturbation budgets)中未公开的代码库。
-
VAEs 通道数增加引发技术讨论:将 VAE latent spaces 中的通道数从 4 个增加到 16 个引发了技术辩论,对比了潜空间的复杂性与计算成本,并指出全局注意力随像素数量呈二次方缩放。
-
Claude-3.5 解决了过拟合之谜?:一位工程师的手动实验表明,Claude-3.5-Sonnet 展现出令人期待的能力,能够通过问题进行推理,而不会像其他模型那样在可识别的模式上产生过拟合。
-
Chameleon 模型训练陷入困境:工程师们在 Chameleon 模型上遇到了意想不到的挑战,极端的梯度范数(gradient norms)导致了 NaN 值,通过降低学习率或切换到更高精度等标准修复方法均无济于事。
Cohere Discord
-
使用 Cohere 构建多语言聊天机器人:AI 爱好者们正利用 Cohere API 开发各种语言的聊天机器人。讨论中强调了其与 OpenAI API 的兼容性,允许通过 RESTful API 或 socket 集成到任何环境中。
-
紫色赞誉:Cohere 的界面,特别是其对紫色的使用,因其时尚的设计在社区中获得了称赞,为成员们未来的设计工作激发了灵感。
-
项目开发中的问题解决:一位社区成员分享了他们在处理可能与 API 问题相关的聊天挂起时的经验,并承诺通过 UI 调整和持续的故障排除来解决该问题。
-
社区情谊:参与者们表现出明显的兴奋,他们欢迎新成员,并分享了对 Cohere 独特且智能的方法的正面印象。
-
平台适应性讨论:围绕在不同平台上利用 Cohere 能力的对话展开,特别提到了在 Mac 上使用 .NET 创建聊天机器人。
Latent Space Discord
-
Toucan TTS 打破语言障碍:开源的 Toucan TTS 模型以其支持 7000 种语言的 TTS 能力而脱颖而出,其特点是拥有一个用于语言无关发音特征的文本前端,并利用 Meta-learning 处理缺乏数据的语言。
-
Claude 3.5 Sonnet 将效率提升至新高度:全新的 Claude 3.5 Sonnet 凭借超越竞争对手的表现、更快的速度和更低的成本给社区留下了深刻印象。成员们还庆祝了 Artifacts 功能的发布,它是 Code Interpreter 的继任者,支持实时生成文档、代码和图表。
-
咨询合作创造 AI 协同效应:市场传闻 Jason Liu 的 Parlance Labs 与 Hamel Husain 及 Jeremy Lewi 的团队合并,联手加强 AI 产品支持与开发,重点关注基础设施、Fine-tuning 和评估,正如他们的公告中所述。
-
Groq 加强 Whisper 支持,但疑虑尚存:Groq 新增的 Whisper 模型支持实现了 166 倍实时的处理速度,为更快的 AI 处理打开了大门;然而,社区对其目前的 Rate limits 以及该模型的广泛适用性提出了疑问。
Mozilla AI Discord
- Llamafile 旨在实现模型多样性:在讨论中,有人提议在 Llamafile 结构中利用 YOLOv10 PyTorch 和 OCR Safe Tensors。提供的一种解决方案是利用 llama.cpp 的 Python 脚本将这些模型转换为 gguf 格式。
MLOps @Chipro Discord
-
Infer 会议引发 AI/ML 讨论:Hudson Buzby 和 Russ Wilcox 将在 Infer: Summer ‘24 上主持关于现实生活中的推荐系统和 AI/ML 挑战的对话,重点关注优化 AI Pipeline 和内容准确性,届时将有来自 Lightricks 等公司的专家参加。
-
在 RecSys Learners 虚拟见面会进行交流与学习:由 Rohan Singh S Rajput 于 2024 年 6 月 29 日举办的 RecSys Learners Virtual Meetup 为各级专业人士提供了一个连接并增强推荐系统知识的平台。
Datasette - LLM (@SimonW) Discord
Florence 2 提升了手写 OCR 水平:微软的 Florence 2 因其在手写识别和 OCR 方面的卓越表现而受到称赞,对新闻业尤其有用。微软的这款模型在处理公共记录方面表现出色。
在 Hugging Face 上试用 Florence 2:Florence 2 模型可在 Hugging Face 上的 Florence-2 进行动手实验,展示了其在视觉相关任务中的一系列能力,这对于 AI 开发和研究至关重要。
深入了解 Florence 2 的视觉实力:该模型对各种视觉和视觉语言任务使用基于 Prompt 的方法论,并在包含 54 亿条注释的海量 FLD-5B 数据集上进行训练,展示了在多任务学习方面的精通以及在 Zero-shot 和 Fine-tuned 场景下的适应性。
YAIG (a16z Infra) Discord
- “别提 AI,否则会被摔死”: 一篇有趣的博客文章,名为 “如果你再提 AI,我就他妈的把你摔死”,嘲讽了 AI 的炒作周期,警告不要过度狂热且不切实际地采用 AI 技术,并警告说这是 “为想要准备十二道菜的他妈的灾难的人准备的食谱”。对行业文化批评感兴趣的工程师可能会发现这是一篇独特但相关的读物,点击此处阅读。
LLM Perf Enthusiasts AI Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
DiscoResearch Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道沉寂时间过长,请告知我们,我们将将其移除。
第二部分:按频道分类的详细摘要和链接
完整的各频道详细内容已针对邮件进行截断。
如果你喜欢 AInews,请分享给朋友!提前致谢!