ainews-not-much-happened-today-1036

今天没发生什么。

Meta 推出了 Meta 3D Gen,这是一个能在 1 分钟内通过文本端到端生成 3D 资产的系统,能够产出具有精细纹理的高质量 3D 资产。Perplexity AI 更新了 Pro Search,使其能够通过多步推理和代码执行来处理更深层次的研究任务。微软改进了 Phi-3 Mini,提升了其长上下文理解和指令遵循能力。GPT4All 3.0 正式发布,支持数千种模型并兼容主流操作系统,还具备本地文件聊天功能。Yi-Large 模型已在 Fireworks AI Playground 上线。

研究亮点包括:人类反馈强化学习 (RLHF) 的演变、利用 10 亿个多样化人格驱动的数据合成、旨在提升少样本泛化能力的元微调(meta-tuning),以及用于控制模型行为的引导向量(steering vectors)。工具更新方面:LangSmith 改进了记忆检索功能;Qdrant Engine v1.10 增加了通用查询 API 和多向量搜索支持。

#3d-generation #long-context #instruction-following #reinforcement-learning-from-human-feedback #persona-driven-data-synthesis #meta-tuning #model-steering #memory-retrieval #multivector-search #universal-query-api phi-3-mini gpt4all-3.0 yi-large meta-3d-gen meta perplexity-ai microsoft gpt4all langchainai qdrant-engine

诚实即你所需。

2024年7月2日至2024年7月3日的 AI 新闻。 我们为您检查了 7 个 subreddits、384 个 Twitter30 个 Discord(418 个频道和 2896 条消息)。 预计节省阅读时间(以 200wpm 计算):341 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论!

Arvind Narayanan 等人发表了一篇论文,探讨了 Agent 论文大多不可复现且忽略成本的问题;Meta 发布了一个 text-to-3D 资产模型Magic.dev 和 Poolside 是正在寻求独角兽轮融资的代码模型公司;OpenDevin 现在已成为一家公司;Kyutai 发布了一个实时 Audio LLM,但其效果可能并不如宣传的那样;Peter Thiel 资助了某个 AGI Blockchain 项目;The New Stack 发布了第一篇第二篇关于 AIEWF 的报道。


目录频道摘要已移至此邮件的网页版:


AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成,取 4 次运行中的最佳结果。我们正在尝试使用 Haiku 进行聚类和流程工程(flow engineering)。

AI 模型发布与更新

  • Meta 3D Gen@AIatMeta 推出了 Meta 3D Gen,这是一个用于在 1 分钟内从文本端到端生成 3D 资产的新系统,可生成具有高分辨率纹理和材质贴图的高质量 3D 资产。详细信息请参阅技术报告。
  • Perplexity Pro Search 更新@perplexity_ai 宣布了 Pro Search 的更新版本,它可以通过多步推理、Wolfram Alpha 和代码执行,对更复杂的查询进行更深入的研究
  • Phi-3 Mini 更新@rohanpaul_ai 分享了微软更新 Phi-3 mini 的消息,通过后期训练改进,在长上下文理解、指令遵循和结构化输出方面取得了显著进步
  • GPT4All 3.0@andriy_mulyar 宣布推出 GPT4All 3.0,支持数千个模型和所有主流操作系统,并带来了重大的 UI/UX 改进以及通过 LocalDocs 实现的本地文件聊天功能。
  • Yi-Large 上线@01AI_Yi 庆祝 Yi-Large 在 Fireworks AI Playground 上线一周,并征求用户对该模型的反馈。

研究论文与技术

  • 来自人类反馈的强化学习 (RLHF)@cwolferesearch 概述了 RLHF 研究的演变,追溯到研究使用人类反馈训练摘要模型的论文。文中链接了关键论文。
  • 角色驱动的数据合成 (Persona-Driven Data Synthesis)@rohanpaul_ai 分享了一篇论文,提出了一种使用 Persona Hub 的角色驱动数据合成方法。Persona Hub 包含 10 亿个多样化的角色,旨在为 LLM 训练和评估创建可扩展且多样化的合成数据。
  • 用于 Few-shot 泛化的 Meta-tuning@slashML 分享了一篇关于“通过稀疏插值专家释放 Meta-tuning 在 Few-shot 泛化中的力量”的论文。
  • 引导向量 (Steering Vectors)@sarahookr 分享了关于引导模型行为趋向不可微目标的工作,通过约束生成过程,显式引导模型最小化或最大化不可微特征。

框架与工具

  • LangSmith@LangChainAI 分享了一个案例研究,介绍 @newcomputer 如何使用 LangSmith 快速迭代并改进记忆检索,使其 Agent 记忆系统 Dot 的召回率提高了 50%,准确率提高了 40%。
  • Qdrant Engine v1.10@qdrant_engine 发布了 Qdrant engine v1.10,具有 通用查询 API、多向量搜索、逆文档频率 (Inverse Document Frequency) 等新功能。
  • Leap AI@LeapAI_ 介绍了他们的平台,用于构建自定义 AI 工作流以自动化内容创建、线索生成等,并集成了 GPT-4 等最先进的 AI 模型。

讨论与观点

  • AI 的功能增强研究 (Gain of Function Research)@JvNixon 对 AI 的“功能增强研究”表示担忧,将其与生物武器研究相类比,并指出创建团队试图生成新颖、危险的输出来证明模型是否安全的潜在危险。
  • 毁灭概率 (p(doom)) vs. 生存概率 (p(life))@JvNixon 认为,用 p(doom) 来界定 AI 风险是一个深刻的集体心理错误,这迫使人们去想象抽象的超级智能。他们更倾向于使用 p(life) —— 你和你爱的人在遥远的未来生存的概率 —— 因为它涵盖了更多生命和进步的内容,并迫使人们在风险与收益之间取得平衡。
  • AI 实验室的闲置算力@far__el 指出,许多 AI 实验室都有大量闲置算力,因为他们需要爆发式的算力支持。这导致了重度补贴的推理服务等现象,将算力成本重新定义为营销支出。

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!

AI 模型与技术

AI 视频与动画

AI 伦理与社会影响

其他


AI Discord 摘要回顾

摘要之摘要的摘要

  1. 实时 AI 模型成为焦点
    • Kyutai Labs 推出了 Moshi,这是一个用于实时文本和音频生成的 7B 多模态模型,响应时间仅为 160ms。因其开源可用性和极速交互(尽管略显机械感)而引发关注,在演示环节展示后,计划修复一些细微的 Bug。
    • Phi-3 Mini 模型迎来了类似于 3.5 Mini 的重大更新,并即将支持 Gemma 2,但用户反馈的启动问题反映了前沿 AI 工具在集成过程中的挑战。
  2. 优化 AI 部署与内存管理
    • 关于 Colab 和 Kaggle notebooks 的广泛讨论分享了内存管理的最佳实践,包括使用 gc.collect()torch.cuda.empty_cache() 等方法。用户还就根据数据集大小缩放模型的 LoRA rank 展开了辩论,强调通过高效的资源处理进行优化。
    • Gemma 2UnslothLM Studio 等工具的支持增强显著提升了微调速度,Unsloth 实现了 2倍的微调速度63% 的内存占用减少;同时,LM Studio 的 0.2.27 更新解决了在 Mac, Windows, and Linux 上的兼容性问题。
  3. AI 模型训练与微调的创新
    • QLoRA 因其对量化 LLM 的 高效微调 而受到关注。正如 QLoRA 论文中所详述,它允许在 48GB GPU 上微调 65B 参数模型,并使用 4-bit 量化达到接近 16-bit 精度的性能。
    • 成员们深入探讨了使用 DeepSpeed 和针对 Nvidia 的 Inductor 后端来优化 CUDA 操作,重点关注 自动调优 GEMM 后端 以及排查 torch.cuda.OutOfMemoryError,进一步强调了硬件感知优化的重要性。
  4. AI 中的隐私、安全与伦理考量
    • 数据政策执行的担忧引发了关于 OpenAI GPT-4 订阅定价以及影响用户体验的偶发性模型参数调整的激烈讨论。因轻微违反政策而导致数据集被删除的问题,激发了关于执行一致性与用户需求之间平衡的辩论。
    • 关于 GlazeNightshade反 AI 艺术软件的讨论提出了伦理问题,即如何在版权保护与技术进步之间取得平衡,凸显了社区对潜在规避保护工具行为的挫败感。
  5. 社区工具、教程与协作
    • 用户分享了各种开源工具和教程,例如使用 Transformers 创建自定义流水线 (Pipelines) 以及用于角色扮演提示词的 Gradio 应用,促进了协作学习和实际落地。
    • 针对 AI Town 等 AI 工具的 Docker 镜像开发吸引了社区的积极参与,重点在于简化安装流程,并通过 GitHub 上的详细 PR 和文档提交确保与各种平台的兼容性。

第一部分:高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

  • Phi-3 Mini 的华丽蜕变:Phi-3 Mini 模型经历了重大更新,类似于 3.5 Mini,根据 Unsloth AI 的公告,兼容 Gemma 2 的量化版本预计很快发布。
    • 用户反馈显示,对于 Unsloth 中新的 Gemma 2 支持既感到兴奋,也遇到了启动问题,这反映了尖端 AI 工具集成初期的磨合问题。
  • Moshi 的旋律 AI 精通:Kyutai Labs 推出了“Moshi”,这是一个 7B 多模态 LM,能够实时生成高质量的文本和音频,响应时间达到 160ms,并计划开源。
    • AI 社区对 Moshi 的能力议论纷纷,包括其 RLHF 微调、后端通用性以及对即将到来的更新的期待。
  • Colab 的容量攀升:新分享的 Colab/Kaggle notebook 提供了广泛的数据集支持,并引入了根据模型和数据集大小缩放 LoRA rank 等改进,引起了 Unsloth 社区的关注。
    • 成员们讨论了内存管理的最佳实践,包括 gc.collect()torch.cuda.empty_cache(),同时承认为了便于使用,需要固定(pin)资源密集型的 notebook。
  • 秘密安全的 Docker 部署:关于 Docker 部署中安全密钥管理的讨论正在进行,社区共识倾向于将使用 --env-file 标志处理环境变量作为最佳实践。
    • 社区流传着高效容器处理和部署的建议,例如使用本地注册表以及 docker savectr images import 等 Docker 命令。
  • 解决 Unsloth 的本地怪癖:用户报告了在本地使用 Unsloth 时的配置问题,建议的修复方案包括更新 config 对象以反映 API 的变化。
    • 尽管 Gemma 2 预计在 1-2 天内更新的消息引起了社区轰动,但持续的讨论仍在强调延迟,并热切期待 PHI 的 JAVA 评估改进。

OpenAI Discord

  • GPT-4 订阅者苦于使用限制:用户对 GPT-4 订阅表示担忧,面临快速达到消息上限以及升级后性能下降等问题。社区交流了替代方案,并强调了模型的局限性。
    • 关于订阅定价出现了辩论,一些每月支付高达 60 美元的用户对 OpenAI 零星的参数调整提出质疑,怀疑其作为专业工具的性价比。
  • AI21 隆重推出“Jamba”AI21 Labs 推出了 “Jamba”,号称结合了 Mamba SSM 技术和 Transformer 架构,展示了其 256K 上下文窗口和极具竞争力的定价,引发了热烈讨论。
    • 随后展开了关于将 Jamba 应用于编程任务的讨论,报告显示其结果与 GPT-4 和 Claude 等其他 AI 模型相比褒贬不一,引发了关于提高准确性的潜在方法的对话。
  • 开源 AI 工具加入战局“Moshi” 的发布引起了许多人的兴趣,这是一个用于实时 AI 对话的开源工具,尽管目前仍处于早期阶段且存在局限性。
    • 社区权衡了开源 AI 工具与专有模型的优缺点,讨论了这些发展将如何影响 AI 在日常技术中的融合。
  • 提示工程(Prompt Engineering)深度探索提示工程成为核心话题,成员们分享了磨练提示词的建议,以实现更精确的 AI 任务表现,特别是针对创建带有格式化产品标签的 PDF 等细微任务。
    • 用户应对了 DALL-E 提示工程的复杂性,提供了简化提示词和提高特异性等建议,以减少不必要的图像元素问题。
  • 嵌套 GPT 引发好奇与辩论:在 GPT 开发领域,一位用户关于 GPT 调用其他 GPT 可行性的询问,开启了关于此类嵌套功能的技术细节和假设深度的讨论。
    • 社区还对数据政策的执行表示不满,指出一个涉及 15 年前条目的数据集被删除,引发了关于灵活合规与严格准则之间平衡的讨论。

LM Studio Discord

  • LM Studio 的最新 Gemma 2 增强功能:LM Studio 0.2.27 引入了对 Gemma 2 模型的改进支持和兼容性,并在 Mac、Windows 和 Linux 平台上增强了性能。建议用户更新到新版本以获得无缝体验。
    • abetlen 这样的社区贡献者在更新 Gemma 9B 和 27B 模型方面发挥了重要作用,这些模型可以从 Hugging Face 重新下载,以确保与当前设置的兼容性。
  • 在 ROCm 之海上平稳航行:一个令人担忧的错误 ‘unknown model architecture: gemma2’ 引发了围绕新版 LM Studio 0.2.27 的讨论,提议的解决方案包括清除缓存或完全重新安装
    • 针对 ROCm GPU 兼容性性能的社区测试表明,在 AMD Radeon RX 6900 XT 等模型上取得了成功,并提示协助验证针对更新软件版本的最新 Linux ROCm 扩展包。
  • 解决功耗难题:对 LM Studio 能源消耗的深入研究揭示了较高的待机功耗,引发了关于能效的讨论,并与 Blender 等其他工具进行了对比,表明需要进行优化。
    • 操作系统之间的差异显现,Linux 用户注意到他们的 GPU 在运行模型时功耗更低,而 Windows 用户在类似活动中报告了功耗激增。
  • 缩放之战与界面改进:关于 LM Studio 的反馈指出了在 1080p 显示器上的缩放问题,由于界面拥挤限制了工作流效率,并强调了在多显示器环境中布局优化的重要性。
    • 用户建议在 LM Studio 的界面模型列表中增加发布日期等元数据,这一建议得到了社区的积极响应。
  • Gradio 应用的角色扮演革命:为了追求更丰富的角色扮演体验,一位用户率先开发了一个带有动态变量的 Gradio 应用,旨在改善沉浸式角色互动,点燃了 AI 驱动叙事的创新之火。
    • 该应用提供定制提示词的能力使其处于前沿,并邀请社区反馈以增强其功能,可在这个创意空间查看。

HuggingFace Discord

  • Transformers 4.42:新模型亮相Transformers 4.42 版本首次推出了 Gemma 2 等新模型,改进了工具可用性和微调能力,标志着模型进展的又一步。
  • 数据丰沛:AWS Chronos 数据集公开:AWS 在 HF 上发布了全面的 Chronos 数据集,包含预训练和评估基准,为时间序列分析提供了丰富的资源。
    • 研究人员可以通过 AWS 数据集深入研究时间模式,这可能会激发数据驱动的洞察和模型创新。
  • AI 专业技能发展:免费课程涌现哈佛大学等知名机构提供免费的 ML 课程,拥有优质内容和认证途径。
    • 这些课程是那些旨在无经济障碍地提高 ML 熟练程度的人的门户,尽管基础知识的重复性是潜在学习者需要考虑的因素。
  • 社区参与:新角色与资源:HuggingFace 的 Discord 社区随着对 Qwen2 等大上下文窗口模型能力的持续讨论而不断壮大,表明人们对细致文本处理的兴趣日益增加。
    • HF 模型(如 Meta-Llama)与闭源巨头之间的效率对比显示,开源模型正在挑战闭源工具的主导地位。
  • Diffusers vs. A1111:模型质量争议:在运行相同的生成参数时,用户报告 RealVisXL V4.0 Lightning 在使用 diffusers 时质量不如 A1111,尽管设置完全相同。
    • 讨论集中在不同执行方法之间的质量权衡,这对于在照片级真实感任务中实现所需的模型性能至关重要。

Eleuther Discord

  • GPT-4 的巨大容量:Nvidia 的预览:GPT-4 推测的参数范围在 1.7 到 1.8 万亿 之间,引起了广泛关注,使 GPT-3 的 1750 亿 显得微不足道。在一场 涉及 Nvidia 的讨论 中,尽管有保密协议(NDA),但由于硬件支持方面的紧密联系,暗示了该公司与此的深厚渊源。
    • InstructGPT 的实际应用展示了 10 倍到 100 倍 的效率提升,这归功于 Reinforcement Learning from Human Feedback (RLHF),引发了对其潜力的热烈讨论。
  • Scaling Law 之争:Kaplan vs. Hoffmann 的解析:社区讨论了 Kaplan 等人与 Hoffmann 等人提出的 Scaling Law 之间的差异,并对最后一层成本和预热时长提出了新见解,详见 arXiv 论文
    • 对话强调了 PyTorch FLOP 计数器 可能存在的缺陷,以及准确的 FLOPs 计算方法对模型扩展的重要性。
  • 解释可解释性:稀疏电路浮出水面:关于 EAP 和集成梯度的论文启发了对 稀疏特征电路 (sparse feature circuits) 的探索,这是一种剖析语言模型行为的方法,旨在建立 这项工作 中概述的有条理的可解释性流水线。
    • 用于分类器泛化的 SHIFT 方法激起了好奇心,表明细粒度的可解释性单元可以消除无关特征,并从人类判断中汲取灵感。
  • 预处理中的困惑度:导航长文档Stellaathena 的配置困惑度因其在 proof-pile 中的错误而让其他人感到困惑,这与 lambada_openai 的顺畅运行形成鲜明对比,引发了关于确保模型评估效率和准确性的讨论。
    • 技术讨论包括 loglikelihood_rolling 功能及其在将对数似然转换为损失值中的应用,这是该论坛在模型评估方面持续敏捷性的一部分。

Perplexity AI Discord

  • 尝试 Gemini 1.5 Pro:用户参与了关于 Gemini 1.5 Pro 的讨论,强调了其 大上下文窗口 和快速响应时间。该聊天机器人因其稳健的性能而获得推荐,并收获了正面反馈。
    • 同时也提出了关于 Perplexity 实时联网访问 的担忧,用户在获取实时数据能力方面的体验参差不齐,导致了一些挫败感。
  • 应对 GPT4o 访问困难:成员们强调了免费访问 GPT4o 的挑战,转而向他人推荐 Bing chatClaude 3.5 Sonnet 作为免费对话的可行替代方案,但受使用限制约束。
    • 对话还包括关于 Perplexity Pro 订阅退款流程 的提示,并针对欧盟、英国和土耳其等不同地区提供了定制建议。
  • Perplexity 的移动端精通:关于 Perplexity 移动应用功能 的疑问得到了澄清,确认 iOS 端已包含 Wolfram Alpha代码生成 能力。
    • 关于移动端功能重要性的讨论表明,用户对在手持设备上访问高级工具表现出浓厚兴趣。
  • Sonnet 的 API 缺席:讨论显示 Sonnet 3.5 尚不支持 Perplexity API,促使用户查阅 官方模型文档 以寻找替代方案。
    • 除 API 功能外,还出现了关于通过 API 利用 Perplexity 搜索引擎 潜力的咨询,社区对访问这些扩展功能表现出极大的热情。
  • AI 黑盒构建模块:提供了在 AI 中创建黑盒系统的说明和原则,为构建这些复杂系统提供指导。
    • 分享了包括 精益画布 (Lean Canvas)Perplexity AI 创立 在内的素材,有助于更广泛地理解技术领域的战略规划和创业初期。

CUDA MODE Discord

  • CUDA 秘密会议召开:由 Ash Vardanian 主办的 CUDA-only hackathon 邀请了 Chris Lattner,定于 7 月 13 日在旧金山的 AGI House 举行,提供 H100 accelerators 的实操经验。点击此处查看详情,由 Nebius.ai 提供支持。
    • 在另一场活动中,Meta 的 Hacker Cup 2024 准备于 9 月 20 日开赛,Mark Saroufim 敦促开发者们投入 code generation challenge。与此同时,GPU 爱好者们正纠结于 NVIDIA 3090 的 1,000 美元标价,Mark Saroufim 分享说他以 1,200 美元的价格抢到了一块 4090
  • 矩阵乘法精通Mobicham 发布了一份在 CPU 平台上实现超过 1 TFLOPS 矩阵乘法性能的指南,专门针对 AMD Ryzen 7700 进行了优化,性能超越了 NumPy 的表现。教程可以在这里找到
    • 3D V-Cache 技术因其对 AMD Ryzen 性能的贡献而受到关注,引发了关于其在增加缓存容量之外的专业化讨论,涉及 clock speeds 和 silicon layering
  • 集成器的细节:关于在 PyTorch 中使用 Nvidia 的 Inductor 后端编译函数的讨论展开,提到了 John Carmack 对 PyTorch 团队的称赞,同时深入探讨了使用 torchao 进行 buffer loading 和 dequantization 的过程。
    • 发现了一个强制 Inductor 为所有操作生成 Triton kernels 的小问题,其中 GEMM 成功但 Conv 失败,详见寻求解决方案的 GitHub issue
  • 模型内存奇迹:前沿的内存效率策略让该频道的模型成为焦点,这些模型可以轻松处理让 PyTorch 望而却步的 batch sizes,强调了模型的 memory savings
    • 引用的 GitHub Pull Request #667 解决了训练期间 batch sizes 中的小数点导致整数除法错误的问题,标志着一次增量改进。
  • 优化器探索之旅Facebook Research 的 schedule-free optimizers 带来了一波乐观情绪,据称这些优化器在各种任务中都表现出了加速收敛的特性,有可能重塑优化方法论。
    • 社区分享的发现表明,在不严格遵守 schedule 的情况下微调模型的潜力显著提升,正处于优化技术复兴的边缘。

Stability.ai (Stable Diffusion) Discord

  • 艺术家盟友的策略减弱:社区对话集中在开发 anti-AI art software(如 GlazeNightshade)以保护艺术家版权,但几位成员对绕过此类工具的简易性表示担忧。
    • 对话强调了在 AI 训练中维持 copyright protection 与技术进步之间平衡的挑战。
  • 像素完美的困境:关于 16x16 pixel art 的咨询引出了在 512x512 分辨率下进行训练的建议,尽管 Crystalwizard 评论说为了追求效率可能需要不断的尝试。
    • 重点放在了训练方法的实验上,以磨练针对这种特定艺术风格的图像生成,强调了 AI 模型训练的细粒度。
  • Discord 就业中心讨论:有帖子询问服务器是否有专门的 job-posting channel,突显了社区内对 freelance and job opportunities 需求的激增。
    • 另一场讨论思考了自由职业者之间 upwork account rentals 的伦理和物流问题,反映了科技领域的零工经济现状。
  • 提示词技巧与性能之谜:关于各种 prompting techniques 的辩论展开,例如 **[A B], C** 与 [A, B, C] 的对比,评估它们对图像输出的影响,特别是在使用 SD1.5segmoeMixofExperts 等模型时。
    • 兴趣集中在改进技术以在 text2img 结果中获得更高的保真度,讨论评估了不同语法方法的有效性。
  • 模型大乱斗:MixofExperts 与 segmoe:社区评估详细介绍了 segmoe 模型在 prompt understanding 方面的进步(在 ComfyUI 等应用中展示),以及它被认为优于小众的 SD1.5 finetunes
    • 成员们的对比分析阐明了性能上的细微差别,以及在新兴模型中追求精确自然语言理解的探索。

OpenRouter (Alex Atallah) Discord

  • OpenRouter 上的模型演变:OpenRouter 宣布了一系列变化,包括对 /models 页面重大更新,以及对 Gemini 和 PaLM 模型的 Google Token 大小进行的调整——将更大的 Token 与 GPT 等同,从而影响定价模型。
    • OpenRouter 迎来了一波弃用潮:设置页面上的默认模型 (Default Model) 和 OpenAI API 密钥的自定义认证标头 (custom auth headers) 都将被停用,转向更新的实践和标准。
  • Claude 3.5 的连接难题:社区用户在处理 Claude 3.5 时一直遇到 500 错误,这促使一些人暂时转向 Claude 3.0 等替代版本以寻求稳定性。
    • OpenRouter 上的讨论涉及了隐私设置和日志策略,各供应商立场不一;NovitaAIInfermatic 因承诺不保留数据而脱颖而出,正如 Alex Atallah 所强调的那样。
  • 讨论 LLM 精度:AI 工程师推测了 OpenRouter 上 LLM 模型的量化 (quantization) 情况,辩论焦点在于部署的模型是使用 FP16 还是保持其原始精度(除非供应商特别更改)。
    • 针对利用 Claude 模型的替代前端(如 SillyTavernLibreChat)的有效性进行了辩论,并提出了 TypingmindPal Chat 等建议以增强互动。

Latent Space Discord

  • Magic.dev 无代码获注资:在一次惊人的财务飞跃中,Magic.dev 在仅有 20 名员工、且没有任何产品或收入记录的情况下,估值飙升至 15 亿美元
    • 这笔前所未有的融资旨在将这家新兴公司定位为 AI 领域强大的竞争者,为初创企业设定了新的融资基准
  • 十亿角色指南发布:合成数据生成取得突破性进展,Persona Hub 集成了 10 亿个角色 (personas),在基准测试上带来了令人印象深刻的提升。
    • Aran Komatsuzaki 赞扬了该方法,强调了其在生成高质量合成数据和增强多样性方面的潜力。
  • 实时音频 LLM ‘Moshi’ 发声:由 Kyutai Labs 推出的 Moshi 作为首个实时音频 LLM 亮相,展示了极低的延迟,但发音略显机械
    • 尽管它急于回答会导致偶尔的打断,但该技术预示了用户与人工智能交互的新前沿。
  • 全员参与技术:OpenDevin 的新举措OpenDevin 背后的创业团队成立了 All Hands AI,致力于通过开源倡议实现 AI 软件开发的民主化。
    • 该平台的建立象征着迈向普及 AI 工具和共享开发理念的协作一步。
  • Sentient 种子轮成功:资助开放 AGI 探索:Sentient 宣布获得 8500 万美元种子轮注资,由 Peter Thiel 等知名人士领投,旨在打造一个邀请全球参与的社区驱动型 AGI 平台。
    • 这笔雄心勃勃的资金是创建平等 AI 生态系统中集体智慧的号角。

LAION Discord

  • 去中心化 Transformers 取得进展jaan.lionefact.org 和 usb.club 介绍了他们专注于去中心化边缘 Transformer 的项目,引发了对其潜在应用和合作联系的兴趣。
    • 虽然 san.tosh 寻求关于开源 GPT-4o 的更新,但社区仍处于期待中,讨论在继续但尚无具体消息。
  • Terminator 模型面临严密审查:社区批评 Terminator 模型的消融实验(ablation tests)不足,并敦促对其更改进行实质性的辩护,强烈要求展示详细的研究。
    • 然而,随着其 GitHub 版本的发布,对该模型的怀疑者被打脸,因为 Terminator 的代码已上线,允许更广泛的探索和实验。
  • Vision Transformers 的 QKV 受到质疑:关于 Vision Transformers 中 QKV 必要性的辩论浮出水面,假设认为可能存在冗余,并需要进行实证评估。
    • 共享的替代方案理论渴望通过严格的审查来揭示此类架构中注意力机制(attention mechanisms)的全面影响。
  • FORA 打造更快的 Diffusion TransformersFORA 的引入提议通过缓存可重用的计算来加速 Diffusion transformers,为计算效率挑战提供了解决方案。
    • 该技术因其与现有模型融合并部署快速处理进展的潜力而受到关注,详见其 代码库
  • HyperZ⋅Z⋅W 论文引发两极分化的观点HyperZ⋅Z⋅W 论文收到的评价褒贬不一,展示了一个初创的提交如何激起对实现 SOTA 成就的新方法的认可与怀疑。
    • 尽管存在批评,但围绕 HyperZ⋅Z⋅W 论文标记的新颖想法和潜在修订仍笼罩着好奇氛围,暗示着关于 ViT 中 QKV 影响的讨论正在增长,正如 Schmidhuber 的 综述 所述。

tinygrad (George Hotz) Discord

  • Tinygrad 的 UNMUL 陷入 RuntimeError:tinygrad 内部报告了一个 RuntimeError‘failed to render UOps.UNMUL’,由 George Hotz 牵头断言这一情况“永远不该发生”。
    • 讨论展开了关于使循环折叠(loop collapse)变为可选的议题,由 flat_l4.realize() 提示,以避免对用户造成影响,并由 Chenyuy 提出了权宜之计。
  • 模糊测试前端:Tinygrad 的测试接管Chenyuy 提出了针对 tinygrad 的 前端模糊测试器(frontend fuzzer) 的概念,旨在利用类似于通过 LLM 移植 torch 代码的方法来根除边缘情况。
    • 社区对为某些维度创建最小复现测试(minimal repro tests)以解决启发式边界异常感到兴奋,PR 仍处于开放状态以进行持续深入研究。
  • Tinygrad 1.0 前的调试冲刺:tinygrad 改进错误消息的需求变得明确,Yosifrost 强调了 1.0 版本前的开发者工具增强。
    • 社区协作复现错误并设计测试用例,为更强大的调试机制奠定了基础。
  • 梯度抱怨与内存之谜:AI 工程师们交流了梯度累积失误导致 CUDA 显存溢出(out-of-memory)错误的经验,论坛上流传着诸如分离损失(detaching loss)之类的技巧。
    • 强调了 TinyJit 在优化方面的缺陷,包括 TinyJit 未能有效使用 assert t.grad is not None 语句,引发了社区的迅速响应。
  • Tinygrad vs PyTorch:张量创建的怪癖:tinygrad 和 PyTorch 之间 Tensor.randn/randintTensor.full 的不一致性引发了对张量连续性(tensor contiguity)的分析以及对齐建议。
    • 这种行为被归结为 tinygrad 特有的习性,但这并未阻碍关于改进未来迭代以获得更好兼容性的讨论。

LlamaIndex Discord

  • Pinecone 的困境与潜在转向:由于 Pinecone 限制,用户在创建 DocumentSummaryIndex 时遇到了障碍,原因是节点的 metadata 过大以及 embed exclusion filters 设置不当,详情见此 GitHub 代码片段
    • 潜在的修复方案包括 metadata 限制,并寻求如 qdrantpg_vector 等替代方案,正如一位用户所建议的那样,展示了社区解决问题的能力。
  • 树莓派上的 RAG 革命:@pavan_mantha1 展示了一个在 Raspberry Pi 上运行的 RAG pipeline,利用了 DockerOllama,引发了关于小型设备如何实现高性能的讨论,详见此 社区亮点
    • 这一壮举强调了 AI 系统对资源受限环境的适应性,并赢得了社区对高效计算的赞赏。
  • 通过 OpenContracts 实现文档民主化OpenContracts 作为一个开源的文档分析利器出现,它利用 LLMs 进行标注,并由 Llama Index 提供支持。该工具的发布记录在 Twitter 上。
    • GenAI native 技术处于前沿,该项目致力于让 AI 驱动的文档处理 变得广泛可用。
  • 网络研讨会汇聚智慧Weights & Biases 合作举办了一场网络研讨会,旨在深入探讨 RAG pipeline 的构建,并对一年的开发历程进行了批判性分析,详见 此处
    • 该活动在解决评估挑战方面至关重要,强调了在 AI 应用领域对成长和知识共享的承诺。
  • Agentic RAG 引发读者关注:在文章 释放 AI 潜力 中,Agentic RAGLlamaIndexClaude-3.5 Sonnet 以及 MongoDB 结合,催生了关于前卫 AI 策略的讨论。
    • 其即将到来的推广预示着人们对 AI 基础设施变革性方法的兴趣激增,正等待着社区敏锐的思想家们去探索。

Nous Research AI Discord

  • Tortoise-TTS 迁移至 GGML:一位社区成员成功将 Tortoise-TTS 迁移到了 ggml,为实时文本转语音操作开启了可能。该仓库增强了对 CUDA 和 CPU 的支持,为开发者提供了更广泛的平台选择。
    • 这一举措吸引了 AI 开发者投入到优化 transformersdiffusion models 以加快推理过程的工作中,对于热衷于性能提升的人来说,这是一个极具吸引力的项目。
  • vLLM 在 Hermes 2 Pro 中的工具调用取得成功vLLM 中工具调用 (tool calling) 在 Hermes 2 Pro 上的集成已成功执行,使项目接近尾声。这一进展引发了关于如何高效处理 ‘content’ 和 ‘tool_calls’ 的新讨论。
    • 随后的讨论围绕在 Hermann 3 训练中加入 <scratch_pad> 展开,旨在实现更细致的解析方法,并与类似于 OpenAI 框架的标准保持一致。
  • Genstruct 7B 的指令创新Genstruct 7B 模型 借鉴了 Ada-Instruct,通过从文档中生成精确指令而脱颖而出,从而促进了用于指令微调 (instruction finetuning) 的定制数据集的创建。
    • 该技术面向 AI 工程师,重点展示了将原始文本语料库融合到对话数据集中的方法,为无需巨额投资的数据集扩展提供了智能解决方案。
  • CommandR 在 Huggingface 手中崛起Huggingface 为 Cohere 的 CommandR 提交了一个 pull request,引入了改进工具使用和检索增强生成 (RAG) 技术的进展。
    • 他们的创意投入通过结合前导语 (preamble) 和智能内容组织(由 Jinja 模板支持)重构了系统提示词,表明了在 RAG 开发方面强大的协作潜力。
  • GraphRAG:Microsoft 出品的基于图的杰作:Microsoft 发布了一个名为 GraphRAG 的新型检索增强生成框架,专注于模块化设计,以提升信息检索和内容生成的效率。
    • GraphRAG 可以在 GitHub 上获取,作为一项标志性成果,它提供了深入的定制选项,这对于当今动态的 AI 研究和开发环境至关重要。

Modular (Mojo 🔥) Discord

  • Ubuntu 上的 Mojo:安装波折:用户在 Ubuntu 24.04/Python 3.12.3 上使用 Mojo 时遇到障碍,遇到了兼容性问题,特别是与 max-engine 相关的问题。社区分享了一份使用 Python 3.11 成功安装的分步指南
    • 讨论集中在 List[String] 缺少 Stringable 特性 (trait) 从而影响可打印性的问题上,并在 GitHub 上提供了详细参考。用户注意到由于循环展开 (loop unrolling) 及其编译时间,程序存在不固定的启动时间
  • Strassen 算法的速度惊人?但不稳定:根据 GitHub 上分享的讨论和基准测试,在 1024x1024 矩阵上,Strassen 算法的表现不如朴素向量化方法(后者达到 70 GFlops,而 Strassen 为 50 GFlops)。
    • 开发者对其数值稳定性表示担忧,当针对不同类型和大小的矩阵进行调整时,潜在的不稳定性可能导致测试失败。
  • SPIRAL:旋转出新的高性能代码SPIRAL 项目 旨在自动化 DSP 算法的开发,有时性能甚至超过 MKL。它专为直接硬件任务量身定制,可能是优化一系列数值运算的关键。
    • 讨论强调了在并行处理和向量化之外优化算法的复杂性,暗示了递归方法相较于迭代方法在缓存局部性 (cache locality) 方面的优势。

Interconnects (Nathan Lambert) Discord

  • Apple 敲开 OpenAI 董事会大门:据 Bloomberg 报道,Apple 将在 OpenAI 获得一个董事会观察员席位,由 Phil Schiller 出任,这标志着科技协作中的战略举措
    • 社区分析认为,Apple 的合作伙伴关系可能比 Microsoft 的投资带来更大的收益,重点关注独家应用集成等优势,并引发了关于 AI 进步中企业策略的辩论。
  • Moshi 掌握多模态真谛Kyutai Labs 凭借 Moshi 惊艳全场,这是一款具有开创性的实时音频 LLM,在演示中展示了 150ms 的延迟,其卓越的同声传译能力、速度多模态实力获得了高度认可。
    • 发布开源模型以促进社区创新的计划受到赞赏,包括 Moshi 核心的 7B 多模态 LMVQ-VAE 编解码器,这些模型有望重新定义端侧交互和用户体验。
  • 代码的宪法难题:辩论者引用了 EFF 对 SB 1047 的观点,探讨了将模型权重代码视为言论的辩护,并将其与言论自由3D 打印枪支设计先例进行了类比。
    • 围绕模型权重作为一种表达形式的本质展开了激烈讨论,质疑这些算法输出是否应享有与语言类似的保护,并强调了它们在现代通信和创新中不可或缺的作用。
  • Claude 3.5 粉丝团壮大:随着 Claude 3.5 的发布,社区掀起了一阵兴奋浪潮,引发了热烈反响并与之前的版本进行了对比,专业人士注意到其在性能和潜在应用领域方面的飞跃。
    • Claude TM 的支持将其市场定位比作知名品牌的成功策略,成员们敦促加大推广力度,以匹配其声名显赫的竞争对手,并强调其增强的功能

LangChain AI Discord

  • Azure 深受 429 错误困扰:从 PyPDFium2Loader 切换到 AzureAIDocumentIntelligenceLoader 导致持续出现 429 错误(请求过多),凸显了所面临的速率限制挑战。
    • 社区辩论包括寻找在不牺牲效率或准确性的情况下绕过 Azure 速率限制的方法。
  • PDF 难题与 Markdown 迷思:尝试通过 marker 将 PDF 转换为 Markdown 时,在面对复杂的表格格式时遇到了困难,合并单元格导致了严重的迁移痛苦。
    • 尽管 Azure Document Intelligence 提供了更优的解析精度,但开源工具的吸引力依然存在,促使人们寻找本地解决方案。
  • LangSmith 丢失链接:有报告称 LangSmith 意外停止了调用追踪,引发了关于 LangChain 内省功能鲁棒性的讨论。
    • 随着用户努力检测追踪机制中的缺陷,技术审查随之展开,暗示了 LangChain 基础设施中隐藏的 Bug。
  • CriticGPT 围剿代码错误:AI 社区剖析了 OpenAI 的 CriticGPT 计划,该计划旨在识别和修正 GPT-4 的错误,一段易于理解的视频解释在同行中流传。
    • 围绕 CriticGPT 如何标志着向自我纠正 AI 系统迈进展开了热烈对话,预示着自动化代码可靠性的升级。
  • Mac 邂逅 Toolio:开源的意外之喜:随着 Toolio 闯入开源领域,Mac 爱好者们欢欣鼓舞,它承诺在 macOS 上实现私有 LLM 部署,正如其 YouTube 展示中所宣称的那样。
    • 这一创新为用户提供了快速推理和 JSON schema 输出,满足了对增强控制和个性化的需求。

Mozilla AI Discord

  • 强化你的 llamafile Linux 装备:为了获得最佳的 llamafile 性能,工程师建议个人项目使用 3090/4090 等 GPU,专业环境使用 A6000/RTX 6000 Ada;CPU 则推荐较旧的 EPYC,因为它们具有卓越的核心数和 PCIe 支持。
    • 讨论表明,用户更倾向于拥有大容量 VRAM 的 GPU,并强调 24GB VRAM 对于管理 33B 参数 左右的模型是必要的。
  • VRAM:越大越好:AI 爱好者强调了充足 VRAM 对运行大型模型的重要性,并提醒注意使用 FP16 模式,因为与微小的质量提升相比,它会大幅增加 VRAM 占用。
    • 社区交流强调了 q4 配置可以在 24GB VRAM 下流畅处理 33B 参数模型,为大型模型管理设定了基准。
  • 使用 Syncthread 的 CPU 推理妙招:利用 syncthread 技巧进行 CPU 推理的创意用法受到关注,这可能会改变我们处理 基于 CPU 的学习 的方式。
    • YouTube 演讲 的链接详细介绍了该技术,吸引了社区的注意。
  • Threadripper 驯服 llama3 70B 模型:一位资深 AI 工程师报告了使用强力的 Threadripper CPU 成功运行 llama3 70B 模型的情况,这标志着 CPU 在实际应用中可能取得飞跃。
    • 这一成功的部署意味着 Threadripper 有能力在由 GPU 主导的领域中占据一席之地。
  • 应对 RK3588 NPU 上的 llamafile 挑战:将 llamafileRockchip RK3588 NPU 硬件集成引发了从业者的咨询,建议使用 v0.8.9 等软件版本以规避兼容性问题。
    • 这一讨论指出了在利用特定版本以获得最佳硬件性能时,需要考虑的更广泛挑战和因素。

Torchtune Discord

  • 权衡 phi mini 的新权重phi mini 已更新新权重,但与其原始仓库保持一致,这引发了用户关于 torchtune 流程是否需要调整的疑问。
    • 关于旧方法是否仍然有效的推测依然存在,但共识似乎倾向于可以平滑过渡,无需重大更改。
  • 梯度与 Epoch:Torchtune 训练的曲折:关于最佳 训练策略 展开了热烈讨论,对比了使用 梯度 8 vs 16 以及调整 Batch Size 和 Epoch 变化是否能产生更好的结果。
    • 为了协助解决这一难题,社区成员使用 Wandb 来跟踪和记录性能指标,并分享见解以优化训练过程。
  • 转换难题:HF 格式处理:关于模型转换细节的疑问不断增加,特别是为什么在 HFtorchtune 使用的多头格式之间转换时,num_headsnum_kv_headersdim 等参数是必需的。
    • 格式转换固有的复杂性被凸显出来,成员们交流了有效应对这一技术领域的技巧。
  • Checkpoint 冠军:Torchtune 的救星:在 torchtune 中引入 FullModelHFCheckpointer 引起了关注,因为它能够将模型无缝转换为 HF 友好格式
    • 该工具因弥合了不同机器学习基础设施之间的兼容性鸿沟而受到赞誉,确保了更广泛的可访问性和实用性。

Cohere Discord

  • 使用 Stockfish 与 LLM 应对将军挑战:社区成员正在探索将 Stockfish 游戏数据与 LLM 结合,以增强战略推理能力,并顺便开发一个快速的 国际象棋引擎
    • 讨论围绕使用 国际象棋数据微调 LLM 的技术障碍展开,辩论了其实际意义和过拟合风险。在 LLM 中使用 Stockfish 等现有工具的理论引起了广泛兴趣。
  • Slack 机器人引入 Cohere:一款新型 Cohere Slack 机器人 问世,展示了快速处理 Slack 3 秒请求要求的能力,证明了 Cohere API 的效率。
    • 创建者提议分享代码并编写文档,这激发了社区的热情,许多人期待关于将 Cohere 与通信平台集成的详细指南。

OpenInterpreter Discord

  • 速度之声:Kyutai Moshi 的 Audio LLMKyutai Moshi 发布了一个几乎无延迟运行的实时 Audio LLM,尽管反馈指出其音调略显机械。它因交互速度极快而受到赞誉,有时甚至快到会打断用户说话。
    • 用户 Mikebirdtech 的见解强调了该系统的速度,表示它快得有些过头,因为它可能会在自然对话的停顿期间打断用户。
  • 透明智能:OI 眼镜概念:在一次推测性对话中,用户 johnlenflure 提出了将 OI 集成到眼镜中的想法,设想了一个由 OpenInterpreter 功能支持的智能眼镜未来。
    • 随后没有进一步的细节或技术讨论,该概念在成员中仍处于高度抽象的兴趣阶段。
  • Open Interpreter 模组游戏化:用户 Nonadjective.eth_55058 正在寻求关于将 Open Interpreter 集成到游戏中的建议,旨在开发一个可运行的概念验证,即使最初可能比较简陋。
    • 这反映了社区内探索和扩展 Open Interpreter 模组化潜力的兴趣日益增长,表明了向可定制交互体验发展的趋势。
  • 与 Open Interpreter 的项目兼容性:一系列项目被强调为与 Open Interpreter 兼容,包括 Open interpreter、taxyai、clickolas cage、self-operating computer、pywinassistantGPT computer assistant
    • 探索并可能配置这些项目与 Open Interpreter 协同工作的兴趣显而易见,这表明开发者处于一个动态且协作的环境中。

OpenAccess AI Collective (axolotl) Discord

  • 量化困惑:LoRA vs QLoRA:成员们深入研究了量化技术,讨论了 LoRAQLoRA 在应用上的多样性,强调 LoRA 利用 8-bit 量化,而 QLoRA 则进一步推向 4-bit,并引用了 QLoRA 论文中的全面处理方法。
    • 一场对话澄清了 QLoRA 的定位:如论文《QLoRA: Efficient Finetuning of Quantized LLMs》所述,它能够精巧地在单个 48GB GPU 上微调 65B 参数模型,其性能与 16-bit 微调非常接近。
  • VRAM 烦恼与 CUDA 灾难Google Colab 的难题浮出水面,一位用户正苦于 torch.cuda.OutOfMemoryError,指出在 Google Colab 上尝试分配 172.00 MiB 导致失败。
    • 贡献者们一致认为 VRAM 是瓶颈,并建议增加 VRAM 以促进无缝运行,突显了硬件在运行 axolotl 等模型时的重要性。

AI Stack Devs (Yoko Li) Discord

  • Docker 进驻 AI Town:社区对 AI Town 的 Docker 镜像感到兴奋,并呼吁贡献力量以增强该工具的可访问性。
    • Docker 化工作旨在简化设置流程,爱好者建议将广受好评的 Windows WSL 设置指南 作为 Pull Request 提交到主仓库。
  • Dockertown 的 API 端口风波:一位资深开发者在将 AI Town 移植到 Docker 时遇到了 API 通信问题,特别是与 Ollama API 的通信,并承诺很快会分享修复方案。
    • 尽管存在技术障碍,移植工作仍在推进,社区保持关注以确保实现无缝连接。
  • Convex 接入 Docker:为了简化 AI Town 的体验,一位成员正在调整 Docker 以自动下载 Convex,预见未来用户的使用将更加顺畅。
    • 预计通过 Docker 自动设置 Convex 的功能将在 UTC+4 时间晚上 8 点前投入使用,这表明社区正积极参与以提高用户效率。
  • AI Town 的 Docker 测试盛宴:一位成员在他们的 Legion Go 设备上运行 Docker 集成测试的举动增强了对该移植版本性能的信心,表明已准备好提交 Pull Request
    • 正在招募志愿者进行 Docker 集成测试,并期望合并成功的结果,展示了 AI Town 开发者社区的协作精神。

LLM Finetuning (Hamel + Dan) Discord

  • Gradio 部署困局困扰工程师:成员们在 Modal 上部署使用 Gradio 的 RAG 应用时遇到障碍。一段讨论指出,该应用在本地运行正常,但在 Hugging Face Spaces 上无法工作。
    • 建议通过 Modal Slack 作为该问题的紧急求助渠道,希望社区支持能为这一部署难题提供解决方案。
  • DeepSpeed 配置难题引发辩论:成员们在尝试启用数据分片 (data sharding)而不选择模型分片时,DeepSpeed 的配置引发了热议,详见他们的交流
    • 关于 DeepSpeed 设置 的澄清和协助成为了迫切的需求,凸显了需要填补的知识空白。
  • Hugging Face 交付难题:由于无法在 Hugging Face 上分享私有代码部署,成员们表达了困扰,因为私有空间不支持 sharing=True,讨论见此处
    • Modal 上操作的尝试也遇到了挫折,情绪一度波动,引发了对私有代码协作替代方法的寻找。

LLM Perf Enthusiasts AI Discord

  • 法律专家关注 LLM 精准度:来自 Screens 的新报告通过将 LLM 在合同审查中的表现等同于机器学习分类问题进行分析,声称其系统的准确率达到 97.5%
    • 报告探讨了评估长文本回复准确性的挑战,建议基于分类的方法可以增强 LLM 在谈判和文档摘要等法律任务中的有效性。
  • 面向大众的 Prompt TuningEvan_04487 正在寻找一种简单、托管的 Prompt Tuning 工具,以便设计师和经理等非技术专家也能运行 Prompt 变体并查看结果。
    • 理想的解决方案应该是免费增值 (freemium) 服务,足够简单以处理低风险任务,并能处理大约两打变量,这与针对关键任务的复杂、自管基础设施形成对比。

Datasette - LLM (@SimonW) Discord

  • Datasette 在数据新闻中的发现:Derek Willis 分享了一篇关于外国礼物的文章,引发了人们对 Datasette 在调查新闻中实用性的兴趣。
    • 讨论涉及如何利用 Datasette 作为筛选公共记录和数据集的强大工具,强调了其在新闻透明度和问责制中的作用。
  • Datasette 深入挖掘数据:爱好者们强调了 Datasette 对深度数据分析的意义,考虑了该工具处理复杂查询的能力。
    • 工程师们讨论了 Datasette 改变数据驱动故事的潜力,强调了在数字时代,可访问且可解释的公共数据的重要性。

PART 2: 各频道详细摘要与链接

为了邮件展示,完整的频道细分已被截断。

如果您想查看完整的细分内容,请访问此邮件的网页版:

如果您喜欢 AInews,请分享给朋友!预谢!