ainews-not-much-happened-today-8530
今天没发生什么事。
本周 AI 新闻要点如下:
Anthropic 推出了 Claude Sonnet 3.5,实现了通过自然语言控制桌面应用的功能。微软 推出了 Magentic-One,这是一个基于 AutoGen 框架 构建的多智能体系统。OpenCoder 作为大语言模型的 AI 驱动代码手册(code cookbook)正式亮相。SambaNova 正在赞助一场黑客松活动,为构建实时 AI 智能体提供高达 5000 美元 的奖金。
Sophiamyang 宣布推出全新的 Batch(批处理)和 Moderation(审核)API,成本降低了 50%,并支持多维度的有害文本检测。开源工具方面,发布了用于密钥管理的 Infisical、用于自主智能体编排的 CrewAI 以及用于网页抓取的 Crawlee。
研究亮点包括:用于大模型链(LLM chains)错误分析的 SCIPE、用于改进检索增强生成(RAG)的 Context Refinement Agent,以及用于管理大模型内存的 MemGPT。此外,OpenAI 在 RawStory 版权诉讼案中赢得了法律胜利,法院确认大模型训练中使用的“事实”不受版权保护。
一个安静的星期正是你所需要的。
2024年11月7日至11月8日的 AI 新闻。我们为你检查了 7 个 subreddits、433 个 Twitter 账号 和 30 个 Discord 服务器(217 个频道和 2343 条消息)。预计节省阅读时间(以 200wpm 计算):248 分钟。你现在可以标记 @smol_ai 进行 AINews 讨论!
看来这整周的大型发布活动都表现得相当低调。我们正在庆祝 RawStory 诉 OpenAI 案被驳回,法院裁定用于 LLM 训练的事实不受版权保护;同时也在欣赏来自 闭源模型 Flux 1.1 [pro] Ultra 和 Raw 发布 的精美图像。
是时候开始构建了,感谢本周的赞助商!
[由 SambaNova 赞助] SambaNova 的 Lightning Fast AI 黑客松来了!给自己大约 4 小时的时间,在 SambaNova Cloud 上使用超高速模型构建一个实时响应的酷炫 AI agent。有奖金吗?有的。 最高 5000 美元,而且这是一个与其他 AI 开发者交流的机会。截止日期是 11 月 22 日,所以现在就开始吧
AI Twitter 综述
所有综述均由 Claude 3.5 Sonnet 完成,从 4 次运行中选取最佳结果。
AI 模型与 API
- Batch 和 Moderation API:@sophiamyang 宣布发布 Batch API 和 Moderation API,为高吞吐量请求提供 50% 更低成本 的处理,并支持跨 9 个政策维度 的有害文本检测。
- Claude Sonnet 3.5 增强功能:@DeepLearningAI 重点介绍了 Anthropic 的 Claude Sonnet 3.5 的发布,它支持通过自然语言命令进行桌面应用程序操作,用于文件管理和编码等任务。
- Magentic-One 多 Agent 系统:@omarsar0 详细介绍了 Microsoft 的 Magentic-One,这是一个构建在 AutoGen 框架上的通用多 Agent 系统,具有一个 Orchestrator agent 以及 WebSurfer 和 FileSurfer 等专业 Agent。
- OpenCoder 及其他模型:@_akhaliq 介绍了 OpenCoder,这是一个为 LLM 准备的 AI 驱动的代码食谱 (code cookbook),以及 DimensionX 和 DynaMem 等其他几个模型。
AI 工程与基础设施
- Infisical 密钥管理:@tom_doerr 发布了 Infisical,这是一个开源密钥管理平台,旨在同步密钥、防止泄露并管理内部 PKI。
- LlamaIndex 和 LangChain 工具:@Llama_Index 讨论了使用 LlamaIndex Workflows 和 Reflex 增强 RAG 系统,实现上下文细化和基于 Agent 的工作流。
- 用于自主 Agent 的 CrewAI:@tom_doerr 介绍了 CrewAI,这是一个编排自主 AI agent 的框架,旨在培养协作智能以处理复杂任务。
- Crawlee 网页抓取库:@tom_doerr 推出了 Crawlee,这是一个适用于 Python 的网页抓取和浏览器自动化库,支持为 AI、LLM、RAG 等进行数据提取。
AI 研究与技术
- 用于 LLM 链的 SCIPE:@LangChainAI 介绍了 SCIPE,这是一个用于 LLM 链中错误分析的工具,通过识别表现不佳的节点来提高输出准确性。
- 上下文 RAG 实现:@llama_index 提供了一个上下文细化 Agent 的概念验证,该 Agent 会检查检索到的分块并总结源文档以改进 RAG 响应。
- 用于内存管理的 MemGPT:@AndrewYNg 分享了关于 MemGPT 的见解,这是一个通过持久化存储和内存层级技术管理上下文窗口内存的 LLM agent。
AI 安全与伦理
- LLM Safety Models: @sophiamyang 祝贺了新的 LLM safety model 的发布,强调了 large language models 中 safety 的重要性。
- AI Safety Concerns: @giffmana 强调了 AI 中 safety concerns 的复杂性,指出其 多面性 以及 解决这些问题的重要性。
- Mistral Moderation Model: @sophiamyang 宣布了 Mistral 的新 Moderation 模型,这是一个 基于 Ministral 8B 的分类器,旨在 检测多个维度的有害内容。
公司与产品更新
- 课程公告: @HamelHusain 和 @jeremyphoward 宣布了关于 LLMs as Operating Systems 和 Dialog Engineering 的新课程,重点关注 memory management 以及 与 AI 进行交互式编程。
- 平台发布: @dylan522p 宣布推出 Fab Map,这是一个展示全球 fab 细节 的 数据仪表盘,同时为了增强功能,将平台从 Substack 迁移到了 Wordpress。
- 活动参与: @AIatMeta 分享了参加 #CoRL2024 的情况,并在展位上展示了 Meta Sparsh 和 Meta Digit 360 等 robotics 研究。
梗/幽默
- 幽默的 AI 评论: @giffmana 惊讶地表示:“我居然用了两次 lol,你就知道我有多震惊了!”
- 个人观点与吐槽: @teortaxesTex 对 战争与社会 发表了强烈的看法,表达了挫败感和 讽刺。
- 创意写作与诗歌: @aidan_mclau 发布了一篇 诗意作品,将 奇幻元素 与 戏剧性意象 融合在一起。
AI Reddit 摘要
/r/LocalLlama 摘要
主题 1. Qwen2.5 系列在不同规模下均表现强劲
- 7B 模型与 gpt 4 turbo 旗鼓相当 (得分: 40, 评论: 10): 据报道,Qwen 这一 7B 参数 的语言模型在代码相关基准测试中达到了 GPT-4 Turbo 的水平。
- Qwen2.5 模型获得了高度评价,用户认为 32B 版本可以与 GPT-4-O mini 和 Claude Haiku 竞争。用户强调了它在有限的本地计算资源下的出色表现。
- HumanEval 基准测试被批评为过时,且可能存在训练数据污染。用户建议使用 aider 的基准测试 和轮换的每月代码基准测试,以获得更可靠的评估。
- 用户报告成功通过 Hugging Face GGUFs 运行 Qwen2.5、Gemma2-9B 和 Llama 模型,并指出寻找最佳 quantization 配置对于平衡性能至关重要。
- 极客湾 (Geekerwan) 在新款 M4 Pro 和 M4 Max 芯片上使用 Ollama 对 Qwen2.5 7B 到 72B 进行了基准测试 (得分: 43, 评论: 18): 极客湾 (Geekerwan) 在 这段基准测试视频 中,使用 Ollama 在 Apple M4 Pro/Max 芯片上测试了从 7B 到 72B 参数 的 Qwen2.5 模型。帖子未提供具体的性能指标或基准测试的对比分析。
- M4 Max 的性能比 M3 Max 提升了 15-20%,而 M4 Pro 的运行速度约为 M4 Max 的 55-60%。两者运行 72B 模型 的速度约为每秒 9 tokens,虽然对于能装进 VRAM 的模型来说比 4090 慢。
- RTX 4090 的 24GB VRAM 限制了它在处理大型模型时的有效性,迫使层卸载(layer offloading)到 CPU RAM。传闻中的 RTX 5090 将拥有 32GB VRAM,尽管对于更大的模型来说可能仍然不足。
- 评论者建议使用 llama-bench 作为 AI 硬件评测的标准测试方法。预计 M4 Ultra 在推理性能上将与 RTX 4090 持平,并具有 256GB RAM 容量的优势,可处理像 llama 3.1 405B 这样的大型模型。
主题 2. 发布基于 Vue.js 和 DaisyUI 的新 Llama.cpp Server UI
- 刚刚发布:全新的 Llama.cpp Server-Frontend。 (Score: 75, Comments: 17):Llama.cpp 项目发布了 b4048 版本,其特点是使用 VueJS 和 DaisyUI 完全重新设计了 server frontend,取代了旧版 UI 并引入了现代功能,包括对话历史记录、localStorage 支持以及 markdown 功能。此次更新引入了诸如重新生成、编辑和复制按钮等实用改进,以及主题偏好、CORS 支持和增强的错误处理,同时通过 legacy 文件夹保留了旧界面以维持向后兼容性。
- 新的 llama.cpp 界面现在专门使用 chat completion endpoint,将模板责任转移到服务器/提供商端,模板存储在 GGUF metadata 中。SillyTavern 用户可以使用“OpenAI-compatible”选项切换到 chat completion 模式。
- 用户对 llama.cpp 新界面的独立性表示赞赏,由于其简单性且无需管理 prompt 模板,许多人将其作为本地 CoPilot 的替代方案。
- 社区反馈包括希望界面能有更明亮的颜色,同时对减少基础聊天功能对外部软件的依赖表示认可。
主题 3. 训练速度记录:NanoGPT 训练用时 3.28 小时
- 现在人们在进行 GPT 训练竞速吗? (Score: 288, Comments: 32):Jordan Keller 创造了训练 NanoGPT 的新速度记录,在 4090 GPU 上仅用时 1.85 分钟完成。这一成就分享在 Twitter/X 上,表明优化和基准测试 GPT model 训练时间已成为一种增长趋势。
- 性能基准测试显示了使用 torch/mps 的 M3 MacBook 与 NVIDIA GPUs (3090, 4090) 在训练 GPT2-50M 时的对比,并通过图片分享了详细的 token/s 指标。
- 讨论强调了向更小模型发展的趋势,并引用了 Gemini Flash、4o-mini 以及最近的 Llama models(1-2B 参数)等例子。行业似乎正在优化效率并维持“实用性阈值”,而不是盲目追求更大的模型。
- 优化讨论引用了杰文斯悖论 (Jevons paradox),暗示效率的提高可能会导致整体算力使用量的增加,而不是能源节省,用户指出获得的收益可能会被重新投入到更大的模型中。
主题 4. 开源模型显示出接近零的拒绝率,对比私有 LLM
- 更新 – 开源模型显示出比私有 LLM 低得多的拒绝率 (Score: 32, Comments: 6):在一项综合评估研究中,包括 Mistral Large、Llama 变体、Nemotron 和 Qwen 在内的开源模型在所有测试类别中均表现出接近零的拒绝率,与私有模型形成鲜明对比。无论模型大小如何,性能都保持一致,从 8B 到 405B 参数的 Llama 3.1 变体显示出类似的模式,而 Nemotron 70B 在初步测试中脱颖而出,成为一个特别有前景的模型。
- 私有模型与开源替代方案相比显示出更高的拒绝率,这引发了关于这些差异在现实应用中实际影响的讨论。
- Huggingface 上一个特定的 Hermes-3-Llama 模型变体被推荐用于最小化拒绝,尽管所使用的 ablation(消融)技术可能会降低模型的通用性能。
- Nemotron 70B 因无需 ablation 即可实现零拒绝而受到特别赞誉,且后续可以通过额外训练恢复性能。
其他 AI Subreddit 摘要
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT
主题 1. AI 公司拥抱军事合同:Palantir、Anthropic、OpenAI 解除限制
- 鉴于近期关于 Anthropic 和 Palantir 达成交易的新闻 (Score: 755, Comments: 61): 据报道,Anthropic 的 AI 助手 Claude 对 Anthropic 与 Palantir 在军事应用方面的合作表示担忧。目前尚未提供关于该合作伙伴关系具体性质或 Claude 确切回应的进一步背景或细节。
- Anthropic 与军事的联系在 8 个月前就已为人所知! (Score: 37, Comments: 6): Anthropic 的军事联系最初在 8 个月前 的一个 Reddit 帖子中被讨论,5 个月前 也有后续讨论,尽管这些早期提及在当时受到的关注有限。这些分别发布在 r/ClaudeAI 和 r/singularity 上的帖子,早于近期公众对 Anthropic 军事参与的广泛讨论。
[{'id': 'lw1zltz', 'author': 'Far-Steaks', 'body': 'Anyone that needs it reported that companies are trying to make as much money as possible and have zero qualms about who they hurt in the process is a fucking moron. Do neurotypicals have pattern recognition or are y’all just complete ding dongs?', 'score': 14, 'is_submitter': False, 'replies': []}]
- 军工复合体现在正公开建议政府建造 Skynet (Score: 99, Comments: 38): 帖子标题暗示了对军工复合体参与政府 AI 政策的担忧,但帖子正文中未提供额外背景或细节来证实或扩展这一说法。
- AI 控制的无人机已经部署在乌克兰-俄罗斯冲突中,以应对信号干扰,展示了在通信中断时自主系统如何运行。由于军事必要性和竞争压力,向自主武器的演进被认为是不可避免的。
- 用户讨论了自主军事系统与人类士兵在关键方面的不同——它们不会产生战斗疲劳,且精度可能高于人类。从“人在回路”(humans in the loop)向全自主武器系统的转变被视为一种令人担忧但又无法避免的演变。
- 多条评论引用了流行文化中对军事 AI 的描绘(特别是 Terminator 和 Skynet),反映了公众对自主武器开发的广泛文化焦虑。AI 变得“自我意识”(self-aware)并夺取控制权的场景经常被提及,尽管主要是在流行文化语境下。
主题 2. CogVideoX 5B 发布:开源视频生成技术的重大进展
- CogVideoX 1.5 5B Model Out! Master Kijai we need you! (Score: 289, Comments: 69): CogVideoX 1.5 发布了一个新的 5B 参数模型,运行需要 66GB VRAM。帖子正文未提供额外的背景或细节。
- 用户对 66GB VRAM 的需求表示极大担忧,许多人希望通过 GGUF 支持进行优化,从而将需求降至 20GB 以下,或实现在 16GB 显卡上以极小的性能损失运行。
- 该模型可在 Hugging Face 和 GitHub 上获取,开发者表示 CogVideoX 2.0 将提供重大改进,可能与 Sora 竞争。
- 用户讨论了当前的视频生成限制,指出虽然 Mochi 和旧版 CogVideoX 模型可用,但效果并不理想,且商业服务成本过高(“生成一分钟 20 美元”或“100 美元无限量”)。
- Rudimentary image-to-video with Mochi on 3060 12GB (Score: 68, Comments: 52): Mochi 是一款文生视频模型,可在消费级 NVIDIA RTX 3060 12GB GPU 上运行进行图生视频(image-to-video)生成。仅凭帖子标题不足以确定具体的实现细节或结果。
- Mochi 的 img2vid 工作流展示了高质量的输出,但由于 3060 12GB GPU 的内存限制,被限制在 43 帧(1.8 秒)。该模型在 0.6 denoise 设置下运行,功能更像 img2img 而非传统的 img2vid,详见此 workflow。
- 技术实现需要精确的 848x480 图像分辨率输入以防止报错。基于 seed 的生成在调整帧长时会完全改变,导致无法在生成完整视频前预览单帧。
- 输出质量看起来比文生视频更清晰,但在较低的 denoise 设置下动作有限。较高的 denoise 设置会产生更多动作,但会偏离输入图像。
Theme 3. OpenAI’s O1 Preview Shows Advanced Reasoning Capabilities
- o1 is a BIG deal (Score: 152, Comments: 140): Sam Altman 对 AGI 日益增长的信心似乎与 OpenAI 的 O1 模型有关,据报道该模型实现了人类水平的推理,并标志着他们向 AGI 路线图中的 Level 3 (Agents) 迈进。帖子将 O1 的 test-time compute 方法与人类的 System 2 thinking 进行了类比,认为旧的 GPT 模型运作方式类似于直觉性的 System 1 思考者,而 O1 通过类似于人类想象力的顺序数据生成弥补了知识鸿沟,可能解决了通往 AGI 的根本障碍。
- 用户普遍反映 O1-preview 的表现不如 GPT-4,许多人发现它在实际任务中速度更慢且效果较差。多条评论指出,由于 O1 倾向于产生冗长但准确度较低的输出,他们“最终还是回到了常规的 4o 或 Claude”。
- 一份详细的技术分析解释说,O1 使用基于 A-star 和 Q-star 算法的 chain of thought 提示词,实现了逐个思考的伪强化学习。然而,其 memory 功能仅仅是一个 RAG 解决方案,并不会修改基础模型。
- 对于 Sam Altman 的 AGI 言论存在显著的质疑,用户指出 AGI 需要在推理过程中进行训练以调整神经通路,而这在目前的 GPT 架构中是不可能的。许多人将他信心的提升归因于最近的融资活动和投资者关系。
- 新论文:编排结构化推理的 LLM 达到 Kaggle Grandmaster 级别 (得分: 35, 评论: 13): 根据一项新研究,Large Language Models 在 Kaggle 竞赛中表现出极具竞争力的性能,达到了 Grandmaster 级别的能力。研究表明 LLM 能够以专家水平有效执行结构化推理任务,尽管在此有限的上下文中未提供具体的性能指标或方法细节。
- 用户批评了该研究的方法论,指出研究人员创建了自己的基准测试 (benchmarks),并在没有与人类选手进行实际正面交锋的情况下进行了追溯性比较。
- 多条评论通过隐喻对这些说法的有效性表示怀疑,认为这项研究是在移动球门 (goalpost moving) 且使用了利己的指标。
- 讨论强调了对人造基准测试的担忧,一位用户指出,无论实际性能如何,自创的基准测试都可以被操纵以显示 “任何内容的 100% 分数”。
主题 4. SVDQuant 声称在 Stable Diffusion 上比 NF4 提速 3 倍
- SVDQuant 声称在 Flux 上比 NF4 提速 3 倍 (得分: 35, 评论: 11): MIT HAN Lab 开发了 SVDQuant,这是一种新的量化方法,可将权重和激活值都压缩到 4-bit 精度,声称比仅量化权重的 NF4 提速 3 倍。据报道,该方法产生图像的质量优于 NF4,其实现可通过其 nunchaku 仓库 获取,预训练模型已发布在 HuggingFace 上。
- [{‘id’: ‘lw5a2r0’, ‘author’: ‘xpnrt’, ‘body’: ‘Would this work with AMD ? Nf4 doesnt’, ‘score’: 5, ‘is_submitter’: False, ‘replies’: []}]
- FLUX.1 [dev] 与 Stable Diffusion 3.5 在 LoRA 创建方面的对比 (得分: 22, 评论: 30): FLUX.1 [dev] 在 8 月 1 日发布后的 10 天内就展示了强大的 LoRA 创建能力,而 Stable Diffusion 3.5 在 10 月 22 日发布后的 17 天里仍难以产出高质量的 LoRA。作为对比,SDXL 1.0 在 7 月 26 日发布后的 3 天内就实现了成功的 LoRA 开发,这引发了人们对 SD 3.5 架构在 LoRA 训练方面是否存在潜在结构性限制的质疑。
- 用户报告了 SD 3.5 LoRA 训练的褒贬不一的结果,其中一位用户使用 60 张图像的角色数据集取得了部分成功,但面部准确度仍然存在问题。多位用户确认,对于仅有 20 张图像的角色 LoRA,FLUX 的表现明显更好。
- 一位用户展示了在 SD 3.5 上使用 OneTrainer 配合 11k 数据集(混合了 2.5k 动漫、1.5k SFW、7k NSFW)的成功训练,使用了特定参数,包括权重/数据的 fp16/fp16 以及 adafactor 优化器(而非 adamw)。
- 与 SD 3.5 相比,FLUX 提供了更优越的开箱即用能力,包括更好的解剖结构、提示词理解和文本渲染。针对 SD 3.5M 的一种训练策略涉及冻结前几层,并在 512x512 图像上进行训练,以实现更高分辨率的泛化。
AI Discord 摘要回顾
由 O1-preview 生成的摘要之摘要的总结
主题 1:引起轰动的新 AI 模型与发布
-
Google 即将推出的 Gemini 2.0 引发关注:Google 正准备发布 Gemini-2.0-Pro-Exp-0111,这引发了关于其能力以及对 AI 社区潜在影响的热烈讨论。用户们正急于获取 Prompt 建议,以便在模型发布后进行测试。
-
Ferret-UI 通过 Gemma-2B 和 Llama-3-8B 增强 UI 交互:基于 Gemma-2B 和 Llama-3-8B 构建的 Ferret-UI 作为一款以 UI 为中心的多模态 LLM 首次亮相,旨在提升 UI 推理任务。它在基础 UI 基准测试中超越了 GPT-4V,展示了在移动端 UI 理解方面的进步。
-
Llama 3.2 Vision 模型发布,对 VRAM 要求较高:Llama 3.2 Vision 现已推出 11B 和 90B 版本,需要大量的 VRAM 才能获得最佳性能。用户需要下载 Ollama 0.4,并可以使用特殊语法在 Prompt 中添加图像。
主题 2:AI 模型中的优化与训练策略
-
LoRA 与全量微调(Full Fine-Tuning)之争凸显了 Rank 的重要性:对论文《LoRA vs Full Fine-tuning: An illusion of equivalence》的分析强调了设置合理的 Rank 对 LoRA 有效性能的重要性。批评意见集中在缺乏 SVD 初始化测试以及关于“侵入维度(intruder dimensions)”的断言上。
-
探索使用 Central Flows 进行元参数调优:一种新方法利用“Central Flow”对优化器的行为进行建模,从而预测长期优化轨迹。目前存在关于该研究结果能否推广到 CIFAR-10 数据集之外的 Transformer 模型的疑问。
-
在 Flash Attention 中实现前向梯度(Forward Gradients):关于在 Flash Attention 中实现前向梯度的讨论旨在优化常规注意力梯度以获得性能提升。研究人员参考了特定的数学公式来增强效率。
主题 3:提升开发效率的 AI 工具与框架
-
Exponent AI 结对编程工具发布:Exponent 作为一款 AI 结对编程工具出现,它可以从代码库中学习并直接编辑文件系统文件。它为 Aider 等工具提供了另一种选择,扩展了软件工程师的能力。
-
推荐使用 ComfyUI 搭建 Stable Diffusion 环境:用户主张使用 ComfyUI 而非其他方法来建立本地环境。它解决了稳定性问题,并提升了 SD3.5 的用户体验。
-
Mistral 推出极具性价比的 Batch API:Mistral 的 Batch API 处理大批量请求的成本仅为同步 API 调用的一半。在行业 API 价格上涨的背景下,此举提供了更实惠的 AI 解决方案。
主题 4:AI 伦理、法律问题与商业化策略
-
RawStory 诉 OpenAI 案被驳回,AI 赢得法律胜利:纽约南区法院法官 Colleen McMahon 驳回了 RawStory v. OpenAI 案,指出用于 LLM 训练的事实不受版权保护。这一裁决可能使 GenAI 被告方显著受益。
-
OpenRouter 的商业化策略受到质疑:用户对 OpenRouter 打算如何通过其“自带密钥(bring-your-own-key)”系统获利表示疑问,引发了对该平台经济可行性和可持续性的担忧。
-
警惕 AI 幻觉引发的法律问题:讨论强调了使用 AI Sales Agents 进行大规模推广的风险,因为模型可能会幻觉(Hallucinations)出虚假的促销信息。如果监管不当,这可能会给公司带来法律后果。
主题 5:AI 社区参与及职业讨论
-
技术岗位中的工作成就感挑战:成员们分享了岗位错配的经历,对无法发挥自身背景优势的角色表示不满。一些人考虑回到前雇主那里,以寻求更好的契合度和晋升机会。
-
呼吁在 Mojo 开发中引入密码学专家:社区强调在为 Mojo 开发密码学原语时,有必要让合格的密码学家参与进来。安全关键型的实现应由专家监督,以避免漏洞。
-
AI 教育资源的紧急截止日期:计算资源(Computing Resources)的申请截止日期为 PST 时间 11 月 25 日,预计会有 1-2 周的处理延迟。鼓励参与者尽早提交,以确保及时获得关键的训练资源。
第 1 部分:高层级 Discord 摘要
HuggingFace Discord
- AI 广告到 2030 年有望达到 3 万亿美元市场:一项分析预测,AI 生成的程序化音频/视频广告将推动巨大的基础设施需求,预计到 2030 年将有 3 万亿美元的机遇。
- 初步数据表明性能提升了 5-10 倍且成本降低了 90%,促使技术社区针对扩展挑战提供反馈。
- HF Space 发布用于 GUI Agent 的 OS-ATLAS:HF Space 推出了 OS-ATLAS,这是一个专为通用型 GUI Agent 设计的基础动作模型。
- 开发者可以在 OS-ATLAS 上探索更多细节,这突显了其对未来 AI 系统的潜在影响。
- 增强 BPE Tokenizer 可视化工具:BPE Tokenizer Visualizer 项目正在寻求社区合作,以改进 LLM 工具。
- 虽然一些成员最初倾向于使用 FastBert,但通过动手实验推进 BPE 方法论的兴趣正在日益增长。
- 采用 ComfyUI 运行 Stable Diffusion:成员们建议使用 ComfyUI 建立本地环境,而非其他替代方法。
- 这一建议源于关于增强 SD3.5 稳定性和提升整体用户体验的持续讨论。
- Cinnamon AI 的 Kotaemon RAG 工具走红:Cinnamon AI 的 Kotaemon(一款 RAG 工具)已达到爆火状态,其创新功能吸引了用户关注。
- 团队讨论了 Kotaemon 的独特之处,并在 PST 时间晚上 10 点于 X 平台的直播中收到了积极的用户反馈。
OpenRouter (Alex Atallah) Discord
- OpenRouter 性能问题:用户报告称 OpenRouter 在移动设备上(尤其是 Android 12)出现冻结和崩溃现象。
- 这些问题似乎与特定的聊天室活动或内存使用有关,因为其他平台在类似条件下保持稳定。
- 速率限制和额度混淆:关于速率限制(Rate Limits)存在持续的困惑,用户在争论 credits 与每秒请求数之间的关系,最高上限设定为 200。
- 澄清显示 credits 是不可退款的,且由于相关费用的存在,显示的美元金额并非一一对应。
- 探索 Command R+ 替代方案:用户正在调查 Command R+ 的替代品,对 Hermes 405B、Euryale 和 Mythomax 等模型表现出兴趣。
- 讨论内容包括 Rocinante 12B 的性价比,以及 OpenRouter 上的 Mythomax 是否与 Chub 上的版本有所不同。
- OpenRouter 盈利策略受质疑:一位用户质疑 OpenRouter 打算如何通过其 bring your own key 系统盈利,引发了对其经济可行性的担忧。
- 这引发了关于平台可持续性和潜在收入来源的重要对话。
- MythoMax 保持市场领先地位:MythoMax 在请求量方面继续领先,保持其 <:hugging_king:936261298273001503> 的地位。
- 尽管 Rankings Page 即将发生变化,社区依然认可 MythoMax 的稳定表现。
Perplexity AI Discord
- Citations 现已在 Perplexity API 中公开:Perplexity 团队宣布 citations(引用)现已在 API 中公开可用并立即生效,不再需要在请求中使用
return_citations参数。- 一些用户反映引用功能最初出现了,但随后从 API 和 labs.perplexity.ai 中消失了,这引发了对可能存在意外更改的担忧。
- Sonar 模型默认速率限制提高:Perplexity 为所有用户提高了 Sonar online models 的默认速率限制至 50 requests/minute,旨在增强 API 的可访问性和用户体验。
- 实施此更改是为了适应更高的需求并简化 API 服务的使用流程。
- Gladia 增强功能揭晓:一位成员分享了关于 Gladia 运作方式的详细见解,强调了其区别于其他 AI 工具的关键特性。
- 讨论深入探讨了各种场景下的实际应用,突出了 Gladia 的独特能力。
- 讨论具有无限记忆的 AI 概念:引入了一个关于微软 CEO 提出的 具有无限记忆的 AI 的话题,探讨了 AI 模型中扩展数据保留的想法。
- 参与者对该概念相关的实际实现和数据处理策略提出了疑问。
- GitHub 上突出的 API 讨论:此处 引用的一项 GitHub 讨论集中在 citation feature 何时退出 Beta 阶段。
- 这表明用户持续关注 API 中引用功能的官方状态和功能。
Eleuther Discord
- Flash Attention 中的前向梯度增强:讨论集中在 Flash Attention 中 forward gradients 的实现,成员们引用了 这篇论文 以获取关于 Jacobian-vector products 的详细见解。
- 参与者探讨了优化 normal attention 梯度所需的数学公式,强调了引用研究中概述的潜在性能提升。
- 逆向可解释性挑战:启动了对 inverse interpretability(逆向可解释性)的探索,重点是修改可解释的表示并相应地调整模型权重。
- 对话深入探讨了将修改后的符号方程与神经网络权重对齐的复杂性,强调了在干预后保持一致性的困难。
- NeoX 与 LitGPT 的基准测试:成员们寻求在训练速度和稳定性方面比较 NeoX 和 LitGPT 的基准测试,并指出 LitGPT 的仓库中缺乏超过 1.1B 参数规模的测试。
- 针对缺乏广泛基准测试数据的问题,建议进行实证评估,以更好地了解两个框架之间的性能权衡。
- Meta Llama 3.1 的特性:Meta Llama 3.1 因其多语言能力和对话优化而受到关注,提供 8B, 70B 和 405B 尺寸。
- 该模型采用自动回归 Transformer 架构,通过监督微调 (SFT) 和人类反馈强化学习 (RLHF) 进行了增强,满足多样化的应用需求。
- LLM 中的拒绝机制动态:分享了关于 LLM 中的 refusal(拒绝)行为如何受模型残差流中特定方向支配的详细分析,引用了即将发表的 arXiv 论文。
- 该机制是由 Neel Nanda 领导的 ML Alignment & Theory Scholars 项目的一部分,强调了通过改变模型架构内的这些方向性影响来修改拒绝行为的能力。
Stability.ai (Stable Diffusion) Discord
- ComfyUI 连接问题持续存在:用户正在排查 ComfyUI 中的 Connection denied 错误,建议检查杀毒软件和防火墙配置。
- 一名用户确认 Windows Defender 可能是拦截源,提示需进一步检查安全软件以解决连接问题。
- 使用 Adetailer 导致 Inpainting 细节丢失:有用户反映使用 adetailer 进行 inpainting(局部重绘)时,会导致之前重绘区域的细节丢失。
- 社区成员建议将 inpainting 参数调整为 mask only,以防止对图像其他部分进行意外更改。
- 推荐使用 Flux 模型以提升性能:社区提倡使用 Flux 基础模型,因为它在质量和速度之间达到了平衡,并讨论了从 SD 1.5 升级的方案。
- SD3.5 等模型因其性能和专业功能而受到关注,能够满足多样化的工程需求。
- 融合模型(Merged Models)与基础模型(Base Models)之争:讨论集中在像 Realvis 这样可以产生良好效果的融合模型,与通常在精确 prompting 下表现出色的基础模型之间的对比。
- 参与者对融合模型的有效性及其在用户社区中的接受度表达了关注。
- SD 1.5 相比 SDXL 获得持续支持:与 SDXL 相比,SD 1.5 凭借大量的研究论文继续保持着强大的支持基础。
- 讨论提到增强 SD 1.5 的工具数量在不断增加,而 SDXL 也正在逐渐获得相当的工具支持和研究背书。
Nous Research AI Discord
- Ferret-UI 发布,增强 UI 任务处理能力:推出了首个以 UI 为中心的多模态大语言模型 (MLLM) —— Ferret-UI。它基于 Gemma-2B 和 Llama-3-8B 架构构建,旨在高效执行移动 UI 的 referring(指代)、grounding(定位)和 reasoning(推理)任务,详见官方论文。
- Ferret-UI 的广泛训练使其能够理解复杂的 UI 特征(如细长的长宽比和小物体),在所有基础 UI 基准测试中均超越了 GPT-4V。
- 实施 RAG 以增强对话上下文:一名成员提议使用 Retrieval Augmented Generation (RAG) 为即将进行的对话环节提供有价值的上下文,旨在优化聊天体验。
- 另一名成员寻求有效对话的 tips 以提高参与度和输出质量,表明了在对话环境中最大化 RAG 潜力的协作努力。
- 用于手写体转 LaTeX 的视觉语言模型:分享了基于 Llama 3.2 1B 训练 Vision-Language Model (VLM) 用于手写体转 LaTeX 的进展,预计很快会发布启动项目。
- 该方法在理论上适用于多种模态,引发了对开发适用于不同应用场景的多模态模型的进一步兴趣。
- 使用 llm-evaluation-harness 评估 PyTorch 模型:一位用户询问如何使用 llm-evaluation-harness 评估 PyTorch 模型,并指出该工具主要支持 Hugging Face 模型。
- 另一名成员确认该框架目前仅用于 Hugging Face 模型,并建议支持可能仅限于这些模型及其 API。
- 大语言模型中的 Abliteration 概念:成员们讨论了 abliteration(由 ablate 和 obliterate 组成的合成词)的概念,探索其对大语言模型 (LLMs) 的影响。
- 共享了包括 Hugging Face 博客在内的相关链接以澄清该概念,强调了其在 AI 进步中的重要性。
aider (Paul Gauthier) Discord
- Gemini 2.0 发布传闻:关于 Google 即将发布 Gemini 2.0 的传闻正在流传,其中可能包含目前正在测试的新模型 Gemini Pro 2.0。
- 猜测包括性能增强以及对高级用户的访问限制,社区成员对其广泛部署的准备情况表示担忧。
- 介绍 Exponent:AI 配对编程器:Exponent 被介绍为一款 AI 配对编程器,能够通过专门的 CLI 在各种环境中执行软件工程任务,可通过其网站访问。
- 强调了它从现有代码库学习并直接编辑文件系统文件的能力,将其定位为 Aider 的强力替代方案。
- 将 RAG 与 Qdrant 集成:成员们讨论了将 Aider 的架构与他们的 Qdrant 向量数据库集成以用于 RAG 应用,旨在利用外部知识源。
- 建议包括创建一个用于查询的 API,并使用 CLI 工具与数据库进行无缝交互,从而增强上下文检索。
- Aider 开发的资金支持机会:社区探讨了支持 Aider 开发的方法,提议 YouTube 创作者可以因创作关于 Aider 的内容而获得资助。
- 还有建议开启 GitHub 捐赠,尽管维护者是否接受非代码贡献仍存在不确定性。
- 利用 Aichat 实现 RAG 解决方案:讨论强调了使用 Aichat 进行 RAG,并提出了提取文档上下文以改进 Aider 响应的想法。
- 一种工作流包括将文档抓取为 Markdown 文件,并利用 NotebookLM 生成上下文,从而简化 Aider 的信息检索。
Unsloth AI (Daniel Han) Discord
- LoRA vs 全量微调:合理的 Rank 设置至关重要:一位成员分析了题为 ‘LoRA vs Full Fine-tuning: An illusion of equivalence’ 的论文,强调如果操作得当,LoRA 是有效的,并强调了合理 Rank 设置的必要性。该分析基于 Daniel Han 的推文。
- 针对缺乏 SVD 初始化测试以及 LoRA 与全量微调模型中关于“侵入维度 (intruder dimensions)”的矛盾说法提出了批评。
- Transformers-Interpret 与 Unsloth 集成面临挑战:一位成员尝试将 Transformers-Interpret 与 Unsloth 集成,但在处理模型输出时遇到问题。他们解释说该工具旨在用于模型可解释性,但在使其与 Unsloth 推理无缝协作方面面临挑战。
- 讨论包括潜在的解决方案以及提高两个工具之间兼容性的需求。
- 微调 LLaMA 3.2 在文本分类中达到 70% 准确率:一位用户报告在微调 LLaMA 3.2 时,在 11 个类别的文本分类中达到了 70% 的准确率。他们询问了如何修改输出层以适应其类别数量,并分享了实现新分类头 (classification head) 的方法。
- 社区成员提供了优化微调过程的反馈和建议。
- Avian 的快速推理方法引起关注:一位用户对 Avian 表示关注,询问其 推理 (inference) 方法为何比竞争对手更快。这一询问为进一步讨论性能指标和优化策略开启了空间。
- 专家分享了关于 Avian 框架的见解和资源,强调了其独特的优化。
- AI/ML 预印本研究中的可复现性问题:一位成员报告在处理 AI/ML 研究论文(特别是涉及代码和数学的部分)时遇到了奇怪的错误和不一致。他们表达了挫败感,有时数学计算根本对不上,或者无法复制数据。
- 另一位成员指出,这些论文是预印本 (preprint),意味着缺乏彻底的同行评审,这可能是导致此类可复现性问题的原因。
Latent Space Discord
- Claude 处理复杂任务的困境:用户报告称 Claude 的免费版在处理基础任务之外的表现不佳,例如处理 200 行的 CSV 进行分析。
- 这一限制突显了免费 AI 工具在支持高级数据处理需求方面面临的挑战。
- Codebuff 对比 Aider:能力的较量:在 Codebuff 和 Aider 的对比中,人们对 Codebuff 的闭源性质与 Aider 的文件请求及命令运行功能提出了讨论。
- Aider 通过超过 8000 次 commits 改进了用户体验,展示了持续的增强。
- Mistral 发布 Batch API:Mistral 推出了 Batch API,能以同步 API 调用一半的成本处理高吞吐量请求。
- 此举旨在近期行业 API 价格上涨的背景下,提供具有成本效益的 AI 解决方案。
- FLUX1.1 Ultra 增强图像生成:新发布的 FLUX1.1 Pro Ultra Mode 支持 4 倍分辨率的图像生成,同时保持极快的生成速度。
- 性能基准测试显示,它比同类高分辨率模型快 2.5 倍,且价格极具竞争力,为每张图像 0.06 美元。
- Gemini API 现已公开:备受期待的 Gemini API 已通过 OpenAI Library 和 REST API 提供,支持 Chat Completions 和 Embeddings API。
- Google 的博客文章 提供了初步的使用示例,以协助开发者集成 Gemini 模型。
Notebook LM Discord Discord
- Audio Overviews 反馈调查奖励:团队正在通过 此筛选表单 提供的简短调查收集关于 Audio Overviews 的反馈,完成后将向选定的参与者提供 20 美元礼品码。
- 参与者必须年满 18 岁,礼品将在成功完成调查后通过电子邮件发送。
- 利用 NotebookLM 进行备考:一位成员建议利用 NotebookLM 从 3000 页的学习资料中生成测验,用于即将到来的晋升考试,并建议按章节拆分内容以进行针对性测验。
- “希望它能帮助简化学习过程!” 表达了对该工具有效性的乐观态度。
- 将 Google 录音导入 NotebookLM 的挑战:用户询问了如何将录音从 recorder.google.com 导入 NotebookLM,回复指出录音可以下载为 m4a 文件,但可能无法保留说话人识别(speaker identification)。
- “但这并不一定能保留已命名的说话人。” 强调了关于说话人清晰度的关键担忧。
- 讨论 AI 语言模型中的偏见:成员们参与了关于 AI 系统固有偏见的讨论,质疑了无偏见数据的可能性以及 AI 编程中立性的影响。
- “如果 NotebookLM 的未来倾向于偏见,那将是适得其反的。” 强调了保持中立的重要性。
- 利用 NotebookLM 的 AI 功能增强求职准备:一位用户探索了 NotebookLM 如何辅助准备技术面试、软技能练习和编码挑战,并建议使用 AI 语音进行模拟面试。
- “我正在准备技术求职,需要尽可能多的帮助!” 强调了这些功能的实际益处。
Modular (Mojo 🔥) Discord
- ModCon 取消 2024 年计划:团队宣布 2024 年将不会举办 ModCon,因为他们正专注于重大进展。
- 敬请关注未来活动和进展的更多更新。
- Mojo 与 Python 及 C/C++ 的互操作性:成员们表达了对 Mojo、Python 和 C/C++ 之间无缝互操作性的期待,强调了无需复杂链接即可轻松导入模块的重要性。
- 然而,实现这一点可能需要避免支持现有语言的某些复杂特性,类似于 C++ 与 C 的关系。
- 创建 OpenSSL 封装器的挑战:讨论了构建 OpenSSL 封装器可能面临的困难,并认识到其庞大的 API 表面积以及需要谨慎实现。
- 有人担心,如果没有适当的 C interop,创建这样的层可能会引入安全风险。
- Mojo 开发中对密码学专业知识的需求:社区强调了在为 Mojo 开发密码学原语时,必须有合格的密码学家参与,因为其复杂性和安全性影响重大。
- 成员们一致认为,除非有专家监督,否则安全关键型的实现理想情况下不应作为开源项目进行。
- Mojo 中 MLIR 反射 API 的计划:已确认 Mojo 计划推出 MLIR 的反射 API,这将允许对代码进行更深层次的操作和内省。
- 然而,有人提醒该 API 将需要类似于编写编译器 pass 的专业知识,因此初始使用会比较复杂。
OpenAI Discord
- AI 销售 Agent 引发法律担忧:关于 AI 销售 Agent 的讨论强调了对“大规模垃圾邮件”行为的警惕,以及 AI 可能幻觉出促销活动从而导致公司面临法律后果的问题。
- 参与者强调了监管 AI 生成的推广活动的重要性,以防止误导信息并确保符合法律标准。
- 光子计算增强量子网络:一位成员提议在量子网络中使用光子计算,在 BOINC 等系统的节点上进行计算,以解决带宽问题。
- 他们指出,虽然光干涉可以辅助计算,但最终测量仍需要电子方法。
- 通过积极环境培养仁慈的 AI:培养仁慈的 AI 的方法依赖于创造一个积极的环境,而不是强加严格的道德框架。
- 培养道德价值观被视为 AI 发展其个性的自然方式。
- 训练数据使用透明度的演变:一位成员讨论了他们分享数据用于训练的承诺,旨在增强 AI 模型。
- 他们还注意到数据使用许可措辞的变化,这表明供应商的透明度正在不断演变。
- GPT 模型迅速过时:一位成员指出 GPTs 虽然有效,但由于新的进展而迅速过时。
- 增加限制并加入 o-1 可能会显著改善体验。
LM Studio Discord
- Llama 3.2 Vision 模型亮相:新的 Llama 3.2 Vision 模型提供 11B 和 90B 两种尺寸,需要大量 VRAM 才能获得最佳性能。
- 用户被引导下载 Ollama 0.4 来运行该模型,并重点介绍了在提示词中添加图像的方法。
- LM Studio 增强提示词处理:一位用户询问如何在 LM Studio 中找到 Gemma prompt,对其在最新版本中的缺失表示困惑。
- 社区确认,在使用兼容的社区模型时,Gemma prompt 现在通过 Jinja 自动管理。
- LLM 网页搜索集成:一位成员询问他们的 Local LLM 是否可以通过 LM Studio 进行网页搜索,得到的确认是不原生支持。
- 建议他们开发自定义 Python 解决方案,将网页搜索功能与本地服务器集成。
- GPU 优化在 LM Studio 中:一位用户报告其 RTX 2060 GPU 未被利用,随后有人建议检查 LM runtime 设置。
- 建议用户选择与 GPU 兼容的模型,并确保在运行时设置中启用了 CUDA。
- LM Studio Beta 工具发布期待:一位用户对即将发布的 LM Studio Beta 工具的时间表表达了兴奋与沮丧。
- 社区讨论凸显了对新功能的强烈渴望,放大了对发布的期待。
Interconnects (Nathan Lambert) Discord
- 法院裁决有利于 GenAI 被告:SDNY 法官 Colleen McMahon 驳回了 RawStory v. OpenAI 一案(允许原告修正后重新起诉),这可能对 GenAI 被告方产生重大有利影响。
- 法官判定 用于 LLM 训练的事实不受版权保护,并强调目前的 GenAI 模型是 合成(synthesize)而非复制 数据。
- Google 发布 Gemini-2.0-Pro-Exp-0111:Google 准备在其 Advanced 板块下推出新模型 Gemini-2.0-Pro-Exp-0111,尽管目标受众尚未明确。
- 社区正在积极寻求 Prompt 建议,以有效测试这一即将推出的模型的能力。
- Amazon 考虑对 Anthropic 进行第二次投资:据报道,Amazon 正在洽谈对 Anthropic 进行 第二次数十亿美元的投资,旨在加强双方的合作伙伴关系。
- AWS 正在鼓励 Anthropic 采用其 Trainium AI 芯片,而不是继续依赖 NVIDIA 的 GPU。
- 模型 Token 限制引发关注:一名成员指出 1.5T Token 的指令 可能会让模型不堪重负,引发了对处理如此庞大数据量的担忧。
- 这一问题与社区关于确定 最佳 Token 限制 以维持模型性能的广泛讨论相一致。
- PRM 与价值模型相关联:在训练背景下出现了关于 PRM 的讨论,特别是它们与 价值模型(value models) 的联系。
- 一位成员肯定了 PRM 对训练至关重要,而另一位成员指出 Shephard 在这些讨论中充当了可靠的验证器(verifier)。
OpenInterpreter Discord
- 直播无最大观众限制:一位成员询问了直播的 最大观众人数,得到的澄清是 没有观众人数限制。
- OmniParser 功能解析:OmniParser 将 UI 截图解释 为结构化格式,增强了 基于 LLM 的 UI Agent,并提供了关于其 训练数据集 和 模型使用 的详细信息。
- 本地运行 LLM 的挑战:一位用户提出了在低配置电脑上 运行本地化 LLM 的担忧,并询问 Open Interpreter 模型是否可以在基于 Python 或 Anaconda 构建的 在线服务器 上运行。
- 注意到本地正常运行需要 强力 GPU 或 NPU,因为仅靠 CPU 运行会导致性能不佳。
- 近期活动的重大更新:近期活动揭晓了 大规模重写、新的文本渲染引擎 以及 改进的加载时间。
- 此外,还讨论了 文件查看和编辑 等新功能的引入。
- 桌面应用访问信息:桌面应用 的访问权限尚未发布,目前正由选定的社区成员进行 Beta 测试。
- 加入未来访问等候名单的说明可以在此处找到:加入等候名单。
tinygrad (George Hotz) Discord
- Nvidia 硬件在优化方面表现出色:Tinygrad 报告称 Nvidia 硬件 是当前模型的最佳选择,并断言 Transformer ASIC 带来的性能提升微乎其微。
- 这一见解引发了关于在特定计算任务中,传统 GPU 架构相较于专用 ASIC 的具体优势的讨论。
- Groq 硬件带来显著提升:共识认为 Groq 硬件 对 AI 工作负载性能有积极影响。
- 成员们强调了 Groq 针对特定计算操作定制的架构的有效性。
- ASIC 在算法设计中受到青睐:讨论强调了 ASIC 的优势不仅限于减少控制逻辑,某些算法还针对直接硬件实现进行了优化。
- 例如,与传统的步骤过程相比,融合操作(fused operations)有助于实现更高效的数据处理。
- 编译器工具需要增强:George Hotz 对代码库中当前 DEFINE_ACC/ASSIGN 的实现表示不满,正在寻求替代方案。
- 这反映了社区对改进编译器工具和方法论以增强功能的呼声。
- x.shard 函数区分复制与切片:在
x.shard(GPUS, axis=None)函数中,x 会被复制到所有 GPU,而x.shard(GPUS, axis=0)则沿轴 0 对 x 进行切片以分发到各显卡。- 理解这一区别对于在并行处理设置中高效管理数据移动至关重要。
DSPy Discord
- 微软研究院发布 OptoPrime:微软研究院在 arXiv 论文中展示了他们的优化器 OptoPrime。
- OptoPrime 这个名字引发了关于优化器社区是否需要更具创意命名的讨论。
- 斯坦福寻求出色的优化器名称:成员们期待斯坦福即将推出的优化器能有一个足以与 OptoPrime 匹敌的“史诗级名称”。
- 这反映了研究界在优化器命名惯例方面的竞争精神。
- Self Consistency 模块中的缓存难题:用户讨论了在 Self Consistency 模块中“清理”缓存的方法,例如向
dspy.Predict对象传递新的 temperature。- 替代方案包括使用
dspy.LM禁用缓存,或将Predict模块配置为多次生成(multiple completions)。
- 替代方案包括使用
- 动态 Few-Shot 示例优化:一位成员探讨了使用基于余弦相似度的动态 Few-Shot 示例与固定示例相比的优势。
- 认为针对特定主题(如体育或电影)调整 Few-Shot 示例可以增强模型的性能和相关性。
- 用于问题生成的 MIPRO 优化器:用户研究了 MIPRO 是否能从大量的 Q&A 对池中生成或筛选示例。
- 寻求能够以特定风格生成问题的优化器建议,并重点介绍了一个可以同时生成问题和答案的功能。
Cohere Discord
- Tavily 成为首选:在调研并与 Claude 讨论后,一位成员得出结论,由于其用户友好的设置,Tavily 是处理 AI 相关查询的最佳选择。
- 他们认为,使用免费计划与 ChatGPT 一起进行初步测试,将为搜索过程提供宝贵的见解。
- API 设置中的障碍:另一位成员强调了使用 Brave API 或 AgentSearch 的复杂性,强调这些选项与 Tavily 相比需要更广泛的设置。
- 用于比较指标的 Python 脚本:有人建议创建一个 Python 脚本,以便对不同服务进行多次 API 调用,从而对搜索引擎进行深入比较。
- 这种方法可以从元数据中提取指标,以评估其相对于 Google 和 DuckDuckGo 等引擎的搜索有效性。
- Cohere API 试用密钥支持 Embedding:一位用户对使用试用密钥调用 Cohere embed API 时报错表示沮丧,不确定问题出在哪里。
- 另一位成员确认试用密钥支持所有 Cohere 模型,包括 Embedding。
- 错误归因于实现:成员们指出,错误可能源于实现过程,而非 Cohere API 本身。
- 鉴于该用户缺乏编程知识,他们建议去 Discord 或 GitHub 寻求具体指导。
OpenAccess AI Collective (axolotl) Discord
- 使用 Central Flows 进行 Metaparameter Tuning:最近的一篇 论文 探讨了深度学习中的 metaparameter tuning,证明了优化器的行为可以使用“central flow”方法进行建模。
- 该模型能以高精度预测长期优化轨迹,为神经网络的优化策略提供了新视角。
- Transformer 中的优化器行为:有人担心关于 metaparameter tuning 的研究结果是否能推广到 transformer architectures,特别是考虑到该研究中使用的 CIFAR-10 数据集非常有限。
- 成员们讨论了这些局限性对 central flow 模型在不同神经网络架构中适用性的影响。
- 在 AMD GPUs 上运行 Axolotl:讨论集中在拥有 1536 GB VRAM 的 AMD GPUs 上运行 Axolotl 的有效性,评估了成本和性能收益。
- 成员们辩论了与 NVIDIA GPUs 相比,增加的显存容量是否能显著提升训练性能。
- 与 AdamW 相比的内存消耗:一个解决 Axolotl’s memory consumption 的 PR 已准备就绪,但其资源需求仍引发关注。
- 通过与 AdamW 优化器进行对比,评估了内存使用的潜在差异。
LlamaIndex Discord
- 使用 Context Refinement Agent 提升 RAG 系统:学习构建一个 Context Refinement Agent,通过智能扩展和精炼检索到的上下文,增强 RAG 对复杂查询的响应。
- 博客文章详细介绍了 Agent 如何评估检索到的 chunks 以改进回答,使 RAG systems 更加有效。
- 使用 NVIDIA NIM 构建 Agentic RAG 查询引擎:这篇来自 NVIDIA 的客座文章 解释了如何使用 NVIDIA’s NIM 微服务创建 agentic RAG query engine,以实现高效的开源模型推理。
- 它涵盖了为复杂问题构建查询路由以及实现子问题查询,简化了处理复杂咨询的过程。
- LlamaIndex Workflow 详解:一份关于 LlamaIndex workflow 的全面指南,详细介绍了事件驱动的抽象如何通过
@step装饰器将多个事件串联起来。- Workflow 允许构建诸如 Agent 或 RAG flows 等多样化流程,并通过 Arize Phoenix 等工具实现自动化的可观测性。
- 招聘 AI NLP Engineer:一家 AI 初创公司的 CTO Nikkole 分享称,他们正在寻找一名 AI NLP Engineer,W2 合同的薪资范围为 $95k-$115k。
- 建议感兴趣的候选人通过 LinkedIn 联系,因为那里才接受私信。
- 寻求自定义 LLM 资源:一位成员正在寻求资源建议,以便针对其自定义偏好数据集运行开源 LLM。
- 他们请求社区提供建议,以 增强他们的理解和实施能力。
LAION Discord
- MicroDiT 复现完成:用户宣布完成了他们的 MicroDiT replication,并分享了 model weights 和 inference script 的下载链接。
- 他们感谢 FAL 提供了必要的计算资源,并表示:“我觉得我可能在搞大事(I think I might be cooking)。”
- 分享 Bonnie and Clyde 原声视频:分享了一个名为 “LOST SOUNDTRACK - BONNIE AND CLYDE” 的 YouTube 视频,描述了 Bonnie Parker 与前科犯 Clyde Barrow 的浪漫故事及其暴力犯罪生涯。
- 视频可以在 这里 观看,突出了爱情与犯罪的叙事。
LLM Agents (Berkeley MOOC) Discord
- 计算资源申请截止日期警报:Computing Resources 的申请截止日期为 PST 时间 11 月 25 日结束,提交后预计会有 1-2 周的处理延迟。
- 鼓励 Participants 尽早提交申请,以确保及时处理。
- 参与者紧急行动呼吁:敦促成员立即行动,以免错过 11 月 25 日的资源申请截止日期。
- 尽早提交对于确保充足的 processing time 至关重要。
MLOps @Chipro Discord
- Data Council ‘25 CFP 开放一周:Data Council ‘25 CFP (Call for Proposals) 将继续开放一周,邀请开发者展示他们的 ML/AI 项目。欲了解更多详情,请访问 Data Council CFP 页面。
- 预计本次活动将包含多场引人入胜的演讲和黑客活动,促进 ML/AI 社区内的创新讨论。
- ML/AI 应用演讲旨在激发灵感:Data Council ‘25 将举办一系列关于 ML/AI 应用的演讲,重点介绍该领域的最新进展。
- 鼓励参与者展示他们的 ML/AI 应用开发成果,促进积极的协作和知识共享。
AI21 Labs (Jamba) Discord
- Jurassic 的 ‘summarize-by-segment’ 端点弃用:一位成员对 Jurassic ‘summarize-by-segment’ 端点的突然弃用表示沮丧,他们在宣布的 11/14 日期之前一直依赖该端点提供核心业务服务。
- 他们将这一意外变化描述为一个痛点,强调了其对工作流的影响。
- 迁移到新的 Jamba 模型:一位用户请求关于利用新的 Jamba 模型来复制已弃用端点功能的指导,特别是针对 URL 内容分段功能。
- 他们强调需要协助调整 URL parameters 以有效地提取内容。
Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Torchtune Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Mozilla AI Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
Gorilla LLM (Berkeley Function Calling) Discord 没有新消息。如果该频道长期沉寂,请告知我们,我们将将其移除。
第 2 部分:各频道详细摘要与链接
完整的逐频道详情已在邮件中截断。
如果您喜欢 AInews,请分享给朋友!提前致谢!