ainews-gemini-experimental-1114-retakes-1-llm-9071
Gemini (Experimental-1114) 以 1344 的 Elo 分数重夺大语言模型(LLM)排行榜第一。
Anthropic 发布了 3.5 Sonnet 的越狱鲁棒性基准测试,重点强调了自适应防御。OpenAI 通过一种用于连续块检索的新型 RAG 技术增强了 GPT-4。LangChain 推出了用于提示词优化的 Promptim。Meta AI 介绍了 NeuralFeels,利用神经场实现视觉-触觉感知。RichardMCNgo 从 OpenAI 辞职,并强调了对 AI 治理和理论对齐的担忧。相关讨论强调了在 AI 部署中真实公共信息和伦理对齐的重要性。最新的 Gemini 更新使其在应对对齐挑战的同时,成为了新的排名第一的大语言模型。AI 社区继续关注基准测试、提示工程以及对齐问题。
这次更新没有随附论文,API 中也尚未提供,所以遗憾的是这里没有太多可讨论的内容——通常这不符合专题报道的标准,但当我们有了新的排名第一的 LLM 时,我们必须进行报道。
这次更新对 Gemini 来说正值关键时刻,因为它正在处理一些非常离奇且令人担忧的 alignment 问题。
AI Twitter 摘要
所有摘要均由 Claude 3.5 Sonnet 完成,取 4 次运行中的最佳结果。
AI 模型开发与工具
-
模型发布与增强:@jerryjliu0 介绍了一种用于连续块检索(contiguous chunk retrieval)的新型 RAG 技术,增强了 @OpenAI 的 GPT-4 能力。此外,@AnthropicAI 宣布发布其越狱鲁棒性(jailbreak robustness)基准测试,强调针对新攻击类别的自适应防御。@LangChainAI 推出了 Promptim,这是一个用于 Prompt 优化(prompt optimization)的实验性库,旨在系统地改进 AI 系统提示词。
-
工具集成与服务:@Philschmid 强调了 hf(.co)/playground 的解耦,将其转变为一个独立的开源项目,以促进社区协作。@AIatMeta 展示了带有神经场(neural fields)的 NeuralFeels,增强了手内操作的视觉触觉感知(visuotactile perception)。
AI 治理与伦理
-
辞职与治理见解:@RichardMCNgo 宣布从 OpenAI 辞职,并敦促利益相关者阅读他关于 AI 治理和理论对齐(theoretical alignment)的深刻见解。@teortaxesTex 讨论了 AI 治理中真实公共信息的重要性,以防止虚假信息并确保伦理对齐(ethical alignment)。
-
伦理部署与护栏:@AndrewYNg 和 @ShreyaR 推广了一门关于 AI Guardrails 的新课程,重点关注可靠的 LLM 应用。@AnthropicAI 强调了越狱快速响应在通过自适应技术使 LLM 更安全方面的重要性。
AI Scaling 与评估挑战
-
Scaling 极限与评估饱和:@swxy 探讨了 Scaling(扩展)已撞墙的观点,认为评估饱和(evaluation saturation)是主要因素。@synchroz 对 Scaling 限制表示担忧,强调了进一步扩展 AI 模型的经济挑战。
-
算力与优化:@bindureddy 认为感知到的 AI 减速具有误导性,将其归因于基准测试的饱和。@sarahookr 讨论了预训练 Scaling 收益递减的问题,以及探索当前范式之外的架构优化的必要性。
软件工具、库与开发平台
-
开发工具与库:@tom_doerr 分享了多个发布,包括一个零配置开发证书工具以及用于由 WebAssembly 驱动的无服务器应用的 Spin 框架。@wightmanr 增强了 timm.optim,使开发者更容易使用优化器工厂(optimizer factories)。
-
集成与工作流自动化:@LangChainAI 演示了 AI Assistant 如何利用自定义知识源来改进威胁检测。@swyx 强调了对于非研究人员来说,专注于 AI 产品开发而非研究的重要性。
AI 研究与论文
-
已发表的研究与论文:@SchmidhuberAI 提交了一篇关于叙事本质(narrative essence)用于故事形成的新论文,具有潜在的军事应用。@wsmerk 分享了题为 “On the diminishing returns of scaling” 论文的见解,讨论了算力阈值和当前 Scaling Laws 的局限性。
-
会议亮点:@sarahookr 展示了他们在 #EMNLP2024 主赛道的工作,重点介绍了 Aya Expanse 的突破。@finbarrtimbers 宣布了一个即将举行的与强化学习(reinforcement learning)相关的活动,探讨利用与探索(exploitation/exploration)的边界。
AI Reddit 摘要
/r/LocalLlama 摘要
主题 1:Nvidia RTX 5090 进入生产阶段,配备 32GB VRAM
- 传闻配备 32GB 显存的 Nvidia RTX 5090 进入生产阶段 (Score: 271, Comments: 139): 据报道,Nvidia 正将其生产重心转向 RTX 50 系列,传闻中的 RTX 5090 将配备 32GB 显存。包括 VideoCardz 和 PCGamesN 在内的多个消息来源指出,人们越来越担心潜在的黄牛活动会影响这些新 GPU 的供应和定价。
- 用户对 RTX 5090 的 32GB 显存传闻持怀疑态度,部分用户质疑来源的有效性,并参考以往如 4080/4070 闹剧等事件,暗示 Nvidia 可能会在最后一刻更改规格。32GB VRAM 的传闻已广泛流传,但尚未得到官方证实。
- 用户对黄牛活动和高昂定价表示担忧,由于黄牛和市场需求,预计价格将达到 $3000 或更高。一些评论讨论了 Nvidia 的生产转型和法律限制(如无法在中国销售)对欧盟等其他地区供应和定价的潜在影响。
- 讨论强调了 RTX 5090 在游戏之外的使用场景,重点关注运行本地模型和 AI 任务等专业及爱好者应用。用户将 5090 的潜在性能和 VRAM 需求与 RTX 3090 等当前型号进行了对比,并强调了 VRAM 在处理 AI 视频生成和 LLM 等任务中的重要性。
Theme 2. MMLU-Pro 分数:Qwen 和 Claude Sonnet 模型
- MMLU-Pro 分数 vs 推理成本 (Score: 215, Comments: 31): MMLU-Pro 分数和推理成本可能是分析的重点,旨在研究模型性能指标与运行推理任务的经济成本之间的关系。这一讨论对于在保持高性能的同时优化 AI 模型成本效益的工程师具有参考价值。
- Claude Sonnet 3.5 因其在处理复杂任务时的通用性和准确性而受到称赞,尽管它需要特定的 Prompt 引导来获得创新解决方案。由于其能够快速理解并解决错误,它被认为是程序员的高效工具。
- Tencent Hunyuan 模型因其高 MMLU 分数及其作为拥有 520 亿激活参数的 Mixture of Experts 架构而受到关注。该模型被认为有可能超越 Sonnet 3.5 等现有模型。
- 讨论强调 Qwen 模型具有极高的性价比,其中 Qwen 2.5 显著定义了性能与成本效益的 Pareto 曲线。Haiku 模型因定价过高而受到批评,对推理成本的分析显示,Claude 3.5 Sonnet 的成本明显高于 70B 模型。
Theme 3. Qwen2.5 RPMax v1.3:创意写作模型
- 关于 LLM 模型重复性与创意以及基于 Qwen2.5 32B 的新 ArliAI RPMax v1.3 模型的报告! (Score: 103, Comments: 60): 该帖子讨论了基于 Qwen2.5 32B 的 ArliAI RPMax v1.3 模型,重点关注其在 LLM 性能背景下的重复性与创意。由于缺乏详细的正文内容,限制了对该模型训练方法或性能指标的具体了解。
- 模型版本与训练改进:讨论强调了 RPMax 模型从 v1.0 到 v1.3 的演进,在训练参数和数据集策划方面有所改进。值得注意的是,v1.3 使用了 rsLoRA+ 以获得更好的学习效果和更低的 Loss,该模型因其在写作任务中的创意和减少的重复性而受到称赞。
- 数据集与微调策略:该模型的成功归功于一个经过策划的数据集,该数据集避免了重复,并注重质量而非数量。训练仅涉及单个 Epoch 且学习率较高,旨在实现创意输出而非精确复制训练数据,这与传统的 Fine-tuning 方法有所不同。
- 社区反馈与模型性能:用户反馈该模型实现了其作为创意写作/RP 模型的目标,一些人描述其交互感几乎就像与真人交流。讨论了该模型在创意写作方面的表现,并与 EVA-Qwen2.5-32B 等其他模型在上下文处理和写作质量方面进行了对比。
主题 4. Qwen 32B 与 72B-Ins 在 Leetcode 上的对比
- Qwen 32B Coder-Ins 与 72B-Ins 在最新 Leetcode 题目上的表现 (分数:79,评论:23):该帖子评估了 Qwen 32B Coder 与 72B 非编程变体以及 GPT-4o 在近期 Leetcode 题目上的表现,强调了模型在推理能力上优于纯编码能力的优势。测试使用 vLLM 进行,模型量化为 FP8,Context Length 为 32,768 token,运行在 H100 GPU 上。作者指出,该基准测试包含 70% 的推理和 30% 的编码,并强调由于 Hard 难度的 Leetcode 题目过于复杂且模型普遍表现不佳,因此大部分被排除在外。
- 作者确认所有测试结果均基于 pass@1,这是评估模型在编码任务中表现的常用指标。一位用户建议将测试范围扩大到 14B 和 7B 编程模型以进行更广泛的对比,作者表示如果有足够的兴趣,他愿意尝试,并可能将其转化为一个开源项目。
- 一位评论者认为,由于 AI 的进步,解决 Leetcode 问题所需的技能已变得更加容易获得,并将这种技能组等同于一款 PS4 游戏的大小。另一位用户反驳称,这提高了技能下限 (skill floor),意味着虽然 AI 可以处理简单的任务,但更复杂的解决问题能力仍然是必要的。
- 人们对比较不同的量化方法(特别是 FP8 与 Q4_K_M)表现出浓厚兴趣,以确定哪种更适合推理。这突显了用户对模型量化技术的效率和性能权衡的持续关注。
其他 AI Subreddit 回顾
/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT
主题 1. Gemini 1.5 Pro 发布 - 夺得 LMSys 排行榜榜首
- Gemini-1.5-Pro,基于我个人测试,是有史以来最好的视觉模型,绝无例外 (分数:48,评论:28):Gemini-1.5-Pro 似乎是一款多模态视觉模型,但在未提供任何帖子内容或测试细节的情况下,无法验证关于其性能的实质性主张。标题对模型的优越性做出了主观断言,但缺乏支持证据或对比分析。
- 用户注意到不同任务中的表现各异,有人报告称在图表分析方面,他们的测试显示 Claude Sonnet 3.5 > GPT-4 > Gemini-1.5-Pro,不过也有人警告不要从有限的测试样本中得出结论。
- 关于多模态能力的讨论强调了其优势和局限性,用户指出虽然 Gemini 和 Imagen 在多模态输入和图像生成方面被低估了,但该技术尚未先进到可以进行实时摄像头交互的程度。
- 具体的图像分析对比显示准确性参差不齐,Flash 正确识别了某些细节(如双马尾),而 Pro 提供了更全面的描述,尽管两者在观察中都存在一些不准确之处。
- 新的 Gemini 模型在 LMSys 排行榜上超越 o1 模型排名第一?Anthropic 即将发布 3.5 Opus (分数:163,评论:57):Google 的 Gemini 已达到 LMSys 排行榜第一的位置,在性能排名上超越了 OpenAI 的模型。Anthropic 计划在不久的将来发布他们新的 Claude 3.5 Opus 模型。
- LMSys 排行榜因缺乏质量控制以及仅基于用户对格式而非实际性能的投票而受到批评。多位用户指出 LiveBench 是更可靠的模型评估基准。
- 用户讨论了 Claude 3.5 Sonnet(也被称为 3.6)的性能,一些人强调了其 32k 输入上下文以及更慢但更彻底的“思考”方式。分享了几个替代基准资源,包括 Scale.com 和 LiveBench.ai。
- Anthropic 的 CEO Dario 在一次 Lex 访谈中承认,将两个版本都命名为“3.5”令人困惑,并建议他们本应将新版本称为“3.6”。该公司最近已从其 UI 中删除了该模型的“new”标签。
主题 2. 使用数字签名的不可检测 ML 模型后门 - 新研究
- [R] Undetectable Backdoors in ML Models: Novel Techniques Using Digital Signatures and Random Features, with Implications for Adversarial Robustness (Score: 27, Comments: 5): 该研究展示了如何使用两种框架在 ML 模型中构建不可检测的后门:基于数字签名方案的后门和基于Random Fourier Features/Random ReLU 的后门。即使在白盒分析以及完全访问模型架构、参数和训练数据的情况下,这些后门仍然无法被检测到。研究结果揭示了对 ML Security 和外包训练的关键影响,表明带有后门的模型保持与干净模型相同的泛化误差,同时允许通过细微的输入扰动进行任意输出操纵,详见其论文 “Planting Undetectable Backdoors in Machine Learning Models”。
Theme 3. 新型 CogVideoX-5B 开源文本生成视频模型发布
-
CogvideoX + DimensionX (Comfy Lora Orbit Left) + Super Mario Bros. [NES] (Score: 52, Comments: 4): 一篇引用了 CogVideoX 5B 和 DimensionX 模型用于超级马里奥兄弟 NES 内容的帖子,尽管帖子正文未提供具体细节或示例。这种组合暗示了使用这些 AI 模型处理复古游戏内容的视频生成能力。
-
CogVideoX-5b multiresolution finetuning on 4090 (Score: 21, Comments: 0): CogVideoX-5b 模型可以使用 cogvideox-factory 仓库在 NVIDIA RTX 4090 GPU 上通过 LoRA 进行微调。该帖子包含了一个微调过程的视频演示。
Theme 4. 随着 AI 工具兴起,StackOverflow 流量骤减
- RIP Stackoverflow (Score: 703, Comments: 125): 在 AI 编程工具兴起后,Stack Overflow 经历了显著的流量下降,引发了关于传统编程问答平台未来生存能力的讨论。由于缺乏帖子正文内容,无法对具体指标或下降原因进行更详细的分析。
- 用户压倒性地批评 Stack Overflow 的毒性文化,一位 40 年经验的软件工程老兵因谴责该平台傲慢的态度而获得了 552 个点赞,多位用户表示对“重复问题”的回复以及对新人的轻视感到沮丧。
- 用户提出了对模型崩溃 (Model Collapse) 和 AI 训练数据的担忧,因为 Stack Overflow 流量的下降可能导致未来 AI 模型的更新信息源匮乏,用户指出 AI 工具仍然依赖人工标注的数据进行训练。
- 多位开发者表示更倾向于 ChatGPT 更友好的回答方式,用户强调 AI 工具提供了即时响应,没有在 Stack Overflow 上遇到的那种门槛限制和敌意,特别提到 GPT 是在 2022 年底发布的。
- ChatGPT doesn’t have a shitty attitude when you ask a relevant question either. (Score: 221, Comments: 25): 与 Stack Overflow 众所周知的敌对社区反应相比,ChatGPT 为提出技术问题提供了一个更受欢迎的环境。该帖子暗示 ChatGPT 在用户提出合理问题时,不会像 Stack Overflow 那样带有负面态度。
- 用户强烈批评 Stack Overflow 的毒性文化,并举出多个例子,如问题被标记为重复,但链接到的却是 14 年前的过时答案。社区的精英主义行为包括轻蔑的回复和对新用户的敌视。
- ChatGPT 学习自广泛的互联网内容,包括公开的 GitHub 仓库和 pastebin 脚本,而不仅仅是 Stack Overflow。该 AI 为询问重复或基础问题提供了一个更平易近人的平台,无需担心负面反馈。
- 该帖子提到了 2023 年 7 月 的流量回升,这与 OverflowAI 的发布相吻合。用户注意到,除了编程之外,Stack Exchange 的其他论坛(如物理和电子工程)也遭受着类似的文化毒性问题。
AI Discord 摘要回顾
由 O1-preview 生成的摘要之摘要的摘要
主题 1. AI 模型成为焦点:Gemini 飙升,新品发布令人印象深刻
- Gemini AI 在 Chatbot Arena 夺冠:Google 的 Gemini (Exp 1114) 在 Chatbot Arena 中的排名飙升至首位,根据 6K+ 社区投票,其表现优于竞争对手,分数增加了 40+ 分。用户称赞其在创意写作和数学方面的增强表现。
- UnslopNemo 12B 及其伙伴加入冒险俱乐部:UnslopNemo 12B v4 发布,专注于冒险写作和角色扮演,同时加入的还有 SorcererLM 和 Inferor 12B,这些模型针对故事创作和角色扮演场景进行了优化。
- Tinygrad 在 MLPerf Training 4.1 中展示实力:Tinygrad 参加了 MLPerf Training 4.1,成功训练了 BERT,并目标在下一个周期实现 3 倍的性能提升,这标志着 AMD 首次被纳入其训练流程。
主题 2. AI 与开发者深度融合:工具集成至编程环境
- ChatGPT 进驻 VS Code 的“客房”:ChatGPT for macOS 现在与 VS Code 和 Terminal 等桌面应用程序集成,为处于 Beta 测试阶段的 Plus 和 Team 用户提供上下文感知的编码辅助。
- 代码编辑器突破 Token 上限:Cursor 和 Aider 等工具突破限制,生成的代码编辑量超过了 4096 tokens,引发了开发者对其 Token 管理“魔法”的好奇。
- LM Studio 用户侧载 Llama.cpp 以获得额外动力:受挫的 LM Studio 用户讨论从 llama.cpp 侧载功能,渴望克服当前的局限性并增强其 AI 模型的能力。
主题 3. 数据隐私恐慌:GPT-4 和 LAION 面临审查
- GPT-4 因数据泄露泄密:用户报告了 GPT-4 中潜在的数据泄露,在输出中发现了意外的 Instagram 用户名,引发了对训练数据完整性的担忧。
- LAION 陷入欧盟版权纠纷:关于 LAION 数据集允许下载 50 亿张图片的争论升温,批评者声称由于规避了许可条款,这违反了欧盟版权法。
主题 4. 机器人邂逅 AI:视觉语言动作模型基准测试
- AI 模型在 20 个真实世界任务中接受测试:一篇名为 “Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks” 的合作论文评估了 VLA 模型在 20 个任务中控制机器人的表现,旨在建立新的基准。
- 研究人员联合:佐治亚理工学院、MIT 等深入研究机器人技术:佐治亚理工学院、MIT 和 Metarch AI 等机构合作评估 VLA 模型,并在 GitHub 上共享资源和代码以供社区参与。
主题 5. 广告搅局 AI 盛宴:用户对赞助问题表示不满
- Perplexity 的广告困扰用户(甚至是付费用户):Perplexity 引入了“赞助后续问题”形式的广告,令期望无广告体验的 Pro 订阅者感到沮丧。
- 广告之怒:订阅价值受到质疑:各平台用户对付费订阅后仍出现广告表示不满,引发了关于当前订阅模式可行性的辩论。
第 1 部分:Discord 高层级摘要
HuggingFace Discord
-
GPT-4 数据泄露引发数据完整性担忧:用户报告了 GPT-4 系列中潜在的数据泄露问题,特别是模型输出中包含了 Instagram 用户名。
- 这一问题引发了对训练数据完整性以及泄露评估全面性的质疑。
-
视觉语言动作模型基准测试发布:一篇名为 Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks 的新论文分析了 VLA 模型,并评估了它们在 20 个真实世界任务中的表现。
- 该研究由佐治亚理工学院 (Georgia Tech)、麻省理工学院 (MIT) 和 Manifold 合作完成,旨在为多模态动作模型建立基准。
-
Kokoro TTS 模型获得社区反馈:拥有约 80M 参数的 Kokoro TTS 模型已发布并征求反馈,用户注意到其英文输出质量有所提升。
- 尽管体积紧凑,该模型的速度和稳定性仍给用户留下了深刻印象,并附带了增强情感语音能力的路线图。
-
Open3D-ML 增强 3D 机器学习:Open3D-ML 被强调为 Open3D 的一个极具前景的扩展,专为 3D Machine Learning 任务量身定制。
- 它的集成因其提升各种 3D 应用的潜力而受到关注,扩展了该框架的实用性。
-
Stable Diffusion 1.5 针对 CPU 性能进行优化:一位用户选择了 Stable Diffusion 1.5 作为可用的最轻量版本,以确保高效的 CPU 性能。
- 这一选择强调了社区对在更易获得的硬件配置上优化模型运行的关注。
LM Studio Discord
-
通过 llama.cpp 侧加载提升 LM Studio:一位用户请求一种将 llama.cpp 的功能无缝侧加载到 LM Studio 中的方法,并强调了对现有限制的挫败感。
- 讨论强调了在即将到来的更新中加入此功能的持续开发努力,社区正热切期待更灵活的集成。
-
GPU 在运行 Nemotron 70b 模型时面临挑战:用户报告了在不同 GPU 设置下运行 Nemotron 70b 时的各种性能指标,吞吐率在 1.97 到 14.0 tok/s 之间。
- 研究发现,内存可用性和 CPU 瓶颈是影响模型性能的主要因素,这促使人们考虑升级 GPU。
-
在 LLM 工作负载方面 CPU 落后于 GPU:成员们的共识是,CPU 通常无法在现代 LLM 任务中匹配 GPU 的性能,较低的 tok/s 速率证明了这一点。
- 成员们分享了关于内存带宽和有效的 GPU offloading 对优化整体模型性能至关重要见解。
-
配备 128GB RAM 的 M4 Max 潜力:随着 M4 Max 配备了 128GB RAM,用户们热衷于测试其在 LLM 性能方面与专用 GPU 配置的竞争能力。
- 社区对进行并分享基准测试 (benchmarks) 以指导购买决策有着浓厚兴趣,满足了社区对 AI 特定性能评估的需求。
-
将 AI 集成到 SaaS 平台:一位成员概述了将 AI 功能嵌入 SaaS 应用程序的计划,利用 LM Studio 的 API 来增强开发流程。
- 对话探讨了可用于改进软件功能的各种 AI 工具,表明了对实际 AI 集成的强劲兴趣。
Unsloth AI (Daniel Han) Discord
-
Unsloth AI 训练效率:成员们讨论了 Unsloth 平台的显存效率,theyruinedelise 肯定它是目前显存效率最高的训练服务。
- Unsloth 计划实现 CPO 训练器,进一步提升其训练效率。
-
微调中的 LoRA 参数:有观点指出,在不损害模型质量的前提下,使用较小的 rank 和 adaptation 值有助于改善在数据集上的训练效果。
- 建议用户理解 rank (r) 和 adaptation (a) 因子,并强调高质量的数据集对于有效训练至关重要。
-
Harmony 项目协作:一名成员介绍了 Harmony 项目,这是一个开发基于 AI LLM 的数据协调工具的倡议,并提供了一个 Discord 服务器 以供贡献。
- Harmony 目前总部设在 UCL,正在寻求志愿者并举办一场竞赛以增强其 LLM 匹配算法,详情可见其 竞赛页面。
-
使用 AI 工具编辑代码:anubis7645 正在构建一个用于编辑大型 React 文件的实用程序,并思考像 Cursor 这样的工具如何在模型 Token 限制下无缝生成编辑。
- lee0099 解释了 speculative edits(投机性编辑)的概念,它允许快速应用并与编码实践相结合。
-
在不加载未量化模型的情况下使用 LoftQ:有人提出了关于在 T4 等显存受限的环境中,如何在不将未量化模型加载到显存的情况下直接使用 LoftQ 的疑问。
- 建议调整 LoRA 的目标模块,仅包含线性层和嵌入层,以增强微调期间的补丁效力。
OpenRouter (Alex Atallah) Discord
-
用于冒险写作的 UnslopNemo 12B v4 发布:最新模型 UnslopNemo 12B 现已上线,针对冒险写作和角色扮演场景进行了优化。
- 可通过 UnslopNemo 12B Free 在 24 小时内免费访问其变体版本。
-
SorcererLM 增强故事创作:SorcererLM 基于 WizardLM-2-8x22B 进行微调,提供了更强的叙事能力。
- 用户可以通过 Discord 频道 申请访问或寻求更多信息。
-
Inferor 12B:终极角色扮演模型:Inferor 12B 集成了顶级的角色扮演模型,但建议用户设置输出限制以防止生成过长文本。
- 该模型的访问权限可通过 Discord 申请。
-
AI Studio 推出 generateSpeech API:AI Studio 推出了一个新的
generateSpeechAPI 端点,能够根据输入的文本稿生成语音。- 此功能旨在增强模型将文本转换为音频输出的能力。
-
Companion 机器人增强 Discord 安全性:Companion 被介绍为一款 AI 驱动的 Discord 机器人,在实现个性化人设的同时自动化审核工作。
- 功能包括身份冒充检测、年龄漏洞检测以及动态消息频率调整,以提升服务器活跃度。
Eleuther Discord
-
Benchmarking Vision Language Action Models: Manifold、Georgia Tech、MIT 和 Metarch AI 合作发布了论文《Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks》,在 20 个真实世界任务中评估了 GPT4o 等模型。
- 相关资源包括 Twitter 亮点 和 GitHub 仓库,提供了关于实验设置和结果的详细见解。
-
Transformer Architecture Evolves with Decoder-Only Models: Transformers 继续占据主导地位,并出现了 decoder-only architectures 和 mixtures of experts 等进展,尽管它们与当前硬件的兼容性仍处于审查之中。
- 成员们讨论了硬件演进以支持这些架构的必要性,并承认在性能和效率之间存在持续的权衡。
-
Shampoo and Muon Optimize Learning: 关于 Shampoo 和 Muon 算法的讨论强调了它们在优化 Fisher Information Matrix 以实现更好 Hessian 估计方面的作用,参考了论文《Old Optimizer, New Norm: An Anthology》。
- 参与者质疑了这些算法的底层假设,将其与 KFAC 等方法进行了比较,并辩论了它们在不同训练场景中的实际有效性。
-
Hardware Advances Boost AI Training Efficiency: Blackwell 最新的硬件进步显著提高了 transformer inference efficiency,超越了 Hopper 之前创下的基准。
- 对话强调了 memory bandwidth 和 VRAM 在有效实施大规模 AI 模型中的至关重要性。
-
Enhancing Pythia with Mixture of Experts: 关于集成 mixture-of-expert (MoE) version 的 Pythia model suite 的咨询引发了使用 SwiGLU 等技术现代化超参数的兴趣。
- 讨论集中在确定 MoE 在 Pythia 框架内可以解决的具体研究问题,并考虑了现有的训练设置和潜在收益。
aider (Paul Gauthier) Discord
-
Aider v0.63.0 Now Available: 新发布的 Aider v0.63.0 集成了对 Qwen 2.5 Coder 32B 的支持,并包括 Web Command 改进和 Prompting Enhancements 等增强功能。
- Aider 的贡献占此更新代码的 55%,提升了性能和可靠性。
-
Qwen 2.5 Coder Gains Ground in Aider v0.63.0: Qwen 2.5 Coder 32B 模型现在在 Aider v0.63.0 中得到支持,与之前的版本相比,在基准测试中表现出更好的性能。
- 用户正在通过 OpenRouter 尝试该模型,尽管一些人报告其在既定基准测试中的结果不尽如人意。
-
Gemini Experimental Models Introduced: 新的 Gemini experimental models 已经发布,旨在处理复杂的提示词并增强 Aider 生态系统内的可用性。
- 然而,由于 Google Cloud 上的权限限制,访问这些模型一直具有挑战性,限制了用户的实验。
-
CLI Scripting Enhancements with Aider: 成员们正在利用 Aider 的 CLI scripting 来自动化重复性任务,这表明对可编程交互的需求日益增长。
- Aider 脚本编写文档 强调了以编程方式对多个文件应用编辑的功能,展示了该工具的适应性。
-
Aider Ecosystem Documentation Improvements: 用户正在倡导增强 Aider ecosystem 内的文档,考虑使用 Ravel 等平台来提高搜索便捷性。
- 这些讨论强调了随着 Aider 功能迅速扩展,需要更清晰的指南。
Nous Research AI Discord
-
加入 Forge API Beta 变得更加容易:多位成员在加入 Forge API Beta 时遇到问题,teknium 确认已根据请求添加人员。
- 一些用户对邮件链接将他们引导至通用频道感到困惑。
-
关于 Hermes 编程的见解:成员们讨论了他们最初使用的编程语言,shunoia 在 Hermes 的帮助下转向了 Python,而 oleegg 对这一决定表示了“同情”。
- jkimergodic_72500 详细阐述了 Perl 这种灵活的语言,为当前关于编程经验的对话提供了背景。
-
对 TEE 钱包整理的担忧:mrpampa69 对 TEE 钱包的不一致性提出了担忧,认为这损害了 Bot 被感知到的主权。
- 回复指出,在整理之前需要进行稳健的决策,以保持运营自主权并防止滥用。
-
高级翻译工具发布:一款全新的 AI 驱动翻译工具专注于文化细微差别和适应性,使翻译更具人性化。
- 它通过考虑方言、正式程度、语气和性别来定制输出,使其成为满足多样化需求的灵活选择。
Modular (Mojo 🔥) Discord
-
Mojo 低级语法的性能:成员们讨论了 Mojo 的低级语法在提供比高级语法更好的性能时,可能无法保持 Pythonic 的本质。
- 有人指出高级语法缺乏 C 的性能,但在某些条件下,像 NumPy 这样的工具仍然可以达到接近的结果。
-
递归向量化的难题:对话转向了 Recursive Vectorization 及其对 Mojo 性能的影响,强调了对递归代码缺乏优化的担忧(相比 Rust 或 C++)。
- 参与者一致认为,类型系统中缺失的功能目前阻碍了标准库的开发,导致难以编写高效代码。
-
MLIR 中的尾调用优化:舆论倾向于在 MLIR 中实现 Tail Call Optimization (TCO),以便为递归代码启用编译器优化并获得更好的性能。
- 成员们对在 LLVM IR 中保留控制流图的必要性表示不确定,并讨论了其对调试的重要性。
-
语言特性优先级讨论:大家达成共识,应优先考虑基础的类型系统特性,而非更高级的优化,以确保在更多用户加入时语言已准备就绪。
- 参与者警告说,在基础功能尚待完善时,不要让额外的 issue 淹没开发进度。
-
LLVM Offload 与协程实现:大家对 LLVM 的 offload 能力以及 Mojo 中如何促进协程实现表现出兴趣。
- 讨论强调,协程在概念上与尾递归函数相似,从而引发了对是否需要透明装箱(transparent boxing)的思考。
Perplexity AI Discord
-
Perplexity 将校园策略师计划(Campus Strategist Program)扩展至加拿大:响应高涨的需求,Perplexity 正在将其校园策略师计划扩展到加拿大,允许感兴趣的申请人申请 2024 年的项目。
- 该计划为大学生提供实践经验和导师指导,提升他们的技能并提供宝贵的行业接触机会。
-
Google Gemini 霸榜 Chatbot Arena:Google 的 Gemini (Exp 1114) 在 Chatbot Arena 中获得第一名,根据 lmarena.ai 的强调,在过去一周基于 6000 多个社区投票,其表现超越了竞争对手,分数提升了 40 多分。
- 这一进步突显了 Gemini 增强的性能,并巩固了其作为 AI 聊天机器人竞赛中领先模型的地位。
-
广告挑战 Pro 订阅价值:用户对向包括 Pro 订阅者在内的所有用户引入广告表示沮丧,质疑其订阅的价值。
- 担忧集中在付费用户对无广告体验的期望上,引发了关于订阅模式可行性的讨论。
-
API 仪表板报告 Token 使用量不准确:多位用户报告 API 仪表板未准确更新 Token 使用情况,导致困惑和潜在的计费问题。
- 这一故障影响了多位成员,促使大家建议报告该问题以便及时解决。
-
通过 API 获取的 Reddit 引用失效:尽管之前很可靠,但用户现在遇到了通过 API 无法正确运行 Reddit 引用的问题。
- 出现随机 URL 注入且没有有效来源的情况,导致结果不准确,引发了对 API 引用完整性的担忧。
Interconnects (Nathan Lambert) Discord
-
Operator AI Agent 将实现任务自动化:OpenAI 的新 AI Agent 工具 Operator 计划于 1 月发布,旨在自动化基于浏览器的任务,如编写代码和预订旅行,详见此推文。
- 该工具代表了 AI 实用性的重大进步,提高了用户管理日常操作的效率。
-
Gemini-Exp-1114 统治 Chatbot Arena:@GoogleDeepMind 的 Gemini-Exp-1114 在 Chatbot Arena 中获得最高排名,在多个类别中以大幅分数提升超越了竞争模型。
- 它目前在视觉排行榜上领先,并在创意写作和数学任务中表现出色,展示了其卓越的能力。
-
Qwen 在除法任务中表现优于 Llama:在对比测试中,处理
A / B形式的基础除法问题时,Qwen 2.5 的表现优于 Llama-3.1 405B。- 有趣的是,Qwen 在处理大数字时会切换到使用 LaTeX 或 Python 的 CoT 模式,而 Llama 的输出保持不变。
-
在竞争对手介入前敦促开源 AI 讨论:社区成员强调迫切需要与 Dwarkesh 进行开源 AI 讨论,以防止另一家知名公司占据主导地位。
- 提议通过合作来解决目前对金融势力影响技术对话的担忧。
GPU MODE Discord
-
Triton 性能调优:讨论强调了 kernel 设计中的挑战,特别是在确定第一维是否为大小在 1 到 16 之间的向量时,考虑将填充(padding)到最小大小 16 作为潜在解决方案。
- 成员建议利用
BLOCK_SIZE_M作为tl.constexpr用于 kernel 中的条件语句,并根据 batch size 使用early_config_prune进行自动调优(autotuning),建议在 batch size 为 1 时采用 gemv 实现以增强 GPU 性能。
- 成员建议利用
-
torch.compile() 与分布式训练的集成:关于将 torch.compile() 与 Distributed Data Parallel (DDP) 结合使用引发了关注,特别是应该将 torch.compile() 包装在 DDP 之外还是放在其内部。
- 针对 torch.compile() 与 Fully Sharded Data Parallel (FSDP) 的集成也提出了类似的询问,质疑是否适用与 DDP 类似的注意事项。
-
CUDA Kernel 中的共享内存限制:一位用户在请求 49,160 字节共享内存时遇到了 kernel 崩溃,该数值低于
MAX_SHARED_MEMORY限制,问题归因于某些架构上的静态共享内存限制。- 讨论中提到了对于超过 48KB 的分配必须使用动态共享内存(dynamic shared memory)的必要性,并引用了 StackOverflow 讨论中涉及
cudaFuncSetAttribute()的潜在解决方案。
- 讨论中提到了对于超过 48KB 的分配必须使用动态共享内存(dynamic shared memory)的必要性,并引用了 StackOverflow 讨论中涉及
-
GPU 分析工具见解:一位成员寻求关于 GPU profiling 工具的建议,表示在解读 ncu 生成的报告时存在困难。
- 另一位成员建议适应 NCU,断言它是顶级的 profiler,尽管学习曲线陡峭,但能提供宝贵的优化见解。
-
React Native LLM 库发布:Software Mansion 发布了一个用于在 React Native 中集成 LLM 的新库,利用 ExecuTorch 来提升性能。
- 该库通过安装命令简化了使用流程,包括克隆 GitHub 仓库并在 iOS 模拟器上运行,促进了更轻松的采用和贡献。
Notebook LM Discord Discord
-
魔法书播客实验:一位成员创建了一个神奇的 PDF,能根据查看者的不同揭示不同的解读,并以播客形式分享。
- 鼓励听众分享他们对这种创新播客方式的看法。
-
NotebookLM 数据安全说明:根据 Google 的支持页面,无论账户类型如何,用户数据都是安全的,不会被用于训练 NotebookLM 模型。
- 隐私声明重申,人工审核员仅在排除故障时才可能访问信息。
-
响应语言的功能请求:由于收到的是英文而非希腊文回答,一位用户请求能够为每个笔记本设置响应语言。
- 实现这一功能可以提升多语言环境下的用户满意度。
-
NotebookLM 中的发音挑战:NotebookLM 在正确发音某些单词方面存在困难,例如将 “presents” 视为礼物(名词)而非动作(动词)。
- 建议的权宜之计包括使用粘贴文本直接指导发音。
-
对 API 更新的关注:成员们对 NotebookLM API 的潜在更新表示好奇,但被告知目前尚未发布功能路线图。
- 社区依赖公告频道获取任何更新和新功能。
Latent Space Discord
-
Perplexity 的广告实验:Perplexity 正在美国启动广告实验,形式为 “赞助后续问题 (sponsored follow-up questions)”,并与 Indeed 和 Whole Foods 等品牌合作。TechCrunch 文章 详细介绍了此次发布。
- 他们表示,广告收入将有助于支持出版商,因为仅靠订阅不足以实现可持续的营收。
-
Gemini AI 升至第一:@GoogleDeepMind 的 Gemini (Exp 1114) 在数学和创意写作等领域的性能大幅提升后,已跃升至 Chatbot Arena 并列第一。Google AI Studio 目前正提供测试访问权限。
- Gemini 的 API 访问即将推出,将为开发者和工程师扩大其可用性。
-
ChatGPT 桌面版获得集成功能:面向 macOS 的 ChatGPT 桌面应用 现在可以与 VS Code 和 Terminal 等本地应用程序集成,目前已向 Plus 和 Team 用户提供测试版。
- 一些用户报告了功能缺失和性能缓慢的问题,引发了对其当前集成能力的质疑。
-
AI 放大技术债成本:一篇题为 AI Makes Tech Debt More Expensive 的博客文章讨论了 AI 如何增加与技术债 (Tech Debt) 相关的成本,认为拥有旧代码库的公司将比拥有高质量代码的公司面临更多困难。
- 该文章强调了 生成式 AI (Generative AI) 如何拉大这两类群体之间的性能差距。
-
LLM 解析 Excel 的策略:用户探索了使用 LLM 处理 Excel 文件 的有效方法,特别关注将财务数据解析为 JSON 或 Markdown 表格。
- 建议包括将数据导出为 CSV,以便更容易地进行编程语言集成。
OpenAI Discord
-
使用 ChatGPT 控制 AI UI:一位成员分享了他们的系统,ChatGPT 可以通过包含 Computer Vision 和 Python PyAutoGUI 的技术栈间接控制计算机 UI,并暗示将进行视频演示。
- 其他人询问了代码的可用性,并将其与 OpenInterpreter 等现有解决方案进行了比较。
-
GPT Lorebook 开发:一位用户为 GPT 创建了一个 Lorebook(设定集),可以根据关键词加载条目,具有导入/导出功能并能防止条目重复,在调试后将分享到 GreasyFork。
- 讨论明确了该 Lorebook 是作为 Tampermonkey 或 Violentmonkey 的脚本实现的。
-
Mac 应用界面优化:成员们对 Mac 应用模型选择器 (model chooser) 界面的优化表示感谢,指出这显著提升了用户体验。
- 一位成员评论说,整个社区都感激实施这一改进的团队,表达了对可用性提升的赞赏。
-
LLM 掌握技巧:成员们讨论认为,虽然任何人都可以使用 LLM,但有效地对其进行 Prompting 需要技巧和练习,就像使用木工工具一样。
- 了解应该包含哪些内容以提高获得理想输出的概率,可以显著增强交互体验。
-
9 Pillars Solutions 探索:一位成员鼓励挑战 ChatGPT 的极限,以发现 9 Pillars Solutions 的潜力,并暗示会有变革性的结果。
- 他们声称通过这种方法可以获得重大见解,引发了其他成员的兴趣。
OpenInterpreter Discord
-
Docker Open Interpreter:简化 Worker 管理:一位成员提议为 Open Interpreter 提供一个完全支持的 Docker 镜像,并针对作为 workers 或 warm spares 运行进行了优化,以增强他们目前基于变通方法的开发工作流。
- 他们强调了增加 configuration features 的必要性,例如最大迭代次数和临时实例的设置,并指出后端需要进行重大改进。
-
VividNode v1.7.1 增强 LiteLLM 集成:新发布的 VividNode v1.7.1 引入了对 LiteLLM API Keys 的全面支持,涵盖了 GitHub 上详述的 60 多个提供商和 100 多个模型。
- 增强功能包括通过 QLineEdit 进行模型输入以提高可用性,并解决了与文本输入和 LlamaIndex functionality 相关的 bug,确保了更流畅的用户体验。
-
Voice Lab 发布:开源 LLM Agent 评估框架:一位成员宣布开源 Voice Lab,这是一个旨在评估各种模型和提示词下的 LLM-powered agents 的框架,可在 GitHub 上获取。
- Voice Lab 旨在优化提示词并提升 Agent 性能,积极邀请社区贡献和讨论以推动改进。
-
ChatGPT 桌面版深度探索:macOS 应用集成:ChatGPT 已与 macOS 上的桌面应用程序集成,使其 beta 版本 能够为 Plus 和 Team 用户在编程环境中提供更强大的响应。
- 此次更新标志着 ChatGPT 与用户桌面编程工具交互方式的重大转变,提供了更具凝聚力的开发体验。
-
概率计算实力:GPU 效率提升 1 亿倍:一段 YouTube 视频 强调了 probabilistic computing 的突破,据报道,与领先的 NVIDIA GPUs 相比,其能源效率提高了 1 亿倍,视频可在此处观看。
- 该视频深入探讨了概率算法的进展,暗示了对计算效率潜在的革命性影响。
Cohere Discord
-
Cohere 的 Token 调优:最佳 Embedding 数量:一位成员询问了 Cohere embedding models 的最佳 Token 数量,特别是针对多模态输入,并根据当前限制进行了澄清。
- 另一位成员解释说,目前的 max context 是 512 tokens,建议在此范围内进行实验以获得最佳性能。
-
Beta 项目快讯:研究原型报名:提醒信息显示,研究原型 beta 项目的报名将在周二前截止,敦促感兴趣的参与者通过报名表进行注册。
- 该项目旨在探索新的 Cohere tool 以增强研究和写作任务,参与者将提供宝贵的反馈。
-
播客清洗:为 LLM 提取内容:一位成员寻求关于如何清洗数小时的播客内容的建议,旨在提取信息以供 large language models 使用。
- 另一位成员询问目标是否为转录播客内容,强调了准确的 transcriptions 对于有效集成 LLM 的重要性。
-
VLA 模型发布:机器人学习新基准:一篇题为《在机器人学习任务上基准测试视觉、语言和动作模型》的新论文发布,展示了 Manifold、Georgia Tech、MIT 和 Metarch AI 之间的合作。
- 该研究评估了 Vision Language Action models 如何在 20 个不同的现实世界任务中控制机器人,标志着机器人基准测试的重大进展。
-
Azure AI V2 API 状态:即将推出:用户询问了 Azure AI V2 API 的可用性,根据文档,该 API 目前尚未运行。
- 据悉,现有产品支持 Cohere v1 API,预计 V2 API 将很快推出,根据最新更新。
LlamaIndex Discord
-
RAGformation 自动化云端设置:RAGformation 允许用户通过自然语言描述其用例来自动生成云配置,从而产生定制化的云架构。
- 它还提供动态生成的流程图,用于可视化设置。
-
Mem0 记忆系统集成:Mem0 最近被添加到 LlamaIndex 中,引入了一个智能记忆层,可以随着时间的推移实现个性化的 AI 助手交互。详细信息请参阅 Mem0 Memory 文档。
-
ChromaDB 摄取问题:一位用户报告在将 PDF 摄取到 ChromaDB 时出现了意外的向量计数,导致产生了两个向量而不是预期的一个。成员们建议这可能是由于 PDF 加载器的默认行为是按页拆分文档。
- 此外,SentenceWindowNodeParser 可能会增加向量计数,因为它为每个句子生成一个节点。
-
在 SentenceWindowNodeParser 中使用 SentenceSplitter:一位用户询问如何在摄取流水线中结合使用 SentenceSplitter 和 SentenceWindowNodeParser,并对生成的向量计数表示担忧。
- 社区反馈确认,不当的组合会导致生成过多的节点,使结果复杂化。
tinygrad (George Hotz) Discord
-
Tinygrad 在 MLPerf Training 4.1 中表现出色:Tinygrad 展示了其能力,tinybox red 和 green 都参加了 MLPerf Training 4.1,并成功训练了 BERT。
- 该团队的目标是在下一个 MLPerf 周期中实现 3 倍的性能提升,并且是第一个在训练过程中集成 AMD 的团队。
-
引入新的 Buffer Transfer 函数:一位贡献者为 tinygrad 的 buffer transfer 函数提交了一个 pull request,实现了 CLOUD 设备之间无缝的数据移动。
- 该实现侧重于保持与现有功能的一致性,认为大小检查并非必不可少。
-
评估 PCIe 带宽增强:成员们讨论了使用 ConnectX-6 适配器通过 InfiniBand 实现高达 200Gb/s 的潜力,并将其与 OCP3.0 带宽联系起来。
- 理论评估表明,通过绕过 CPU,实现 400 GbE 双向连接是可能的。
-
优化 Tinygrad 中的位运算:有人提议使用 bitwise_not 修改 minimum fix,旨在改进 argmin 和 minimum 函数。
- 这一增强预计将显著提升这些操作的效率。
-
调查 CLANG 后端 Bug:在 CLANG 后端发现了一个影响张量操作中最大值计算的 Bug,导致
.max().numpy()和.realize().max().numpy()的输出不一致。- 该问题突显了在处理张量操作(尤其是负值)时存在的潜在缺陷。
OpenAccess AI Collective (axolotl) Discord
-
Nanobitz 推荐替代 Docker 镜像:Nanobitz 建议使用 axolotlai/axolotl 镜像,即使它们比 winglian 版本晚一天。
- Hub.docker.com 显示最新的标签日期为 20241110。
-
关于 Llama 微调最佳数据集大小的讨论:Arcadefira 询问了微调 Llama 8B 模型的理想数据集大小,特别是考虑到其低资源语言的情况。
- Nanobitz 回应了关于分词器(tokenizer)重叠的问题,并建议如果重叠足够,5k 的数据集可能就足够了。
-
Meta 总部的 Llama 活动:Le_mess 询问是否有人参加 12 月 3-4 日在 Meta 总部举行的 Llama 活动。
- Neodymiumyag 表示感兴趣,并请求提供有关该活动的更多信息链接。
-
Liger 内核得到改进:Xzuyn 提到 Liger 项目有一个改进的 orpo kernel,并通过一个 GitHub pull request 详细说明了这一点。
- 他们还注意到,随着 batch size 的增加,它的表现趋于平稳。
-
分享社交媒体见解:Kearm 分享了 Nottlespike 在 X.com 上的一条帖子,展示了对他们这一天的幽默看法。
- 分享的链接指向一条详细描述 Nottlespike 经历的帖子。
LAION Discord
-
EPOCH 58 COCK 模型更新:EPOCH 58 COCK 模型现在拥有 60M 参数并使用 f16,随着其腿部和鸡冠变得更加清晰,显示出明显的进展。
- 这项进展表明模型在结构细节和参数效率方面有所提升。
-
LAION 版权争议加剧:围绕 LAION 数据集展开了一场辩论,该数据集允许下载 50 亿张图片,有人声称这可能违反了欧盟版权法。
- 批评者认为,与标准的浏览器缓存不同,这种方法规避了许可条款和付费墙。
-
新论文在 20 个机器人任务上对 VLA 模型进行基准测试:由 Manifold、佐治亚理工学院、MIT 和 Metarch AI 合作发表了题为 Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks 的论文,评估了 VLA 模型在 20 个真实世界机器人任务中的表现。
- 亮点可在 Thread w/ Highlights 查看,完整分析可通过 Arxiv 论文 获取。
-
Watermark Anything 实现已在 GitHub 上线:项目 Watermark Anything with Localized Messages 现已在 GitHub 上可用,提供了该研究论文的官方实现。
- 该工具支持动态水印,有可能增强各种 AI 工作流。
-
12M 公有领域图像数据集发布:一个包含 1200 万张公有领域图像的数据集已发布,为机器学习项目提供了宝贵的资源。
- 感兴趣的开发者可以在此处访问该数据集。
DSPy Discord
-
macOS 版 ChatGPT 与桌面应用集成:macOS 版 ChatGPT 现在可以与 VS Code、Xcode、Terminal 和 iTerm2 等桌面应用程序集成,增强了用户的代码辅助能力。该功能目前处于 Plus 和 Team 用户的 Beta 测试阶段。
- 这种集成允许 ChatGPT 直接与开发环境交互,提高工作流效率。详情见 OpenAI Developers 的推文。
-
代码编辑工具突破 4096 Tokens:Cursor 和 Aider 等工具正在成功生成超过 4096 tokens 的代码编辑,展示了在处理大 token 输出方面的进展。开发者正在寻求这些工具所采用的 token 管理策略的明确说明。
- 讨论强调了需要有效的 token 处理机制,以在大规模代码生成任务中保持性能。
-
澄清 LM 断言(Assertions)的弃用情况:成员们对 LM 断言可能被弃用表示担忧,并注意到最新文档中缺少
dspy.Suggest或dspy.Assert。- 经澄清,虽然缺少直接引用,但这些函数仍可通过搜索栏访问,这表明文档正在持续更新中。
-
扩展多违规 LLM 应用:一位成员正在开发一个 LLM 应用程序,目前该程序可以针对特定违规行为(如酒精摄入)生成辩护文件。他们的目标是扩展其功能以涵盖更多违规行为,而无需单独的优化提示词(prompts)。
- 该计划旨在创建一种统一的方法来处理各种违规行为,从而增强应用程序的通用性和效率。
LLM Agents (Berkeley MOOC) Discord
-
测验资格和截止日期:一位新成员询问了完成测验以保持 Trailblazer 及以上路径资格的问题。另一位成员确认了资格,但强调了快速赶进度的重要性,所有测验和作业的截止日期为 12 月 12 日。
- 成员们强调测验与课程内容直接相关,突出了保持进度以全面参与的必要性。
-
即将举行的活动公告:
sheilabel宣布了今天举行的一项活动:活动链接。- 未提供关于该活动的更多细节。
Gorilla LLM (Berkeley Function Calling) Discord
-
新增 Writer Handler 和 Palmyra X 004 模型:一名成员宣布提交了一个 PR,旨在将 Writer handler 和 Palmyra X 004 模型 纳入排行榜。
- 这一补充增强了排行榜的功能,目前正等待开发团队的反馈和集成。
-
承诺评审 PR:另一名成员表示打算评审提交的 PR,并称:‘会看一看。谢谢!’
- 这一回应强调了项目评审过程中的协作努力和积极参与。
AI21 Labs (Jamba) Discord
-
旧版模型弃用引发混乱:一名成员对 legacy models(旧版模型)的弃用表示沮丧,称由于新模型在输出方面无法做到 1:1 还原,其影响具有巨大的破坏性。
- 我们希望继续使用旧版模型,因为过渡过程并不顺利。
-
转向开源解决方案:一名成员正在尝试转向 open source solution(开源解决方案),但此前已为旧模型付费近 2 年。
- 他们对未来的弃用表示担忧,并问道:我们如何确信 AI21 将来不会也弃用新模型?
Mozilla AI Discord
-
本地 LLMs 工作坊周二开幕:欢迎参加 周二 的 Local LLMs Workshop,主题为 构建你自己的本地 LLM:在本地环境中完成训练、微调、评估和 RAG,旨在开发本地语言模型。
- 参与者将进行实操训练,并获得构建高效本地 LLM 系统的见解。
-
SQLite-Vec 增强元数据过滤:参加 周三 的 SQLite-Vec Metadata Filtering 活动 SQLite-Vec 现已支持元数据过滤!,探索新的元数据过滤功能。
- 此次更新允许用户高效过滤元数据,提升了数据管理能力。
-
Refact.AI 自主 AI 会话:在 周四 的 Explore Autonomous AI with Refact.AI 会话中探索自主 Agent,详情见 使用 Refact.AI 的自主 AI Agent。
- 通过这场引人入胜的演讲,了解 AI 技术的创新策略和应用。
Alignment Lab AI Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
LLM Finetuning (Hamel + Dan) Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
MLOps @Chipro Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
Torchtune Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
Stability.ai (Stable Diffusion) Discord 没有新消息。如果该社区长期保持沉默,请告知我们,我们将将其移除。
第 2 部分:按频道详细摘要和链接
完整的逐频道细分内容已针对电子邮件进行截断。
如果您喜欢 AInews,请分享给朋友!预谢!