ainews-we-solved-hallucinations

我们解决了幻觉问题。

2024-07-13 · 720f4a48-42f5-4c93-a247-415197325b3e

Reddit 的 URL 结构导致 AI 生成的摘要中出现链接错误，尤其是 NSFW（不宜在办公场所查看）内容会影响 Claude 和 GPT-4 等模型。 团队在修复这一故障的同时，仍继续利用大语言模型（LLM）来总结 Reddit 内容。得益于 H100 GPU 以及 CUDA 和 FlashAttention 等软件改进，GPT-2 的训练成本已大幅降至约 672 美元。 FlashAttention-3 正式发布，在 H100 GPU 上实现了高达 740 TFLOPS 的性能，FP8 精度下接近 1.2 PFLOPS；该项目由 Meta、NVIDIA、普林斯顿大学和 Colfax 合作开发。 Hopper 架构 GPU 凭借新的硬件特性实现了重大提速。近期研究表明，合成数据可能无法改善视觉任务。 Avocado360 基准测试用于评估视觉语言模型在图像中检测牛油果的能力。 Lynx 是一款针对大语言模型的幻觉检测模型，专为医疗保健和金融科技的实际应用而推出，由 Patronus AI 在 Databricks Mosaic AI 上使用 Composer 训练而成。

#compute-hardware #gpu-optimization #flashattention #llm-evaluation #hallucination-detection #vision #benchmarking #synthetic-data #model-training gpt-2 flashattention-3 lynx meta-ai-fair nvidia princeton colfax patronus-ai databricks mosaic-ai openai

用一个奇招！

2024年7月11日至7月12日的 AI News。我们为您检查了 7 个 subreddits、384 个 Twitter 账号和 29 个 Discord 社区（463 个频道，2566 条消息）。预计节省阅读时间（以 200wpm 计算）：276 分钟。您现在可以标记 @smol_ai 进行 AINews 讨论！

听着，我们早就知道我们的 Reddit 摘要中充斥着……呃……那些指向错误地点的链接。你们一直在提醒我们！（谢谢！）

这种情况在我们的 Reddit 摘要中比 Discord 或 Twitter 回顾中频繁得多的原因是 Reddit 的 URL 结构。

这是一个典型的 Reddit URL：

https://www.reddit.com/r/LocalLLaMA/comments/1cxnrov/disappointing_if_true_meta_plans_to_not_open_the/

末尾的 slug（disappointing_if_true_meta_plans_to_not_open_the）只是试图根据标题生成一个人类可读的 slug，而开头的 subreddit（r/LocalLLaMA）同样是为了人类的可读性。在实践中，所有这些都会被忽略，取而代之的是“真正”的 slug，即那个 7 位的字母数字组合（1cxnrov）。在这里，我们将证明这一点：

https://www.reddit.com/r/SmolAI/comments/1cxnrov/ainews_is_the_best/

尽管更改了 subreddit 和人类可读的 slug，Reddit 仍会根据“真正”的 slug 将您引导至之前的同一篇帖子。

因此，Reddit URL 比大多数 URL 对 Attention 中的微小错误都更加极度敏感，即使我们只是要求 LLM 从引用链接拼写整齐的源文档中进行复制。

而且……Claude 和 GPT4 都在大量的 NSFW Reddit URL（涵盖多种语言！）上进行过训练。把这两个事实结合起来，你就能明白我们一直在处理什么样的问题了。

所以……我们着手修复了这个故障，同时仍然使用 LLM 对整个 Reddit 投稿和评论语料库进行格式化、筛选和摘要。如果你对我们的实现方式有猜想，请在 Twitter 上 @Smol_AI。

今天又是内容较少的一天，所以请欣赏我们与 Clementine Fourrier 关于 LLM Evals 的对话（我们 5 月份的报道）以及 Open LLM Leaderboard 的未来：

https://www.youtube.com/watch?v=E-UhbYc8m24

目录和频道摘要已移至此邮件的网页版：!

AI Twitter 摘要

所有摘要均由 Claude 3.5 Sonnet 完成，从 4 次运行中择优。

算力与硬件改进

GPT-2 训练成本大幅下降：@karpathy 指出，由于 计算硬件 (H100 GPUs)、软件 (CUDA, cuBLAS, cuDNN, FlashAttention) 以及数据质量 (如 FineWeb-Edu 数据集) 的提升，现在在一台 8XH100 GPU 节点上训练 GPT-2 24 小时仅需约 672 美元，而 2019 年约为 100,000 美元。
FlashAttention-3 发布：@tri_dao 宣布了 FlashAttention-3，其在 FP16 上速度提升了 1.5-2 倍，在 H100 上达到 740 TFLOPS (75% 利用率)，FP8 接近 1.2 PFLOPS。这是与 Meta、NVIDIA、Princeton 和 Colfax 合作的成果。
Hopper GPUs 实现重大加速：@tri_dao 指出 Hopper GPUs (H100) 具有 WGMMA、TMA 和 FP8 支持等新硬件特性，可实现重大加速。仅为这些特性重写 FlashAttention 即可达到 570 TFLOPS。

LLM 评估与基准测试

合成数据可能对视觉任务没有帮助：@giffmana 强调了一篇论文，显示在运行正确的基线时，合成图像实际上对视觉任务没有帮助。
用于评估 VLM 的 Avocado360 基准测试：@vikhyatk 介绍了 Avocado360 基准测试，用于评估视觉语言模型 (VLMs) 是否能判断图像中是否包含牛油果。评估了四个随机选择的 VLMs。
用于 LLM 幻觉检测的 Lynx 模型：@DbrxMosaicAI 宣布了 Lynx，这是一种新的 LLM 幻觉检测模型，特别适用于 医疗和金融科技等行业的实际应用。它由 Patronus AI 在 Databricks Mosaic AI 上使用 Composer 训练。

LLM 应用与框架

Runway AI 自动化：@labenz 分享了视频生成初创公司 Runway 如何使用 AI 自动化任务，如预写销售邮件。他们的目标是 通过 AI 能力进行扩展，使员工人数永远不超过 100 人。
用于人机回环反馈的 LangGraph：@LangChainAI 展示了如何在 LangGraph 中添加人类输入检查点并更新图状态，以 实现 Agent 系统的用户反馈。
用于高级 RAG 的 Qdrant 和 LlamaIndex：@qdrant_engine 分享了一篇关于构建高级 RAG 架构的文章，该架构结合了 LlamaIndex Agent 与 Qdrant 的 混合搜索功能，同时使用稠密 (dense) 和稀疏 (sparse) 向量嵌入。

梗与幽默

对 ThinkPad 的热爱：@giffmana 开玩笑说：“最好的笔记本电脑是什么，为什么是 ThinkPad？”
Token 限制的烦恼：@HamelHusain 在 Anthropic UI 上很快就达到了 Token 限制，即使是 Pro 计划也是如此，他想知道这是否正常。
ML/DS 面试要求：@jxmnop 开玩笑说，到明年，ML/DS 面试将要求一道来自 ML LeetCode 的中等难度题、硬核 Prompt Engineering 以及五年的 CUDA 经验。

AI Reddit 摘要

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取现在可以运行了，但还有很多改进空间！

主题 1. WizardLM 3 与 LLM 优化技术

[/r/LocalLLaMA] WizardLM 3 即将推出 👀🔥 (Score: 418, Comments: 73): WizardLM 3，一个即将推出的语言模型，即将发布。该公告暗示了显著的改进或新功能，尽管帖子中未提供有关模型能力或发布日期的具体细节。
[/r/LocalLLaMA] FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision (Score: 146, Comments: 22): FlashAttention-3 引入了一种在 Large Language Models (LLMs) 中计算 Attention 的新方法，在保持准确性的同时，比以往方法提速 2-4 倍。该技术采用了异步 IO (asynchronous IO) 和低精度计算 (low-precision computation)，能够高效处理更长的序列，并可能支持训练具有更长上下文长度 (context lengths) 的更大型模型。这项由斯坦福大学和 NVIDIA 研究人员在论文中详述的进展，可能会显著影响更强大的 LLM 的开发和部署。

Theme 2. Advanced AI-Generated Visual Content

[/r/StableDiffusion] fal drops AuraFlow (Score: 322, Comments: 95): fal 推出了 AuraFlow，这是一款结合了 Stable Diffusion 和 Midjourney 优势的新型图像生成模型。AuraFlow 旨在提供高质量的图像生成，并改进连贯性 (coherence) 和构图 (composition)，解决如面部和手部畸形等常见问题。该模型目前可通过 fal 的 API 获取，并将集成到其无代码 AI 应用构建器 (no-code AI app builder) 中。
[/r/StableDiffusion] AnimateDiff and LivePortrait (First real test) (Score: 580, Comments: 66): AnimateDiff 和 LivePortrait 的集成展示了从静态图像创建动画肖像的潜力。该过程涉及使用 AnimateDiff 从单张图像生成 16 帧动画，然后将其输入 LivePortrait 以产生更真实的动画效果。这种工具组合展示了一种通过流体、自然的动作让静态图像焕发生机的极具前景的方法。
[/r/singularity] Al-Generated Movie Trailer (Score: 157, Comments: 41): AI 生成的电影预告片展示了电影制作中先进的视觉能力。该预告片使用人工智能创建，展示了通常与高预算制作相关的逼真 CGI 角色、动态场景过渡和复杂的视觉效果，突显了 AI 通过降低成本和扩大创意可能性来彻底改变电影行业的潜力。

Theme 3. AI Progress Tracking and Benchmarking

[/r/OpenAI] OpenAI Develops System to Track Progress Toward Human-Level AI (Score: 232, Comments: 75): OpenAI 推出了一套名为 AI Preparedness Framework 的新系统，用于监测和评估向人类水平人工智能 (human-level AI) 迈进的进度。该框架旨在通过 5 级量表（从窄域 AI 到 AGI）评估 AI 系统在 12 项关键能力上的表现，包括语言理解、推理和任务完成。这一举措是 OpenAI 负责任地开发先进 AI 系统并为政策制定者提供有关 AI 进展的见解所做努力的一部分。
[/r/singularity] Rorschach test for AI: is this good or bad? (Score: 110, Comments: 152): 针对 AI 的罗夏墨迹测试 (Rorschach tests) 被提议作为一种评估 AI 能力的方法，特别是在图像解释和推理方面。该概念建议使用类似于传统罗夏墨迹测试的模糊图像，来评估 AI 感知、解释和解释视觉信息的能力。这种方法可能会揭示 AI 认知过程和局限性的见解，但也引发了关于此类评估对人工智能系统有效性和可靠性的质疑。

Theme 4. AI Content Regulation and Copyright Issues

[/r/StableDiffusion] 专注于 AI 的 COPIED 法案将使删除数字水印成为违法行为 (Score: 136, Comments: 155): “参议员提出 COPIED 法案以打击 AI 内容滥用”。由一组参议员提出的 COPIED 法案 旨在通过建立 内容认证和 AI 生成材料检测 标准，打击 AI 模型对内容的未经授权使用。该法案将使 删除数字水印成为违法行为，允许内容所有者 起诉未经许可使用其作品的公司，并要求 NIST 制定 内容来源证明 和 合成内容检测 的标准，同时禁止使用 受保护内容来训练 AI 模型。该法案得到了 SAG-AFTRA 和 RIAA 等行业团体的支持，是监管 AI 技术更广泛推动的一部分，并授权各州总检察长 (AGs) 和 FTC 执行其条款。
[/r/LocalLLaMA] AI 的危险并非大多数人所想的那样。 (Score: 100, Comments: 115): AI 的真正危险源于过度评估，而非超级智能。该帖子认为，AI 的真正危险不在于其成为超级智能的潜力，而在于其当前的 局限性被忽视。作者指出，AI 正被部署在一些其 缺乏智能 可能会引发问题的领域，并引用了 AI 生成的虚假法律案例和自动驾驶汽车中存在偏见的行人检测作为例子。他们还认为，围绕 AI 安全的大部分讨论是由 “护城河建设” (moat-building) 和保护 先发优势 (first-mover advantages) 驱动的，而非真正的担忧。

AI Discord 摘要

摘要的摘要之摘要

1. LLM 进展与训练技术

FlashAttention 加速 Transformer 训练：FlashAttention-3 的发布承诺在 FP16 上实现高达 1.5-2 倍的速度提升，在 H100 GPUs 上达到 740 TFLOPS，实现 75% 的利用率，并在使用 FP8 时可能达到 1.2 PFLOPS。
- 这项技术由 Colfax、Tri Dao、Meta AIT 团队 和 Cutlass 团队 共同开发，通过最小化注意力机制中的内存读写，已经加速了 GPT-4 和 Llama 3 等模型的训练。
Q-Galore 增强内存高效的 LLM 训练：新型 Q-Galore 方法结合了量化和低秩投影，与 GaLore 相比，显著减少了大型语言模型的内存占用和训练时间。
- 与依赖耗时的 SVD 操作的 GaLore 不同，Q-Galore 观察到某些梯度子空间会提前收敛，而其他子空间则频繁变化，从而在不牺牲准确性的情况下实现更高效的训练。
Llama 3 405B 多模态模型即将发布：据报道，Meta Platforms 将于 7 月 23 日（Llama 2 发布一年后）发布其参数量最大的 Llama 3 模型，拥有 405B 参数，并作为 多模态 (multimodal) 产品提供。
- 这一发布引发了社区的热烈讨论，重点围绕运行如此巨大的模型所需的 基础设施要求，例如 8x H100s 或 8x MI300X GPUs。

2. 开源 AI 进展

AuraFlow：最大的开源 Text-to-Image 模型：由 Fal AI 开发的 AuraFlow 已作为最大的开源 Text-to-Image 模型发布，采用 Apache 2.0 许可证，已在 diffusers 中获得支持，并在 GenEval 上取得了 state-of-the-art 的结果。
- LoRA support 即将推出，目前模型处于 beta 阶段，社区反馈至关重要。感谢 @cloneofsimo 和 @isidentical 做出的重大贡献。
Cohere Toolkit 走向开源：Cohere 在 GitHub 上开源了他们的 chat interface，并计划进行 OCI integration，正如 Sssandra 所宣布的那样。
- Mapler 对将该开源工具包用于个人项目表示兴奋，并将向社区更新进展。
OpenArena 促进 LLM Dataset 增强：GitHub 上的 OpenArena 项目让语言模型相互竞争，并由第三个模型担任裁判，通过竞争性挑战来提高 dataset 质量。
- 受关于 Arena Learning 的 WizardLM 论文启发，OpenArena 利用 AI 标注的结果进行 LLM 的 supervised fine-tuning 和 reinforcement learning。

3. Community Collaboration and Knowledge Sharing

LlamaIndex 发布 Agentic RAG Cookbooks：LlamaIndex 与来自 AIatMeta 的 @jeffxtang 合作发布了关于 agentic RAG 的 cookbooks，涵盖了从 routing、tool use 到 multi-document agent 构建的主题。
- 此外，由 @tb_tomaz 和 Neo4j 提供的 Cypher snippet 可以有效地执行 entity deduplication，辅助知识图谱（knowledge graph）的创建，该内容已分享在 Neo4j GitHub 上。
用于 Continued Pretraining 的 Unsloth Notebooks：Unsloth 提供了用于通过 Ollama 和 Hugging Face 模型训练本地模型的 notebooks，并处理了跨不同序列长度的 continued pretraining。
- 社区讨论了针对不同 max_seq_length 的 concatenation 和 truncation 技术，以及在 LoRA 和 PEFT 设置中理解参数差异。
LangChain 优化与最佳实践：LangChain 社区分享了 embedding functions 的优化技术，例如使用 caching mechanisms（in-memory 或 Redis）以避免重复计算 embeddings，并考虑使用 async requests。
- 讨论还涉及了处理大型数据集时 FAISS vs Chroma 的选择，结合两者的优势：使用 Chroma 进行 persistence，使用 FAISS 进行 similarity search，并提高 LangChain agent 的效率。

4. Hardware Benchmarking and Adoption

评估 AI 工作负载的 GPU：讨论对比了 3090 vs 4090 GPUs 在 AI 工作负载中的价值主张，由于代际性能提升相对较小，许多人更倾向于性价比更高的 3090。
- 关于即将推出的 NVIDIA 5090 仅有 28GB VRAM 而非 32GB 的传闻，引发了使用 3090 构建经济实惠的 multi-GPU servers 以增加 VRAM 容量的建议。
H100 GPU 的兴奋与采用挑战：H100 GPUs 的到来引起了极大的兴奋，成员们惊叹于 ‘H100 go brrrrr’，并讨论了相比前几代产品的显著性能提升。
- 然而，有人担心 Flash attn3 目前仅限于 H100 支持，希望它能遵循 Flash attn2 的路径，扩展到 3090 和 4090 GPUs。
本地 AI 模型基准测试：一位成员分享了他们的个人基准测试表，涵盖推理、STEM、coding 和 censorship 类别，使用加权评分系统评估了 83 个任务中的各种本地 AI 模型。
- 虽然这不代表更广泛的基准测试，但该表提供了一个人的经验见解，并突显了社区对全面模型评估日益增长的兴趣。

PART 1: High level Discord summaries

HuggingFace Discord

RT-DETR 领先于 YOLO：RT-DETR 在速度和准确性上超越了 YOLO，并与 Roboflow 联手推进目标检测，现在可以通过 transformers 库无缝访问。
- 该模型的优势在一篇研究论文 (https://arxiv.org/abs/2304.08069?ref=blog.roboflow.com) 中得到了证实，支持将 RT-DETR 集成到现有工作流中并提升检测任务的表现。
利用 Hiera 模型提升效率：transformers 库现在包含了一个变革性的视觉模型 Hiera，它简化了层次结构的复杂性，并在图像分类等性能任务中表现出色。
- Hiera 的灵活性体现在其多种实现中，包括 HieraForImageClassification 和 HieraBackbone，详见 GitHub Pull Request。
工具包精简 LLM 微调流程：Georgian-io 工具包首次亮相，旨在简化多个 LLM 的微调，简化端到端的数据科学流程。
- 这是一个多功能工具包，它支持通过统一的 config 运行批处理实验、评估指标，并执行超参数和 Prompt 消融实验。
AuraFlow 景观可视化：AuraFlow 被誉为最大的开源 text-to-image 模型，最近因其在 GenEval 中表现出的出色结果而备受关注，并得到了 diffusers 的支持。
- 随着 LoRA 支持 即将到来，官方鼓励通过 fal 的 Discord 进行持续开发和社区反馈，为进一步增强功能铺平道路。
qdurllm Demo 展示新能力：qdurllm demo 展示了直观输出方面的飞跃，并邀请社区对其先进的交互模型提供反馈。
- 该产品为潜在的新兴用例以及集成化、可访问的进步开启了对话。

Stability.ai (Stable Diffusion) Discord

ComfyUI Reactor 恢复安装：参考 YouTube 视频提供了无错安装 ComfyUI InsightFace 的解决方案。
- 这一变通方法已得到用户确认，对 2024 年发布的版本依然有效。
Deforum 深入研究独特的色彩动态：为了微调抽象视频的美感，讨论了在 Deforum Stable Diffusion API 中将 color_coherence 设置为 None 作为增强色彩过渡的潜在方法。
- 征集社区意见以优化视觉项目中的鲜艳度和清晰度。
auto1111 上的生成中断查询：用户在 auto1111 设置中遇到了停止生成过程的显著延迟，将其归因于 VRAM 限制和软件细微差别。
- 有人将其比作高速列车的逐渐减速，强调了在突然停止期间需要耐心。
分析 AI 工具的性价比：社区讨论了商业 AI 工具（如 Runway，提供每月 $90 的方案）的成本，并与免费的本地 AI 选项进行了对比。
- 尽管免费工具很有吸引力，但成员们认识到高级服务通常能提供更卓越的功能和增强的特性。
扩大放大规模：追求免费工具：对免费创意图像 upscaling 工具的搜索促成了对 Krita 和 GIMP 等易于获取的软件的推荐。
- 这些替代方案因其有用的功能且没有经济门槛而受到称赞，符合社区注重资源的偏好。

CUDA MODE Discord

FA3 的胜利与 CUDA 的担忧：一场激烈的辩论评估了 FA3 vs cuDNN 和 ThunderKittens 的优劣，揭示了尽管 FA3 在 Attention 机制中具有潜在的加速诱惑，但人们更倾向于简单和易用性。
- 围绕 FP8 实现障碍 的技术担忧以及 ThunderKittens 中不存在的 FP8 轨道，引发了对维护复杂性的评估。
评估 GPU 访问选项：成员们赞扬了 Google Colab 无缝的 GPU 访问，同时比较了租用 GPU 时 Coreweave 和 Lambda Labs 的优缺点，强调了价格和分配问题。
- 讨论强调 Google Cloud GPU 是笔记本以外用途中更昂贵但更强大的选择，提升了 Colab 在钻研 CUDA kernels 时的易用性地位。
优化矩阵乘法：对话探讨了矩阵乘法中有效的线程分配策略，建议由于内存布局的原因，每行一个线程在缓存和数据加载方面效率更高。
- 随着有关内存排列的见解浮现，“合并 (coalescing)”的概念成为焦点，强调了在最后一个矩阵维度上进行归约 (reducing) 的效率。
AI 训练中的创新策略：成员们讨论了在 FSDP 中使用 tensor subclass 的可行性，因为像 bitnet work 这样新兴项目暗示了分布式训练中不断增长的应用。
- 社区认可了持续的贡献，并准备合作制定一份 启用 tensor subclass 的开发者指南，以应对未来的需求。
LLM.C 内部的协作与增长：LLM.C 社区 正忙于围绕模型共享和资源整合的倡议，这在 Hugging Face 上组织结构的创建中可见一斑。
- 分享了关于执行优化和微调大规模模型的见解，还激发了关于 FP8 带来 33% 速度提升 的想法，尽管需要考虑内存重用。

Modular (Mojo 🔥) Discord

LLVM 创始人的纪事：最近一段采访 LLVM、Clang、Swift 和 Mojo 创始人的 Primeagen 视频在 YouTube 上公开后引发了讨论。
- 参与者指出，详细的见解对于理解 Mojo 创作背后的开发哲学是非常棒的资源。
Mojo 的 REPL 迭代：围绕 Mojo REPL 缺乏表达式立即输出的争论不断，并将其与 Python 的 REPL 行为进行了比较。
- 尽管当前功能不会直接显示像 1+1 这样的结果，但建议成员通过 GitHub issues 提交请求以整合这些功能。
MAX 网站改版拥抱清晰度：Modular 的 MAX framework 占据了改版后网站的核心位置，强调了其广泛的开发者基础和清晰的许可条款。
- 该网站展示了 Max 的性能实力与 Mojo 语言提供的易用性之间的协同作用，而无需深入底层编码。
通过 Mojo 的 MAX 获得 GPU 收益：出现了一场关于在 MAX 中使用 Mojo 编写自定义 GPU kernels 以增强性能的有前景的对话。
- 这为利用 MAX 强大的接口和 Mojo 敏捷的 kernel 编译开辟了道路，而无需直接涉及 CUDA。
MAX Model 执行中的数据类型差异：在执行 MAX Model 时出现了 数据类型问题，导致在使用 PythonObjects 时预期与实际结果不匹配。
- 将 np.full() 操作的 dtype 修正为 np.float32 提供了解决方案，强调了模型执行参数中所需的精度。

Unsloth AI (Daniel Han) Discord

Gemini 随 Token 扩展而飞跃：Gemini 1.5 Pro 拥有 200 万 Token 窗口，并引入了 context caching 和 code execution 功能。
- AI 开发者对无限制的 JSON 容量感到兴奋。
FlashAttention 在 Hopper GPU 上疾驰：FlashAttention-3 承诺实现高效的 Hopper GPU 利用率，FLOPs 利用率高达 35%，详见 Tech Blog。
- “大幅提升 FLOPs 利用率”仅限于 Hopper 用户。
TF-ID 模型瞄准视觉语言任务：胡一飞（Yifei Hu）发布了 TF-ID 模型，包括训练代码、数据集和权重，采用 MIT License，适用于视觉语言任务。
- 这些模型仅需几百个特定领域的元素即可进行 finetune。
CodeGeeX4 削弱了 GPT 的优势：新的 CodeGeeX4-ALL-9B 模型在代码生成能力上盖过了 GPT-3.5 和 GPT-4。
- 该模型实现了顶尖性能，拥有 128k context，并支持多种编程语言。
Meta 备受期待的 LLaMA 3 亮相：Meta Platform 计划于 7 月 23 日发布其 LLaMA 3 模型，这可能会带来显著的 AI 进展，引发了广泛关注。
- 此次发布（详见此处）可能会重塑 AI 应用部署的硬件偏好。

Nous Research AI Discord

OpenAI 预告博士级别的突破：OpenAI 暗示即将推出的模型将具备等同于博士学位的解题能力，引发了关于接近 AGI 的讨论。
- 一位匿名人士泄露了 GPT-4 的演示视频，展示了其先进的类人解题能力。
Anthropic 的 AI 预测：Anthropic 的 Dario Amodei 预测了即将到来的 AI Safety Levels，暗示 A.S.L. 3 可能最早在今年出现，而 A.S.L. 4 将在 2025-2028 年间出现。
- A.S.L. 4 引发了对生物和网络技术滥用可能加剧全球风险的警示。
社区质疑 OpenAI 的策略：在潜在突破的消息中，社区中出现了对 OpenAI 战略性发布模式的怀疑声音。
- 讨论围绕着 OpenAI 的预告可能是一种旨在提高估值的手段，尽管他们之前已经取得了成就。
用 llm.c 玩转 GPT-2：Karpathy 展示了使用 llm.c 高效复制 GPT-2 (1.6B) 的过程，兼顾了性能与成本效益。
- 该实现证明了 llm.c 进行大规模语言模型训练的能力，仅需 24 小时即可完成。
C++ 带来的简单与安全：Safetensors.cpp 作为 LibTorch 的零依赖 C++ 库首次亮相，减轻了模型开发中的数据处理负担。
- 目标很明确：简化模型数据流程，确保工作流更加顺畅且高效。

Perplexity AI Discord

Perplexity Labs：用还是不用？：关于 Perplexity Labs 实用性的辩论激增，社区成员剖析了其在不同设备上的通用性。
- 利弊分析被广泛讨论，重点关注了 Labs 的集成优势，并质疑其相对于移动端使用与 Web 界面的优势。
Claude 3.5 碾压 Claude 3 Opus：Claude 3.5 在推理和逻辑方面优于其前身 Claude 3 Opus 的卓越表现引起了所有人的关注，预示着模型主导地位的转变。
- 虽然对 Claude 3.5 的赞誉是一致的，但人们对 Opus 3.5 等未来版本重新平衡局势的潜力产生了猜测。
AI 成为糖尿病管理的灯塔：用于糖尿病管理的 AI 成为焦点，讨论围绕协助患者和医生的 App 展开，重点在于洞察推导而非仅仅是胰岛素调整。
- 最近的进展得到了关注，这些进展不仅提供自动胰岛素给药，还提供预测性见解，重塑了患者护理。
Error 524 阴云笼罩 Perplexity API：AI 工程师报告称，在将 Perplexity 与异步框架集成时，尽管保持在规定限制内，仍偶尔出现 Error 524。
- 切换模型增加了难题，在 llama-3-{8b/70b}-instruct 到 llama-3-sonar-{large/small}-32k-online 之间的转换导致了类似的错误，令用户感到困惑。
Cloudflare 引发 Perplexity API 动荡：排错过程揭示了 Cloudflare 是罪魁祸首，它导致了 VPN 访问 Perplexity API 被阻断，这对许多人来说是一个新发现。
- 虽然有些人感到困扰，但其他人发现绕过 VPN 是有效的解决方法，恢复了访问并平息了这场风波。

Eleuther Discord

GPT-4Chan 终结了 TruthfulQA 的统治地位：来自 Maxime Labonne 的推文重新引发了关于 GPT-4Chan 尽管在 ChatGPT 出现后仍曾在 TruthfulQA 上占据主导地位的讨论。
- 参与者一致认为，像 TruthfulQA 这样的一些基准测试可能会误导，而像 MT-Bench 这样的基准测试被认为更能反映真实性能。
Jsonnet，配置界“必要的恶”？：虽然 Jsonnet 因其精简的配置能力而受到赞赏，但一场讨论揭示了它在调试方面的不足，导致用户对其爱恨交织。
- 尽管面临挑战，Jsonnet 因其简洁性而在各种配置任务选项中脱颖而出，其作用得到了认可。
伦敦 AI 聚会未达预期：论坛上表达了对伦敦 AI 聚会的失望，反映出它们对于寻求更深层次 AI 探讨的人来说还不够。
- 建议指向学术研讨会和诸如 ICML 之类的会议，以满足对更实质性技术集会的渴望。
LLM 面临简单但严峻的挑战：更新后的 Alice in Wonderland 论文揭示了一些简单的谜题，这些谜题难倒了像 Claude 3.5 Sonnet 这样的 SOTA 模型。
- 围绕 SOTA LLM 无法处理简单修改的讨论，突显了对稳健基准测试的需求，并增强了我们对模型局限性的理解。
内存带宽：GPT-2 训练的限制因素：讨论围绕在一小时内使用万亿级 Token 数据集训练 GPT-2 模型所需的 1000 倍内存带宽放大要求展开。
- 焦点转向 Hadamard 变换，将其作为量化难题的创新解决方案，详见 Together 的博客文章。

Latent Space Discord

FlashAttention-3 激发 GPU 性能：FlashAttention-3 现已发布，承诺在 FP16 上实现 1.5-2 倍的速度提升，在 H100 GPUs 上达到高达 740 TFLOPS。
- 据报道，新版本在 H100 上实现了 75% 的利用率，并有可能在使用 FP8 时达到 1.2 PFLOPS。
OpenAI 利润丰厚的账目：根据最近的一份报告，OpenAI 的收入预计将达到 19 亿美元，其中 ChatGPT Plus 领跑。
- 这一推测突显了 OpenAI 可能在行业中处于领先地位，其 ChatGPT Enterprise、API 和 Team 产品的数据表现令人印象深刻。
OpenAI 揭晓 AGI 框架：OpenAI 发布了一个用于追踪 AGI 的 5 级框架，并将自己定位在第 2 级。
- GPT-4 的推理能力在最近的一次会议上得到了展示，表明了该战略框架中概述的进展。
去中心化 AI 训练起飞：Prime Intellect 的 OpenDiLoCo（借鉴自 DeepMind 的模型）支持在全球节点上进行分布式 AI 训练。
- 一个成功的案例涉及一个在三个不同国家的多个节点上训练的 1.1B 参数模型。
Fireworks 在 AI 融资领域崭露头角：Fireworks AI 最近为其旨在推进复合 AI 系统发展的平台获得了 5200 万美元的 B 轮融资。
- 资金将用于 Nvidia 和 AMD 的集成，并量身定制企业级 AI 解决方案。

LangChain AI Discord

使用 Indexify 进行无缝合成：Prashant Dixit 在 Towards AI 的出版物中重点介绍了从非结构化源中进行结构化数据提取的方法。
- 介绍了使用 Indexify 创建数据摄取和提取流水线的方法，更多见解请参阅 Towards AI 的文章。
向量优势：Chroma 优于 OpenAI：讨论围绕正确加载带有 OpenAI embeddings 的 Chroma 向量存储所需的配置展开，强调了为了无错运行而保持一致的 collection_name。
- 参与者探索了持久化存储策略以及对嵌入文档的有效管理，以减少冗余计算。
光速 Embeddings：交流了加速 OpenAI embedding 函数的技术，缓存策略是核心，范围从 in-memory 到使用 Redis 等工具。
- 改进嵌入过程的方法包括减少 token 加载和利用异步嵌入请求。
FAISS 还是 Chroma：数据集的抉择：随后展开了关于 FAISS vs Chroma 的辩论，倾向于使用 FAISS 高效处理大规模数据集，而 Chroma 则因其在小规模集合中的持久化能力而受到青睐。
- 一种结合了 Chroma 持久化存储和 FAISS 相似性搜索的混合方法被认为是一种有效的解决方案。
LangChain Agents 的进展：剖析了关于 LangChain agents 不必要的重新嵌入（reembedding）挑战，重点关注最小化向量存储初始化时间。
- 提议的解决方案涵盖了持久化机制以及其他各种改进，以增强 LangChain agents 的运行。

LM Studio Discord

FlashAttention 点燃 LLM 性能：一项技术回顾揭示了 FlashAttention 及其后续版本如何简化 Transformer 训练，通过优化的内存操作大幅增加了 GPT-4 和 Llama 3 的上下文长度。
- NVIDIA 的 4090 相比 3090 仅有微小提升，但 FlashAttention 技术的加入引发了关于在新方法的内存管理效率下，是否真正需要高端显卡的讨论。
关于 NVIDIA 下一步行动的传闻：传言暗示 NVIDIA 5090 仅配备 28GB VRAM，而非预期的 32GB，这引发了广泛猜测；同时一篇 Reddit 帖子提供了一个获取海量 VRAM 的 DIY 替代方案。
- 虽然关于 3090 更好的性价比仍有争论，但多 V100 设置作为 AI 任务有力竞争者的可能性也得到了剖析，讨论倾向于使用单一高性能 GPU 构建以获得最佳周转效率。
Vulkan 迎来支持浪潮：由于 OpenCL 表现滞后，无法在 7600XT 上加载模型，逐渐在 AI 工作中失宠，有传言称 Vulkan 将进入 LM Studio 的支持列表，承诺为模型交互带来新体验。
- 讨论指出 Vulkan 的受欢迎程度正超越 OpenCL，这对 ollama 用户来说是一个受欢迎的变化，但在热切期待中，具体的发布日期仍未确定。
爱因斯坦品牌引力：Salesforce 投入了高达 2000 万美元 将其新 AI 模型命名为 Einstein，这引发了业内的各种调侃，以及对这笔投资明智性的审慎评估。
- 现场充满幽默气氛，有人生动地想象 Einstein 的形象被困在公司框架中，并对 AI 品牌束缚可能成为梗的潜力发表了俏皮话。
使用 LM Studio 进行响应式 AI 开发：一项创意尝试出现，一名工程师通过 LM Studio 的 API 将 Gemma 2 集成到 React 应用程序中，并建议考虑使用像 Faiss 这样的 embedding 数据库进行 RAG 设置，以优化批量 PDF 处理。
- 随着开发者交流成败经验并倡导社区内更具同理心的支持，LM Studio 的 SDK 被推崇为将前沿 AI 融入具有丰富用户交互应用的得力助手。

OpenAI Discord

去中心化为芯片赋能：讨论集中在去中心化计算对 AI 任务的好处，利用 stable diffusion 和未被利用的闲置处理能力来优化 CMOS 芯片。
- 用户呼吁通过去中心化扩展高性能计算 (HPC) 能力，从而实现精细的并行计算。
OpenAI 的下一代 AI 蓝图：OpenAI 揭示了一个新的层级系统，描述了从具有博士级问题解决能力的 ‘Reasoners’ 到具有更广泛能力的 ‘Agents’ 和 ‘Organizations’ 的进展。
- Claude 因其在文档理解方面优于 ChatGPT 而受到关注，这表明人们对上下文长度的关注度日益提高。
ChatGPT-5 的期待达到顶峰：GeekyGadgets 的消息暗示 ChatGPT-5 测试将于 2024 年底开始，引发了用户的兴奋与怀疑。
- 预期的 ChatGPT-5 功能包括增强的情绪智力、减少指令重复以及可能涉足多模态能力。
对 ChatGPT-4o “健忘症”的担忧日益增加：用户反映虽然 ChatGPT-4o 速度很快，但经常忘记最近的指令，质疑其在编程等任务中的效能。
- 对 v3.5 记忆能力的怀旧突显了性能速度与操作召回率之间的权衡。
RAG 聊天机器人提示词微调：开发者正在微调 RAG 聊天机器人的指令，旨在减少收到奇怪或矛盾答案的可能性。
- 社区建议提高聊天机器人提示词的清晰度，以确保有效且逻辑严密的交互。

Cohere Discord

Command R Plus 的实际应用场景揭晓：由 Mapler 领导的社区成员们集思广益，探讨了 Command R Plus 模型的实际应用，涵盖了社交媒体内容创作、播客描述撰写以及团队沟通增强。
- 值得注意的是，Sssandra 强调了她日常将该模型与 Notion 和 Google Drive 集成，以方便处理社区咨询。
利用 Cohere 实现自动更新革命：目前正在讨论如何利用 Command R Plus 和 Lang chain，通过 Discord 中的 webhooks 自动推送 AI 新闻，Mapler 正领导这一计划。
- Karthik_99_ 已主动提供帮助，建议可以集成类似 chat-GPT 的界面，目前正等待社区反馈。
Cohere 工具箱进入开源生态系统：Sssandra 自豪地分享了 Cohere 的聊天界面已在 GitHub 上开源的消息，并预告了即将进行的 OCI 集成。
- Mapler 表现出极大热情，打算将其用于个人项目，并向社区更新进展。
追求 AI 生成的独特表情符号：Roazzy 发起了关于开发 AI 驱动工具来创建独特表情符号的讨论，目前的方法还局限于手动创作。
- Karthik_99_ 询问了现有解决方案，强调了该功能在用户驱动型平台中的潜力。
Cohere Embedding Model 在成本效益上的突破：一位成员发布消息称 Cohere’s embedding model 已将运营成本大幅降低了 40-70%，引发了热烈讨论。
- 该公告获得了社区的一致好评，表达了对这种高性价比进展的赞赏。

Interconnects (Nathan Lambert) Discord

Llama 向更大规模学习的跨越：拥有 405B 参数的 Llama 3 即将于 7 月 23 日 发布，引发了广泛期待。该模型被设计为更强大的 Multimodal 模型，详情见此简报。
- 从 Llama 2 到 3 的飞跃加速了通往复杂 AI 的道路，引发了围绕支持性基础架构的讨论，正如 Stephanie Palazzolo 所发并被社区频道转发的内容。
OpenAI 神秘的 Strawberry 策略：关于 OpenAI’s Strawberry 项目的泄露信息显示，它与斯坦福大学 2022 年的 STaR 方法有相似之处，突显了 AI 推理技术的进步，据 Reuters 报道。
- 社区对这一秘密行动充满了猜测和分析，认为这可能成为 OpenAI 追求更具上下文理解能力和连贯性 AI 模型过程中的一个重要里程碑。
Self-hosting 大模型：一种特权式的困境：深入探讨 Self-hosting 400B 参数模型的物流需求后发现，需要大约 400GB VRAM。这使得对话转向了资源可用性，并倾向于在自有硬件不足时使用 API。
- 这种情况让 GPU 租赁的超大规模算力提供商（Hyperscalers）备受关注，尤其是当不涉及私有数据关注时，这是从技术社区对托管复杂性和 API 优势的剖析中得出的结论。
Distillation 难题：Sequential Soft-targeting：著名论文中描述的 Soft-target distillation 过程正受到审视，有人提问关于在保持概率的同时进行 Sequential 处理的可能性。
- 社区反馈指向了一些替代策略，例如在在线建模过程中对齐内部表示（Internal Representations），以及这可能如何简化现有方法。
GPT-4：价格优于性能？：在各种 AI 服务中，GPT-4 以 每月 20 美元 的价格脱颖而出，成为卓越模型的代表，使竞争对手的低价替代方案显得黯然失色。
- 诸如 aaron holmes 的推文进一步推动了对比讨论，聚焦于 AI 模型估值、企业选择和消费者偏好的持续对话。

tinygrad (George Hotz) Discord

tinygrad 的索引精通：George Hotz 在 tinygrad 中引入了一种创新的索引内核，这是一种打破常规的补充，通过创新性地折叠求和循环（sum loop）绕过了典型的限制。
- 这种后端生成的方法确保了严格且高效的内存访问子集，优化了内核性能。
借鉴 PyTorch 路线图规划航向：一名成员建议效仿 PyTorch 分享的 2024 H2 计划，主张采取精确且开放式的开发策略。
- 其目标是镜像 PyTorch 的透明路径，为增长和开发提供清晰的基础。
tinygrad 中的梯度下降困境：从头开始实现梯度下降的尝试遇到了阻碍，一名成员指出在没有定义 optimizer.step 的情况下过程非常缓慢。
- 他们寻求优化缓慢步骤的见解，参考了代码样本和 George Hotz 的手动实现策略。
优化张量操作：Hotz 的命令 model.weights.assign(model.weights - lr * model.weights.grad).realize() 简化了张量操作（高效梯度下降的关键组件）。
- 正如 George Hotz 所言，理解 realization 的必要性成为了计算实例化的关键。
解决张量索引 Bug：在处理张量操作时，一个断言错误暴露了张量索引中的 Bug，导致了 “idx.max too big” 的复杂问题。
- 参与此次调试会议凸显了社区在完善 tinygrad 内核效率方面的作用。

OpenAccess AI Collective (axolotl) Discord

H100 GPU 引发性能热潮：H100 GPU 在成员中引发了一波热情，反馈强调了其在性能能力上的重大飞跃。
- H100 系列的迅捷性能预示着计算能力的新基准，显而易见地超越了其前代产品。
奖励模型中的 Attention Masking 受到审视：Attention Masking 在 reward_health_models 中的作用和影响成为辩论话题，社区寻求其必要性的澄清。
- 虽然关于其与 axolotl 特定训练方法相关性的疑问依然存在，但开放式讨论标志着对该技术的持续探索。
OpenRouter 与 OpenArena 的连接受到关注：社区成员对集成 openrouter.ai API 以开发 WizardLM arena 数据集 的开源等效版本表现出兴趣。
- 其中提到使用 ollama 开发社区驱动的 OpenArena 项目取得的进展，强调了协作开发。
Flash Attention 兼容性引发疑问：Flash attn3 的兼容性问题引发了讨论，并指出了对 H100 GPU 的限制。
- 人们对更广泛的 GPU 支持寄予厚望，正如之前 Flash attn2 更新适配了 3090 和 4090 一样。
GaLore vs. Q-Galore：量化占据领先：讨论强调 Q-Galore 是 GaLore 的高效继任者，采用量化技术缩短训练时间，详情见 Hugging Face 论文。
- Q-Galore 的方法在继承 GaLore 策略的同时避免了 SVD 的时间开销，成为处理梯度子空间的重要升级。

OpenRouter (Alex Atallah) Discord

DeepInfra 数据困境讨论：一名成员对 DeepInfra 的数据政策表示担忧，引发了关于公司如何处理从用户输入中获取的训练数据的讨论。
- 讨论明确了 DeepInfra 会记录使用情况，但不会利用用户输入进行训练，详情见其隐私政策。
Beta 集成功能吸引更智能的机器人：关于 Integrations (Beta) 功能的讨论展开，重点在于为 Groq 等外部提供商使用自定义 API key。
- 对话预期未来的扩展可能会探索模型 API 之外的集成，引发了对潜在应用场景的好奇。
为挑剔的模型优化 Prompt 位置：成员们交流了提高模型性能的技巧，包括建议将文本 Prompt 置于图像之后，以辅助能力较弱的模型。
- 据报道，这种放置技术可以增强理解力，并让能力较低的模型给出更好的回复。
405b 的到来激发 AI 追随者的热情：即将发布的 405b 模型 引起了轰动，社区期待值很高。
- 社区的热议由 Bindu Reddy 的推文助推，该推文提到了模型的预期发布，将 7 月 23 日标记为开源 AGI 的重要日子。
专业化推测引发学者讨论：一场关于多个专业化模型是否优于单个通用模型的对话浮出水面，涉及 OpenAI 和 Anthropic 等公司。
- Alex Atallah 加入了辩论，主张考虑专业化模型，并征求社区对首选类型的意见。

LAION Discord

Clip Retrieval 失效：一位用户注意到 clip retrieval 不再可用，引发了关于获取数据集替代方法的询问。
- 该问题似乎与数据集的移除有关，这可能意味着对数据可用性的更广泛限制。
内存占用大户模型：一个小规模模型训练任务出现了异常高的 19GB 内存占用，引起了频道对内存效率低下的关注。
- 社区正在积极探究为什么一个仅有 25 万参数的模型在较小的 batch size 下会吞噬如此多的内存。
Nematron 340B 代码探索：关于 Nematron 340B 代码示例的咨询激增，重点在于奖励模型（reward model）的参数管理。
- 目前细节仍然很少，这为频道内共享编码实践提供了机会。
AuraFlow 带来的华丽流动：Fal AI 的新文本生成图像模型 AuraFlow 随着其发布公告在频道内引起关注。
- 它在遵循 Prompt 方面的熟练表现，重新点燃了人们对 开源 AI 领域 的信心。
LLMs 的 AIW 难题：一篇更新的 ArXiv 论文展示了 AIW 问题，揭示了 LLMs 在基础任务推理能力上的巨大鸿沟。
- 讨论围绕当前基准测试（benchmarks）的不足，以及该论文所强调的至关重要但被忽视的能力展开。

LlamaIndex Discord

Agentic RAG 的成功秘诀：LlamaIndex 与 AIatMeta 合作，发布了关于 agentic RAG 的 cookbook，涵盖了从 agent 路由到多文档 agent 构建的多方面主题。
- 热情的爱好者们通过 Twitter 公告初步了解，并在此处 here 获得了进一步见解。
通过 Cypher 片段实现去重趣闻：由 @tb_tomaz 和 Neo4j 团队打造，一段强大的 Cypher 片段简化了 entity deduplication（实体去重）的艺术，将技术实力与 URI 魔法相结合。
- 为了引起关注，他们分享了一个实用的示例片段，并在 Neo4j GitHub 上简化了代码获取路径。
Gemini 功能调用的澄清请求：Gemini 模型的 function calling 功能存在困惑；GitHub commits 看起来很有希望，但遇到了报错，声称 API 不支持。
- 澄清路径建议通过 pip install -U llama-index-llms-vertexai 升级工具包，希望能拨开围绕 Gemini-1.5-flash-latest 能力的迷雾。
聚焦库：索引大型代码：爱好者们剖析了索引大型代码库的策略，讨论将代码翻译为 markdown-pseudocode（Markdown 伪代码）是否能增强聊天机器人的理解力。
- 对话围绕双聊天机器人系统的需求展开，一个用于问答，另一个用于生成代码片段。
RAG 评审：略读规范文档：设想了 RAG 在剖析冗长规范文档中的作用，旨在不耗尽 token 限制的情况下提高评审流程的效率。
- 社区思考了评估庞大规范的方法，权衡了节省 token 的优势与 RAG 的潜力。

OpenInterpreter Discord

调用错误解析：用户报告在调用 OpenInterpreter.chat() 时出现 APIConnectionError，且 ‘select’ 无法确定 agent 的角色。
- 如文档所述，通过显式传递 LLM provider 可能会解决该错误。
使用 Phi-3 进行快速函数调用：Phi-3 因其快速且可靠的 function calls 引起关注，暗示了全本地 Fast Fourier 运行的潜力。
- 人们对这一优化寄予厚望，这可能意味着在不久的将来实现 更快的计算。
GUI 的重大进展：Open Interpreter 的 GUI 迎来了重大升级，现在具备分支聊天、可编辑消息、自动运行代码和聊天保存功能。
- 这些强大的新功能也带有一些限制，详见 GitHub 仓库。

LLM Finetuning (Hamel + Dan) Discord

解决遥测问题：讨论围绕 self-hosted ML telemetry（自托管 ML 遥测）展开，重点关注 Langfuse、WandB 和 OpenLLMTelemetry 等平台。
- 成员们强调了选择一个符合 ML 项目 特定需求的平台的重要性。
聊天机器人的 API Key 寻求：一位需要 OpenAI API key 的成员表达了对聊天机器人项目教程的需求，强调了其短期必要性。
- 重点在于在教程中使用该 API key 进行演示。
寻求额度澄清：出现了关于额度余额的查询，用户 reneesyliu-571636 直接询问如何进行 credit balance check（余额检查）。
- 另一位成员寻求关于其账户状态的帮助，可能暗示了关于账户管理这一话题的更广泛问题。

Mozilla AI Discord

倡导影响 AI：Llamafile 迈向立法：Mozilla 的 Udbhav Tiwari 在美国参议院面前倡导开放 AI 系统，强调透明和可访问技术的重要性。
- 参议院听证会的焦点在于开放性在 AI 中的关键作用，这与 Mozilla 自身的倡导方向高度一致。
开发者时间延长：仍欢迎申请！：错过了 Builders Accelerator 的早期窗口？别担心，在初始截止日期之后仍然欢迎提交申请。
- 之前已分享过详细信息，感兴趣的各方可以查看计划目标并按照此公告中的说明进行申请。
不要错过：AI 活动盛会等待着你：一系列引人入胜的活动即将登场，包括结合 LLM 的 Open Interpreter、Benjamin Minixhofer 关于 Zero Shot Tokenizer Transfer 的演讲，以及与资深工程师进行的 AutoFix 环节。
- 渴望参与？请为即将举行的活动预留虚拟席位，参与前沿 AI 工具和讨论。
雕琢开源 AI 定义：Open Source AI Definition Draft v 0.0.8 步入聚光灯下，寻求社区见解并与 OECD 的 AI 系统解读保持一致。
- 呼吁社区行动起来，在 OSI 博客上审查并评论这一不断演进的成果。
整数还是浮点数：量化困境：AI 工程师们正在思考 llama.cpp 在 matmul 操作中是使用整数还是浮点数计算，这与 ggml-quants.c 中的程序有关。
- 这一数学策略——技术爱好者的热门话题——可能需要在进行整数点积运算之前对浮点激活值进行量化。

DiscoResearch Discord

LLM 在 OpenArena 中展开对决：LLM Arena 是一个对战区，来自 Ollama 和 OpenAI 端点的语言模型在第三个模型作为裁判的指导下进行决斗。
- 其目标是提高数据集质量，已在 OpenArena 的 GitHub 上通过竞争性挑战进行了展示。
WizardLM 论文为 Arena Learning 施展魔法：OpenArena 从 WizardLM 论文中汲取灵感，倡导在 LLM 训练后进行 Arena Learning。
- 通过模拟聊天机器人战斗并利用 AI 标注的数据集，该方法通过监督微调和强化学习技术来磨练模型。

MLOps @Chipro Discord

拓展 MLOps 的视野：发起了一场关于涵盖产品和研究等不同领域的讨论，特别是推荐系统、信息检索 (IR) 和检索增强生成 (RAG)。
- 对话鼓励开放性建议，并表达了对探索 Elastic 及其在这些领域潜力的特定兴趣。
Elastic 爱好者涌现：另一位用户表达了同样的看法，表示愿意就 Elastic 进行详细对话。
- 该用户标记了一位同事，以启动关于 Elastic 如何增强他们当前业务的深入讨论。

Alignment Lab AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

LLM Perf Enthusiasts AI Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

AI Stack Devs (Yoko Li) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

Torchtune Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

AI21 Labs (Jamba) Discord 没有新消息。如果该频道长期沉寂，请告知我们，我们将将其移除。

第二部分：各频道详细摘要与链接

完整的各频道细分内容已针对电子邮件进行了截断。

如果您想查看完整的细分内容，请访问此电子邮件的网页版：！

如果您喜欢 AInews，请分享给朋友！提前致谢！