2024年4月20日至4月23日的 AI 新闻。我们为您检查了 7 个 Reddit 子版块、373 个 Twitter 账号和 27 个 Discord 社区（包含 395 个频道和 14864 条消息）。预计为您节省阅读时间（以 200wpm 计算）：1509 分钟。

就在 B 轮融资过去仅 3 个月后，Perplexity 通过 B-1 轮融资再次将其估值翻倍。投资者名单与上次基本一致，均为明星阵容，但罕见的是 Daniel Gross 此次并未与 Nat Friedman 共同领投。Dan 似乎与该公司有着特殊的关系——Aravind 分享了 2022 年 12 月一封关于 Dan 产品反馈的邮件。

[TOC]

AI Reddit 摘要

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线，但仍有很大改进空间！

Llama 3 变体与优化

上下文长度扩展：在 /r/LocalLLaMA 中，Llama-3-8B 的上下文长度已被 扩展至 16K Tokens，比原始上下文窗口翻了一倍。
多模态 LLaVA 模型：XTuner 团队在 Hugging Face 上发布了 基于 Llama 3 的 LLaVA 模型，在各项基准测试中显著优于 Llama 2。
BOS Token 提醒：在 /r/LocalLLaMA 中，一则 PSA 提醒用户在微调 Llama 3 模型时，确保训练设置中添加了 BOS Token，以避免出现 inf grad_norm 或 Loss 过高等问题。
特殊 Token 嵌入调整：针对 Llama-3-8B 中 未训练的特殊 Token 嵌入进行了调整 并分享至 Hugging Face，以解决由零值引起的微调问题。
网页浏览与交互：在 /r/LocalLLaMA 中，推出了用于网页浏览和用户交互的 Llama-3-8B-Web Action 模型。WebLlama 项目旨在推进基于 Llama 的 Agent 开发。此外，还分享了使用 OpenAI TTS 和 Whisper 与 Llama 3 8B 进行语音聊天的演示。
微调与扩展：引入了 QDoRA，用于对 Llama 3 模型进行内存高效且准确的微调，并结合 FSDP，性能优于 QLoRA 和 Llama 2。分享了用于创建 Llama 3 模型 GGUF 量化的 Hugging Face Space。讨论了微调 Llama 3 时添加 BOS Token 的重要性。

Llama 3 性能与能力

指令遵循：在 /r/LocalLLaMA 中，Llama-3-70B 因其 遵循格式指令并提供简洁回答的能力 而受到称赞，没有多余的废话。
模型对比：在 /r/LocalLLaMA 中分享了对 HF、GGUF 和 EXL2 格式下 20 个不同量化级别的 Llama 3 Instruct 模型版本的深度对比。主要发现包括 EXL2 4.5bpw 以及 GGUF 8-bit 到 4-bit 的表现非常出色，而 1-bit 量化则出现了明显的质量下降。
Groq 托管模型的性能：据 /r/LocalLLaMA 报告，Groq 托管的 Llama-3-70B 在处理侧向思维谜题时不如 HuggingChat 版本。温度（Temperature）设置显著影响推理性能，其中 0.4 的设置提供了最佳的一致性。

Phi-3 和 Llama 3 模型推动开源语言 AI 的边界

Phi-3 模型发布 3.8B、7B 和 14B 尺寸：在 /r/singularity 中，微软发布了基于 深度过滤的网络数据和合成数据 训练的 Phi-3 模型。14B 模型声称在 MMLU 上达到 78%，尽管体积更小，但足以与 Llama 3 8B 竞争。权重即将上线 Hugging Face。
Phi-3 3.8B 接近 GPT-3.5 性能：在 /r/singularity 中，Phi-3 3.8B 模型在 基准测试中接近 GPT-3.5 的性能，同时还提供 7B 和 14B 版本。权重随演示视频一同发布，展示了模型效率方面令人惊叹的进展。
Llama 3 70B 在 LMSYS 排行榜上与 GPT-4 并列：在 /r/singularity 中，Llama 3 70B 在 LMSYS Arena 英语排行榜上获得第二名，与 GPT-4-Turbo 并列第一。它可以通过 Groq API 或 Hugging Face 免费使用。关于 Arena 排名有效性的问题也被提出。
Phi-3 技术报告显示了令人印象深刻的基准测试结果：在 /r/singularity 中，发布的 Phi-3 技术报告显示 3.8B 模型以 69% 的 MMLU 和 8.38 的 MT-bench 与 Mixtral 8x7B 竞争。7B 和 14B 模型显示出进一步的扩展性，MMLU 分别达到 75% 和 78%。
Llama 3 的参数翻倍收益递减：在 /r/singularity 中，一张图表显示 在相同数据集上翻倍参数通常会使 MMLU 分数平均提升 17%，但对于 Llama 3 模型仅提升 5%，这表明 Llama 3 已经高度优化。

其他

参数扩展：根据 Reddit 上分享的一张图片，在相同数据集上翻倍模型参数通常会使 MMLU 性能平均提升 17%，但对于 Llama 3 模型仅提升 5%。
高速推理：据 /r/LocalLLaMA 报道，SambaNova Systems 展示了使用 8 块芯片以 FP16 精度实现 Llama 3 8B 每秒 430 个 token 的高速推理。
量化普及：/r/LocalLLaMA 中介绍了一个 Hugging Face Space，旨在 使 Llama 3 模型的 GGUF 量化创建普及化，从而提高可靠性和可访问性。

AI Twitter 综述

所有综述均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在使用 Haiku 进行聚类和流程工程（flow engineering）。

Perplexity AI 以 10.4 亿美元估值融资 6270 万美元

融资详情：@AravSrinivas 和 @perplexity_ai 宣布 Perplexity AI 在 B1 轮融资中以 10.4 亿美元估值筹集了 6270 万美元。本轮融资由 Daniel Gross 领投，投资者还包括 Stan Druckenmiller、NVIDIA、Jeff Bezos、Tobi Lutke、Garry Tan、Andrej Karpathy、Dylan Field、Elad Gil、Nat Friedman、IVP、NEA、Jakob Uszkoreit、Naval Ravikant、Brad Gerstner 和 Lip-Bu Tan。
增长与合作伙伴：自 2024 年 1 月以来，Perplexity 的月查询量已增长至 1.69 亿次，过去 15 个月的总查询量超过 10 亿次。Perplexity 已与 德国电信（Deutsche Telekom）和软银（Softbank） 达成合作伙伴关系，向全球约 1.16 亿用户进行分发。@AravSrinivas
Perplexity Enterprise Pro 发布：Perplexity 正在推出 Perplexity Enterprise Pro，该版本包含 SOC2 合规性、SSO、用户管理、企业级数据保留和安全警告，以解决企业使用的内容数据和安全顾虑。@AravSrinivas, @perplexity_ai

Meta 的 Llama-3 模型取得顶尖性能表现

Llama-3 性能：Meta 的 Llama-3 70B 模型已进入 Arena 排行榜前 5 名，超越了许多更大规模的模型。8B 变体也超越了许多更大型的模型。@lmsysorg
训练细节：Llama-3 模型在 超过 15T tokens 的数据上进行训练，并使用 SFT、拒绝采样（rejection sampling）、DPO 和 PPO 进行对齐。@lmsysorg
英语性能：Llama-3 70B 在 英语类别中表现更为强劲，与 GPT-4 Turbo 并列约 第 1 名。在人类偏好测试中，它始终与顶尖模型抗衡。@lmsysorg

微软发布 Phi-3 语言模型

Phi-3 模型详情：微软发布了 3 种尺寸的 Phi-3 语言模型：phi-3-mini (3.8B)、phi-3-medium (14B) 和 phi-3 (7B)。尽管体积较小，Phi-3-mini 仍能 与 Mixtral 8x7B 和 GPT-3.5 媲美。@arankomatsuzaki
训练数据：Phi-3 模型使用“经过严格过滤的网络数据和合成数据”，分别在 3.3T tokens (mini) 和 4.8T tokens (small/medium) 上进行训练。@arankomatsuzaki
基准测试性能：Phi-3-mini 在 MMLU 上达到 68.8，在 MT-bench 上达到 8.38。Phi-3-medium 在 MMLU 上达到 78%，在 MT-bench 上达到 8.9，表现优于 GPT-3.5。@arankomatsuzaki, @_akhaliq
可用性：Phi-3-mini 的 权重已在 Hugging Face 上以 MIT 许可证发布。它针对 Hugging Face 的 text generation inference 进行了优化。@_philschmid

谷歌 Gemini 1.5 Pro 取得强劲性能表现

Gemini 1.5 Pro 性能：谷歌的 Gemini 1.5 Pro API 目前在 排行榜上排名第 2，超越了 GPT-4-0125，几乎登顶。它在长提示词（longer prompts）上表现更佳，与 GPT-4 Turbo 并列第 1。@lmsysorg

其他值得关注的发布与基准测试

字节跳动的 Hyper-SD：字节跳动发布了 Hyper-SD，这是一个用于图像生成中多概念定制的新型框架，在 1-8 步推理中实现了 SOTA 性能。@_akhaliq
摩根大通的 FlowMind：摩根大通推出了 FlowMind，它利用 GPT 自动生成用于机器人流程自动化（RPA）任务的工作流。@_akhaliq
OpenAI 的指令层级（Instruction Hierarchy）：OpenAI 提出了 指令层级（Instruction Hierarchy），使 LLM 优先处理高权限指令，并对提示词注入（prompt injections）和越狱（jailbreaks）具有更强的鲁棒性。@_akhaliq

AI Discord 综述

综述之综述的总结

1. 评估与比较大语言模型 (LLM)

关于新发布的 Phi-3 和 LLaMA 3 模型性能和基准测试的讨论，一些人对 Phi-3 的评估方法论以及在 MMLU 等基准测试上可能存在的过拟合表示怀疑。
Phi-3、LLaMA 3、GPT-3.5 以及 Mixtral 等模型在各种任务中的对比，其中 Phi-3-mini (3.8B) 相对于其参数规模表现出了令人印象深刻的性能。
围绕 MMLU、BIGBench 和 LMSYS 等基准测试在评估模型真实能力方面的有效性和实用性的争论，有观点认为随着模型的改进，这些测试的可靠性可能会降低。
期待 Phi-3 在 MIT license 下开源发布，以及其承诺的多语言能力。

2. Retrieval-Augmented Generation (RAG) 的进展

LlamaIndex 推出了 DREAM，这是一个用于实验 Distributed RAG 的框架，旨在构建健壮的、生产级的 RAG 系统。
讨论创新的 RAG 技术，如用于高效长上下文处理的 Superposition Prompting、用于提高检索质量的 CRAG，以及 结合 function calling 的 RAG。
分享关于 RAG 演进、可信度感知生成 以及将检索与 LLM 规划集成以实现结构化输出的资源。
@JinaAI_ 发布了开源重排序器 (rerankers)，通过改进向量搜索排序来增强 RAG 性能。

3. 大语言模型的微调与优化

广泛讨论使用 Unsloth 等工具对 LLaMA 3 进行微调的策略，解决分词器 (tokenizer) 配置、LoRA 适配器的高效合并以及知识嵌入等问题。
全量微调、QLoRA 和 LoRA 方法的对比，QLoRA 研究 表明其相对于 LoRA 具有潜在的效率提升。
为 llm.c 实现混合精度训练 (BF16/FP16)，相比 FP32 性能提升了 ~1.86 倍，详见 PR #218。
llm.c 中的优化，如使用 thread coarsening 等技术改进 CUDA kernel (GELU, AdamW)，以增强受内存限制的 kernel 性能。

4. 多模态与视觉模型的发展

推出 Blink，这是一个用于评估 GPT-4V 和 Gemini 等多模态大语言模型核心视觉感知能力的新基准。
发布了如 HiDiffusion（声称只需一行代码即可提高扩散模型分辨率）和 PeRFlow（通过流积分对图像进行上采样）。
揭晓了 SEED-X，这是一个多模态基础模型，通过理解和生成适用于现实应用场景的任意尺寸图像来弥合差距。
Mixture-of-Attention (MoA) 架构的进展，用于从语言中生成解耦的、个性化的图像。

5. 其他

Perplexity AI 的估值和 Enterprise Pro 发布：据 Bloomberg 报道，Perplexity AI 在成功完成一轮融资后估值达到 10 亿美元。他们推出了 Enterprise Pro，这是一项每月 40 美元的方案，具有增强的数据隐私和管理功能，已被 Stripe、Zoom 和 Databricks 等公司使用。讨论涉及数据使用担忧和 iOS 应用问题，同时期待 4 月 23 日的公告。
Hugging Face 宕机中断模型访问：许多频道报告了在使用 Hugging Face 时出现 504 Gateway Time-outs 和服务中断，影响了 LM Studio 等工具中的模型搜索和下载功能。推测指向 Hugging Face 可能为了管理流量而进行的术语屏蔽 (term-blocking)，目前正在开发长期解决方案以消除这种依赖。
Phi-3 和 Llama 3 模型引发热议：AI 社区积极讨论了新发布的 Phi-3 和 Llama 3 模型。Phi-3 因其在 MMLU 等基准测试中的效率和性能而备受关注，尽管存在关于过拟合的质疑。Llama 3 在不同变体和量化（quantizations）方面进行了实验，同时也面临着 tokenizer 和 context size 的挑战。模型的 fine-tuning 潜力以及与各种工具的集成是热门话题。
检索增强生成 (RAG) 受到关注：讨论深入探讨了评估和增强 RAG 系统，从使用 LlamaIndex 构建金融机器人到引入用于分布式实验的 DREAM 等框架。讨论了诸如 superposition prompting、可信度感知生成和 function-calling RAG 等技术，以及创建从多个文档中综合信息的 RAG 基准测试。

如果您希望我详细阐述摘要的任何部分，或者有其他问题，请告诉我！

PART 1: 高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

LLaMA 在 Unsloth 的支持下飞跃：LLaMa 3 Instruct Model 通过 Hugging Face 上传实现了进步，承诺提升速度并改进内存占用。同时，成员们分享了在单个 24GB GPU 上使用 Unsloth 以 BF16 格式 fine-tuning 该模型的成功经验，在有限的 VRAM 限制下保持了质量。
AI 人体工程学不仅仅关乎代码：在讨论深度工作的物理层面时，工程师们交流了人体工程学设置技巧，强调了升降桌和像 Advantage2 这样的专业键盘在保持生产力方面的价值。
多语言模型备受瞩目：展示内容包括语言模型的瑞典语和西班牙语适配，例如 llama-3-instruct-bellman-8b-swe-preview 和 solobsd-llama3。Ghost 7B Alpha 模型也亮相了，相关工具和文档可以在这里找到。
关于 Phi-3 和量化的讨论：围绕微软的 Phi-3 Mini 4K Instruct model 展开了热烈讨论，并对 4-bit 实现进行了定量思考。社区成员在 Hugging Face 上部署的 Phi-3 可以在这里获取。
微调技巧与框架修复：对话围绕优化模型 fine-tuning 实践和识别 tokenizer 问题展开，社区成员还详细介绍了将知识嵌入 LLM 以供指令使用并与 Unsloth 方法论保持一致的策略。

Perplexity AI Discord

Perplexity AI 估值突破 10 亿美元：在成功完成一轮融资后，Perplexity AI 的估值达到了惊人的 10 亿美元，甚至登上了 Bloomberg 的报道，并暗示可能与 AI 专家 Yann LeCun 展开合作。名为 Perplexity Enterprise Pro 的企业版拥有增强的数据隐私和管理功能，吸引了大型企业的关注。

新产品发布引发期待与 App 故障：Perplexity AI 推出的每月 40 美元的 Enterprise Pro 激发了用户对未来功能的期待，尽管一些用户对 iPad 版 iOS App 的技术问题表达了不满。尽管存在这些问题，但用户的热情反映了当前用户群的高度期待。

数据隐私成为核心话题：鉴于 Enterprise Pro 的推出，用户讨论了数据隐私问题，促使管理员引用了关于用户同意在模型中使用数据的官方声明。另外，分享频道指导用户在分享 Perplexity AI 的搜索线程时需遵守的合规性要求。

对 Perplexity 高估值融资的期待升温：社区热议 Perplexity AI 寻求以 25 亿至 30 亿美元 的估值筹集 2.5 亿美元 资金，成员们分享了 TechCrunch 文章以及 CEO Aravind Srinivas 接受 CNBC 采访的内容，这标志着公司的快速增长和市场兴趣。

API 用户寻求前沿功能：pplx-api 频道的一项请求强调了对提供最新网络信息的 API 的渴望，类似于具有浏览能力的 GPT；推荐使用 Perplexity 的 sonar online models，这些模型可以在其文档中找到，同时还有关于增强 Prompt 以提升模型性能的额外建议。

Stability.ai (Stable Diffusion) Discord

Forge WebUI 吸引新用户：Stable Diffusion 的新手正在探索将 Forge Webui 作为入门界面，同时社区也在讨论创建 AI 生成图像和资产（包括游戏和科幻元素）的各种替代方案。
CUDA 难题与提速方案：技术讨论集中在解决 CUDA errors 等问题以及提高生成速度的 Prompt，用户对 ComfyUI 中缺失的节点以及跨平台模型的兼容性问题表示了沮丧。
AI 幻想与梦想生成：一些奇思妙想的交流提议使用 AI 来设计完美的伴侣或理想的家园，展示了对 AI 在创作高度个性化内容方面潜力的热情。
Stable Diffusion v3 热议：用户在等待 Stable Diffusion version 3 发布的过程中，既有兴奋也有怀疑，讨论了来自前 CEO Emad 的内部见解，并辩论了该软件真正的开放性。
社区交流技术心得：持续的对话显示出社区热衷于解决实际问题，如跨驱动器的系统安装迁移，他们共同在 Stable Diffusion 及其应用的不断演变中探索。

Nous Research AI Discord

前沿的张量并行 (Tensor Parallel)：工程师们讨论了在 Very Large Language Models (VLLMs) 中实现 tensor parallel 的潜力，并期待 jamba 的支持能带来性能的飞跃。关注点包括在 Claude 3 和 Big-AGI 中妥善管理上下文以平衡成本，引用的方法包括 memGPT 和 SillyTavern SmartContext。
高清 AI 律动：成员们分享了重制的音乐视频，包括 Beastie Boys 和 deadmau5 & Kaskade，以及一个幽默编码的 CIFAR100 潜变量版本，标题为 latent-CIFAR100。在测试了一个 4x4x4 的潜变量数据集后，大家意识到需要更大的图像分类数据集，并分享了这篇论文等学术文章，以丰富关于语言模型和符号表示的讨论。
工具包的胜利与基准测试的博弈：DeepMind 的 Penzai 登场，提供了一个基于 JAX 的神经网络操作工具包。与此同时，关于 LMSYS 基准测试有效性的辩论正在进行，正如一篇持怀疑态度的 Reddit 帖子所指出的。Rubik.ai 也加入了竞争，为使用 Claude 3 Opus 和 GPT-4 Turbo 的研究助手招募 Beta 测试人员。
模型放大与停机困局：Phi-3-mini 模型与 LLaMA-3 及 GPT-3.5 进行了对比，引发了关于其量化性能的辩论以及对模型权重的期待。Hugging Face 的故障（可能与 LLaMA-3 的高使用率或 FineWeb dataset 有关）成为话题，同时对比了 QLoRA vs. LoRA 微调方法的有效性。
追求最优 LLM 利用率：成员们分享了在使用 Deepspeed Zero 3 过程中的苦与乐，思考了单 GPU 优化与 NVLink 的选择，并筛选了 Llama 微调最佳实践的指南。社区显然更看重具体的微调指南，推荐使用 Hugging Face 的博客和 Labonne 的 GitHub，而非通用的 Medium 文章。
视觉基准测试揭晓：关注点转向了 RealWorldQA，这是一个专为 Grok-1.5-vision-preview 设计的 xAI 基准测试数据集，引起了 Obsidian 社区的兴趣。正如 xAI 博客文章所强调的，该数据集的性质被澄清为基准测试而非训练集，尽管人们仍然渴望获得训练数据集。
揭示 RAG 的新发现：社区通过 LLaMA index 性能、Superposition Prompting Paper 中详述的叠加提示方法，以及其他分享的关于增强 RAG 可信度的论文，深入探讨了 Retrieval-Augmented Generation (RAG)。函数调用 (Function-calling) 的 RAG 实现也受到了关注，包括 Pamela Fox 的博客等资源。
模拟超乎想象的世界：虽然 WorldSim 处于离线状态，但 Super WorldSim 和 Snow World Simulator 等替代模拟器在 HuggingChat 中找到了归宿。Discord 上的协作世界构建工作正在蓬勃发展，重点关注 Llama 3 即将发布的开源模型，以丰富模拟体验。

LM Studio Discord

GPU 故障与小问题：关于 LM Studio 在 AMD 和 Nvidia GPU 上性能的讨论揭示了 GPU offloading 对于避免 100% CPU 占用和防止系统低效至关重要。“Error loading model”问题的解决方案集中在关闭 GPU offloading 或设置特定的环境变量，以引导 LM Studio 使用独立 GPU。
Hugging Face 的小插曲：由于 Hugging Face API 宕机，用户遇到了 503 和 500 错误消息，影响了 LM Studio 搜索和下载模型的能力。虽然社区推测 Hugging Face 可能会通过屏蔽某些术语来缓解流量压力，但通过 LM Studio Tweets 的持续沟通让大家了解最新动态。
模型热潮：各种 AI 模型 引发了辩论，讨论涉及 Meta-Llama-3-8B-Instruct-GGUF 的无限生成问题、微调 Llama 3 与 Goliath 120B 及 Mistral 的对比，以及 Phi-3 惊人的效率。关于将 Autogen 等工具与 LM Studio 集成的查询，以及对内容生成中模型限制的担忧，凸显了用户对定制化的渴望。
Prompt 难题与配置奇闻：LM Studio 用户分享了为 D&D 场景 编写 system prompts 的技巧，解决了 Llama-3-Smaug-8B 的 prompt 问题，并推荐了预设配置。同时，一个涉及 2-token 限制问题的 Autogen 故障引发了社区的排错建议。
技术试验与 ROCm 评论：使用 ROCm 的 AMD GPU 引发了对 Meta-Llama-3 性能的评论，记录了运行速度，并提出了关于在低端硬件上运行大型模型的问题。解决 LM Studio 中 AMD GPU 选择策略的智慧层出不穷，并且分享了 Hugging Face 仓库详情以便有效地利用 Meta Llama 3 模型。

CUDA MODE Discord

X11 助力远程 GPU Profiling：CUDA 公会探讨了通过 X11 forwarding 经由 SSH 操作 Nsight Compute GUI，一位用户分享了远程设置 Nsight Compute 的教程。同时，‘Effort’ 算法为 LLM 推理计算增加了动态性，并引起了在 Triton 或 CUDA 中使用的兴趣，其代码已在 GitHub 上发布。
CUDA 矩阵魔法与线程同步讨论：在 CUDA 频道中，用户澄清了 CUDA 矩阵乘法和 CUDA 中 __syncthreads() 行为等概念；特别强调了从 Volta 架构开始的变化。通过围绕 __forceinline 和 __inline 的讨论，内联函数（Inline functions）的神秘面纱被揭开。
Triton 应对变换与内存管理：Triton 用户面临图像灰度化和内存碎片的挑战，而其他人则因目前的限制讨论了二分查找（binary search）的实现策略。make_block_ptr 参数的 order 引起了困惑，将对话引导向行优先（row-major）与列优先（column-major）格式的对比。
PyTorch 实践：在 Torch 频道中，公会确认了如 torch.nn.conv2d、torch.nn.relu 和 torch.nn.batchnorm 等操作是在 GPU 上执行的，中间结果无需 CPU-GPU 传输。GPU 操作调度被指出是异步的。
使用 CUTLASS 进行优化：关于 CUTLASS 的 Lecture 15 预告让热衷学习的人们充满动力，承诺将深入探讨 CUDA 的前沿工具和技术。
算法、入门、读书会及其他：零散的讨论涉及了一个 CUDA 算法示例、以风趣风格掌握 CUDA 的入门之旅、PMPP 书籍章节练习、潜在的 YouTube 录像上传，以及在实现 denseformer 时提到的 JAX 内存问题。hqq 频道讨论了重要的 Triton kernel benchmarks，并推动高效的量化（quantization）策略。
引擎室中的 Kernel、Coarsening 与协作：llmdotc 频道正热烈讨论 atomic 操作移除、BF16/FP16 混合精度收益、对当前 CUDA 版本的要求，以及通过整合见解使 GELU 和 AdamW kernel 性能翻倍。线程粗化（Thread coarsening）被视为优化受内存限制（memory-throttled）的 kernel 的希望之光。
管理、技术设置与 FlashAttention：管理员们各司其职管理内容，而 massively-parallel-crew 频道则忙于完善活动录制和未来演讲的准备工作，包括对 FlashAttention 深度探讨的预告。
本地 GPU 爱好者聚会：在一个轻松的时刻，off-topic 频道透露了居住在 Münster 附近的成员们进行了一次愉快的聚会，该地被誉为 CUDA 爱好者的中心。
Ring Attention 引起关注：ring-attention 频道通过简短提到的手动放置（manual placement）成功案例以及通过 Axolotl GitHub 链接分享的 tinyllama 测试引起了好奇。

Eleuther Discord

智能手机上的本地 LLM 前景： 讨论探讨了在智能手机上运行大型语言模型（LLM）的可行性，考虑到内存带宽（高达 51.2 GB/s）和 GPU 能力（Exynos 2400 芯片组规格），认为即使是 7-8B 模型也可能可行。社区成员研究了现有的应用，如 MLC-LLM，并讨论了 Hugging Face 的停机如何引发关于免费 AI 模型托管可持续性的疑问。

SpaceByte 让 Tokenization 变得过时： 一种新的字节级 LLM 架构 SpaceByte 有望消除对 Tokenization 的需求，解决 Tokenizers 可能导致的信息泄漏问题。其他讨论批评了 Fineweb 与 LLaMA 的关系，以及 ProGen2 在 AI 设计 CRISPR-Cas 蛋白质中的新应用，展示了 LLM 在加速科学发现方面的作用。

谨慎扩展与委婉辩论： 一场关于出版物中数据舍入问题的冲突引发了关于技术辩论中建设性批评和语气的广泛讨论。这场小规模争论阐明了关于将舍入数据归因于 Chinchilla 论文还是复现团队的误解，揭示了复现方法论中更深层次的问题。

RWKV 集成加速： GPT-NeoX 开发人员正忙于实现 RWKV（Rethinking Weighted Key-Value Memory Networks），并支持 fp16 和 JIT 内核编译。进展和任务详见 GitHub Issue #1167，开发人员正在推动版本编号系统以简化迭代过程。

AI 设计高性能蛋白质： Profluent Bio 成功利用 LLM ProGen2 设计了新的 CRISPR-Cas 蛋白质序列，产生了特异性更高的变体。这一成就证明了 LLM 在生物技术领域不断扩大的实用性。

HuggingFace Discord

与 PDF 聊天，现在支持数学！：ai_pdf 是一个开源项目，支持与 PDF 文档进行对话，通过将数学 PDF 转换为 LaTeX，在处理此类文档时表现出色。

语音引导的 AI 艺术创作：一段由语音命令实时生成的 2.5 分钟视频已在 Reddit 上分享，指向了 AI 驱动的动态视频创作的未来。

AI 变得触手可及：Transformers.js 允许直接在浏览器中运行 HuggingFace Transformers，扩展了 AI 应用在 Web 环境中的活动空间。

Rust 助力精简 BPE：minbpe-rs 是 minbpe 的 Rust 移植版本，具有 Tokenization 和训练功能，提高了 NLP 任务的性能。该项目可在 GitHub 上获取。

Diffusion 困境与 AI 视频辩论：用户讨论了使用 Diffusion 创建关于“AI 马”的 1 分钟视频的可行性，其他人则解决了各种实现挑战，展示了新兴 AI 应用在成长初期的阵痛。

Modular (Mojo 🔥) Discord

代码指令提升 Hermes：在集成代码指令示例后，观察到 Hermes 2.5 在各种基准测试中表现优于 Hermes 2，在 MMLU 基准测试分数等指标上有显著提升。

Mistral 的容量挑战：讨论得出结论，如果没有持续的预训练，Mistral 无法扩展到 8k 以上。重点转向模型合并策略的增强，例如将 UltraChat 和基础 Mistral 之间的差异应用于 Mistral-Yarn。

AI 中的共情：Open Empathic 项目寻求在扩展类别方面的帮助；贡献者可以参考 YouTube 教程进行指导，并鼓励利用 YouTube 上的电影场景来增加共情反应训练的多样性。

Mojo 辨析差异：在 Mojo 中对参数（parameters）和实参（arguments）进行了澄清，后者是运行时值，而语言中的参数保持为编译时常量。正在探索诸如“Type State”之类的复杂模式，与 Python 的性能比较揭示了持续存在的效率问题，特别是在 IO 操作方面。

深入 Mojo SIMD 与多线程实战：在 CPU 受限的场景下，在 Mojo 中实现 SIMD 模式产生了接近 Rust 的性能。然而，仍然存在优化挑战，例如 parallelize 的最佳实践。在其他讨论中，UnsafePointer 的使用和 LegacyPointer 的逐步淘汰表明了该语言内存处理方式的成熟。

OpenAccess AI Collective (axolotl) Discord

BOS Token 漏洞已修复：工程师们研究了 LLaMa 3 在 fine-tuning 过程中未能正确添加 BOS tokens 的问题；通过一个修改 tokenizer.json 的 Pull Request 找到了解决方案。
Phi-3 模型表现超出预期：尽管参数量较小（约 3.8b），Phi-3 模型的表现却能与更大的模型相媲美，显示出极高的效率。它们采用开放的 MIT 许可证，但可能更侧重于推理能力而非广泛的知识储备。
AI 训练的 GPU 需求备受关注：讨论聚焦于 AI 模型训练所需的巨大资源，提到一个特定的配置：512 块 Nvidia H100-80G GPU 运行一周，凸显了此类任务的计算强度。
LLaMa 的扩展能力不容小觑：一位成员展示了 Llama 3，该模型拥有 16K 的 token 长度，其增强的长序列处理能力引发了关注。
AI 开发中的障碍与权宜之计：对话涉及了 Discord 链接共享问题、有问题的 8-bit optimizer 配置，以及耗时 1.5 小时的 model merging 过程；还有关于在 Axolotl 中使用 Unsloth 进行优化训练的指导工作。
数据集精通与 Markdown 之谜：参与者分享了在 YAML 中指定 "type: sharegpt" 如何影响数据集操作，并寻求 Axolotl 提供的不同数据集格式的文档。此外，还表达了对 GitHub 渲染 qmd 文件而非传统 Markdown 的担忧。

OpenRouter (Alex Atallah) Discord

优化进行中：由于高流量导致的 Wizard 8x22b 性能问题正通过优化 load balancer 得到缓解，这将降低延迟。
迈向高效路由：在删除 Databricks: DBRX 132B Instruct (nitro) 后，流量将重新路由到主 Databricks DBRX 132B Instruct model。OpenRouter 宣布推出三个新模型，包括 LLama 3 finetune，并更新了 prompt 格式，解决了侧重于动态路由增强的区域网络故障。
缓解模型故障：用户反映了 WizardLM-2 偶尔出现的性能问题，SillyTavern’s Assistant Prefill 复杂化了与 LLaMA 3 模型的交互。针对 Hugging Face 的 tokenizer 服务停机问题已发布热修复补丁，长期解决方案正在制定中。
AI 模型提供的财务可行性：关于提供 AI 服务的财务状况存在激烈辩论，特别是费率的可负担性以及与图像生成模型相比的成本差异。讨论涵盖了 FP8 quantization、活跃工作者折扣以及 Groq 硬件的经济足迹。
增强合同交互：#app-showcase 频道中的建议包括敦促用户增强合同标准意识、实施法律相关性的本地化，以及加入非法条款检测功能。此外还介绍了 Keywords AI 和 DeepGaze，两者均利用了 OpenRouter。

OpenAI Discord

机器人诡异感 (Robo Creep Factor)：工程师们围绕 Atlas 机器人 的发布展开了辩论，期待其市场能力和底层策略，同时也在讨论其在社交媒体上引发关注的、令人不安的“诡异感”。
AI 神性讨论：关于 AI 灵性的可能性及其影响展开了激烈的讨论，包括对 AI 意识的反思，并受到社区关于世俗话语规则的约束。
API 构建与界面升级：围绕 MyGPT 以及 MetaGPT 和 Devika 等其他工具的对话深入探讨了它们在构建 API 和改进应用开发方面的潜力，并对自动化的 GitHub 交互表现出兴趣。
模型性能表现参差不齐：LLaMa 3 在工程师中引起了褒贬不一的反应，同时对传闻中的 GPT-5 发布日期持怀疑态度。此外，有人呼吁提供高质量的生成式 AI 文献，引用了 OpenAI 发表的论文 以及 Arxiv 等仓库。
Prompt Engineering 细致讨论：工程师们交流了 Prompt 优化的策略，辩论了简短自定义指令的优劣，并讨论了分享技术的伦理层面。对话还涵盖了通过 GPT-4 改进电子邮件以及缺乏全面 Prompt 库的问题。

LAION Discord

多模态模型对过拟合的担忧：现有的 多模态数据集（总计约 200 万对）存在导致 GPT-4v 等模型过拟合的风险，特别是在 LAION-COCO 标题方面，模型显示出一种令人担忧的记忆而非学习的趋势。
图像处理与监控方面的创新与担忧：Adobe Firefly Image 3 的发布因其改进的图像生成和与 Photoshop 的集成而引起关注。与此同时，针对 Discord 上 AI 驱动的监控机器人的担忧，通过引入使用 API 检测此类机器人的 kickthespy.pet 得到了回应。
视觉感知与上采样的新浪潮：针对 GPT-4V 和 Gemini 等 多模态 LLM 的基准测试 Blink 已经发布，通过需要视觉感知能力的任务向模型发起挑战。在图像处理方面，Piecewise-Rectified Flow (PeRFlow) 和 HiDiffusion 都在取得进展；然而，HiDiffusion 在高分辨率图像中的伪影问题仍然是一个关注点（阅读更多关于 Blink 的信息）。
突破多模态极限：围绕多模态模型的讨论仍在继续，一种新的架构 Mixture-of-Attention (MoA) 被引入，承诺在个性化图像生成中增强解耦性（在此论文中描述）。SEED-X 多模态基础模型也因其处理可变尺寸图像的能力而引起轰动，重点在于全面的理解和生成。
代码协作呼吁：在公会中，一项针对 JavaScript/Rust 框架构建 NLP 编码助手的公开协作呼吁引起了关注，尽管 softmax_function 在多个项目中的日程安排很紧，但偶尔也会提供支持。

通过分布式 RAG 实现 DREAM 大计：LlamaIndex 推出了 DREAM，这是一个分布式 RAG 实验框架，同时还发布了多种 RAG 增强功能，如 ColBERT with a Twist 和 LoRA Fine-Tuning。深入探讨关于 CRAG（一种改进 RAG 检索的创新层）以及 LlamaIndex 推文中开源 rerankers 的讨论。

在 OpenAI 之外使用 AI 模型：在 #general 频道中，用户在解决集成 Bug 和 API key 困扰的同时，还在处理 LLM 的不同检索方法。正如众多 LlamaIndex 文档中所详述的，人们关注改进上下文管理的技术，并对使用 OpenAI 以外的替代方案表现出浓厚兴趣。

从 LinkedIn 到 Google Sheets，AI 融资数据引起关注：一位成员在 LinkedIn 上分享了 Infini Attention 的解析，而按城市划分的 AI 融资分布情况可以在 Google Sheets 上查阅。新的 LLM-Ready Markdown 集成令社区感到兴奋，WhyHow.AI 增强的 Knowledge Graph SDK 正在 Medium 上招募 Beta 测试人员。

数据库辩论与微调：#ai-discussion 频道的成员们正在积极辩论最适合 LLM 训练的数据库类型。他们强调了在训练大语言模型时，理解数据库 Schema 和 Vector Store 可能性的重要性。

OpenInterpreter Discord

遭遇兼容性问题：成员们注意到，尽管 Open Interpreter 已有成功实现，但在 Windows 上遇到了挑战，并且在模型支持方面存在混淆，特别澄清了 OI 目前在云端选项中仅支持 OpenAI，不支持 Groq 或 Llama 3 70b 模型。他们还讨论了 Llama 3 70b 与其 8b 版本相比的稳定性问题。

解释器，你说什么？：Open Interpreter 的各种功能和集成挑战被重点提及，例如 Windows 系统上的安装问题和 pytesseract 错误，后者可以通过使用 pip install --upgrade litellm 来缓解。详细的故障排除视频（例如 YouTube 上关于将 OI 与 GROQ API 集成的视频）展示了社区对高性价比解决方案的热切期待。

屏幕视觉，但非预言：在 AI 视觉领域，已明确 Open Interpreter 利用 GPT-4-vision-preview 进行截图识别任务，这表明该工具兼具文本和视觉能力。

援手与配置：社区庆祝 Open Interpreter 达到 100 位 GitHub 贡献者，并展现了强大的协作精神。正如 Pull Request 中所示，目前正在推动共享默认配置文件，以改进与各种模型的交互。

M1 Mac 空格键问题：特别是针对 M1 Mac 用户，在排除按空格键无法按预期工作的录音问题时，提出了多种解决方案，包括安装 ffmpeg、检查麦克风权限或使用 conda 切换 Python 版本。

云端兼容性的可能性：成员们希望看到 OI 与云服务对齐，呼吁实现更广泛的云平台支持兼容性，包括但不限于 brev.dev 和 Scaleway 等平台。

Interconnects (Nathan Lambert) Discord

标题党 vs. 实质内容：社区内关于 AGI 文章标题的争论反映了人们对既能吸引眼球又保持真实性的标题的追求。观点分歧很大，从 AGI 的本体论地位到将其视为一种信仰，这表明人们正在寻求既能引发思考又诚实的对话，正如“AGI Isn’t Real”等标题以及 Mistral CEO Arthur Mensch 在 Business Insider 中的采访所展示的那样。

显微镜下的 Phi-3：由于感知到在 MMLU 等基准测试上存在过拟合，人们对 Phi-3 基准测试的完整性持怀疑态度，并质疑其对 OOD 性能的相关性。批评还延伸到了模型的评估展示和未公开的数据流水线，尽管人们对 Phi-3 预期的 MIT 许可证发布和多语言能力感到兴奋。

基准测试评估：AI 模型评估的效用受到审视，指出在 MMLU、BIGBench 等自动化基准测试工具与 ChatBotArena 等人力密集型评估之间存在权衡。基于 Perplexity（困惑度）的评估（如 AI2 的 Paloma）被证实更多是用于内部训练检查点，而非公开竞赛。

Discord 社区动态：关于社区的轶事包括一位研究员转瞬即逝的推文习惯、尽管免费订阅但成员数量却意外地低，以及在度过充满 NDA 的时期后，渴望与 Ross Taylor 等行业人物交流的坦诚愿望。

指令微调与 CRINGE 的纠缠：指令微调（Instruction tuning）的生态系统得到了详细阐述，引用了一篇入门博客，并对 MT Bench 论文中的分类表示赞赏。此外，CRINGE 论文中利用负样本的新颖训练方法引起了关注，并针对指令微调进行了进一步讨论。

Cohere Discord

项目亮点：宣布了一个开源配对应用程序，集成了 @cohere Command R+、@stanfordnlp DSPy、@weaviate_io Vector store 和 @crewAIInc agents。其 GitHub 链接已分享以获取社区反馈。
AI 增强的求职策略：工程师们讨论认为，在获得面试机会方面，个人项目和简历上的大厂名称往往比实际工作经验更重要。
通过上下文优化 AI：工程师们探讨了如何使用 preambles 和 BOS/EOS tokens 将 AI 的回答限制在特定主题内，以确保输出保持在预期的训练范围内。
网页抓取的难题：关于开发一个利用 gpt-4-turbo 识别（选择器、列）对的通用网页抓取工具展开了辩论，模型与网页元素的交互复杂性被证明极具挑战性。
Cohere 爱好者寻求扩展：工程社区对将具有 URL Grounding (RAG) 功能的 Cohere Command-r 集成到 BotPress 中表现出浓厚兴趣，暗示如果成功实现，用户可能会从 ChatGPT 转向 Cohere。

LangChain AI Discord

LLM Scraper 的网页魔法：GitHub 上新发布的 LLM Scraper 提供了一种将任何网页转换为结构化数据的方法，它利用 LLM 的解析能力，并对后续请求缓存之前的回复。

触手可及的股票分析：AllMind AI 是一款承诺提供快速且经济的财务洞察的 AI 工具，正在角逐 Product Hunt 的榜首。

自动化图谱变得更智能：WhyHow.AI 推出了重大升级，支持模式控制的自动化知识图谱 (schema-controlled automated knowledge graphs)，旨在更有效地结构化用户上传的内容。新功能及其测试计划在 Medium 文章中进行了介绍。

对话式查询构建：一篇博客文章详细介绍了 Self-querying retriever 如何从自然语言输入中创建结构化查询，通过基于元数据的过滤来增强语义相似度搜索。

LLM 的水印警告：社区深入探讨了 AI 生成文本中的水印概念，这是一种植入可识别模式的技术，详见此资源页面：Watermarking LLMs。

tinygrad (George Hotz) Discord

TinyGrad 应对段错误与训练难题：讨论强调了在 ROCm 6.1 发布后设置 tinygrad 时遇到的段错误（segfaults）挑战，而 George Hotz 保证由于强大的 CI，master 分支是稳定的。

AI 硬件被寄予超越云端的厚望：社区辩论了像 TinyBox 这样的去中心化 AI 服务相对于传统云服务的优势，重点关注抗审查性、本地训练可行性以及实时用户数据训练的重要性。

TinyGrad 机制内幕：在 tinygrad 领域，成员们深入讨论了张量堆叠 (stacking tensors)、形状追踪 (shape tracking) 和内存管理，分享了揭示这个极简深度学习库内部结构的教程和文档。

Windows 在 CUDA 支持上如履薄冰：Windows 用户分享了使用 WSL 和 Docker 等工具运行带有 CUDA 的 tinygrad 的经验和变通方法，同时也承认该平台对此配置官方并不支持。

George Hotz 记录 Tinygrad 即将到来的演进：在每周总结中，Hotz 提到了未来讨论的重点领域，强调了 mlperf 的进展、潜在的 NVIDIA CI 策略，以及保持 tinygrad 代码库简洁的目标。

ShapeTracker 教程、Uops 文档和 CUDA Tensor Core 指南作为教育资源被分享，讨论中还引用了 Meta AI。

DiscoResearch Discord

Mixtral 险胜 Llama3：根据分享的数据集结果，Mixtral-8x7B-Instruct-v0.1 在德国 RAG 评估中表现优于 Llama3 70b instruct。然而，成员们指出评估指标可能存在问题，特别是“问题到上下文 (question to context)”指标，并暗示查询模板中可能存在格式错误（bug），这可能会影响结果。

利用执行模型和 Haystack 增强聊天机器人：Armifer91 正在为聊天机器人原型化一个 execute_model 函数，将某些功能分组并并行化 MoE 方法，而一个 GitHub notebook 展示了使用 Haystack LLM 框架动态调用服务。开发者正在探索改进 Llama 的技术，涉及用于微调（fine-tuning）的分词（tokenization），尽管面临对 Hugging Face 平台不稳定性的抱怨。

德语语音识别 Whisper 的动态：成员们正在测试各种用于德语语音识别的 Whisper 模型，如 whisper-tiny-german 和 whisper-base-quant-ct2，并就通过微调或量化以增强在智能手机上的功能达成共识。

模板麻烦与分词纠葛：与 Llama-3 模型中的模板和分词器（tokenizer）配置相关的复杂性在讨论中非常普遍，涉及特殊标记（special tokens）的零权重以及对话语境中的替代 eos_tokens。ChatML 模板是标准配置，但仍存在与分词器相关的挑战。

DiscoLM 的德语精度问题：针对德语应用微调 DiscoLM 引发了关于模型分词问题和潜在改进策略的辩论，其中 Instruct 模型可作为可能的基础。建议参考 LeoLM 的训练方法，并与 occiglot 团队联系，以增强 Llama3 在德语方面的表现。

Latent Space Discord

扩展 LLM 视野：工程师们讨论了使用 rope 来扩展大语言模型（LLM）context window 的前景，表现出极大的热情，并引用了一篇 Perplexity AI 文章以进行深入了解。

FineWeb 引起轰动：拥有 15 万亿 token 的海量网络数据集 FineWeb 的发布引起了关注。根据 Twitter 披露，由于其性能指标优于前代产品 RefinedWeb 和 C4，人们对其寄予厚望。

框架成为焦点：Discord 用户对 Hydra framework 褒贬不一，一些人欣赏其复杂的应用程序配置能力，而另一些人则在思考其独特之处；随着对 Hydra GitHub 仓库的引用，兴趣达到了顶峰。

微软强大的 Phi-3 问世：Phi-3 的发布引发了关注——其运行规模比前代 Phi-2 更大，并被推测将与 llama 3 8B 等知名模型竞争；通过关于 Phi-3 能力的推文分享的见解进一步助长了这些推测。

Perplexity.ai 实现财务飞跃：技术圈关注到 Perplexity.ai 成功完成了一轮融资，据称这将增强其搜索引擎实力——该消息在一条详述 6270 万美元融资的推文中披露。

Mozilla AI Discord

Llamafile 对决中 70b 击败 8b：用户表示，在与 Llamafile 集成时，llama 3 70b 是优于 8b 的首选，理由是后者存在运行问题，并强调 70b Q2 权重的大小为 26GB，处于可控范围。
M1 Pro 量化结果参差不齐：有报告称 llama 模型的 Q2 变体在 M1 Pro 系统上出现了乱码输出；不过，相关人员澄清该模型在 CPU 模式下运行顺畅，尽管速度较慢。
Android 地址空间限制阻碍 Llamafile：关于在 Android 上运行 Llamafile 的讨论因 Android 缺乏 47 bit address space 的限制而受阻，导致目前无法支持。
Redis 创始人赞赏 Llamafile：Redis 的发明者在 Twitter 上对 llama 3 70b 版本的 Llamafile 表示认可，这一赞誉受到了 Llamafile 社区的庆祝。
多模态模型的端口技巧：针对运行多个 Llamafile 实例的咨询，建议使用 --port 标志为并发运行的模型指定不同的端口。

Skunkworks AI Discord

上下文大小的惊喜：来自 4chan 的爆料指出，某款 AI 可能一直是在 32k context size 下运行的，这挑战了之前对其能力的假设。
模型缩放的替代方法：一名成员提到了 Alpin 缩放 AI 模型的非传统方法，强调了 dynamic ntk 和 linear scaling 等策略，这些策略可能在不需要 rope 的情况下保持有效性。
Matt 发布 Llama 的 16k 配置：Hugging Face 上发布了 Matt 的 Llama 模型 16k 配置，包括 “max_position_embeddings”: 16000 等参数，模型类型指定为 “llama”。配置详情可见此处。
医学知识变得易于获取：深入的讨论集中在简化医学知识上；建议范围从为简化而 fine-tuning 一个 LLM，到开发一个将任务分解为专门阶段的 Agent 系统，最终将医学摘要翻译成通俗易懂的语言。
寻找小众语言的 OCR 数据：有人请求支持非热门语言的 OCR 数据集，最好包含文档类型的数据，这表明目前正致力于扩大 AI 的语言覆盖范围和可访问性。

LLM Perf Enthusiasts AI Discord

Meta AI 的 ‘Imagine’ 吸引工程师关注：Meta AI 的 ‘Imagine’ 激发了公会成员的兴奋，有人称其为 insane（疯狂），并要求提供展示其能力的具体示例。
寻找合适的开发工具：成员们正在积极寻找适用于 Large Language Models (LLMs) 的成熟开发工具，这表明他们对优化工作流有着浓厚兴趣。
Azure OpenAI 服务卡顿：用户对 Azure OpenAI 表示不满，报告称存在严重的延迟，请求有时需要超过 20 分钟，且在 15 秒内发出超过两个请求时会遇到速率限制问题。
识别 Azure 延迟来源：一些人怀疑 Azure 的延迟问题可能是由于临时的服务问题，而不是该平台的一贯问题。
分享实时 API 响应跟踪工具：分享了一个实用资源，GPT for Work 的响应时间追踪器，用于监控主要 LLM 的 API response times，这对于寻求性能优化的工程师来说非常有帮助。

Datasette - LLM (@SimonW) Discord

AI 领域新挑战者出现：Llama 3 在 LMSYS arena 排行榜上并列第 5 位，与 Claude 3 Opus 和 GPT-4 变体等顶尖模型并驾齐驱，且可以在高端笔记本电脑上运行。
SimonW 的 Llama 3 工具包：Simon Willison 推出了 LLM，这是一个包含命令行界面和 Python 库的工具集，旨在简化 Llama 3 及其他模型的使用。详细的使用说明可以在他的博客文章此处找到。
AI 检查建筑作业：AI 在建筑领域占据了一席之地，作为一种“预检”工具来发现建筑设计中的潜在问题和规范违规，尽管它尚未进展到创建蓝图的阶段。
蓝图解读仍处于起步阶段：讨论围绕使用 AI 来解读建筑蓝图展开，特别是针对 PDF 格式的管道追踪，但尚未提出具体的解决方案。
Hackernews 摘要需求：有人询问关于生成 Hackernews 摘要的 bash 脚本，但讨论中未提及最新版本的细节。

AI21 Labs (Jamba) Discord

需要垃圾邮件清理者：general-chat 频道遭到大量垃圾信息轰炸，这些信息链接到一个未经授权且包含 NSFW 内容的 Discord 邀请。
Jamba 兼容性查询：一位成员对 Jamba 是否兼容 LM Studio 感到好奇，并寻求其运行要求的细节，类似于 Claude 的内存占用情况。
Jamba 的内存消耗：围绕运行 Jamba 的挑战展开了讨论，特别是其巨大的 RAM 需求，指出即使是 Google Colab 也无法提供必要的资源，而在 Google Cloud 上的尝试也无果而终。
垃圾链接失误：频道中发布了一个承诺提供 NSFW 内容的不当垃圾链接，警惕的成员应忽略并举报。

Alignment Lab AI Discord 没有新消息。如果该公会沉寂时间过长，请告知我们，我们将将其移除。

PART 2: 按频道详细摘要和链接

Unsloth AI (Daniel Han) ▷ #general (1118 条消息🔥🔥🔥):

Unsloth 支持 Phi-3 Mini：Unsloth 宣布支持 Microsoft 的 Phi-3 Mini 4K Instruct 模型，并在 Hugging Face 上上传了 4bit 版本，旨在将其集成到 Unsloth 库中，尽管由于与 Llama 3 的架构差异需要进行一些修改。他们关于 Llama 3 的博客文章已更新了此信息，并正等待支持发布后的 14B 变体。
在 24GB VRAM 上成功进行 Fine-Tuning：一位用户报告了使用 Unsloth 在 1x3090 24GB GPU 上以纯 BF16 质量成功 Fine-Tuning Llama 3 的经历，有效地处理了显存需求，且仅使用了 16GB 的 VRAM。
人体工程学工作站讨论：成员们分享了关于人体工程学工作站设置的经验和建议，重点介绍了键盘、显示器、椅子以及升降桌对营造舒适工作环境的好处。
技术博客文章技巧：根据对之前博客文章的反馈，Unsloth 即将发布的文章将包含更多 benchmarks 以及图片中的描述性文本，以提供更清晰的上下文和信息。
Phi-3 分析与期待：用户对新发布的 Phi-3 模型持续保持期待和讨论，对其进一步的声明和应用感到好奇。一些用户正考虑对这些模型进行 finetuning，并热切期待其与现有库的兼容性。

提到的链接：

Practical Deep Learning for Coders - Practical Deep Learning：一门为有一定编程经验的人设计的免费课程，旨在学习如何将 Deep Learning 和 Machine Learning 应用于实际问题。
Microsoft launches Phi-3, its smallest AI model yet：Microsoft 发布 Phi-3，这是其迄今为止最小的 AI 模型。Phi-3 是今年三款小型 Phi 模型中的第一款。
chargoddard/llama3-42b-v0 · Hugging Face：未找到描述
unsloth/Phi-3-mini-4k-instruct-bnb-4bit · Hugging Face：未找到描述
Watching The Cosmos GIF - Cosmos Carl Sagan - Discover & Share GIFs：点击查看 GIF
microsoft/Phi-3-mini-128k-instruct · Hugging Face：未找到描述
BarraHome/llama-3-orpo-v1 · Hugging Face：未找到描述
Blog：未找到描述
Nvidia bans using translation layers for CUDA software — previously the prohibition was only listed in the online EULA, now included in installed files [Updated]：Nvidia 禁止在 CUDA 软件中使用翻译层 —— 此前该禁令仅列在在线 EULA 中，现在已包含在安装文件中 [已更新]：翻译层成为众矢之的。
Finetune Llama 3 with Unsloth：通过 Unsloth 轻松微调 Meta 的新模型 Llama 3，上下文长度增加 6 倍！
Tweet from Daniel Han (@danielhanchen)：Phi-3 Mini 3.8b Instruct 发布了！！68.8 MMLU 对比 Llama-3 8b Instruct 的 66.0 MMLU（Phi 团队自己的评估）。128K 长上下文模型也已发布在 https://huggingface.co/microsoft/Phi-3-mini-12...
Advantage2 ergonomic keyboard by Kinesis：轮廓设计，机械轴，全键可编程
Direct Preference Optimization (DPO)：获取数据集：https://huggingface.co/datasets/Trelis/hh-rlhf-dpo 获取 DPO 脚本 + 数据集：https://buy.stripe.com/cN2cNyg8t0zp2gobJo 获取完整 Advanc...
Home：微调 Llama 3, Mistral 和 Gemma LLM 速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
Apple Acquires French AI Company Specializing in On-Device Processing：Apple 收购了总部位于巴黎的人工智能初创公司 Datakalab，以推进其提供设备端 AI 工具的计划。Datakalab 专注于...
Kaggle Llama-3 8b Unsloth notebook：使用 Kaggle Notebooks 探索并运行 Machine Learning 代码 | 使用来自“无附加数据源”的数据
Reddit - Dive into anything：未找到描述
GitHub - tinygrad/tinygrad: You like pytorch? You like micrograd? You love tinygrad! ❤️：你喜欢 PyTorch？你喜欢 micrograd？你会爱上 tinygrad！❤️ - GitHub - tinygrad/tinygrad
Kevin The Office GIF - Kevin The Office Smirk - Discover & Share GIFs：点击查看 GIF
Tweet from Aaron Ng (@localghost)：Llama 3 70b 从我的 M1 Max 传输到手机上，使用 MLX 达到约 7.6 tok/s。你家里的专属小型 GPT-4。
Blog：未找到描述
generation_config.json · unsloth/llama-3-8b-Instruct-bnb-4bit at main：未找到描述
Efficiently fine-tune Llama 3 with PyTorch FSDP and Q-Lora：学习如何使用 Hugging Face TRL, Transformers, PEFT 和 Datasets，配合 PyTorch FSDP 和 Q-Lora 高效微调 Llama 3 70b。
Unsloth update: Mistral support + more：我们很高兴发布对 Mistral 7B、CodeLlama 34B 以及所有其他基于 Llama 架构模型的 QLoRA 支持！我们添加了滑动窗口 attention, preliminary Windows and DPO support, and ...
GitHub - zenoverflow/datamaker-chatproxy: Proxy server that automatically stores messages exchanged between any OAI-compatible frontend and backend as a ShareGPT dataset to be used for training/finetuning.: 代理服务器，可自动将任何兼容 OAI 的前端和后端之间交换的消息存储为 ShareGPT 数据集，用于训练/微调。 - zenoverflow/datamaker-chatproxy
unsloth (Unsloth): 未找到描述
GitHub - e-p-armstrong/augmentoolkit: Convert Compute And Books Into Instruct-Tuning Datasets: 将计算资源和书籍转换为 Instruct-Tuning 数据集 - e-p-armstrong/augmentoolkit
GitHub - ml-explore/mlx-swift: Swift API for MLX: 用于 MLX 的 Swift API。通过在 GitHub 上创建账号来为 ml-explore/mlx-swift 的开发做出贡献。
add P2P support · NVIDIA/open-gpu-kernel-modules@1f4613d: 未找到描述
iPad App · ggerganov/llama.cpp · Discussion #844: 我一直在尝试使用 llama 帮我在晚上给女儿讲故事。我写了一个简单的原生 iPad 应用，它使用了 llama.cpp，并提供了一些不错的模型/线程管理功能...
main : add Self-Extend support by ggerganov · Pull Request #4815 · ggerganov/llama.cpp: #4810 的后续，基于此研究为 main 分支添加上下文扩展支持：https://arxiv.org/pdf/2401.01325.pdf。使用约 8k 上下文和基础 LLaMA 7B v... 进行了一些基础的事实提取测试。
Apple (AAPL) Growth Opportunities: Southeast Asia and Africa, Lower-E…: 未找到描述

提及的链接:

Answer.AI - Efficient finetuning of Llama 3 with FSDP QDoRA: 我们发布了 FSDP QDoRA，这是一种可扩展且内存高效的方法，旨在缩小参数高效微调（PEFT）与全量微调之间的差距。
Q*: 点赞 👍。评论 💬。订阅 🟥。🏘 Discord: https://discord.gg/pPAFwndTJdhttps://github.com/hu-po/docs 从 r 到 Q∗：你的语言模型秘密地是一个 Q-Fun...
GitHub - MaartenGr/KeyBERT: Minimal keyword extraction with BERT: 使用 BERT 进行极简关键词提取。通过在 GitHub 上创建账号来为 MaartenGr/KeyBERT 的开发做出贡献。
no title found: 未找到描述
unsloth/llama-3-70b-Instruct-bnb-4bit · Hugging Face: 未找到描述
CUDA MODE: 一个 CUDA 读书小组和社区 https://discord.gg/cudamode 补充内容见此处 https://github.com/cuda-mode 由 Mark Saroufim 和 Andreas Köpf 创建
Discord - A New Way to Chat with Friends & Communities: Discord 是通过语音、视频和文字进行交流的最简单方式。在这里聊天、聚会，并与你的朋友和社区保持紧密联系。

提到的链接：

未找到标题: 未找到描述
config.json · Finnish-NLP/llama-3b-finnish-v2 在 main 分支: 未找到描述
imone (One): 未找到描述
unslo: GitHub 是 unslo 构建软件的地方。
OrpoLlama-3-8B - mlabonne 创建的 Hugging Face Space: 未找到描述
首页: 以 2-5 倍的速度、减少 80% 的内存微调 Llama 3, Mistral 和 Gemma LLM - unslothai/unsloth
Google Colaboratory: 未找到描述
Tomeu Vizoso 的开源 NPU 驱动项目摆脱了 Rockchip RK3588 的二进制 Blob: 感谢 Vizoso 的努力，任何拥有 Rockchip RK3588 并运行机器学习工作负载的人现在都有了二进制 Blob 驱动程序的替代方案。
save_pretrained_gguf 方法 RuntimeError: Unsloth: 量化失败 .... · Issue #356 · unslothai/unsloth: /usr/local/lib/python3.10/dist-packages/unsloth/save.py in save_to_gguf(model_type, model_directory, quantization_method, first_conversion, _run_installer) 955 ) 956 else: --> 957 raise RuntimeErro...
LLM 模型 VRAM 计算器 - NyxKrage 创建的 Hugging Face Space: 未找到描述
全量微调 vs (Q)LoRA: ➡️ 获取完整脚本（及未来改进）的终身访问权限：https://trelis.com/advanced-fine-tuning-scripts/ ➡️ Runpod 一键微调...
Mervin Praison: Mervin Praison
Atom Real Steel GIF - 电影《铁甲钢拳》中的 Atom - 发现并分享 GIF: 点击查看 GIF
《真爱至上》圣诞 GIF - 圣诞电影《真爱至上》 - 发现并分享 GIF: 点击查看 GIF
Google Colaboratory: 未找到描述
Big Code 模型排行榜 - bigcode 创建的 Hugging Face Space: 未找到描述
Reddit - 深入探索一切: 未找到描述
Carson Wcth GIF - Carson WCTH 这种事常有 - 发现并分享 GIF: 点击查看 GIF
GitHub - unslothai/unsloth: 以 2-5 倍的速度、减少 80% 的内存微调 Llama 3, Mistral 和 Gemma LLM: 以 2-5 倍的速度、减少 80% 的内存微调 Llama 3, Mistral 和 Gemma LLM - unslothai/unsloth
Index of /: 未找到描述
GGUF 量化概览: GGUF 量化概览。GitHub Gist：即时分享代码、笔记和代码片段。
GitHub - unslothai/unsloth: 以 2-5 倍的速度、减少 80% 的内存微调 Llama 3, Mistral 和 Gemma LLM: 以 2-5 倍的速度、减少 80% 的内存微调 Llama 3, Mistral 和 Gemma LLM - unslothai/unsloth
yahma/alpaca-cleaned · Hugging Face 数据集: 未找到描述
Brat-and-snorkel/ann-coll.py 在 master 分支 · pidugusundeep/Brat-and-snorkel: 支持文件。通过在 GitHub 上创建账户，为 pidugusundeep/Brat-and-snorkel 的开发做出贡献。
我在原生 Windows 上运行了 unsloth。 · Issue #210 · unslothai/unsloth: 我在原生 Windows（非 WSL）上运行了 unsloth。你需要 Visual Studio 2022 C++ 编译器、Triton 和 DeepSpeed。我有一个完整的安装教程，我本想在这里写下来，但我现在在手机上...
GitHub - met a-llama/llama-recipes: 用于微调 Meta Llama3 的脚本，支持组合式 FSDP 和 PEFT 方法，覆盖单节点/多节点 GPU。支持用于摘要和问答等应用的默认及自定义数据集。支持多种候选推理解决方案，如用于本地或云端部署的 HF TGI、VLLM。展示 Meta Llama3 在 WhatsApp & Messenger 应用的 Demo。: 用于微调 Meta Llama3 的脚本，支持组合式 FSDP & PEFT 方法，覆盖单节点/多节点 GPU。支持用于摘要和问答等应用的默认及自定义数据集...
imone/Llama-3-8B-fixed-special-embedding · Hugging Face: 未找到描述
Trainer: 未找到描述
GitHub - sgl-project/sglang: SGLang 是一种专为大语言模型 (LLMs) 设计的结构化生成语言。它使您与模型的交互更快速、更具可控性。: SGLang 是一种专为大语言模型 (LLMs) 设计的结构化生成语言。它使您与模型的交互更快速、更具可控性。 - sgl-project/sglang
GitHub - hiyouga/LLaMA-Factory: 统一 100 多个 LLMs 的高效微调: 统一 100 多个 LLMs 的高效微调。通过在 GitHub 上创建账号为 hiyouga/LLaMA-Factory 的开发做出贡献。
Hugging Face 状态 : 未找到描述

提及的链接:

mahiatlinux/MasherAI-7B-v6.1 · Hugging Face: 未找到描述
SoloBSD/solobsd-llama3 · Hugging Face: 未找到描述
hikikomoriHaven/llama3-8b-hikikomori-v0.1 · Hugging Face: 未找到描述
Remek/Llama-3-8B-Omnibus-1-PL-v01-INSTRUCT · Hugging Face: 未找到描述
BarraHome/llama-3-orpo-v1-merged_16bit · Hugging Face: 未找到描述
Hi (Ho): 未找到描述
neph1/llama-3-instruct-bellman-8b-swe-preview · Hugging Face: 未找到描述
ghost-x/ghost-7b-alpha · Hugging Face: 未找到描述
Ghost 7B Alpha: 这一代大型语言模型专注于优化卓越的推理能力、多任务知识和工具支持。
Playground with Ghost 7B Alpha: 为了让每个人都能通过 Google Colab 和 Kaggle 等平台快速体验 Ghost 7B Alpha 模型，我们提供了这些 Notebook，以便您可以立即开始。
Support Llama 3 conversion by pcuenca · Pull Request #6745 · ggerganov/llama.cpp: 分词器（Tokenizer）是 BPE。

提到的链接：

How To Run Remote Jupyter Notebooks with SSH on Windows 10: 能够在远程系统上运行 Jupyter Notebooks 极大地增加了工作流的通用性。在这篇文章中，我将展示一种利用一些巧妙功能来实现这一目标的简单方法...
microsoft/Phi-3-mini-128k-instruct · Hugging Face: 未找到描述
Lecture 14: Practitioners Guide to Triton: https://github.com/cuda-mode/lectures/tree/main/lecture%2014

提到的链接:

rabbit r1 - pickup party nyc live at 8PM ET: 来自纽约 r1 提货派对活动的直播
Use Your Self-Hosted LLM Anywhere with Ollama Web UI: 未找到描述
Bloomberg - Are you a robot?: 未找到描述
🏡 Home | Open WebUI: Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI，旨在完全离线运行。它支持多种 LLM 运行器，包括 Ollama 和 OpenAI 兼容的 API。
Bloomberg - Are you a robot?: 未找到描述
Apply to Y Combinator | Y Combinator: 要申请 Y Combinator 计划，请提交申请表。我们每年分两批接收公司。该计划包括每周二的晚餐、与 YC 合伙人的办公时间以及访问权限...
Yann LeCun - Wikipedia: 未找到描述
Superstore Amy Sosa GIF - Superstore Amy Sosa Im Just Guessing - Discover & Share GIFs: 点击查看 GIF
Money Mr GIF - Money Mr Krabs - Discover & Share GIFs: 点击查看 GIF
Andrej Karpathy: 常见问题 Q：我该如何付钱给你？你有 Patreon 之类的吗？A：作为 YouTube 合作伙伴，我会分享视频中少量的广告收入，但我没有维护任何其他额外的付费渠道。我...
Think About It Use Your Brain GIF - Think About It Use Your Brain Use The Brain - Discover & Share GIFs: 点击查看 GIF
Morphic: 一个完全开源、由 AI 驱动且具有生成式 UI 的回答引擎。
Yt Youtube GIF - Yt Youtube Logo - Discover & Share GIFs: 点击查看 GIF
Heidi Klum Number Two GIF - Heidi Klum Number Two 2Fingers - Discover & Share GIFs: 点击查看 GIF
Tweet from Aravind Srinivas (@AravSrinivas): 许多 Perplexity 用户告诉我们，由于数据和安全问题，他们的公司不允许他们在工作中使用它，但他们真的很想用。为了解决这个问题，我们很高兴推出...
Tweet from Aravind Srinivas (@AravSrinivas): 4/23
Morphic: 一个完全开源、由 AI 驱动且具有生成式 UI 的回答引擎。
GroqCloud: 体验世界上最快的推理速度
ChatGPT vs Notion AI: An In-Depth Comparison For Your AI Writing Needs: 两个 AI 工具 ChatGPT 和 Notion AI 的全面对比，包括功能、定价和使用场景。
Tweet from Aravind Srinivas (@AravSrinivas): 8b 太棒了。可以用它创造更多体验。我们有一些想法。敬请期待！ ↘️ 引用 MachDiamonds (@andromeda74356) @AravSrinivas 你会将免费版 Perplexity 切换到...
GitHub - mckaywrigley/clarity-ai: A simple Perplexity AI clone.: 一个简单的 Perplexity AI 克隆版。通过在 GitHub 上创建账号来为 mckaywrigley/clarity-ai 的开发做出贡献。
Lo último de OpenAI llega a Copilot. El asistente de programación evoluciona con un nuevo modelo de IA: 在过去的一年里，人工智能不仅支持了 DALL·E 等图像生成器和 ChatGPT 等聊天机器人，还...
GitHub - developersdigest/llm-answer-engine: Build a Perplexity-In: 构建一个 Perplexity 风格的回答引擎。

使用 Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper 构建一个受 Perplexity 启发的回答引擎: Build a Perplexity-Inspired Answer Engine Using Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper - developersdigest/llm-answer-engine
Eric Gundersen 谈论 Mapbox 如何使用 AWS 每天绘制数百万英里的地图: 在此处了解更多关于 AWS 如何助力您的海量数据解决方案 - http://amzn.to/2grdTah。Mapbox 每天收集 1 亿英里的遥测数据...
机器人抑郁 GIF - 机器人抑郁 Marvin - 发现并分享 GIF: 点击查看 GIF
AWS re:Invent 2023 - 客户主题演讲 Perplexity | AWS Events: 听取 Perplexity 联合创始人兼 CEO Aravind Srinivas 讲述这家对话式人工智能 (AI) 公司如何通过提供...来重新定义搜索。
Rick Astley - Never Gonna Give You Up (官方音乐视频): Rick Astley 的 “Never Gonna Give You Up” 官方视频。新专辑 'Are We There Yet?' 现已发行：在此下载：https://RickAstley.lnk.to/AreWe...
AWS re:Invent 2023 - 客户主题演讲 Anthropic: 在这场 AWS re:Invent 2023 炉边对话中，Anthropic 的 CEO 兼联合创始人 Dario Amodei 与 Amazon Web Services (AWS) 的 CEO Adam Selipsky 讨论了 Anthr...
未找到标题: 未找到描述
GitHub - xx025/carrot: Free ChatGPT Site List 这儿为你准备了众多免费好用的ChatGPT镜像站点: Free ChatGPT Site List 这儿为你准备了众多免费好用的ChatGPT镜像站点。通过在 GitHub 上创建账号来为 xx025/carrot 的开发做出贡献。

提及的链接:

CNBC 独家：CNBC 转录稿：Perplexity 创始人兼 CEO Aravind Srinivas 今日在 “Squawk Box” 节目中接受 CNBC 的 Andrew Ross Sorkin 采访: 未找到描述
独家：消息人士称，Perplexity 正为其 AI 搜索平台以 25 亿至 30 亿美元的估值融资 2.5 亿美元以上: Perplexity，这家 AI 搜索引擎初创公司，目前是炙手可热的资产。TechCrunch 获悉，该公司目前正在筹集至少 2.5 亿
Perplexity CTO Denis Yarats 谈 AI 驱动的搜索: Perplexity 是一款回答用户问题的 AI 驱动搜索引擎。成立于 2022 年，估值超过 10 亿美元，Perplexity 最近突破了 1000 万月活跃用户...

提到的链接：

来自 Christian Laforte (@chrlaf) 的推文：@rajdhakad_ @USEnglish215753 @StabilityAI @EMostaque 我们的计划是很快先发布 API，以收集更多人类偏好数据，并验证我们的安全改进不会导致质量...
加密钱包 | 支持 Bitcoin (BTC)、Bitcoin Cash (BCH)、Ethereum (ETH) 和 ERC-20 代币：下载 Bitcoin.com 的多币种加密钱包。一种简单且安全的方式来购买、出售、交易和使用加密货币。支持 Bitcoin (BTC)、Bitcoin Cash (BCH)、Ethereum (ETH) 和 ERC-20 代币...
glif - fab1an 开发的 StableDiffusion 3：未找到描述
ComfyUI：一种在本地电脑上使用 Stable Diffusion 模型创作 AI 艺术的更好方法。
支持 CUDA 的 GeForce 1650？：如果您在 GROMACS 文档中找不到答案，我建议在官方 GROMACS 邮件列表中询问有关 GROMACS 配置的问题：[url]http://www.gromacs.org/Support/Mailing...
未找到标题：未找到描述
未找到标题：未找到描述
pagartomas880 发布的图片：未找到描述
CUDA Toolkit 12.1 下载：获取 NVIDIA 专有计算栈的最新功能更新。
揭露在 Discord 中跟踪你的网站！：有一个名为 spy.pet 的网站，声称保存了 Discord 上的 40 亿条消息。通过它，你可以“查看你的朋友在 Discord 上做什么...
GitHub - Stability-AI/stablediffusion: 使用 Latent Diffusion Models 进行高分辨率图像合成：使用 Latent Diffusion Models 进行高分辨率图像合成 - Stability-AI/stablediffusion
GitHub - comfyanonymous/ComfyUI: 最强大且模块化的 Stable Diffusion GUI、API 和后端，具有图形/节点界面。：最强大且模块化的 Stable Diffusion GUI、API 和后端，具有图形/节点界面。 - comfyanonymous/ComfyUI
《摩登保姆》(Weird Science) 官方预告片 #1 - 小罗伯特·唐尼电影 (1985) HD：订阅预告片：http://bit.ly/sxaw6h 订阅即将上映：http://bit.ly/H2vZUn 订阅经典预告片：http://bit.ly/1u43jDe 在 FACEB 上关注我们...
GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI：Stable Diffusion web UI。通过在 GitHub 上创建账户来为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
角色表 (character sheet) - 角色表 | Stable Diffusion LoRA | Civitai：未找到描述
Reddit - 深入探索一切：未找到描述
GitHub - ltdrdata/ComfyUI-Manager：通过在 GitHub 上创建账户来为 ltdrdata/ComfyUI-Manager 的开发做出贡献。
社交媒体标题标签：社交媒体描述标签
GitHub - megvii-research/HiDiffusion：通过在 GitHub 上创建账户来为 megvii-research/HiDiffusion 的开发做出贡献。

提到的链接：

Verah/latent-CIFAR100 · Hugging Face 数据集：未找到描述
Do Llamas Work in English? On the Latent Language of Multilingual Transformers：我们探讨了在不平衡、以英语为主的语料库上训练的多语言模型是否使用英语作为内部中转语言——这是一个对于理解语言模型如何运作至关重要的问题...
Hellinheavns GIF - Hellinheavns - 发现并分享 GIF：点击查看 GIF
The Linear Representation Hypothesis and the Geometry of Large Language Models：非正式地说，“线性表示假设”是指高层概念在某些表示空间中被线性地表示为方向。在本文中，我们探讨了两个密切相关的...
Beastie Boys - Root Down：高清重制！在这里阅读 Ill Communication 背后的故事：https://www.udiscovermusic.com/stories/ill-communication-beastie-boys-album/ 聆听更多...
deadmau5 & Kaskade - I Remember (HQ)：▶︎ https://deadmau5.ffm.to/randomalbumtitle 在这里关注 deadmau5 及其好友：https://sptfy.com/PjDO 当前巡演信息：https://deadmau5.com/shows 加入 ...

提到的链接：

Reddit - 探索一切：未找到描述
来自 vik (@vikhyatk) 的推文：奇怪的 Loss 曲线，如果不弄清楚早期那些下降的原因，今晚就睡不着了
GitHub - google-deepmind/penzai：一个用于构建、编辑和可视化神经网络的 JAX 研究工具包。：一个用于构建、编辑和可视化神经网络的 JAX 研究工具包。 - google-deepmind/penzai
GitHub - EveryOneIsGross/GPTs：我的 GPT 实验和工具的加载区。：我的 GPT 实验和工具的加载区。通过创建 GitHub 账号为 EveryOneIsGross/GPTs 的开发做出贡献。

提到的链接：

来自 Susan Zhang (@suchenzang) 的推文：它似乎喜欢通过自我对话偏离正确的解决方案……
EvalPlus Leaderboard：未找到描述
来自 Nathan Lambert (@natolambert) 的推文：我真心希望 Phi-3 能证明我们在评估作弊（evaluation doping）方面的担忧是错的，它实际上是一个出色的模型。但是，在对数计算量（log compute）与 MMLU 的图表中作为一个离群值，确实有点可疑。
来自 Awni Hannun (@awnihannun) 的推文：进阶操作：在 iPhone 15 Pro 上对 4-bit Llama 3 8B 进行 QLoRA 微调。由 David Koski 提供的 (Q)LoRA MLX Swift 示例即将发布：https://github.com/ml-explore/mlx-swift-examples/pull/46 适用于许多模……
训练与微调 Sentence Transformers 模型：未找到描述
RAG 模型的忠实度如何？量化 RAG 与 LLM 内部先验之间的拉锯战：检索增强生成（RAG）常用于修复幻觉并为大语言模型（LLM）提供最新知识。然而，当 LLM 独立回答错误时……
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face：未找到描述
NousResearch/Genstruct-7B · Hugging Face：未找到描述
来自 Binyuan Hui (@huybery) 的推文：刚刚评估了 Llama3-8B-base 的编程能力👇🏻
abacaj/phi-2-super · Hugging Face：未找到描述
Rage GIF - Rage - 发现并分享 GIF：点击查看 GIF
来自 Guilherme Penedo (@gui_penedo) 的推文：我们刚刚发布了 🍷 FineWeb：15 万亿 token 的高质量网页数据。我们过滤并去重了 2013 年至 2024 年间所有的 CommonCrawl 数据。在 FineWeb 上训练的模型优于 RefinedWeb、C4……
论文页面 - 低比特量化的 LLaMA3 模型表现如何？一项实证研究：未找到描述
来自 Sebastien Bubeck (@SebastienBubeck) 的推文：Phi-3 发布了，而且它……很棒 :-)。我制作了一个简短的演示，让你感受 Phi-3-mini (3.8B) 的能力。请关注明早的权重开源发布及更多公告……
microsoft/Phi-3-mini-4k-instruct · Hugging Face：未找到描述
OpenRouter：LLM 及其他 AI 模型的路由服务
GitHub - Mozilla-Ocho/llamafile：通过单个文件分发和运行 LLM。：通过单个文件分发和运行 LLM。通过在 GitHub 上创建账号来为 Mozilla-Ocho/llamafile 的开发做出贡献。
tokenizer_config.json · microsoft/Phi-3-mini-128k-instruct (main 分支)：未找到描述
GitHub - stanfordnlp/pyreft：ReFT：语言模型的表示微调（Representation Finetuning）：ReFT：语言模型的表示微调 - stanfordnlp/pyreft
Beastie Boys - Sabotage：高清重制版！在此阅读 Ill Communication 背后的故事：https://www.udiscovermusic.com/stories/ill-communication-beastie-boys-album/ 聆听更多来自……
Replete-AI/OpenCodeInterpreterData · Hugging Face 数据集：未找到描述
Replete-AI/Rombo-Hermes-2.5-Extra-code · Hugging Face 数据集：未找到描述
HuggingFaceFW/fineweb · Hugging Face 数据集：未找到描述
Replete-AI/Rombo-Hermes-2.5-Extra-code-sub-50k · Hugging Face 数据集：未找到描述
Replete-AI/Rombo-Hermes-2.5-Extra-code-Medium · Hugging Face 数据集: 未找到描述
Streamlit: 未找到描述

提到的链接:

chargoddard/mistral-11b-slimorca · Hugging Face: 未找到描述
Continual Learning for Large Language Models: A Survey: 大语言模型（LLM）由于其庞大规模带来的高昂训练成本，不便于频繁重新训练。然而，为了赋予 LLM 新技能并保持更新，更新是必要的...
LLM In-Context Recall is Prompt Dependent: 大语言模型（LLM）的激增凸显了进行彻底评估以辨别其比较优势、局限性和最佳用例的关键重要性。特别是...
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models: 大语言模型（LLM）在极少或没有直接监督的情况下展示了令人印象深刻的结果。此外，越来越多的证据表明 LLM 在信息检索场景中可能具有潜力...

提到的链接:

Grok-1.5 Vision Preview: 未找到描述
xai-org/RealworldQA · Hugging Face 数据集: 未找到描述

提到的链接：

Stella Biderman (@BlancheMinerva) 的推文：为 RAG 模型创建一个基准测试，其中所有问题都需要综合多个文档的信息来回答。研究在公开数据上训练的模型在该基准上的表现，并且...
大语言模型检索增强文本生成综述：检索增强生成 (RAG) 将检索方法与深度学习进展相结合，通过动态整合外部信息，解决大语言模型 (LLM) 的静态局限性...
Superposition Prompting：改进并加速检索增强生成：尽管大语言模型 (LLM) 取得了成功，但它们在处理长上下文时存在显著缺陷。其推理成本随序列长度呈二次方增长...
长上下文窗口技巧：未找到描述
使用 LlamaIndex 评估 RAG | OpenAI Cookbook：未找到描述
LLM 增强检索：通过语言模型和文档级嵌入增强检索模型：最近，与传统的稀疏或基于词袋的方法相比，基于嵌入的检索或稠密检索显示出了最先进的结果。本文介绍了一种与模型无关的文档...
RAG 技术：利用 Function calling 实现更结构化的检索：未找到描述
RAG 技术：使用 LLM 清理用户问题：未找到描述
azure-search-openai-demo/app/backend/approaches at main · Azure-Samples/azure-search-openai-demo：一个在 Azure 中运行的检索增强生成模式示例应用，使用 Azure AI Search 进行检索，并使用 Azure OpenAI 大语言模型来驱动 ChatGPT 风格和问答体验...
检索增强生成 (RAG) - Cohere 文档：未找到描述
评估 RAG 聊天应用：你的应用能说“我不知道”吗？：未找到描述
GitHub - HK3-Lab-Team/PredCST：从文本中学习具体语法树 (Concrete Syntax Tree) 的预测模型。：从文本中学习具体语法树的预测模型。 - HK3-Lab-Team/PredCST
并非所有上下文都平等：教导 LLM 进行具备可信度意识的生成：大语言模型的快速发展导致了检索增强生成 (RAG) 的广泛采用，它通过整合外部知识来缓解知识瓶颈并减少...
RAR-b：推理即检索基准测试 (Reasoning as Retrieval Benchmark)：语义文本相似度 (STS) 和信息检索任务 (IR) 是过去几年记录嵌入模型进展的两个主要途径。在兴起的检索...
一种针对长上下文 LLM 定制的源代码查询 RAG 方法：虽然大语言模型 (LLM) 的上下文长度限制已得到缓解，但仍阻碍了它们在软件开发任务中的应用。本研究提出了一种结合...的方法。

提到的链接：

world_sim：未找到描述
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
GroqCloud：体验世界上最快的推理
Super World Sim - HuggingChat：在 HuggingChat 中使用 Super World Sim 助手
Snow World Simulator - HuggingChat：在 HuggingChat 中使用 Snow World Simulator 助手
Snow Singer Simulator - HuggingChat：在 HuggingChat 中使用 Snow Singer Simulator 助手
未找到标题：未找到描述
现已在您喜爱的数字商店上架！：Nicholas Alexander Benson 所著《The Architects' Conundrum: Quantumom vs. Data Dad》
Image Generator - HuggingChat：在 HuggingChat 中使用 Image Generator 助手
Super World Sim - HuggingChat：在 HuggingChat 中使用 Super World Sim 助手
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
HuggingChat：让社区最好的 AI 聊天模型惠及每一个人。
Suzanne Treister - Amiga Videogame Stills - 菜单：未找到描述
eternal mode • infinite backrooms：人工智能的疯狂梦境——胆小者或意志薄弱者慎入

提及的链接：

来自 LM Studio (@LMStudioAI) 的推文：LM Studio 内的模型搜索/下载可能会受到此次 Hugging Face 停机的影响。请关注后续更新 ↘️ 引用 Hugging Face Status (@hf_status) 我们正在经历 Hugging Face 的停机...
👾 LM Studio - 发现并运行本地 LLMs：查找、下载并实验本地 LLMs
LMStudio | AnythingLLM by Mintplex Labs：未找到描述
本地 LLM 服务器 | LM Studio：你可以通过在 localhost 上运行的 API 服务器，使用在 LM Studio 中加载的 LLMs。
LM Studio Beta 版本：未找到描述
IBM Technology：无论是 AI、自动化、网络安全、数据科学、DevOps、量子计算还是介于两者之间的任何领域，我们都提供关于科技领域重大话题的教育内容。订阅以提升你的技能...
OpenAI 兼容性 · Ollama 博客：Ollama 现在初步兼容 OpenAI Chat Completions API，使得通过 Ollama 在本地模型上使用为 OpenAI 构建的现有工具成为可能。
Reddit - 深入探索：未找到描述
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF at main：未找到描述
Reddit - 深入探索：未找到描述
Big Code Models 排行榜 - bigcode 提供的 Hugging Face Space：未找到描述
Qwen/CodeQwen1.5-7B-Chat-GGUF · Hugging Face：未找到描述
Vision Models (GGUF) - lmstudio-ai 集合：未找到描述
Reddit - 深入探索：未找到描述
[1小时演讲] 大语言模型入门：这是一个面向普通观众的 1 小时大语言模型介绍：它是 ChatGPT、Claude 和 Bard 等系统背后的核心技术组件。什么是...
lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF at main：未找到描述
Reddit - 深入探索：未找到描述
GitHub - Crizomb/ai_pdf: 在本地与任何 PDF 对话。提出问题，获取带有有用参考的答案。在数学 PDF 上表现良好（将其转换为 LaTex，一种计算机可理解的数学语法）：在本地与任何 PDF 对话。提出问题，获取带有有用参考的答案。在数学 PDF 上表现良好（将其转换为 LaTex，一种计算机可理解的数学语法） - Crizomb/ai_pdf
GitHub - BBC-Esq/VectorDB-Plugin-for-LM-Studio: 创建一个 ChromaDB 向量数据库以配合在服务器模式下运行的 LM Studio 的插件！：创建一个 ChromaDB 向量数据库以配合在服务器模式下运行的 LM Studio 的插件！ - BBC-Esq/VectorDB-Plugin-for-LM-Studio
GitHub - mlabonne/llm-course: 进入大语言模型 (LLMs) 领域的课程，包含路线图和 Colab 笔记本。：进入大语言模型 (LLMs) 领域的课程，包含路线图和 Colab 笔记本。 - mlabonne/llm-course
Reddit - 深入探索：未找到描述
Hugging Face 状态：未找到描述

提到的链接：

未找到标题：未找到描述
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face：未找到描述
Notion – 笔记、任务、维基和数据库的一体化工作空间。：一款将日常工作应用融合在一起的新工具。为您和您的团队打造的一体化工作空间。
Yoda Star GIF - Yoda Star Wars - 发现并分享 GIF：点击查看 GIF
PyPy 的沙箱功能 — PyPy 文档：未找到描述
microsoft/Phi-3-mini-4k-instruct-gguf · Hugging Face：未找到描述
microsoft/Phi-3-mini-128k-instruct · Hugging Face：未找到描述
Models - Hugging Face：未找到描述
configs/llama3.preset.json at main · lmstudio-ai/configs：LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs
Hrishi (@hrishioa) 的推文：有人在微调 llama3-42b 的 instruct 版本吗？如果它能作为一个优秀/智能/客户端侧的 GPT-4 替代品，那将非常有趣 https://www.reddit.com/r/LocalLLaMA/comments/1c9u2jd/...
chargoddard/llama3-42b-v0 · Hugging Face：未找到描述
GitHub - OpenInterpreter/open-interpreter: 计算机的自然语言界面：计算机的自然语言界面。通过在 GitHub 上创建账号为 OpenInterpreter/open-interpreter 的开发做出贡献。
GitHub - ggerganov/llama.cpp: C/C++ 实现的 LLM 推理：C/C++ 实现的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。
GitHub - abetlen/llama-cpp-python: llama.cpp 的 Python 绑定：llama.cpp 的 Python 绑定。通过在 GitHub 上创建账号为 abetlen/llama-cpp-python 的开发做出贡献。

来自 LM Studio (@LMStudioAI) 的推文

bartowski/Llama-3-Smaug-8B-GGUF · Hugging Face

提到的链接：

Reddit - Dive into anything：未找到描述
Reddit - Dive into anything：未找到描述

提到的链接:

NousResearch/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
如何在 Windows 11 上禁用集成显卡: 当游戏和其他图形密集型应用程序开始卡顿时，这就是你要做的！
如何将你的 AMD GPU 变成本地 LLM 怪兽：ROCm 初学者指南 | TechteamGB: 未找到描述
如何将你的 AMD GPU 变成本地 LLM 怪兽：ROCm 初学者指南: 亚马逊上的 RX 7600 XT (联盟链接): https://locally.link/kEJGLM Studio: https://lmstudio.ai/rocm 由 Gigabyte 提供的产品。我们这些使用 NVIDIA GPU 的人，部分...

提及的链接：

如何在本地设置 Nsight Compute 以分析远程 GPU：暂无描述
Effort 引擎：一种可能用于 LLM 推理的新算法。可以平滑地——且实时地——调整推理过程中想要进行的计算量。
关于 X11 Forwarding 你需要了解的内容：在这篇博文中，我们将深入探讨 X11 Forwarding，解释什么是 X11 以及它的底层工作原理。
3. Nsight Compute — NsightCompute 12.4 文档：暂无描述
详解 Nvidia 的 NVLink 互连和 NVSwitch：详解 Nvidia 的 NVLink 互连和拥有 20 亿晶体管、为 Nvidia 最新的 DGX-2 深度学习机提供动力的 NVSwitch。

提及的链接：

triton-samples/binary_search.py at main · Jokeren/triton-samples: 通过在 GitHub 上创建账户来为 Jokeren/triton-samples 的开发做出贡献。
Index in triton · Issue #974 · openai/triton: 我们想在 Triton kernel 中进行一些索引操作，假设我们有 x_ptr, idx_ptr, out_ptr，x = tl.load(x_ptr + offsets, mask = mask)，idx = tl.load(idx_ptr + offsets, mask = mask)，我们有：1. idx = idx.t...
triton.language.make_block_ptr — Triton documentation: 未找到描述
triton/python/tutorials/06-fused-attention.py at main · openai/triton: Triton 语言和编译器的开发仓库 - openai/triton
low-bit-optimizers/lpmm/cpp_extension/fused_adamw_kernel.cu at main · thu-ml/low-bit-optimizers: PyTorch 的低比特优化器。通过在 GitHub 上创建账户来为 thu-ml/low-bit-optimizers 的开发做出贡献。
Weird triton kernel behavior for gray scale. (Meant to be copy pasted in a colab with a T4 gpu): 灰度图下奇怪的 Triton kernel 行为。（旨在复制粘贴到带有 T4 GPU 的 Colab 中）- weird_triton_repro.py
lectures/lecture 14/A_Practitioners_Guide_to_Triton.ipynb at main · cuda-mode/lectures: CUDA-MODE 讲座材料。通过在 GitHub 上创建账户来为 cuda-mode/lectures 的开发做出贡献。

Discord - A New Way to Chat with Friends & Communities

equinox/equinox/internal/_loop/common.py at main · patrick-kidger/equinox

GitHub - cuda-mode/axolotl at ring_attention_patching

提到的链接：

hqq/hqq/kernels/triton/dequant.py at triton · mobiusml/hqq：Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
hqq/hqq/core/quantize.py at master · mobiusml/hqq：Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
Fused HQQ Quantization Gemm by jeromeku · Pull Request #153 · pytorch-labs/ao：@msaroufim 融合的 int4 / fp16 量化 Matmul 融合 kernel，结合了非对称反量化和 gemm：反量化：将 u4 / s4 权重上采样至 float16 / bfloat16，随后进行逐组缩放...
Fused HQQ Quantization Gemm by jeromeku · Pull Request #153 · pytorch-labs/ao：@msaroufim 融合的 int4 / fp16 量化 Matmul 融合 kernel，结合了非对称反量化和 gemm：反量化：将 u4 / s4 权重上采样至 float16 / bfloat16，随后进行逐组缩放...

提到的链接：

zhizhinpeter - Twitch: 为 llm.c 编写 Multi-GPU 代码
8-bit Optimizers via Block-wise Quantization: 有状态优化器会随时间维护梯度统计信息，例如过去梯度值的指数平滑和（带动量的 SGD）或平方和（Adam）。这种状态可用于加速...
YouTube: 未找到描述
Examples — NCCL 2.21.5 documentation: 未找到描述
Examples — NCCL 2.21.5 documentation: 未找到描述
llm.c/dev/cuda/encoder_backward.cu at master · karpathy/llm.c: 使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
flash_attn_jax/csrc/flash_attn/src at main · nshepperd/flash_attn_jax: Flash Attention v2 的 JAX 绑定。通过在 GitHub 上创建账号来为 nshepperd/flash_attn_jax 的开发做出贡献。
GitHub - KernelTuner/kernel_float: CUDA header-only library for working with vector types (half2, float4, double2) and reduced precision math (half, e5m2) inside kernel code: 用于在 kernel 代码中处理向量类型（half2, float4, double2）和降低精度数学运算（half, e5m2）的 CUDA 仅头文件库 - KernelTuner/kernel_float
clang: lib/Headers/__clang_cuda_intrinsics.h Source File: 未找到描述
Support for FP16/BF16 in train_gpt2.cu (1.86x Perf) by ademeure · Pull Request #218 · karpathy/llm.c: 现在已完成，效果相当满意！在我的 RTX 4090 上实现了 1.86 倍的性能：FP32: ~80ms BF16: ~43ms（layernorm 参数使用 FP32，但所有 activations 使用 BF16）。这使得同样的 train_gpt2.c...
How to go from 0 to speeding up LLM.c - CUDA Kernel Profiling setup: 实例设置完成后运行的命令：git clone https://github.com/karpathy/llm.c.git export PATH=/usr/local/cuda/bin:$PATH source ~/.bashrc sudo apt...
Added shared memory for the atomic additions for the layernorm_back by ChrisDryden · Pull Request #210 · karpathy/llm.c: 此 CR 旨在解决 profiler 中发现的问题，即该 kernel 最后循环中的原子操作导致了大量的 warp stalls。通过在 shared memory 上执行原子操作...
bug: something goes wrong at larger batch sizes · Issue #212 · karpathy/llm.c: 今天遇到了一个难以追踪的 bug，我打算今晚先放弃，明天再试。复现方法：./train_gpt2cu -b 12 以 batch size 12 启动任务。在我的...
flash-attention/csrc/flash_attn/src/flash_fwd_kernel.h at main · Dao-AILab/flash-attention: 快速且内存高效的精确 Attention。通过在 GitHub 上创建账号来为 Dao-AILab/flash-attention 的开发做出贡献。
Faster `matmul_backward_bias` using coalesced reads and shared memory in the kernel by al0vya · Pull Request #221 · karpathy/llm.c: 该 kernel 在 RTX 2070 Super GPU 上相比 matmul_backward_bias_kernel2 似乎提供了接近 4 倍的运行时间改进，运行时间对比见下文：matmul_backward_bias_kernel2: block_size 32 time 0.9...
cuDNN Forward Attention + FP16 non-cuDNN version in /dev/cuda/ by ademeure · Pull Request #215 · karpathy/llm.c: 之前的 Kernel 4: 1.74ms Kernel 4 使用 TF32: 1.70ms Kernel 5 (带 BF16 I/O 的 4): 0.91ms Kernel 6 (不带 permute 的 5，不现实): 0.76ms Kernel 10 (cuDNN BF16，带 FP32 转换): 0.33ms...
speed up the backward bias kernel by 45% and speed up the full runnin… · karpathy/llm.c@8488669: …将 backward bias kernel 加速 45%，并将整体运行时间缩短 1%

Flash Attention 2.0 with Tri Dao (author)! | Discord server talks

Links mentioned:

Gemini Nano now running on Pixel 8 Pro — the first smartphone with AI built in: Gemini Nano 现已在 Pixel 8 Pro 上运行 —— 首款内置 AI 的智能手机。Gemini 来了，这是我们迄今为止构建的最强大、最灵活的 AI 模型。此外，Pixel 系列还将迎来更多 AI 更新。
Private AI - Apps on Google Play: 未找到描述
Android App — mlc-llm 0.1.0 documentation: 未找到描述
Samsung Exynos 2400: specs and benchmarks: Samsung Exynos 2400：基准测试性能（AnTuTu 10, GeekBench 6）。电池续航和完整规格。
‎MLC Chat: MLC Chat 让用户可以在 iPad 和 iPhone 上本地与开源语言模型聊天。模型下载到应用后，一切都在本地运行，无需服务器支持，且无需互联网即可工作...
no title found: 未找到描述
GitHub - mlc-ai/mlc-llm: Enable everyone to develop, optimize and deploy AI models natively on everyone's devices.: 让每个人都能在各自的设备上原生开发、优化和部署 AI 模型。- mlc-ai/mlc-llm
Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration based on Approximate Matrix Multiplication: 从经典的 HPC 到深度学习，MatMul 是当今计算的核心。最近的 Maddness 方法通过使用基于哈希的版本来近似 MatMul，而无需进行乘法...
GitHub - Kotlin/kotlindl: High-level Deep Learning Framework written in Kotlin and inspired by Keras: 用 Kotlin 编写并受 Keras 启发的高级深度学习框架 - Kotlin/kotlindl
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing: 尽管大语言模型（LLMs）在各种任务上表现出色，但在涉及复杂推理和规划的场景中仍然面临困难。最近的工作提出了先进的...
Large Language Models On-Device with MediaPipe and TensorFlow Lite - Google for Developers: 未找到描述
Samsung Galaxy S24 Ultra review: 三星 S24 系列搭载了基于 Google 最新 Android 14 的三星最新 One UI 6.1。尽管这只是一个相当小的 ".1" 编号更新，...
Inappropriate Content - Play Console Help: 未找到描述
GitHub - atfortes/Awesome-LLM-Reasoning: Reasoning in Large Language Models: Papers and Resources, including Chain-of-Thought, Instruction-Tuning and Multimodality.: 大语言模型中的推理：论文和资源，包括 Chain-of-Thought、指令微调（Instruction-Tuning）和多模态。- GitHub - atfortes/Awesome-LLM-Reasoning...
LPDDR5 | DRAM | Samsung Semiconductor Global: 了解 LPDDR5，它以 6,400 Mbps 的引脚速度、51.2Gb/s 的海量传输和 20% 的节能效果，为下一代应用提供动力。

提到的链接：

来自 Stella Biderman (@BlancheMinerva) 的推文：为 RAG 模型创建一个基准测试，其中所有问题都需要综合多个文档的信息才能回答。研究在公开数据上训练的模型在该基准上的表现，并且...
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions：如今的 LLM 容易受到 Prompt Injections、Jailbreaks 和其他攻击的影响，这些攻击允许攻击者用恶意 Prompt 覆盖模型的原始指令。在这项工作中...
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels：在对语言模型（LM）进行 Prompt 时，用户通常期望模型在不同任务中遵循一套行为原则，例如在生成深刻内容的同时避免有害或...
SpaceByte: Towards Deleting Tokenization from Large Language Modeling：Tokenization 在大语言模型中被广泛使用，因为它能显著提高性能。然而，Tokenization 也带来了一些缺点，如性能偏差、增加的对抗性...
MambaByte: Token-free Selective State Space Model：Token-free 语言模型直接从原始字节（Raw Bytes）中学习，并消除了 Subword Tokenization 的归纳偏置。然而，在字节上运行会导致序列显著变长。在这种设置下...
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis：最近，出现了一系列 Diffusion 感知的蒸馏算法，以减轻与 Diffusion Models (DMs) 多步推理过程相关的计算开销。目前的蒸馏...
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models：基于 Transformer 的语言模型在输入序列上均匀分配 FLOPs。在这项工作中，我们证明了 Transformer 可以学会动态地将 FLOPs（或计算量）分配给特定的...
stabilityai/stablelm-3b-4e1t · Hugging Face：未找到描述
Transformers are Multi-State RNNs：Transformer 被认为在概念上与上一代最先进的 NLP 模型——循环神经网络（RNNs）不同。在这项工作中，我们证明了 Decoder-only...
Profluent：我们精通蛋白质设计的语言。
A Thorough Examination of Decoding Methods in the Era of LLMs：解码方法在将语言模型从 Next-token Predictors 转换为实用的任务求解器方面发挥着不可或缺的作用。先前关于解码方法的研究主要集中在特定任务...
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon：由于 Context Window 大小有限，长上下文的利用对 LLM 提出了巨大挑战。虽然可以通过微调来扩展 Context Window，但这会导致相当大的...
Larimar: Large Language Models with Episodic Memory Control：高效、准确地更新存储在 LLM 中的知识是当今最紧迫的研究挑战之一。本文介绍了 Larimar——一种新型的、受大脑启发的架构...
GitHub - microsoft/LLMLingua: 为了加速 LLM 的推理并增强 LLM 对关键信息的感知，压缩 Prompt 和 KV-Cache，在性能损失极小的情况下实现高达 20 倍的压缩。：为了加速 LLM 的推理并增强 LLM 对关键信息的感知，压缩 Prompt 和 KV-Cache，在性能损失极小的情况下实现高达 20 倍的压缩。 - GitHub...
GitHub - krafton-ai/mambaformer-icl: MambaFormer In-context Learning 实验和实现，针对 https://arxiv.org/abs/2402.04248：MambaFormer In-context Learning 实验和实现，针对 https://arxiv.org/abs/2402.04248 - krafton-ai/mambaformer-icl
Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences：基因编辑具有解决农业、生物技术和人类健康领域根本挑战的潜力。通过对 CRISPR-Cas 序列的全集进行建模，设计高功能的基因组编辑器。
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding：虽然大语言模型（LLM）展示了卓越的能力，但由于自回归处理，它们受到显著的资源消耗和相当大的延迟的阻碍。在本研究中，我们...
Editing Models with Task Arithmetic：改变预训练模型的行为——例如，提高它们在下游任务上的性能或减轻预训练期间学到的偏见——是开发机器学习模型时的常见做法...
Large Language Models on Graphs: A Comprehensive Survey：大语言模型（LLM），如 GPT4 和 LLaMA，由于其强大的文本编码/解码能力和新发现的涌现能力，正在自然语言处理领域取得重大进展...
HuggingFaceFW/fineweb · Datasets at Hugging Face：未找到描述
Sisihae GIF - Sisihae - Discover & Share GIFs：点击查看 GIF
Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck：语言建模的最新进展包括在极大的网络挖掘文本语料库上预训练高度参数化的神经网络。在实践中，此类模型的训练和推理可能成本高昂...
Towards Graph Foundation Models: A Survey and Beyond：基础模型已成为各种人工智能应用中的关键组件，并在自然语言处理和其他几个领域展示了显著的成功...
[AINews] FineWeb: 15T Tokens, 12 years of CommonCrawl (deduped and filtered, you're welcome)：2024/4/19-2024/4/22 的 AI 新闻。我们为您检查了 6 个 subreddits、364 个 Twitter 和 27 个 Discord（395 个频道，14973 条消息）。预计阅读时间...
On Limitations of the Transformer Architecture：未找到描述

来自 Kyo (@kyo_takano) 的推文

Residual stream norms grow exponentially over the forward pass — LessWrong

提到的链接：

GitHub - RWKV/RWKV-infctx-trainer at rwkv-6-support: RWKV infctx trainer，用于训练任意上下文长度，可达 10k 甚至更高！ - GitHub - RWKV/RWKV-infctx-trainer at rwkv-6-support
Comparing main...rwkv-6-support · RWKV/RWKV-infctx-trainer: RWKV infctx trainer，用于训练任意上下文长度，可达 10k 甚至更高！ - Comparing main...rwkv-6-support · RWKV/RWKV-infctx-trainer
Add Basic RWKV Block to GPT-NeoX · Issue #1167 · EleutherAI/gpt-neox: 我们希望将 RWKV 添加到 gpt-neox：从 https://github.com/BlinkDL/RWKV-LM 向 https://github.com/EleutherAI/gpt-neox/tree/main/megatron/model 添加基础 RWKV block（不含 kernels），添加 rwkv kernels A...
GitHub: Let’s build from here: GitHub 是超过 1 亿开发者共同塑造软件未来的地方。在这里贡献开源社区，管理你的 Git 仓库，像专家一样评审代码，追踪 bug 和功能...
GitHub - SmerkyG/gpt-neox at rwkv: 基于 DeepSpeed 库在 GPU 上实现模型并行自回归 Transformer。 - GitHub - SmerkyG/gpt-neox at rwkv

Hugging Face 宕机担忧：多位用户报告在尝试访问或使用 Hugging Face 时遇到 504 Gateway Time-outs 和服务中断，表明可能存在宕机或服务器问题。
Meta-Llama 3 集成问题：用户讨论了 Meta Llama 3 与 serverless inference API 的集成，以及在发起请求时是否支持 system prompts 等功能。
Autotrain 咨询：有人询问 AutoTrain 是否支持 phi-3 等自定义模型进行 fine-tuning，通过指向 Hugging Face 文档和之前的成功案例得到了解答。
模型上传障碍：一位用户因文件大小限制寻求将 GGUF 文件上传到 Hugging Face 的帮助，得到的建议是使用 sharding 或拆分文件以适应服务限制。
探索 OCR 选项：讨论集中在寻找读取浮点数的有效 OCR 解决方案，提到了 PaddleOCR 和 kerasOCR 可能是比 tesseract 和 EasyOCR 更好的替代方案。

Links mentioned:

Google Colaboratory: 未找到描述
来自 abhishek (@abhi1thakur) 的推文: Phi-3 来了！！！！ 🚀 当然，你已经可以使用 AutoTrain 对其进行微调了 🚀🚀🚀
Pretraining on the Test Set Is All You Need: 受近期展示了在精心策划的数据上预训练的小型 Transformer 语言模型潜力的研究启发，我们通过投入大量精力策划一个 n...
Llama 3-70B - HuggingChat: 在 HuggingChat 中使用 Llama 3-70B 助手
生化危机：欢迎来到浣熊市 GIF - 生化危机电影 - 发现并分享 GIF: 点击查看 GIF
Turn Down For What Snoop Dogg GIF - Snoop Dogg 干杯 - 发现并分享 GIF: 点击查看 GIF
小猫 Jinx GIF - 小猫 Jinx - 发现并分享 GIF: 点击查看 GIF
我死了 Dead Bruh GIF - 骷髅 Dead Bruh - 发现并分享 GIF: 点击查看 GIF
HF-Mirror - Huggingface 镜像站: 未找到描述
meta-llama/Meta-Llama-3-70B-Instruct · Hugging Face: 未找到描述
Eyeverse Brace GIF - Eyeverse Brace 入会 - 发现并分享 GIF: 点击查看 GIF
将文件上传到 Hub: 未找到描述
Dinela GIF - Dinela - 发现并分享 GIF: 点击查看 GIF
Google Colaboratory: 未找到描述
TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ · Hugging Face: 未找到描述
猫咪俱乐部 GIF - 猫咪跳舞 - 发现并分享 GIF: 点击查看 GIF
Hugging Face – 构建未来的 AI 社区。: 未找到描述
将文件上传到 Hub: 未找到描述
阿尔伯特·爱因斯坦 - HuggingChat: 在 HuggingChat 中使用阿尔伯特·爱因斯坦助手
Meta Llama 3 | 8B API 文档 (swift-api-swift-api-default) | RapidAPI: 未找到描述
查看 Paste 3MUQ: 未找到描述
Reddit - 深入探索任何事物: 未找到描述
AI 的崛起: (开启字幕) 加入我们，一起回顾 Artificial Intelligence 的快速演变历程，从...
"这是 UNIX 系统！" | 侏罗纪公园 | 科幻站: 黑客 Lexi (Ariana Richards) 在尝试修复侏罗纪公园的 UNIX 控制系统时展示了她的技术。侏罗纪公园 (1993)：John Hammond，一位...
Discord - 与朋友和社区聊天的新方式: Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、闲逛，并与你的朋友和社区保持紧密联系。
Hugging Face 状态 : 未找到描述
MTEB Leaderboard - 由 mteb 提供的 Hugging Face Space: 未找到描述
Reddit - 深入探索任何事物: 未找到描述

提到的链接：

wsqstar/ppo-LunarLander-v2 · Hugging Face: 未找到描述
ORPO with LLaMA 3- Fast, Cheap, and Good!: 俗话说“快速、便宜、好用——三者择其二”。AI 领域此前也不例外，但我们开始看到一些伟大的创新正在改变这一点。这是一篇很棒的文章...
Build an Agent with Long-Term, Personalized Memory: 本视频探讨了如何存储类似于 ChatGPT 新推出的长期记忆功能的对话记忆。我们将使用 LangGraph 构建一个简单的内存管理...
(RVC) I Can't Dance (AI Cover Mashup) (READ DESC): #aicover #icantdance #genesis 免责声明：这是一个简单有趣的 AI 混剪视频，是我在业余时间利用我自己和其他人的 AI 语音模型制作的...

提到的链接：

Self-Reasoning Tokens，教导模型学会预判。：推理的数学公式是什么？我们如何让像 chatGPT 这样的 LLM 在开口之前先思考？我们又该如何将其融入模型中，使其能够以 self-supervise 的方式学习思考...
PhysDreamer：通过视频生成实现与 3D 对象的物理交互：真实的物体交互对于创建沉浸式虚拟体验至关重要，然而，针对新型交互合成真实的 3D 物体动力学仍然是一个重大挑战。U...
Transformers.js：未找到描述
Neural Networks: Zero To Hero：未找到描述
Hokoff：摘要
ByteDance (ByteDance)：未找到描述
新型量子计算机 - 潜力与陷阱 | DW 纪录片：一台新型超级计算机有望减少动物实验，甚至可能治愈癌症。围绕 quantum computing 的炒作令人振奋...
为什么神经网络可以学习（几乎）任何东西：一段关于神经网络、它们如何工作以及为什么有用的视频。我的 twitter：https://twitter.com/max_romana 来源神经网络游乐场：https://play...

Links mentioned:

ehristoforu/llama-3-12b-instruct · Hugging Face: 未找到描述
ehristoforu/Gixtral-100B · Hugging Face: 未找到描述
Home: 未找到描述
ehristoforu/Gistral-16B · Hugging Face: 未找到描述
bineric/NorskGPT-Llama3-8b · Hugging Face: 未找到描述
QuantFactory/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
RAG chatbot using llama3: 未找到描述
Reddit - 深入探索一切: 未找到描述
GitHub - Crizomb/ai_pdf: Chat locally with any PDF Ask questions, get answer with usefull references Work well with math pdfs (convert them to LaTex, a math syntax comprehensible by computer): 在本地与任何 PDF 聊天，提出问题，获取带有有用参考的答案。对数学 PDF 效果良好（将其转换为 LaTex，一种计算机可理解的数学语法） - Crizomb/ai_pdf
Outpainting Demo - clinteroni 的 Hugging Face Space: 未找到描述
VTuberLogoGenerator - gojiteji 的 Hugging Face Space: 未找到描述
moondream2-batch-processing - Csplk 的 Hugging Face Space: 未找到描述

GitHub - qaz812345/TrackNetV3: Implementation of paper - TrackNetV3: Enhancing ShuttleCock Tracking with Augmentations and Trajectory Rectification

GitHub - gnp/minbpe-rs: Port of Andrej Karpathy's minbpe to Rust

提到的链接:

未找到标题：未找到描述
Issues · modularml/mojo：Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 开发做贡献。
GitHub - basalt-org/basalt: A Machine Learning framework from scratch in Pure Mojo 🔥：一个使用纯 Mojo 🔥 从零开始构建的机器学习框架 - basalt-org/basalt

提到的链接：

Setun - Wikipedia：未找到描述
The Rise of AI：(Hidupkan Closed Caption)(开启字幕) 加入我们的旅程，见证 Artificial Intelligence 的快速演进，从...

提到的链接：

equality_comparable | Modular 文档: EqualityComparable
collections | Modular 文档: 实现 collections 包。
sort | Modular 文档: 实现排序函数。
排序技巧: 作者 Andrew Dalke 和 Raymond Hettinger。Python 列表具有内置的 list.sort() 方法，可就地修改列表。还有一个 sorted() 内置函数，用于构建一个新的已排序列表...
通用快速排序: 上下文 Mojo 参考：Sort Mojo 版本：24.2.1 演示：按年龄对一组人进行排序。此演示展示了如何使用通用的 QuickSort 算法根据年龄对一组人进行排序。这...
Python -c 命令行执行方法 - Programmer Sought: 未找到描述
Traits | Modular 文档: 为类型定义共享行为。
simd | Modular 文档: 实现 SIMD 结构。
playground.mojo: GitHub Gist：即时分享代码、笔记和片段。
unsafe | Modular 文档: 实现用于处理不安全指针的类。
mojo/stdlib/src/builtin/anytype.mojo at main · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
Are we web yet? Yes, and it's freaking fast! : 未找到描述
参数化：编译时元编程 | Modular 文档: 参数和编译时元编程简介。
Ron Swanson Parks And Rec GIF - Ron Swanson Parks And Rec Its So Beautiful - 发现并分享 GIF: 点击查看 GIF
Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
mojo_zlib_classification/tools/utils.mojo at master · toiletsandpaper/mojo_zlib_classification: 通过在 GitHub 上创建账户为 toiletsandpaper/mojo_zlib_classification 的开发做出贡献。
[功能请求] `.__doc__` 属性 · Issue #2197 · modularml/mojo: 审查 Mojo 的优先级。我已阅读路线图和优先级，并相信此请求符合优先级。您的请求是什么？我希望能够获取我的字符串的 docstring...
Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
MLIR: 未找到描述
2023 LLVM 开发者大会 - MLIR 不是 ML 编译器以及其他常见误解: 2023 LLVM 开发者大会 https://llvm.org/devmtg/2023-10------MLIR 不是 ML 编译器以及其他常见误解。演讲者：Alex Zinenko------幻灯片...

提及的链接：

GitHub - basalt-org/basalt: A Machine Learning framework from scratch in Pure Mojo 🔥：纯 Mojo 编写的从零开始的机器学习框架 🔥 - basalt-org/basalt
GitHub - thatstoasty/prism: Mojo CLI Library modeled after Cobra.：模仿 Cobra 的 Mojo CLI 库。通过在 GitHub 上创建一个账号来为 thatstoasty/prism 做出贡献。
GitHub - thatstoasty/mog: Style definitions for nice terminal layouts.：用于精美终端布局的样式定义。通过在 GitHub 上创建一个账号来为 thatstoasty/mog 做出贡献。
GitHub - thatstoasty/gojo: Experiments in porting over Golang stdlib into Mojo.：将 Golang 标准库移植到 Mojo 的实验。 - thatstoasty/gojo
GitHub - thatstoasty/termios: Mojo termios via libc：通过 libc 实现的 Mojo termios。通过在 GitHub 上创建一个账号来为 thatstoasty/termios 做出贡献。

提及的链接：

Modular: Mojo🔥 - A journey to 68,000x speedup over Python - Part 3：我们正在为世界构建下一代 AI 开发者平台。查看我们的最新文章：Mojo🔥 - 比 Python 快 68,000 倍的旅程 - 第 3 部分
The Dos and Don'ts of Multithreading ：Hubert Matthews 描述了多线程中遇到的一些问题，并讨论了如何通过适当的设计选择来避免这些问题。
functional | Modular Docs：实现高阶函数。
[BUG] `random.random_float64` is extremely slow · Issue #2388 · modularml/mojo：Bug 描述：在 for 循环中一次生成一个随机数极其缓慢，比 numba-jitted 的等效代码慢了近 2 个数量级。背景：我尝试使用一个简单的 Monte Ca...

提及的链接：

[Feature Request] Explicit parametric alias with default argument · Issue #1904 · modularml/mojo：审查 Mojo 的优先级。我已阅读路线图和优先级，并认为此请求符合优先级。你的请求是什么？如题。你进行此更改的动机是什么？Exp...
[stdlib] Replace `Pointer` by `UnsafePointer` in `stdlib/src/builtin/object.mojo` by gabrieldemarmiesse · Pull Request #2365 · modularml/mojo：Builtins 导入的行为方式很奇怪，我不得不在 stdlib/src/python/_cpython.mojo 中导入 LegacyPointer，我对此无法解释。我只是按照编译器的要求导入 :p 参见 ht...

提到的链接：

Discord - 与朋友和社区聊天的新方式：Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、闲逛，并与你的朋友和社区保持紧密联系。
Axolotl - 指令微调 (Instruction Tuning)：未找到描述
Axolotl - 数据集格式：未找到描述
chargoddard/llama3-42b-v0 · Hugging Face：未找到描述
microsoft/Phi-3-mini-128k-instruct · Hugging Face：未找到描述
环境变量：未找到描述
mattshumer/Llama-3-8B-16K · Hugging Face：未找到描述
Reddit - 深入了解任何内容：未找到描述
Reddit - 深入了解任何内容：未找到描述
cognitivecomputations/dolphin-2.9-llama3-8b · Llama 3 Base 是独特的：未找到描述
使用 PyTorch FSDP 和 Q-Lora 高效微调 Llama 3：了解如何使用 Hugging Face TRL, Transformers, PEFT 和 Datasets，通过 PyTorch FSDP 和 Q-Lora 微调 Llama 3 70b。
meta-llama/Meta-Llama-3-8B · 更新后处理器以添加 bos：未找到描述
GitHub - janphilippfranken/sami: 基于互信息的自监督对齐：基于互信息的自监督对齐。通过在 GitHub 上创建一个账户来为 janphilippfranken/sami 的开发做出贡献。
meta-llama/Meta-Llama-3-8B-Instruct · Hugging Face：未找到描述
Reddit - 深入了解任何内容：未找到描述

Axolotl - Dataset Formats

mattshumer/Llama-3-8B-16K · Hugging Face

Links mentioned:

OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search: 更快地理解代码。

提及的链接：

Databricks: DBRX 132B Instruct by databricks | OpenRouter: DBRX 是由 Databricks 开发的新型开源大语言模型。在 132B 参数量下，它在语言的标准行业基准测试中优于现有的开源 LLM，如 Llama 2 70B 和 Mixtral-8x7B...
Lynn: Llama 3 Soliloquy 8B by lynn | OpenRouter: Soliloquy-L3 是一款快速、高性能的角色扮演模型，专为沉浸式、动态体验而设计。Soliloquy-L3 在超过 2.5 亿个 tokens 的角色扮演数据上进行了训练，拥有广博的知识库...
Fimbulvetr 11B v2 by sao10k | OpenRouter: 创意写作模型，经许可路由。它速度很快，能保持对话持续进行，并保持角色设定。如果你提交原始提示词，可以使用 Alpaca 或 Vicuna 格式。
Meta: Llama 3 8B Instruct (extended) by meta-llama | OpenRouter: Meta 最新的模型系列 (Llama 3) 发布了多种尺寸和版本。这个 8B 指令微调版本针对高质量对话场景进行了优化。它展示了强大的...

提到的链接：

未找到标题：未找到描述
DeepGaze：未找到描述

提到的链接：

imgur.com: 在 Imgur 发现互联网的魔力，这是一个由社区驱动的娱乐目的地。通过幽默的笑话、热门的梗图、有趣的 GIF、鼓舞人心的故事、病毒式传播的视频来振奋你的精神...
Groq 推理代币经济学：速度，但代价是什么？：比 Nvidia 更快？剖析其经济学原理
openlynn/Llama-3-Soliloquy-8B · Hugging Face：未找到描述
microsoft/Phi-3-mini-128k-instruct-onnx · Hugging Face：未找到描述
按章工作 - 维基百科：未找到描述
Eric Hartford (@erhartford) 的推文：由 @CrusoeCloud 慷慨赞助的 Dolphin-2.9-llama3-8b 预计周六发布。与 @LucasAtkins7 和 @FernandoNetoAi 进行了大量合作。Dolphin-2.9-llama3-70b 紧随其后。Dolphin-2.9-mixtral-8x22b 仍在...
Hugging Face 上的 @WizardLM："🔥🔥🔥 介绍 WizardLM-2！ 📙发布博客：…": 未找到描述
dreamgen/opus-v1.2-llama-3-8b · Hugging Face: 未找到描述
OpenRouter: LLM 和其他 AI 模型的路由
OpenRouter: LLM 和其他 AI 模型的路由
FireAttention — Serving Open Source Models 4x faster than vLLM by quantizing with ~no tradeoffs: 通过无损量化，以比 vLLM 快 4 倍的速度提供开源模型服务
microsoft/Phi-3-mini-4k-instruct · Hugging Face: 未找到描述
Meta: Llama 3 70B Instruct (nitro) by meta-llama | OpenRouter: Meta 最新发布的模型系列 (Llama 3) 包含多种尺寸和版本。这个 70B 指令微调版本针对高质量对话场景进行了优化。它展示了强大的...
Lynn: Llama 3 Soliloquy 8B by lynn | OpenRouter: Soliloquy-L3 是一款快速且功能强大的角色扮演模型，专为沉浸式、动态体验而设计。Soliloquy-L3 在超过 2.5 亿个 token 的角色扮演数据上进行了训练，拥有庞大的知识库和丰富的...

提到的链接:

Joe Bereta Source Fed GIF - Joe Bereta Source Fed Micdrop - Discover & Share GIFs: 点击查看 GIF
Biorobotics - Wikipedia: 未找到描述
Generative models: 这篇文章描述了四个项目，它们共同的主题是增强或使用生成式模型，这是机器学习中无监督学习技术的一个分支。除了描述我们的工作...
Research: 我们相信我们的研究最终将实现通用人工智能 (AGI)，这是一个能够解决人类水平问题的系统。构建安全且有益的 AGI 是我们的使命。
GPT-4: 我们创建了 GPT-4，这是 OpenAI 在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，输出文本），虽然在某些方面不如...

提到的链接：

Kick the Spy Pet：未找到描述
Adobe 推出 Firefly Image 3 基础模型，将创意探索和构思提升至新高度：未找到描述
Mixture of Attention：未找到描述
训练计算最优的大型语言模型：我们研究了在给定计算预算下训练 Transformer 语言模型的最佳模型大小和 Token 数量。我们发现当前的大型语言模型明显训练不足...
Oh No Top Gear GIF - Oh No Top Gear Jeremy Clarkson - 发现并分享 GIF：点击查看 GIF
bghira：Weights & Biases，机器学习开发者工具
Papers with Code - CUB-200-2011 数据集：Caltech-UCSD Birds-200-2011 (CUB-200-2011) 数据集是细粒度视觉分类任务中最广泛使用的数据集。它包含属于鸟类的 200 个子类别的 11,788 张图像...
AI 的崛起：(开启中文字幕) 加入我们的旅程，穿越人工智能的快速演变，从...
ptx0/mj-v52-redux at main：未找到描述
如何构建像 OpenAI Sora 这样的生成式 AI 模型：如果你阅读过关于 OpenAI 和 Anthropic 等公司训练基础模型的文章，自然会认为如果你没有十亿美元...
[AINews] FineWeb: 15T Tokens, 12 年的 CommonCrawl（已去重和过滤，不客气）：2024/4/19-2024/4/22 的 AI 新闻。我们为你检查了 6 个 subreddits、364 个 Twitter 账号和 27 个 Discord 社区（395 个频道，14973 条消息）。预计阅读时间...

提及的链接：

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation：多模态基础模型的快速演进在视觉语言理解和生成方面取得了显著进展，例如我们之前的工作 SEED-LLaMA。然而，仍然存在一个...
TextSquare: Scaling up Text-Centric Visual Instruction Tuning：随着多模态大语言模型 (MLLMs) 的发展，以文本为中心的视觉问答 (VQA) 取得了长足进步，但开源模型与 GPT 等领先模型相比仍有差距...
bghira：Weights & Biases，机器学习开发者工具
piecewise-rectified-flow/README.md at main · magic-research/piecewise-rectified-flow：通过在 GitHub 上创建账号来为 piecewise-rectified-flow 的开发做出贡献。
bghira：Weights & Biases，机器学习开发者工具
BLINK: Multimodal Large Language Models Can See but Not Perceive：我们介绍了 Blink，这是一个针对多模态语言模型 (LLMs) 的新基准测试，专注于其他评估中未包含的核心视觉感知能力。大多数 Blink 任务可以由人类解决...
SOCIAL MEDIA TITLE TAG：SOCIAL MEDIA DESCRIPTION TAG TAG
GitHub - megvii-research/HiDiffusion：通过在 GitHub 上创建账号来为 megvii-research/HiDiffusion 的开发做出贡献。

Links mentioned:

Agents - LlamaIndex: 未找到描述
从 ServiceContext 迁移到 Settings - LlamaIndex: 未找到描述
从 Weaviate 向量数据库进行自动检索 - LlamaIndex: 未找到描述
RAG CLI - LlamaIndex: 未找到描述
Token Counting Handler - LlamaIndex: 未找到描述
Bedrock - LlamaIndex: 未找到描述
使用模式 - LlamaIndex: 未找到描述
Ollama - Llama 2 7B - LlamaIndex: 未找到描述
LocalAI - LlamaIndex: 未找到描述
Portkey - LlamaIndex: 未找到描述
修复 qdrant 检查现有集合时的 bug，由 logan-markewich 提交 · Pull Request #13009 · run-llama/llama_index: 修复了从可能存在的集合中获取信息时的一个小 bug
围绕 Query Pipeline 构建 Agent - LlamaIndex: 未找到描述
索引与嵌入 - LlamaIndex: 未找到描述
使用工具的 CrewAI RAG - Mervin Praison: 未找到描述
使用 Documents - LlamaIndex: 未找到描述
Pathway Reader - LlamaIndex: 未找到描述
查询 - LlamaIndex: 未找到描述
入门教程（本地模型） - LlamaIndex: 未找到描述
如何在 LlamaIndex 中使用 UpTrain - LlamaIndex: 未找到描述

提及的链接：

[FrontierOptic.com] AI 融资追踪 - 2024 年 4 月 21 日 - 社区审阅版：涵盖 <a href="http://FrontierOptic.com">FrontierOptic.com</a> AI 初创公司融资数据（自 2023 年 5 月起）- 社区审阅版 <a href="https://twitter.com/WangUWS&...
来自 Howe Wang (@WangUWS) 的推文：为了庆祝 @HilaryDuff 在《Wake Up》中演唱“Could be New York, Maybe Hollywood and Vine, London, Paris, maybe Tokyo” 20 周年。我清理了 AI Hype Train 数据的地点信息...

提及的链接：

Discord - 与朋友和社区聊天的新方式：Discord 是通过语音、视频和文本进行交流的最简单方式。聊天、聚会，并与您的朋友和社区保持紧密联系。
Que GIF - Que - 发现并分享 GIF：点击查看 GIF
来自 Robert Scoble (@Scobleizer) 的推文：#17：用新 AI 让全人类变得更好。Rabbit AI 设备在 1 月份席卷了消费电子展（CES），这启发了 Open Interpreter 的创始人 @hellokillian Killian Lucas 去构建一个...
▌ 已启用 OS Control > 打开记事本并输入 "hello" 让我们开始尝试 - Pastebin.com：Pastebin.com 自 2002 年以来一直是排名第一的粘贴工具。Pastebin 是一个您可以将文本在线存储一段时间的网站。
全新安装并重新启动时的 Bug · Issue #1185 · OpenInterpreter/open-interpreter：描述运行时的 Bug。显示此警告 interpreter /opt/conda/lib/python3.11/site-packages/pydantic/_internal/fields.py:151: UserWarning: Field "model_id" has conflict with prote...
来自 Nik Shevchenko (@kodjima33) 的推文：FRIEND 成为了全球最大的开源 AI 可穿戴设备社区。为了支持开发者，我们正在推出一个 App Marketplace。您现在可以构建自己的应用，它将与该设备配合使用...
01/project_management/hardware/devices/raspberry-pi at main · OpenInterpreter/01：开源语言模型计算机。通过在 GitHub 上创建账户，为 OpenInterpreter/01 的开发做出贡献。
posts/llama3_new.pdf at main · ishank26/posts：资源、想法和笔记。通过在 GitHub 上创建账户，为 ishank26/posts 的开发做出贡献。
如何更便宜地使用 Open Interpreter！（LM Studio / Groq / GPT-3.5）：第 1 部分和介绍：https://www.youtube.com/watch?v=5Lf8bCKa_dE 0:00 - 设置 1:09 - 默认 GPT-4 2:36 - 快速模式 / GPT-3.5 2:55 - 本地模式 3:39 - LM Studio 5:5...
更新本地配置文件以使其不使用 function calling，由 Notnaton 提交 · Pull Request #1213 · OpenInterpreter/open-interpreter：保留 model = gpt4 将导致使用 function calling。大多数 LM Studio 模型不使用 function calling，导致其无法工作。描述您所做的更改：引用任何相关的 Issue（例如 "...
(oi) C:\Users\ivan>interpreter --api_base "https://api.groq.com/openai/v1" --api - Pastebin.com：Pastebin.com 自 2002 年以来一直是排名第一的粘贴工具。Pastebin 是一个您可以将文本在线存储一段时间的网站。
GitHub - KoljaB/RealtimeTTS：实时将文本转换为语音：实时将文本转换为语音。通过在 GitHub 上创建账户，为 KoljaB/RealtimeTTS 的开发做出贡献。
Jupyter 导出魔法命令，由 tyfiero 提交 · Pull Request #986 · OpenInterpreter/open-interpreter：描述您所做的更改：添加了 %jupyter 魔法命令，用于将当前会话导出为 Jupyter Notebook 文件，您可以在 Google Colab 中运行。引用任何相关的 Issue（例如 "...
提升 tiktoken 版本，由 minamorl 提交 · Pull Request #1204 · OpenInterpreter/open-interpreter：描述您所做的更改：由于构建过程因某种原因中断，提升了 tiktoken 的版本。此 PR 修复了中断的过程。引用任何相关的 Issue（例如 "Fixes #000"）：...

AI CEO says people's obsession with reaching artificial general intelligence is 'about creating God'

提到的链接：

来自 Sebastien Bubeck (@SebastienBubeck) 的推文：@itsGauravAi 好消息是，你明天就可以亲自尝试了 :-)。
来自 Dylan Patel (@dylan522p) 的推文：LLAMA 3 8B 表现出色，但本周将被 Phi-3 mini 4b、small 7b、medium 14b 掩盖光芒，而且 Benchmark 数据简直疯狂。Synthetic data 管道相比互联网数据有了巨大改进...
来自 Teortaxes▶️ (@teortaxesTex) 的推文：@angelusm0rt1s @fchollet 我坚信，你可以通过 Phi-2 相对于 Mixtral 等明显更强大的模型的表现来评估 Benchmark。如果 Phi-2 >> Mixtral，那么你的...
Where Is GIF - Where Is My - 发现并分享 GIF：点击查看 GIF
来自 near (@nearcyan) 的推文：涂掉了 Phi-3 论文中无关紧要的部分，以帮助大家理解为什么它在同等规模下表现如此出色
来自 Susan Zhang (@suchenzang) 的推文：噢不，又来了
Phi-3 技术报告：手机本地运行的高性能语言模型：我们推出了 phi-3-mini，这是一个拥有 38 亿参数的语言模型，在 3.3 万亿 Token 上训练而成。根据学术 Benchmark 和内部测试，其整体性能可媲美...

未找到标题

Tweet from near (@nearcyan)

Links mentioned:

Teach Llamas to Talk: Recent Progress in Instruction Tuning: no description found
The CRINGE Loss: Learning what language not to model: Standard language model training employs gold human documents or human-human interaction data, and treats all training data as positive examples. Growing evidence shows that even with very large amoun...

Links mentioned:

Ken's Resume.pdf: no description found
Using Oracle Autonomous Database Serverless: Oracle Autonomous Database Select AI enables you to query your data using natural language.

提到的链接：

Prompt Mixer. 面向公司的 AI 开发工作室：一个供经理、工程师和数据专家协作开发 AI 功能的工作空间。
来自 Anmol Desai (@anmol_desai2005) 的推文：我们做到了。代码终于开源了。请尝试一下，我们渴望得到反馈。@weaviate_io @stanfordnlp @cohere @1vnzh @CShorten30 ↘️ 引用 Muratcan Koylan (@youraimarketer) ...

提到的链接：

DLAI - 使用 Chroma 进行 AI 高级检索：简介 · 基于 Embeddings 的检索概述 · 检索的陷阱 - 当简单向量搜索失败时 · 查询扩展 (Query Expansion) · Cross-encoder 重排序 · Embedding 适配器 · 其他技术
Cross Encoder 重排序器 | 🦜️🔗 LangChain：本笔记本展示了如何在检索器中实现重排序器。
<a href="http://localhost:11434",>">未找到标题</a>：未找到描述
ChatGroq | 🦜️🔗 Langchain：设置
快速入门 | 🦜️🔗 Langchain：大语言模型 (LLMs) 是 LangChain 的核心组件。
快速入门 | 🦜️🔗 Langchain：在本指南中，我们将介绍创建调用 Tools 的 Chains 和 Agents 的基本方法。Tools 可以是任何东西——API、函数、数据库等。Tools 允许我们扩展功能...
ChatVertexAI | 🦜️🔗 Langchain：LangChain.js 支持将 Google Vertex AI 聊天模型作为集成。
ChatVertexAI | 🦜️🔗 LangChain：注意：这与 Google PaLM 集成是分开的。Google 已经...
Issues · langchain-ai/langchain：🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号，为 langchain-ai/langchain 的开发做出贡献。

提到的链接：

AI Simply Explained：AI 简单解释
AllMind AI: Your Personal Stock Analyst - 具备实时市场数据和洞察的 AI 财务分析师 | Product Hunt：AllMind AI 是您的私人财务分析师，直接为您提供集中、实时、可操作的洞察。我们的专有 LLM AllMind AI 可缩短 90% 的研究时间并降低 98% 的成本。W...
GitHub - mishushakov/llm-scraper: 使用 LLMs 将任何网页转换为结构化数据：使用 LLMs 将任何网页转换为结构化数据。通过在 GitHub 上创建账号，为 mishushakov/llm-scraper 的开发做出贡献。

Building a Rental Apartment Search with Langchain's Self-Querying Retriever

React App

提到的链接：

ShapeTracker 如何工作：tinygrad 教程
tinygrad-notes/uops-doc.md (main 分支) · mesozoic-egg/tinygrad-notes：tinygrad 教程。通过在 GitHub 上创建账号为 mesozoic-egg/tinygrad-notes 的开发做出贡献。
tinygrad-notes/cuda-tensor-core-pt1.md (main 分支) · mesozoic-egg/tinygrad-notes：tinygrad 教程。通过在 GitHub 上创建账号为 mesozoic-egg/tinygrad-notes 的开发做出贡献。
tinygrad/tinygrad/tensor.py (版本 37f8be6450b6209cdc9466a385075971e673c653) · tinygrad/tinygrad：你喜欢 PyTorch？你喜欢 micrograd？你会爱上 tinygrad！❤️ - tinygrad/tinygrad
Meta AI：使用 Meta AI 助手处理事务，免费创建 AI 生成的图像，并获取任何问题的答案。Meta AI 基于 Meta 最新的 Llama 大语言模型构建，并使用了 Emu...

提到的链接：

lighteval/src/lighteval/tasks/tasks_prompt_formatting.py (版本 11b48333b46ecd464cc3979de66038c87717e8d6) · huggingface/lighteval：LightEval 是一个轻量级的 LLM 评估套件，Hugging Face 内部一直在将其与最近发布的 LLM 数据处理库 datatrove 和 LLM 训练库 nanotron 配合使用。
deutsche-telekom/Ger-RAG-eval · Hugging Face 数据集：未找到描述
deutsche-telekom/Ger-RAG-eval · Hugging Face 数据集：未找到描述

notebooks/haystack2x-demos/haystack_rag_services_demo.ipynb at main · vblagoje/notebooks

提到的链接：

cstr/llama3-discolm-orca · Hugging Face：未找到描述
jvh/whisper-base-quant-ct2 · Hugging Face：未找到描述
primeline/whisper-tiny-german · Hugging Face：未找到描述
aisak-ai/aisak-listen · Hugging Face：未找到描述

提到的链接：

Guilherme Penedo (@gui_penedo) 的推文：我们刚刚发布了 🍷 FineWeb：15 万亿 token 的高质量网络数据。我们过滤并去重了 2013 年至 2024 年间所有的 CommonCrawl。在 FineWeb 上训练的模型表现优于 RefinedWeb, C4, ...
Phi-3 技术报告：手机本地的高性能语言模型：我们介绍了 phi-3-mini，这是一个拥有 38 亿参数、在 3.3 万亿 token 上训练的语言模型，根据学术基准和内部测试衡量，其整体性能媲美 ...
AgentKit：使用图进行流工程，而非编码：我们为多功能 Agent 提出了一个直观的 LLM 提示框架 (AgentKit)。AgentKit 提供了一个统一框架，用于从简单的 n... 显式构建复杂的“思考过程”。
yi 🦛 (@agihippo) 的推文：phi 是一个很好的试金石，可以区分谁理解 LLM，谁不理解。
Aravind Srinivas (@AravSrinivas) 的推文：很高兴宣布我们以 10.4 亿美元的估值筹集了 6270 万美元，由 Daniel Gross 领投，还有 Stan Druckenmiller, NVIDIA, Jeff Bezos, Tobi Lutke, Garry Tan, Andrej Karpathy, Dylan Field, Elad Gil, ...
Aran Komatsuzaki (@arankomatsuzaki) 的推文：Microsoft 刚刚发布了 Phi-3 - phi-3-mini：3.8B 模型，在 3.3T token 上训练，媲美 Mixtral 8x7B 和 GPT-3.5 - phi-3-medium：14B 模型，在 4.8T token 上训练，MMLU 达到 78%，MT-bench 达到 8.9 http...
GitHub - facebookresearch/hydra: Hydra 是一个用于优雅配置复杂应用程序的框架：Hydra 是一个用于优雅配置复杂应用程序的框架 - facebookresearch/hydra
GitHub - facebookresearch/mbrl-lib: 用于 Model Based RL 的库：用于 Model Based RL 的库。通过在 GitHub 上创建账号为 facebookresearch/mbrl-lib 做出贡献。
mbrl-lib/mbrl/examples/conf/dynamics_model/gaussian_mlp_ensemble.yaml at main · facebookresearch/mbrl-lib：用于 Model Based RL 的库。通过在 GitHub 上创建账号为 facebookresearch/mbrl-lib 做出贡献。
mbrl-lib/mbrl/examples/conf/main.yaml at main · facebookresearch/mbrl-lib：用于 Model Based RL 的库。通过在 GitHub 上创建账号为 facebookresearch/mbrl-lib 做出贡献。
YAML Ain’t Markup Language (YAML™) 版本 1.2.2：未找到描述

LLM 论文俱乐部（与作者一起探讨 TimeGPT 论文）· Zoom · Luma

提到的链接：

Discord - 与朋友和社区聊天的新方式：Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、闲逛，并与你的朋友和社区保持紧密联系。
llama.cpp/.devops/main-vulkan.Dockerfile at master · ggerganov/llama.cpp：C/C++ 中的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。

config.json · mattshumer/Llama-3-8B-16K at main

OpenAI API 和其他 LLM API 响应时间追踪器

使用 LLM 从终端访问 Llama 3 的选项

加入 NSFW // 18 🍑🍒 Discord 服务器！

Perplexity，最新的人工智能独角兽。

AI Reddit 摘要

AI Twitter 综述

AI Discord 综述

PART 1: 高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Perplexity AI Discord

Stability.ai (Stable Diffusion) Discord

Nous Research AI Discord

LM Studio Discord

CUDA MODE Discord

Eleuther Discord

HuggingFace Discord

Modular (Mojo 🔥) Discord

OpenAccess AI Collective (axolotl) Discord

OpenRouter (Alex Atallah) Discord

OpenAI Discord

LAION Discord

LlamaIndex Discord

OpenInterpreter Discord

Interconnects (Nathan Lambert) Discord

Cohere Discord

LangChain AI Discord

tinygrad (George Hotz) Discord

DiscoResearch Discord

Latent Space Discord

Mozilla AI Discord

Skunkworks AI Discord

LLM Perf Enthusiasts AI Discord

Datasette - LLM (@SimonW) Discord

AI21 Labs (Jamba) Discord

PART 2: 按频道详细摘要和链接