值得注意的是，Guilherme 此前曾效力于 TII UAE Falcon 40B 团队，并负责了他们的 RefinedWeb 数据集。

在 Llama 3 发布一周后，如果你拥有算力和代码，现在就已经有了训练属于自己的 Llama 3 的数据。

[TOC]

AI Reddit 回顾

涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/Singularity。评论抓取功能现已上线，但仍有很大改进空间！

AI 模型与能力

WizardLM-2-8x22b 性能：在 r/LocalLLaMA 中，根据一位用户的基准测试，WizardLM-2-8x22b 在推理、知识和数学测试中的表现优于其他开源 LLM（如 Llama-3-70b-instruct）。
Claude Opus 代码错误识别：在 r/LocalLLaMA 中，Claude Opus 展示了令人印象深刻的 0-shot 提示词代码错误识别能力，在该任务上表现优于 Llama 3 和其他模型。
Llama 3 zero-shot 角色扮演：Llama 3 在 r/LocalLLaMA 中展示了惊人的 zero-shot 角色扮演能力。

基准测试与排行榜

LMSYS 聊天机器人排行榜的局限性：在 r/LocalLLaMA 中，有人担心 LMSYS 聊天机器人排行榜在评估模型真实能力方面的作用正在下降，因为像 Llama 3 这样经过指令微调的模型能够针对基准测试进行“刷榜”。目前需要更全面的基准测试。
新 RAG 基准测试结果：r/LocalLLaMA 发布了一项新的 RAG 基准测试，对比了 Llama 3、CommandR、Mistral 等模型在处理商业文档复杂问答时的表现。Llama 3 70B 未能达到 GPT-4 级别的性能。Mistral 8x7B 依然是一个强劲的全能模型。

量化与性能

高效的 Llama 3 量化模型：r/LocalLLaMA 指出，Huggingface 上由 quantfactory 提供的 Llama 3 量化模型是目前最有效的选择。
Llama 3 70B Token 生成限制：一位用户报告称，在 3090 GPU 配置下，使用 Llama 3 70B q2_xs 生成了约 9600 个 Token 后开始出现内容发散。该用户正在寻求延长连贯性的方案。
Llama 3 8B 的 AQLM 量化：Llama 3 8B 的 AQLM 量化版本已证明可以在 Transformers 和 text-generation-webui 中加载，初步测试显示其性能与基准模型持平。

审查与安全

性侵犯者被禁止使用 AI：在 r/singularity 中，据报道英国一名性侵犯者因制作儿童不雅图像而被禁止使用 AI 工具，这引发了慈善机构的关注，他们希望科技公司能阻止此类内容的生成。
GPT-4 漏洞利用能力：GPT-4 可以通过阅读安全公告来利用真实漏洞，在 15 个漏洞上的成功率达 87%，优于其他 LLM 和扫描器。这引发了人们对未来 LLM 可能降低漏洞利用门槛的担忧。
AI 生成的不安全信息：在 r/LocalLLaMA 中，讨论了 AI 是否能够产生尚未被广泛知晓的独特不安全信息。大多数例子似乎只是基础概述，而非真正的敏感知识。

迷因与幽默

社区分享了各种 AI 生成的迷因和幽默内容，包括“仓库机器人在工作 20 小时后倒下”、蒙娜丽莎演唱 Lady Gaga 的歌曲，以及突出当前局限性的 AI 生成漫画对话。

AI Twitter 摘要

所有摘要均由 Claude 3 Opus 完成，取 4 次运行中的最佳结果。我们正在使用 Haiku 进行聚类和流程工程（flow engineering）。

Meta Llama 3 发布

模型详情：@AIatMeta 发布了 8B 和 70B 尺寸的 Llama 3 模型，400B+ 模型仍在训练中。Llama 3 使用了 128K 词表 tokenizer 和 8K 上下文窗口。它在 15T tokens 上进行了训练，并使用 SFT, PPO 和 DPO 在 1000 万个样本上进行了微调。
性能表现：@karpathy 指出 Llama 3 70B 在 MMLU 等基准测试中 接近 GPT-4 级别的性能。8B 模型优于 Mistral 7B 等其他模型。@DrJimFan 强调它将是 第一个达到 GPT-4 级别的开源模型。
算力与缩放：@karpathy 估计 8B 模型消耗了 130 万 A100 小时，70B 模型消耗了 640 万小时，在 2.4 万个 GPU 集群上实现了 400 TFLOPS 的吞吐量。相对于 计算最优（compute-optimal） 的缩放比例，这些模型 训练严重不足。
可用性：模型可在 @huggingface, @togethercompute, @AWSCloud, @GoogleCloud 等平台获取。4-bit 量化版本允许在 消费级硬件上运行 8B 模型。

反应与影响

开源 AI 的进展：许多人强调这是 开源 AI 的分水岭时刻，超越了封闭模型。@bindureddy 等人预测开源模型将在 短短几周内达到 GPT-4 级别的能力。
LLM 的商品化：@abacaj 等人指出，随着人们优化运行时和蒸馏（distillation），这将 降低成本。一些人推测这可能会挑战 OpenAI 的商业模式。
微调与应用：包括 @maximelabonne 和 @rishdotblog 在内的许多人已经在针对编程、开放式问答等 微调 Llama 3。预计将出现 大量强大的开源模型和应用。

技术讨论

指令微调：@Teknium1 认为 Llama 3 的表现反驳了最近关于微调无法教给模型新知识或能力的说法。
过度训练与缩放：@karpathy 等人讨论了 远超计算最优（compute-optimal） 比例的训练如何产生推理效率高且强大的模型，这可能会改变最佳实践。
Tokenizer 与数据：@teortaxesTex 指出，改进后的 128K tokenizer 对效率至关重要，尤其是对于多语言数据。高质量的训练数据是一个关键焦点。

AI Discord 回顾

摘要的摘要之摘要

Llama 3 成为焦点：Meta 发布 Llama 3 引发了广泛讨论，其中 70B 参数模型的性能足以媲美 GPT-4 级别（Teknium 的推文），而 8B 版本表现优于 Claude 2 和 Mistral。Unsloth AI 已集成 Llama 3，承诺 2 倍的训练速度和减少 60% 的内存占用（GitHub Release）。一段初学者指南视频解释了该模型的 Transformer 架构。
Tokenizer 问题与微调修复：微调 Llama 3 面临挑战，缺失 BOS token 导致训练过程中出现高损失和 grad_norm inf。通过 Tokenizer 配置中的 PR 分享了修复方案。该模型庞大的 Tokenizer 词表引发了关于效率和必要性的辩论。
推理速度突破：Llama 3 在 Groq Cloud 上达到了每秒 800 个 token（YouTube 视频），Unsloth 用户报告在 7900XT 等 AMD GPU 上速度高达 60 tokens/s。讨论还强调了 Llama 3 70B 模型在 Groq 上低于 100ms 的首字节时间（TTFB）。
评估与对比 LLM：对话将 Llama 3 与 GPT-4、Claude 及其他模型进行了对比，尽管 lmsys 评分不错，但 Llama 3 70B 仍未完全达到 GPT-4 Turbo 的水平。FineWeb 数据集的发布（Guilherme Penedo 的推文）包含 15 万亿 token，表明其有潜力超越 RefinedWeb 和 The Pile 等现有数据集。
新兴工具与框架：讨论了几个新工具和框架，包括用于配置复杂应用的 Facebook Research 开发的 Hydra、作为 LLM 项目模板的 LiteLLM（网站）、用于协作提示词工程（Prompt Engineering）的 Prompt Mixer（网站），以及用于模式控制（Schema-controlled）自动化知识图谱的 WhyHow.AI 的 Knowledge Graph SDK（Medium 文章）。
检索增强生成 (RAG) 进展：RAG 的发展是热门话题，包括提议用于评估 RAG 模型的新基准（Stella Biderman 的推文）、使用 Llama 3 构建 RAG 聊天机器人的指南，以及关于使用 LangChain 的 Self-Querying Retriever 进行租房搜索的教程。
人类反馈强化学习 (RLHF) 见解：一篇题为《从 $r$ 到 $Q^*$：你的语言模型秘密地是一个 Q 函数》的新论文将传统的 RLHF 方法与直接偏好优化 (DPO) 进行了比较，使理论与标准 RLHF 方法及贝尔曼方程（Bellman equation）的满足相一致。
优化 Transformer 模型：讨论了优化 Transformer 模型的技术，包括在推理过程中压缩 token 长度的近似注意力机制（arXiv:2401.03462, arXiv:2401.06104）、通过 Activation Beacon 和 TOVA 等方法扩展上下文长度，以及动态分配 FLOPs（arXiv:2404.02258）。
伦理考量与法律影响：对话涉及 AI “越狱”的伦理影响及其诱发非预期 Agent 行为的可能性，以及使用 Nightshade 等工具可能违反《计算机欺诈与滥用法案》(CFAA) 的法律风险。
协作努力与社区参与：许多频道促进了项目协作，例如 minbpe-rs（GitHub，minbpe 的 Rust 移植版本），以及一个使用 Cohere Command R+ 的开源匹配 AI 应用（推文）。社区成员还分享了学习资源，例如 LLM 微调课程和 Eugene Yan 关于评估 LLM 的博客文章。

第 1 部分：高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Llama 3 成为热门话题：Unsloth AI 对 Llama 3 的集成引发了关于其潜力的讨论，正如其 GitHub Release 页面所详述，它能实现 2倍的训练速度提升和 60% 的内存占用减少。社区正积极探索 4-bit 模型以及量化对模型质量的影响，在实验各种 Llama 3 变体方面表现活跃，包括针对不同语言优化的版本，并分享在 Hugging Face 等平台上。

Notebook 引导：鼓励 AI 爱好者通过在 Google Colab 和 Kaggle 上准备充分的 Notebook 来测试 Llama 3，为全方位的 Fine-tuning 和实验铺平道路。

解决模型谜题与分享秘诀：坦诚的交流揭示了从 Llama 3 模型的 Fine-tuning 和推理问题，到关于 NVIDIA Jetson Orin nano 硬件讨论的种种挑战与成功。分享了针对循环响应（looping responses）的拟议修复方案以及对有效 CUDA 利用的见解，体现了协作解决问题的文化。

成果展示：成就得到了充分展示，例如一篇 LinkedIn 帖子揭示了针对阿拉伯语 Fine-tuning Llama 3 的精湛技艺，以及瑞典语模型 ‘bellman’ 的首次亮相。Ghost 7B Alpha 语言模型因其在英语和越南语方面的优化也受到了关注。

建议中的想法与输入：#suggestions 频道的对话提供了宝贵的收获，例如对模型合并（model merging）和 CUDA 调试教程的需求，以及 Unsloth Studio 实现多 GPU 功能的潜力。为了提高可读性而对服务器欢迎消息进行的调整，显示了对社区反馈的响应。

Perplexity AI Discord

AI 模型同台竞技：工程师们正在积极比较 Llama 3、Claude 3 Opus、GPT-4 和 GPT-4 Turbo 等 AI 模型在从法律文档分析到编程等任务中的表现。在限制 Perplexity AI 仅使用特定术语列表方面存在一些挑战，且 Claude 3 Opus 的每日查询上限为 50次。
协作成长：鼓励社区成员互相支持，例如一位用户在寻求关于 AI 开发的导师指导和资金建议时，虽然没有立即得到关于受限 API 输出的回复，但获得了 Y Combinator 和互联网学习平台等资源推荐，以助力学习和成长。
Perplexity 备受瞩目：Perplexity AI 因 Nandan Nilekani 的赞誉以及一段详述与 Meta AI Yann LeCun 会面的 YouTube 视频而受到关注。关键讨论正被公开分享，以突出多样化的查询和 AI 广博的知识库，强调了集体知识共享的文化。
API 使用讨论：工程师们讨论了 Perplexity API，强调了使用计数器的可见性，并寻求关于 API 额度刷新率的澄清。目前似乎需要关于 API 配额消耗的实时反馈，但尚未提供关于刷新率的具体信息。
未经授权的使用与自托管方案：社区正在讨论关于中国平台未经授权使用 API Key 的问题、其对服务可靠性的影响以及账号交易。一些成员倾向于将自托管作为可靠的解决方案，并分享了关于设置 Ollama Web UI 的指南。

Nous Research AI Discord

困惑于多 GPU 上下文推理：成员们正在评估如何使用多 GPU 对 Jamba 等模型进行长上下文推理。他们探索了 DeepSpeed 和 Hugging Face’s Accelerate 等工具，但收效甚微；尽管目前尚不支持 Jamba，但 vLLM 的张量并行（tensor parallel）方案看起来很有前景。

震撼的数据集发布：Hugging Face 上分享了一个潜空间 CIFAR100 数据集。令社区成员惊讶的是，尽管大多数潜变量（latents）无法准确解码，但使用简单的 FFN 仍能达到约 19% 的准确率。

DeepMind 发布用于网络构建的 Penzai：Penzai 是 DeepMind 推出的一款用于神经网络创新的 JAX 研究工具包，引起了广泛关注。同时，rubiks.ai 的一款高级研究助手和搜索引擎正在寻求 Beta 测试人员，该工具提供 Claude 3 Opus 和 GPT-4 Turbo 等模型的试用高级访问权限。

WorldSim 功能丰富的回归：WorldSim 的重新发布包含了 WorldClient 和 Mind Meld 等功能，采用了新的 token 按需付费模式，并提供了一系列不同成本配置的模型（Opus, Sonnet, Haiku）。

全方位审视 LLM：论坛讨论了 Llama 3 8B 和 Mistral 7B 之间微小的性能差距，尽管 Llama 拥有更大的数据集。同时，对 Llama 3 70B 的评估显示出更多潜力，而关于“grokking”一词的相关性（特别是在 LLM 方面）存在不同立场。

LM Studio Discord

解决 LM Studio 中的 GPU 使用问题：工程师报告称 LM Studio 将额外的 GPU 整合进一个更大的 VRAM 池中，但有时单个 GPU 上的 CUDA 利用率仍然很高。MacOS 用户指出 Metal 可能不会遵循 GPU 设置，从而影响机器温度。
模型搜索机制故障：用户在搜索和下载模型时遇到了 503 和 500 错误，这可能与 Hugging Face 持续的服务中断有关，影响了 LM Studio 的模型搜索和下载功能。
LM Studio 配置查询与教程：社区协助解决了关于配置 WizardLM 2 的困惑，包括一篇关于微调 token 使用的 Reddit 教程。讨论还详细阐述了 < Instruct > 模型与 Base 版本的行为差异，并解决了 Llama 3 中的死循环问题。
探索外部访问与多 GPU：提出了关于通过自定义域名托管在 LM Studio 中本地运行的 AI 的咨询，并讨论了多 GPU 设置，提出了关于功耗和技术配置的观点。
关于语言模型 Token 的深入讨论：技术人员澄清了 token 与音节一致的误解，解释了子词编码（subword encodings）。对话还批评了语言模型典型的 50,000 token 训练数据量，从性能和复杂性平衡的角度进行了考量。
多样化的硬件兼容性与设置：确认了 NVIDIA Jetson Orin 与 LM Studio 的兼容性，同时引用了 Reddit 上的 GPU 购买指南，供希望为 LM Studio 优化硬件设置的用户参考。
AMD ROCm 预览版在 Llama 3 上表现出色：LM Studio ROCm Preview 0.2.20 版本现在支持 MetaAI 的 Llama 3，仅限使用来自 “lmstudio-community” 的 GGUF 文件，并可在 LM Studio ROCm 网站访问。AMD GPU（如 7900XT）表现出令人印象深刻的 token 生成速度，约为 60 tokens/s。多显卡的兼容性和资源分配是热门话题，一些用户成功实现了在 LM Studio 中优先使用指定的 AMD GPU。

Stability.ai (Stable Diffusion) Discord

新用户在 Stable Diffusion 中的入门难题：新用户在开始使用 Stable Diffusion 时遇到了障碍，即使参考了 YouTube 的安装指南也无济于事；建议指向 ComfyUI 和 Clipdrop’s Stable Diffusion 等界面作为入门点。
对 AI 进展感到应接不暇：成员们感叹生成式 AI 的发展速度惊人，特别是在 Stable Diffusion 工具和模型方面。
技术支持小组解决 Stable Diffusion 问题：用户分享了在 Kohya 中定位已保存的 Stable Diffusion 训练状态的解决方案，重点在于从 checkpoint 恢复以及检查输出文件夹中的保存数据。
深入探讨 VRAM 在图像生成中的作用：关于图像生成 GPU 升级的咨询引发了讨论，涉及更大 VRAM 带来的多图生成能力以及更换 GPU 后升级驱动的问题。
释放 AI 艺术创作力的平台：新社区成员询问了用于创作 AI 驱动图像的工具，并被引导至与 Stable Diffusion 集成的 Web 界面和本地服务，例如 bing image creator 以及 Stability AI 官网 Core Models – Stability AI 上列出的平台。

CUDA MODE Discord

Kernel 性能与内存突破：一个新的 Kernel 实现显著地将 ‘matmul_backward_bias’ Kernel 性能提升了约 4 倍，另一项优化帮助 减少了约 25% 的内存消耗（从 14372MiB 降至 10774MiB）。关于 dtype 精度的讨论建议使用混合精度来平衡性能和内存使用，同时考虑将操作从线性复杂度降低到对数复杂度以提高效率。
应对 NVIDIA 库的细微差别：cuDNN 和 cuBLAS 函数的集成正在进行中，其中 dev/cuda 中针对 cuDNN Forward Attention 和 FP16 cuBLAS Kernel 的 PR 显示出显著的速度提升。成员们探讨了使用这些库进行精确混合精度训练的复杂性，以及自定义 backward pass 实现在解决梯度计算效率低下方面的潜力。
探索数据并行的效率：社区评估了使用 NCCL 扩展多 GPU 支持的不同方法，辩论了单线程多设备、多线程或多进程设置。共识倾向于一种 类 MPI 架构，该架构将支持超过 8 个 GPU 的配置并适应多主机环境。
GPU 计算中的梯度与量化质量：引入了一种旨在 LLM 推理期间动态调整计算的 Effort 算法，目标是在 Triton 或 CUDA 中实现。此外，关于 HQQ+ 结合 LoRA 导致 20% 速度下降的讨论表明仍有优化空间，而一个新的 fused int4 / fp16 Triton Kernel 在 GitHub pull request 中展示了优于默认 hqq.linear 前向计算的性能。
社区协作与技术支持：CUDA MODE 社区重点协作解决了一系列问题，包括反向传播期间的 Colab 会话崩溃、在 Triton Kernel 中处理灰度图像转换，以及选择合适的 GPU 来构建机器学习系统。成员们就 在 JAX 中实现 denseformer 时的内存管理 提供了高层建议，并分享了如 check_tensors_gpu_ready 等用于验证内存中连续数据的实用资源。
CUDA 学习机会与社交参与：宣布了 CUDA-MODE 第 15 讲：Cutlass，通过持续的 CUDA 系列讲座 来加深对 CUDA 编程的理解。在非正式方面，部分社区成员在德国明斯特（被戏称为“GPU 之都”）举行了线下聚会。
整合视听资源：提到了上传至 Google Drive 等渠道的讲座 YouTube 录像，展示了社区提供多种学习模式的承诺。
活动后勤与管理员管理：引入了新的“Moderator”角色，具备维护服务器秩序的能力，并强调了活动管理的协调，暗示了一个结构化且管理良好的社区环境。

OpenAccess AI Collective (axolotl) Discord

LLaMa-3 的 BOS Token 问题已解决：针对 LLaMa-3 的 fine-tuning 过程进行了一项重要修复，因为缺失 BOS token 曾导致问题；目前已通过 tokenizer configuration 中的 PR 进行了修正。

LLaMa-3 Fine-Tuning 遇到障碍：在尝试对 LLaMa-3 进行 fine-tune 时，一位用户遇到了神秘的 RuntimeError，并指出该问题在 Mistral 和 LLaMa-2 等其他模型中并未出现。

Tokenizing 难题：LLaMa-3 tokenizer 庞大的词表引发了关于其必要性和效率的辩论，一些人倾向于精简的方法，而另一些人则为其能够以更少的 tokens 编码长文本的能力辩护。

大型 LLMs 的 VRAM 消耗详情：提供了一份关于大型 LLMs 的 VRAM 使用情况明细，显示在高达 “81920 tokens” 的 batch size 下，logits 和 hidden states 的大小分别达到了 “19.57GiB” 和 “20GiB”。

Axolotl 的数据集自定义资源：为寻求理解自定义数据集结构的用户提供了 Axolotl 数据集文档的链接，其中提供了针对各种训练任务的关键示例和格式。

Eleuther Discord

智能手机上的智慧：移动端 LLM：爱好者报告称，在运行 Llama 3 等量化语言模型时，Samsung S24 Ultra 达到了 4.3 tok/s，而 S23 Ultra 达到了 2.2 tok/s。关于这项技术实用性的讨论参考了多个链接，包括 Pixel 的 AI 集成和结合 TensorFlow Lite 的 MediaPipe。
Self-Attention 的内部机制：针对 Transformer 模型中的 token 是否需要关注自身的 key-value 进行了技术审查。提出了通过实验性消融（ablation）来评估其对模型性能影响的建议，为未来的研究奠定了基础。
聚焦 Hugging Face 的财务可行性：社区成员思考了 Hugging Face 的商业模式，特别是他们的大文件托管策略，在质疑可持续收入来源的同时，将其与 GitHub 的模式进行了对比。
寻求提升 LLM 的推理能力：在关于评估语言模型推理能力的讨论中，Chain of Thought (CoT) 方法似乎占据主导地位，但对替代推理基准的需求依然强烈。缺乏更深层次的推理指标凸显了在 CoT 之外进行研究的必要性。
优化器对决：寻求平稳训练：为了解决训练不稳定性，建议采用 Stable AdamW 优化器，而不是带有 clipping 的原生版本。技术专家讨论了精细的参数调整和梯度直方图分析，以优化模型训练的稳定性。
Megalodon 占据一席之地：工程师们讨论了 Meta 的新架构 Megalodon 所谓的优越性，该架构在处理长上下文方面表现出色，尽管其普适性以及与其他机制相比的性能仍需通过更广泛的使用和对比分析来验证。
探索任务向量空间：对 AI 中“任务向量（task vectors）”的探索揭示了一种“即时（on-the-fly）”改变预训练模型行为的方法，从而实现动态的知识专业化——这一话题基于最近的一篇论文。
RAG 基准测试难题：这暗示了针对综合多方面信息的 RAG 模型开发基准测试的新前沿。担忧包括模型可能会因为在与基准内容相似的数据集上进行训练而获得不公平的优势。
缩小推理占用空间的近似创新：讨论通过在推理过程中近似 Attention 机制来压缩 token 长度，揭示了 Activation Beacon 和 TOVA 等几种策略，具有改变动态资源分配的潜力。
Transformer 上下文扩展：终极前沿？：大幅扩展 Transformer 模型上下文长度的可能性激发了人们的兴趣，讨论承认实现像 1000 万 token 这样的上下文窗口可能不仅仅需要微调，还暗示了对新型架构突破的需求。
关于 Chinchilla 复现的技术争论：一场激烈的辩论围绕着 Chinchilla 研究的复现尝试展开，重点关注舍入细微差别和残差分析以微调模型评估，这些讨论受到了 Twitter 上的互动以及对原始研究精度问题的启发。
DeepMind 的 SAE 探索进展：Google DeepMind 最近的探索优先考虑 Sparse Autoencoder (SAE) 的扩展和基础科学，团队在 Neel Nanda 的 Twitter 和 AI Alignment Forum 的帖子中分享了从基础设施到引导向量（steering vectors）的见解。
竞技场中的基准测试渴望：一份 Google 表格 正在流传（MMLU - 替代 Prompt），其中填满了 MMLU 分数，并寻求与已知基准进行对比，突显了社区的竞争精神。
贡献者寻求 lm-evaluation-harness 的指导：一位热心人士寻求在贡献 lm-evaluation-harness 方面的帮助，正与过时的指南和某些测试目录的缺失作斗争，这凸显了项目的持续演进以及对最新文档的需求。

Modular (Mojo 🔥) Discord

C++ 悄然超越 Python：讨论揭示了 C++ 相比 Python/Mojo 接口的性能优势，这与绕过 Python runtime 调用有关，可能会影响 inference 时间。

框架稳步前进：对话表明构建 Mojo 框架 的前景光明，并期待未来能在 Mojo 中利用 Python 框架，类似于 JavaScript 和 TypeScript 之间的兼容性。

性能之谜与增强：一位用户报告称 Rust 的前缀和（prefix sum）计算显著慢于 Mojo，引发了一场性能之谜。同时，关于在 Mojo 中引入 SIMD 别名的独立辩论显示出提升语言效率和语法清晰度的势头。

预告推文吊起技术人员胃口：Modular 发布了一系列 预告推文，暗示将有重大发布。虽然细节仍然寥寥，但等待揭晓的粉丝们显然充满期待。

视频协助请求引起共鸣：一名成员请求对其 AI 进化视频进行点赞和反馈，这不仅是在寻求社区支持，也反映了即使在时间紧迫的情况下对 AI 教育 和讨论的投入。

HuggingFace Discord

Llama 3 挑战 Claude：讨论指出 Llama 3 的 70b 模型 目前与 Claude Sonnet 旗鼓相当，而 8b 版本则超越了 Claude 2 和 Mistral。社区围绕各种 AI 模型的对比性能展开了积极讨论，并分享了针对 HF Pro 用户的 MistralAI/Mixtral-8x22B-Instruct-v0.1 API 访问见解，展示了 AI 模型开发中的竞争态势。
硬件难题与停机困境：机器学习任务的硬件适用性是一个交流话题，特别是 AMD RX 7600 XT 与高端型号及 Nvidia 产品的对比。同时，由于 HuggingFace 服务中断，有报告称操作受到干扰，凸显了项目对这些 AI 平台稳定性和可用性的依赖。
Groq Cloud 上的 AI 极速体验：Llama 3 在 Groq Cloud 上达到了每秒 800 个 token，详见 YouTube 视频。此外，用于语言模型数据准备的 tokenizer 的重要性也是研究和讨论的重点，进一步证明了社区对性能优化和基础机器学习方面的关注。
RAG 与视觉工具的开拓：开发者展示了他们的作品，包括一个结合了 Llama 3 的 RAG 系统聊天机器人 以及 Hugging Face Spaces 的多种创新用途。在计算机视觉领域，开源 OCR 工具 Nougat 和使用 TrackNetV3 在羽毛球追踪方面的改进受到关注，反映出对开源贡献和 AI 能力提升的强烈倾向。
NLP 精华与 Diffusion 讨论：在 NLP 领域，一名成员提出了 PHI-2 模型的微调困难，并宣布了一个新的 minbpe 的 Rust 移植版本，吸引了社区协作。Diffusion 模型领域的对话探讨了使用 Lora 训练以保持 inpainting 一致性 的可能性，而另一名成员则寻求 vespa 模型下载方面的帮助，彰显了问题解决和专业知识共享的协作氛围。

OpenRouter (Alex Atallah) Discord

新晋 LLM 登场：最新的 Nitro 驱动的 Llama 模型现已在 OpenRouter 上线，承诺为 AI 工程师带来性能提升，可在此处访问。OpenRouter 最近在 Wizard 8x22b 上面临的挑战凸显了需求带来的压力，请注意，由于最近的负载均衡器更新，非流式请求（non-stream requests）的性能提升正在不断演进。
精简服务与错误 URL 修正：在下架了 nitro 变体后，OpenRouter 已将用户重新定向到标准的 DBRX 132B Instruct 模型，确保工程师可以继续使用可用模型进行工作。此外，#app-showcase 频道中之前一个具有误导性的 URL 已被修正，这再次强调了文档准确性的重要性。
平台间的赞誉与联动：KeyWords AI 对 OpenRouter 的模型更新表示赞赏，这使他们能够为开发者增强功能集。这些协作努力凸显了 AI 工具和平台之间互联互通的本质，营造了一个实用性与创新并行的环境。
挑战 LLM 性能规范：讨论集中在 LLaMA-3 等模型中多语言支持的局限性和潜力，社区成员期待在语言多样性方面有所改进。大家承认了主机更新带来的性能和策展（curation）方面的差异，并关注如何持续获取高质量的 LLM，这对于致力于开发自适应 AI 体验的工程师来说至关重要。
AI 中的角色扮演与创意：AI 社区对 Soliloquy-L3 等专门模型表现出浓厚兴趣，该模型承诺通过支持扩展上下文来增强角色扮演能力。这一动态展示了集体追求，揭示了人们对超越传统创意 AI 应用限制的模型的内在渴望。

Latent Space Discord

Llama 3 对决 GPT-4：Llama 3 引发了用户讨论，一些人认为尽管它在 lmsys 上得分很高，但仍无法完全达到 GPT-4 Turbo 的性能。值得注意的是，Llama-3 70b 在 Groq Cloud 上的推理速度极快，响应时间不到 100ms。
评估与微调 AI：从业者正在使用 Facebook Research 的 Hydra 等工具进行微调应用，尽管有些人认为其文档尚不完善。此外，通过 Google Slides 展示了一种新的 LLM Evaluation 方法论，影响了关于实用模型评估策略的讨论。
值得关注的数据集与工具：拥有 15 万亿 token 的海量数据集 FineWeb 的亮相引起了关注，因为它有潜力超越 RefinedWeb 和 The Pile 等数据集的性能。此外，litellm 被强调为 LLM 项目的有用模板，可简化与各种模型的交互。
深入探讨 LLM 论文：论文俱乐部对《Improving Language Understanding by Generative Pre-Training》的痴迷表明了该论文在领域内的持续影响力。与会者非常看重这次会议，要求将其录制并上传到 YouTube 等平台以便更广泛地传播，这展示了社区对共享学习的承诺。
播客热潮席卷 Latent Space：人们对 Jason Liu 参与的最新一期 Latent Space Podcast 充满期待，这证实了社区对思想领导力和行业见解的渴望，相关信息可以在最近的 Twitter 公告中找到。

LAION Discord

Meta 的神秘举动：关于 Meta 限制 LLaMA-3 论文发布的异常做法引发了辩论，这标志着其模型发布框架可能发生转变，但尚未提及这种分歧的原因。

AI 工具的伦理与法律：该小组审查了围绕 Nightshade 的法律和伦理考量，提到由于其具备干预 AI 训练的能力，可能与计算机欺诈与滥用法案 (CFAA) 产生冲突。

提升 Diffusion Model 速度：由 NVIDIA、多伦多大学和 Vector Institute 开展的研究引入了 “Align Your Steps”，这是一种加速 Diffusion Model 的方法，并在其出版物中进行了讨论；然而，为了完全透明，有人呼吁发布训练代码。

评估 LLM 的视觉感知能力：引入了一个名为 Blink 的新基准，用于评估多模态语言模型；它特别衡量视觉感知能力，其中 GPT-4V 等模型与人类表现相比存在差距。Blink 基准测试的详细信息见研究摘要。

NLP 编程助手的协作开发：开发针对 JavaScript/Rust 的 NLP 编程助手引起了关注，并呼吁进行协作和知识共享，这表明工程师们正在持续追求改进自动化工具。

OpenAI Discord

AI 模型混搭大乱斗：工程师们正在测试各种 AI 组合，将 Claude 3 Opus 与 GPT-4 连接，并通过 Groq 集成 LLama 3 70B，尽管他们面临着参差不齐的结果和访问问题。讨论正在探索卷积层 (Hyena) 和 LoRa 在大语言模型中的理论应用，以优化微调方法。
Groq 的免费 AI 实力：Groq Cloud API 的免费服务成为关注焦点，推荐意见强调 LLaMa 3 是一款卓越的模型。社区正在利用这一资源进行 AI 创意尝试，例如能够编写 Python 的聊天角色扮演机器人。
数字雅典之梦与 AI 意识辩论的碰撞：对“数字雅典”的愿景与对 AI 意识的深度思考交织在一起，社区围绕依赖 AI 的未来社会结构以及关于意识本质的哲学辩论展开了讨论。
Prompt Engineering 的难题：Prompt Engineering 出现挑战，一名成员在从 JSON 字段中提取精确文本时遇到困难，促使其转向代码解释方法。此外，分享敏感 Prompt 引发了伦理担忧，导致了对 Prompt Engineering 伦理的思考。
学术 AI 探索：一位正在为其关于 AI 和生成算法的论文寻找大量资源的学者得到了指向 OpenAI 研究论文的指引，这标志着学术界对深化理解的追求。

LlamaIndex Discord

LlamaParse 自动化代码掌握：与 TechWithTimm 的合作实现了使用 LlamaParse 设置本地大语言模型 (LLMs) 以构建能够编写代码的 Agent；详情和工作流概览可在 Twitter 上查看。

本地 RAG 正式上线：使用 MetaAI 的 Llama-3 完全在本地构建 RAG 应用的指南已发布，同时附带一篇信息丰富的 Twitter 帖子，强调了向自托管 AI 应用迈进的趋势。

攻克 AI 谜题 ‘Infini Attention’：关于 Infini Attention 对生成式 AI 潜在影响的解释已发布，并附带一篇见解深刻的 LinkedIn 帖子。

地理 AI 数据可视化：AI 融资追踪表现在包含并显示了按城市划分的 AI 融资情况，邀请社区通过此 Google 表格进行审查；一条庆祝性的推文强调了过去一年 AI 公司的地理分布。

增强 LLMs 的 Markdown 支持和知识图谱 SDK：FireCrawl 与 LlamaIndex 的集成增强了 LLMs 的 Markdown 处理能力，而 WhyHow.AI 的知识图谱 SDK 现在支持构建由 Schema 控制的自动化图谱；更多探索请见相关的 Medium 文章和此处。

OpenInterpreter Discord

闪电般的 AI 微调速度：公会的工程师们一直在尝试使用 Mixtral 和 Llama 等快速学习模型，并指出高效微调所需的数据集规模很小。

Groq 运行 Llama3 的卓越性能：Llama3 模型在 Groq 硬件上表现出惊人的速度，引发了对其在实际应用中使用的兴趣，GitHub 上的讨论指出了 Windows 上 OI 特有的安装 Bug。

AI 工具中的 Bug 搜寻与权宜之计：社区讨论了各种 Bug，例如 M1 Macbooks 上 O1 的空格键问题以及 Llama 3 70b 的性能问题。推荐的修复方法包括安装 ffmpeg 以及使用 conda 切换 Python 版本。

Windows 的烦恼与 Macbook 的失误：在 Windows 上运行 Open Interpreter 的 O1 时出现的问题可能预示着客户端故障，而 M1 Macbooks 上的语音识别故障在按下空格键时会导致中断。

困惑澄清与稳定性审查：澄清了 O1 与 Open Interpret 对 Groq 的兼容性。对 Llama 3 70b 模型的稳定性表示担忧，认为较大的模型相比其较小的对应版本可能存在更大的不稳定问题。

Cohere Discord

MySQL 连接器困惑已消除：MySQL 与 Cohere LLMs 的集成引发了关于使用 Docker 和直接数据库回答的问题。尽管有报告称文档过时且 create_connector 命令运行异常，但一个 GitHub 仓库澄清了参考代码。

Command R 禁止商用：已明确 Command R (以及 Command R+) 在 CC-BY-NC 4.0 许可证下仅限于非商业用途，禁止在边缘设备上用于商业目的。

AI 初创公司人才征集：一位 AI 初创公司创始人正在积极寻找在 AI 研究和 LLMs 方面有深厚背景的专家，以协助模型微调（tuning）和语音模型。感兴趣的候选人可以通过 LinkedIn 进行联系。

实习受阻后的替代路径：分享了在 Cohere 实习申请被拒后追求 ML/软件工程职位的建议，包括利用大学网络、寻找有非公开实习机会的公司、贡献开源项目以及参加招聘会。

AI 伦理困境与技术更新：讨论内容包括对 AI “jailbreaks”（越狱）及其诱导非预期 Agent 行为的伦理影响的担忧，一个使用 @cohere Command R+ 的开源匹配 AI 应用，以及 Prompt Mixer 的发布，这是一个用于创建和评估 Prompt 的新 IDE，访问地址为 www.promptmixer.dev。

tinygrad (George Hotz) Discord

GPU 加速成就：一位工程师使用 HIP 编译器和 OpenCL（可能还使用了 Rusticl），成功在笔记本电脑的 Vega iGPU 上运行了硬件支持架构 (HSA)。这支持了本地、用户受控的 AI 环境趋势，以对抗对远程云端的依赖。
掌握模型精度：用户正在排查 tinygrad 中 einsum 操作的精度问题，遇到了下溢至 NaN 值的情况。他们讨论了 Tensor.numpy() 是否应转换为 float64 以保持稳定性，以及从 PyTorch 等框架移植模型的影响。
tinygrad 的云端可能性：在更广泛的行业转型背景下，关于 tinygrad 是否可能转向云服务的辩论正在进行。然而，社区表达了强烈的偏好，即保持 tinygrad 作为赋能个人的工具，而非依赖云服务。
改进错误消息：正在推动改进 tinygrad 中的错误消息，特别是关于 GPU 驱动不匹配和 CUDA 版本冲突的问题。虽然这受限于 CUDA API 特异性的限制，但这是提升开发者体验的一个潜在改进领域。
George Hotz 设定议程：George Hotz 预告了即将进行的讨论，包括 MLPerf 进展、KFD/NVIDIA 驱动、新的 NVIDIA CI、文档、调度器改进，以及关于在代码库中维持 7500 行代码限制的激烈辩论。他鼓励大家参加会议，并为特定参与者提供发言权。

DiscoResearch Discord

搅动 Mixtral 之池：关于 Mixtral 训练 的讨论强调了 “router_aux_loss_coef” 参数的使用。调整其值可能会显著影响训练的成功。
提升捷克语的 Babel 支持：正在进行通过增加数千个 Token 来扩展捷克语支持的工作，表明语言包容性是一个优先事项。社区提到了 Occiglot 项目 作为该领域的一个相关倡议。
AI 模型中的德语精度：针对不同模型的德语熟练程度出现了各种担忧。成员们测试了 Llama3 和 Mixtral 模型的德语表现，指出了语法和 Tokenizer 的奇特问题，并提到一个新变体在等待进一步测试，目前处于私有状态。
内存开销比 Token 更重要：已明确减少词表 Token 并不能提高推理速度；相反，受影响的是内存占用（memory footprint）。
聊天机器人趋向于效率化：正在探索将经济可行的聊天机器人集成到 CRMs 中，建议对功能进行分组，并可能针对不同任务采用多种模型类型。人们对拥有像 langchain 这样支持性的库来促进这一过程很感兴趣。

LangChain AI Discord

LangChain 端点的隐蔽性：工程师们正在寻求定位其 LangChain endpoint 的指导，这是与其功能交互的关键环节。此外，还观察到 firefunction 在不同设备上存在延迟不一致的问题。

迷失在海上的海盗口音 Swagger：一条孤零零的消息出现在 #langchain-templates 频道中，寻找用于海盗口音（pirate-speak）的 FastAPI 路由代码，但目前缺乏进一步的互动或相关线索。

在公海上巡航的社区创作：创新者们高举旗帜，展示了如 Trip-Planner Bot、LLM Scraper 和 AllMind AI 等多样化项目。资源涵盖了用于机器人和爬虫的 GitHub 仓库，以及在 Product Hunt 上为 AI 股票分析师寻求支持。

破译查询卷轴：一位 AI 专家阐明了使用 Self-querying retrievers 将自然语言查询精炼为结构化查询的过程，并将其智慧记录在使用 LangChain Self-Querying Retriever 进行租房搜索中。

知识图谱舰队升级：WhyHow.AI 通过升级 SDK 规划了增强知识图谱的航线，召唤勇敢的先驱者通过 Medium 文章加入 Beta 测试，为 Schema 控制的自动化机器人推波助澜。

Mozilla AI Discord

Instruct 格式的反击：社区正在努力解决 llama3 instruct format 的兼容性问题，因为它使用了一组不被 llamafile 和 llama.cpp server bin 识别的不同 tokens。这些问题在 LocalLLaMA subreddit 上被重点讨论，目前仍是讨论的热点。
致力于更好的对话：llama.cpp 的一个更新正在进行中，旨在包含 llama 3 chat template，这标志着在增强用户与模型交互方面迈出了一大步。该贡献目前正在评审中，Pull Request 见此处。
量化模型，质的飞跃：llama 3 8B 量化版本 的引入引起了广泛关注，并承诺在一天内发布到 llamafile，同时提供了一个 Hugging Face 上的测试链接。
探索 70B 的海洋：成员们被鼓励参与测试 llama 3 70B 模型，虽然目前已可访问但仍存在一些小 bug，特别是提到的“损坏的停止标记（broken stop token）”。他们希望在更大范围推广之前，通过社区测试来解决这些问题。
性能修补：针对 llamafiles 在不同系统上的执行进行了技术交流，指出 llama 3 70B 的表现优于其 8B 版本，特别是在 M1 Pro 32GB 等特定系统上，其中 Q2 量化级别未达到预期。改进和适应性仍然是讨论的焦点。

Interconnects (Nathan Lambert) Discord

扩展雄心：工程师们正期待即将发布的 100M、500M、1B 和 3B 模型，这些模型将取代目前的 pythia 套件。它们在约 5 万亿 (trillion) tokens 上进行训练，有望提升模型产品的技术水平。
基准测试演进：讨论重点关注了 Reinforcement Learning From Human Feedback 论文，该论文将传统的 RLHF 与 Direct Preference Optimization 进行了比较，并将理论基础与务实的 RLHF 方法（包括满足 Bellman equation）相结合。
评估备受关注：社区正在辩论 MMLU 和 BIGBench 等自动化评估与 ChatBotArena 等人工主导评估的有效性，并寻求明确基于 perplexity 的基准测试在模型训练与成品模型中的适用性。
社区参与和反馈：目前正在努力提高来自 13,000 多名订阅者的 Discord 参与度，策略包括让社区入口变得“显而易见”以及每季度的点名致谢。同时，一位成员分享了他们的 Typefully analysis 并寻求定稿前的反馈。
等待智慧结晶：社区对即将发布的录音充满期待，预计将在 1-2 周内发布，这反映了对知识共享和进展更新的高需求。

LLM Perf Enthusiasts AI Discord

Llama 3 以更小的规模击败 Opus：Llama 3 在竞技场中以卓越的表现令人印象深刻，尽管它是一个 70B 参数的模型，这表明规模并非 AI 有效性的唯一因素。
性能指标不能忽略误差范围：讨论强调了在评估 AI 模型性能时考虑 error bounds（误差范围）的重要性，这意味着对比比原始数字更加微妙。
Meta 的 Imagine 获得满堂彩：Meta.ai 的 Imagine 平台因其功能而受到赞誉，对话参与者渴望看到能证明其为何被认为“疯狂”的示例。
Azure 的慢动作服务测试：由于高延迟问题，工程师们正面临 Azure OpenAI 的挑战，某些请求耗时高达 20 分钟，这对时间敏感型应用非常不利。
是被限流还是运气不好？：Azure 实例上反复出现的速率限制 (rate limiting)，甚至 15 秒内 2 个请求就会触发限制，导致工程师们实施了退避策略 (backoff strategy) 来管理 API 调用频率。

Skunkworks AI Discord

Databricks 增强模型推理服务：Databricks 推出了 GPU 和 LLM 优化支持的公开预览版，旨在使用 Serverless GPU 部署 AI 模型，并针对 LLM 进行了优化，无需额外配置。
LLM 微调有了操作手册：贡献了一份关于微调预训练 LLM 的操作指南，推荐了 LoRA adapters 和 DeepSpeed 等优化方案，可以通过 Modal 的微调文档访问。
节省 Serverless 部署成本：一个 GitHub 仓库提供了廉价的 Serverless 托管选项，展示了一个 LLM 前端的设置示例，工程师可以通过此 GitHub 链接实现。
社区资源互动：一位公会成员对分享的 Serverless 推理文档表示感谢，确认了其对他们用途的实用性。
新技术需警惕预算：一些成员预计 Databricks 的优化功能可能会产生巨大的成本，并对负担能力表达了幽默的担忧。

Datasette - LLM (@SimonW) Discord

Blueprint AI 技术需求：一位工程师对使用 AI 模型 分析 PDF 图纸中的通风管道 blueprints 表示出兴趣，这表明了图像识别在建筑领域的实际应用案例。

建筑前的 AI 预览：工程社区讨论了 AI 作为建筑事务所 preflight 检查手段的兴起，用于在施工前发现问题和违反规范之处，尽管它尚未完全渗透到蓝图设计过程中。

Llama 3 登陆笔记本电脑：SimonW 更新了 llm-gpt4all plugin，使其支持在仅有 8GB RAM 的系统上运行 Llama 3 8B Instruct，这对使用 M2 MacBook Pro 等设备的用户来说是个福音。

插件已就绪：llm-gpt4all plugin 的 0.4 版本现已发布，支持与 Llama 3 8B Instruct 等新模型交互，详见最新的 GitHub release。

深入探索 Llama 3：SimonW 通过一篇详细的 blog post 全面介绍了 Llama 3 的功能，该模型被认为是领先的开源许可模型。

Alignment Lab AI Discord

面向 AI 新手的 LLAMA 3 解析：YouTube 上的入门指南拆解了 LLAMA 3 模型的 Transformer 架构，该指南针对希望了解这一先进模型的机器学习领域新人。指南强调了该模型的能力及其在现代 AI 开发中的作用。

AI21 Labs (Jamba) Discord 没有新消息。如果该服务器长时间保持沉默，请告知我们，我们将将其移除。

PART 2: 频道详细摘要与链接

Unsloth AI (Daniel Han) ▷ #general (1039 messages🔥🔥🔥):

Unsloth AI 开发讨论：对话涉及与 fine-tuning、pretraining 以及在不同应用中使用 Unsloth AI 相关的各种技术和策略，成员们分享了他们在训练模型方面的经验。
关于 Llama 模型和 Notebook 共享的担忧：用户对个人出售 Unsloth AI 提供的开源 notebooks 或从中获利表示担忧，并讨论了这些行为的伦理问题。
AI 主题的 YouTube 内容创作者：关于专注于 AI 的各种 YouTube 频道进行了良性辩论，并推荐了一些涵盖 AI 研究论文并进行有意义讨论的频道。
技术问题与 GPU 使用：成员们遇到了 Hugging Face 宕机的技术困难，并讨论了训练大模型的 GPU 利用策略，以及使用 Unsloth AI 增强 context lengths 的潜力。
社区支持与学习历程：分享了学习 AI 的链接和资源，一位成员对社区支持表示感谢。对话还深入探讨了学习和从事 AI 工作的个人历程，强调了该领域发展的迅猛速度。

Links mentioned:

Twitch: 未找到描述
no title found: 未找到描述
👾 LM Studio - Discover and run local LLMs: 查找、下载并实验本地 LLM
imone/Llama-3-8B-fixed-special-embedding · Hugging Face: 未找到描述
Google Colaboratory: 未找到描述
chargoddard/llama3-42b-v0 · Hugging Face: 未找到描述
Training Compute-Optimal Large Language Models: 我们研究了在给定计算预算下训练 Transformer 语言模型的最优模型大小和 Token 数量。我们发现当前的大语言模型明显训练不足...
Kaggle Llama-3 8b Unsloth notebook: 使用 Kaggle Notebooks 探索并运行机器学习代码 | 使用来自“无附加数据源”的数据
Unsloth - 4x longer context windows & 1.7x larger batch sizes: Unsloth 现在支持具有极长上下文窗口的 LLM 微调，在 H100 上最高可达 228K（Hugging Face + Flash Attention 2 为 58K，因此长了 4 倍），在 RTX 4090 上为 56K（HF + FA2 为 14K）。我们成功地...
Practical Deep Learning for Coders - Practical Deep Learning: 一门为具有一定编程经验、想要学习如何将深度学习和机器学习应用于实际问题的人设计的免费课程。
Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources | Amazon Web Services: 结构化查询语言 (SQL) 是一种复杂的语言，需要对数据库和元数据有深入理解。如今，生成式 AI 可以赋能没有 SQL 知识的人。这项生成式 AI 任务是...
unsloth/unsloth/tokenizer_utils.py at main · unslothai/unsloth: 以 2-5 倍的速度和减少 80% 的内存微调 Llama 3、Mistral 和 Gemma LLM - unslothai/unsloth
unsloth/unsloth/tokenizer_utils.py at main · unslothai/unsloth: 以 2-5 倍的速度和减少 80% 的内存微调 Llama 3、Mistral 和 Gemma LLM - unslothai/unsloth
Home: 以 2-5 倍的速度和减少 80% 的内存微调 Llama 3、Mistral 和 Gemma LLM - unslothai/unsloth
"okay, but I want Llama 3 for my specific use case" - Here's how: 如果你想要一个个性化的 AI 策略来让自己和你的业务面向未来，请加入我的社区：https://www.skool.com/new-society 在 Twitter 上关注我 -...
profiling-cuda-in-torch/ncu_logs at main · cuda-mode/profiling-cuda-in-torch: 通过在 GitHub 上创建账号，为 cuda-mode/profiling-cuda-in-torch 的开发做出贡献。
Add support for loading checkpoints with newly added tokens. by charlesCXK · Pull Request #272 · unslothai/unsloth: 未找到描述
GitHub - aulukelvin/LoRA_E5: 通过在 GitHub 上创建账号，为 aulukelvin/LoRA_E5 的开发做出贡献。
GitHub - oKatanaaa/unsloth: 5X faster 60% less memory QLoRA finetuning: 快 5 倍、内存减少 60% 的 QLoRA 微调。通过在 GitHub 上创建账号，为 oKatanaaa/unsloth 的开发做出贡献。
Direct Preference Optimization (DPO): 获取数据集：https://huggingface.co/datasets/Trelis/hh-rlhf-dpo 获取 DPO 脚本 + 数据集：https://buy.stripe.com/cN2cNyg8t0zp2gobJo 获取完整进阶...
hu-po: 关于机器学习论文、编程、研究的直播。可承接咨询和合同工作。 ⌨️ GitHub https://github.com/hu-po 💬 Discord https://discord.gg/pPAFwndTJd 📸 Instagram http://instagram.com...
Yannic Kilcher: 我制作关于机器学习研究的视频。论文、编程、AI 社区议题，以及 AI 对社会的更广泛影响。Twitter: https://twitter.com/ykilcher Discord: https://ykil...
Umar Jamil：我是一名来自意大利米兰的 Machine Learning 工程师，目前居住在中国，正在教我的猫“奥利奥”复杂的 Deep Learning 和 Machine Learning 概念。我也会一点中文。
code_your_own_AI：解释新技术。与 @code4AI 一起编写新的 Artificial Intelligence (AI) 模型——在这里，复杂的 AI 概念将基于理论物理学得到清晰的阐释。深入研究最新的进展...
Hugging Face 状态：未找到描述
main : 由 ggerganov 添加 Self-Extend 支持 · Pull Request #4815 · ggerganov/llama.cpp：#4810 的延续。基于此项工作为 main 分支添加上下文扩展（context extension）支持：https://arxiv.org/pdf/2401.01325.pdf。使用约 8k 上下文和基础 LLaMA 7B v... 进行了初步的事实提取测试。

Google Colaboratory

提到的链接：

未找到标题: 未找到描述
unsloth/llama-3-70b-Instruct-bnb-4bit · Hugging Face: 未找到描述
Q*: 点赞 👍。评论 💬。订阅 🟥。🏘 Discord: https://discord.gg/pPAFwndTJdhttps://github.com/hu-po/docs 从 r 到 Q∗：你的语言模型秘密地是一个 Q-Fun...
CUDA MODE: 一个 CUDA 读书小组和社区 https://discord.gg/cudamode 补充内容见此处 https://github.com/cuda-mode 由 Mark Saroufim 和 Andreas Köpf 创建
Discord - 与朋友和社区聊天的新方式: Discord 是通过语音、视频和文字进行交流的最简单方式。聊天、聚会，并与你的朋友和社区保持紧密联系。

提到的链接：

未找到标题: 未找到描述
OrpoLlama-3-8B - mlabonne 创建的 Hugging Face Space: 未找到描述
Fine-tuning | 操作指南: 全参数 Fine-tuning 是一种对预训练模型所有层的所有参数进行微调的方法。
G-reen/EXPERIMENT-ORPO-m7b2-1-merged · Hugging Face: 未找到描述
Love Actually Christmas GIF - Love Actually Christmas Christmas Movie - Discover & Share GIFs: 点击查看 GIF
Tomeu Vizoso 的开源 NPU 驱动项目摆脱了 Rockchip RK3588 的 Binary Blob: 感谢 Vizoso 的努力，现在任何拥有 Rockchip RK3588 并运行机器学习工作负载的用户都有了 Binary Blob 驱动程序之外的替代方案。
主页: 微调 Llama 3, Mistral & Gemma LLM 速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
Carson Wcth GIF - Carson WCTH Happens To The Best Of Us - Discover & Share GIFs: 点击查看 GIF
config.json · Finnish-NLP/llama-3b-finnish-v2 at main: 未找到描述
Atom Real Steel GIF - Atom Real Steel Movie - Discover & Share GIFs: 点击查看 GIF
Issues · ggerganov/llama.cpp: 使用 C/C++ 进行 LLM 推理。通过在 GitHub 上创建账号来为 ggerganov/llama.cpp 的开发做出贡献。
unslo: GitHub 是 unslo 构建软件的地方。
unsloth_finetuning/src/finetune.py at main · M-Chimiste/unsloth_finetuning: 通过在 GitHub 上创建账号来为 M-Chimiste/unsloth_finetuning 的开发做出贡献。
save_pretrained_gguf method RuntimeError: Unsloth: Quantization failed .... · Issue #356 · unslothai/unsloth: /usr/local/lib/python3.10/dist-packages/unsloth/save.py in save_to_gguf(model_type, model_directory, quantization_method, first_conversion, _run_installer) 955 ) 956 else: --> 957 raise RuntimeErro...
我让 unsloth 在原生 Windows 下运行了。 · Issue #210 · unslothai/unsloth: 我让 unsloth 在原生 Windows 下运行了（无需 WSL）。你需要 Visual Studio 2022 C++ 编译器、Triton 和 DeepSpeed。我有一个完整的安装教程，我本想在这里写下来，但我现在在用手机...
GitHub - unslothai/unsloth: 微调 Llama 3, Mistral & Gemma LLM 速度提升 2-5 倍，显存占用减少 80%: 微调 Llama 3, Mistral & Gemma LLM 速度提升 2-5 倍，显存占用减少 80% - unslothai/unsloth
GitHub - sgl-project/sglang: SGLang 是一种专为大语言模型 (LLM) 设计的结构化生成语言。它使你与模型的交互更快、更可控。: SGLang 是一种专为大语言模型 (LLM) 设计的结构化生成语言。它使你与模型的交互更快、更可控。 - sgl-project/sglang
Reddit - 深入探索一切: 未找到描述
Trainer: 未找到描述
teknium/OpenHermes-2.5 · Hugging Face 数据集: 未找到描述
Index of /: 未找到描述
Hugging Face 状态
GitHub - ggerganov/llama.cpp: LLM inference in C/C++: LLM 推理（C/C++ 实现）。通过在 GitHub 上创建账号来为 ggerganov/llama.cpp 的开发做出贡献。
llama3 family support · Issue #6747 · ggerganov/llama.cpp: llama3 已发布，很高兴能在 llama.cpp 中使用 https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6 https://github.com/meta-llama/llama3

提到的链接：

neph1/llama-3-instruct-bellman-8b-swe-preview · Hugging Face: 未找到描述
mahiatlinux/MasherAI-7B-v6.1 · Hugging Face: 未找到描述
ghost-x/ghost-7b-alpha · Hugging Face: 未找到描述
Ghost 7B Alpha: 该大型生成语言模型专注于优化卓越的推理能力、多任务知识和工具支持。
Ghost 7B Alpha 游乐场: 为了让每个人都能通过 Google Colab 和 Kaggle 等平台快速体验 Ghost 7B Alpha 模型。我们提供了这些 Notebook，以便你可以立即开始。
pcuenca 支持 Llama 3 转换 · Pull Request #6745 · ggerganov/llama.cpp: Tokenizer 是 BPE。

提到的链接：

Lecture 14: Practitioners Guide to Triton：https://github.com/cuda-mode/lectures/tree/main/lecture%2014
如何在 Windows 10 上通过 SSH 运行远程 Jupyter Notebooks：能够在远程系统上运行 Jupyter Notebooks 极大地增加了工作流的灵活性。在这篇文章中，我将展示一种利用一些巧妙功能来实现这一目标的简单方法……

提到的链接：

Perplexity Model Selection: 使用 jQuery 为 Perplexity AI 添加模型选择按钮
🏡 Home | Open WebUI: Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI，旨在完全离线运行。它支持各种 LLM 运行器，包括 Ollama 和 OpenAI 兼容的 API。
GroqCloud: 体验世界上最快的推理速度
不仅仅是 OpenAI 的套壳：Perplexity 转向开源: Perplexity CEO Aravind Srinivas 是 Larry Page 的忠实粉丝。然而，他认为自己找到了一种方法，不仅可以与 Google 搜索竞争，还可以与 OpenAI 的 GPT 竞争。
在任何地方使用你的自托管 LLM 与 Ollama Web UI: 未找到描述
申请 Y Combinator | Y Combinator: 要申请 Y Combinator 项目，请提交申请表。我们每年分两批接收公司。该项目包括每周二的晚宴、与 YC 合伙人的办公时间以及访问权限...
互联网上使用的语言 - 维基百科: 未找到描述
Andrej Karpathy: 常见问题 Q: 我该如何付钱给你？你有 Patreon 之类的吗？A: 作为 YouTube 合作伙伴，我会分享视频中少量的广告收入，但我没有维护任何其他额外的付费渠道。我...
来自 Aravind Srinivas (@AravSrinivas) 的推文: 8b 非常棒。可以用它创造更多体验。我们有一些想法。敬请期待！↘️ 引用 MachDiamonds (@andromeda74356) @AravSrinivas 你会将免费版 Perplexity 切换到...
动动脑筋 GIF - 动动脑筋使用你的大脑 - 发现并分享 GIF: 点击查看 GIF
Yt Youtube GIF - Yt Youtube Logo - 发现并分享 GIF: 点击查看 GIF
永恒模式 • 无限后室: 人工智能的疯狂梦想 - 不适合胆小或心理承受能力弱的人
Morphic: 一个完全开源的 AI 驱动回答引擎，具有生成式 UI。
机器人抑郁 GIF - 机器人抑郁 Marvin - 发现并分享 GIF: 点击查看 GIF
llm-sagemaker-sample/notebooks/deploy-llama3.ipynb 在 main 分支 · philschmid/llm-sagemaker-sample: 通过在 GitHub 上创建账号来为 philschmid/llm-sagemaker-sample 的开发做出贡献。
OpenAI 的最新成果来到 Copilot。编程助手随着新的 AI 模型而进化: 在过去的一年里，人工智能不仅是 DALL·E 等图像生成器和 ChatGPT 等聊天机器人背后的推手，它还...
Perplexity CTO Denis Yarats 谈 AI 驱动的搜索: Perplexity 是一款 AI 驱动的搜索引擎，用于回答用户的问题。Perplexity 成立于 2022 年，估值超过 10 亿美元，最近月活跃用户突破了 1000 万...
亚马逊向 Anthropic 投资 40 亿美元以对抗 ChatGPT：最强 AI 之争才刚刚开始: OpenAI 凭借 ChatGPT 的发布震撼了整个行业，促使越来越多的公司投资生成式 AI 技术。这导致了...
GitHub - developersdigest/llm-answer-engine: 使用 Next.js, Groq, Mixtral, Langchain, OpenAI, Brave 和 Serper 构建一个受 Perplexity 启发的回答引擎: 使用 Next.js, Groq, Mixtral, Langchain, OpenAI, Brave 和 Serper 构建一个受 Perplexity 启发的回答引擎 - developersdigest/llm-answer-engine
byzaEgUZNsihl">AWS re:Invent 2023 - 客户主题演讲 Anthropic：在这场 AWS re:Invent 2023 炉边谈话中，Anthropic 的 CEO 兼联合创始人 Dario Amodei 与 Amazon Web Services (AWS) 的 CEO Adam Selipsky 讨论了 Anthr...
AWS re:Invent 2023 - 客户主题演讲 Perplexity | AWS Events：听取 Perplexity 联合创始人兼 CEO Aravind Srinivas 讲述这家对话式人工智能 (AI) 公司如何通过提供...来重新定义搜索。
Eric Gundersen 谈 Mapbox 如何利用 AWS 每天绘制数百万英里的地图：在此处了解更多关于 AWS 如何助力您的海量数据解决方案 - http://amzn.to/2grdTah。Mapbox 每天利用...收集 1 亿英里的遥测数据。
未找到标题：未找到描述
Rick Astley - Never Gonna Give You Up (官方音乐视频)：Rick Astley 的 “Never Gonna Give You Up” 官方视频。新专辑 'Are We There Yet?' 现已发行：在此下载：https://RickAstley.lnk.to/AreWe...
GitHub - xx025/carrot: Free ChatGPT Site List 这儿为你准备了众多免费好用的 ChatGPT 镜像站点：Free ChatGPT Site List 这儿为你准备了众多免费好用的 ChatGPT 镜像站点。通过在 GitHub 上创建账号为 xx025/carrot 的开发做出贡献。

提到的链接：

Nandan Nilekani 对 Aravind Srinivas 的“瑞士军刀”搜索引擎给出了极高评价：Nandan Nilekani 对 Perplexity AI 的评价，会让你迫不及待地想注册 Aravind Srinivasan 的“瑞士军刀”搜索引擎。
揭秘这家挑战 Google 地位的热门 AI 初创公司：2022 年 8 月，Aravind Srinivas 和 Denis Yarats 在曼哈顿下城的 Meta AI 负责人 Yann LeCun 办公室外等了整整五个小时，连午饭都没吃...
Perplexity CTO Denis Yarats 谈 AI 驱动的搜索：Perplexity 是一款回答用户问题的 AI 驱动搜索引擎。Perplexity 成立于 2022 年，估值超过 10 亿美元，最近月活跃用户突破了 1000 万...

提到的链接：

Do Llamas Work in English? On the Latent Language of Multilingual Transformers：我们探讨了在不平衡、以英语为主的语料库上训练的多语言语言模型是否使用英语作为内部中转语言——这是一个对于理解语言模型如何运作至关重要的问题...
The Linear Representation Hypothesis and the Geometry of Large Language Models：非正式地说，“线性表示假设”是指高层概念在某些表示空间中被线性地表示为方向。在本文中，我们解决了两个密切相关的问题...
Hellinheavns GIF - Hellinheavns - 发现并分享 GIF：点击查看 GIF
Verah/latent-CIFAR100 · Hugging Face 数据集：未找到描述
Beastie Boys - Root Down：高清重制版！在此阅读 Ill Communication 背后的故事：https://www.udiscovermusic.com/stories/ill-communication-beastie-boys-album/ 聆听更多来自...
deadmau5 & Kaskade - I Remember (HQ)：▶︎ https://deadmau5.ffm.to/randomalbumtitle 在此关注 deadmau5 及其好友：https://sptfy.com/PjDO 当前巡演信息：https://deadmau5.com/shows 加入...

GitHub - google-deepmind/penzai: A JAX research toolkit for building, editing, and visualizing neural networks.

world_sim

提到的链接：

EvalPlus Leaderboard: 未找到描述
NousResearch/Genstruct-7B · Hugging Face: 未找到描述
Justine Tunney (@JustineTunney) 的推文: @sytelus Meta LLaMA3 70B 在使用 llamafile v0.7.1 时，在 8192 token 上下文窗口下达到了 38 tok/sec。
RAG 模型有多忠实？量化 RAG 与 LLMs 内部先验之间的拉锯战: 检索增强生成 (RAG) 常用于修复幻觉并为大语言模型 (LLM) 提供最新知识。然而，当 LLM 独立错误回答问题时...
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face: 未找到描述
训练与微调 Sentence Transformers 模型: 未找到描述
Rage GIF - Rage - 发现并分享 GIF: 点击查看 GIF
Binyuan Hui (@huybery) 的推文: 刚刚评估了 Llama3-8B-base 的编程能力👇🏻
未找到标题: 未找到描述
LLM 上下文召回依赖于 Prompt: 大语言模型 (LLM) 的激增凸显了进行彻底评估以辨别其比较优势、局限性和最佳用例的关键重要性。特别是...
Guilherme Penedo (@gui_penedo) 的推文: 我们刚刚发布了 🍷 FineWeb：15 万亿 token 的高质量网络数据。我们过滤并去重了 2013 年至 2024 年间所有的 CommonCrawl 数据。在 FineWeb 上训练的模型优于 RefinedWeb、C4...
Thilak Rao (@Thilak) 的推文: 刚刚通过 @private_llm 在我的 iPhone 上运行了 @Meta 的 Llama 3 8B Instruct，在 8GB 设备上实现了完全端侧运行及完整的 8K 上下文。即将支持所有 6GB 或更多内存的 iPhone...
Benjamin Warner (@benjamin_warner) 的推文: 如果使用 Hugging Face 微调 Llama 3，请使用 Transformers 4.37 或 4.40。4.38 和 4.39 中的 Llama 和 Gemma 没有使用 PyTorch 的 Flash Attention 2 内核，导致内存占用过高。4.40 使用了 FA2...
OpenRouter: LLM 和其他 AI 模型的路由服务
归因问答：归因大语言模型的评估与建模: 大语言模型 (LLM) 在几乎不需要直接监督的情况下展示了令人印象深刻的结果。此外，越来越多的证据表明 LLM 在信息寻求场景中具有潜力...
GitHub - google-research-datasets/Attributed-QA: 我们认为 LLM 对其生成的文本进行归因的能力，对于信息寻求场景中的系统开发者和用户都至关重要。此发布包含了一个新问答任务——归因问答 (AQA) 的人工评分系统输出。: 我们认为 LLM 对其生成的文本进行归因的能力，对于信息寻求场景中的系统开发者和用户都至关重要。此发布包含...
Philipp Schmid (@_philschmid) 的推文: 我正在尝试使用 Q-LoRA 微调 Llama 3 8B (70B)。为了方便起见，我想坚持使用 Llama 3 Instruct 模板。目前注意到的两件事：1. 预训练似乎...
GitHub - google-research-datasets/QuoteSum: QuoteSum 是一个文本问答数据集，包含由人类编写的、基于维基百科段落的半抽取式多源问答 (SEMQA) 示例。: QuoteSum 是一个文本问答数据集，包含由人类编写的、基于维基百科段落的半抽取式多源问答 (SEMQA) 示例。 - google-research-datasets/QuoteSum
GitHub - FasterDecoding/Medusa: Medusa: 通过多解码头加速 LLM 生成的简单框架: Medusa: 通过多解码头加速 LLM 生成的简单框架
Beastie Boys - Sabotage: 高清重制版！在此阅读 Ill Communication 背后的故事：https://www.udiscovermusic.com/stories/ill-communication-beastie-boys-album/ 听更多...
GitHub - Mozilla-Ocho/llamafile: Distribute and run LLMs with a single file.: 通过单个文件分发和运行 LLM。通过在 GitHub 上创建账号为 Mozilla-Ocho/llamafile 的开发做出贡献。
GitHub - stanfordnlp/pyreft: ReFT: Representation Finetuning for Language Models: ReFT：语言模型的表示微调 - stanfordnlp/pyreft
未找到标题: 未找到描述
Replete-AI/Rombo-Hermes-2.5-Extra-code · Hugging Face 数据集: 未找到描述

提到的链接：

chargoddard/mistral-11b-slimorca · Hugging Face: 未找到描述
[Model] Jamba support by mzusman · Pull Request #4115 · vllm-project/vllm: 为 vLLM 添加 Jamba 支持。此 PR 包含两部分：Jamba 建模文件和 Mamba 内存处理。由于 Jamba 是混合模型（在 Mamba 和 Transformer 层之间交替）...

提到的链接：

Grok-1.5 Vision Preview: 未找到描述
xai-org/RealworldQA · Hugging Face 数据集: 未找到描述

提到的链接：

LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding：最近，与传统的稀疏或词袋模型方法相比，基于嵌入的检索或密集检索显示出了最先进的结果。本文介绍了一种模型无关的文档...
A Survey on Retrieval-Augmented Text Generation for Large Language Models：检索增强生成 (RAG) 将检索方法与深度学习的进展相结合，通过实现动态整合...来解决大语言模型 (LLM) 的静态局限性。
Evaluate RAG with LlamaIndex | OpenAI Cookbook：未找到描述
Stella Biderman (@BlancheMinerva) 的推文：为 RAG 模型创建一个基准测试，其中所有问题都需要综合多个文档的信息才能回答。研究在公开数据上训练的模型在该基准上的表现...
Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation：尽管大语言模型 (LLM) 取得了成功，但它们在处理长上下文时表现出明显的缺点。它们的推理成本随序列长度呈二次方增长...
Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation：大语言模型的快速发展导致了检索增强生成 (RAG) 的广泛采用，它整合了外部知识以缓解知识瓶颈并减少...
RAR-b: Reasoning as Retrieval Benchmark：语义文本相似度 (STS) 和信息检索 (IR) 任务是过去几年记录嵌入模型进展的两个主要途径。在兴起的检索...
A RAG Method for Source Code Inquiry Tailored to Long-Context LLMs：虽然大语言模型 (LLM) 的上下文长度限制已得到缓解，但它仍然阻碍了它们在软件开发任务中的应用。本研究提出了一种结合了...的方法。

提到的链接：

world_sim: 未找到描述
Generirao Microsoft Copilot: 未找到描述
world_sim: 未找到描述
vicgalle/Worldsim-Hermes-7B · Hugging Face: 未找到描述
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
GroqCloud: 体验世界上最快的推理速度
Karan4D's WorldSim System Prompt Open Source - Pastebin.com: Pastebin.com 自 2002 年以来一直是排名第一的粘贴工具。Pastebin 是一个可以在线存储文本一段时间的网站。
Jim Carrey Ohcome On GIF - Jim Carrey Ohcome On - 发现并分享 GIF: 点击查看 GIF
未找到标题: 未找到描述
Snow World Simulator - HuggingChat: 在 HuggingChat 中使用 Snow World Simulator 助手
Super World Sim - HuggingChat: 在 HuggingChat 中使用 Super World Sim 助手
Image Generator - HuggingChat: 在 HuggingChat 中使用 Image Generator 助手
Jailbroken Prometheus Chat: 未找到描述
nickabenson: 欢迎来到 Nickabenson 频道。我们的 Patreon: https://www.patreon.com/nickabenson 我们的 Amino: http://aminoapps.com/c/Nickabenson。我们主要进行游戏直播、讨论、动画制作等...
eternal mode • infinite backrooms: 一个人工智能的疯狂梦想——不适合胆小者或心理承受能力弱的人
Desiderata for an AI — LessWrong: 我认为对齐工作的重点应该放在从头开始重新设计 AI。在此过程中，我认为我们应该记住一系列理想的……
揭秘 CIA 的星门计划（Stargate Project）和超级英雄般的中间人（Midwayers）: 标签：1. #Stargate 2. #Midwayer 3. #Urantia 4. #Spiritual 5. #Extraterrestrials 6. #InvisibleRealm 7. #PlanetarySentinels 8. #CIADeclassifiedFiles 9. #Supernatura...
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
Mephisto's Dream | 科幻动画: Mephisto 是一位软件开发人员，他创建了 World Sim，这是一个基于文本的 AI 系统，可以模拟包含意识体的整个宇宙，他相信用户交互会……
Suzanne Treister - Amiga 视频游戏剧照 - 菜单: 未找到描述
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
Reddit - 深入探索任何事物: 未找到描述
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
HuggingChat: 让每个人都能使用社区最好的 AI 聊天模型。
现已在您喜爱的数字商店上架！: 《建筑师的难题：Quantumom vs. Data Dad》，作者 Nicholas Alexander Benson

提到的链接：

Character Counter - WordCounter.net: 未找到描述
LMStudio | AnythingLLM (由 Mintplex Labs 提供): 未找到描述
OpenAI 兼容性 · Ollama 博客: Ollama 现在初步兼容 OpenAI Chat Completions API，使得通过 Ollama 在本地模型上使用为 OpenAI 构建的现有工具成为可能。
LM Studio (@LMStudioAI) 的推文: LM Studio 内的模型搜索/下载可能会受到此次 Hugging Face 停机的影响。请关注后续更新 ↘️ 引用 Hugging Face Status (@hf_status) 我们正在经历一些停机...
lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
Docker: 未找到描述
LM Studio Beta 版本发布: 未找到描述
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face: 未找到描述
Teknium (e/λ) (@Teknium1) 的推文: 好吧伙计们，我们在家也能用上 gpt-4 了
本地 LLM 服务器 | LM Studio: 你可以通过在 localhost 上运行的 API 服务器，使用在 LM Studio 中加载的 LLM。
视觉模型 (GGUF) - lmstudio-ai 集合: 未找到描述
Reddit - 深入探索一切: 未找到描述
lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF (main 分支): 未找到描述
IBM Technology: 无论是 AI、自动化、网络安全、数据科学、DevOps、量子计算还是介于两者之间的任何领域，我们都提供关于重大技术话题的教育内容。订阅以提升你的技能...
Reddit - 深入探索一切: 未找到描述
Reddit - 深入探索一切: 未找到描述
Big Code 模型排行榜 - 由 bigcode 提供的 Hugging Face Space: 未找到描述
Qwen/CodeQwen1.5-7B-Chat-GGUF · Hugging Face: 未找到描述
Reddit - 深入探索一切: 未找到描述
christopherthompson81/quant_exploration · Hugging Face 数据集: 未找到描述
Reddit - 深入探索一切: 未找到描述
GitHub - Mintplex-Labs/anything-llm：适用于任何 LLM 的全能 AI 应用，具备完整的 RAG 和 AI Agent 能力。: 适用于任何 LLM 的全能 AI 应用，具备完整的 RAG 和 AI Agent 能力。 - Mintplex-Labs/anything-llm
GitHub - Crizomb/ai_pdf：在本地与任何 PDF 聊天。提问并获取带有有用参考的回答。非常适合数学 PDF（将其转换为 LaTeX，一种计算机可理解的数学语法）: 在本地与任何 PDF 聊天。提问并获取带有有用参考的回答。非常适合数学 PDF（将其转换为 LaTeX，一种计算机可理解的数学语法） - Crizomb/ai_pdf
Reddit - 深入探索一切: 未找到描述
[1小时演讲] 大语言模型简介: 这是一场面向普通观众的 1 小时大语言模型简介：它是 ChatGPT、Claude 和 Bard 等系统背后的核心技术组件。什么是...
GitHub - BBC-Esq/VectorDB- Plugin-for-LM-Studio: 为以服务器模式运行的 LM Studio 创建 ChromaDB 向量数据库的插件！</a>: 为以服务器模式运行的 LM Studio 创建 ChromaDB 向量数据库的插件！ - BBC-Esq/VectorDB-Plugin-for-LM-Studio
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF at main: 未找到描述
GitHub - mlabonne/llm-course: Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks.: 包含路线图和 Colab 笔记本的 Large Language Models (LLMs) 入门课程。 - mlabonne/llm-course
Hugging Face 状态 : 未找到描述
ikawrakow 提交的 k-quants · Pull Request #1684 · ggerganov/llama.cpp: [内容] 此 PR 增加了一系列 2-6 bit 量化方法以及量化混合方案，如 #1240 和 #1256 中所述。提供了 Scalar, AVX2, ARM_NEON 和 CUDA 实现。原因在于...

提到的链接：

PyPy 的沙箱功能 — PyPy 文档: 未找到描述
未找到标题: 未找到描述
lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
raincandy-u/Llama-3-Aplite-Instruct-4x8B · Hugging Face: 未找到描述
尤达大师 GIF - 尤达星球大战 - 发现并分享 GIF: 点击查看 GIF
Reddit - 深入探索一切: 未找到描述
configs/llama3.preset.json at main · lmstudio-ai/configs: LM Studio JSON 配置文件格式及示例配置文件集合。 - lmstudio-ai/configs
MaziyarPanahi/WizardLM-2-7B-GGUF · Hugging Face: 未找到描述
模型 - Hugging Face: 未找到描述
M3 max 128GB 用于运行 Llama2 7b 13b 和 70b 的 AI: 在本视频中，我们使用配备 128GB 内存的新款 M3 max 运行 Llama 模型，并将其与 M1 pro 和 RTX 4090 进行对比，以查看该芯片的真实性能...
GitHub - OpenInterpreter/open-interpreter: 计算机的自然语言接口: 计算机的自然语言接口。通过在 GitHub 上创建账号为 OpenInterpreter/open-interpreter 的开发做出贡献。
GitHub - abetlen/llama-cpp-python: llama.cpp 的 Python 绑定: llama.cpp 的 Python 绑定。通过在 GitHub 上创建账号为 abetlen/llama-cpp-python 的开发做出贡献。
GitHub - ggerganov/llama.cpp: C/C++ 中的 LLM 推理: C/C++ 中的 LLM 推理。通过在 GitHub 上创建账号为 ggerganov/llama.cpp 的开发做出贡献。

来自 LM Studio (@LMStudioAI) 的推文

提及的链接：

未找到标题：未找到描述
Reddit - 深入了解任何事物：未找到描述

提及的链接：

NousResearch/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face：未找到描述
👾 LM Studio - 发现并运行本地 LLM：查找、下载并实验本地 LLM
lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF · Hugging Face：未找到描述
configs/llama3.preset.json at main · lmstudio-ai/configs：LM Studio JSON 配置文件格式和示例配置文件集合。 - lmstudio-ai/configs
系统要求 (Windows) — HIP SDK Windows 安装：未找到描述
如何在 Windows 11 上禁用集成显卡：当游戏和其他图形密集型应用程序开始卡顿时，这就是你该做的！
如何将你的 AMD GPU 变成本地 LLM 怪兽：ROCm 初学者指南 | TechteamGB：未找到描述
如何将你的 AMD GPU 变成本地 LLM 怪兽：ROCm 初学者指南：亚马逊上的 RX 7600 XT (联盟链接): https://locally.link/kEJGLM Studio: https://lmstudio.ai/rocm，由 Gigabyte 提供的产品，对于我们这些拥有 NVIDIA GPU 的人来说...

lmstudio-community/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face

提到的链接：

加密货币钱包 | 支持 Bitcoin (BTC), Bitcoin Cash (BCH), Ethereum (ETH) 和 ERC-20 代币: 下载 Bitcoin.com 的多币种加密货币钱包。一种简单且安全的方式来购买、出售、交易和使用加密货币。支持 Bitcoin (BTC), Bitcoin Cash (BCH), Ethereum (ETH) 和 ERC-20 代币...
核心模型 — Stability AI: 未找到描述
伤心的 GIF - Sad - 发现并分享 GIF: 点击查看 GIF
Clipdrop - Stable Diffusion: AI 图像生成的飞跃
Stable Diffusion 3: 研究论文 — Stability AI: 继我们宣布 Stable Diffusion 3 的早期预览版之后，今天我们发布了研究论文，概述了我们即将发布的模型的详细技术细节，并邀请您 ...
会员资格 — Stability AI: Stability AI 会员资格通过结合我们的一系列先进开源模型与自托管优势，为您的生成式 AI 需求提供灵活性。
pagartomas880 发布的图片: 未找到描述
runwayml/stable-diffusion-v1-5 在 main 分支: 未找到描述
未找到标题: 未找到描述
⚡利用 ComfyUI PERTURBED 驾驭闪电般的细节 + 🔮 遮罩魔法与时尚秘诀！🤩: -- Discord - https://discord.gg/KJXRzkBM -- 准备好将您的细节处理提升到新的水平！🚀 在这个令人惊叹的教程中，您将发现令人难以置信的...
揭露在 Discord 中跟踪您的网站！: 有一个名为 spy.pet 的网站，声称在 Discord 上保存了 40 亿条消息。通过它，您可以“查看您的朋友在 Discord 上做什么...
GitHub - Stability-AI/stablediffusion: 使用 Latent Diffusion Models 进行高分辨率图像合成: 使用 Latent Diffusion Models 进行高分辨率图像合成 - Stability-AI/stablediffusion
Alexander Pisteletov : 我是一个新的俄罗斯海盗 (censored) 歌词: Alexander Pisteletov 演唱 "I am a new russian pirate"
在 NVidia GPU 上安装并运行: Stable Diffusion web UI。通过在 GitHub 上创建账户，为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
如何在 Mac 上设置 Stable Diffusion AI: 我将引导您完成在 Mac M1 或 M2 上本地设置 Stable Diffusion Web UI 的分步过程。🔗 安装指南: https://techxplain...
GitHub - comfyanonymous/ComfyUI: 最强大且模块化的 Stable Diffusion GUI、API 和后端，具有图形/节点界面。: 最强大且模块化的 Stable Diffusion GUI、API 和后端，具有图形/节点界面。 - comfyanonymous/ComfyUI
早期 RTX 5090 发布糟糕 - 4 月 21 日科技新闻: 早期 RTX 5090 发布糟糕 - 4 月 21 日科技新闻 ▷ 我的商店 - T恤、品脱杯和连帽衫: http://paulshardware.net ⇨ 赞助商: Corsair K65 Plus 无线键盘...
GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI: Stable Diffusion web UI。通过在 GitHub 上创建账户，为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
首页: Stable Diffusion web UI。通过在 GitHub 上创建账户，为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
首页: Stable Diffusion web UI。通过在 GitHub 上创建账户，为 AUTOMATIC1111/stable-diffusion-webui 的开发做出贡献。
Stability Matrix - 简单的 Stable Diffusion 管理和推理 UI: Stability Matrix - 简单的 Stable Diffusion 管理和推理 UI
带有 SDXL 的 SD1.5 - ComfyUI 工作流（模板） - SD1.5 + SDXL Base | St

Civitai

如果Sora不开放，我们还能用什么？: 99%的人不知道的免费AI视频工具！好工具值得分享！

提到的链接：

Effort Engine：一种可能用于 LLM 推理的新算法。平滑且实时地调整你在推理过程中想要进行的计算量。
关于 X11 转发你需要了解的内容：在这篇博文中，我们将深入探讨 X11 转发，解释什么是 X11 以及它的底层工作原理。
3. Nsight Compute — NsightCompute 12.4 文档：未找到描述
深入了解 Nvidia 的 NVLink 互连和 NVSwitch：深入了解 Nvidia 的 NVLink 互连和拥有 20 亿个晶体管的 NVSwitch，它为 Nvidia 最新的 DGX-2 深度学习机提供动力。

提到的链接：

Index in triton · Issue #974 · openai/triton：我们想在 Triton kernel 中进行一些索引操作，假设我们有 x_ptr, idx_ptr, out_ptr，x = tl.load(x_ptr + offsets, mask = mask)，idx = tl.load(idx_ptr + offsets, mask = mask)，我们有：1. idx = idx.t...
triton.language.make_block_ptr — Triton 文档：未找到描述
triton/python/tutorials/06-fused-attention.py at main · openai/triton：Triton 语言和编译器的开发仓库 - openai/triton
灰度图的奇怪 Triton kernel 行为（旨在粘贴到带有 T4 GPU 的 Colab 中）：灰度图的奇怪 Triton kernel 行为 - weird_triton_repro.py
lectures/lecture 14/A_Practitioners_Guide_to_Triton.ipynb at main · cuda-mode/lectures：cuda-mode 讲座材料。欢迎在 GitHub 上为 cuda-mode/lectures 的开发做出贡献。

GitHub - openai/triton: Triton 语言和编译器的开发仓库

加入 PMPP UI 讲座时区 Discord 服务器！

equinox/equinox/internal/_loop/common.py at main · patrick-kidger/equinox

提到的链接:

hqq/hqq/core/quantize.py at master · mobiusml/hqq: Half-Quadratic Quantization (HQQ) 的官方实现 - mobiusml/hqq
Fused HQQ Quantization Gemm by jeromeku · Pull Request #153 · pytorch-labs/ao: @msaroufim 融合的 int4 / fp16 量化 Matmul。针对非对称量化权重的融合 gemm。已针对 HQQ 进行测试和基准测试，但理论上可用于任何非对称量化方案。该 ker...

提到的链接:

Examples — NCCL 2.21.5 documentation: 未找到描述
Examples — NCCL 2.21.5 documentation: 未找到描述
Added shared memory for the atomic additions for the layernorm_back by ChrisDryden · Pull Request #210 · karpathy/llm.c: 此 PR 旨在解决在 Profiler 中发现的问题，即该 Kernel 最后循环中的原子操作导致了大量的 Warp Stalls。通过在共享内存上执行原子操作...
flash_attn_jax/csrc/flash_attn/src at main · nshepperd/flash_attn_jax: Flash Attention v2 的 JAX 绑定。通过在 GitHub 上创建账号来为 nshepperd/flash_attn_jax 的开发做出贡献。
clang: lib/Headers/__clang_cuda_intrinsics.h Source File: 未找到描述
nanoGPT/train.py at master · karpathy/nanoGPT: 用于训练/微调中型 GPT 的最简单、最快的仓库。 - karpathy/nanoGPT
WIP support for FP16/BF16 in train_gpt2.cu (compiles, not correct yet) by ademeure · Pull Request #218 · karpathy/llm.c: 仅供参考并决定这是否是正确的方向（如果不合适可以舍弃）。
flash-attention/csrc/flash_attn/src/flash_fwd_kernel.h at main · Dao-AILab/flash-attention: 快速且内存高效的精确 Attention。通过在 GitHub 上创建账号来为 Dao-AILab/flash-attention 的开发做出贡献。
bug: something goes wrong at larger batch sizes · Issue #212 · karpathy/llm.c: 今天遇到了一个难以追踪的 Bug，打算今晚先休息，明天再试。复现方法：`./train_gpt2cu -b 12` 以 Batch Size 12 启动任务。在 m...
Custom matmul attention by ngc92 · Pull Request #213 · karpathy/llm.c: 我个人实现的（下三角）矩阵乘法。虽然不如 CuBLAS 高效，但由于我们只计算了一半的数值，因此在净收益上是胜出的。目前还无法摆脱 Permute...
Faster `matmul_backward_bias` using coalesced reads and shared memory in the kernel by al0vya · Pull Request #221 · karpathy/llm.c: 该 Kernel 在 RTX 2070 Super GPU 上相比 `matmul_backward_bias_kernel2` 似乎有 <4 倍的运行时间提升，运行时间对比见下文：matmul_backward_bias_kernel2: block_size 32 time 0.9...
cuDNN Forward Attention + FP16 non-cuDNN version in /dev/cuda/ by ademeure · Pull Request #215 · karpathy/llm.c: 之前的 Kernel 4: 1.74ms；使用 TF32 的 Kernel 4: 1.70ms；Kernel 5（带 BF16 I/O 的 Kernel 4）: 0.91ms；Kernel 6（不带 Permute 的 Kernel 5，不现实）: 0.76ms；Kernel 10（cuDNN BF16，带 FP32 转换）: 0.33ms...
add one more kernel, allocating a block per row. bad idea if C is too… · karpathy/llm.c@49d41ae: …再添加一个 Kernel，为每一行分配一个 Block。如果 C 太低，这可能是一个坏主意，正如我们现在的情况。
new kernel that does a single pass over x on load, using a more cleve… · karpathy/llm.c@cb791c4: …新的 Kernel 在加载时对 x 进行单次处理，使用了更巧妙的方差公式。遗憾的是，在我的 A100 上只快了一点点。
speed up the backward bias kernel by 45% and speed up the full runnin… · karpathy/llm.c@8488669: …将 Backward Bias Kernel 提速 45%，并将总运行时间缩短 1%。

lecture-15.mov

提到的链接:

chargoddard/llama3-42b-v0 · Hugging Face：未找到描述
cognitivecomputations/dolphin-2.9-llama3-8b · Llama 3 Base Is Unique：未找到描述
Axolotl - 数据集格式：未找到描述
Reddit - 深入探索一切：未找到描述
Axolotl - 指令微调：未找到描述
使用 PyTorch FSDP 和 Q-Lora 高效微调 Llama 3：了解如何使用 Hugging Face TRL、Transformers、PEFT 和 Datasets，通过 PyTorch FSDP 和 Q-Lora 微调 Llama 3 70b。
来自 Ahmad Al-Dahle (@Ahmad_Al_Dahle) 的推文：@mattshumer_ 我们会推出更长的版本。此外，与 Llama 2 相比，使用新的 tokenizer 后，上下文窗口应该会更长一些。
dreamgen/opus-v1.2-llama-3-8b · Hugging Face：未找到描述
meta-llama/Meta-Llama-3-8B · 更新后处理器以添加 bos：未找到描述
meta-llama/Meta-Llama-3-8B-Instruct · Hugging Face：未找到描述
Reddit - 深入探索一切：未找到描述
flash-linear-attention/fla/layers (main 分支) · sustcsonglin/flash-linear-attention：在 PyTorch 和 Triton 中高效实现最先进的线性注意力模型 - sustcsonglin/flash-linear-attention
ope - 概览：ope 拥有 11 个代码仓库。在 GitHub 上关注他们的代码。
axolotl/src/axolotl/utils/trainer.py (提交号 0e8f340) · OpenAccess-AI-Collective/axolotl：尽管提问（axolotl questions）。通过在 GitHub 上创建账户，为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
为 ROCm 添加实验性安装指南 · xzuyn/axolotl@6488a6b：未找到描述
axolotl/setup.py (提交号 0e8f340) · OpenAccess-AI-Collective/axolotl：尽管提问。通过在 GitHub 上创建账户，为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
GitHub - OpenNLPLab/lightning-attention: Lightning Attention-2：在大型语言模型中处理无限序列长度的免费午餐：Lightning Attention-2：在大型语言模型中处理无限序列长度的免费午餐 - OpenNLPLab/lightning-attention
GitHub - lucidrains/memory-efficient-attention-pytorch：论文 "Self-attention Does Not Need O(n²) Memory" 中提出的内存高效多头注意力的实现：论文 "Self-attention Does Not Need O(n²) Memory" 中提出的内存高效多头注意力的实现 - lucidrains/memory-efficient-attention-pytorch
考虑将 Memory Efficient Attention 作为 AMD 用户 Flash Attention 的“替代方案”。· Issue #1519 · OpenAccess-AI-Collective/axolotl：⚠️ 请检查此功能请求之前是否已被提出。我搜索了讨论区之前的 Ideas，没有发现类似的功能请求。我搜索了之前的 Issues...
axolotl/src/axolotl/monkeypatch/llama_attn_hijack_flash.py (提交号 0e8f340) · OpenAccess-AI-Collective/axolotl：尽管提问。为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
Draft: Update Tokenizer Overrides Handling in models.py by mhenrichsen · Pull Request #1549 · OpenAccess-AI-Collective/axolotl: 示例：tokenizer_overrides: - 28006: <|im_start|> - 28007: <|im_end|> 描述：此 PR 增强了我们在 models.py 文件中处理 tokenizer overrides 的方式。...
Feat: Add cohere (commandr) by NanoCode012 · Pull Request #1547 · OpenAccess-AI-Collective/axolotl: 描述、动机和背景、如何测试？未测试！屏幕截图（如果适用）、变更类型、社交账号（可选）
axolotl/requirements.txt at main · OpenAccess-AI-Collective/axolotl: 尽管提出 axolotl 问题。通过在 GitHub 上创建账户来参与 OpenAccess-AI-Collective/axolotl 的开发。
GitHub - xzuyn/axolotl: Go ahead and axolotl questions: 尽管提出 axolotl 问题。通过在 GitHub 上创建账户来参与 xzuyn/axolotl 的开发。

提到的链接：

Draft: Update Tokenizer Overrides Handling in models.py by mhenrichsen · Pull Request #1549 · OpenAccess-AI-Collective/axolotl: 示例：tokenizer_overrides: - 28006: <|im_start|> - 28007: <|im_end|> 描述：此 PR 增强了我们在 models.py 文件中处理 tokenizer overrides 的方式。...
Fused Linear and Cross-Entropy Loss `torch.nn.functional.linear_cross_entropy` · Issue #124480 · pytorch/pytorch: 🚀 特性、动机和设想。如果 PyTorch 能有一个融合线性层和交叉熵的函数（例如 torch.nn.functional.linear_cross_entropy）就太棒了。该函数的作用是融合...

提到的链接：

OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。
OpenAccess-AI-Collective/axolotl | Phorm AI Code Search：更快地理解代码。

提到的链接：

未找到标题: 未找到描述
Gemini Nano 现已在 Pixel 8 Pro 上运行 —— 首款内置 AI 的智能手机: Gemini 来了，这是我们迄今为止功能最强大、最灵活的 AI 模型。此外，Pixel 系列还将迎来更多 AI 更新。
使用 MediaPipe 和 TensorFlow Lite 在设备端运行 Large Language Models - Google for Developers: 未找到描述
Android App — mlc-llm 0.1.0 文档: 未找到描述
Stella Nera：通过基于近似矩阵乘法的无乘法器 DNN 加速实现 161 TOp/s/W: 从经典 HPC 到深度学习，MatMul 是当今计算的核心。最近的 Maddness 方法通过使用基于哈希的版本来近似 MatMul，而无需进行乘法运算...
来自 Lucas Beyer (bl16) (@giffmana) 的推文: 结束前的两个小贴士：左图：如果你的 loss 飙升，尝试将 Adam/AdaFactor 的 beta2 降低到 0.95（并非新奇，但很少被分享）；右图：当模型的一部分是预训练的，但...
Samsung Exynos 2400：规格和基准测试: Samsung Exynos 2400：基准测试中的性能测试（AnTuTu 10, GeekBench 6）。电池续航和完整规格。
Private AI - Google Play 应用: 未找到描述
不当内容 - Play Console 帮助: 未找到描述
‎MLC Chat: ‎MLC Chat 让用户可以在 iPad 和 iPhone 上本地与开源语言模型聊天。模型下载到应用后，一切都在本地运行，无需服务器支持，且无需互联网即可工作...
aria-amt/amt/train.py 位于 EleutherAI/aria-amt: 高效且稳健的 seq-to-seq 自动钢琴转谱实现。- EleutherAI/aria-amt
GitHub - mlc-ai/mlc-llm：让每个人都能在自己的设备上原生开发、优化和部署 AI 模型。: 让每个人都能在自己的设备上原生开发、优化和部署 AI 模型。- mlc-ai/mlc-llm
LPDDR5 | DRAM | Samsung 半导体全球: 了解 LPDDR5，它以 6,400 Mbps 的引脚速度、51.2Gb/s 的海量传输和 20% 的节能效果，为下一代应用提供性能和效率支持。
GitHub - atfortes/Awesome-LLM-Reasoning：Large Language Models 中的推理：论文和资源，包括 Chain-of-Thought、Instruction-Tuning 和多模态。: Large Language Models 中的推理：论文和资源，包括 Chain-of-Thought、Instruction-Tuning 和多模态。 - GitHub - atfortes/Awesome-LLM-Reasoning...
GitHub - Kotlin/kotlindl：受 Keras 启发，用 Kotlin 编写的高级深度学习框架: 受 Keras 启发，用 Kotlin 编写的高级深度学习框架 - Kotlin/kotlindl
Samsung Galaxy S24 Ultra 评测: Samsung 的 S24 系列搭载了基于 Google 最新 Android 14 的最新 One UI 6.1。尽管 ".1" 的编号更新幅度较小，...

关于 "Megalodon" 架构优越性的辩论：讨论涉及 Megalodon，这是来自 Meta 的一种新架构，以长上下文（long contexts）效率著称，在受控测试中被指出优于 Llama-2。关于它与其他混合注意力机制（hybrid attention mechanisms）的对比以及其潜在的广泛认可度，仍存在怀疑。
探索用于模型引导的任务向量（Task Vectors）：提出了一种名为 task vectors 的方法来引导预训练模型的行为，允许通过取反和加法等算术运算进行修改。这可以在不直接进行 fine-tuning 的情况下，为 Llama3 等模型添加专业知识（参考 arXiv:2212.04089）。
提议针对 RAG 模型的新基准测试：Stella Athena 分享了一个针对检索增强生成（RAG）模型的基准测试想法，其中问题需要综合多个文档的信息。由于在选择常见训练集中存在的来源时可能存在数据集污染，这一挑战非常重大。
推理过程中的注意力机制近似：Carson Poole 关于在推理过程中通过近似注意力机制来压缩 token 长度的询问，引发了对几篇论文的引用（例如 arXiv:2401.03462, arXiv:2401.06104），这些论文讨论了 Activation Beacon、TOVA 和动态 FLOPs 分配等相关概念。
Transformer 上下文扩展的潜力与局限：出现了一场关于扩展 Transformer 上下文长度可行性的讨论，提到了 Gemini Pro 1.5 的上下文长度以及二次方计算缩放（quadratic compute scaling）的挑战，强调巨大的上下文长度（例如 1000 万个 token）可能预示着一种超越简单上下文长度 fine-tuning 的架构。

提到的链接：

```
来自 Stella Biderman (@BlancheMinerva) 的推文：为 RAG 模型创建一个基准测试，其中所有问题都需要综合多个文档的信息才能回答。研究在公开数据上训练的模型在该基准上的表现，并且 ...
Editing Models with Task Arithmetic：改变预训练模型的行为——例如，提高其在下游任务上的性能或减轻预训练期间学到的偏见——是开发机器学习模型时的常见做法...
Transformers are Multi-State RNNs：Transformer 被认为在概念上与上一代最先进的 NLP 模型——循环神经网络 (RNNs) 不同。在这项工作中，我们证明了 decoder-only...
Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck：语言建模的最新进展在于在极大的网络挖掘文本语料库上预训练高度参数化的神经网络。在实践中，训练和推理此类模型的成本可能很高...
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding：虽然 Large Language Models (LLMs) 展示了卓越的能力，但由于自回归处理，它们受到显著的资源消耗和相当大的延迟的阻碍。在这项研究中，我们...
Large Language Models on Graphs: A Comprehensive Survey：Large language models (LLMs)，如 GPT4 和 LLaMA，由于其强大的文本编码/解码能力和新发现的涌现能力，正在自然语言处理领域取得重大进展...
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models：基于 Transformer 的语言模型在输入序列中均匀分布 FLOPs。在这项工作中，我们证明了 Transformer 可以学会动态地将 FLOPs（或计算量）分配给特定的...
Language Imbalance Can Boost Cross-lingual Generalisation：多语言能力对于将语言建模的最新进展扩展到不同的语言社区至关重要。为了在代表多种语言的同时保持高性能，多语言模型...
Sisihae GIF - Sisihae - 发现并分享 GIF：点击查看 GIF
GitHub - krafton-ai/mambaformer-icl: MambaFormer in-context learning experiments and implementation for https://arxiv.org/abs/2402.04248：MambaFormer in-context learning 实验和实现，针对 https://arxiv.org/abs/2402.04248 - krafton-ai/mambaformer-icl
Towards Graph Foundation Models: A Survey and Beyond：Foundation models 已成为各种人工智能应用中的关键组件，并在自然语言处理和其他几个领域展示了显著的成功。许多...
列出 Llama 3 的 "公开可用来源" 15T 数据集列表 · Issue #39 · meta-llama/llama3：如果没有数据集来源列表，Llama 3 在任何有意义的程度上都是不可复现的。请发布来源列表。
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon：由于上下文窗口大小有限，长上下文的利用对 LLMs 提出了巨大挑战。虽然可以通过微调来扩展上下文窗口，但这会导致相当大的...
Larimar: Large Language Models with Episodic Memory Control：高效且准确地更新 Large Language Models (LLMs) 中存储的知识是当今最紧迫的研究挑战之一。本文介绍了 Larimar——一种新颖的、受大脑启发的架构...
GitHub - naver-ai/rdnet：为 naver-ai/rdnet 的开发做出贡献。
On Limitations of the Transformer Architecture：未找到描述
GitHub - microsoft/LLMLingua: To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.：为了加速 LLMs 的推理并增强 LLM 对关键信息的感知，压缩 prompt 和 KV-Cache，在性能损失极小的情况下实现高达 20 倍的压缩。

Kyo (@kyo_takano) 的推文

[摘要] 来自 GDM 机械可解释性团队的进展更新 #1 — AI Alignment Forum

MMLU - Alternative Prompts

Links mentioned:

Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号为 modularml/mojo 的开发做出贡献。
GitHub - basalt-org/basalt: A Machine Learning framework from scratch in Pure Mojo 🔥: 一个从零开始的纯 Mojo 机器学习框架 🔥 - basalt-org/basalt
Mojo🔥 roadmap & sharp edges | Modular Docs: 我们的 Mojo 计划摘要，包括即将推出的特性和需要修复的问题。
GitHub - ml-explore/mlx-swift: Swift API for MLX: MLX 的 Swift API。通过在 GitHub 上创建账号为 ml-explore/mlx-swift 的开发做出贡献。
Penzai: JAX research toolkit for building, editing, and visualizing neural nets | Hacker News: 无描述信息

The Rise of AI

提及的链接：

sort | Modular 文档: 实现排序函数。
单元测试 - Rust By Example: 未找到描述
Are we web yet? 是的，而且快得惊人！ : 未找到描述
pytest: 帮助你编写更好的程序 — pytest 文档: 未找到描述
collections | Modular 文档: 实现 collections 包。
Ron Swanson Parks And Rec GIF - Ron Swanson Parks And Rec Its So Beautiful - 发现并分享 GIF: 点击查看 GIF
The Office Andy GIF - The Office Andy Andy Bernard - 发现并分享 GIF: 点击查看 GIF
simd | Modular 文档: 实现 SIMD 结构。
unsafe | Modular 文档: 实现用于处理不安全指针的类。
Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号来为 modularml/mojo 的开发做出贡献。
mojo_zlib_classification/tools/utils.mojo at master · toiletsandpaper/mojo_zlib_classification: 通过在 GitHub 上创建账号来为 toiletsandpaper/mojo_zlib_classification 的开发做出贡献。
thatstoast - 概览: GitHub 是 thatstoast 构建软件的地方。
[功能请求] `.__doc__` 属性 · Issue #2197 · modularml/mojo: 查看 Mojo 的优先级。我已阅读路线图和优先级，并认为此请求符合优先级。你的请求是什么？我希望能获取我的字符串的 docstring...
Issues · modularml/mojo: Mojo 编程语言。通过在 GitHub 上创建账号来为 modularml/mojo 的开发做出贡献。
Mojo-UI/.github/workflows/package.yml at main · Moosems/Mojo-UI: 一个用于 Mojo 的跨平台 GUI 库。通过在 GitHub 上创建账号来为 Moosems/Mojo-UI 的开发做出贡献。
Mojo-UI/download_dependencies.sh at main · Moosems/Mojo-UI: 一个用于 Mojo 的跨平台 GUI 库。通过在 GitHub 上创建账号来为 Moosems/Mojo-UI 的开发做出贡献。
GitHub - thatstoasty/mist: 为你的终端应用程序提供高级 ANSI 样式和颜色支持: 为你的终端应用程序提供高级 ANSI 样式和颜色支持 - thatstoasty/mist
MLIR: 未找到描述
2023 LLVM 开发者大会 - MLIR 不是 ML 编译器，以及其他常见误区: 2023 LLVM 开发者大会 https://llvm.org/devmtg/2023-10------MLIR 不是 ML 编译器，以及其他常见误区。演讲者：Alex Zinenko------幻灯片...
[提案] Mojo 项目清单和构建工具 · modularml/mojo · Discussion #1785: 大家好，请查看关于 Mojo 项目清单和构建工具的提案。正如提案本身所述，我们希望听到来自 Mojo 社区的声音：你是否同意这些动机...

提及的链接：

GitHub - basalt-org/basalt: A Machine Learning framework from scratch in Pure Mojo 🔥：一个从零开始用纯 Mojo 编写的机器学习框架 🔥 - basalt-org/basalt
GitHub - thatstoasty/prism: Mojo CLI Library modeled after Cobra.：模仿 Cobra 的 Mojo CLI 库。欢迎在 GitHub 上为 thatstoasty/prism 的开发做出贡献。
GitHub - thatstoasty/mog: Style definitions for nice terminal layouts.：用于美化终端布局的样式定义。欢迎在 GitHub 上为 thatstoasty/mog 的开发做出贡献。
GitHub - thatstoasty/gojo: Experiments in porting over Golang stdlib into Mojo.：将 Golang 标准库移植到 Mojo 的实验。 - thatstoasty/gojo
GitHub - thatstoasty/termios: Mojo termios via libc：通过 libc 实现的 Mojo termios。欢迎在 GitHub 上为 thatstoasty/termios 的开发做出贡献。

提及的链接：

[Feature Request] Explicit parametric alias with default argument · Issue #1904 · modularml/mojo：审查 Mojo 的优先级。我已阅读路线图和优先级，并认为此请求符合优先级。你的请求是什么？如题。你进行此更改的动机是什么？Exp...
[stdlib] Replace `Pointer` by `UnsafePointer` in `stdlib/src/builtin/object.mojo` by gabrieldemarmiesse · Pull Request #2365 · modularml/mojo：Builtins 导入方式很奇怪，我不得不在 stdlib/src/python/_cpython.mojo 中导入 LegacyPointer，我对此无法解释。我只是按照编译器要求导入的内容进行导入 :p 参见 ht...

提及的链接：

Teknium (e/λ) (@Teknium1) 的推文：伙计们，我们家里也有 GPT-4 了
MTEB Leaderboard - mteb 创建的 Hugging Face Space：未找到描述
HF-Mirror - Huggingface 镜像站：未找到描述
Hugging Face – 构建未来的 AI 社区。：未找到描述
Jinx The Cat Jinx GIF - Jinx The Cat Jinx Jinx Cat - 发现并分享 GIF：点击查看 GIF
Reddit - 深入探索一切：未找到描述
生化危机欢迎来到浣熊市 GIF - 生化危机欢迎来到浣熊市生化危机电影 - 发现并分享 GIF：点击查看 GIF
我死了 Dead Bruh GIF - 我死了 Dead Bruh 骷髅 Dead Bruh - 发现并分享 GIF：点击查看 GIF
Turn Down For What Snoop Dogg GIF - Turn Down For What Snoop Dogg 干杯 - 发现并分享 GIF：点击查看 GIF
TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GPTQ · Hugging Face：未找到描述
猫咪俱乐部猫 GIF - 猫咪俱乐部猫猫咪跳舞 - 发现并分享 GIF：点击查看 GIF
Eyeverse Brace GIF - Eyeverse Brace 启动 - 发现并分享 GIF：点击查看 GIF
AI 的崛起：(开启字幕) 加入我们的旅程，见证人工智能的快速演变，从它的出现开始...
meta-llama/Meta-Llama-3-8B-Instruct · 更新 generation_config.json：未找到描述
MTRAN3 模块化机器人：更多信息请访问 http://www.botjunkie.com/ 和 http://unit.aist.go.jp/is/dsysd/mtran3/mtran3.htm
“这是 UNIX 系统！” | 侏罗纪公园 | 科幻站：黑客女孩 Lexi (Ariana Richards) 在尝试修复侏罗纪公园的 UNIX 控制系统时展示了她的极客技能。侏罗纪公园 (1993)：John Hammond，一位...
查看 paste 3MUQ：未找到描述
竞赛 (Competitions)：未找到描述
Hugging Face 状态：未找到描述

提到的链接:

wsqstar/ppo-LunarLander-v2 · Hugging Face: 未找到描述
ORPO with LLaMA 3- Fast, Cheap, and Good!: 俗话说“快、省、好——三者只能择其二”。AI 也不例外，但我们开始看到一些伟大的创新正在改变这一点。一篇很棒的文章...
LLama 3 on Groq Cloud- 800 Tokens per second!!!: @meta 在 Groq 上的 LLama3 快得惊人。使用 @GroqInc Cloud 测试他们的 8B 参数模型，我始终能获得每秒 800 个 Token 左右的速度。这...

提到的链接:

Hokoff: 摘要
llm-course/llama_finetune/Fine-tune-basics.md at main · andysingal/llm-course: 通过在 GitHub 上创建账户，为 andysingal/llm-course 的开发做出贡献。
Why Neural Networks can learn (almost) anything: 一个关于神经网络、它们如何工作以及为什么有用的视频。我的 Twitter: https://twitter.com/max_romana 来源 Neural network playground: https://play...
New quantum computers - Potential and pitfalls | DW Documentary: 一台新的超级计算机预计将使减少动物实验并可能治愈癌症成为可能。围绕量子计算的炒作令人振奋...

提到的链接:

首页: 未找到描述
ehristoforu/Gixtral-100B · Hugging Face: 未找到描述
VTuberLogoGenerator - gojiteji 的 Hugging Face Space: 未找到描述
ehristoforu/llama-3-12b-instruct · Hugging Face: 未找到描述
Outpainting Demo - clinteroni 的 Hugging Face Space: 未找到描述
QuantFactory/Meta-Llama-3-70B-Instruct-GGUF · Hugging Face: 未找到描述
moondream2-batch-processing - Csplk 的 Hugging Face Space: 未找到描述
使用 llama3 的 RAG 聊天机器人: 未找到描述
ehristoforu/Gistral-16B · Hugging Face: 未找到描述
Reddit - 深入探索: 未找到描述
This Cute Dragon Girl Doesnt Exist - KBlueLeaf 的 Hugging Face Space: 未找到描述
GitHub - Crizomb/ai_pdf: 在本地与任何 PDF 聊天，提问并获取带有有用引用的答案，对数学 PDF 效果良好（将其转换为计算机可理解的数学语法 LaTeX）: 在本地与任何 PDF 聊天，提问并获取带有有用引用的答案，对数学 PDF 效果良好（将其转换为计算机可理解的数学语法 LaTeX） - Crizomb/ai_pdf

提到的链接:

GitHub - facebookresearch/nougat: Implementation of Nougat Neural Optical Understanding for Academic Documents: 学术文档的 Nougat Neural Optical Understanding 实现 - facebookresearch/nougat
GitHub - qaz812345/TrackNetV3: Implementation of paper - TrackNetV3: Enhancing ShuttleCock Tracking with Augmentations and Trajectory Rectification: 论文实现 - TrackNetV3: 通过增强和轨迹修正提升羽毛球追踪 - qaz812345/TrackNetV3

GitHub - gnp/minbpe-rs: Port of Andrej Karpathy's minbpe to Rust

Links mentioned:

DBRX 132B Instruct by databricks | OpenRouter: DBRX 是由 Databricks 开发的一款新型开源 LLM。参数量为 132B，它在语言的标准行业基准测试中优于现有的开源 LLM，如 Llama 2 70B 和 Mixtral-8x7B...
OpenRouter: 在 OpenRouter 上浏览模型。

未找到标题

提到的链接：

imgur.com: 在 Imgur 发现互联网的魔力，这是一个由社区驱动的娱乐目的地。通过幽默的笑话、热门迷因（memes）、有趣的 GIF、励志故事、病毒式视频等来振奋你的精神...
GroqChat: 未找到描述
Work-to-rule - Wikipedia: 未找到描述
来自 Eric Hartford (@erhartford) 的推文: 由 @CrusoeCloud 慷慨赞助的 Dolphin-2.9-llama3-8b 预计周六发布。与 @LucasAtkins7 和 @FernandoNetoAi 进行了大量合作。Dolphin-2.9-llama3-70b 紧随其后。Dolphin-2.9-mixtral-8x22b 仍在...
lynn 开发的 Llama 3 Soliloquy 8B | OpenRouter: Soliloquy-L3 是一款快速、高性能的角色扮演模型，专为沉浸式、动态体验而设计。Soliloquy-L3 在超过 2.5 亿个 token 的角色扮演数据上进行了训练，拥有广博的知识库、丰富的...
dreamgen/opus-v1.2-llama-3-8b · Hugging Face: 未找到描述
Hugging Face 上的 @WizardLM: "🔥🔥🔥 隆重推出 WizardLM-2! 📙发布博客：…": 未找到描述

提到的链接:

来自 Guilherme Penedo (@gui_penedo) 的推文：我们刚刚发布了 🍷 FineWeb：15 万亿 tokens 的高质量网络数据。我们对 2013 年至 2024 年间的所有 CommonCrawl 进行了过滤和去重。在 FineWeb 上训练的模型性能优于 RefinedWeb, C4, ...
tinygrad：一个简单且强大的神经网络框架：未找到描述
来自 Teknium (e/λ) (@Teknium1) 的推文：伙计们，我们现在家里也有 GPT-4 了（指本地运行同级别模型）
Mac 将于 2024 年底开始搭载专注于 AI 的 M4 芯片：据 Bloomberg 的 Mark Gurman 报道，苹果将于 2024 年底开始使用 M4 芯片更新其 Mac 产品线。M4 芯片将专注于...
LiteLLM - 入门指南 | liteLLM：https://github.com/BerriAI/litellm
来自 echo.hive (@hive_echo) 的推文：测试 Llama-3 8B 和 70B。这个简单的测试结果向我证明，更小模型配合更多数据可以成为出色的低端推理器，而更大模型配合更多数据则能成就出色的高端...
来自 kwindla (@kwindla) 的推文：哇。Llama-3 70B 在 @GroqInc 上的首字节时间（TTFT）非常快 —— 快到 100ms 以下。
来自 Teknium (e/λ) (@Teknium1) 的推文：伙计们，我们现在家里也有 GPT-4 了
Browserless - 排名第一的 Web 自动化和无头浏览器自动化工具：免费试用 Browserless，最好的 Web 自动化工具之一。轻松实现网页抓取、PDF 生成和无头浏览器自动化。
来自 Hassan Hayat 🔥 (@TheSeaMouse) 的推文：我仍然对此感到震惊。它是如何提升这么多的？我是说，看看 8B 对比旧版的 70B
GitHub - facebookresearch/hydra：Hydra 是一个用于优雅配置复杂应用程序的框架：Hydra 是一个用于优雅配置复杂应用程序的框架 - facebookresearch/hydra
FireCrawl：将任何网站转换为 LLM 就绪的数据。
[AINews] Llama-3-70B 是 GPT-4 级别的开源模型：2024/4/18-2024/4/19 的 AI 新闻。我们为您检查了 6 个 subreddit、364 个 Twitter 账号和 27 个 Discord 社区（395 个频道，10403 条消息）。预计阅读时间...

提到的链接：

Scaling laws for neural language models：神经网络语言模型的 Scaling laws
TinyBox packs a punch with six of AMD's fastest gaming GPUs repurposed for AI — new box uses Radeon 7900 XTX and retails for $15K, now in production：初创公司希望利用 Radeon RX 7900 XTX 提供高性能 AI 计算。
Papers with Code - MRPC Dataset：Microsoft Research Paraphrase Corpus (MRPC) 是一个由从新闻文章中收集的 5,801 个句子对组成的语料库。每个句子对都由人工标注者标记是否为释义。

提到的链接：

Evaluation & Hallucination Detection for Abstractive Summaries：抽象式摘要的评估与幻觉检测：基于参考、上下文和偏好的指标，自我一致性以及捕捉幻觉。
LLM Task-Specific Evals that Do & Don't Work：有效与无效的 LLM 特定任务评估：针对分类、摘要、翻译、版权复现和毒性的评估。
LLM Evaluation：评估基于 LLM 的系统，Alan van Arden，2024 年 4 月 19 日，Latent Space
AI In Action: Weekly Jam Sessions：2024 主题、日期、主持人、资源，GenAI 的 UI/UX 模式等。

提到的链接：

Kick the Spy Pet：未找到描述
Training Compute-Optimal Large Language Models：我们研究了在给定计算预算下训练 Transformer 语言模型的最优模型大小和 Token 数量。我们发现目前的大语言模型明显训练不足...
Nightshade: Legal Poison Disguised as Protection for Artists：正如我在前一篇文章中所述，生成式 AI 对许多艺术家来说仍然是一个充满争议的话题，为了抵制模型训练，出现了各种方案。上一篇文章...
Mixture of Attention：未找到描述
Oh No Top Gear GIF - Oh No Top Gear Jeremy Clarkson - Discover & Share GIFs：点击查看 GIF
Text-to-Image: Diffusion, Text Conditioning, Guidance, Latent Space：文本生成图像的基础知识、相关论文以及 DDPM 实验。
cookbook/calc/calc_transformer_mem.py at main · EleutherAI/cookbook：深度学习入门指南。包含处理真实模型时的所有实践细节和实用工具。 - EleutherAI/cookbook
The Rise of AI：(开启中文字幕) 加入我们，一起回顾人工智能的快速演进，从它的出现...
IF/deepfloyd_if/model/unet.py at develop · deep-floyd/IF：通过在 GitHub 上创建账号为 deep-floyd/IF 的开发做出贡献。

提到的链接：

BLINK: Multimodal Large Language Models Can See but Not Perceive：我们介绍了 Blink，这是一个针对多模态语言模型 (LLMs) 的新基准测试，专注于其他评估中未包含的核心视觉感知能力。大多数 Blink 任务可以由人类解决...
TextSquare: Scaling up Text-Centric Visual Instruction Tuning：随着多模态大语言模型 (MLLMs) 的发展，以文本为中心的视觉问答 (VQA) 取得了长足进步，但开源模型仍落后于 GPT 等领先模型...
Align Your Steps：Align Your Steps：优化扩散模型中的采样调度
bghira：Weights & Biases，机器学习开发者工具
Google Colaboratory：未找到描述
piecewise-rectified-flow/README.md at main · magic-research/piecewise-rectified-flow：通过在 GitHub 上创建账号来为 magic-research/piecewise-rectified-flow 的开发做出贡献。
bghira：Weights & Biases，机器学习开发者工具

提到的链接：

Joe Bereta Source Fed GIF - Joe Bereta Source Fed Micdrop - Discover & Share GIFs：点击查看 GIF
Generative models：这篇文章描述了四个项目，它们共同的主题是增强或使用生成模型，这是机器学习中无监督学习技术的一个分支。除了描述我们的工作...
Research：我们相信我们的研究最终将通向通用人工智能 (AGI)，一个能够解决人类水平问题的系统。构建安全且有益的 AGI 是我们的使命。
Biorobotics - Wikipedia：未找到描述
GPT-4：我们创建了 GPT-4，这是 OpenAI 在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，输出文本），虽然能力稍逊...

提到的链接：

<a href="http://localhost:19530",">未找到标题</a>: 未找到描述
大语言模型 (LLMs) | LlamaIndex.TS: LLM 负责阅读文本并针对查询生成自然语言响应。默认情况下，LlamaIndex.TS 使用 gpt-3.5-turbo。
Agents - LlamaIndex: 未找到描述
RAG CLI - LlamaIndex: 未找到描述
Firestore Demo - LlamaIndex: 未找到描述
从 Weaviate 向量数据库进行自动检索 - LlamaIndex: 未找到描述
入门教程 (本地模型) - LlamaIndex: 未找到描述
Chat Engine - LlamaIndex: 未找到描述
索引与嵌入 - LlamaIndex: 未找到描述
Portkey - LlamaIndex: 未找到描述
使用模式 - LlamaIndex: 未找到描述
llama_index/llama-index-integrations/vector_stores/llama-index-vector-stores-milvus/llama_index/vector_stores/milvus/base.py at 7b52057b717451a801c583fae7efe4c4ad167455 · run-llama/llama_index: LlamaIndex 是一个用于 LLM 应用程序的数据框架 - run-llama/llama_index
Token 计数处理器 - LlamaIndex: 未找到描述
GitHub - run-llama/llama_parse: 为优化 RAG 解析文件: 为优化 RAG 解析文件。通过在 GitHub 上创建账号来为 run-llama/llama_parse 的开发做出贡献。
由 logan-markewich 修复 qdrant 检查现有集合时的 bug · Pull Request #13009 · run-llama/llama_index: 从可能存在的集合中获取信息时的一个小 bug
围绕 Query Pipeline 构建 Agent - LlamaIndex: 未找到描述
Ollama - Llama 2 7B - LlamaIndex: 未找到描述
LocalAI - LlamaIndex: 未找到描述
使用 Documents - LlamaIndex: 未找到描述
Pathway Reader - LlamaIndex: 未找到描述
树状总结 - LlamaIndex: 未找到描述
查询 - LlamaIndex: 未找到描述
入门教程 (本地模型) - LlamaIndex: 未找到描述
如何在 LlamaIndex 中使用 UpTrain - LlamaIndex: 未找到描述

提到的链接：

[FrontierOptic.com] AI 融资追踪 - 2024年4月21日 - 社区审查版：封面 <a href="http://FrontierOptic.com">FrontierOptic.com</a> AI 初创公司融资数据（自 2023 年 5 月起）- 社区审查版 <a href="https://twitter.com/WangUWS&...
Howe Wang (@WangUWS) 的推文：为了庆祝 @HilaryDuff 在《Wake Up》中演唱“可能是纽约，也许是好莱坞和藤街，伦敦，巴黎，也许是东京” 20 周年。我清理了 AI 热潮列车数据的地理位置...

提到的链接：

▌ OS Control enabled> open notepad and write "hello" Let's start by try - Pastebin.com: Pastebin.com 是自 2002 年以来排名第一的文本存储工具。Pastebin 是一个可以在线存储文本一段时间的网站。
Bug when fresh install and new start · Issue #1185 · OpenInterpreter/open-interpreter: 描述运行时的 Bug。此警告显示在 interpreter /opt/conda/lib/python3.11/site-packages/pydantic/_internal/fields.py:151: UserWarning: Field "model_id" has conflict with prote...
posts/llama3_new.pdf at main · ishank26/posts: 资源、想法和笔记。通过在 GitHub 上创建账户为 ishank26/posts 的开发做出贡献。
Future of Coding Jobs? + Open Interpreter w/ Gemini + more: 笔记与日程：https://techfren.notion.site/Techfren-STREAM-Schedule-2bdfc29d9ffd4d2b93254644126581a9?pvs=40:00 - 简介 5:05 - SWE 工作安全吗？28:01 - 我的...
How to use Open Interpreter cheaper! (LM studio / groq / gpt3.5): 第一部分与简介：https://www.youtube.com/watch?v=5Lf8bCKa_dE0:00 - 设置 1:09 - 默认 gpt-4 2:36 - 快速模式 / gpt-3.5 2:55 - 本地模式 3:39 - LM Studio 5:5...
Update local profile so it doen't use function calling by Notnaton · Pull Request #1213 · OpenInterpreter/open-interpreter: 将 model 设置为 gpt4 会导致使用 function calling。大多数 LM Studio 模型不支持 function calling，导致无法工作。描述你所做的更改：引用任何相关的 issue（例如 "...
(oi) C:\Users\ivan>interpreter --api_base "https://api.groq.com/openai/v1" --api - Pastebin.com: Pastebin.com 是自 2002 年以来排名第一的文本存储工具。Pastebin 是一个可以在线存储文本一段时间的网站。
Bump version of tiktoken by minamorl · Pull Request #1204 · OpenInterpreter/open-interpreter: 描述你所做的更改：提升了 tiktoken 的版本，因为构建过程由于某种原因损坏了。此 PR 修复了损坏的过程。引用任何相关的 issue（例如 "Fixes #000"）：...
Jupyter export magic command by tyfiero · Pull Request #986 · OpenInterpreter/open-interpreter: 描述你所做的更改：添加了一个 %jupyter 魔术命令，用于将当前会话导出为 Jupyter Notebook 文件，你可以在 Google Colab 中运行它。引用任何相关的 issue（例如 &quo...

提到的链接：

Using Oracle Autonomous Database Serverless：Oracle Autonomous Database Select AI 允许你使用自然语言查询数据。
Creating and Deploying a Connector - Cohere Docs：未找到描述
Ken's Resume.pdf：未找到描述
quick-start-connectors/mysql at main · cohere-ai/quick-start-connectors：此开源仓库提供了将工作场所数据存储与 Cohere 的 LLMs 集成的参考代码，使开发者和企业能够执行无缝的检索增强生成 (RAG)...

提到的链接：

来自 Anmol Desai (@anmol_desai2005) 的推文：我们做到了。代码终于开源了。请尝试一下，我们渴望得到反馈。@weaviate_io @stanfordnlp @cohere @1vnzh @CShorten30 ↘️ 引用 Muratcan Koylan (@youraimarketer) ...
Prompt Mixer. 企业的 AI 开发工作室：一个供经理、工程师和数据专家协作开发 AI 功能的工作空间。

提到的链接：

ShapeTracker 如何工作：tinygrad 教程
Meta AI：使用 Meta AI 助手完成任务，免费创建 AI 生成的图像，并获取任何问题的答案。Meta AI 基于 Meta 最新的 Llama 大语言模型并使用 Emu...
tinygrad/tinygrad/tensor.py (GitHub)：你喜欢 pytorch？你喜欢 micrograd？你会爱上 tinygrad！❤️

提及的链接:

maxidl/Mistral-7B-v0.1-capybara-orpo-en-de · Hugging Face: 未找到描述
DiscoResearch/Llama3_DiscoLM_German_8b_v0.1_experimental · Hugging Face: 未找到描述
jvh/whisper-base-quant-ct2 · Hugging Face: 未找到描述
primeline/whisper-tiny-german · Hugging Face: 未找到描述
aisak-ai/aisak-listen · Hugging Face: 未找到描述

提到的链接：

ChatAnthropic | LangChain.js - v0.1.34：未找到描述
学习 LLAMA 3 的工作原理：完整的初学者指南：深入探索 LLAMA 3 模型的迷人世界，这是一种正在树立机器学习新标准的尖端 Transformer 架构。本指南...
快速入门 | 🦜️🔗 Langchain：在本指南中，我们将介绍创建调用 Tool 的 Chain 和 Agent 的基本方法。Tool 可以是任何东西——API、函数、数据库等。Tool 允许我们扩展功能...
ChatVertexAI | 🦜️🔗 Langchain：LangChain.js 支持将 Google Vertex AI 聊天模型作为集成。
ChatVertexAI | 🦜️🔗 LangChain：注意：这与 Google PaLM 集成是分开的。Google 已经...
Issues · langchain-ai/langchain：🦜🔗 构建上下文感知的推理应用。通过在 GitHub 上创建账号为 langchain-ai/langchain 的开发做出贡献。

提到的链接：

AllMind AI: Your Personal Stock Analyst - 具备实时市场数据和洞察力的 AI 财务分析师 | Product Hunt：AllMind AI 是您的个人财务分析师，直接为您提供集中的、实时的、可操作的见解。我们的专有 LLM AllMind AI 可缩短 90% 的研究时间并降低 98% 的成本。W...
GitHub - mishushakov/llm-scraper: 使用 LLM 将任何网页转换为结构化数据：使用 LLM 将任何网页转换为结构化数据。通过在 GitHub 上创建一个账户来为 mishushakov/llm-scraper 的开发做出贡献。
GitHub - abhijitpal1247/TripplannerBot: 这是一个使用 LangChain 的 Streamlit 应用。它利用了 Bing maps API、OpenStreetMaps API 和 FourSquare API。：这是一个使用 LangChain 的 Streamlit 应用。它利用了 Bing maps API、OpenStreetMaps API 和 FourSquare API。- abhijitpal1247/TripplannerBot

使用 LangChain 的 Self-Querying Retriever 构建公寓租赁搜索

提到的链接：

Discord - 与朋友和社区聊天的新方式: Discord 是通过语音、视频和文本进行交流的最简单方式。与你的朋友和社区聊天、聚会并保持紧密联系。
jartine/Meta-Llama-3-70B-Instruct-llamafile · Hugging Face: 未找到描述
jartine/Meta-Llama-3-70B-Instruct-llamafile at main: 未找到描述
jartine/Meta-Llama-3-8B-Instruct-llamafile · Hugging Face: 未找到描述
llama.cpp/.devops/main-vulkan.Dockerfile at master · ggerganov/llama.cpp: C/C++ 中的 LLM 推理。通过在 GitHub 上创建账户，为 ggerganov/llama.cpp 的开发做出贡献。
Reddit - 深入探索一切: 未找到描述
由 DifferentialityDevelopment 添加 llama-3 聊天模板 · Pull Request #6751 · ggerganov/llama.cpp: 这只是简单地添加了 llama 3 聊天模板

来自 Dylan Patel (@dylan522p) 的推文

未找到标题

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Falling Falling Down Stairs GIF - Falling Falling Down Stairs Stairs - Discover & Share GIFs

提到的链接:

在几分钟内微调 LLM（含 Llama 2, CodeLlama, Mistral 等）：厌倦了 Prompt Engineering？微调通过调整模型权重以更好地适应特定任务，帮助你从预训练 LLM 中获得更多收益。这份操作指南将帮助你利用基础模型...
modal-examples/06_gpu_and_ml/llm-frontend/index.html at main · modal-labs/modal-examples：使用 Modal 构建的程序示例。通过在 GitHub 上创建账号为 modal-labs/modal-examples 的开发做出贡献。
使用 Databricks Model Serving 部署私有 LLM | Databricks 博客：在完全控制数据和模型的情况下部署生成式 AI 模型。

提到的链接:

使用 LLM 从终端访问 Llama 3 的选项：Llama 3 已于周四发布。早期迹象表明，它现在是最好的开源许可模型——Llama 3 70b Instruct 在 LMSYS arena 中并列第 5 位……
Release 0.4 · simonw/llm-gpt4all：升级到最新的 gpt4all (2.5.1)，增加了对多个新模型的支持，包括... llm -m Meta-Llama-3-8B-Instruct "say hello with a lot of words" 来运行新的 Llama 3 8B Instruct 模型...

Learn How LLAMA 3 Works Now: The Complete Beginner’s Guide

FineWeb：15万亿 Token，12年的 CommonCrawl 数据（已去重和过滤，不客气）

AI Reddit 回顾

AI Twitter 摘要

AI Discord 回顾

第 1 部分：高层级 Discord 摘要

Unsloth AI (Daniel Han) Discord

Perplexity AI Discord

Nous Research AI Discord

LM Studio Discord

Stability.ai (Stable Diffusion) Discord

CUDA MODE Discord

OpenAccess AI Collective (axolotl) Discord

Eleuther Discord

Modular (Mojo 🔥) Discord

HuggingFace Discord

OpenRouter (Alex Atallah) Discord

Latent Space Discord

LAION Discord

OpenAI Discord

LlamaIndex Discord

OpenInterpreter Discord

Cohere Discord

tinygrad (George Hotz) Discord

DiscoResearch Discord

LangChain AI Discord

Mozilla AI Discord

Interconnects (Nathan Lambert) Discord

LLM Perf Enthusiasts AI Discord

Skunkworks AI Discord

Datasette - LLM (@SimonW) Discord

Alignment Lab AI Discord

PART 2: 频道详细摘要与链接