ainews-to-be-named-4408
大语言模型作为陪审团 (LLMs-as-Juries)
OpenAI 已向所有 ChatGPT Plus 用户推出了记忆功能,并与《金融时报》达成合作,获得其内容授权用于 AI 训练。由于付费训练数据授权以及 GPT-4 使用限制可能缩减,引发了关于 OpenAI 盈利能力的讨论。有用户反映,在记忆功能更新后,ChatGPT 出现了数据清理方面的问题。
相关的教程和项目包括构建由大语言模型(LLM)驱动的 AI 语音助手和界面智能体。在 Stable Diffusion 领域,用户正在寻找可媲美 PonyXL 的写实 SDXL 模型;同时,Hi-diffusion 和 Virtuoso Nodes v1.1 等新插件为 ComfyUI 增强了高级图像生成及类 Photoshop 的功能。Cohere 的研究发现,在 LLM 评判任务中,多智能体的表现优于单智能体,这凸显了多智能体系统的技术进展。
目录
[TOC]
AI Reddit 回顾
涵盖 r/LocalLlama, r/machinelearning, r/openai, r/stablediffusion, r/ArtificialInteligence, /r/LLMDevs, /r/Singularity。评论抓取功能现已上线,但仍有很大改进空间!
以下是更新后的摘要,采用了要求的格式并降低了 AGI 相关帖子的权重:
OpenAI 新闻
- Memory 功能现已面向所有 ChatGPT Plus 用户开放:OpenAI 在 Twitter 上宣布,Memory 功能现已推送到所有 ChatGPT Plus 订阅用户。
- OpenAI 与《金融时报》(Financial Times)合作,将 AI 应用于新闻领域:OpenAI 已签署协议,获得《金融时报》的内容授权以训练其 AI 模型。官方分享了一张图片宣布这一合作伙伴关系,旨在开发新闻领域的 AI 体验。
- 对 OpenAI 在支付训练数据费用后的盈利能力的担忧:在 /r/OpenAI 中,一则帖子质疑 OpenAI 在开始支付内容授权费用后的盈利能力,推测本地开源模型可能会削弱其业务。
- GPT-4 使用限制可能有所降低:一位 /r/OpenAI 的用户注意到 GPT-4 的使用限制已从每 3 小时 40 条消息降至每小时约 20 个问题。
- Memory 更新后 ChatGPT 出现的问题:在 /r/OpenAI 中,一位用户发现 ChatGPT 在 Memory 更新后在数据清洗和分析任务上表现挣扎,会出现错误和不完整的输出。
OpenAI API 项目与讨论
- 使用 OpenAI 构建 AI 语音助手的教程:/r/OpenAI 分享了一篇博客文章,介绍如何结合 OpenAI API 和 Web Speech API 构建 AI 语音助手。
- AI 驱动的副业项目讨论:在 /r/OpenAI 中,一则帖子邀请他人分享他们的 AI 驱动副业项目。发帖者展示了一个使用 GPT-4 制作的需求分析工具,以及一个使用 GPT-3.5 制作的互动德语导师。
- 由 LLM 驱动的界面 Agent(Interface agents):/r/OpenAI 的一则帖子讨论了“界面 Agent”——即能够与浏览器和应用程序等用户界面进行交互并控制它们的 AI。内容涵盖了关键组件、工具、挑战和用例。
- 在 GPT-4 生成的图像中调整元素大小的困难:在 /r/OpenAI 中,一位用户寻求建议,如何指示 GPT-4 缩小生成图像中的某个元素,因为该模型在一致地调整物体大小方面表现不佳。
Stable Diffusion 模型与扩展
- 寻找与 PonyXL 媲美的写实 SDXL 模型:在 /r/StableDiffusion 中,一位用户询问是否有在质量和摄影风格提示词对齐(prompt alignment)方面能与 PonyXL 相提并论的写实 SDXL 模型。
- ComfyUI 的 Hi-diffusion 扩展:一位 /r/StableDiffusion 用户发现 Hi-diffusion 在 ComfyUI 中表现出色,配合 SD1.5 模型可生成细节丰富的 2K 图像,性能优于 Khoya deep shrink。目前已有相关扩展,但仍需改进。
- Virtuoso Nodes v1.1 为 ComfyUI 引入 Photoshop 功能:Virtuoso Nodes 的 1.1 版本已为 ComfyUI 发布,新增了 8 个节点,可模拟 Photoshop 的核心功能,如混合模式、可选颜色、色彩平衡等。
- 在 Fooocus 中简化 Pony XL 提示词的样式 (Styles):一位 /r/StableDiffusion 用户为 Fooocus 创建了样式来处理 Pony XL 提示词中的质量标签,从而实现更简洁、更专注于内容的提示词。
- 动漫风格阴影 LoRA 发布:一款动漫风格阴影 LoRA 发布,建议配合 Anystyle 和其他 ControlNet 使用。文中提供了该 LoRA 文件的 Hugging Face 链接。
Stable Diffusion 帮助与讨论
- 避免生成图像中出现显式内容:在 /r/StableDiffusion 中,一位用户在生成的图像中 80% 都出现了生殖器元素,因此寻求负面提示词(negative prompt)建议,以便生成“常规色情内容”。
- 使用 AI 图像和动态文本创建短视频剪辑:/r/StableDiffusion 的一篇帖子询问了相关 API,旨在生成带有动态文本叠加的 AI 图像,从而制作短视频剪辑。
- 尽管游戏性能提升,新款 Nvidia GPU 在 AI 任务中可能变慢:有警告指出,像 4070 笔记本版这样的新款 Nvidia GPU 使用的显存总线(memory bus)比旧款更窄,导致其在 AI 工作负载中的速度变慢。
- 社区图像打标项目提案:/r/StableDiffusion 的一篇帖子建议发起社区协作,对图像进行全面打标,以创建一个具有一致说明文字(caption)的图像数据集,用于训练更好的模型。
- 使用 VAE 进行图像压缩:在 /r/StableDiffusion 分享的实验表明,在某些情况下,使用 VAE latents 进行图像压缩的性能可与 JPEG 媲美。将生成的图像保存为 latents 是无损的,且体积远小于 PNG。
- 从头像生成全身照:在 /r/StableDiffusion 中,一位用户询问是否可以在不大幅改变面部的情况下,使用 SD Forge 从头像图像生成全身照。
- Audrey Hepburn 的 Textual Inversion 模型:一位 /r/StableDiffusion 用户制作了 Audrey Hepburn 的 Textual Inversion 模型,可以生成相似但各具特色的面部,并分享了示例图像和 Civitai 链接。
AI Twitter 摘要
所有摘要均由 Claude 3 Opus 完成,从 4 次运行中择优。我们正在尝试使用 Haiku 进行聚类和流程工程 (flow engineering)。
LLM 与 AI 模型
- Llama 3 性能:@abacaj 指出,无需训练的 Llama 3 模型即可获得 32k 上下文且质量卓越,超越了规模大得多的模型。@rohanpaul_ai 提到 Llama 3 捕捉到了极其细微的数据关系,甚至利用了 BF16 精度中最小的小数位,这使得它相比 Llama 2 对量化损耗(quantization degradation)更敏感。
- Llama 3 基准测试:@abacaj 报告称 Llama 3 70B 在某项基准测试中位列第三,取代了 Haiku。@abacaj 分享了该模型在代码片段基准测试中的补全结果,该测试要求模型根据描述查找函数。
- Llama 3 变体:@mervenoyann 注意到基于 Llama 3 和 Phi-3 的新型类 LLaVA 模型通过了 baklava 基准测试。@AIatMeta 提到了 Meditron,这是一个由 @ICepfl 和 @YaleMed 研究人员为低资源医疗环境构建的 LLM 套件,它在 MedQA 和 MedMCQA 等基准测试中,使用 Llama 3 在同参数级别中表现优于大多数开源模型。
- GPT-2 Chatbot:关于 gpt2-chatbot 模型的身份存在诸多猜测,@sama 提到他对 gpt2 情有独钟。一些理论认为它可能是 GPT-4.5/5 的预览版或衍生模型,但大多数人认为它不太可能是最新的 OAI 模型。
- Phi-3 及其他模型:@danielhanchen 发布了一个 Phi-3 notebook,其微调速度比 HF+FA2 快 2 倍,且显存(VRAM)占用减少 50%。@rohanpaul_ai 分享了一篇论文,认为 Transformer 通过在其前向传播(forward pass)中对根据上下文数据构建的损失函数执行梯度下降来实现上下文学习(in-context learning)。
Prompt Engineering 与评估
- Prompt Engineering 技术:@cwolferesearch 将最近的 Prompt Engineering 研究归类为推理、工具使用、上下文窗口和更好的写作。技术包括 zero-shot CoT 提示、基于复杂度选择示例、优化推理过程(rationales)、任务分解、使用 API、优化上下文窗口以及迭代提示。
- LLM 作为陪审团:@cohere 发布了一篇论文,探讨在评估中用多个 LLM 陪审团(juries)取代单一 LLM 裁判(judge)。这种使用多样化 LLM 集合的 “PoLL” 方法在各数据集上的表现优于单一裁判,且成本比 GPT-4 低 7-8 倍。
- 评估 LLM:@_lewtun 询问了除了 @lmsysorg 的工作之外,还有哪些研究探讨了哪些提示能使 LLM 裁判与人类对成对排名(pairwise rankings)的偏好最相关。@_philschmid 总结了 @cohere 提出的用于 LLM 评估的 PoLL (Panel of LLM) 方法,作为单一大型模型裁判的替代方案。
应用与用例
- 财务计算:@llama_index 分享了一个全栈教程,用于构建财务助手,该助手可以使用 @llama_index 中的 LlamaParse、RAG、Opus 和数学公式,针对非结构化财务报告计算百分比演变、CAGR(复合年增长率)和 P/E(市盈率)。
- SQL 查询生成:@virattt 使用 @cohere cmd r+ 在约 1 秒内从财务查询中提取股票代码(ticker)和年份元数据,然后使用元数据过滤向量数据库(vector db),将结果输入 GPT-4,并以约 3 秒的总延迟回答用户查询。
- 多 Agent RAG:@LangChainAI 宣布了一个 YouTube 工作坊,探索“多 Agent”应用,这些应用利用规划(planning)、反思(reflection)、工具使用以及他们的 LangGraph 库,结合独立 Agent 来解决复杂问题。
- 机器人与具身智能(Embodied AI):@DrJimFan 主张机器人是 LLM 之后的下一个前沿领域,分享了 MIT AI Lab 1971 年强调机器人的提案,并对现状进行了反思。@_akhaliq 分享了一篇关于 Ag2Manip 的论文,该论文利用 Agent 无关的视觉和动作表示,改进了操作任务的模仿学习。
框架、工具与平台
- LangChain 教程:@LangChainAI 分享了一个 4 小时的课程,旨在理解 LangChain 如何与各种技术协作来构建 6 个项目。@llama_index 提供了一个使用 LlamaParse, AWS Bedrock 和 @llama_index 的 高级 RAG 参考架构。
- Diffusers 库:@RisingSayak 解释了 Diffusers 库如何 支持自定义 Pipeline 和组件,在保持
DiffusionPipeline类优势的同时,为构建 Diffusion 模型提供了灵活性。 - Amazon Bedrock:@cohere 宣布他们的 Command R 模型系列现已在 Amazon Bedrock 上线,用于企业级工作负载。@llama_index 展示了如何使用 LlamaParse 在 AWS/Bedrock 生态系统中进行高级解析,并 利用 Bedrock Knowledge Base 构建 RAG。
- DeepSpeed 支持:@StasBekman 指出,一个合并到
main@accelerate的 PR 使得 FSDP 在加载 fp16 模型时,通过自动将可训练参数上采样到 fp32,从而达到 与 DeepSpeed 相同的收敛速度。
迷因、幽默及其他
- ASCII 艺术:几条推文嘲讽了 LLM 的 ASCII 艺术能力,@ylecun 指出 AI 炒作已经变得与讽刺作品无异。@teortaxesTex 分享了一个使用 emoji 绘制 Katamari Damacy 关卡地图的 Prompt,这极大地考验了 “GPT2” 的指令遵循能力。
- Anthropic Slack:@alexalbert__ 分享了他从 Anthropic 内部 Slack 频道中挑选的 10 个最爱内容,自发布以来,员工们一直在那里发布酷炫的 Claude 交互和迷因。
- 对 Rabbit 的失望:几位用户对 Rabbit AI 设备表示失望,指出其 功能与预期相比非常有限。@agihippo 质疑 Rabbit r1 有什么功能是手机做不到的。
AI Discord 总结
总结的总结之总结
1) 微调与优化大语言模型
-
LLaMA-3 微调中的挑战:工程师们面临着模型 不生成 EOS tokens 以及 不同位格式间的 Embedding 层兼容性等问题。然而,一位成员通过利用 LLaMA-3 特定的 Prompt 策略 进行微调取得了成功。
-
LLaMA-3 对量化敏感:讨论强调,与 LLaMA-2 相比,LLaMA-3 在量化过程中经历了更多的性能退化,这可能是因为它从 15T tokens 的训练中捕捉到了更细微的关系。
-
Perplexity 微调挑战:为 Perplexity(困惑度)微调 LLaMA-3 可能无法超越 Base 模型的性能,Tokenizer 被怀疑是潜在原因。
2) 扩展上下文长度与能力
-
Llama-3 创下上下文长度新高:Llama-3 8B Gradient Instruct 1048k 的发布将上下文长度从 8k 扩展到了超过 1048k tokens,展示了最前沿的长上下文处理能力。
-
Llama 3 通过 SigLIP 获得视觉能力:一项突破性进展利用 SigLIP 为 Llama 3 集成了视觉能力,尽管存在量化限制,但仍可直接在 Transformers 中使用。
-
使用 PoSE 将上下文扩展到 256k:Llama 3 8B 的上下文长度已通过 PoSE 扩展到 256k tokens,但在“大海捞针”(needle in haystack)场景下仍面临推理挑战。
3) LLM 基准测试与评估
-
Llama 3 在德语 NLG 中表现优于 GPT-4:在 ScanEval German NLG 基准测试 中,Llama 3 的表现超过了 GPT-4,显示出其强大的语言生成能力。
-
神秘的 GPT2-Chatbot 引发猜测:一个具有 GPT-4 级别能力的神秘 GPT2-chatbot 出现,引发了关于它是 GPT-4.5 的早期预览还是原始 GPT-2 的微调版本的争论。
-
质疑代码生成排行榜的实用性:一篇 博客文章 质疑了 AI 排行榜在代码生成方面的有效性,理由是像 LLM debugger 这样排名靠前的模型运行成本极高。
4) 利用 LLM 驱动的 NPC 变革游戏体验
-
LLM 驱动的 NPC 和推理栈:LLM 驱动的 NPC 模型 的发布旨在增强动作空间并简化 API 调用,包括单次 LLM 调用功能以及在 Hugging Face 上的开放权重。
-
克服游戏中的 LLM 挑战:开发者面临着诸如 NPC 打破第四面墙、长 Prompt 中细节丢失以及运行时速度优化等问题,并提出了 输出压缩、减少模型调用 以及利用 更小模型 等解决方案。
-
NPC 场景下微调 LLM 的见解:开发者计划通过即将发布的博客文章分享他们在 为动态 NPC 行为微调 LLM 过程中的挣扎与胜利,为游戏应用提供新的策略。
5) 杂项
-
CUDA 优化技术:CUDA 开发者讨论了各种优化策略,包括使用
Packed128自定义结构体来优化内存访问模式,使用位移替代整数除法(Compiler Explorer 链接),以及比较 CUTLASS vs CuBLAS 在矩阵乘法中的性能。引入了 Effort Engine 算法,该算法允许在 LLM 推理期间调整计算量,从而在 Apple Silicon 上实现与标准矩阵乘法相当的速度(kolinko.github.io/effort, GitHub)。 -
LLaMA-3 上下文长度扩展与微调:使用 PoSE 技术将 LLaMA-3 8B 模型的上下文长度扩展到了超过 1M tokens(huggingface.co/winglian/llama-3-8b-256k-PoSE),引发了关于其检索性能和计算需求的讨论。微调 LLaMA-3 带来了诸如 量化退化、EOS token 生成 以及跨位格式的 embedding 层兼容性 等挑战。一个 GitHub pull request 分享了潜在的突破,展示了使用特定模型 Prompt 策略的成功微调。
-
Civitai 变现引发的抵制:Stable Diffusion 社区成员对 Civitai 的变现策略 表示不满,特别是 Buzz 捐赠系统,被 Tower13Studios 等人称为“坑人”(The Angola Effect)。讨论还强调了与饱和的 SFW 市场相比,NSFW AI 生成艺术委托 的潜在盈利能力。
-
Perplexity AI 性能问题:用户报告在日本黄金周期间,各种 Perplexity AI 模型出现显著变慢和性能不佳的情况,特别是 日语搜索 导致输出无意义。用户对 过期的 Pro 订阅优惠券 和取消 7 天免费试用 表示沮丧。技术问题包括影响登录的 邮件链接延迟 以及取决于应用版本的 iOS 语音功能 不一致。
-
去中心化 AI 训练倡议:Prime Intellect 提出了一种使用 H100 GPU 集群 的去中心化训练方法,使开源 AI 能够与专有模型竞争(博客文章)。该倡议旨在通过利用全球分布的 GPU 资源来解决计算基础设施的限制。
第 1 部分:高层级 Discord 摘要
CUDA MODE Discord
-
Triton 难题:工程师们讨论了 Triton blocks 的限制,发现 4096 个元素的 block 是可行的,但 8192 个元素的 block 则不行,这暗示了与预期的 CUDA 限制存在差异。
-
CUDA 认知与协作:讨论了各种 CUDA 主题,包括 CUTLASS vs. CuBLAS 性能、CUDA checkpointing 以及用位移代替整数除法。分享了一个 Compiler Explorer 链接以辅助实验。
-
追踪 PyTorch 特性:成员们研究了 PyTorch
linear函数和矩阵乘法 kernel 启动的行为,观察到了双重 kernel 启动现象,以及由于转置导致的性能差异的错误预期。 -
使用 Effort Engine 优化 LLM 推理:讨论围绕 Effort Engine 算法展开,该算法允许在 LLM 推理期间调整计算量(computational effort),据称在较低计算量下,其速度可与 Apple Silicon 上的标准矩阵乘法相媲美。实现和详情见 kolinko.github.io/effort 和 GitHub。
-
InstaDeep 的机器学习人才招聘:InstaDeep 正在寻找在高性能 ML 工程、自定义 CUDA kernels 和分布式训练方面具有专业知识的 Machine Learning Engineers。候选人可以在 InstaDeep Careers 查看机会。
-
Llama-3 迈向更长上下文:Llama-3 8B Gradient Instruct 1048k 的发布为 LLM 的上下文长度能力设定了新基准。
-
ROCm 助力 Flash Attention 2:ROCm 频道的对话集中在将 NVIDIA 的 Flash Attention 2 适配到 ROCm,重点是与 ROCm 6.x 版本的兼容性,并提供了相关仓库链接 ROCm/flash-attention on GitHub。
-
CUDA 秘密会议聚焦 “Packed128” 创新:llmdotc 频道是一个热点,讨论集中在优化
Packed128数据结构和 BF16 混合精度策略,同时也涉及了 NVTX 上下文的细微用法以及 Modal 等不同基准测试工具集的效用。
Unsloth AI (Daniel Han) Discord
-
融合 Checkpoints 以避免过拟合:一位成员寻求关于 checkpoint 合并以避免过拟合的指导,并被引导至 Unsloth finetuning checkpoint wiki。对于精细的训练方案,建议使用 warmup steps 和 resuming from checkpoints 等技术。
-
WSL2 中的量化困境:用户报告在 WSL2 中将模型转换为 F16 时出现 RuntimeError: Unsloth: Quantization failed。尽管尝试重新构建
llama.cpp并重新量化,错误仍然存在。 -
Phi-3:备受关注的模型:即将发布的 Phi-3 引起了兴趣,工程师们在辩论是采用 3.8b 版本,还是等待更强大的 7b 或 14b 变体。
-
OOM 对策与性能数据混淆:交流了通过清理缓存处理 Google Colab 上 Out of Memory (OOM) 错误的技巧。同时,对于量化后的 Llama 2 和 Llama 3 报告的性能指标出现了混淆,暗示 Bits Per Word (BPW) 和 Perplexity (PPL) 之间可能存在数据放错位置的情况。
-
扩展的可能性:Llama 3 8B 通过 PoSE 将上下文长度增加到 256k token,达到了新的潜力,展示在 winglian/llama-3-8b-256k-PoSE。社区对 Winglian 表示赞赏,尽管一些人对非官方上下文扩展模型的行为表示怀疑。
LM Studio Discord
- Groq 给 Discord 机器人的礼物:一位用户分享了一个 YouTube 视频,重点介绍了 免费 的 Groq API,它能让 LLAMA-3 模型达到每秒 300 tokens 的惊人速度,由于其零成本设置,非常适合小型服务器的 Discord 机器人。
- 规格大比拼:用户建议在排查 Ubuntu GPU 上的 LM Studio 问题时,在特定频道发布系统规格(specs),辩论了 GPU 与 inference 任务 的兼容性,并讨论了 LM Studio 中可能不正确的 VRAM 容量显示,这引发了对 GPU offloading 效率 的担忧。
- 模型狂热:社区热议从 Huggingface 以外的来源下载 GGUF 模型的替代方法,创建 iQuants 和 imatrices 的时间和资源需求,并分享了优化 Goliath 120B Longlora 模型以创建其 iQuant 版本的悬赏。
- 低配机器上的模型混乱:用户正在努力解决 Phi-3 模型的 提示词泄漏(leaking prompts)、基于 Hugging Face 模型的 local training 咨询,以及 Llama3m 在生成 token 时硬盘发出的意外噪音等问题。一些人断定,较旧的硬件勉强可以应付 7b Q4 模型,但再大的就无能为力了。
- ROCm 沉思:爱好者们剖析了 ROCm 版本,思考 beta 0.2.20 对 AMD 功能的好处,解决了关于兼容性的困惑——特别是 RX 6600 对当前 HIP SDK 的支持——并讨论了 ROCm 在不同操作系统(如 Ubuntu 与 Windows)上功能的差异。
Stability.ai (Stable Diffusion) Discord
滚开,Civitai:公会中的 AI 创作者对 Civitai 的变现策略感到不满,特别是 Buzz 捐赠系统,被 Tower13Studios 等成员贴上了 “坑人(rip-off)” 的标签。不满情绪集中在价值没有公平地回馈给创作者(安哥拉效应)。
寻找 AI 艺术金矿:关于 AI 生成艺术经济学的一场热烈讨论展开了,共识指向 NSFW 委托(包括 furry 和 vtuber 内容),认为这比拥挤的 SFW 市场更有利可图。
实时渲染竞赛:成员们积极分享用于加速 Stable Diffusion (SDXL) 模型的 Python 脚本技术,着眼于 Discord 机器人等动态领域的应用,旨在提高实时应用的图像生成速度。
对 Collider 的期待与日俱增:社区正热切期待 Stable Diffusion 的下一个迭代版本,代号为 “Collider”,关于发布日期和潜在进步的猜测激发了用户的热切期待。
技术故障排除讨论:公会成员就一系列技术挑战交换了见解和解决方案,从创建 LoRAs 和 IPAdapters 到在低配硬件上运行 AI 模型,展示了推动模型实现和优化边界的集体努力。
Perplexity AI Discord
-
日本黄金周期间的故障:在日本黄金周期间,用户观察到 Opus、Sonar Large 32K 和 GPT-4 Turbo 等工具的性能明显下降,特别是在日语搜索方面出现了特定问题,导致输出被用户视为“无意义的垃圾内容”。为了解决这一问题,建议对这些模型进行严密监控和优化。
-
对 Pro 订阅和试用风险的挫败感:Pro 订阅用户反映优惠券在到期日失效,而与 Nothing Phone 2(a) 相关的优惠活动因欺诈活动而提前终止。此外,网站取消了 7 天免费试用,引发了用户的失望,强调了其作为用户转化工具的价值。
-
Perplexity AI 的技术动荡:社区正在应对 Email 链接延迟问题,这导致了登录困难,尤其是对于非 Gmail 服务。此外,iOS 语音功能的差异被发现取决于所使用的 App 版本,反映了用户体验的不一致。
-
API 途径探索:工程师们在 pplx-api 频道询问了关于通过 API 访问 Source URL 的问题(此前在路线图文档中提及),并讨论了使用 Claude 3 是否需要遵守 Perplexity 条款下 Anthropic 的政治用途限制。
-
杂项查询与见解浮现:#sharing 频道的一篇帖子重点介绍了 Lenny 关于产品增长和构建概念的通讯,同时还涉及了关于 WhatsApp 自动回复功能和 Vimeo API 的咨询。这些讨论(尤其是关于 API 的讨论)突显了工程师们对在系统/流程中集成和利用各种功能的关注。
Nous Research AI Discord
大胆的去中心化举措:Prime Intellect 发起的去中心化 AI 训练倡议,利用 H100 GPU 集群,承诺通过全球化分布式训练来突破界限。正如其去中心化训练博客中所讨论的,这种开源方法可能会解决当前的计算基础设施瓶颈。
LLama-3 引发的检索革命:LLama-3 8B 的上下文长度扩展到超过 1040K tokens,引发了关于其检索性能是否名副其实的讨论。怀疑论者依然存在,强调持续改进和训练的必要性,并引用了一篇关于 IN2 训练的 ArXiv 论文作为支持。
解决 PDF 挑战:为了解决 AI 模型中的 PDF 解析挑战(尤其是表格解析),社区讨论了变通方案和工具,如 OpenAI 的 File Search,以实现更好的多模态功能,处理约 1 万个文件。
世界模拟器展示 AI 的角色扮演实力:与 AI 驱动的世界模拟(World Sims)的互动展示了 LLama 3 70B 和 Claude 3 的能力,涵盖了从历史人物到商业和歌唱事业模拟器。OpenAI 在 HuggingChat 上的聊天以及指向 Snow Singer Simulator 等小众模拟器的链接,反映了可以实现的样性与深度。
利用数据集进行多语言密集检索:HuggingFace 上一个著名的 Wikipedia RAG 数据集标志着提升 AI 语言检索能力的兴起。其中包含的 Halal 和 Kosher 数据点指向了创建多样化和包容性 AI 资源的趋势。
Modular (Mojo 🔥) Discord
-
Mojo 的内存安全和并发性引发讨论:尽管 Mojo 的潜力备受关注,但由于 borrow checking 被禁用,目前尚未实现类似 Golang 的并发和类似 Rust 的内存安全。然而,正在探索使用 actor model 并发性的可能性,这可能会提高 Mojo 的运行时效率。
-
不同系统上的 Mojo 安装策略:用户在 Mac M1 上使用 Python 3.12.3 安装 Mojo 时面临挑战,建议使用 Conda 环境。此外,虽然原生 Windows 支持 尚在开发中,但 Windows 上的 WSL 是目前的权宜之计,并通过 LLVM 暗示了交叉编译能力。
-
社区对 Mojo 生态系统的贡献:多个社区驱动的项目正在增强 Mojo 生态系统,从 GitHub 上的 Mojo 论坛到针对长字符串优化了 20% 性能 的 atof-simd 项目。随着成员分享项目并呼吁共同应对 1brc 等挑战,协作和知识共享的热情显而易见。
-
Nightly 编译版本引发关于 SIMD 和 Source Location 的讨论:Mojo 编译器 的新 nightly 版本引发了关于 SIMD 转换为 EqualityComparable 的讨论,以及需要显式的
reduce_and或reduce_or来替代隐式转换为Bool。将__source_location()移至__call_location()引起了关于语言内正确用法的交流。 -
性能和基准测试成为焦点:从优化基于 SIMD 的纠错码到分享 1brc 项目中的显著速度提升,性能话题引发了关于 LLVM/MLIR 优化 的讨论。有人呼吁组建 “team-mojo” 进行社区挑战攻关,强调了在 Mojo 与其他语言的基准测试对比中取得进展的共同兴趣。
HuggingFace Discord
Snowflake 的 MoE 模型取得突破:Snowflake 推出了一个具有 408B 参数的庞大 Dense + Hybrid MoE 模型,拥有 4K 上下文窗口,完全采用 Apache 2.0 许可证,其在复杂任务上的表现令人兴奋。
Gradio 分享服务器出现故障:Gradio 承认其分享服务器存在问题,影响了 Colab 集成,目前正在积极解决中,其状态页面提供更新。
CVPR 2023 激发竞争精神:CVPR 2023 宣布了竞赛活动,如 SnakeCLEF、FungiCLEF 和 PlantCLEF,奖金超过 12 万美元,将于 2024 年 6 月 17 日至 21 日举行。
MIT 深度学习课程上线:MIT 更新了其 2024 年深度学习导论课程,并在 YouTube 上提供了完整的讲座视频。
聊天机器人领域的 NLP 难题:在 NLP 社区中,尽管在意图识别和分类方面存在困难,但人们正努力使用 Rasa 框架微调聊天机器人,并计划通过自定义 NER 模型和公司特定意图来增强性能。
OpenRouter (Alex Atallah) Discord
-
Alex Atallah 指出与 Syrax 的合作:Alex Atallah 已开始与 Syrax 进行实验,并通过提议建立群聊来扩展支持以进行协作,这标志着合作伙伴关系的开始,得到了 Mart02 的热情回应。
-
面向普通用户的前端:社区探索了在没有高级技术要求的情况下,在共享主机上部署多用户前端的解决方案。LibreChat 被建议作为一个可行的平台,并提到 Vercel 的免费层托管是解决托管和成本障碍的一种手段。
-
LLM 大比拼:围绕 Llama-3 8B、Dolphin 2.9 和 Mixtral-8x22B 等多个大语言模型展开了激烈的辩论,涉及上下文窗口大小以及与对话风格和数据集相关的审查问题。
-
训练“放飞自我”的 AI:一个有趣的实验涉及使用毒性数据集训练模型,以培养更“放飞自我(unhinged)”的人格。讨论深入探讨了长上下文下的模型局限性,一致认为虽然像 Llama 3 8B 这样的模型可以处理长上下文,但超过阈值后性能可能会下降。
-
OpenRouter 上的高性价比实验:对话集中在 OpenRouter 上寻找高效且实惠的模型。值得注意的是,像 GPT-3.5 这样能够很好地平衡价格和性能、并提供类人输出的模型,让人们感到惊喜并获得了认可。
LlamaIndex Discord
AWS 架构走向学术化:LlamaIndex 展示了一种基于 AWS 的高级架构,用于构建复杂的 RAG 系统,旨在进行解析和推理。详细信息可以在其 代码仓库 中获取。
文档机器人(Documentation Bot)在黑客松中获胜:黑客松冠军 Team CLAB 开发了一个令人印象深刻的文档机器人,利用了 LlamaIndex 和 Nomic embeddings;请在这一篇 博客文章 中查看黑客松总结。
金融助手获得提升:构建能够解释非结构化数据并执行复杂计算的金融助手得到了极大改进。该方法在 最近的一篇文章 中进行了深入探讨。
通过语义缓存(Semantic Caching)加速 RAG:与 @Redisinc 的合作展示了通过使用 语义缓存 来加速查询,从而显著提升 RAG 应用的性能。合作详情可以在 这里 找到。
GPT-1:被铭记的开拓者:分享了对 GPT-1 及其对 LLM 发展贡献的回顾,讨论了 positional embeddings 等特性,这些特性为 Mistral-7B 等现代模型铺平了道路。这篇充满怀旧色彩的 博客文章 重新审视了 GPT-1 的架构和影响。
Eleuther Discord
参与新的社区项目:成员们正在寻求机会为提供计算资源的社区 AI 项目做出贡献,以解决那些缺乏个人 GPU 基础设施的人员面临的问题。
揭开 AI 记忆的奥秘:讨论了 AI 记忆过程的复杂性,特别关注了压缩记忆(compressive memory)中的 “clear-ing”、orthogonal keys 和 delta rule。尽管 infini-attention 在理论上很有前景,但人们对其是否被过度炒作表现出讨论兴趣。
苹果与超级计算机的对比:关于 mixtral 8x22B 和 llama 3 70B 等模型之间性能差异的辩论非常活跃,其中 llama 虽然参数更多,但层数较少,这可能会影响其速度和批处理(batching)效率。
LLMs:窥探黑箱内部:社区正在思考大语言模型(Large Language Models)的“黑箱”性质,讨论涌现能力(emergent abilities)和数据泄露。有人将涌现能力与预训练损失(pretraining loss)联系起来,挑战了将算力(compute)作为性能唯一指标的观点。
位深(Bit Depth)困惑:一位用户报告了在 llama3-70b 和 llamma3-8b 等模型上使用 8bit 编码时遇到的问题,经历了输出质量的显著下降,这表明存在一个需要解决的跨模型编码挑战。
LAION Discord
- GDPR 投诉挑战 AI 生成的生日信息:一位欧盟隐私倡导者在 AI 模型错误估计其生日后提交了 GDPR 投诉,引发了关于 AI 在欧洲运营潜在影响的讨论。
- 神秘的 GPT-5 推测:在有关新 GPT-5 模型发布的传言中,社区对不一致的测试结果以及缺乏官方沟通或排行榜认可展开了辩论,质疑该框架在产生幻觉(hallucinations)方面的回避性。
- Llama3 70B 性能缓慢备受关注:AI 工程师正在排查 Llama3 70B 模型在双 3090 设备上每秒仅 13 tokens 的异常缓慢生成率,深入研究可能的硬件和配置优化。
- Exllama 库超越竞争对手:用户因 Exllama 在语言模型任务中的快速表现而推崇它,并建议利用 TabbyAPI 仓库进行更简单的集成,称其为优于其他库的选择。
- OpenCLIP 的研究突破:成功将 OpenCLIP 应用于心脏超声分析的研究已发表,强调了严格的修订过程以及向新型非 zero-shot 技术的转变,研究报告见 此处;同时 r/StableDiffusion 已恢复上线,并在 Reddit 最近 API 更改的背景下讨论了一个相关的 CLIP 训练仓库,详见 此 Reddit 讨论。
OpenAI Discord
升级版 ChatGPT Plus 的记忆功能:ChatGPT Plus 现在允许用户命令 AI 记住特定的上下文,该功能可以在设置中开启或关闭;目前该功能尚未在欧洲或韩国推出。此外,免费版和 Plus 用户都获得了增强的数据控制功能,包括在对话结束后立即丢弃对话的“Temporary Chat”选项。
AI 的好奇心与相机技巧:讨论内容从通过迷宫挑战定义 AI 的好奇心和感知力,转向了使用 DragGAN 以新角度修改照片的优点。同时,Llama-3 8B 模型亮相,展示了其长上下文(long-context)能力,可在 Hugging Face 获取,但社区仍在纠结先进 AI 技术的获取门槛以及模型间协作的愿景。
GPT-4:更大且可能更慢?:社区深入探讨了 GPT-4 的属性,指出其体积明显大于 3.5 版本,并对规模是否会影响处理速度表示担忧。同时,批量删除存档聊天的可能性也是关注的话题。
Prompt Engineering 的竞争优势:Prompt Engineering 引起了关注,有人建议通过竞赛来磨练技能,并利用 GPT Builder 进行“meta prompting”以优化 AI 输出。小组一致认为,正面提示优于列出禁止事项,并致力于优化 AI 文本生成中西班牙语的地区差异。
跨频道的优质 Prompt 主题:AI 讨论和 API 频道都探讨了 Prompt Engineering,元提示技术成为焦点,这表明 Prompt 策略正向更高效的方向转变,可能会减少对竞赛的需求。处理多语言输出的复杂性也成为共同的挑战,强调的是适配而非禁止。
OpenAccess AI Collective (axolotl) Discord
LLaMA 3 在量化方面的挑战:观察到 LLaMA 3 在量化过程中存在显著的性能下降,比其前代产品更严重,这可能是由于其在 15T tokens 上进行的广泛训练捕捉到了非常细微的数据关系。社区内的一篇评论称一项关于量化敏感性的研究“毫无价值”,认为问题可能更多地与模型训练方法而非规模有关;该评论引用了 arXiv 上的研究。
赶上 Zero 列车:协会讨论了 Huggingface 的 ZeroGPU,这是一项提供免费访问 Nvidia A100 等多 GPU 资源的测试功能,一些成员对错过早期访问表示遗憾。一位成员分享了访问权限,并欢迎在平台上进行测试的建议。
微调技巧:建议不要直接对 meta-llama/Meta-Llama-3-70B-Instruct 进行微调,建议成员从 8B 等较小模型开始以磨练微调技能。协会阐明了如何将微调数据集从 OpenAI 格式转换为 ShareGPT 格式,并提供了用于数据集转换的 Python 代码指导。
教程传播:分享了一个关于使用 dstack 微调 Axolotl 的实用教程,展示了社区协作改进实践的能力。成员们表达了感谢,并指出该教程易于使用。
Axolotl 的适配:在讨论 Axolotl 内部 command-r 的微调及相关格式适配时,一位成员分享了一个与此主题相关的未测试的 pull request,同时也指出其合并尚不成熟。此外,关于 phi-3 格式的支持以及 sample packing 功能的实现状态仍存在不确定性,表明需要进一步的澄清或开发。
Latent Space Discord
-
Memary:自主 Agent 的长期记忆:GitHub 上的 Memary 项目引入了一种实现自主 Agent 长期记忆的新方法,该方法使用文档相似度搜索,而非传统的知识图谱。
-
GPT-2 Chatbot 之谜:关于 GPT2-chatbot 的激烈辩论正在展开,该机器人展示了令人惊讶的高级能力,引发了人们猜测它可能是 OpenAI GPT-2 的一个微调版本。
-
去中心化训练能否与科技巨头竞争?:Prime Intellect 的博客文章 讨论了去中心化训练作为开源人工智能的一种可行途径,以此与拥有大量 GPU 资源的跨国公司开发的专有模型进行竞争。
-
通过模块化上下文和记忆重新定义 LLM:讨论中出现了一种范式转移,建议转向设计具有模块化共享上下文和记忆能力的自主 Agent 来进行推理和规划,从而摆脱对独立大型语言模型(LLM)的依赖。
-
为有抱负的 AI 爱好者提供的教育资源:对于那些寻求学习 AI 基础知识的人,社区成员推荐了一些资源,包括神经网络教程(如 YouTube 上的视频)和 Learn Prompting 等课程,提供了 AI 工程和 Prompt Engineering 基础知识的概览。
OpenInterpreter Discord
带有视觉功能的 OS 启动:一位用户在尝试为 Moondream 启动带有本地视觉模型的 OS 模式时遇到了挑战,并收到了乱码输出,但讨论尚未产生解决方案或直接建议。
集成成果:提到了一项令人兴奋的集成,将 OpenInterpreter 的输出集成到 MagicLLight 中,并期待未来发布包含 stream_out 函数钩子和 external_input 的代码及 Pull Request。
硬件故障帮助:有人提出了关于在树莓派 Zero 等廉价硬件上运行 OpenInterpreter 的疑问,并请求协助调试启动问题。社区成员表示在提供更多细节后将帮助进行故障排除。
按钮编程:一位个人修复了 pin 25 上的外部按钮问题,并分享了 代码片段,同时也得到了社区对该修复方案有效性的确认。
技术讨论中的音量提升:关于技术类 YouTuber 是否真正掌握 AI 技术存在不同意见,同时在增加扬声器音量的方案上给出了建议,包括使用 M5Unified 或外部放大器。
tinygrad (George Hotz) Discord
-
深入了解 Tinygrad 的内部运作:tinygrad GitHub 仓库被推荐给那些对 tinygrad 感兴趣的人,这是一个为 PyTorch 和 micrograd 爱好者准备的教育性项目。另一位社区成员询问了图形可视化问题,随后有人建议使用
GRAPH=1环境变量来生成图表,以解决反向传播(backward pass)问题 #3572。 -
学习资源的发现:社区通过 MicroGrad 和 MiniTorch 等资源探索使用 TinyGrad 学习 AI,其中 MiniTorch 被特别指出对于理解深度学习系统非常有用。”tinygrad 快速入门指南” 被强调为初学者的起点。
-
走符号化路线:在 TinyGrad 中实现符号化均值(symbolic mean)运算引发了关于 LazyBuffer 与数据类型交互,以及在
sum和mean等操作中变量缓存实用性的讨论。一个 Pull Request 展示了符号化代码执行,而进一步的 GitHub 对比视图则处理了带变量的符号化均值开发:tinygrad symbolic-mean-var-pull 以及 gh 的 GitHub 更改。 -
寻找均值方案的悬赏任务:社区正在寻求有关 “Mean of symbolic shape” 和 “Symbolic arrange” 悬赏挑战的指导。讨论集中在 TinyGrad 环境中这些问题的实现细微差别和实际方法。
-
好奇心汇集:一个关于成员如何发现该 Discord 服务器的随机问题引发了一连串推测,受访者承认他们不记得是如何遇到的,为频道对话增添了一抹神秘色彩。
Cohere Discord
-
Command-R 中的单站点限制:API Command R+ 的
web_search工具每次仅允许搜索一个网站,讨论的解决方法涉及为每个站点进行单独的 API 调用。 -
功能请求热潮:工程师们渴望 Command-R 的改进,重点在于 Connectors,包括多网站搜索和额外的参数控制;要熟悉当前功能,请参考 Cohere Chat 文档。
-
多步 Connector 功能目前受限:已确认在 Command-R 中尚无法通过 Connectors 实现多步工具使用(multi-step tool use)。
-
Generate 选项消失:有关从仪表板中消失的用于微调(fine-tuning)模型的“Generate”选项的查询不断增加,其未来的存在状态仍存疑。
-
寻求战略性 Embedding:讨论围绕保持 Embedding 数据新鲜度的高性价比策略展开,重点是仅对修改的部分进行重新索引(reindexing)。
-
提及北欧网络:成员们强调了在瑞典使用 Cohere 的业务,以及通过 Omegapoint 公司建立的现有联系,业务横跨瑞典和挪威。
LangChain AI Discord
-
Gemini 经验需求与可观测性工具寻求:general 频道的用户正在寻求 Gemini 1.0 或 1.5 模型 的专业知识,并讨论可用的 Large Language Model (LLM) 可观测性工具,重点关注与 LlamaIndex 兼容的自托管、开源选项。同时,有人推动在连接 OpenAI 模型时增强 SQL 安全性,并就将 autoawq 与 LangGraph 集成以使用 exllamav2 kernels 进行高速 AI Agent 推理进行了技术讨论。
-
异步冒险与 Google Drive 技巧:在 langserve 频道中,一位用户因 AzureSearchVectorStoreRetriever 缺乏异步支持而面临挑战,正在考虑是推动异步功能还是自己编写异步包装器。另外,讨论转向了使用 Google Drive 库的细微差别以及将 drive key 设置为环境变量的重要性。
-
作品展示盛会与插件揭秘:在 share-your-work 中,有一段充满洞察力的回顾,探讨了 GPT-1 在启动当前 LLM 进展中的作用,以及几个 LangChain 使用案例,包括 YouTube 上的 “D-ID Airbnb Use Case” 和 “Pizza Bot”。LM Studio 的 VectorDB 插件也亮相了,旨在增强服务器模式下的 ChromaDB 向量数据库,而 QuickVid 则发布了,用于提供 YouTube 视频摘要和事实核查。
-
RAG Agent 走向多语言与私有化:Tutorials 频道正在为有兴趣使用 LangChain, Mistral Large 和 Llamaindex 构建 RAG 助手的法语使用者分享资源。另一份指南演示了通过整合个人知识库来增强 llama3 的性能,以创建 Agentic RAG,揭示了更本地化和数据丰富的 AI 能力的潜力。
Alignment Lab AI Discord
警报:非法垃圾信息席卷频道:多个频道的众多消息推广了涉及 “18+ Teen Girls and OnlyFans leaks” 的露骨内容,并附带了 Discord 邀请链接。所有消息性质相似,使用表情符号和 @everyone 来吸引注意力,公然违反了 Discord 的社区准则。
需要立即采取审核行动:重复的帖子表明这是一次协调一致的垃圾邮件攻击,需要立即进行审核干预。每条消息都无一例外地链接到一个外部 Discord 服务器,可能诱导用户进入剥削性环境。
倡导工程师保持警惕:鼓励成员举报此类帖子以维持职业礼仪。这些内容违反了法律和道德界限,不符合公会的宗旨或标准。
Discord 服务器安全面临风险:这些消息的泛滥凸显了对服务器安全和成员安全的担忧。垃圾邮件表明服务器完整性可能受损,强调了采取强大反垃圾邮件措施的必要性。
敦促社区无视可疑链接:敦促工程师和成员避免参与或点击未经请求的链接。这些做法有助于保护个人信息和社区的信誉,同时遵守法律和道德准则。
AI Stack Devs (Yoko Li) Discord
-
游戏开发者准备迎接游戏化:Rosebud AI 的 Game Jam 邀请创作者使用 Phaser JS 制作基于浏览器的 2D 游戏,奖金池为 500 美元。此外,一场 AIxGames Meetup 定于周四在旧金山举行,旨在汇聚 AI 和游戏领域的专业人士 在此预约。
-
LLM 带来的 NPC 革命:一位开发者推出了由 LLM 驱动的 NPC 模型和推理栈,可在 GitHub 上的 GigaxGames 获取,该项目承诺提供 LLM 单次调用功能,并在 Huggingface Hub 上提供开放权重模型,尽管目前 API 访问链接存在故障。
-
应对游戏 NPC 的现实挑战:开发者正在尝试通过输出压缩、减少模型调用和使用更小的模型来提高 NPC 的运行性能,并努力解决 NPC “打破第四面墙”的问题。其中,Claude 3 模型在共情交互方面表现出潜力,有助于提升游戏体验。
-
关于 NPC 使用 LLM 的博客预告:即将发布的一篇博客文章记录了在为动态 NPC 行为微调 LLM 过程中的挣扎与胜利,指出了可能在社区内分享的新策略。
-
在 Windows 上使用 Convex 的困扰:Convex local 设置在 Windows 上运行不佳,导致用户遇到障碍。虽然已经提出了 WSL 或 Docker 等潜在解决方案,但据报道,兼容 Windows 的 Convex 版本即将推出。
Skunkworks AI Discord
HaystackDB 中的二进制探索:社区对 HaystackDB 中使用 2-bit embeddings 的潜力感到好奇,同时 Binary Quantized (BQ) 索引因其在更精简、更快速的相似性搜索方面的潜力而成为关注焦点。
LLaMA-3 微调的坎坷之路:工程师们在 LLaMA-3 微调过程中遇到了困难,面临从模型忽略 EOS token generation 到不同位格式下的嵌入层兼容性等一系列问题。
对困惑度 (Perplexity) 的困惑:社区讨论了针对困惑度微调 LLaMA-3 的问题,认为其性能可能不会超过基础模型,这可能是由于分词器(tokenizer)相关的复杂性导致的。
LLaMA-3 改进的曙光:一位用户通过特定模型的 Prompt 策略成功微调了 LLaMA-3,并提交了一个 GitHub Pull Request 供集体审查,这带来了新的希望。
闲聊杂事不予总结:#off-topic 频道中仅有一个孤立的链接,未对集体知识库贡献任何技术讨论。
Mozilla AI Discord
-
Mozilla 的 AI 人才招募:Mozilla AI 正在积极招聘多个职位,为有兴趣为其倡议做出贡献的人提供工作机会。有意加入团队的人员可以通过提供的 链接 了解更多信息并申请。
-
LM-buddy:语言模型评估工具:开源评估工具 Lm-buddy 的发布将有助于改进对 LLM 的评估。鼓励贡献者和用户通过给出的 链接 参与该项目。
-
Prometheus 在司法角色中对 LLM 进行基准测试:Prometheus 项目展示了本地大语言模型(LLM)充当仲裁者的潜力,这一新颖概念引发了讨论。感兴趣的各方可以通过 链接 加入关于此应用的对话。
-
对 LLaMA 的深入代码分析请求:一位工程师指出,llama.cpp/llamafile 中的 Token 生成是瓶颈,矩阵-向量乘法消耗了 LLaMA2 推理时间的 95%。这引发了关于循环展开(loop unrolling)是否使 llama.cpp 的性能比其他实现高出 30% 的推测。
-
LLaMA 的混淆与兼容性轶事:Discord 讨论了关于 LLaMA 参数的一些有趣混淆和匿名误解。此外,还分享了关于集成 Plush-for-comfyUI 的挑战,以及 LLaMA3 在 M1 Macbook Air 上的兼容性问题,并承诺在解决当前的 LLaMA3 问题后将优先测试 M1。
Interconnects (Nathan Lambert) Discord
-
AI Maverick 分享的 OLMo 深度解析:发布了 Hanna Hajishirzi 关于“OLMo: Findings of Training an Open LM”的详细演讲,展示了她在 Open-Source Generative AI Workshop 的工作。她在介绍 OLMo, Dolma, Tulu 等实质性内容时语速极快,对学生来说可能难以消化,这反映了她的专业素养以及这些项目背后广泛的研究工作。
-
基于 LM 系统的 RL 揭秘:John Schulman 关于基于语言模型系统的强化学习(Reinforcement Learning)讨论的核心要点被封装在一个 GitHub Gist 中,为工程师们提供了他研究方法和发现的压缩综合。
-
AI 排行榜的局限性被指出:Sayash Kapoor 和 Benedikt Stroebl 发表的一篇 博客文章 挑战了 AI 排行榜在代码生成方面的有效性,强调了 LLM debugger (LDB) 尽管排名靠前但运行成本极高,质疑了在面临巨额开支时此类基准测试的实用性。
-
SnailBot:提到了与 SnailBot 相关的更新或新闻,但缺乏进一步的信息或上下文来进行实质性总结。
-
注意:根据 Discord 频道提供的片段,没有其他值得总结的内容,这表明这些消息可能是更大背景或后续讨论的一部分,但未被包含在内。
LLM Perf Enthusiasts AI Discord
-
Gamma 寻找 AI 奇才:Gamma 正在招聘一名 AI engineer,以推动 AI 驱动的演示文稿和网站设计的创新,重点关注 prompt engineering、指标和模型 fine-tuning;详情见 Gamma Careers。尽管需要在 旧金山 实地办公,但该职位对具有强大 Large Language Model (LLM) 技能的人开放,即使他们缺乏丰富的工程经验。
-
处于增长快车道的 AI 驱动型企业:Gamma 拥有超过 1000 万用户和 1000 万美元以上融资,目前正在寻找一名 AI engineer 来帮助维持其增长,同时在其盈利且紧凑的 16 人团队中享受混合办公文化。
-
GPT-4.5 的推测案例:@phill__1 的一条推文暗示 gpt2-chatbot 拥有“疯狂的领域知识”,引发了人们对其可能代表 GPT-4.5 版本能力的猜测 phill__1 的观察。
-
Chatbot 引起社区轰动:工程师社区对 gpt2-chatbot 可能是无意中窥见的 GPT-4.5 实力这一想法议论纷纷,一位成员简洁地评价其“很好”。
Datasette - LLM (@SimonW) Discord
-
代码生成的语法消除方案:一位用户讨论了在语言模型中加入自定义语法(custom grammar)的概念,以便在代码生成过程中优先识别语义错误而非语法错误。
-
Datasette 的数据化下拉菜单:交流了关于改进 Datasette UX 的建议,包括一个带有下拉菜单的首页设计,使用户能够根据所选参数(如国家选择)生成汇总表。
-
直接数据交付的 UX 魔法:成员们提出了增强 Datasette UX 的解决方案,包括动态更新 URL 或构建根据用户选择调整的主页查询,以简化对相关数据的访问。
DiscoResearch Discord
- 加载异常之谜:一段对话强调了一个进程在本地机器上加载只需 3 秒,但在通过作业提交运行时面临延迟,这暗示问题可能与存储无关,而可能是特定环境的开销。
- Llama 在语言基准测试中击败 GPT-4:如 ScandEval 排行榜 所示,Llama 3 在 ScanEval 德语 NLG 基准测试中表现优于 GPT-4。
AI21 Labs (Jamba) Discord 没有新消息。如果该频道长时间保持沉默,请告知我们,我们将将其移除。
第 2 部分:频道详细总结和链接
CUDA MODE ▷ #triton (1 条消息):
- 澄清 Triton Block 大小限制:一位成员询问了 Triton block 的最大尺寸,指出虽然他们可以创建具有 4096 个元素的 block,但无法对 8192 个元素执行相同操作,这表明与预期的 CUDA 限制存在差异。
CUDA MODE ▷ #cuda (8 messages🔥):
- 寻找 Flash Attention 代码:一位用户询问如何下载 Thomas Viehmann 演示的 Flash Attention 代码的 lecture12;聊天中未提供该查询的解决方案。
- 理解 CUDA Reductions:一位成员解决了关于 CUDA 中行向(row-wise)与列向(column-wise)Reductions 的困惑,意识到性能差异是由(非)合并内存访问(coalesced memory accesses)引起的,并澄清了自己的问题。
- Kernel 代码中的整数除法:进行了一场关于用位移替换整数除法的优化讨论;建议指出,当除数为 2 的幂时,nvcc 或 ptxas 可能会优化除法,并提供了一个 compiler explorer 链接 以供进一步实验。
- CUDA Checkpointing 资源分享:分享了一个用于 CUDA 检查点和恢复工具的外部 GitHub 资源 NVIDIA/cuda-checkpoint,未进行进一步讨论。
- 比较 CUTLASS 和 CuBLAS 性能:一位成员对 CuBLAS 和 CUTLASS 的矩阵乘法性能进行了基准测试,报告称 CUTLASS 在独立分析器中优于 CuBLAS,但集成到 Python 中后性能提升消失了,详情分享在 Thonking AI 关于矩阵乘法的文章 中。
- Strangely, Matrix Multiplications on GPUs Run Faster When Given "Predictable" Data! [short]:智者讨论每瓦特浮点运算次数(flops per watt)。
- GitHub - NVIDIA/cuda-checkpoint: CUDA checkpoint and restore utility:CUDA 检查点和恢复工具。通过在 GitHub 上创建账号为 NVIDIA/cuda-checkpoint 的开发做出贡献。
- Compiler Explorer - CUDA C++ (NVCC 11.7.0):#include <algorithm> #include <cassert> #include <cstdio> #include <cstdlib> __global__ void sgemmVectorize(int M, int N, int K, float alpha, f...
CUDA MODE ▷ #torch (4 messages):
- 关于双 Kernel 启动的好奇:一位成员询问为什么在 PyTorch 的矩阵乘法期间,分析器有时会显示两次 Kernel 启动。
- 关于 PyTorch
linear函数的澄清:另一位成员澄清说,PyTorch 中的linear默认确实对输入包含转置操作,这可能不会导致性能差异。
CUDA MODE ▷ #algorithms (2 messages):
-
为 LLM 引入 Effort Engine:分享了 Effort Engine 算法,该算法能够在 LLM 推理过程中动态调整计算量。根据 kolinko.github.io/effort 上的详细信息,在 50% effort 时,它的速度可与 Apple Silicon 上的标准矩阵乘法媲美;在 25% effort 时,速度提高了一倍,且质量损失极小。
-
Effort Engine 的模型推理方法:这种新技术允许选择性地加载重要权重,在不显著降低质量的情况下潜在地提高速度。它已针对 Mistral 实现,经过一些转换和预计算后应与其他模型兼容,实现代码可在 GitHub 上获得。
-
仅限 FP16 的实现及改进空间:Effort Engine 目前仅适用于 FP16 实现,虽然乘法速度很快,但在 Softmax 和 Attention 累加操作等其他领域仍需改进。
-
探讨 Effort Engine 的潜在局限性:一位成员强调,虽然 Effort Engine 的方法具有创新性,但它可能与激活稀疏性(activation sparsity)方法存在共同的局限性,特别是在 Batch Size 大于 1 的批处理计算中,由于激活强度不一致(misaligned activation magnitudes)导致的问题。
提到的链接:Effort Engine:一种可能用于 LLM 推理的新算法。在推理过程中平滑且实时地调整你想要进行的计算量。
CUDA MODE ▷ #jobs (1 messages):
-
InstaDeep 正在招聘 ML 工程师:InstaDeep Research 正在积极寻找对 高性能 ML 工程 及其现实应用充满热情的 Machine Learning Engineers。在构建自定义 CUDA kernels、最先进的模型架构、量化(quantisation)和分布式训练(distributed training)方面表现出色的候选人可以 联系获取机会。
-
加入协作创新者:InstaDeep 提供了一个充满刺激、协作的环境,致力于现实生活中的决策和技术产品,并鼓励渴望产生变革性影响的优秀人才申请。公司强调在 Bio AI 和 Decision Making AI 领域的创新和实际应用。
-
寻求实习生和多职位申请者:对实习或在 InstaDeep 寻求多个工作机会感兴趣的人员可以 探索实习机会 并申请多个职位(前提是具备相关技能),但建议申请不要超过两个,以避免申请被拒绝。
-
建议的重新申请指南:建议之前申请过但未被录用的人员在重新申请前等待一段时间,特别是如果他们在过去六个月内申请过,这表明需要一段时间来考虑申请人概况或公司需求的变化。
提到的链接:Job Offer | InstaDeep - 企业级决策 AI:未找到描述
CUDA MODE ▷ #youtube-recordings (2 条消息):
- 无进度更新:一名成员确认目前 没有新的进展 需要报告。
- 视频中的性能分析技术:聊天中分享了一个名为 “Lecture 16: On Hands Profiling”的 YouTube 视频,提供了学习性能分析(profiling)技术的资源,尽管没有提供具体描述。
提到的链接:Lecture 16: On Hands Profiling:未找到描述
CUDA MODE ▷ #ring-attention (1 条消息):
- Llama-3 刷新上下文长度纪录:Gradient 发布了 Llama-3 8B Gradient Instruct 1048k,将上下文长度从 8k 扩展到超过 1048k。这一成就表明,最先进的语言模型只需极少的训练调整即可适应长上下文。
提到的链接:gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face:未找到描述
CUDA MODE ▷ #off-topic (1 条消息):
- CUTLASS:整数的舞蹈:一位成员观察到,CUTLASS 尽管是一个线性代数库,但在调用高级线性代数例程之前,主要处理整数操作和索引操作。这一特性合理化了其作为 header-only library(仅头文件库)的性质,无需复杂的链接。
CUDA MODE ▷ #llmdotc (721 条消息🔥🔥🔥):
-
CUDA 编程讨论与 Packed128 类型:关于使用
Packed128自定义结构体来优化内存访问模式(包括 读取和写入)进行了详细辩论。特别关注了Packed128的正确构造和利用,以及是否在 kernel 内部对 floatX 和 BF16 使用显式类型转换。 -
混合精度策略担忧:人们担心在整个模型中使用 BF16 的影响,以及 随机舍入(stochastic rounding) 是否会影响训练收敛。计划比较 llm.c 的 BF16 方法与标准 PyTorch 混合精度实现之间的 loss 指标。
-
性能分析与调试:一名成员添加了 NVTX 上下文,以便使用 NSight Compute 进行更好的性能分析,从而实现更准确的 GPU 计时。一名成员观察到 AdamW kernel 可能需要在 FP32 原子操作(atomics)和 scratch 存储使用方面进行优化。
-
基准测试的工具与基础设施:成员们讨论了像 Modal 这样在标准化规格上运行基准测试(benchmarks)的外部平台的潜在效用,特别是 Modal 在 nvprof 和 nsys 等性能分析工具方面的优势和局限性。
-
PR 评审已准备好合并及 CI 建议:频道中有几个 PR 已准备好合并,主要涉及针对各种 kernel 的 f128 和 Packed128 优化。此外,还强调了保持分支文档更新、-Wall 编译以及通过 CI 检查确保 Python 和 C 实现结果一致的需求。
- Nvidia’s H100:有趣的 L2 和海量带宽:GPU 最初是纯粹用于图形渲染的设备,但其高度并行的特性使其对某些计算任务也具有吸引力。随着过去几年 GPU 计算场景的增长……
- cuda::associate_access_property:CUDA C++ 核心库
- FP8-LM:训练 FP8 大语言模型 (LLMs):在本文中,我们探索了用于高效训练大语言模型 (LLMs) 的 FP8 低比特数据格式。我们的核心见解是,LLM 训练中的大多数变量,如梯度和优化器状态……
- cuda::memcpy_async:CUDA C++ 核心库
- 奇怪的是,当给定“可预测”数据时,GPU 上的矩阵乘法运行得更快![简短版]:伟大的思想讨论 flops per watt。
- 登录:未找到描述
- Compiler Explorer - CUDA C++ (NVCC 12.2.1):#include <cuda/barrier> #include <cuda/std/utility> // cuda::std::move #include <cooperative_groups.h> #include <cooperative_groups/reduce.h> t...
- llm.c/dev/cuda/layernorm_backward.cu (master 分支) · karpathy/llm.c:使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
- llm.c/train_gpt2.cu (master 分支) · karpathy/llm.c:使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
- WikiText 103 评估 · Issue #246 · karpathy/llm.c:我看到一些仓库使用 WikiText-103 作为评估类 GPT 模型的数据集,例如:https://github.com/tysam-code/hlb-gpt/tree/main。添加预处理脚本以下载、预处理和分词……
- llm.c/train_gpt2.cu (提交号 9464f42) · karpathy/llm.c:使用简单、原始的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
- Compiler Explorer - CUDA C++ (NVCC 12.3.1):#include <cuda_fp16.h> template<class ElementType> struct alignas(16) Packed128 { __device__ __forceinline__ Packed128() = default; __device__ __forceinline__ exp...
- 由 leloykun 提交的在 Modal 上运行基准测试的脚本 · Pull Request #311 · karpathy/llm.c:此 PR 添加了一个在 Modal 平台上运行基准测试的脚本。这对于本地无法使用昂贵 GPU 的开发者很有用。要在 attention 前向传播上运行基准测试……
- GitHub - graphcore-research/out-of-the-box-fp8-training:unit_scaling 库的演示,展示了如何轻松地调整模型以进行 FP8 训练。:unit_scaling 库的演示,展示了如何轻松地调整模型以进行 FP8 训练。 - graphcore-research/out-of-the-box-fp8-training
- GitHub - NVIDIA/cudnn-frontend:cudnn_frontend 为 cudnn 后端 API 提供了一个 C++ 封装以及如何使用它的示例:cudnn_frontend 为 cudnn 后端 API 提供了一个 C++ 封装以及如何使用它的示例 - NVIDIA/cudnn-frontend
- 第一轮变更。现在即使 dtype 设置为 float16 或 bfloat16,我们也始终以 fp32 写入…… · karpathy/llm.c@3fb7252:……接下来,当设置了 dtype 时,我们实际上希望以较低精度写入。
- 由 ngc92 修复了潜在错误并泛化了 gelu 前向传播 · Pull Request #313 · karpathy/llm.c:这增加了一个用于将 size_t 安全转换为 int 的辅助函数(可能也想在 utils.h 中包含它)。该宏随后用于将 size_t 类型的 block_size * x128::size 转换回常规……
- 由 karpathy 提交的 Feature/packed128 · Pull Request #298 · karpathy/llm.c:未找到描述
- 由 ChrisDryden 提交的 Pull Request #303 · karpathy/llm.c:更新 adamw 以使用 packed 数据类型:运行前总平均迭代时间:38.547570 ms;运行后总平均迭代时间:37.901735 ms。Kernel 开发文件规范:在当前的测试套件中几乎察觉不到:Bef...
- 由 PeterZhizhin 提交的 Pull Request #273 · karpathy/llm.c:添加 NSight Compute 范围,使用 CUDA events 进行计时:CUDA events 允许更精确的计时(由 GPU 测量)。nvtxRangePush/nvtxRangePop 为 NSight Systems 添加了简单的堆栈跟踪:示例运行命令:nsys profile mpirun --allow-run-as-roo...
- 由 ngc92 提交的 Pull Request #293 · karpathy/llm.c:另一个 gelu 实现:更复杂的 Packet128 以实现更整洁的 kernels
- 由 ademeure 提交的 Pull Request #272 · karpathy/llm.c:默认全 BF16 包括 layernorms(最小化 BF16 atomics 数量):我添加了 4 个不同新版本的 layernorm_backward_kernel,性能最好的是:Kernel 4(使用 atomicCAS,无 scratch,但多次舍入,因此数值精度可能较差);Kernel 6...
- 由 ChrisDryden 提交的 Pull Request #275 · karpathy/llm.c:移除 Atomic Adds 并添加 memory coalescion:此 PR 基于 GELU memory coalescion PR,本质上是重写了 backwards encoder,使用 shared memory 代替 atomic adds,并使用 Packed 结构体进行 coale...
- 由 ChrisDryden 提交的 Pull Request #275 · karpathy/llm.c:移除 Atomic Adds 并添加 memory coalescion:此 PR 基于 GELU memory coalescion PR,本质上是重写了 backwards encoder,使用 shared memory 代替 atomic adds,并使用 Packed 结构体进行 coale...
- 由 ChrisDryden 提交的 Pull Request #275 · karpathy/llm.c:移除 Atomic Adds 并添加 memory coalescion:此 PR 基于 GELU memory coalescion PR,本质上是重写了 backwards encoder,使用 shared memory 代替 atomic adds,并使用 Packed 结构体进行 coale...
- 由 JaneIllario 提交的 Pull Request #306 · karpathy/llm.c:为 Gelu backwards 进行 Packing:更新 gelu backwards kernel 以进行 128 位 packing,并创建 gelu backward cuda 文件。之前的 kernel:block_size 32 | time 0.1498 ms | bandwidth 503.99 GB/s block_size 64 | time 0.0760...
- karpath - 概览:GitHub 是 karpath 构建软件的地方。
- 由 ademeure 提交的 Pull Request #295 · karpathy/llm.c:移除 FloatN 并通过 BF16 LayerNorms 简化 adam/reduce:MULTI_GPU 路径未经测试,但其他部分似乎运行良好。我保留了每个 tensor 的 "param_sizeof",因为它在 test_gpt2.cu 等文件中被使用,代码量不多且可能有用...
- 由 leloykun 提交的 Pull Request #60 · karpathy/llm.c:通过实现 Flash Attention 2 kernel 加速 `attention_forward_kernel2`:通过将实现替换为极简的 Flash Attention 2 kernel 来加速 attention_forward_kernel2 kernel,详见 https://github.com/leloykun/flash-hyperbolic-attention...
- leloykun/flash-hyperbolic-attention-minimal 项目 main 分支下的 flash_attention_2.cu:约 [...] 行 CUDA 代码实现的 Flash Hyperbolic Attention - leloykun/flash-hyperbolic-attention-minimal
- 由 kilianhae 提交的 Pull Request #285 · karpathy/llm.c:Flashattention:更快的 Flash Attention 实现。在 src/attention_forward 中添加了 attention_forward6:一个不带任何依赖项编写的快速 flash attention 前向传递。我们假设...
- llm.c/train_gpt2.cu (版本 9464f42) · karpathy/llm.c:使用简单的原生 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
- llm.c/train_gpt2.cu (master 分支) · karpathy/llm.c:使用简单的原生 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号为 karpathy/llm.c 的开发做出贡献。
- llm.c/train_gpt2.cu at master · karpathy/llm.c</a>: 使用简单、纯粹的 C/CUDA 进行 LLM 训练。通过在 GitHub 上创建账号来为 karpathy/llm.c 的开发做出贡献。
- Added packing for gelu forwards kernel by ChrisDryden · Pull Request #301 · karpathy/llm.c: 此 PR 使用提供的示例实现了 Gelu 前向核函数的 packing。核函数开发文件也进行了更新,以展示更改 floatX 数据类型的影响。更改前:...
- Update residual_forward to use packed input by JaneIllario · Pull Request #299 · karpathy/llm.c: 更新 residual_forward 以使用 128 位 packed 输入,配合 floatX。之前的核函数:block_size 32 | 时间 0.1498 ms | 带宽 503.99 GB/s block_size 64 | 时间 0.0760 ms | 带宽 993.32 GB/s b... </ul> </div> --- **CUDA MODE ▷ #[rocm](https://discord.com/channels/1189498204333543425/1233704710389764236/1234617660747157535)** (8 messages🔥): - **关于 ROCm 6.x 的 Flash Attention 2 的咨询**:一位成员询问是否有人在为 **ROCm 6.x** 构建 Flash Attention 2,并指出他们已成功为 ROCm 5.6 和 Torch 2.2 构建,但对更新的技术栈感兴趣。 - **Torch Nightly 的构建困扰**:成员们讨论了为当前版本(如 Torch 2.3)构建的困难,其中一人表示希望使用 **Torch nightly** 但遇到了问题。 - **官方 Fork 版本滞后**:提到 AMD 硬件的 Flash Attention 官方 Fork 版本已经过时,仍停留在 Flash Attention 2.0 版本,且未移植最近的开发成果。 - **Backward Pass 更新确认**:当被问及 AMD Flash Attention 是否增加了 backward pass 时,一位成员确认确实已经添加。 - **Flash Attention GitHub 仓库**:分享了 [ROCm/flash-attention 在 GitHub 上的仓库](https://github.com/ROCm/flash-attention) 链接,该仓库是快速且内存高效的精确 Attention 的资源。 **提及的链接**:GitHub - ROCm/flash-attention: Fast and memory-efficient exact attention: 快速且内存高效的精确 Attention。通过在 GitHub 上创建账号来为 ROCm/flash-attention 的开发做出贡献。 --- **Unsloth AI (Daniel Han) ▷ #[general](https://discord.com/channels/1179035537009545276/1179035537529643040/1234428342305030204)** (487 messages🔥🔥🔥): - **WSL2 上 llama3 的转换问题**:一位用户报告了在 WSL2 中将模型转换为 F16 时的错误,提示 `RuntimeError: Unsloth: Quantization failed`。即使尝试重新构建 `llama.cpp` 并重新进行 Quantization,问题依然存在。 - **模型 Checkpoint 合并查询**:一位成员询问如何合并特定的 Checkpoint 以避免最新 epoch 导致的过拟合。另一位成员提供了指向 Unsloth [wiki 关于 Checkpointing 更多信息](https://github.com/unslothai/unsloth/wiki#finetuning-from-your-last-checkpoint) 的链接,进一步的讨论建议了诸如 *warmup steps* 和训练函数中的 *resuming from a checkpoint* 选项等方法。 - **对 Phi-3 的期待**:成员们讨论了 Phi-3 可能的发布,期待尝试 3.8b 版本。对话涵盖了从发布时间线的推测到是否等待 7b 或 14b 等更大版本的考虑。 - **训练技巧与故障排除**:多位用户讨论了他们在训练 *Gemma*、*LLaMA-3* 和 *Mistral* 等模型时的经验和策略。技巧包括保存 Checkpoint 的重要性以及调整 *max steps* 和 *batch sizes* 等训练参数。 - **Unsloth 工具更新**:重点强调了使用新版本更新 Unsloth 安装,讨论了仓库中的更新,并对平台正在开发的 multi-GPU 支持进行了推测。
- 来自 RomboDawg (@dudeman6790) 的推文:目前正在使用 OpenCodeInterpreter 数据集中完整的 230,000+ 行代码数据训练 Llama-3-8b-instruct。我想知道我们能在 humaneval 上把那个 .622 提高多少 🤔🤔 大家为我的 jun 祈祷吧...
- Google Colab:未找到描述
- Google Colab:未找到描述
- Google Colab:未找到描述
- Google Colab:未找到描述
- Google Colab:未找到描述
- unsloth/Phi-3-mini-4k-instruct-bnb-4bit · Hugging Face:未找到描述
- 来自 RomboDawg (@dudeman6790) 的推文:如果你不想手动复制代码,这里有一个完整的 colab 笔记本。再次感谢 @Teknium1 的建议 https://colab.research.google.com/drive/1bX4BsjLcdNJnoAf7lGXmWOgaY8yekg8p?usp=shar...
- DiscoResearch/DiscoLM_German_7b_v1 · Hugging Face:未找到描述
- Here We Go Joker GIF - Here We Go Joker Heath Ledger - Discover & Share GIFs:点击查看 GIF
- Weird Minion GIF - Weird Minion - Discover & Share GIFs:点击查看 GIF
- Wheel Of Fortune Wheel GIF - Wheel Of Fortune Wheel Wof - Discover & Share GIFs:点击查看 GIF
- gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face:未找到描述
- Load:未找到描述
- mlabonne/orpo-dpo-mix-40k · Datasets at Hugging Face:未找到描述
- crusoeai/Llama-3-8B-Instruct-Gradient-1048k at main:未找到描述
- 主页:微调 Llama 3, Mistral & Gemma LLM,速度提升 2-5 倍,显存占用减少 80% - unslothai/unsloth
- botbot-ai/CabraLlama3-8b at main:未找到描述
- arthrod/cicerocabra at main:未找到描述
- [已修复] NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs · Issue #400 · unslothai/unsloth:我是尝试使用 unsloth 的初学者。我运行了免费的 Llama 3 (8B) 笔记本,然后遇到了以下错误:在第一个安装步骤中我也遇到了以下错误:ERROR: pip's dep...
- GitHub - M-Chimiste/unsloth_finetuning:通过在 GitHub 上创建账号来为 M-Chimiste/unsloth_finetuning 的开发做出贡献。
- 主页:微调 Llama 3, Mistral & Gemma LLM,速度提升 2-5 倍,显存占用减少 80% - unslothai/unsloth
- GitHub - unslothai/unsloth: Finetune Llama 3, Mistral & Gemma LLMs 2-5x faster with 80% less memory:微调 Llama 3, Mistral & Gemma LLM,速度提升 2-5 倍,显存占用减少 80% - unslothai/unsloth
- winglian 提交的 schedulefree 优化器 · Pull Request #30079 · huggingface/transformers:此 PR 的作用是什么?集成了 Meta 的 https://github.com/facebookresearch/schedule_free 用于 adamw & sgd https://twitter.com/aaron_defazio/status/1776320004465582331 在提交之前,这 ...
- 未找到标题:未找到描述
- 导入 d 时出现类型错误 atasets on Kaggle · Issue #6753 · huggingface/datasets</a>: 描述 Bug。当尝试运行 `import datasets; print(datasets.__version__)` 时,它生成以下错误 `TypeError: expected string or bytes-like object`。看起来它找不到 val...
- GitHub - ggerganov/llama.cpp: LLM inference in C/C++: C/C++ 中的 LLM 推理。通过在 GitHub 上创建账户来为 ggerganov/llama.cpp 的开发做出贡献。
- GitHub - facebookresearch/xformers: Hackable and optimized Transformers building blocks, supporting a composable construction.: 可定制且优化的 Transformers 构建模块,支持组合式构建。 - facebookresearch/xformers
- unsloth (Unsloth AI): 未找到描述
- llama : improve BPE pre-processing + LLaMA 3 and Deepseek support by ggerganov · Pull Request #6920 · ggerganov/llama.cpp: 继续 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 添加了对 BPE 预分词的支持。总结:到目前为止的状态是,对于所有基于 BPE 的模型,llama.cpp 应用了一个默认的预... </ul> </div> --- **Unsloth AI (Daniel Han) ▷ #[random](https://discord.com/channels/1179035537009545276/1179039861576056922/1234459978820227147)** (48 messages🔥): - **处理 Colab 中的 Out of Memory**: 一位成员分享了在 Google Colab 中应对 **Out of Memory (OOM)** 错误的技巧,通过运行一段使用 `torch` 和 `gc` 模块清理缓存并进行垃圾回收的 Python 代码片段。*其他成员对这个技巧表示赞赏,并计划在未来采用*。 - **对 Llama 模型性能数据的困惑**: 讨论了量化 Llama 模型(特别是 **Llama 2** 和 **Llama 3**)时的困惑度(perplexity)差异。似乎在实际数据方面存在沟通误解,成员们指出 Bits Per Word (BPW) 和 Perplexity (PPL) 列可能存在交换或错误。 - **Phi-3 现已支持**: 分享了关于 **Phi-3** 已被支持的更新,成员们对在项目中使用它表示兴奋。本应分享一个 *Colab notebook* 的链接,但显然没有提供。 - **Phi-3 集成问题**: 成员们讨论了在 Unsloth notebook 中尝试使用 **Phi-3** 模型时遇到的问题,弹出的错误消息提示需要自定义脚本。*讨论集中在排除故障并确保使用正确的 notebook*。 - **Llama 3 许可证问题**: 一位成员提出了关于 **Llama 3 许可证条件** 的问题,想知道根据许可证,所有衍生模型是否都应带有特定前缀并显示致谢。还有人对 Huggingface 模型可能违反许可证的情况表示担忧。 **提到的链接**: Out of memory - Wikipedia: 未找到描述 --- **Unsloth AI (Daniel Han) ▷ #[help](https://discord.com/channels/1179035537009545276/1179777624986357780/1234461140344508418)** (230 messages🔥🔥): - **微调期间 Loss 的澄清**: 一位成员询问使用 Unsloth 进行微调期间显示的 loss 是测试 loss 还是训练 loss。给出的建议是向 trainer 传递一个验证数据集,具体是使用带有 `train_dataset` 和 `eval_dataset` 的 `SFTTrainer` 进行验证。 - **SFTTrainer 中不支持早停**: 有人指出 `SFTTrainer` 不支持基于验证 loss 的早停(Early Stopping)。用户被告知一个名为 'trainer' 的更高级类可能会提供此功能。 - **UnslothAI 在 GGUF 转换和 Xformers 方面的问题**: 多位用户报告了 GGUF 转换的问题,特别是 Phi-3 模型,出现了词表大小(vocab size)版本不匹配的情况。此外,最近对 xformers 的更新破坏了兼容性,现在需要 PyTorch 2.3;一位成员通过将版本固定为 `xformers<0.0.26` 提供了临时解决方案。 - **Llama 3 训练模型“胡言乱语”**: 一位成员表示担心,他们的微调 Llama-3 模型在使用 Ollama 进行推理时会不停地说话,怀疑是 `EOS_TOKEN` 的问题。另一位用户建议,问题可能是 Ollama 没有识别出训练期间设置的正确 `EOS_TOKEN`。 - **在 Unsloth 中使用多个 GPU 会产生警告**: 一位用户询问如何在 Unsloth 中使用多个 GPU,并分享了一个关于检测到多个 CUDA 设备但仅允许单个设备的错误。相关消息显示系统将 `CUDA_VISIBLE_DEVICES` 覆盖为第一个设备。
- Google Colab: 未找到描述
- Load: 未找到描述
- Models: 未找到描述
- Home: 使用 Unsloth 以 2-5 倍的速度和减少 80% 的显存微调 Llama 3, Mistral & Gemma LLM - unslothai/unsloth
- GitHub - unslothai/unsloth: Finetune Llama 3, Mistral & Gemma LLMs 2-5x faster with 80% less memory: 使用 Unsloth 以 2-5 倍的速度和减少 80% 的显存微调 Llama 3, Mistral & Gemma LLM - unslothai/unsloth
- llama3-instruct models not stopping at stop token · Issue #3759 · ollama/ollama: 问题是什么?我正在通过 OpenAI 兼容端点使用 llama3:70b。生成时,我得到了如下输出:请提供上述命令的输出。让我们继续...
- [Usage]: Llama 3 8B Instruct Inference · Issue #4180 · vllm-project/vllm: 您当前的环境:在 2 个 L4 GPU 上使用最新版本的 vLLM。您想如何使用 vLLM:我正尝试利用 vLLM 部署 meta-llama/Meta-Llama-3-8B-Instruct 模型并使用 OpenAI...
- Mods Discord Mod GIF - Mods Discord Mod Moderator - 发现并分享 GIF:点击查看 GIF
- 在 Groq Playground 和 API 上免费体验极速 LLAMA-3:了解如何在 Groq API 上开始使用 LLAMA-3,这是目前市场上任何 API 中最快的推理速度。了解如何使用 Gro...
- ggml : 由 ggerganov 添加 Flash Attention · Pull Request #5021 · ggerganov/llama.cpp:ref #3365 为 ggml 和 llama.cpp 中的 Flash Attention 支持设置所需内容。提议的算子执行:// new res = ggml_flash_attn(ctx, q, k, v, kq_mask, kq_scale); // fused scale ...
- llama : 改进 BPE 预处理 + LLaMA 3 和 Deepseek 支持 · Pull Request #6920 · ggerganov/llama.cpp:继续 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 添加了对 BPE 预分词的支持。摘要:到目前为止的状态是,对于所有基于 BPE 的模型,llama.cpp 都应用了默认的预处理...
- Snowflake/snowflake-arctic-instruct · Hugging Face: 未找到描述
- vonjack/Hermes-2-Pro-BakLLaVA-Mistral-7B · Hugging Face: 未找到描述
- AI-Engine/BakLLaVA1-MistralLLaVA-7B-GGUF · Hugging Face: 未找到描述
- fix(root): Replaces system by user to improve generation experience. · microsoft/Phi-3-mini-128k-instruct at c9b8888: 未找到描述
- crusoeai/Llama-3-8B-Instruct-Gradient-1048k at main: 未找到描述
- Reddit - Dive into anything: 未找到描述
- AUTOMATIC1111 - Overview: AUTOMATIC1111 有 41 个代码仓库。在 GitHub 上关注他们的代码。
- Reddit - Dive into anything: 未找到描述
- Neuro Challenges Vedal: 当 Vedal 挑战 Neuro 时,Neuro 会不停地在聊天框刷屏。►Twitch: http://www.twitch.tv/vedal987►Twitter: https://twitter.com/Vedal987#neurosama #vtuber #vedal
- Orenguteng/Llama-3-8B-Lexi-Uncensored-GGUF · Hugging Face: 未找到描述
- Hard Drive Sounds: 这是我收藏的所有 HDD 硬盘声音的对比。硬盘按从旧到新的时间顺序播放。
- 聚合 GPU 上的经验:讨论指出,采用 Q4 量化的 Llama 70B 可以适配两块 RTX 3090 GPU,但由于 PCIe 总线限制,增加更多 GPU 可能会导致速度变慢。提到对于运行和微调大多数模型,两块 RTX 3090 是性价比最高的配置。
- 旧款 GPU 仍有用武之地:一位成员在 GTX 1070 上成功测试了 dolphin-Llama3-8b 和 Llava-Phi3,这表明较旧且性能较弱的 GPU 仍有潜力运行较小的模型,用于机器人项目的角色扮演等特定应用。
- 能效与运行成本:一位用户计算了在笔记本电脑上生成 1M tokens 的成本,并将其与使用 GPT-3.5 Turbo 进行了比较,发现与其设置相比,在本地运行模型比使用 API 服务更贵且更慢。
- 探索模型性能与准确性:用户之间讨论了 Llama3 等新型 LLM 与 GPT-4 等成熟服务相比的准确性和效率,一些人对量化版或更小、压缩程度更高的模型版本的准确性和信息质量表示怀疑。
- 寻找合适的本地模型:建议用户尝试各种模型以找到最适合其硬件的模型,建议范围从 CMDR+(对某些 GPU 来说可能太大)到 Llama3 和 Wizard V2,后者在普通配置上可能提供不错的性能。
- DreamStudio: 未找到描述
- Dj Khaled Tayomaki GIF - Dj Khaled Tayomaki Sakigifs - Discover & Share GIFs: 点击查看 GIF
- Mythos - v1.0 | Stable Diffusion Checkpoint | Civitai: V1 版本不知为何有 3.55GB 大.... 我想我成功做了一个稳定的 fp8 prune(剪枝)????我真的不知道为什么它是 3.55GB... V2 是正常的 6GB 模式...
- Towards Pony Diffusion V7 | Civitai: 大家好,我很高兴能分享我们即将推出的 V7 的进展更新,以及对 V6 的回顾分析。V6 所获得的认可...
- Melxts2008 Emoji GIF - Melxts2008 Emoji Smile - Discover & Share GIFs: 点击查看 GIF
- ComfyUI/tests/distributed/test_embedded_client.py at 0862863bc00165b9ba0607595f304f93ca995887 · hiddenswitch/ComfyUI: 一个强大且模块化的 Stable Diffusion GUI,具有图形/节点界面。 - hiddenswitch/ComfyUI
- Warpcast: 未找到描述
- Warpcast: 未找到描述
- diffusers/examples/dreambooth at main · huggingface/diffusers: 🤗 Diffusers:用于 PyTorch 和 FLAX 中图像和音频生成的尖端 Diffusion 模型。 - huggingface/diffusers
- Reddit - Dive into anything: 未找到描述
- The Angola Effect | Horrifying death traps in the cradle of evolution: 🧟♂️🎧 恐怖片爱好者?快来关注并收听 RUN, FOOL! —— 我们来自 Ballen Studios 的最新节目。每周二更新 - https://smarturl.it/RunFoolTime St...
- ComfyUI/script_examples/basic_api_example.py at master · hiddenswitch/ComfyUI: 一个强大且模块化的 Stable Diffusion GUI,具有图形/节点界面。 - hiddenswitch/ComfyUI
- 来自 Gradient (@Gradient_AI_) 的推文:我们一直在闭门研发 🔥 很高兴在 @huggingface 上发布首个上下文长度超过 1M 的 @AIatMeta Llama-3 8B 模型 —— 这是继我们发布的 160K 上下文长度模型之后的...
- Flashcardfy - 带有个性化反馈的 AI 闪存卡生成器:通过提供个性化反馈的 AI 生成闪存卡,学习得更快、更聪明。
- Reka Playground:探索由 Reka 构建的最新多模态语言模型。
- Andrew Gao (@itsandrewgao) 的推文:gpt2-chatbot 刚刚下线了,我半小时前还在用它!感谢 @shaunralston 的发现 #gpt2 @openai
- 让你的 LLM 充分利用上下文:虽然许多当代的语言模型 (LLMs) 可以处理冗长的输入,但它们仍然难以充分利用长上下文中的信息,即所谓的 lost-in-the-middle 挑战。我们……
- GitHub - kingjulio8238/memary:自主 Agent 的长期记忆。:自主 Agent 的长期记忆。通过在 GitHub 上创建账户来为 kingjulio8238/memary 的开发做出贡献。
- 重温 GPT-1:点燃 LLM 之火的火星:全面回顾 GPT-1 对现代 LLM 发展的贡献
- 去中心化训练的最新进展:本文探讨了各种新型的去中心化训练方法,以及它们如何实现在全球分布的 GPU 上进行有效的 AI 模型训练。
- 来自 Andrew Gao (@itsandrewgao) 的推文:gpt2-chatbot 刚刚下线了,我半小时前还在用它!感谢 @shaunralston 的发现 #gpt2 @openai
- vonjack/Hermes-2-Pro-BakLLaVA-Mistral-7B · Hugging Face:未找到描述
- AudioPaLM:未找到描述
- 来自 undefined 的推文:未找到描述
- 来自 lmsys.org (@lmsysorg) 的推文:感谢社区难以置信的热情!我们真的没预料到。有几件事需要澄清:- 根据我们的政策,我们已经与几个模型开发团队合作...
- 来自 Q (@qtnx_) 的推文:llama-3-vision-alpha 现在可以使用 @huggingface transformers 运行了
- Hugging Face – 构建未来的 AI 社区。:未找到描述
- llava_instruct_150k.json · liuhaotian/LLaVA-Instruct-150K at main:未找到描述
- 来自 Yann LeCun (@ylecun) 的推文:有人可能会认为,到目前为止,人们应该意识到检索常见谜题的解决方案并不需要任何推理能力。 ↘️ 引用 Colin Fraser | @colin-fraser.net on bsky (@colin_...
- a-normal-username/Mixtral-8x22B-OpenHermes-2.5 · Hugging Face:未找到描述
- qresearch/llama-3-vision-alpha-hf · Hugging Face:未找到描述
- LLaVA/docs/Finetune_Custom_Data.md at main · haotian-liu/LLaVA:[NeurIPS'23 Oral] 视觉指令微调 (LLaVA) 旨在实现 GPT-4V 级别的能力及更高水平。- haotian-liu/LLaVA
- GitHub - nestordemeure/stop_word: Huggingface transformers 停止准则,当遇到给定的停止词时停止生成。:Huggingface transformers 停止准则,当遇到给定的停止词时停止生成。- nestordemeure/stop_word
- GitHub - tincans-ai/gazelle: 联合语音-语言模型 - 直接响应音频!:联合语音-语言模型 - 直接响应音频!- tincans-ai/gazelle
- 来自 Q (@qtnx_) 的推文:llama-3-vision-alpha 现在可以使用 @huggingface transformers 运行了
- “我希望 Llama3 结合我的私有知识发挥 10 倍效能” - 使用 llama3 的本地 Agentic RAG:高级 RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告:https://clickhubspot.com/4hx🔗 链接- F...
- llama:由 ggerganov 改进 BPE 预处理 + LLaMA 3 和 Deepseek 支持 · Pull Request #6920 · ggerganov/llama.cpp:延续 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 增加了 BPE 预分词支持。摘要:到目前为止,对于所有基于 BPE 的模型,llama.cpp 都应用了默认的预处理...
- gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face:未找到描述
- llama : improve BPE pre-processing + LLaMA 3 and Deepseek support by ggerganov · Pull Request #6920 · ggerganov/llama.cpp:延续了 @dragnil1 在 #6252 中的工作。此 PR 为 llama.cpp 增加了对 BPE 预分词的支持。摘要:到目前为止,对于所有基于 BPE 的模型,llama.cpp 都应用了默认的预处理...
- Pydantic Logfire | Uncomplicated observability:Logfire 是一个新型的可观测性平台,其构建理念与 Pydantic 相同——即最强大的工具也可以易于使用。
- 🦢SWIM-IR Dataset - a nthakur Collection:未找到描述
- HuggingChat:未找到描述
- Super World Sim - HuggingChat:在 HuggingChat 中使用 Super World Sim 助手
- Snow Singer Simulator - HuggingChat:在 HuggingChat 中使用 Snow Singer Simulator 助手
- CompSim - HuggingChat:在 HuggingChat 中使用 CompSim 助手
- Snow World Simulator - HuggingChat:在 HuggingChat 中使用 Snow World Simulator 助手
- Input data schema | Modular Docs:以下 YAML schema 允许你指定所需的输入形状
- Proposal For An Actor System Based On Mojo by reid-spencer · Pull Request #1445 · modularml/mojo:这目前是一个正在进行中的工作。没有代码更改,只是在提案部分写了一个提案。这在 2023 年 6 月的一次对话中得到了 Chris Lattner 的预先批准。我将继续...
- 2023 LLVM Dev Mtg - Mojo 🔥: A system programming language for heterogenous computing:2023 LLVM 开发者大会 https://llvm.org/devmtg/2023-10------Mojo 🔥:一种用于异构计算的系统编程语言。演讲者:Abdul Dakkak, Chr...
- Mojo 中的矩阵乘法 | Modular 文档:学习如何利用 Mojo 的各种函数来编写高性能的 matmul。
- 共同构建更好的软件:GitHub 是人们构建软件的地方。超过 1 亿人使用 GitHub 来发现、fork 并为超过 4.2 亿个项目做出贡献。
- Mojo 团队回答 | Mojo Dojo:未找到描述
- 99 Bottles of Beer/EsoLang:未找到描述
- GitHub - karpathy/minbpe:用于 LLM 分词中常用的字节对编码(BPE)算法的极简、整洁代码。:用于 LLM 分词中常用的字节对编码(BPE)算法的极简、整洁代码。 - karpathy/minbpe
- 让我们构建 GPT Tokenizer:Tokenizer 是大语言模型(LLMs)中一个必要且普遍存在的组件,它在字符串和 token(文本块)之间进行转换。Tokenizer...
- C++ 作为优化汇编器 - 性能演讲 - Levo DeLellis - CppNorth 2023:https://www.cppnorth.ca --- C++ 作为优化汇编器 - 性能演讲 - Levo DeLellis - CppNorth 2023。你是否厌倦了抽象、模板和...
- Issues · modularml/mojo:Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
- [功能请求] 原生 Windows 支持 · Issue #620 · modularml/mojo:审查 Mojo 的优先级。我已阅读路线图和优先级,并相信此请求符合优先级。你的请求是什么?对 Windows 的原生支持。什么时候可用?...
- [功能请求] 原生 Windows 支持 · Issue #620 · modularml/mojo:审查 Mojo 的优先级。我已阅读路线图和优先级,并相信此请求符合优先级。你的请求是什么?对 Windows 的原生支持。什么时候可用?...
- GitHub - shadowqcom/mojo_dev:用Mojo写一个Mojo社区!:用Mojo写一个Mojo社区!。通过在 GitHub 上创建账户为 shadowqcom/mojo_dev 的开发做出贡献。
- GitHub - mzaks/mojo-fast-base64:通过在 GitHub 上创建账户为 mzaks/mojo-fast-base64 的开发做出贡献。
- BlazeSeq/blazeseq/iostream.mojo at main · MoSafi2/BlazeSeq:通过在 GitHub 上创建账号来为 MoSafi2/BlazeSeq 的开发做出贡献。
- "Mojo 比 Python 快 68,000 倍"这类博客很棒,但能否与其他语言也进行出色的对比? · modularml/mojo · Discussion #843:Mojo 比 Python 快 35,000 倍、68,000 倍……这令人印象深刻且非常酷,但对于那些尚未关注 Mojo 的非 Python 用户和反 Python 人士来说……
- GitHub - alainrollejr/mocodes: 使用 Mojo 进行纠错(编)解码:使用 Mojo 进行纠错(编)解码。通过在 GitHub 上创建账号来为 alainrollejr/mocodes 的开发做出贡献。
- GitHub - MoSafi2/1brc-mojo at dev:使用 Mojo 语言完成的十亿行挑战 (1brc)。通过在 GitHub 上创建账号来为 MoSafi2/1brc-mojo 的开发做出贡献。
- [stdlib] 使用 `FileHandle.read_bytes()` 时不要复制元素 · Issue #2051 · modularml/mojo:我正在用 Mojo 进行十亿行挑战,尝试使用 read_bytes() 读取 10 亿行(约 13GB 文件),结果很快就耗尽了内存。使用 read() 则不会发生这种情况。alias input_f...
- GitHub - VMois/1brc-mojo: 使用 Mojo 语言完成的十亿行挑战 (1brc):使用 Mojo 语言完成的十亿行挑战 (1brc)。通过在 GitHub 上创建账号来为 VMois/1brc-mojo 的开发做出贡献。
- GitHub - VMois/mojo-atol-simd: 在 Mojo 中使用 SIMD 将字符串转换为整数(目前支持最多 16 个字符):在 Mojo 中使用 SIMD 将字符串转换为整数(目前支持最多 16 个字符) - VMois/mojo-atol-simd
- context:global __source_… - Sourcegraph:未找到描述
- modularml/mojo Nightly 分支下的 mojo/stdlib/src/testing/testing.mojo:Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
- [stdlib] SIMD 对 EqualityComparable 的一致性,由 helehex 提交 · Pull Request #2412 · modularml/mojo:这允许 SIMD 符合 EqualityComparable,且不丢失任何原始行为。它使用第 4 条重载解析规则赋予新方法较低的优先级,同时仍保持一致性...
- [stdlib] 根据 2024-04-29 nightly/mojo 更新 stdlib,由 JoeLoser 提交 · Pull Request #2449 · modularml/mojo:这使用与今天的 Nightly 版本(mojo 2024.4.2923)相对应的内部提交更新了 stdlib。
- modularml/mojo Nightly 分支下的 mojo/docs/changelog.md:Mojo 编程语言。通过在 GitHub 上创建账户为 modularml/mojo 的开发做出贡献。
- 来自 Fleetwood (@fleetwood___) 的推文:🚨 Phi-3 在浏览器中运行 🚨 速度达到约 20 tok/s 🏎️ 仅需 3 行 JS 代码。仍有一些小问题需要解决,即将集成到 Ratchet 0.4.0 中。
- 来自 abhishek (@abhi1thakur) 的推文:我能在 Kaggle 上运行 AutoTrain UI 吗?是的,你可以!!!查看我最新的 notebook,复制它,填入你的 token,即可享受在 Kaggle Notebooks 后端运行的 AutoTrain UI 🚀 notebook 链接:https://www...
- 来自 Vaibhav (VB) Srivastav (@reach_vb) 的推文:冲!!Common Voice 17 - 现已在 Hub 上发布!🔥 包含 124 种语言的 31,000 小时音频(及转录)。*开启声音 🎶* CV 17 中新增了 847 小时数据,以及 493 小时的...
- 来自 Brigitte 🤗 (@BrigitteTousi) 的推文:🔊 呼叫所有记者!我们很高兴与 @fdaudens 一起宣布在 @huggingface Hub 上建立一个新社区:Journalists on Hugging Face。📰🤗 https://huggingface.co/JournalistsonHF 1/
- 来自 Vaibhav (VB) Srivastav (@reach_vb) 的推文:Snowflake 发布了一个 408B Dense + Hybrid MoE 🔥 > 17B 激活参数 > 128 个专家 > 在 3.5T tokens 上训练 > 使用 top-2 gating > 完全采用 Apache 2.0 许可(附带数据方案...)
- 来自 Sayak Paul (@RisingSayak) 的推文:Diffusers 中的自定义 Pipeline 和组件 🎸 想要在 Diffusers 中使用自定义 Pipeline 和其他组件(schedulers, unets, text encoders 等)?觉得不够灵活?这个 🧶(推文串)就是为你准备的...
- 来自 lunarflu (@lunarflu1) 的推文:你现在可以在 @huggingface 上提及(mention)别人了!
- Hugging Face:在 Hugging Face,我们致力于为每个人推进和民主化 ML。在此过程中,我们为技术向善的发展做出贡献。
- 来自 Noa Roggendorff (@noaroggendorff) 的推文:懂的都懂
- zero-gpu-explorers/README · 邀请申请一直在等待。审批需要多长时间?:未找到描述
- amazon/chronos-t5-small · Hugging Face:未找到描述
- gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face:未找到描述
- 图像分类:未找到描述
- zero-gpu-explorers/README · 更新 README.md:未找到描述
- “我希望 Llama3 结合我的私有知识实现 10 倍性能” - 本地 Agentic RAG 与 llama3:高级 RAG 101 - 使用 llama3 构建 agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告:https://clickhubspot.com/4hx🔗 链接- F...
- GitHub - amazon-science/chronos-forecasting: Chronos: 用于概率时间序列预测的预训练(语言)模型:Chronos: 用于概率时间序列预测的预训练(语言)模型 - amazon-science/chronos-forecasting
- Personal Copilot: 训练你自己的编程助手:未找到描述
- LLM-Workshop/personal_copilot/training/train.py at main · pacman100/LLM-Workshop:Sourab Mangrulkar 的 LLM 工作坊。通过在 GitHub 上创建账号为 pacman100/LLM-Workshop 的开发做出贡献。
- 有监督微调训练器 (Supervised Fine-tuning Trainer):未找到描述
- Welcome to the Community Computer Vision Course - Hugging Face Community Computer Vision Course:未找到描述
- blog:未找到描述
- Richard Stallman Free software Song:Richard Stallman 在厄瓜多尔演唱自由软件之歌,由 Julian Coccia 录制。
- MIT Introduction to Deep Learning | 6.S191:MIT 深度学习导论 6.S191:第 1 讲 *2024 新版* 深度学习基础。讲师:Alexander Amini。包含所有课程、幻灯片和实验材料...
- Inpainting SDXL Sketch Pad - a Hugging Face Space by tonyassi:未找到描述
- bineric/NorskGPT-Mistral-7b · Hugging Face:未找到描述
- LifePal AI Chat & Assistant:探索 LifePal:您的生产力 AI 伴侣。您准备好释放全部潜力,过上更健康、更快乐的生活了吗?LifePal 将引导您开启成为更好的自己的旅程...
- GitHub - Lama-West/PnPR-GCN_ACM_SAC_24:通过在 GitHub 上创建账户来为 Lama-West/PnPR-GCN_ACM_SAC_24 的开发做出贡献。
- Vinner - Nybygg i og rundt Bergen:非常感谢 Snøhetta
- GitHub - GDSC-FSC/gemini-node-1:通过在 GitHub 上创建账户来为 GDSC-FSC/gemini-node-1 的开发做出贡献。
- Rubik's AI - AI research assistant & Search Engine:未找到描述
- Graph Machine Learning in the Era of Large Language Models (LLMs):图在表示社交网络、知识图谱和分子发现等各个领域的复杂关系中发挥着重要作用。随着深度学习的出现,图神经网络...
- 加入 Hugging Face Discord 服务器!:我们正致力于民主化优秀的机器学习 🤗 验证以链接您的 Hub 和 Discord 账号!| 77552 名成员
- Large Language Models on Graphs: A Comprehensive Survey:大语言模型 (LLMs),如 GPT4 和 LLaMA,凭借其强大的文本编码/解码能力和新发现的涌现能力,正在自然语言处理领域取得重大进展...
- Towards Graph Foundation Models: A Survey and Beyond:基础模型已成为各种人工智能应用中的关键组件,并在自然语言处理和其他几个领域展示了显著的成功...
- 首页 | ChatGPT Web Share 文档:未找到描述
- Google Colab:未找到描述
- Google Colab:未找到描述
- jondurbin/cinematika-7b-v0.1 · Hugging Face:未找到描述
- lmsys/lmsys-chat-1m · Hugging Face 数据集:未找到描述
- TheBloke/psyonic-cetacean-20B-AWQ · Hugging Face:未找到描述
- maywell/Llama-3-8B-Instruct-1M · Hugging Face:未找到描述
- 来自 Eric Hartford (@erhartford) 的推文:dolphin-2.9-llama3-8b-256k 已发布。它是应用了 @winglian 出色的 256k 上下文适配器的 dolphin-2.9-llama3-8b。我今天会完成模型卡片。
- gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face:未找到描述
- cognitivecomputations/dolphin-2.9-mixtral-8x22b · Hugging Face:未找到描述
- gpt2-chatbot:此页面正在完善中。随着收集到更多信息,其结论可能会发生变化。截至 2023-04-30 的新闻:gpt2-chatbot 极有可能运行在由某公司运营或关联的服务器上...
- Clay - 规模化个性化外联:结合 50 多个数据提供商、实时抓取和 AI,发送 1 对 1 个性化营销活动,预订更多会议。
- jondurbin/cinematika-v0.1 · Hugging Face 数据集:未找到描述
- openrouter 的 Cinematika 7B (alpha) | OpenRouter:该模型正在开发中。查看 [OpenRouter Discord](https://discord.gg/fVyRaUDgxW) 获取更新。
- 托管服务器:您自己的服务器,总部位于瑞士:未找到描述
- 摘要与资源:在 Imgur 发现互联网的魔力,这是一个由社区驱动的娱乐目的地。通过幽默的笑话、热门迷因、有趣的 GIF、励志故事、病毒视频等来提振你的精神...
- LlamaIndex:LlamaIndex 的官方 YouTube 频道 —— 为你的 LLM 应用提供的资料框架。
- Typesense Vector Store - LlamaIndex:未找到描述
- "我希望 Llama3 结合我的私有知识发挥 10 倍效能" - 使用 llama3 构建本地 Agentic RAG:高级 RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告:https://clickhubspot.com/4hx🔗 链接- F...
- 常见问题解答 (FAQ) - LlamaIndex:未找到描述
- answerbot/answerbot/replay_client.py at main · zby/answerbot:使用 LLMs、搜索 (RAG) 和其他工具回答问题 - 示例代码 - zby/answerbot
- 用于结构化提取的 Function Calling 程序 - LlamaIndex:未找到描述
- Retriever - LlamaIndex:未找到描述
- GitHub - zby/LLMEasyTools: 用于 LLM agents 的工具。:用于 LLM agents 的工具。通过在 GitHub 上创建账户来为 zby/LLMEasyTools 的开发做出贡献。
- OpenAI - LlamaIndex:未找到描述
- Metaphor - LlamaIndex:未找到描述
- 从 Vectara 索引进行自动检索 - LlamaIndex:未找到描述
- GitHub - run-llama/llamabot:通过在 GitHub 上创建账户来为 run-llama/llamabot 的开发做出贡献。
- Context - LlamaIndex:未找到描述
- 具有异步/并行执行能力的查询管道 - LlamaIndex:未找到描述
- 具有异步/并行执行能力的查询管道 - LlamaIndex:未找到描述
- 并行化摄取管道 - LlamaIndex:未找到描述
- Effort Engine:一种可能用于 LLM 推理的新算法。可以平滑地——且实时地——调整推理过程中想要进行的计算量。
- Linear Transformers Are Secretly Fast Weight Programmers:我们展示了线性化自注意力机制与 90 年代初的快速权重控制器(fast weight controllers)在形式上的等价性,其中“慢速”神经网络通过梯度下降学习来编写“快速”网络...
- 未找到标题:未找到描述
- 加入我们的云高清视频会议:Zoom 是现代企业视频通信的领导者,拥有一个简单、可靠的云平台,用于在移动设备、桌面设备和会议室系统上进行视频和音频会议、聊天和网络研讨会。Zoom ...
- Discord | 你的聊天和聚会场所:Discord 是通过语音、视频和文字进行交流的最简单方式。与你的朋友和社区交谈、聊天、聚会并保持联系。
- Reddit - 深入探索一切:未找到描述
- VideoGigaGAN: 未找到描述
- NExT: Teaching Large Language Models to Reason about Code Execution: 人类开发者的一个基本技能是理解和推理程序执行的能力。例如,程序员可以在脑海中用自然语言模拟代码执行来调试...
- Make Your LLM Fully Utilize the Context: 虽然许多现代 Large Language Models (LLMs) 可以处理长输入,但它们仍然难以充分利用长上下文中的信息,这被称为 lost-in-the-middle 挑战。我们...
- Jason Wei (@_jasonwei) 的推文: 很喜欢这篇将 emergent abilities 与 x 轴上的 pretraining loss 关联起来的论文,这实际上也是 @OriolVinyalsML 几年前提出的建议:https://arxiv.org/abs/2403.15796 ...
- Benchmarking Benchmark Leakage in Large Language Models: 随着预训练数据使用的扩大,基准测试数据集泄露现象日益突出,而不透明的训练过程以及经常未披露的包含情况加剧了这一问题...
- Faster Convergence for Transformer Fine-tuning with Line Search Methods: 最近的研究表明,线搜索方法在各种数据集和架构上大大提高了传统随机梯度下降方法的性能 [1], [2]。在这项工作中,我们建议...
- VideoGigaGAN: Towards Detail-rich Video Super-Resolution: 视频超分辨率 (VSR) 方法在升采样视频中表现出令人印象深刻的时间一致性。然而,这些方法往往比图像领域的同类方法产生更模糊的结果,因为...
- Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class: 视觉语言模型实现了无需任何重新训练的开放世界物体分类。虽然这种 Zero-shot 范式标志着重大进步,但即使是当今最好的模型也表现出...
- Sequential predictive learning is a unifying theory for hippocampal representation and replay: 哺乳动物的海马体包含一个认知地图,代表动物在环境中的位置,并生成离线 "replay" 用于回忆、规划和形成长...
- LMSYS Chatbot Arena: Live and Community-Driven LLM Evaluation | LMSYS Org: <h2><a id="our-mission" class="anchor" href="#our-mission" aria-hidden="true"><svg aria-hidden="true" class="octicon octicon-link&...
- ChatGPT’s hallucinations draw EU privacy complaint: 活动人士要求监管机构针对 ChatGPT 对其出生日期的胡乱猜测展开调查。
- lmsys/lmsys-chat-1m · Datasets at Hugging Face: 未找到描述
- Vision–language foundation model for echocardiogram interpretation - Nature Medicine: 一个视觉-语言基础模型,在超过 100 万个超声心动图视频-文本对的数据集上进行训练,能够评估各种心脏结构和功能参数...
- Reddit - Dive into anything: 未找到描述
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine: 诸如 GPT-4 之类的通用基础模型在广泛的领域和任务中展示了惊人的能力。然而,普遍存在一种假设,即它们无法与专业微调相匹配...
- Rohan Paul (@rohanpaul_ai) 的推文: 量化对 LLaMA 3 的伤害比对 LLaMA 2 更大。llama cpp 仓库中的这个 PR 对此进行了深入调查。(Perplexity 衡量模型预测下一个 token 的能力,数值越低越好...)
- gradientai/Llama-3-8B-Instruct-Gradient-1048k · Hugging Face: 未找到描述
- Feat: 由 NanoCode012 添加 cohere (commandr) · Pull Request #1547 · OpenAccess-AI-Collective/axolotl:描述、动机与背景、如何测试?未经测试!截图(如果适用)、更改类型、社交账号(可选)
- OpenAccess-AI-Collective/axolotl | Phorm AI 代码搜索:更快速地理解代码。
- axolotl/README.md at main · OpenAccess-AI-Collective/axolotl:尽管提出 Axolotl 相关问题。通过在 GitHub 上创建账号为 OpenAccess-AI-Collective/axolotl 的开发做出贡献。
- OpenAccess-AI-Collective/axolotl | Phorm AI 代码搜索:更快速地理解代码。
- 来自 Alex Reibman 🖇️ (@AlexReibman) 的推文:OSWorld:在真实计算机环境中针对开放式任务的多模态 Agent 基准测试。自从 OpenInterpreter 出现以来,我们一直在思考,如果你给 Agent 一个...,它们能有多高效。
- AI Engineering 101 和 201 工作坊:来自 2023 年 AI Engineer 峰会
- 来自 lmsys.org (@lmsysorg) 的推文:嗨 @simonw,非常感谢!我们非常看重您的反馈。澄清一下,根据我们的政策,我们已与多家模型开发商合作,将他们的新模型引入我们的平台进行社区...
- Learn Prompting:您的 AI 沟通指南:Learn Prompting 是互联网上规模最大、最全面的 Prompt Engineering 课程,拥有超过 60 个内容模块,被翻译成 9 种语言,并拥有一个繁荣的社区。
- GPT-2?:背景:https://chat.lmsys.org 为 LLM(以及一些 MLLM)提供盲测用户基准。最近可用的模型之一是 GPT2-chatbot,它展示了远超...的能力。
- 去中心化训练(Decentralized Training)的最新技术:这篇文章探讨了各种新颖的去中心化训练方法,以及它们如何实现在全球分布的 GPU 上进行有效的 AI 模型训练。
- Prompt Engineering 路线图 - roadmap.sh:学习 Prompt Engineering 的分步指南。我们还在路线图项目中附带了资源和简短说明,让您可以在一个地方获取想要学习的所有内容。
- 来自 mephistoooOOHHHHHHSHI- (@karan4d) 的推文:好的,它肯定使用了 GPT-4 的 Tokenizer,所以我敢打赌它也是 4.5。始终使用异常 Token 进行指纹识别。
- 来自 lmsys.org (@lmsysorg) 的推文:嗨 @simonw,非常感谢!我们非常看重您的反馈。澄清一下,根据我们的政策,我们已与多家模型开发商合作,将他们的新模型引入我们的平台进行社区...
- 来自 albs — 3/staccs (@albfresco) 的推文:我的猜测是,这个神秘的 'gpt2-chatbot' 实际上是 OpenAI 2019 年的 GPT-2,并使用现代助手数据集进行了微调。如果是这样,那意味着他们最初的预训练仍然...
- 来自 mephistoooOOHHHHHHSHI- (@karan4d) 的推文:好的,它肯定使用了 GPT-4 的 Tokenizer,所以我敢打赌它也是 4.5。始终使用异常 Token 进行指纹识别。
- 来自 Mark Huang (@markatgradient) 的推文:1M 上下文长度的 Llama-3 8B 模型。无需多言。已在 HF 上线 @ClementDelangue 抄送:@winglian @mattshumer_ ↘️ 引用 Gradient (@Gradient_AI_):我们一直在努力研发 🔥 很高兴...
- 来自 Marques Brownlee (@MKBHD) 的推文:新视频 - Rabbit R1:几乎无法评价 https://youtu.be/ddTV12hErTc 这是多年来一个令人恼火的趋势的顶峰:交付几乎未完成的产品以赢得一场“竞赛”...
- GitHub - xlang-ai/OSWorld:OSWorld:在真实计算机环境中针对开放式任务的多模态 Agent 基准测试:OSWorld:在真实计算机环境中针对开放式任务的多模态 Agent 基准测试 - xlang-ai/OSWorld
- GitHub - kingjulio8238/memary:自主 Agent 的长期记忆。:自主 Agent 的长期记忆。通过在 GitHub 上创建账号来为 kingjulio8238/memary 的开发做出贡献。
- 第 8 集 — ColBERT + ColBERTv2:以合理的推理成本实现后期交互(late interaction):Andrew Yates(阿姆斯特丹大学助理教授)和 Sergi Castella(Zeta Alpha 分析师)讨论了两篇引入 Co... 的具有影响力的论文。
- 神经网络到底是什么?| 第一章,深度学习:什么是神经元,为什么有层,背后的数学原理是什么?帮助资助未来的项目:https://www.patreon.com/3blue1brown 编写/交互...
- 来自 Jesse Cheng Lyu 的推文 eet from Jesse Lyu (@jessechenglyu)</a>: 立即将你的 r1 更新到最新版本 - 我们解决了目前发现的大多数问题,更多修复/改进即将到来!待机电池寿命现在提升了高达 5 倍。 ↘️ 引用 rabbit inc. (@rabb...
- 未找到标题: 未找到描述
- Rabbit R1: 几乎无法评价: 盒子里的 AI。但是个不同的盒子。在 https://dbrand.com/rabbit 获取 dbrand 皮肤和屏幕保护贴。MKBHD 周边: http://shop.MKBHD.com 我现在使用的科技产品...
- geohot 提交的 tensor variable · Pull Request #4362 · tinygrad/tinygrad:未找到描述
- GitHub - tinygrad/tinygrad: 喜欢 pytorch?喜欢 micrograd?你会爱上 tinygrad!❤️:喜欢 pytorch?喜欢 micrograd?你会爱上 tinygrad!❤️ - GitHub - tinygrad/tinygrad: You like pytorch? You like micrograd? You love tinygrad! ❤️
- Quickstart - tinygrad docs: 未找到描述
- Comparing tinygrad:master...davidjanoskyrepo:symbolic-mean-var-pull · tinygrad/tinygrad: 你喜欢 pytorch?你喜欢 micrograd?你会爱上 tinygrad! ❤️ - Comparing tinygrad:master...davidjanoskyrepo:symbolic-mean-var-pull · tinygrad/tinygrad
- Comparing 86d90511cee2^...97a2d44d9840 · tinygrad/tinygrad: 你喜欢 pytorch?你喜欢 micrograd?你会爱上 tinygrad! ❤️ - Comparing 86d90511cee2^...97a2d44d9840 · tinygrad/tinygrad
- GitHub - unknownusername504/MicroGrad: 通过在 GitHub 上创建账号,为 unknownusername504/MicroGrad 的开发做出贡献。
- MiniTorch: 未找到描述
- rename Scalar to ConstType and cast_scalar to as_const (#3946) · tinygrad/tinygrad@77589bc: 前置清理工作,使 const 参数与 dtype 具有相同的 python 类型
- symbolic codegen and exec by chenyuxyz · Pull Request #1552 · tinygrad/tinygrad: #1353 的一部分,通过 codegen 和 exec 为符号化输入实现 realize。合并后的 var_vals 直接传入 kernel 函数。我已为 CLANG, GPU, METAL 实现了后端。glob...
- Revisiting GPT-1: The spark that ignited the fire of LLMs: 深入探讨 GPT-1 对现代 LLM 发展的贡献
- QuickVid: 暂无描述
- GitGud: 暂无描述
- D-ID Airbnb Use Case: A RAG Agent Demo using Ollama and Langchain with code on Github: 演示如何为商业场景构建实用的实时虚拟人助手... 我将制作一个详细的代码审查视频,以便你可以尝试... ...
- GitHub - BBC-Esq/VectorDB-Plugin-for-LM-Studio: Plugin that creates a ChromaDB vector database to work with LM Studio running in server mode!: 创建 ChromaDB 向量数据库以配合在服务器模式下运行的 LM Studio 的插件! - BBC-Esq/VectorDB-Plugin-for-LM-Studio
- "I want Llama3 to perform 10x with my private knowledge" - Local Agentic RAG w/ llama3:高级 RAG 101 - 使用 llama3 构建 Agentic RAG。获取关于 AI 如何重新定义初创公司 GTM 策略的免费 HubSpot 报告:https://clickhubspot.com/4hx🔗 链接- F...
- Agent RAG: LangChain et LlamaIndex portés par Mistral Large - Le vent du changement:在这段新视频中,我向大家展示了一个基于 Agent 开发的 RAG 助手,使用了 Mistral、Langchain 和 LlamaIndex。代码 ...
- GitHub - GigaxGames/gigax: LLM-powered NPCs running on your hardware:在你的硬件上运行由 LLM 驱动的 NPC。通过在 GitHub 上创建账号为 GigaxGames/gigax 的开发做出贡献。
- Form - Tally:由 Tally 制作,这是创建表单最简单的方式。
- GitHub - carsonpo/haystackdb:通过在 GitHub 上创建账号来为 carsonpo/haystackdb 的开发做出贡献。
- feat: Add LLaMA-3 instruct prompt strategies for fine-tuning by 0-hero · Pull Request #1553 · OpenAccess-AI-Collective/axolotl:描述:此功能基于并包含了以下 PR 中的更改:#1542 #1539。在合并此项之前,需要先合并来自 @TJ-Solergibert 的 Fastchat PR lm-sys/FastChat#3257。动机...
- AI leaderboards are no longer useful. It's time to switch to Pareto curves.:花费 2,000 美元能告诉我们关于评估 AI Agent 的什么信息
- rl-for-llms.md:GitHub Gist:即时分享代码、笔记和片段。