Llms | 楠楠自瑜

免费 LLM：NVIDIA NIM 薅羊毛指北

之前写了名为 GitHub 宝藏：免费 LLM 资源列表的文章，分享了一个专门搜集免费 LLM 的 GitHub 项目。这篇文章介绍其中提到的 NVIDIA NIM 服务。 1. 什么是 NVIDIA NIM NVIDIA NIM 是一套易于使用的预构建容器工具，可在任何 NVIDIA 加速基础设施 (云、数据中心、工作站和边缘设备) 上快速部署最新 LLM。它提供免费额度的托管 API，通过访问 build.nvidia.com，用户可以访问大量企业级 LLM，例如 Kimi-k2.6，DeepSeek-V4-Pro，GLM-5.1 等等，这些模型都针对 NVIDIA GPU 运行了优化。目前 NIM 提供的免费 API 端点采用速率限制模型，限制为 40 请求每分钟。 NVIDIA NIM 提供的一个独特功能是良好的可移植性：用户可利用免费额度的托管 API 构建原型，在完成概念验证后，用户可以下载相同的 NIM 容器，直接在本地 NVIDIA 硬件（RTX PC 或工作站）或私有云上运行 LLM。除了上面提到的可移植性，NVIDIA NIM 还有下面这些优点： OpenAI 兼容 API - 所有支持的模型都遵循标准 OpenAI API 格式，现有应用程序只需要简单地将 base_url 更改为 NVIDIA NIM 端点并提供 API 密钥既可完成 LLM 切换；提供丰富的 LLM - 提供纯文本、图像和视频 LLM，还提供专为编程优化的 LLM 以及专门用于药物发现和蛋白质结构预测的 LLM； 2. 如何使用在 https://build.nvidia.com/ 上进行注册，注册过程中确认电子邮件，并验证手机号码（见下图），然后就可以使用了。 ...

让 Transformer 像计算机一样精确执行确定性程序

译者：Carl Cui 通常我们训练 Transformer 是希望它们内部出现有用的模式识别回路，但是如果我们已经知道了路径呢？如果我们不是从数据中学习权重，而是分析性地构建它们，使模型直接执行计算图呢？以上其实是我一个周末项目背后的想法。我不把 Transformer 看作一个必须通过优化来发现算法的系统，而是把它当作一台可编程的机器：调度序列（schedule）规定了每一步应该计算哪些中间量；隐藏维度（Hidden dimensions）被分配给各个变量，就像微型计算机中的寄存器一样；注意力头（Attention heads）通过布线（设置权重）来执行查找和路由；前馈网络（Feed-forward network）用来实现局部门控计算；残差更新（Residual updates）将下一时刻的机器状态写回流中（token 的残差流）。结果就是一个普通的 Transformer 在执行一个确定性的程序。图 1：执行程序的 Transformer。残差流存储当前机器状态 (x,y,z)；嵌入之后，状态包含输入 x=B；注意力块执行查找步骤 y=lookup[x]=5，并通过残差加法将该结果写回状态中；然后 FFN 执行局部计算 z=y+1=6；最后，输出头读取更新后的状态，并输出结果。在这种观点下，残差流（residual stream）是工作内存，每一层成为一个机器步骤。有的值被读取，有的被转换，有的被传递，有的则在其槽位可以安全复用时被覆写。Transformer 开始变得像一个由注意力、线性投影（linear projections）和门控块（gating blocks）构建而成的小型编译计算机。这一切都不需要训练。如果你已经有了一个计算图，以及一张关于每个中间变量应该存在于哪一步的调度表（schedule），那么你就可以直接构造出模型的权重。这样一来，Transformer 就变成了一个执行引擎（execution engine），它的行为由设计决定，而不是由梯度下降（gradient descent）决定。有一点会让这件事变得有意义：它为外部工具调用提供了一种替代方案。我们不再需要迫使模型在需要进行精确计算时离开自身的执行循环，而是可以设想给模型一个内部确定性模式。在一种模式下，模型表现得像一个灵活的语言系统：生成、抽象、推理；在另一种模式下，它则更像一台编译好的机器：更新状态、遵循固定的计算图、可靠地执行精确步骤。这与标准的“LLM + 工具”模式完全不同。它表明至少某些形式的精确计算，可以存在于模型内部，而不是外部。一个有用的对比是 Percepta 最近关于在 Transformer 内部执行程序的工作。他们的方案将一个通用的执行机制，实际上是一个解释器，编译进了模型权重，同时将具体的程序在推理时作为提示词的一部分提供。而我这里的设定则更狭窄、更专门化。我并非在权重中放入一个解释器，而是将目标程序本身编译进了权重。换句话说，他们的模型更像一个为提供的程序而设的通用执行器，而这个模型则更像一个为固定计算图打造的专用编译机器。这使得它的通用性较差，但也更简单、更透明，便于理解确定性计算是如何被直接嵌入到标准 Transformer 模块中的。在本文的剩余部分，我将通过一个小例子来具体说明上面的思路。我们会从一个简单的程序出发，将其变量分配到隐藏状态的各个槽位中，然后逐步展示：如何通过解析设计来“布线”注意力层、前馈层和残差更新，从而让一个标准的 Transformer 一步一步地执行这个程序。 1. 编译到 Transformer 中的示例程序与其停留在比喻的层面，不如亲眼看看一个非常小的程序是如何运行的。下这是我在本文其余部分将使用的示例程序： lookup = { "A": 2, "B": 5, "C": 9, } x = input y = lookup[x] z = y + 1 output z 这个程序故意很小，但它包含我们需要的三个要素： ...

本地 LLM 部署工具：Ollama vs vLLM vs llama.cpp

译者：Carl Cui Ollama 每月有 5200 万次下载，这几乎是每个教程都推荐的工具。我使用了六个月，觉得它“可以用于生产环境”，并把它部署给 40 个内部用户。结果响应时间从 3 秒增加到超过一分钟，并且请求开始超时。模型并没有问题，出问题的是 Ollama。这次事件促使我深入测试了三大本地 LLM 运行工具：Ollama、vLLM 和 llama.cpp。测试结果彻底改变了我对本地 AI 部署的看法。一个让人难以接受的事实是：推荐给新手用的工具，其实在生产环境下表现不佳；而那些所谓“复杂”的工具，其实设置起来并不难。 1. 为什么本地 LLM 部署越来越流行这里有一组数字：llama.cpp 在 2026 年 3 月达到 100,000 个 GitHub star，比 PyTorch 或 TensorFlow 更快到达这一里程碑，llama.cpp 只是一个三年前还不存在的项目；Ollama 在 2026 年第一季度达到了 5200 万次月下载量，是 2023 年第一季度 10 万次月下载量的 520 倍；Hugging Face 上超过 60% 的量化模型现在以 GGUF 格式发布，这是 llama.cpp 创建的标准。这已经不再是业余爱好者在笔记本电脑上运行聊天机器人的阶段了。团队正在通过部署本地 LLM 来控制成本，避免数据离开他们的网络，并获得云 API 难以达到的百毫秒内延迟。这些区别，不仅仅在于开发体验，关键还在于你的应用能不能经受住真实用户的考验。 2. 如何测试三大工具我在相同的硬件（配置 RTX-4090 24GB VRAM 和 64GB RAM 的工作站）上运行每个工具，基于相同的模型 Llama-4-Scout-17B-Instruct，测试了三种场景： ...

GitHub 宝藏：免费 LLM 资源列表

今天发现一个 Github 宝藏项目：free-llm-api-resources。它是一个免费 LLM API 资源列表，汇总了可以免费访问的 AI 模型资源，涉及各种规模，甚至包括 400B+ 参数的巨型模型。 ⚠️ 使用过程中注意保护个人数据 1. 免费提供商列表 1.1 OpenRouter 限制：20 请求/分钟，50 请求/天（可通过 $10 终身充值提升至 1000 请求/天）支持模型： Hermes 3 Llama 3.1 405B（4050亿参数） Llama 3.3 70B Instruct（700亿参数） google/gemma-4-26b-a4b-it（260亿参数） nvidia/nemotron-3-super-120b-a12b（1200亿参数） openai/gpt-oss-120b（1200亿参数） 1.2 Google AI Studio 数据使用：在欧盟/欧洲经济区/瑞士/英国之外使用时，数据可能用于训练主要模型： Gemini 3 Flash：250,000 token/分钟，20 请求/天 Gemma 3 27B Instruct：15,000 token/分钟，14,400 请求/天 Gemma 3 12B Instruct：15,000 token/分钟，14,400 请求/天 1.3 NVIDIA NIM 要求：需要手机号验证限制：40 请求/分钟特点：上下文窗口有限，支持各种开源模型 1.4 Mistral 免费层：需要选择加入数据训练，需要手机号验证限制：1 请求/秒，500,000 token/分钟，1,000,000,000 token/月支持模型：开放和专有的 Mistral 模型 1.5 Groq 支持模型： Llama 3.3 70B：1,000 请求/天，12,000 token/分钟 openai/gpt-oss-120b：1,000 请求/天，8,000 token/分钟 qwen/qwen3-32b：1,000 请求/天，6,000 token/分钟 1.6 Cerebras 支持模型： gpt-oss-120b：30 请求/分钟，60,000 token/分钟 Llama 3.1 8B：30 请求/分钟，60,000 token/分钟 1.7 Cloudflare Workers AI 限制：10,000 神经元/天支持模型： @cf/nvidia/nemotron-3-120b-a12b（1200亿参数） @cf/openai/gpt-oss-120b（1200亿参数） Llama 3.3 70B Instruct（700亿参数） 2. 提供试用额度的服务商 2.1 Fireworks 额度：$1 支持模型：各种开源模型 2.2 Baseten 额度：$30 计费方式：按计算时间付费支持模型：任何支持的模型 2.3 Hyperbolic 额度：$1 支持模型： DeepSeek V3 0324 Llama 3.3 70B Instruct deepseek-ai/deepseek-r1-0528 qwen/qwen3-coder-480b-a35b-instruct（4800亿参数） 2.4 SambaNova Cloud 额度：$5（3个月）支持模型： Qwen/Qwen3-235B（2350亿参数） deepseek-ai/DeepSeek-V3.2 openai/gpt-oss-120b（1200亿参数） 2.5 Scaleway Generative APIs 额度：1,000,000 免费token 支持模型： Llama 3.3 70B Instruct gpt-oss-120b（1200亿参数） qwen3-235b-a22b-instruct-2507（2350亿参数） qwen3.5-397b-a17b（3970亿参数） 3. 如何选择适合的免费服务 3.1 根据需求选择：需要最大模型（400B+ 参数）： ...

Google 的 Gemma 4 为开源 AI 带来变革

作者：Sumit Pandey 译者：Carl Cui Apache 2.0 许可证，在笔记本电脑上运行，性能超越 20 倍于其规模的模型。说实话。在 Gemma 2 之后我就没再关注 Gemma 了。不是因为它不好，而是我感觉它很难同中国开源巨头（例如 DeepSeek、Qwen）发布的模型相媲美。Gemma 曾经是那种你在 Kaggle 上试过一次就忘记的模型。今天，Google 彻底改变了这一局面。图片由 ChatGPT 生成。 Gemma 4 于 2026 年 4 月 2 日发布。Hugging Face 的 CTO Julien Chaumond 用火焰表情符号发布了相关消息，称之为“突发新闻”。当托管全球所有开源模型的平台 CTO 说 Google 重新入局时，你必须关注。让我来解析发生了什么，为什么这很重要，以及这些基准测试是否站得住脚。 Gemma 4 是什么？ Gemma 4 是 Google DeepMind 最新的开源权重模型系列。基于 Gemini 3 的研究和技术构建，后者是 Google 的专有前沿模型。四种模型尺寸。四个部署目标： E2B（有效 2B 参数）：可在手机、树莓派、Jetson Nano 上运行。是的，没开玩笑。 E4B（有效 4B 参数）：稍大的边缘模型。仍可在手机上运行。 26B MoE（混合专家，4B 激活参数）：尽管总参数量为 25.2B，但推理时仅激活 3.8B 参数。运行速度几乎与 4B 参数模型一样快。 31B Dense（稠密模型）：旗舰型号。在 Arena AI 文本排行榜所有开源模型中，目前排名第三。所有四个模型都能处理图像和视频。较小的 E2B 和 E4B 模型还支持原生音频输入：设备端语音识别，无需云端处理。边缘模型的上下文窗口可达 128K token，大型模型可达 256K token。这相当于将整个代码库放入单个提示中。 ...

Kimi 团队修复了 AI 模型十年未变的结构缺陷

译者：Carl Cui 国产 Kimi 模型的开发团队发现，ChatGPT、Claude、Gemini 和你所使用的其他所有 AI 模型，都存在结构性缺陷。来自：Avi Chawla via X 我先抛一个可能有点奇怪的问题：ChatGPT、Gemini、Claude、Grok、Llama 和 DeepSeek，这些架构的最深层有什么共同之处？它们都基于一个 2015 年做出的设计决策，而且直到现在，还没有人真正地质疑过这个决策。 2026 年 3 月 16 日，Kimi（月之暗面 LLM）背后的团队，发表了一篇题为 “Attention Residuals” 的论文，指出了现代所有 AI 模型中存在的一个结构性缺陷。这不是什么基准测试的小把戏、新的数据集，或者更大的GPU集群。这关乎基础架构的改进。这件事我们一直没碰，因为它一直运行得还可以。Elon Musk 转发了它。Andrej Karpathy，OpenAI 的联合创始人，评论说这篇论文“让我们意识到我们没有完全认真对待 Attention is All You Need 这个标题。” 当 Karpathy 这个级别的研究人员对一篇技术论文做出这样的评价时，就值得我们去了解 Kimi 团队到底发现了什么。无人质疑的基础设施你需要对当前 AI 模型如何运作有一个大致的了解，才能理解 Kimi 团队发现了什么。像 ChatGPT 或 Claude 这样的模型不是单次的计算，它是由连续的处理步骤堆叠而成的，称为层，有时有几十层，有时有几百层。当你向这些模型发送消息时，它会先通过第一层，这一层处理原始的文字。第二层开始识别词语之间的关系。第三层识别结构。到了第十层，模型就能理解意图。到了第五十层，它就能用抽象的方式来推理意义。每一层都增加了深度。每一层都建立在之前的基础上。理论上，模型越深，它的思考就越复杂。问题在于堆叠层数会带来的训练问题：当模型出错时，一个修正信号需要反向穿过整个堆叠，从最深的层一路回到第一层，来更新每一层的行为。但这个信号在传播过程中会减弱。让它穿过十层，它仍然足够强以发挥作用。但让它穿过一百层，它到达顶层时已经非常微弱，几乎无法推动任何改变。这种现象被称为梯度消失问题 the vanishing gradient problem，以前它对实际可以构建的神经网络的深度构成了重大限制。 2015 年，何恺明和他的同事们设计了一个巧妙的解决方案。他们实现了一个“捷径”，让原始输入可以直接跳过一层，和后续层的输出直接组合，而不是要求每一层都转换输入的数据。这个捷径称为残差连接 residual connection，因为它效果太好，成了后来所有神经网络的标准构件。你今天使用的每个模型，无一例外都依赖于它。 ...

AI 模型加速发展：从架构创新到生态重构的 2026 年 3 月全景报告

模型发展太快了：今天做出的架构和供应商承诺，六个月后可能就过时了。现在能力突出的模型，很多都来自开源项目，还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题：预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世，就表明了替代架构正在成为真正的竞争者；NVIDIA 的新模型结合了 Mamba 和 Transformer 层，也指向了同样的方向。相关事件以下汇总了 2026 年 3 月份以来值得关注的模型有关事件： Yann LeCun 和他的团队创建了 LeWorldModel，这是第一个使用他的联合嵌入预测架构（JEPA）且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型；而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super，这是他们最新的开放权重模型。它是一个混合专家模型，拥有 120B 参数，其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计：它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型，旨在支持实时对话。在生成输出时，它会避免出现停顿，并使用类似人类的语调。 Cursor 发布了 Composer 2，这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道，它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6，而且成本显著降低。 Mistral 发布了 Forge 系统，这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4，这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型，每个 token 使用 6B 参数。它是完全开源的，具有 256K 上下文窗口，并针对最小化延迟和最大化吞吐量进行了优化。 ...

7 种可以满足日常事务的本地 LLM 模型

译者：Carl Cui 开源模型现在可以处理大量日常工作，对于很多像编码、写作、自动化和 AI Agent 的任务来说，本地部署的 LLM 可以替代云端 LLM。并且，每一次发给云端 LLM 的请求都会离开你的电脑，经公共网络发送到云端服务器。对于专有代码库、敏感的原型或者受监管的行业来说，这是不可接受的。本地运行推理服务可以避免数据外流，对于很多团队来说，数据主权本身就值得考虑本地 LLM。目前，Claude Code 重度用户每月需要支出 100 ~ 200 美元。按照当前的 API 费率，通过 Cline 或 Kilo Code 使用 Claude Sonnet 4.6，每小时大约需要 3 ~ 8 美元。如果你正在运行代理群、大量迭代或者大量子任务，把其中那些日常的任务交给本地模型可以节省大量开支。除了介绍 7 种本地可以部署的模型，作者也介绍了如何配置 Claude Code 和 Codex，匹配的 Nvidia 和 Mac 硬件，以及部署的注意事项、故障说明和有关的利弊权衡，比如处理延迟、资源需求、API 兼容性、生成代码的可靠性和指令遵循质量等等。硬件匹配表本地能够运行的模型受限于拥有的硬件。如果你使用的是 MacBook Air，评估一个 70B 模型是没有意义的。大多数模型在 Q4_K_M 量化后可以维持其 MMLU 跑分，与全精度相比，分数差距在 1 到 3 分以内。不过，这种退化程度因任务而异，像多步数学推理这样的专业任务，退化程度可能超过 5%。建议从 Q4_K_M 开始。如果你在目标任务上感觉精度不够，可以切换到 Q5_K_M。 1. Qwen3 - 适合编码和多语言 AI Agent 大小：1.7B，7B，14B，32B，72B，235B MoE 硬件：RTX 4060 → Mac M4 → Workstation 本文列出的模型中，Qwen3-7B 的 HumanEval 跑分（76.0）是所有 8B 参数下模型中最高的，比 Llama 3.3 的 72.6 高出 3.4 分。在四个主要语系中，Qwen3 7B 的多语言支持能力最强，在中、日、韩语方面表现尤为突出，在英语方面的表现也很强劲。 ...

性能实测：多台 Mac 本地运行 80B 大模型

作者：Manjunath Janardhan 译者：Carl Cui 通常，本地部署 LLM 时需要给 LLM 找一个配置足够好的机器，那么有没有办法反其道而行之？如果你有一堆闲置的设备，能不能把它们的 CPU, GPU 和内存资源整合起来，运行一个它们单独无法处理的模型？作者 Manjunath Janardhan 借助开源工具 exo 在自己的两台 Mac 设备上把 Qwen3-Next-80B 运行了起来，可以达到每秒 70 ~ 80 个 token。 Mac Mini 的设置和负载快照，图片由 Manjunath Janardhan 制作 1. exo 是什么 exo 是一个由 Exo Labs 维护的开源项目，一句话概括：它将你所有的设备连接成个人 AI 集群，让你能够运行任何单台机器都无法容纳的模型。exo 的主要功能如下：自动设备发现 - 运行 exo 的设备可以在网络上自动相互发现，无需手动配置支持基于 Thunderbolt 的 RDMA - 在支持的硬件（M4 Pro/Max）上，能够在设备之间实现 99%的延迟降低拓扑感知自动并行 - exo 根据可用 RAM、CPU、GPU 资源以及节点之间的网络延迟，确定将模型在多个设备之间分割的最佳方式 Tensor 并行 - exo 支持模型分片，在 2 台设备上可加速 1.8 倍，在 4 台设备上可加速 3.2 倍 MLX 支持 - exo 使用 MLX 作为推理后端，并使用 MLX 分布式进行分布式通信多 API 兼容性 - 兼容 OpenAI Chat Completions API、Claude Messages API、OpenAI Responses API 和 Ollama API，现有的工具和客户端可以无缝迁移自定义模型支持 - 从 HuggingFace hub 加载自定义模型，以扩展可用模型范围支持 54+ 个模型 - 从小型 Llama 模型到 671B DeepSeek 变体 2. Mac Mini M4 + MacBook Pro M4 Max 通过 exo，我配对了两台机器： ...

本地 LLM 部署：硬件配置指南

作者：MayhemCode 译者：Carl Cui 今天这篇文章是搬运过来的，发表于 2025 年 12 月 17 日，那时候由 AI 引发的硬件通胀已经持续了几个月。到现在，2026 年 3 月底，消费级硬件的价格不仅没有回落，反而在全面涨价的基础上看不到回调的希望。虽然内存价格出现了小幅回调，但是相比 2025 年 9 月，现在的内存价格依然处于历史极高水平：2025 年 9 月份，一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元，现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆，进一步推动了本地部署 LLM 的需求，对于“不想交数据、不想交钱，或者不想等网络”的那群人，本地部署 LLM 永远是一个绕不开的话题。 1. 为什么自托管 AI 是未来完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的隐私保护、零持续成本，和对模型的完全控制。现在开源的大语言模型，特别是 Llama 3、DeepSeek R1 和 Mistral，已经足够处理真实工作。问题在于，你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选择高性价比硬件，不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。译者注：2025 年 12 月到现在，硬件和 LLM 已经出现了很多变化，文章部分内容稍显过时，推荐的配置也是基于当时国外的行情，不过对 LLM 硬件的讲解比较全面，值得一读。 ...