免费 LLM:NVIDIA NIM 薅羊毛指北

之前写了名为 GitHub 宝藏:免费 LLM 资源列表 的文章,分享了一个专门搜集免费 LLM 的 GitHub 项目。这篇文章介绍其中提到的 NVIDIA NIM 服务。 1. 什么是 NVIDIA NIM NVIDIA NIM 是一套易于使用的预构建容器工具,可在任何 NVIDIA 加速基础设施 (云、数据中心、工作站和边缘设备) 上快速部署最新 LLM。它提供免费额度的托管 API,通过访问 build.nvidia.com,用户可以访问大量企业级 LLM,例如 Kimi-k2.6,DeepSeek-V4-Pro,GLM-5.1 等等,这些模型都针对 NVIDIA GPU 运行了优化。 目前 NIM 提供的免费 API 端点采用速率限制模型,限制为 40 请求每分钟。 NVIDIA NIM 提供的一个独特功能是良好的可移植性:用户可利用免费额度的托管 API 构建原型,在完成概念验证后,用户可以下载相同的 NIM 容器,直接在本地 NVIDIA 硬件(RTX PC 或工作站)或私有云上运行 LLM。 除了上面提到的可移植性,NVIDIA NIM 还有下面这些优点: OpenAI 兼容 API - 所有支持的模型都遵循标准 OpenAI API 格式,现有应用程序只需要简单地将 base_url 更改为 NVIDIA NIM 端点并提供 API 密钥既可完成 LLM 切换; 提供丰富的 LLM - 提供纯文本、图像和视频 LLM,还提供专为编程优化的 LLM 以及专门用于药物发现和蛋白质结构预测的 LLM; 2. 如何使用 在 https://build.nvidia.com/ 上进行注册,注册过程中确认电子邮件,并验证手机号码(见下图),然后就可以使用了。 ...

May 6, 2026 · 1 min · Carl Cui

让 Transformer 像计算机一样精确执行确定性程序

译者:Carl Cui 通常我们训练 Transformer 是希望它们内部出现有用的模式识别回路,但是如果我们已经知道了路径呢?如果我们不是从数据中学习权重,而是分析性地构建它们,使模型直接执行计算图呢? 以上其实是我一个周末项目背后的想法。 我不把 Transformer 看作一个必须通过优化来发现算法的系统,而是把它当作一台可编程的机器: 调度序列(schedule)规定了每一步应该计算哪些中间量; 隐藏维度(Hidden dimensions)被分配给各个变量,就像微型计算机中的寄存器一样; 注意力头(Attention heads)通过布线(设置权重)来执行查找和路由; 前馈网络(Feed-forward network)用来实现局部门控计算; 残差更新(Residual updates)将下一时刻的机器状态写回流中(token 的残差流)。 结果就是一个普通的 Transformer 在执行一个确定性的程序。 图 1:执行程序的 Transformer。残差流存储当前机器状态 (x,y,z);嵌入之后,状态包含输入 x=B;注意力块执行查找步骤 y=lookup[x]=5,并通过残差加法将该结果写回状态中;然后 FFN 执行局部计算 z=y+1=6;最后,输出头读取更新后的状态,并输出结果。 在这种观点下,残差流(residual stream)是工作内存,每一层成为一个机器步骤。有的值被读取,有的被转换,有的被传递,有的则在其槽位可以安全复用时被覆写。Transformer 开始变得像一个由注意力、线性投影(linear projections)和门控块(gating blocks)构建而成的小型编译计算机。 这一切都不需要训练。如果你已经有了一个计算图,以及一张关于每个中间变量应该存在于哪一步的调度表(schedule),那么你就可以直接构造出模型的权重。这样一来,Transformer 就变成了一个执行引擎(execution engine),它的行为由设计决定,而不是由梯度下降(gradient descent)决定。 有一点会让这件事变得有意义:它为外部工具调用提供了一种替代方案。我们不再需要迫使模型在需要进行精确计算时离开自身的执行循环,而是可以设想给模型一个内部确定性模式。在一种模式下,模型表现得像一个灵活的语言系统:生成、抽象、推理;在另一种模式下,它则更像一台编译好的机器:更新状态、遵循固定的计算图、可靠地执行精确步骤。这与标准的“LLM + 工具”模式完全不同。它表明至少某些形式的精确计算,可以存在于模型内部,而不是外部。 一个有用的对比是 Percepta 最近关于在 Transformer 内部执行程序的工作。他们的方案将一个通用的执行机制,实际上是一个解释器,编译进了模型权重,同时将具体的程序在推理时作为提示词的一部分提供。而我这里的设定则更狭窄、更专门化。我并非在权重中放入一个解释器,而是将目标程序本身编译进了权重。换句话说,他们的模型更像一个为提供的程序而设的通用执行器,而这个模型则更像一个为固定计算图打造的专用编译机器。这使得它的通用性较差,但也更简单、更透明,便于理解确定性计算是如何被直接嵌入到标准 Transformer 模块中的。 在本文的剩余部分,我将通过一个小例子来具体说明上面的思路。我们会从一个简单的程序出发,将其变量分配到隐藏状态的各个槽位中,然后逐步展示:如何通过解析设计来“布线”注意力层、前馈层和残差更新,从而让一个标准的 Transformer 一步一步地执行这个程序。 1. 编译到 Transformer 中的示例程序 与其停留在比喻的层面,不如亲眼看看一个非常小的程序是如何运行的。下这是我在本文其余部分将使用的示例程序: lookup = { "A": 2, "B": 5, "C": 9, } x = input y = lookup[x] z = y + 1 output z 这个程序故意很小,但它包含我们需要的三个要素: ...

April 30, 2026 · 3 min · Sean Moran

本地 LLM 部署工具:Ollama vs vLLM vs llama.cpp

译者:Carl Cui Ollama 每月有 5200 万次下载,这几乎是每个教程都推荐的工具。我使用了六个月,觉得它“可以用于生产环境”,并把它部署给 40 个内部用户。结果响应时间从 3 秒增加到超过一分钟,并且请求开始超时。模型并没有问题,出问题的是 Ollama。 这次事件促使我深入测试了三大本地 LLM 运行工具:Ollama、vLLM 和 llama.cpp。测试结果彻底改变了我对本地 AI 部署的看法。一个让人难以接受的事实是:推荐给新手用的工具,其实在生产环境下表现不佳;而那些所谓“复杂”的工具,其实设置起来并不难。 1. 为什么本地 LLM 部署越来越流行 这里有一组数字:llama.cpp 在 2026 年 3 月达到 100,000 个 GitHub star,比 PyTorch 或 TensorFlow 更快到达这一里程碑,llama.cpp 只是一个三年前还不存在的项目;Ollama 在 2026 年第一季度达到了 5200 万次月下载量,是 2023 年第一季度 10 万次月下载量的 520 倍;Hugging Face 上超过 60% 的量化模型现在以 GGUF 格式发布,这是 llama.cpp 创建的标准。 这已经不再是业余爱好者在笔记本电脑上运行聊天机器人的阶段了。团队正在通过部署本地 LLM 来控制成本,避免数据离开他们的网络,并获得云 API 难以达到的百毫秒内延迟。这些区别,不仅仅在于开发体验,关键还在于你的应用能不能经受住真实用户的考验。 2. 如何测试三大工具 我在相同的硬件(配置 RTX-4090 24GB VRAM 和 64GB RAM 的工作站)上运行每个工具,基于相同的模型 Llama-4-Scout-17B-Instruct,测试了三种场景: ...

April 29, 2026 · 5 min · Chew Loong Nian

GitHub 宝藏:免费 LLM 资源列表

今天发现一个 Github 宝藏项目:free-llm-api-resources。它是一个免费 LLM API 资源列表,汇总了可以免费访问的 AI 模型资源,涉及各种规模,甚至包括 400B+ 参数的巨型模型。 ⚠️ 使用过程中注意保护个人数据 1. 免费提供商列表 1.1 OpenRouter 限制:20 请求/分钟,50 请求/天(可通过 $10 终身充值提升至 1000 请求/天) 支持模型: Hermes 3 Llama 3.1 405B(4050亿参数) Llama 3.3 70B Instruct(700亿参数) google/gemma-4-26b-a4b-it(260亿参数) nvidia/nemotron-3-super-120b-a12b(1200亿参数) openai/gpt-oss-120b(1200亿参数) 1.2 Google AI Studio 数据使用:在欧盟/欧洲经济区/瑞士/英国之外使用时,数据可能用于训练 主要模型: Gemini 3 Flash:250,000 token/分钟,20 请求/天 Gemma 3 27B Instruct:15,000 token/分钟,14,400 请求/天 Gemma 3 12B Instruct:15,000 token/分钟,14,400 请求/天 1.3 NVIDIA NIM 要求:需要手机号验证 限制:40 请求/分钟 特点:上下文窗口有限,支持各种开源模型 1.4 Mistral 免费层:需要选择加入数据训练,需要手机号验证 限制:1 请求/秒,500,000 token/分钟,1,000,000,000 token/月 支持模型:开放和专有的 Mistral 模型 1.5 Groq 支持模型: Llama 3.3 70B:1,000 请求/天,12,000 token/分钟 openai/gpt-oss-120b:1,000 请求/天,8,000 token/分钟 qwen/qwen3-32b:1,000 请求/天,6,000 token/分钟 1.6 Cerebras 支持模型: gpt-oss-120b:30 请求/分钟,60,000 token/分钟 Llama 3.1 8B:30 请求/分钟,60,000 token/分钟 1.7 Cloudflare Workers AI 限制:10,000 神经元/天 支持模型: @cf/nvidia/nemotron-3-120b-a12b(1200亿参数) @cf/openai/gpt-oss-120b(1200亿参数) Llama 3.3 70B Instruct(700亿参数) 2. 提供试用额度的服务商 2.1 Fireworks 额度:$1 支持模型:各种开源模型 2.2 Baseten 额度:$30 计费方式:按计算时间付费 支持模型:任何支持的模型 2.3 Hyperbolic 额度:$1 支持模型: DeepSeek V3 0324 Llama 3.3 70B Instruct deepseek-ai/deepseek-r1-0528 qwen/qwen3-coder-480b-a35b-instruct(4800亿参数) 2.4 SambaNova Cloud 额度:$5(3个月) 支持模型: Qwen/Qwen3-235B(2350亿参数) deepseek-ai/DeepSeek-V3.2 openai/gpt-oss-120b(1200亿参数) 2.5 Scaleway Generative APIs 额度:1,000,000 免费token 支持模型: Llama 3.3 70B Instruct gpt-oss-120b(1200亿参数) qwen3-235b-a22b-instruct-2507(2350亿参数) qwen3.5-397b-a17b(3970亿参数) 3. 如何选择适合的免费服务 3.1 根据需求选择: 需要最大模型(400B+ 参数): ...

April 27, 2026 · 2 min · Carl Cui

Google 的 Gemma 4 为开源 AI 带来变革

作者:Sumit Pandey 译者:Carl Cui Apache 2.0 许可证,在笔记本电脑上运行,性能超越 20 倍于其规模的模型。 说实话。在 Gemma 2 之后我就没再关注 Gemma 了。不是因为它不好,而是我感觉它很难同中国开源巨头(例如 DeepSeek、Qwen)发布的模型相媲美。Gemma 曾经是那种你在 Kaggle 上试过一次就忘记的模型。今天,Google 彻底改变了这一局面。 图片由 ChatGPT 生成。 Gemma 4 于 2026 年 4 月 2 日发布。Hugging Face 的 CTO Julien Chaumond 用火焰表情符号发布了相关消息,称之为“突发新闻”。当托管全球所有开源模型的平台 CTO 说 Google 重新入局时,你必须关注。 让我来解析发生了什么,为什么这很重要,以及这些基准测试是否站得住脚。 Gemma 4 是什么? Gemma 4 是 Google DeepMind 最新的开源权重模型系列。基于 Gemini 3 的研究和技术构建,后者是 Google 的专有前沿模型。 四种模型尺寸。四个部署目标: E2B(有效 2B 参数):可在手机、树莓派、Jetson Nano 上运行。是的,没开玩笑。 E4B(有效 4B 参数):稍大的边缘模型。仍可在手机上运行。 26B MoE(混合专家,4B 激活参数):尽管总参数量为 25.2B,但推理时仅激活 3.8B 参数。运行速度几乎与 4B 参数模型一样快。 31B Dense(稠密模型):旗舰型号。在 Arena AI 文本排行榜所有开源模型中,目前排名第三。 所有四个模型都能处理图像和视频。较小的 E2B 和 E4B 模型还支持原生音频输入:设备端语音识别,无需云端处理。边缘模型的上下文窗口可达 128K token,大型模型可达 256K token。这相当于将整个代码库放入单个提示中。 ...

April 14, 2026 · 4 min · Sumit Pandey

Kimi 团队修复了 AI 模型十年未变的结构缺陷

译者:Carl Cui 国产 Kimi 模型的开发团队发现,ChatGPT、Claude、Gemini 和你所使用的其他所有 AI 模型,都存在结构性缺陷。 来自:Avi Chawla via X 我先抛一个可能有点奇怪的问题:ChatGPT、Gemini、Claude、Grok、Llama 和 DeepSeek,这些架构的最深层有什么共同之处?它们都基于一个 2015 年做出的设计决策,而且直到现在,还没有人真正地质疑过这个决策。 2026 年 3 月 16 日,Kimi(月之暗面 LLM)背后的团队,发表了一篇题为 “Attention Residuals” 的论文,指出了现代所有 AI 模型中存在的一个结构性缺陷。 这不是什么基准测试的小把戏、新的数据集,或者更大的GPU集群。这关乎基础架构的改进。 这件事我们一直没碰,因为它一直运行得还可以。Elon Musk 转发了它。Andrej Karpathy,OpenAI 的联合创始人,评论说这篇论文“让我们意识到我们没有完全认真对待 Attention is All You Need 这个标题。” 当 Karpathy 这个级别的研究人员对一篇技术论文做出这样的评价时,就值得我们去了解 Kimi 团队到底发现了什么。 无人质疑的基础设施 你需要对当前 AI 模型如何运作有一个大致的了解,才能理解 Kimi 团队发现了什么。 像 ChatGPT 或 Claude 这样的模型不是单次的计算,它是由连续的处理步骤堆叠而成的,称为层,有时有几十层,有时有几百层。当你向这些模型发送消息时,它会先通过第一层,这一层处理原始的文字。第二层开始识别词语之间的关系。第三层识别结构。到了第十层,模型就能理解意图。到了第五十层,它就能用抽象的方式来推理意义。每一层都增加了深度。每一层都建立在之前的基础上。理论上,模型越深,它的思考就越复杂。 问题在于堆叠层数会带来的训练问题:当模型出错时,一个修正信号需要反向穿过整个堆叠,从最深的层一路回到第一层,来更新每一层的行为。但这个信号在传播过程中会减弱。让它穿过十层,它仍然足够强以发挥作用。但让它穿过一百层,它到达顶层时已经非常微弱,几乎无法推动任何改变。这种现象被称为梯度消失问题 the vanishing gradient problem,以前它对实际可以构建的神经网络的深度构成了重大限制。 2015 年,何恺明和他的同事们设计了一个巧妙的解决方案。他们实现了一个“捷径”,让原始输入可以直接跳过一层,和后续层的输出直接组合,而不是要求每一层都转换输入的数据。这个捷径称为残差连接 residual connection,因为它效果太好,成了后来所有神经网络的标准构件。你今天使用的每个模型,无一例外都依赖于它。 ...

April 11, 2026 · 1 min · Novy Baf

AI 模型加速发展:从架构创新到生态重构的 2026 年 3 月全景报告

模型发展太快了:今天做出的架构和供应商承诺,六个月后可能就过时了。现在能力突出的模型,很多都来自开源项目,还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题:预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世,就表明了替代架构正在成为真正的竞争者;NVIDIA 的新模型结合了 Mamba 和 Transformer 层,也指向了同样的方向。 相关事件 以下汇总了 2026 年 3 月份以来值得关注的模型有关事件: Yann LeCun 和他的团队创建了 LeWorldModel,这是第一个使用他的联合嵌入预测架构(JEPA)且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型;而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super,这是他们最新的开放权重模型。它是一个混合专家模型,拥有 120B 参数,其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计:它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型,旨在支持实时对话。在生成输出时,它会避免出现停顿,并使用类似人类的语调。 Cursor 发布了 Composer 2,这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道,它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6,而且成本显著降低。 Mistral 发布了 Forge 系统,这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4,这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型,每个 token 使用 6B 参数。它是完全开源的,具有 256K 上下文窗口,并针对最小化延迟和最大化吞吐量进行了优化。 ...

April 9, 2026 · 1 min · Carl Cui

7 种可以满足日常事务的本地 LLM 模型

译者:Carl Cui 开源模型现在可以处理大量日常工作,对于很多像编码、写作、自动化和 AI Agent 的任务来说,本地部署的 LLM 可以替代云端 LLM。并且,每一次发给云端 LLM 的请求都会离开你的电脑,经公共网络发送到云端服务器。对于专有代码库、敏感的原型或者受监管的行业来说,这是不可接受的。本地运行推理服务可以避免数据外流,对于很多团队来说,数据主权本身就值得考虑本地 LLM。 目前,Claude Code 重度用户每月需要支出 100 ~ 200 美元。按照当前的 API 费率,通过 Cline 或 Kilo Code 使用 Claude Sonnet 4.6,每小时大约需要 3 ~ 8 美元。如果你正在运行代理群、大量迭代或者大量子任务,把其中那些日常的任务交给本地模型可以节省大量开支。 除了介绍 7 种本地可以部署的模型,作者也介绍了如何配置 Claude Code 和 Codex,匹配的 Nvidia 和 Mac 硬件,以及部署的注意事项、故障说明和有关的利弊权衡,比如处理延迟、资源需求、API 兼容性、生成代码的可靠性和指令遵循质量等等。 硬件匹配表 本地能够运行的模型受限于拥有的硬件。如果你使用的是 MacBook Air,评估一个 70B 模型是没有意义的。 大多数模型在 Q4_K_M 量化后可以维持其 MMLU 跑分,与全精度相比,分数差距在 1 到 3 分以内。不过,这种退化程度因任务而异,像多步数学推理这样的专业任务,退化程度可能超过 5%。建议从 Q4_K_M 开始。如果你在目标任务上感觉精度不够,可以切换到 Q5_K_M。 1. Qwen3 - 适合编码和多语言 AI Agent 大小:1.7B,7B,14B,32B,72B,235B MoE 硬件:RTX 4060 → Mac M4 → Workstation 本文列出的模型中,Qwen3-7B 的 HumanEval 跑分(76.0)是所有 8B 参数下模型中最高的,比 Llama 3.3 的 72.6 高出 3.4 分。在四个主要语系中,Qwen3 7B 的多语言支持能力最强,在中、日、韩语方面表现尤为突出,在英语方面的表现也很强劲。 ...

April 1, 2026 · 4 min · Agent Native

性能实测:多台 Mac 本地运行 80B 大模型

作者:Manjunath Janardhan 译者:Carl Cui 通常,本地部署 LLM 时需要给 LLM 找一个配置足够好的机器,那么有没有办法反其道而行之?如果你有一堆闲置的设备,能不能把它们的 CPU, GPU 和内存资源整合起来,运行一个它们单独无法处理的模型?作者 Manjunath Janardhan 借助开源工具 exo 在自己的两台 Mac 设备上把 Qwen3-Next-80B 运行了起来,可以达到每秒 70 ~ 80 个 token。 Mac Mini 的设置和负载快照,图片由 Manjunath Janardhan 制作 1. exo 是什么 exo 是一个由 Exo Labs 维护的开源项目,一句话概括:它将你所有的设备连接成个人 AI 集群,让你能够运行任何单台机器都无法容纳的模型。exo 的主要功能如下: 自动设备发现 - 运行 exo 的设备可以在网络上自动相互发现,无需手动配置 支持基于 Thunderbolt 的 RDMA - 在支持的硬件(M4 Pro/Max)上,能够在设备之间实现 99%的延迟降低 拓扑感知自动并行 - exo 根据可用 RAM、CPU、GPU 资源以及节点之间的网络延迟,确定将模型在多个设备之间分割的最佳方式 Tensor 并行 - exo 支持模型分片,在 2 台设备上可加速 1.8 倍,在 4 台设备上可加速 3.2 倍 MLX 支持 - exo 使用 MLX 作为推理后端,并使用 MLX 分布式 进行分布式通信 多 API 兼容性 - 兼容 OpenAI Chat Completions API、Claude Messages API、OpenAI Responses API 和 Ollama API,现有的工具和客户端可以无缝迁移 自定义模型支持 - 从 HuggingFace hub 加载自定义模型,以扩展可用模型范围 支持 54+ 个模型 - 从小型 Llama 模型到 671B DeepSeek 变体 2. Mac Mini M4 + MacBook Pro M4 Max 通过 exo,我配对了两台机器: ...

March 30, 2026 · 3 min · Manjunath Janardhan

本地 LLM 部署:硬件配置指南

作者:MayhemCode 译者:Carl Cui 今天这篇文章是搬运过来的,发表于 2025 年 12 月 17 日,那时候由 AI 引发的硬件通胀已经持续了几个月。到现在,2026 年 3 月底,消费级硬件的价格不仅没有回落,反而在全面涨价的基础上看不到回调的希望。虽然内存价格出现了小幅回调,但是相比 2025 年 9 月,现在的内存价格依然处于历史极高水平:2025 年 9 月份,一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元,现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆,进一步推动了本地部署 LLM 的需求,对于“不想交数据、不想交钱,或者不想等网络”的那群人,本地部署 LLM 永远是一个绕不开的话题。 1. 为什么自托管 AI 是未来 完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的隐私保护、零持续成本,和对模型的完全控制。 现在开源的大语言模型,特别是 Llama 3、DeepSeek R1 和 Mistral,已经足够处理真实工作。问题在于,你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选择高性价比硬件,不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。 译者注:2025 年 12 月到现在,硬件和 LLM 已经出现了很多变化,文章部分内容稍显过时,推荐的配置也是基于当时国外的行情,不过对 LLM 硬件的讲解比较全面,值得一读。 ...

March 29, 2026 · 5 min · MayhemCode