本地 LLM 部署：硬件配置指南

作者：MayhemCode
译者：Carl Cui

今天这篇文章是搬运过来的，发表于 2025 年 12 月 17 日，那时候由 AI 引发的硬件通胀已经持续了几个月。到现在，2026 年 3 月底，消费级硬件的价格不仅没有回落，反而在全面涨价的基础上看不到回调的希望。虽然最近内存价格出现了小幅回调，但是相比 2025 年 9 月，现在的内存价格依然处于历史极高水平：2025 年 9 月份，一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元，现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆，进一步推动了本地部署 LLM 的需求，对于“不想交数据、不想交钱，或者不想等网络”的那群人，本地部署 LLM 永远是一个绕不开的话题。

1. 为什么自托管 AI 是未来

完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的保护隐私、零持续成本，还有对模型的完全控制。

现在开源的大语言模型，特别是 Llama 3、DeepSeek R1 和 Mistral，已经足够处理真实工作。问题在于，你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选最具性价比的硬件，不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。

译者注：2025 年 12 月到现在，硬件和 LLM 已经出现了很多变化，文章中的部分内容稍显过时，推荐配置也是当时国外的行情，不过拿来了解 LLM 硬件配置还是值得一读的。

转向本地部署 LLM 不仅仅能节省订阅成本，还能改善数据隐私：执行任务的时候不再需要把数据发送到其他服务器上。另外，本地模型可以做到即时响应，没有延迟，也不会出现高峰期需要排队的情况。运行什么模型、哪个版本完全由自己决定。对于开发者、DevOps 工程师和 AI 爱好者，这些好处值得你在硬件上花钱。

译者注：本文中 LLM 与 模型 表示相同的语义，有的地方是 LLM，有的地方是模型，仅出于个人的表述习惯。

2. 与 AI 相关的硬件主要有哪些

2.1 最重要的因素

在本地部署 LLM 依赖于一些特定的部件，其中最有决定性的是 GPU 的显存 VRAM。

译者注：本文中 显存 和 VRAM 表示相同的语义。

每个 LLM 都保存为一个大文件，比如 Llama-3-7B 模型，在全精度下，大约是 3.5 GB。LLM 必须完全加载到 VRAM 中才能进行合理快速的推理。如果显存不够，LLM 的推理工作需要回退到 CPU 和系统内存，这比在 GPU 上要慢数百倍。这一点也是文章中每个建议配置的出发点。

2.2 GPU（显卡）

GPU 是 LLM 推理的大脑，一切主要取决于显存。毫不夸张的说，显存大约占到 LLM 推理性能的 9 成。

为什么主要取决于显存：当你加载 LLM 时，整个参数文件需要放在 GPU 显存中。对于一个 7B 模型：全 16 位精度时，大约需要 14GB；在 8-bit 量化下需要 7GB；在 4-bit 量化时，大约 3.5GB。如果你的显存容量不足，模型会分散在 GPU 显存和系统内存之间，然后每次参数查询都需要往返于较慢的系统内存，假设本来每秒可以处理 10 ~ 15 个 token，可能就降到了 1 ~ 3 个。不单单是速度变慢了，实际情形中甚至都没办法用。

模型的量化非常重要：现代 LLMs 几乎总是以量化形式部署（降低了精度）。4-bit 模型可以将 VRAM 占用减少到四分之一，同时相比全精度版本 LLM 还能保持不错的质量。8-bit 模型以一倍的 VARM 换取更少的质量损失。对于消费级硬件，4-bit 量化是任何大于 7B 模型的首选。

2.3 根据 LLM 大小和量化级别估算 VRAM 需求

4-bit 量化的 7B 模型大约需要 3.5 ~ 4GB 的 VRAM；在 8-bit 量化下，需要约 7GB；在全 16 位精度下，你需要 14GB（对很多消费级 GPU 来说有点超标）。对于日常对话、推理和编码等任务，预算有限的情况下可以考虑 7B 模型。

更大一些的 13B 参数模型，4-bit 量化大约需要 7GB 的 VRAM，8-bit 需要 13GB，全精度大约 26GB。16GB 版本的 RTX-4060-Ti 就可以轻松运行 13B 模型，也有余地保存上下文和提示缓存。实测表明，13B 模型在中等程度任务上表现良好：文档摘要、更细致的推理和具有上下文感知的代码生成。

30B 参数模型更大一些：4-bit 量化时大约 16GB，8-bit 量化时 30GB，全精度情况下大约 60GB。只有高端消费级 GPU 如 RTX-4090 才能处理这个级别。不过,即便是高端消费级 GPU，仍然会受限于 VRAM 容量的限制。70B 参数模型是对消费级硬件是一个真正的考验：在 4-bit 量化后，70B 模型消耗 35 ~ 40GB 的 VRAM。RTX-4090 最多 24GB，这意味着没有办法将 70B 模型完全加载到 GPU 显存，除非采取极端措施：CPU offloading、跨多个 GPU 对模型分片，或者采用低于 4-bit 的量化（这会显著降低质量）。

DeepSeek-R1 671B 参数模型则处在一个完全不同的级别：全精度需要 1.3TB 的 VRAM。即使采用 4-bit 量化，它也需要 335GB。通过极其激进的量化将其压缩到 1.58-bit，可以将其压缩到大约 131GB，但代价是明显的质量下降（准确率损失 15 ~ 25%）。这是数据中心级别的规模，如果不做极端的妥协，对于消费级硬件来说是不可行的。

2.4 2025 年的实用 GPU 选择

RTX-3060-12GB 仍然是最实惠的入门产品，二手大约 200 ~ 250 美元。它处理完整的 7B 模型和重度量化的 13B 变体。上限很明显：12GB 限制你只能使用小模型或极端量化。如果你想尝试 7B 之上的模型，这张卡就不太够用了。

从技术角度来说，RTX-3060 是 2020 年的产品，在 GPU 里中已经算是比较老旧的了，但对于小模型推理来说，它表现不错。运行 Llama3-8B 模型（~~原文中是 Llama3-7B~~）时，你可以看到每秒 7 ~ 10 个 token 的推理速度，这对于 AI 爱好者和本地开发者来说完全够用。

RTX-4060-Ti 16GB 版本（全新售价 499 美元，2025 年 7 月开始铺货）发烧友和硬核爱好者的优选。16GB 可以轻松运行 13B 模型，还有空间用于上下文和提示缓存。它的单 GPU 核心性能比3060 快 1.7 倍，功耗仅为 165W，非常适合 7 * 24 小时持续运行。如果有的话，可以花 250 ~ 300 美元淘个二手的。在 Llama-3-13B模型上，它的性能大约能达到每秒 12 ~ 15 个 token，比入门级更快，并且足够流畅，可以用于实际工作。

RTX-4090-24GB 是发烧友级别的配置，全新价格在 1200 ~ 1500 美元之间。它可以在 4-bit 量化下运行 Llama-3-70B 模型，速度可接受（大约每秒 7 ~ 9 个 token，受限于 24GB 显存的限制，需要模型管理）。如果你想要同时运行多个模型或处理更大的上下文窗口，这是最低要求。对于重要的工作，24GB 显存没得商量。实际测试下来，RTX-4090 运行 13B 模型时每秒可以处理 20 ~ 30 个 token，可以吃并发任务或更大的 batch size。

AMD 替代品，如 RX-7800-XT-16GB 和 RX-6800-XT-16GB 以更低成本提供相同的显存容量，但 ROCm（AMD 的 CUDA 等效物）支持仍然不如 NVIDIA 的生态系统成熟。

驱动生态系统正在改进，像 KoboldCpp 和 MLC-LLM 这样的工具现在支持 AMD，但 CUDA 的主导地位意味着 NVIDIA 显卡享有更广泛软件支持和更快的驱动更新。尽管 AMD 对于那些愿意解决 ROCm 怪问题和可能祭出一些尖端优化的人来说表现优异，但是对于第一次配置，NVIDIA 仍然是更安全的选择。

2.5 RAM（系统内存）

系统 RAM 在 GPU VRAM 填满时充当溢出缓存。16GB 确实是最低 RAM 要求；它要处理操作系统、系统开销和基本的上下文。然而，一旦你填满显存并且系统内存成为溢出缓冲区，推理速度就会急剧退化。卸载到系统内存的模型，运行速度大约只有在 GPU 时十分之一。性能损失并非微不足道，它是灾难性的：你将看到每秒只有 1 ~ 3 个 token，而不是 10 ~ 15 个。对于任何重要的 LLM 工作，你不能依赖系统内存作为模型缓存。

译者注：本文中 内存 和 RAM 表示相同的语义。

实际建议：任何认真的配置，最低要求是 32GB 系统内存。在 Proxmox 环境中，你需要在 LLM 推理引擎旁边运行虚拟机，这时 32GB 系统内存变得更加关键。多个虚拟机需要内存，你的 LLM 推理服务需要内存，操作系统需要内存。如果在这里节省内存，你会感觉每一 GB 都得精打细算着用。

64GB 可以将您的配置转变为一个靠谱的多模型平台。两个虚拟机，每个限制在 32GB，加上主机系统的余量，再加上基于内存的缓存来加速你的 LLM，你仍然可以在没有严重资源争用的情况下运行多个服务。

对于使用 CPU offloading 进行 70B 模型推理的情况，64 ~ 128GB 是标准配置。一旦开始运行生产负载或并行测试多个模型，额外的 RAM 投资就能迅速获得回报。

2.6 CPU（处理器）和存储（SSD）

对于 LLM 推理，你的 CPU 出人意料地并不重要。GPU 几乎承担了所有重活。只要 VRAM 容量匹配，Intel-Core-i7 和像 N100 这样的低功耗处理器提供的推理速度基本上是一样的。CPU 重要的地方在于：分词速度（将文本转换为模型可读的标记）和上下文长度。更快的核心能提供些许帮助，但是 CPU 不算瓶颈，不值得过度投资。

即使是较旧的 Ryzen-5-5600X 或者 i5–12400 也足够了。GPU 加速完全压倒了 CPU 性能。除非你同时也在使用那台服务器处理其他工作负载，否则避免将你的 LLM 配置与高端 CPU 搭配。3.5GHz 或更好的四核处理器足够完美地处理分词。你的钱应该投入到 GPU 和 RAM 上，而不是 CPU。

存储比 CPU 更重要。LLM 模型文件很大。一个以 4-bit 形式存在的 70B 模型，是 35 ~ 40GB。多个模型很容易超过 200GB。NVMe SSD 加载这些文件比 SATA SSD 快 5 ～ 6 倍。差异非常明显：NVMe 可以做到 10 ~ 20 微秒延迟和大约 3500 MB/s 的读取速度。

SATA 最高延迟约为 100us，读取速度大约 600MB/s。对于模型加载，NVMe 减少了 30% 到 50% 的初始化时间。如果你在多个模型之间切换或频繁重启服务，NVMe SSD 可以显著改善 SATA 硬盘的糟糕体验。

存储建议：预算够的话，至少要配一个 512GB 的 NVMe 固态硬盘。如果打算用 Proxmox 做实际的多模型场景，那 1TB 的 NVMe 才是比较实际的。具体用哪个型号关系不大，容量更重要。西部数据黑盘 SN850X 和三星 990 Pro 都是比较可靠的选择。如果可以的话，尽量避免 QLC 闪存（每个存储单元存 4 个比特），因为 TLC 闪存（每个存储单元存 3 个比特）在处理 LLM 工作时，能提供更好的持续读写性能，因为你需要反复读取很大的模型文件。

3. 建议配置：从入门到发烧

3.1 Ollama 入门套件（初级：300 ~ 400 美元）

这个配置证明你可以在极低的预算下尝试 LLMs。目标显存 12GB：

二手 NVIDIA RTX-3060-12GB GPU，200 ~ 250 美元
B450/B550 AM4 芯片组主板
二手 AMD Ryzen-5-5600X CPU，100 ~ 120 美元，或同等产品
32GB DDR4 RAM，80 ~ 100 美元
512GB NVMe SSD，50 ~ 70 美元
650W 80+ Bronze 电源，60 ~ 80 美元

总成本：新的大约 550 ~ 700美元，如果购买二手更便宜。

适合：业余使用，学习 Ollama，测试 7B 模型，在不进行大量投资的情况下本地玩玩 AI。

性能预期：运行 Llama-3-8B 时，每秒大概处理 7 ~ 10 个 token。量化 13B 模型是可能的，但会比较卡顿。只支持单个模型加载和推理，不支持多模型并发。这只是一个学习用的工具，不是生产系统。

为什么这样配置：RTX-3060-12GB 按 GPU 标准来说已经非常老旧（2020 年发布），但对于小模型来说仍然非常出色。系统内存足以应对单模型工作负载。没有花哨的功能，没有 Proxmox，没有虚拟机：只是一个直接安装的 Ubuntu Server，由 Ollama 掌控全局。你可以初步了解量化技术，并体验不同大小的模型表现。体验上一个月或两个月，你就会明白自己是否需要花钱搞一个更大的系统。

3.2 DevOps 家庭实验室（中档：800 ~ 1200 美元）

可以运行 Proxmox：16GB GPU 加上最少 32GB 系统内存。

新 NVIDIA RTX-4060-Ti 16GB 版本，499 美元
- 或二手 RTX-3090，700 ~ 800 美元（二手市场）
Supermicro X12 系列主板
- 或带有 VT-d/IOMMU 支持用于 GPU 直通的 ASUS ProArt B550
二手 AMD Ryzen-7-5800X3D
- 或 Intel i7–12700K CPU，200 ~ 250 美元
64GB DDR5 RAM，200 ~ 250 美元
1TB NVMe SSD，80 ~ 120 美元
850W 80+ Gold 电源，100 ~ 150 美元。

总成本：新的大约 1300 ~ 1800 美元；购买中代二手 GPU 则约 900 ~ 1200 美元。

适合：在 Proxmox 上运行多个虚拟机，同时托管 LLM 服务和其他工作负载，测试基础设施，与 CI/CD 流水线集成。

性能预期：在 4-bit 精度下，Llama-3-13B 每秒处理 12 到 15 个 token。通过虚拟机实现资源隔离，可以同时运行多个 7B 模型。对 30B 模型也能进行量化处理，运行流畅。实际测试表明，这一级别可以同时承载开发环境、监控堆栈和推理服务，而且不会出现令人头疼的资源争用问题。

为什么这样配置：64GB 系统内存将此平台转变为多负载工作平台。Proxmox GPU 直通变得真正实用。你可以在一个虚拟机中运行 13B 模型，在另一个虚拟机中运行开发环境，同时仍能保持系统稳定性。RTX-4060-Ti 的能效（165W）意味着即使 7 * 24 小时运行，电费也合理。这就是你停止捣鼓玩具并开始搭建实际生产工具的配置。你开始认真学习 Proxmox，理解资源分配，并体验生产级虚拟机隔离的工作方式。

3.3 AI 训练动力站（专家：2500+ 美元）

这是为了实际有产出的工作：微调、大模型、生产推理。24GB+ 显存，128GB+ 系统内存，考虑多 GPU。

NVIDIA-RTX-4090 24GB，1200 ~ 1500 美元
- 或多 GPU 设置，双 RTX-4090 或专业卡如 RTX-6000
ASUS Pro WS Z790-SAGE UEFI 主板，具有多 PCIe 插槽支持用于多 GPU 场景
AMD Threadripper 5990WX
- 或 Intel Xeon W5–3435X，500 ~ 1000 美元
128 到 256GB DDR5 RAM，600 ~ 1200 美元
4TB NVMe SSD（多个驱动器，RAID 0 用于吞吐量），300 ~ 500 美元
1600W 80+ Platinum 电源，300 ~ 500 美元

总成本：高端单 GPU 4000 ~ 7000 美元；多 GPU 配置 8000 ~ 15000 美元以上。

适合：生产级 LLM 服务，私有模型微调，研究，高吞吐量推理，多模型并发服务。

性能预期：在 Llama-3-70B 模型上，4-bit 精度下每秒可达 20 至 30 个 token。通过极端量化（1.58–2 位）可实现 DeepSeek-R1-671B 推理，但质量会明显下降。可在私有数据集上微调 13B ~ 70B 模型。通过多 GPU 并行和模型分片策略，可同时推理多个 70B 等价模型。

为什么这样配置：RTX-4090 的 24GB 显存，可轻松容纳 4-bit 量化的 70B 模型。128GB 系统内存支持模型并行化策略：在多个 GPU 之间分片，冗余加载以实现快速模型切换。高核数 CPU（比如Threadripper 的 32 核以上）能加速批量推理的预处理和分词。这套配置，在消费级硬件上就接近数据中心级别的性能了。

此时你不再是在实验，而是正在运行一个推理服务，可以为一个小团队提供服务或成为 API 接入点。

4. 需要用到的软件

运行这些配置中的任何一个，都需要特定的软件。

Proxmox VE 成为你的虚拟化 hypervisor，特别是在中端和专家配置中。它管理虚拟机资源的分配，启用 GPU 透传（在虚拟机中支持原生的 NVIDIA 驱动），并隔离工作负载。裸金属 hypervisors 在 GPU 透传方面需要大量的故障排除；Proxmox 处理得优雅。它是免费的、开源的，并在生产环境中被广泛采用。
Ubuntu Server 是你 Proxmox 虚拟机中的操作系统。它提供最佳的 NVIDIA 驱动程序兼容性、稳定的软件包仓库，以及广泛的 Ollama 支持。CentOS/RHEL 也可以工作，但为业余爱好者引入了不必要的麻烦。Windows 虚拟机也可以工作，但会增加开销和许可成本，除非你有特定的原因，否则跳过它。截至 2025 年，Ubuntu Server 22.04 LTS 是标准版本，提供五年的安全更新。
Ollama 简化了所有事情。它是一个单命令工具，通过 REST API 下载、量化和提供大型语言模型。你不再需要与 llama.cpp、GPTQ 工具或量化框架“纠缠”，你只需运行 ollama pull llama3:13b-q4_K_M，几秒钟后，模型就在 localhost:11434 上可用。Ollama 隐藏了基础设施的复杂性。在幕后，它正在优化 GPU offloading、管理上下文窗口和处理模型加载，你永远不需要看到这种复杂性。它是原始硬件加速和用户友好推理之间的桥梁。
Open WebUI 用类似 ChatGPT 的界面包装了 Ollama。如果你不是以编程方式使用 REST API，Open WebUI 为你提供了一个基于 Web 界面，用于聊天、图像理解和模型切换。它是可选的，但它大大提高了你的网络上的非技术用户的可用性，或在测试不同模型而不进行 API 调用时。
CUDA Toolkit 和 cuDNN 必须在主 Proxmox 系统上安装（版本匹配非常重要）。Proxmox 处理 GPU 驱动程序的安装，但 CUDA 库启用了实际的 GPU 计算。对于 NVIDIA RTX 卡，截至 2025 年，CUDA 12.1+ 是标准配置。较旧的 GPU（RTX 2000/3000 系列）可能需要 CUDA 11.8。版本不匹配是“GPU 未检测到”错误的一个常见来源，在安装前先验证兼容性。特定的版本很重要，错误的组合会浪费数小时进行故障排除。

5. 结论：显存是配置关键

显存（VRAM）是本地 LLM 部署的决定性限制因素。其他所有东西，CPU、内存、存储、软件，都是为了优化显存。12GB 显存的 GPU 将限制你使用 7B 模型以及高度量化的 13B 变体。16GB显存的 GPU 可以流畅运行 13B ~ 30B 范围的模型。24GB 显存的 GPU 是 70B 模型的入门级。这并非随意而为，而是神经网络工作的物理学原理。内存访问模式对推理延迟的影响远远大于原始计算能力。

你下一步要做的是：根据哪些模型适合你，来确定显存大小。如果你想在本地运行 Llama-3-70B，那 24GB 显存是少不了的。如果你觉得 7B 推理模型的性能就够用了，那买个预算级的 RTX-3060，总共花不到 700 美元就能搞定。如果你想要灵活性和未来扩展，又不想超出，那 2025 年显存性价比最高的就是 RTX-4060-Ti 16GB 版本。

硬件一锁定，Proxmox 的设置就开始了。GPU 透传是裸硬件和生产化基础设施之间的桥梁。这就是这个系列第二天要接手的地方——GPU 透传配置教程，是实现真正本地 AI 独立性的最后一块拼图。

你会从“我有带 GPU 的硬件”转变为“我有一个在隔离虚拟机中运行多个模型的生产级 LLM 服务器”。

原文链接

The Complete Guide to Local LLM Hardware: Specs for Running AI Models on Consumer Hardware

1. 为什么自托管 AI 是未来#

2. 与 AI 相关的硬件主要有哪些#

2.1 最重要的因素#

2.2 GPU（显卡）#

2.3 根据 LLM 大小和量化级别估算 VRAM 需求#

2.4 2025 年的实用 GPU 选择#

2.5 RAM（系统内存）#

2.6 CPU（处理器）和存储（SSD）#

3. 建议配置：从入门到发烧#

3.1 Ollama 入门套件（初级：300 ~ 400 美元）#

3.2 DevOps 家庭实验室（中档：800 ~ 1200 美元）#

3.3 AI 训练动力站（专家：2500+ 美元）#

4. 需要用到的软件#

5. 结论：显存是配置关键#

原文链接#