Apple Silicon 本地 AI 部署：2026 年技术进展与实践建议

翻译：Transwan
校对：Carl Cui

Gemini Generated Image x91hw5x91hw5x91h

在 Mac 上运行本地 LLM，近期有一些新的变化：

其中一项重要的变化：2026 年 3 月 30 日发布的 Ollama 0.19 版本，将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B，基准测试显示，预填充（prefill）速度从 1,154 token/sec 提升到 1,810 token/sec（+57%）；解码（decode）速度从 58 token/sec 提升到 112 token/sec（+93%）。这并非一次不起眼的优化，而是在最常用的本地 LLM 上实现了接近 2 倍的提升。

第二：Apple Foundation Models 框架于 2025 年随 macOS 26 / iOS 26 发布，在 2026 年第一季度和第二季度逐步成熟，成为 Swift 应用可以真正依赖的框架。通过 @Generable 宏实现的引导式生成（Guided generation）可产生类型安全的结构化输出，它内置工具调用（Tool calling），支持多轮会话。这个模型拥有 3B 参数，针对大多数应用实际执行的任务（例如摘要、分类、结构化提取）进行了优化。对了，它是完全免费的。

第三：macMLX 于 4 月 18 日发布，它是一个原生的 SwiftUI LLM 运行时，提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。

第四：WhisperKit（Argmax）和 FluidAudio（Parakeet）现在通过 CoreML 运行在神经引擎上，与基于 MLX 的转录相比，速度提升非常显著。FluidAudio 使用大模型在真实音频上平均仅需 0.19 秒，而 mlx-whisper 在相同任务上平均为 1.02 秒。通过 WhisperKit 运行的 Whisper-large-v3 turbo 可以在大约 90 秒内转录一小时音频。

结果就是：六个月前你用 Deepgram + Anthropic + 向量数据库构建的技术栈，现在可以完全在本地机器上运行，速度更快、免费，并且拥有很高的数据安全性。

1. 相关硬件建议

大多数人高估了自己的需求，也低估了一些现有硬件的能力。这里按芯片和内存给出一些建议：

M1 / M1 Pro，8–16GB：使用 Apple Foundation Models 可以满足一些使用场景，这是针对苹果硬件设备优化的 3B 参数模型。对于更大的任务，可以运行 4-bit 量化的 7–8B 模型，但速度会较慢。通过 WhisperKit 运行 Whisper-base 或 small 可以实现本地语音识别。

M2 / M2 Pro，16–32GB：可以运行 Q4 量化的 Qwen-3-8B（大约 5GB 驻留内存）；使用 Apple Foundation Models 可以实现快速的结构化输出；可以通过 WhisperKit large-v3 turbo 进行本地语音识别。这个配置可以支持一些实用的混合技术栈。

M3 Pro / M3 Max，18–128GB：个人开发者的一个平衡选项：日常通用工作运行 Qwen-3-8B，需要更强推理能力时运行 Phi-4-14B（Q4，约 9GB 统一内存），结构化输出可以使用 Apple Foundation Models。可以同时运行多个模型。

M4 Pro / M4 Max，24–128GB：可以比较舒服地运行 30B 级别的模型。可以运行 Q4 量化的 Llama-4-Scout（较小版本）。如果需要大量代码相关的工作，可以运行 DeepSeek-V3-Distill-32B。30B 模型的解码速度可以达到 60–90 token/sec。

M5 / M5 Max，32–128GB：可以运行 70B 级别的模型。Qwen3.5–35B-A3B 是当前 MLX 的展示模型，Ollama 更新到 0.19 后，解码速度可以达到 112 token/sec。M5 的 GPU 神经加速器专门针对 LLM 推理进行了优化。如果你拥有 128GB 的 M5 Max，可以在本地运行 70B 模型，可以媲美云端 LLM。

需要特别指出的是：从 M1 开始，每代芯片都能运行一些实际有用的模型，关键在于硬件能地跑多大的模型（需要为操作系统留出一定余量）。

2. 值得了解的四类运行时

下面四个运行时，每个都有的适用场景，值得去了解。

Apple Foundation Models（Swift 框架，系统集成）

适用场景：如果你正在构建原生 macOS 或 iOS 应用，且工作负载契合 3B 模型（摘要、分类、结构化提取、对话任务）。@Generable 宏让结构化输出变得轻而易举，并且内置工具调用。每台支持 Apple Intelligence 的设备都已预装该模型，省去了复杂的安装配置过程。

不适用的场景：你需要比 3B 模型更强的推理能力，或者你需要一个能在 Python 或其他非 Swift 环境中运行的运行时。

Ollama 0.19+（MLX 后端）（HTTP API，命令行）

适用场景：你想通过熟悉的 REST API，以简单的方式部署 Ollama 库中 1000+ 模型中的任意一个。MLX 后端现已达到或超越大多数其他 Apple Silicon 方案的性能。模型支持广泛（Llama、Qwen、Mistral、Phi、Gemma、DeepSeek、Mixtral 等）。使用 ollama pull 即可轻松切换模型。

不适用场景：你对性能有要求，需要比较低的 TTFT（time to first token），或者你想在不运行守护进程的情况下将推理嵌入 Swift 应用内部。

MLX 直连（Python 和 Swift 绑定）

适用场景：追求极致速度，MLX 在 Apple Silicon 上的性能比 llama.cpp 高出 20–30%。MLX-LM Python 包可让你直接访问 MLX。Swift bindings 可在应用中原生运行，macMLX 为其包装了 UI 和兼容 OpenAI 的 API。

不适用场景：易用性比最后 20% 的性能提升更重要。

LM Studio（GUI 应用，支持 MLX）

适用场景：你想要一款桌面应用来管理模型、运行对话，并在无需命令行操作的情况下提供 API 服务，方便非开发者使用本地 AI。支持选择 MLX 运行时。

不适用场景：你需要在应用内部部署，或者需要可编程的工作流。

值得一提的是 Rapid-MLX，它是一款开源的 MLX 运行时，声称相比 Ollama 有 4.2 倍加速，缓存命中时 TTFT 为 0.08 秒，支持工具调用和 17 种工具解析器。Rapid-MLX 于 2026 年 4 月问世，是 OpenAI 的即插即用替代品，值得关注。

3. 模型推荐

模型格局变化很快，但截至 2026 年 5 月，以下是一些最佳选择：

避免的模型：Llama 3.x 基础模型（已被取代）、旧版 Mistral 7B（同尺寸下 Qwen-3-8B 表现更佳）、缺乏积极维护的模型。

4. 语音转文字相关技术栈

如果你需要转录功能，标准答案不再是“通过 Python 运行 Whisper”。

WhisperKit（Argmax）是生产环境的首选。Whisper 变体编译到了 CoreML，在 Neural Engine 上运行，支持流式传输以实现实时转录。通过 WhisperKit 运行 Whisper-large-v3 turbo，可在约 90 秒内转录一小时的音频，并且运行时，不影响你继续使用电脑。

FluidAudio 是一匹黑马。NVIDIA 的 Parakeet 模型编译到了 CoreML。大模型平均每次推理仅需 0.19 秒，在大多数工作负载下比 WhisperKit 更快。它是开源的，提供 Swift SDK。如果 Parakeet 的准确率能满足你的需求，那么 FluidAudio 值得使用（它在英语上很强，但对其他语言的支持较轻）。

mlx-whisper 是三者中最慢的，但在 Python 流水线中运行良好。如果你已经在使用 Python 工作流，可用它进行批量转录。

whisper.cpp 仍然可用，但已不再是 Apple Silicon 上的默认最佳选项。基于 WhisperKit / FluidAudio 的 Neural Engine 要更快一些。

注意：任何对延迟敏感的工作负载都不宜使用云端转录 API。即使是 Deepgram，在较新的 Mac 上处理短音频时也没有 WhisperKit 块。

5. 三层混合式架构

如果你正在构建一款产品，且在其工作负载中有相当比例依赖于 AI，那么截至 2026 年 5 月，正确架构选择是一个三层混合架构：

┌────────────────────────────────────────────────────┐
│ Tier 1: Always-on, low-latency                     │
│ → Apple Foundation Models (3B, native, free)       │
│ Use for: continuous classification, routing,       │
│ structured field extraction, simple summarization  │
├────────────────────────────────────────────────────┤
│ Tier 2: Heavy lift on demand                       │
│ → Qwen 3 8B via Ollama-MLX or MLX direct           │
│ Use for: detailed analysis, multi-step reasoning,  │
│ longer-form generation                             │
├────────────────────────────────────────────────────┤
│ Tier 3: Cloud burst (optional)                     │
│ → Claude Opus 4.7 or GPT-5.5 via API               │
│ Use for: highest-stakes reasoning, only when user  │
│ explicitly opts in                                 │
└────────────────────────────────────────────────────┘
For audio:
WhisperKit (real-time) or FluidAudio (faster batch)

该模式有三个关键特性：

离线可用 - 第 1 层和第 2 层无需网络。无论您在飞机上、医院里、法庭中，还是 AI 提供商宕机时，应用都不会中断。

默认尊重隐私 - 第 3 层采用自愿开启和明确授权机制，默认的用户体验不会将任何用户数据发送到外部。

成本稳定 - 第 1 层和第 2 层在运行时免费，第 3 层是唯一产生费用的部分，费用可以由用户是否主动选择而限定。

这是我今天为任何 Apple Silicon 上的新 AI 产品会采用的架构。对于将现有云优先产品改造为混合模式，这也是合适的方案。

6. 要避免的做法

2026 年 5 月仍有三种做法，应当避免：

一切通过 Python 和 mlx-lm 运行 - Python 用于原型开发尚可，但是在生产环境中，Swift 或原生运行时能带来更好的系统集成、更低的内存开销，并能调用 Neural Engine 的路径。

为了适配更小的硬件而激进量化 - Q2 或 Q3 量化虽能节省内存，但在不同任务上的质量下降并不均匀。如果您的模型在 Q4 下无法运行，应降级到更小的模型，而不是继续加大量化力度。在大多数工作负载下，Q4 的 8B 模型优于 Q2 的 14B 模型。

将本地模型等同于云端质量 - 无论是 3B Foundation Models、8B Qwen，还是 35B Qwen3.5，它们都不是 Claude-Opus-4.7。它们只适用于各自适合的工作负载。采用混合架构，根据任务复杂度进行路由，而不是一种模型用到底。

7. 从零开始时，推荐的技术栈

如果在 M3 Pro 或更新的 Mac 上从头开始，我会安装以下栈：

Ollama 0.19+（brew install ollama），拉取 Qwen-3-8B（ollama pull qwen3:8b）和 Gemma-4-E2B（ollama pull gemma4:e2b） Apple Foundation Models 若您运行的是 macOS 26，系统已内置，无需安装，直接使用 Swift 框架即可 WhisperKit（brew install whisperkit-cli 或通过 Swift Package Manager 安装），拉取 large-v3-turbo 模型 macMLX - 用于带 UI 的临时模型探索 Rapid-MLX（可选） - 如果您想要实验性最快运行时并需要支持完整工具调用，可以考虑 Rapid-MLX

开发时，可以将 IDE 配置为指向本地 Ollama 端点（http://localhost:11434/v1），兼容任何调用 OpenAI 的代码。大多数代理框架（Codex、Cursor、Aider）只需设置一个环境变量即可完成切换。

模型文件需要大约 15GB 磁盘占用，模型加载后大约需要 6GB 常驻内存，每次 API 调用本为零。

8. 写在最后

Apple Silicon 上的本地 AI 不再仅仅是隐私或成本的叙事，它还关系到应用的部署。在应用中搭载本地推理层，具备云端产品无法比拟的特性：离线运行、可预测的延迟、零单次调用成本、真正的数据驻留，以及面对云服务厂商宕机时的韧性。

对于消费级领域，这种差异化正变得有意义；对于受监管行业（医疗、法律、金融），它正成为必需项；对于开发者，它正成为预期中的可用工具。

工具链在过去 5 周内趋于成熟，硬件则在一年前就已就绪。问题不再是否要在本地运行，而是您是否为自己的产品和受众设计了正确的混合架构。

原文链接

The Local AI Stack for Apple Silicon, Now With Superpowers.

1. 相关硬件建议#

2. 值得了解的四类运行时#

3. 模型推荐#

4. 语音转文字相关技术栈#

5. 三层混合式架构#

6. 要避免的做法#

7. 从零开始时，推荐的技术栈#

8. 写在最后#

原文链接#