翻译:Transwan

校对:Carl Cui

Gemini Generated Image x91hw5x91hw5x91h

在 Mac 上运行本地 LLM,近期有一些新的变化:

其中一项重要的变化:2026 年 3 月 30 日发布的 Ollama 0.19 版本,将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B,基准测试显示,预填充(prefill)速度从 1,154 token/sec 提升到 1,810 token/sec(+57%);解码(decode)速度从 58 token/sec 提升到 112 token/sec(+93%)。这并非一次不起眼的优化,而是在最常用的本地 LLM 上实现了接近 2 倍的提升。

第二:Apple Foundation Models 框架于 2025 年随 macOS 26 / iOS 26 发布,在 2026 年第一季度和第二季度逐步成熟,成为 Swift 应用可以真正依赖的框架。通过 @Generable 宏实现的引导式生成(Guided generation)可产生类型安全的结构化输出,它内置工具调用(Tool calling),支持多轮会话。这个模型拥有 3B 参数,针对大多数应用实际执行的任务(例如摘要、分类、结构化提取)进行了优化。对了,它是完全免费的。

第三:macMLX 于 4 月 18 日发布,它是一个原生的 SwiftUI LLM 运行时,提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。

第四:WhisperKit(Argmax)和 FluidAudio(Parakeet)现在通过 CoreML 运行在神经引擎上,与基于 MLX 的转录相比,速度提升非常显著。FluidAudio 使用大模型在真实音频上平均仅需 0.19 秒,而 mlx-whisper 在相同任务上平均为 1.02 秒。通过 WhisperKit 运行的 Whisper-large-v3 turbo 可以在大约 90 秒内转录一小时音频。

结果就是:六个月前你用 Deepgram + Anthropic + 向量数据库构建的技术栈,现在可以完全在本地机器上运行,速度更快、免费,并且拥有很高的数据安全性。

1. 相关硬件建议

大多数人高估了自己的需求,也低估了一些现有硬件的能力。这里按芯片和内存给出一些建议:

M1 / M1 Pro,8–16GB:使用 Apple Foundation Models 可以满足一些使用场景,这是针对苹果硬件设备优化的 3B 参数模型。对于更大的任务,可以运行 4-bit 量化的 7–8B 模型,但速度会较慢。通过 WhisperKit 运行 Whisper-base 或 small 可以实现本地语音识别。

M2 / M2 Pro,16–32GB:可以运行 Q4 量化的 Qwen-3-8B(大约 5GB 驻留内存);使用 Apple Foundation Models 可以实现快速的结构化输出;可以通过 WhisperKit large-v3 turbo 进行本地语音识别。这个配置可以支持一些实用的混合技术栈。

M3 Pro / M3 Max,18–128GB:个人开发者的一个平衡选项:日常通用工作运行 Qwen-3-8B,需要更强推理能力时运行 Phi-4-14B(Q4,约 9GB 统一内存),结构化输出可以使用 Apple Foundation Models。可以同时运行多个模型。

M4 Pro / M4 Max,24–128GB:可以比较舒服地运行 30B 级别的模型。可以运行 Q4 量化的 Llama-4-Scout(较小版本)。如果需要大量代码相关的工作,可以运行 DeepSeek-V3-Distill-32B。30B 模型的解码速度可以达到 60–90 token/sec。

M5 / M5 Max,32–128GB:可以运行 70B 级别的模型。Qwen3.5–35B-A3B 是当前 MLX 的展示模型,Ollama 更新到 0.19 后,解码速度可以达到 112 token/sec。M5 的 GPU 神经加速器专门针对 LLM 推理进行了优化。如果你拥有 128GB 的 M5 Max,可以在本地运行 70B 模型,可以媲美云端 LLM。

需要特别指出的是:从 M1 开始,每代芯片都能运行一些实际有用的模型,关键在于硬件能地跑多大的模型(需要为操作系统留出一定余量)。

2. 值得了解的四类运行时

下面四个运行时,每个都有的适用场景,值得去了解。

  1. Apple Foundation Models(Swift 框架,系统集成)

适用场景:如果你正在构建原生 macOS 或 iOS 应用,且工作负载契合 3B 模型(摘要、分类、结构化提取、对话任务)。@Generable 宏让结构化输出变得轻而易举,并且内置工具调用。每台支持 Apple Intelligence 的设备都已预装该模型,省去了复杂的安装配置过程。

不适用的场景:你需要比 3B 模型更强的推理能力,或者你需要一个能在 Python 或其他非 Swift 环境中运行的运行时。

  1. Ollama 0.19+(MLX 后端)(HTTP API,命令行)

适用场景:你想通过熟悉的 REST API,以简单的方式部署 Ollama 库中 1000+ 模型中的任意一个。MLX 后端现已达到或超越大多数其他 Apple Silicon 方案的性能。模型支持广泛(Llama、Qwen、Mistral、Phi、Gemma、DeepSeek、Mixtral 等)。使用 ollama pull 即可轻松切换模型。

不适用场景:你对性能有要求,需要比较低的 TTFT(time to first token),或者你想在不运行守护进程的情况下将推理嵌入 Swift 应用内部。

  1. MLX 直连(Python 和 Swift 绑定)

适用场景:追求极致速度,MLX 在 Apple Silicon 上的性能比 llama.cpp 高出 20–30%。MLX-LM Python 包可让你直接访问 MLX。Swift bindings 可在应用中原生运行,macMLX 为其包装了 UI 和兼容 OpenAI 的 API。

不适用场景:易用性比最后 20% 的性能提升更重要。

  1. LM Studio(GUI 应用,支持 MLX)

适用场景:你想要一款桌面应用来管理模型、运行对话,并在无需命令行操作的情况下提供 API 服务,方便非开发者使用本地 AI。支持选择 MLX 运行时。

不适用场景:你需要在应用内部部署,或者需要可编程的工作流。

值得一提的是 Rapid-MLX,它是一款开源的 MLX 运行时,声称相比 Ollama 有 4.2 倍加速,缓存命中时 TTFT 为 0.08 秒,支持工具调用和 17 种工具解析器。Rapid-MLX 于 2026 年 4 月问世,是 OpenAI 的即插即用替代品,值得关注。

3. 模型推荐

模型格局变化很快,但截至 2026 年 5 月,以下是一些最佳选择:

避免的模型:Llama 3.x 基础模型(已被取代)、旧版 Mistral 7B(同尺寸下 Qwen-3-8B 表现更佳)、缺乏积极维护的模型。

4. 语音转文字相关技术栈

如果你需要转录功能,标准答案不再是“通过 Python 运行 Whisper”。

WhisperKit(Argmax)是生产环境的首选。Whisper 变体编译到了 CoreML,在 Neural Engine 上运行,支持流式传输以实现实时转录。通过 WhisperKit 运行 Whisper-large-v3 turbo,可在约 90 秒内转录一小时的音频,并且运行时,不影响你继续使用电脑。

FluidAudio 是一匹黑马。NVIDIA 的 Parakeet 模型编译到了 CoreML。大模型平均每次推理仅需 0.19 秒,在大多数工作负载下比 WhisperKit 更快。它是开源的,提供 Swift SDK。如果 Parakeet 的准确率能满足你的需求,那么 FluidAudio 值得使用(它在英语上很强,但对其他语言的支持较轻)。

mlx-whisper 是三者中最慢的,但在 Python 流水线中运行良好。如果你已经在使用 Python 工作流,可用它进行批量转录。

whisper.cpp 仍然可用,但已不再是 Apple Silicon 上的默认最佳选项。基于 WhisperKit / FluidAudio 的 Neural Engine 要更快一些。

注意:任何对延迟敏感的工作负载都不宜使用云端转录 API。即使是 Deepgram,在较新的 Mac 上处理短音频时也没有 WhisperKit 块。

5. 三层混合式架构

如果你正在构建一款产品,且在其工作负载中有相当比例依赖于 AI,那么截至 2026 年 5 月,正确架构选择是一个三层混合架构:

┌────────────────────────────────────────────────────┐
 Tier 1: Always-on, low-latency                     
  Apple Foundation Models (3B, native, free)       
 Use for: continuous classification, routing,       
 structured field extraction, simple summarization  
├────────────────────────────────────────────────────┤
 Tier 2: Heavy lift on demand                       
  Qwen 3 8B via Ollama-MLX or MLX direct           
 Use for: detailed analysis, multi-step reasoning,  
 longer-form generation                             
├────────────────────────────────────────────────────┤
 Tier 3: Cloud burst (optional)                     
  Claude Opus 4.7 or GPT-5.5 via API               
 Use for: highest-stakes reasoning, only when user  
 explicitly opts in                                 
└────────────────────────────────────────────────────┘
For audio:
WhisperKit (real-time) or FluidAudio (faster batch)

该模式有三个关键特性:

离线可用 - 第 1 层和第 2 层无需网络。无论您在飞机上、医院里、法庭中,还是 AI 提供商宕机时,应用都不会中断。

默认尊重隐私 - 第 3 层采用自愿开启和明确授权机制,默认的用户体验不会将任何用户数据发送到外部。

成本稳定 - 第 1 层和第 2 层在运行时免费,第 3 层是唯一产生费用的部分,费用可以由用户是否主动选择而限定。

这是我今天为任何 Apple Silicon 上的新 AI 产品会采用的架构。对于将现有云优先产品改造为混合模式,这也是合适的方案。

6. 要避免的做法

2026 年 5 月仍有三种做法,应当避免:

一切通过 Python 和 mlx-lm 运行 - Python 用于原型开发尚可,但是在生产环境中,Swift 或原生运行时能带来更好的系统集成、更低的内存开销,并能调用 Neural Engine 的路径。

为了适配更小的硬件而激进量化 - Q2 或 Q3 量化虽能节省内存,但在不同任务上的质量下降并不均匀。如果您的模型在 Q4 下无法运行,应降级到更小的模型,而不是继续加大量化力度。在大多数工作负载下,Q4 的 8B 模型优于 Q2 的 14B 模型。

将本地模型等同于云端质量 - 无论是 3B Foundation Models、8B Qwen,还是 35B Qwen3.5,它们都不是 Claude-Opus-4.7。它们只适用于各自适合的工作负载。采用混合架构,根据任务复杂度进行路由,而不是一种模型用到底。

7. 从零开始时,推荐的技术栈

如果在 M3 Pro 或更新的 Mac 上从头开始,我会安装以下栈:

Ollama 0.19+brew install ollama),拉取 Qwen-3-8B(ollama pull qwen3:8b)和 Gemma-4-E2B(ollama pull gemma4:e2bApple Foundation Models 若您运行的是 macOS 26,系统已内置,无需安装,直接使用 Swift 框架即可 WhisperKitbrew install whisperkit-cli 或通过 Swift Package Manager 安装),拉取 large-v3-turbo 模型 macMLX - 用于带 UI 的临时模型探索 Rapid-MLX(可选) - 如果您想要实验性最快运行时并需要支持完整工具调用,可以考虑 Rapid-MLX

开发时,可以将 IDE 配置为指向本地 Ollama 端点(http://localhost:11434/v1),兼容任何调用 OpenAI 的代码。大多数代理框架(Codex、Cursor、Aider)只需设置一个环境变量即可完成切换。

模型文件需要大约 15GB 磁盘占用,模型加载后大约需要 6GB 常驻内存,每次 API 调用本为零。

8. 写在最后

Apple Silicon 上的本地 AI 不再仅仅是隐私或成本的叙事,它还关系到应用的部署。在应用中搭载本地推理层,具备云端产品无法比拟的特性:离线运行、可预测的延迟、零单次调用成本、真正的数据驻留,以及面对云服务厂商宕机时的韧性。

对于消费级领域,这种差异化正变得有意义;对于受监管行业(医疗、法律、金融),它正成为必需项;对于开发者,它正成为预期中的可用工具。

工具链在过去 5 周内趋于成熟,硬件则在一年前就已就绪。问题不再是否要在本地运行,而是您是否为自己的产品和受众设计了正确的混合架构。

原文链接

The Local AI Stack for Apple Silicon, Now With Superpowers.