Apple Silicon 本地 AI 部署：2026 年技术进展与实践建议

Thu, 21 May 2026 00:16:20 +0800

翻译：Transwan

校对：Carl Cui

在 Mac 上运行本地 LLM，近期有一些新的变化：

其中一项重要的变化：2026 年 3 月 30 日发布的 Ollama 0.19 版本，将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B，基准测试显示，预填充（prefill）速度从 1,154 token/sec 提升到 1,810 token/sec（+57%）；解码（decode）速度从 58 token/sec 提升到 112 token/sec（+93%）。这并非一次不起眼的优化，而是在最常用的本地 LLM 上实现了接近 2 倍的提升。

第二：Apple Foundation Models 框架于 2025 年随 macOS 26 / iOS 26 发布，在 2026 年第一季度和第二季度逐步成熟，成为 Swift 应用可以真正依赖的框架。通过 @Generable 宏实现的引导式生成（Guided generation）可产生类型安全的结构化输出，它内置工具调用（Tool calling），支持多轮会话。这个模型拥有 3B 参数，针对大多数应用实际执行的任务（例如摘要、分类、结构化提取）进行了优化。对了，它是完全免费的。

第三：macMLX 于 4 月 18 日发布，它是一个原生的 SwiftUI LLM 运行时，提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。

Apple on 楠楠自瑜

Apple Silicon 本地 AI 部署：2026 年技术进展与实践建议