Apple Silicon 本地 AI 部署:2026 年技术进展与实践建议

翻译:Transwan 校对:Carl Cui 在 Mac 上运行本地 LLM,近期有一些新的变化: 其中一项重要的变化:2026 年 3 月 30 日发布的 Ollama 0.19 版本,将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B,基准测试显示,预填充(prefill)速度从 1,154 token/sec 提升到 1,810 token/sec(+57%);解码(decode)速度从 58 token/sec 提升到 112 token/sec(+93%)。这并非一次不起眼的优化,而是在最常用的本地 LLM 上实现了接近 2 倍的提升。 第二:Apple Foundation Models 框架于 2025 年随 macOS 26 / iOS 26 发布,在 2026 年第一季度和第二季度逐步成熟,成为 Swift 应用可以真正依赖的框架。通过 @Generable 宏实现的引导式生成(Guided generation)可产生类型安全的结构化输出,它内置工具调用(Tool calling),支持多轮会话。这个模型拥有 3B 参数,针对大多数应用实际执行的任务(例如摘要、分类、结构化提取)进行了优化。对了,它是完全免费的。 第三:macMLX 于 4 月 18 日发布,它是一个原生的 SwiftUI LLM 运行时,提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。 ...

May 21, 2026 · 4 min · Carl Cui