Apple

翻译：Transwan 校改：Carl Cui MLX、oMLX 和 MTPLX 都是跑在 Apple Silicon 上的本地 LLM 工具，它们都强调速度，并且名字相近，这很容易让人把它们当成三个互相竞争的产品，然后问“谁是最快的”。实际上，它们其中一个是引擎，另外两个是建立在该引擎之上的服务器：MLX 是底层引擎，oMLX 是面向并发和长上下文的推理服务器，MTPLX 是面向单用户低延迟的推理运行时。如果你要做底层开发、训练、微调，或者想控制生成循环，用 MLX；如果你要服务多个用户、长上下文、本地 RAG，或者模型刚好卡在内存边界上，用 oMLX；如果你是单人使用，主要跑编码代理或交互式助手，希望输出更快，并且模型带有原生 MTP 头，用 MTPLX；本文围绕上面这个判断展开。三者分别处于什么位置可以先用一句话理解这三层： MLX：Apple 的原始计算基座，为 Apple Silicon 打造的底层框架，其他两者都导入了它。 oMLX：为服务多用户而调优的推理服务器，在 MLX 之上做连续批处理、KV Cache 分层和 SSD 缓存，适合多人请求、长上下文场景。 MTPLX：为单用户场景调优的运行时，在 MLX 之上利用模型原生 MTP 头做推测解码，适合追求速度的单用户。 MLX 直接面向 Apple Silicon 的统一内存架构。oMLX 和 MTPLX 都构建在 MLX 之上，它们本身不直接和底层硬件打交道，而是通过 MLX 来利用 Apple Silicon 的 CPU/GPU 共享内存能力。因此把 MLX 拿去和 oMLX、MTPLX 做横向比较并不合理：MLX 是底座，另外两个是建立在底座上的运行时和服务器。 ...

翻译：Transwan 校对：Carl Cui 在 Mac 上运行本地 LLM，近期有一些新的变化：其中一项重要的变化：2026 年 3 月 30 日发布的 Ollama 0.19 版本，将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B，基准测试显示，预填充（prefill）速度从 1,154 token/sec 提升到 1,810 token/sec（+57%）；解码（decode）速度从 58 token/sec 提升到 112 token/sec（+93%）。这并非一次不起眼的优化，而是在最常用的本地 LLM 上实现了接近 2 倍的提升。第二：Apple Foundation Models 框架于 2025 年随 macOS 26 / iOS 26 发布，在 2026 年第一季度和第二季度逐步成熟，成为 Swift 应用可以真正依赖的框架。通过 @Generable 宏实现的引导式生成（Guided generation）可产生类型安全的结构化输出，它内置工具调用（Tool calling），支持多轮会话。这个模型拥有 3B 参数，针对大多数应用实际执行的任务（例如摘要、分类、结构化提取）进行了优化。对了，它是完全免费的。第三：macMLX 于 4 月 18 日发布，它是一个原生的 SwiftUI LLM 运行时，提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。 ...

Apple

Apple Silicon 本地 LLM 推理栈：MLX、oMLX、MTPLX 到底该怎么选

Apple Silicon 本地 AI 部署：2026 年技术进展与实践建议