Apple Silicon 本地 LLM 推理栈:MLX、oMLX、MTPLX 到底该怎么选
翻译:Transwan 校改:Carl Cui MLX、oMLX 和 MTPLX 都是跑在 Apple Silicon 上的本地 LLM 工具,它们都强调速度,并且名字相近,这很容易让人把它们当成三个互相竞争的产品,然后问“谁是最快的”。 实际上,它们其中一个是引擎,另外两个是建立在该引擎之上的服务器:MLX 是底层引擎,oMLX 是面向并发和长上下文的推理服务器,MTPLX 是面向单用户低延迟的推理运行时。 如果你要做底层开发、训练、微调,或者想控制生成循环,用 MLX; 如果你要服务多个用户、长上下文、本地 RAG,或者模型刚好卡在内存边界上,用 oMLX; 如果你是单人使用,主要跑编码代理或交互式助手,希望输出更快,并且模型带有原生 MTP 头,用 MTPLX; 本文围绕上面这个判断展开。 三者分别处于什么位置 可以先用一句话理解这三层: MLX:Apple 的原始计算基座,为 Apple Silicon 打造的底层框架,其他两者都导入了它。 oMLX:为服务多用户而调优的推理服务器,在 MLX 之上做连续批处理、KV Cache 分层和 SSD 缓存,适合多人请求、长上下文场景。 MTPLX:为单用户场景调优的运行时,在 MLX 之上利用模型原生 MTP 头做推测解码,适合追求速度的单用户。 MLX 直接面向 Apple Silicon 的统一内存架构。oMLX 和 MTPLX 都构建在 MLX 之上,它们本身不直接和底层硬件打交道,而是通过 MLX 来利用 Apple Silicon 的 CPU/GPU 共享内存能力。 因此把 MLX 拿去和 oMLX、MTPLX 做横向比较并不合理:MLX 是底座,另外两个是建立在底座上的运行时和服务器。 ...