16GB Mac Mini 跑 122B 大模型?神话故事都没有这么夸张

翻译:Transwan 校对:Carl Cui 引言:看上去确实有点不可思议,但作者 Manjunath Janardhan 跑通了:通过 per-expert disk streaming 技术和 turboquant-mlx-full 在 16GB 的 Mac Mini 上成功运行起 122B LLM 量化版本。尽管 token 生成速度有限,但可以运行这件事本身就足够梦幻。这篇文章是作者 TurboQuant 系列文章的第 5 部分,展现出当前 AI 工程领域热点技术 —— expert Streaming 和 turboquant —— 的巨大潜力。以下是翻译全文: Per-expert disk streaming 专家流式技术在 Mac 上运行了一个 122B 参数的混合专家模型 —— 这个模型的体积是 Mac RAM 的 3 倍。相同条件下输出结果能保持一致,不会触发操作系统内存交换机制,不需要 sysctl 调优。 图片由 Manjunath Janardhan 提供,通过 TurboQuant-MLX 专家流技术在 16 GB Mac mini 上运行的 122B 参数 LLM 我在一台拥有 16 GB RAM、价值 $599 的 Mac mini 上运行了一个 122B 参数的 LLM,并且可以生成连贯的内容。请注意,这不是我的笔误,这个模型是 Qwen3.5–122B-A10B,一个拥有 256 个专家的混合专家模型:在 BF16 格式下它的权重大约有 240 GB,使用 TurboQuant-MLX 量化到 3-bit 后,它在磁盘上仍然占用大约 54 GB 的空间,这个数字超过了这台机器所有 RAM 的 3 倍,按照以往的方式,它根本不可能在这台 16 GB 的 Mac 上运行。 ...

May 26, 2026 · 6 min · Manjunath Janardhan