Mac | 楠楠自瑜

翻译：Transwan 校对：Carl Cui 引言：看上去确实有点不可思议，但作者 Manjunath Janardhan 跑通了：通过 per-expert disk streaming 技术和 turboquant-mlx-full 在 16GB 的 Mac Mini 上成功运行起 122B LLM 量化版本。尽管 token 生成速度有限，但可以运行这件事本身就足够梦幻。这篇文章是作者 TurboQuant 系列文章的第 5 部分，展现出当前 AI 工程领域热点技术 —— expert Streaming 和 turboquant —— 的巨大潜力。以下是翻译全文： Per-expert disk streaming 专家流式技术在 Mac 上运行了一个 122B 参数的混合专家模型 —— 这个模型的体积是 Mac RAM 的 3 倍。相同条件下输出结果能保持一致，不会触发操作系统内存交换机制，不需要 sysctl 调优。图片由 Manjunath Janardhan 提供，通过 TurboQuant-MLX 专家流技术在 16 GB Mac mini 上运行的 122B 参数 LLM 我在一台拥有 16 GB RAM、价值 $599 的 Mac mini 上运行了一个 122B 参数的 LLM，并且可以生成连贯的内容。请注意，这不是我的笔误，这个模型是 Qwen3.5–122B-A10B，一个拥有 256 个专家的混合专家模型：在 BF16 格式下它的权重大约有 240 GB，使用 TurboQuant-MLX 量化到 3-bit 后，它在磁盘上仍然占用大约 54 GB 的空间，这个数字超过了这台机器所有 RAM 的 3 倍，按照以往的方式，它根本不可能在这台 16 GB 的 Mac 上运行。 ...