<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Mac on 楠楠自瑜</title>
    <link>https://cnutshell.net/tags/mac/</link>
    <description>Recent content in Mac on 楠楠自瑜</description>
    <generator>Hugo -- 0.157.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 26 May 2026 22:54:34 +0800</lastBuildDate>
    <atom:link href="https://cnutshell.net/tags/mac/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>16GB Mac Mini 跑 122B 大模型？神话故事都没有这么夸张</title>
      <link>https://cnutshell.net/llm/per-expert-disk-steaming-on-mac/</link>
      <pubDate>Tue, 26 May 2026 22:54:34 +0800</pubDate>
      <guid>https://cnutshell.net/llm/per-expert-disk-steaming-on-mac/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;翻译：Transwan&lt;/p&gt;
&lt;p&gt;校对：Carl Cui&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;引言：看上去确实有点不可思议，但作者 &lt;code&gt;Manjunath Janardhan&lt;/code&gt; 跑通了：通过 &lt;code&gt;per-expert disk streaming&lt;/code&gt; 技术和 &lt;code&gt;turboquant-mlx-full&lt;/code&gt; 在 16GB 的 Mac Mini 上成功运行起 122B LLM 量化版本。尽管 token 生成速度有限，但&lt;code&gt;可以运行&lt;/code&gt;这件事本身就足够梦幻。这篇文章是作者 &lt;code&gt;TurboQuant&lt;/code&gt; 系列文章的第 5 部分，展现出当前 AI 工程领域热点技术 —— &lt;code&gt;expert Streaming&lt;/code&gt; 和 &lt;code&gt;turboquant&lt;/code&gt; —— 的巨大潜力。以下是翻译全文：&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;em&gt;Per-expert disk streaming 专家流式技术在 Mac 上运行了一个 122B 参数的混合专家模型 —— 这个模型的体积是 Mac RAM 的 3 倍。相同条件下输出结果能保持一致，不会触发操作系统内存交换机制，不需要 sysctl 调优。&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt=&#34;img&#34; loading=&#34;lazy&#34; src=&#34;https://cdn.jsdelivr.net/gh/cuiguoke/blogger-assets/images/20260526225444726.jpeg&#34;&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;图片由 Manjunath Janardhan 提供，通过 TurboQuant-MLX 专家流技术在 16 GB Mac mini 上运行的 122B 参数 LLM&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;我在一台拥有 &lt;strong&gt;16 GB RAM&lt;/strong&gt;、价值 &lt;strong&gt;$599 的 Mac mini&lt;/strong&gt; 上运行了一个 &lt;strong&gt;122B 参数&lt;/strong&gt;的 LLM，并且可以生成连贯的内容。请注意，这不是我的笔误，这个模型是 &lt;strong&gt;Qwen3.5–122B-A10B&lt;/strong&gt;，一个拥有 256 个专家的混合专家模型：在 BF16 格式下它的权重大约有 240 GB，使用 &lt;strong&gt;TurboQuant-MLX&lt;/strong&gt; 量化到 3-bit 后，它在磁盘上仍然占用大约 54 GB 的空间，这个数字超过了&lt;strong&gt;这台机器所有 RAM 的 3 倍&lt;/strong&gt;，按照以往的方式，它根本不可能在这台 16 GB 的 Mac 上运行。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
