<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Apple on 楠楠自瑜</title>
    <link>https://cnutshell.net/tags/apple/</link>
    <description>Recent content in Apple on 楠楠自瑜</description>
    <generator>Hugo -- 0.157.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Thu, 21 May 2026 00:16:20 +0800</lastBuildDate>
    <atom:link href="https://cnutshell.net/tags/apple/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Apple Silicon 本地 AI 部署：2026 年技术进展与实践建议</title>
      <link>https://cnutshell.net/llm/2026-ai-with-apple-silicon/</link>
      <pubDate>Thu, 21 May 2026 00:16:20 +0800</pubDate>
      <guid>https://cnutshell.net/llm/2026-ai-with-apple-silicon/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;翻译：Transwan&lt;/p&gt;
&lt;p&gt;校对：Carl Cui&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img alt=&#34;Gemini Generated Image x91hw5x91hw5x91h&#34; loading=&#34;lazy&#34; src=&#34;https://cdn.jsdelivr.net/gh/cuiguoke/blogger-assets/images/20260521001631778.png&#34;&gt;&lt;/p&gt;
&lt;p&gt;在 Mac 上运行本地 LLM，近期有一些新的变化：&lt;/p&gt;
&lt;p&gt;其中一项重要的变化：2026 年 3 月 30 日发布的 &lt;code&gt;Ollama 0.19&lt;/code&gt; 版本，将 Apple Silicon 上的推理引擎替换为 MLX。通过 Ollama 在 M5 Max 上运行 Qwen3.5–35B-A3B，基准测试显示，预填充（prefill）速度从 1,154 token/sec 提升到 1,810 token/sec（+57%）；解码（decode）速度从 58 token/sec 提升到 112 token/sec（+93%）。这并非一次不起眼的优化，而是在最常用的本地 LLM 上实现了接近 2 倍的提升。&lt;/p&gt;
&lt;p&gt;第二：&lt;code&gt;Apple Foundation Models&lt;/code&gt; 框架于 2025 年随 macOS 26 / iOS 26 发布，在 2026 年第一季度和第二季度逐步成熟，成为 Swift 应用可以真正依赖的框架。通过 &lt;code&gt;@Generable&lt;/code&gt; 宏实现的引导式生成（Guided generation）可产生类型安全的结构化输出，它内置工具调用（Tool calling），支持多轮会话。这个模型拥有 3B 参数，针对大多数应用实际执行的任务（例如摘要、分类、结构化提取）进行了优化。对了，它是完全免费的。&lt;/p&gt;
&lt;p&gt;第三：macMLX 于 4 月 18 日发布，它是一个原生的 SwiftUI LLM 运行时，提供兼容 OpenAI 的 API。任何已经支持 OpenAI API 的应用只需修改配置即可切换到 macMLX。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
