<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Llama.cpp on 楠楠自瑜</title>
    <link>https://cnutshell.net/tags/llama.cpp/</link>
    <description>Recent content in Llama.cpp on 楠楠自瑜</description>
    <generator>Hugo -- 0.157.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Wed, 29 Apr 2026 00:18:09 +0800</lastBuildDate>
    <atom:link href="https://cnutshell.net/tags/llama.cpp/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>本地 LLM 部署工具：Ollama vs vLLM vs llama.cpp</title>
      <link>https://cnutshell.net/llm/3-local-llm-tools/</link>
      <pubDate>Wed, 29 Apr 2026 00:18:09 +0800</pubDate>
      <guid>https://cnutshell.net/llm/3-local-llm-tools/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;译者：Carl Cui&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img alt=&#34;Gemini Generated Image 38l7zz38l7zz38l7&#34; loading=&#34;lazy&#34; src=&#34;https://cdn.jsdelivr.net/gh/cuiguoke/blogger-assets/images/20260429001636545.png&#34;&gt;&lt;/p&gt;
&lt;p&gt;Ollama 每月有 5200 万次下载，这几乎是每个教程都推荐的工具。我使用了六个月，觉得它“可以用于生产环境”，并把它部署给 40 个内部用户。结果响应时间从 3 秒增加到超过一分钟，并且请求开始超时。模型并没有问题，出问题的是 Ollama。&lt;/p&gt;
&lt;p&gt;这次事件促使我深入测试了三大本地 LLM 运行工具：Ollama、vLLM 和 llama.cpp。测试结果彻底改变了我对本地 AI 部署的看法。一个让人难以接受的事实是：推荐给新手用的工具，其实在生产环境下表现不佳；而那些所谓“复杂”的工具，其实设置起来并不难。&lt;/p&gt;
&lt;h2 id=&#34;1-为什么本地-llm-部署越来越流行&#34;&gt;1. 为什么本地 LLM 部署越来越流行&lt;/h2&gt;
&lt;p&gt;这里有一组数字：llama.cpp 在 2026 年 3 月达到 100,000 个 GitHub star，比 PyTorch 或 TensorFlow 更快到达这一里程碑，llama.cpp 只是一个三年前还不存在的项目；Ollama 在 2026 年第一季度达到了 5200 万次月下载量，是 2023 年第一季度 10 万次月下载量的 520 倍；Hugging Face 上超过 60% 的量化模型现在以 GGUF 格式发布，这是 llama.cpp 创建的标准。&lt;/p&gt;
&lt;p&gt;这已经不再是业余爱好者在笔记本电脑上运行聊天机器人的阶段了。团队正在通过部署本地 LLM 来控制成本，避免数据离开他们的网络，并获得云 API 难以达到的百毫秒内延迟。这些区别，不仅仅在于开发体验，关键还在于你的应用能不能经受住真实用户的考验。&lt;/p&gt;
&lt;h2 id=&#34;2-如何测试三大工具&#34;&gt;2. 如何测试三大工具&lt;/h2&gt;
&lt;p&gt;我在相同的硬件（配置 RTX-4090 24GB VRAM 和 64GB RAM 的工作站）上运行每个工具，基于相同的模型 Llama-4-Scout-17B-Instruct，测试了三种场景：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
