LLM | 楠楠自瑜

Google 的 Gemma 4 为开源 AI 带来变革

作者：Sumit Pandey 译者：Carl Cui Apache 2.0 许可证，在笔记本电脑上运行，性能超越 20 倍于其规模的模型。说实话。在 Gemma 2 之后我就没再关注 Gemma 了。不是因为它不好，而是我感觉它很难同中国开源巨头（例如 DeepSeek、Qwen）发布的模型相媲美。Gemma 曾经是那种你在 Kaggle 上试过一次就忘记的模型。今天，Google 彻底改变了这一局面。图片由 ChatGPT 生成。 Gemma 4 于 2026 年 4 月 2 日发布。Hugging Face 的 CTO Julien Chaumond 用火焰表情符号发布了相关消息，称之为“突发新闻”。当托管全球所有开源模型的平台 CTO 说 Google 重新入局时，你必须关注。让我来解析发生了什么，为什么这很重要，以及这些基准测试是否站得住脚。 Gemma 4 是什么？ Gemma 4 是 Google DeepMind 最新的开源权重模型系列。基于 Gemini 3 的研究和技术构建，后者是 Google 的专有前沿模型。四种模型尺寸。四个部署目标： E2B（有效 2B 参数）：可在手机、树莓派、Jetson Nano 上运行。是的，没开玩笑。 E4B（有效 4B 参数）：稍大的边缘模型。仍可在手机上运行。 26B MoE（混合专家，4B 激活参数）：尽管总参数量为 25.2B，但推理时仅激活 3.8B 参数。运行速度几乎与 4B 参数模型一样快。 31B Dense（稠密模型）：旗舰型号。在 Arena AI 文本排行榜所有开源模型中，目前排名第三。所有四个模型都能处理图像和视频。较小的 E2B 和 E4B 模型还支持原生音频输入：设备端语音识别，无需云端处理。边缘模型的上下文窗口可达 128K token，大型模型可达 256K token。这相当于将整个代码库放入单个提示中。 ...

Kimi 团队修复了 AI 模型十年未变的结构缺陷

译者：Carl Cui 国产 Kimi 模型的开发团队发现，ChatGPT、Claude、Gemini 和你所使用的其他所有 AI 模型，都存在结构性缺陷。来自：Avi Chawla via X 我先抛一个可能有点奇怪的问题：ChatGPT、Gemini、Claude、Grok、Llama 和 DeepSeek，这些架构的最深层有什么共同之处？它们都基于一个 2015 年做出的设计决策，而且直到现在，还没有人真正地质疑过这个决策。 2026 年 3 月 16 日，Kimi（月之暗面 LLM）背后的团队，发表了一篇题为 “Attention Residuals” 的论文，指出了现代所有 AI 模型中存在的一个结构性缺陷。这不是什么基准测试的小把戏、新的数据集，或者更大的GPU集群。这关乎基础架构的改进。这件事我们一直没碰，因为它一直运行得还可以。Elon Musk 转发了它。Andrej Karpathy，OpenAI 的联合创始人，评论说这篇论文“让我们意识到我们没有完全认真对待 Attention is All You Need 这个标题。” 当 Karpathy 这个级别的研究人员对一篇技术论文做出这样的评价时，就值得我们去了解 Kimi 团队到底发现了什么。无人质疑的基础设施你需要对当前 AI 模型如何运作有一个大致的了解，才能理解 Kimi 团队发现了什么。像 ChatGPT 或 Claude 这样的模型不是单次的计算，它是由连续的处理步骤堆叠而成的，称为层，有时有几十层，有时有几百层。当你向这些模型发送消息时，它会先通过第一层，这一层处理原始的文字。第二层开始识别词语之间的关系。第三层识别结构。到了第十层，模型就能理解意图。到了第五十层，它就能用抽象的方式来推理意义。每一层都增加了深度。每一层都建立在之前的基础上。理论上，模型越深，它的思考就越复杂。问题在于堆叠层数会带来的训练问题：当模型出错时，一个修正信号需要反向穿过整个堆叠，从最深的层一路回到第一层，来更新每一层的行为。但这个信号在传播过程中会减弱。让它穿过十层，它仍然足够强以发挥作用。但让它穿过一百层，它到达顶层时已经非常微弱，几乎无法推动任何改变。这种现象被称为梯度消失问题 the vanishing gradient problem，以前它对实际可以构建的神经网络的深度构成了重大限制。 2015 年，何恺明和他的同事们设计了一个巧妙的解决方案。他们实现了一个“捷径”，让原始输入可以直接跳过一层，和后续层的输出直接组合，而不是要求每一层都转换输入的数据。这个捷径称为残差连接 residual connection，因为它效果太好，成了后来所有神经网络的标准构件。你今天使用的每个模型，无一例外都依赖于它。 ...

AI 模型加速发展：从架构创新到生态重构的 2026 年 3 月全景报告

模型发展太快了：今天做出的架构和供应商承诺，六个月后可能就过时了。现在能力突出的模型，很多都来自开源项目，还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题：预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世，就表明了替代架构正在成为真正的竞争者；NVIDIA 的新模型结合了 Mamba 和 Transformer 层，也指向了同样的方向。相关事件以下汇总了 2026 年 3 月份以来值得关注的模型有关事件： Yann LeCun 和他的团队创建了 LeWorldModel，这是第一个使用他的联合嵌入预测架构（JEPA）且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型；而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super，这是他们最新的开放权重模型。它是一个混合专家模型，拥有 120B 参数，其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计：它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型，旨在支持实时对话。在生成输出时，它会避免出现停顿，并使用类似人类的语调。 Cursor 发布了 Composer 2，这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道，它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6，而且成本显著降低。 Mistral 发布了 Forge 系统，这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4，这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型，每个 token 使用 6B 参数。它是完全开源的，具有 256K 上下文窗口，并针对最小化延迟和最大化吞吐量进行了优化。 ...

7 种可以满足日常事务的本地 LLM 模型

译者：Carl Cui 开源模型现在可以处理大量日常工作，对于很多像编码、写作、自动化和 AI Agent 的任务来说，本地部署的 LLM 可以替代云端 LLM。并且，每一次发给云端 LLM 的请求都会离开你的电脑，经公共网络发送到云端服务器。对于专有代码库、敏感的原型或者受监管的行业来说，这是不可接受的。本地运行推理服务可以避免数据外流，对于很多团队来说，数据主权本身就值得考虑本地 LLM。目前，Claude Code 重度用户每月需要支出 100 ~ 200 美元。按照当前的 API 费率，通过 Cline 或 Kilo Code 使用 Claude Sonnet 4.6，每小时大约需要 3 ~ 8 美元。如果你正在运行代理群、大量迭代或者大量子任务，把其中那些日常的任务交给本地模型可以节省大量开支。除了介绍 7 种本地可以部署的模型，作者也介绍了如何配置 Claude Code 和 Codex，匹配的 Nvidia 和 Mac 硬件，以及部署的注意事项、故障说明和有关的利弊权衡，比如处理延迟、资源需求、API 兼容性、生成代码的可靠性和指令遵循质量等等。硬件匹配表本地能够运行的模型受限于拥有的硬件。如果你使用的是 MacBook Air，评估一个 70B 模型是没有意义的。大多数模型在 Q4_K_M 量化后可以维持其 MMLU 跑分，与全精度相比，分数差距在 1 到 3 分以内。不过，这种退化程度因任务而异，像多步数学推理这样的专业任务，退化程度可能超过 5%。建议从 Q4_K_M 开始。如果你在目标任务上感觉精度不够，可以切换到 Q5_K_M。 1. Qwen3 - 适合编码和多语言 AI Agent 大小：1.7B，7B，14B，32B，72B，235B MoE 硬件：RTX 4060 → Mac M4 → Workstation 本文列出的模型中，Qwen3-7B 的 HumanEval 跑分（76.0）是所有 8B 参数下模型中最高的，比 Llama 3.3 的 72.6 高出 3.4 分。在四个主要语系中，Qwen3 7B 的多语言支持能力最强，在中、日、韩语方面表现尤为突出，在英语方面的表现也很强劲。 ...

性能实测：多台 Mac 本地运行 80B 大模型

作者：Manjunath Janardhan 译者：Carl Cui 通常，本地部署 LLM 时需要给 LLM 找一个配置足够好的机器，那么有没有办法反其道而行之？如果你有一堆闲置的设备，能不能把它们的 CPU, GPU 和内存资源整合起来，运行一个它们单独无法处理的模型？作者 Manjunath Janardhan 借助开源工具 exo 在自己的两台 Mac 设备上把 Qwen3-Next-80B 运行了起来，可以达到每秒 70 ~ 80 个 token。 Mac Mini 的设置和负载快照，图片由 Manjunath Janardhan 制作 1. exo 是什么 exo 是一个由 Exo Labs 维护的开源项目，一句话概括：它将你所有的设备连接成个人 AI 集群，让你能够运行任何单台机器都无法容纳的模型。exo 的主要功能如下：自动设备发现 - 运行 exo 的设备可以在网络上自动相互发现，无需手动配置支持基于 Thunderbolt 的 RDMA - 在支持的硬件（M4 Pro/Max）上，能够在设备之间实现 99%的延迟降低拓扑感知自动并行 - exo 根据可用 RAM、CPU、GPU 资源以及节点之间的网络延迟，确定将模型在多个设备之间分割的最佳方式 Tensor 并行 - exo 支持模型分片，在 2 台设备上可加速 1.8 倍，在 4 台设备上可加速 3.2 倍 MLX 支持 - exo 使用 MLX 作为推理后端，并使用 MLX 分布式进行分布式通信多 API 兼容性 - 兼容 OpenAI Chat Completions API、Claude Messages API、OpenAI Responses API 和 Ollama API，现有的工具和客户端可以无缝迁移自定义模型支持 - 从 HuggingFace hub 加载自定义模型，以扩展可用模型范围支持 54+ 个模型 - 从小型 Llama 模型到 671B DeepSeek 变体 2. Mac Mini M4 + MacBook Pro M4 Max 通过 exo，我配对了两台机器： ...

本地 LLM 部署：硬件配置指南

作者：MayhemCode 译者：Carl Cui 今天这篇文章是搬运过来的，发表于 2025 年 12 月 17 日，那时候由 AI 引发的硬件通胀已经持续了几个月。到现在，2026 年 3 月底，消费级硬件的价格不仅没有回落，反而在全面涨价的基础上看不到回调的希望。虽然内存价格出现了小幅回调，但是相比 2025 年 9 月，现在的内存价格依然处于历史极高水平：2025 年 9 月份，一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元，现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆，进一步推动了本地部署 LLM 的需求，对于“不想交数据、不想交钱，或者不想等网络”的那群人，本地部署 LLM 永远是一个绕不开的话题。 1. 为什么自托管 AI 是未来完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的隐私保护、零持续成本，和对模型的完全控制。现在开源的大语言模型，特别是 Llama 3、DeepSeek R1 和 Mistral，已经足够处理真实工作。问题在于，你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选择高性价比硬件，不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。译者注：2025 年 12 月到现在，硬件和 LLM 已经出现了很多变化，文章部分内容稍显过时，推荐的配置也是基于当时国外的行情，不过对 LLM 硬件的讲解比较全面，值得一读。 ...