Google 的 Gemma 4 为开源 AI 带来变革

作者：Sumit Pandey
译者：Carl Cui

Apache 2.0 许可证，在笔记本电脑上运行，性能超越 20 倍于其规模的模型。

说实话。在 Gemma 2 之后我就没再关注 Gemma 了。不是因为它不好，而是我感觉它很难同中国开源巨头（例如 DeepSeek、Qwen）发布的模型相媲美。Gemma 曾经是那种你在 Kaggle 上试过一次就忘记的模型。今天，Google 彻底改变了这一局面。

1*gzdCtZq51MD8iMPX5YgyYA

图片由 ChatGPT 生成。

Gemma 4 于 2026 年 4 月 2 日发布。Hugging Face 的 CTO Julien Chaumond 用火焰表情符号发布了相关消息，称之为“突发新闻”。当托管全球所有开源模型的平台 CTO 说 Google 重新入局时，你必须关注。

让我来解析发生了什么，为什么这很重要，以及这些基准测试是否站得住脚。

Gemma 4 是什么？

Gemma 4 是 Google DeepMind 最新的开源权重模型系列。基于 Gemini 3 的研究和技术构建，后者是 Google 的专有前沿模型。

四种模型尺寸。四个部署目标：

E2B（有效 2B 参数）：可在手机、树莓派、Jetson Nano 上运行。是的，没开玩笑。
E4B（有效 4B 参数）：稍大的边缘模型。仍可在手机上运行。
26B MoE（混合专家，4B 激活参数）：尽管总参数量为 25.2B，但推理时仅激活 3.8B 参数。运行速度几乎与 4B 参数模型一样快。
31B Dense（稠密模型）：旗舰型号。在 Arena AI 文本排行榜所有开源模型中，目前排名第三。

所有四个模型都能处理图像和视频。较小的 E2B 和 E4B 模型还支持原生音频输入：设备端语音识别，无需云端处理。边缘模型的上下文窗口可达 128K token，大型模型可达 256K token。这相当于将整个代码库放入单个提示中。

基准测试数据

以下是实际数据。这些数据来自官方 Gemma 4 模型卡，指令调优变体：

文本基准测试

1*dmti0oaobC9GcmAmnNvGMQ

视觉基准测试

1*oyTjDBz2rpBRxEqJP0LWVw

长上下文

1*R3gfNrmR5whg001Bg8 87Q

让我重点介绍最重要的数据：

AIME 2026：31B 模型得分 89.2%。这是数学竞赛基准测试。Gemma 3 27B 得分为 20.8%。一代之间性能提升 4 倍。
Codeforces ELO：31B 模型得 2150 分。作为对比：Gemma 3 得 110 分。编程能力提升惊人。
LiveCodeBench v6：80.0% 对比 Gemma 3 的 29.1%。几乎翻了三倍。
GPQA Diamond：84.3%。这些是博士级别的科学问题，人类专家得分约 65%。

混合专家模型特别有趣。总参数量 26B，推理时仅激活 3.8B 参数，在 GPQA Diamond 上得 82.3% 分。它以接近 4B 参数模型的速度运行，却提供接近 31B 参数模型的智能水平。

Gemma 4 与前沿模型对比如何？

孤立的数据没有意义。让我将 Gemma 4 与大家实际使用的专有模型进行对比：Claude Opus 4.6、GPT-5.2 和开源巨头 Kimi K2.5。

1*pr7fAWDiIcWOl4 C PbeOg

重要提示：这不是完全对等的比较。Gemma 4 31B 有 31B 参数。Claude Opus 4.6 和 GPT-5.2 是参数未公开的专有模型，几乎肯定有数百 B 参数甚至更多。Kimi K2.5 有 1000B 总参数（激活 32B）。Gemma 4 能与这些模型相提并论，这本身就是故事。

推理能力：GPQA Diamond（博士级科学问题）

1*j3v6l1acE eajfSoHh2hxQ

Gemma 4 31B 在博士级科学推理上得 84.3% 分。这比 Claude Opus 4.6（91.3%）和 GPT-5.2（92.4%）低约 7-8 个百分点。但关键是：那些是在服务器集群上运行的大型专有模型。Gemma 4 可以在你的笔记本电脑上运行。而且它比 Claude Sonnet 4.6（74.1%）高出 10 多个百分点。

数学：AIME（竞赛数学）

1*V7d6ibyLhMgChfeckpSxAA

注意：Gemma 4 报告的是 AIME 2026（更难的题目集），而大多数其他模型在 AIME 2025 上评估。即使考虑这一点，一个 31B 参数模型在竞赛数学上获得 89.2% 的分数是显著的。GPT-5.2 和 Claude Opus 4.6 获得接近完美的分数，但它们是专有模型，计算量高出几个数量级。Kimi K2.5 得 95.8%，但总参数量为 1000B。

知识：MMLU Pro（研究生水平问题）

1*t1NK5wejwVf2B4EtabQZJg

Gemma 4 31B 在 MMLU Pro 上得 85.2% 分。这使其与 Kimi K2.5（87.1%）相差不远，尽管总参数少 30 倍。它似乎也与 Claude Opus 4.6 报告的 MMLU Pro 分数（约 82%）相当或略高。

编程：SWE-Bench 和 LiveCodeBench

1*LekvQwjxmPWlxf3l5XP31Q

Gemma 4 在 LiveCodeBench v6 上报告 80.0%，Codeforces ELO 为 2150。虽然 SWE-Bench Verified 数据尚未公布，但编码性能显然具有前沿竞争力。LiveCodeBench 分数将 31B 模型置于与 Kimi K2.5 相同的层级，而后者总参数多 32 倍。

视觉：MMMU Pro（多模态推理）

1*8jtwY5zWrSUbi3 R3vfs2w

在多模态视觉推理方面，Gemma 4 31B 与 Claude Sonnet 4.6 基本持平。对于一个 31B 参数的开源模型来说，这是非常出色的表现。

每参数智能表现

以下是真实情况。这是关于效率的表格：

1*69Fa3mnLlSLyXzBpn9IzTw

特别关注 26B MoE 模型。它每个 token 仅激活 3.8B 参数。这大约相当于一个小型模型的计算量。它在 GPQA Diamond 上得 82.3%，在 MMLU Pro 上得 82.6%。

Kimi K2.5 每个 token 激活 32B 参数，总参数量 1000B，在 GPQA 和 MMLU Pro 上分别获得 87.6% 和 87.1% 的分数。虽然得分高约 5 个百分点，但每次推理激活的参数是 Gemma 的 8 倍，存储需求高一个数量级。

专有模型在绝对分数上仍然领先。这是可以预料的。但差距正在迅速缩小，而 Gemma 4 的部署经济性则处于完全不同的维度。没有 API 成本，数据无需离开你的设备，没有供应商锁定。

诚实的结论

Gemma 4 在原始基准测试中并未击败 Claude Opus 4.6 或 GPT-5.2。任何声称相反的人都在误导你。

但是那不是正确的比较。正确的比较是：我能在自己的硬件上，用完全许可的许可证，零 API 成本地运行，最好的模型是什么？

在这个问题上，Gemma 4 是一个强有力的竞争者。虽然它在 GPQA 上比最佳专有模型低 7 ~ 8 个百分点，在 MMLU Pro 上低约 4 ~ 5 个百分点，但换来了专有模型永远无法提供的东西：完全的所有权和零边际推理成本。

对于许多实际应用来说，这种权衡不仅可以接受，甚至会是更优的选择。

为什么 Apache 2.0 改变了一切

之前的 Gemma 模型使用 Google 自定义的 Gemma 许可证。虽然相对宽松，但并非真正的开源。

Gemma 4 采用 Apache 2.0 许可证。与 Kubernetes、TensorFlow 和 Apache Spark 使用相同的许可证。

这是一个重大变化。Hugging Face 联合创始人 Clément Delangue 称之为“一个重大里程碑”。无使用限制，无报告要求，完全商业使用。你可以分叉、微调、按需部署。

对于构建 AI 产品的初创公司和企业来说：这消除了采用 Gemma 的最大障碍之一。你拥有自己的模型，拥有自己的数据，拥有自己的部署。

真实情况：Google 与中国在开源 AI 领域的竞争

让我给你战略背景。看看今天的 Arena AI 开源模型排行榜，前几名被中国模型主导：DeepSeek、Qwen 及其衍生品。美国的开源存在主要是 Meta 的 Llama 和 Nvidia 的 Nemotron。

Gemma 有 4 亿次下载，超过 10 万个社区变体。但在实际部署中（OpenRouter 使用数据可证），Gemma 一直落后于 Llama 和 DeepSeek。

Gemma 4 是 Google 的回应。31B 模型现在在 Arena AI 排行榜上排名第三。26B MoE 排名第六。两者都超过了比它们大 20 倍的模型。这不仅仅是一个模型发布，这是 Google 在宣告：我们正在争夺开源 AI 生态系统。这次是认真的。

本地运行

以下是实际操作方法。以下是如何在本地硬件上运行 Gemma 4：

首先，升级 llama.cpp：

brew upgrade llama.cpp
# 如果最新版本不可用，从 HEAD 安装：
brew install llama.cpp --HEAD

如果拥有 16GB RAM/VRAM（MacBook，大多数笔记本电脑）：

llama-server -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0

如果拥有 24GB+ RAM/VRAM（MacBook Pro，RTX 3090）：

llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M

如果拥有 32GB VRAM（RTX 5090）：

llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q8_0

31B 稠密模型的未量化权重可放入单个 80GB NVIDIA H100。量化版本可在消费级 GPU 上运行。

首日支持的生态系统包括：Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、LM Studio、Unsloth、SGLang、NVIDIA NIM 等。

Gemma 4 的架构创新

几个突出的设计选择：

每层嵌入（PLE）：E2B 和 E4B 模型使用了一个巧妙技巧。不为模型增加宽度或深度，而是为每个解码器层配备自己的小型嵌入表。这些表很大但仅用于快速查找。因此“有效”参数量（推理时实际运行的部分）远小于总参数量。E2B 有 5.1B 总参数，但有效参数仅 2.3B。
混合注意力：所有模型都交错使用局部滑动窗口注意力和全局注意力。局部窗口保持推理速度，全局注意力层（始终包括最后一层）保持对长上下文的深度理解。
正确实现的混合专家模型：26B MoE 使用 128 个专家，每个 token 激活 8 个，外加 1 个共享专家。推理时仅激活 3.8B 参数。这让你以 4B 参数模型的速度获得 26B 参数级别的智能。
原生函数调用：非事后添加。Gemma 4 支持结构化 JSON 输出和原生函数调用。这对于构建与外部工具和 API 交互的智能体至关重要。
可配置的思考模式：所有模型都支持内置推理模式。在系统提示中添加 <|think|>，模型会在最终答案前生成逐步推理。不需要深度推理时可禁用以获得更快响应。

Gemma 生态系统已成现实

数据说明一切。4 亿次下载，超过 10 万个社区变体。专业衍生版本包括：

MedGemma：医学影像和临床报告生成
DolphinGemma：海豚声音分析
SignGemma：手语翻译

甚至有研究团队训练 Gemma 4 在 CARLA 模拟器中驾驶，使用多模态工具响应：模型通过摄像头观察道路，决定操作，并从结果中学习。这就是健康开源生态系统的样子。基础模型足够优秀，人们可以在其基础上构建真正新颖的应用。

我的真实看法

我写这篇文章时是持怀疑态度的。我曾对 Google 的开源承诺失望过。但这次的基准测试提升不是渐进式的。Codeforces ELO 从 110 跃升至 2150 是前所未有的。AIME 分数从 20.8% 跃升至 89.2% 不是营销噱头：这是一个根本不同的模型。

Apache 2.0 许可证消除了我最大的顾虑。硬件要求合理，生态系统支持从第一天起就非常完善。这是世界上最好的开源模型吗？31B 模型在 Arena AI 排名第三，不是第一。DeepSeek 和 Qwen 仍有强大产品。但 Google 现在确实具有竞争力。

对于构建本地优先 AI 应用、智能体工作流或设备端智能的开发者：Gemma 4 值得认真考虑。特别是 26B MoE 模型，是这个版本的黑马。开源 AI 战争变得有趣多了。

参考文献

Google DeepMind. “Gemma 4: Byte for byte, the most capable open models.” DeepMind Blog, April 2, 2026. https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/
Google AI for Developers. “Gemma 4 Model Card.” April 2, 2026. https://ai.google.dev/gemma/docs/core/model_card_4
Hugging Face. “Welcome Gemma 4: Frontier multimodal intelligence on device.” April 2, 2026. https://huggingface.co/blog/gemma4
9to5Google. “Google announces open Gemma 4 model with Apache 2.0 license.” April 2, 2026. https://9to5google.com/2026/04/02/google-gemma-4/
SiliconANGLE. “Google’s new Gemma 4 models bring complex reasoning skills to low-power devices.” April 2, 2026. https://siliconangle.com/2026/04/02/googles-new-gemma-4-models-bring-complex-reasoning-skills-low-power-devices/
Engadget. “Google releases Gemma 4, a family of open models built off of Gemini 3.” April 2, 2026. https://www.engadget.com/ai/google-releases-gemma-4-a-family-of-open-models-built-off-of-gemini-3-160000332.html
OfficeChai. “Google Releases Gemma 4 Open Models, Calls Them ‘Best In World’ In Their Category.” April 2, 2026. https://officechai.com/ai/google-releases-gemma-4-open-models-calls-them-best-in-world-in-their-category/
Arm Newsroom. “Gemma 4 on Arm: Accessible, immediate, optimized on-device AI.” April 2, 2026. https://newsroom.arm.com/blog/gemma-4-on-arm-optimized-on-device-ai
Constellation Research. “Google launches Gemma 4 open-source LLM family.” April 2, 2026. https://www.constellationr.com/insights/news/google-launches-gemma-4-open-source-llm-family
OpenAI. “Introducing GPT-5.2.” December 2025. https://openai.com/index/introducing-gpt-5-2/
Vellum AI. “GPT-5.2 Benchmarks (Explained).” December 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks
NxCode. “Claude Opus 4.6 vs Sonnet 4.6: Complete Comparison Guide.” March 2026. https://www.nxcode.io/resources/news/claude-sonnet-4-6-vs-opus-4-6-complete-comparison-2026
AI Tools Review. “Claude Opus 4.6 Review: Benchmarks & Rankings.” March 2026. https://aitoolsreview.co.uk/insights/claude-opus-4-6-deep-dive
Maxime Labonne / Hugging Face. “Kimi K2.5: Still Worth It After Two Weeks?” February 2026. https://huggingface.co/blog/mlabonne/kimik25
VERTU. “Open Source LLM Leaderboard 2026: Rankings, Benchmarks & the Best Models Right Now.” February 2026. https://legacy.vertu.com/lifestyle/open-source-llm-leaderboard-2026-rankings-benchmarks-the-best-models-right-now/
Artificial Analysis. “MMLU-Pro Benchmark Leaderboard.” March 2026. https://artificialanalysis.ai/evaluations/mmlu-pro
PricePerToken. “GPQA Leaderboard 2026.” March 2026. https://pricepertoken.com/leaderboards/benchmark/gpqa

原文链接

Google’s Gemma 4 Changes Everything for Open Source AI

Gemma 4 是什么？#

基准测试数据#

文本基准测试#

视觉基准测试#

长上下文#

Gemma 4 与前沿模型对比如何？#

推理能力：GPQA Diamond（博士级科学问题）#

数学：AIME（竞赛数学）#

知识：MMLU Pro（研究生水平问题）#

编程：SWE-Bench 和 LiveCodeBench#

视觉：MMMU Pro（多模态推理）#

每参数智能表现#

诚实的结论#

为什么 Apache 2.0 改变了一切#

真实情况：Google 与中国在开源 AI 领域的竞争#

本地运行#

Gemma 4 的架构创新#

Gemma 生态系统已成现实#

我的真实看法#

参考文献#

原文链接#