AI 模型加速发展:从架构创新到生态重构的 2026 年 3 月全景报告
模型发展太快了:今天做出的架构和供应商承诺,六个月后可能就过时了。现在能力突出的模型,很多都来自开源项目,还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题:预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世,就表明了替代架构正在成为真正的竞争者;NVIDIA 的新模型结合了 Mamba 和 Transformer 层,也指向了同样的方向。 相关事件 以下汇总了 2026 年 3 月份以来值得关注的模型有关事件: Yann LeCun 和他的团队创建了 LeWorldModel,这是第一个使用他的联合嵌入预测架构(JEPA)且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型;而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super,这是他们最新的开放权重模型。它是一个混合专家模型,拥有 120B 参数,其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计:它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型,旨在支持实时对话。在生成输出时,它会避免出现停顿,并使用类似人类的语调。 Cursor 发布了 Composer 2,这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道,它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6,而且成本显著降低。 Mistral 发布了 Forge 系统,这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4,这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型,每个 token 使用 6B 参数。它是完全开源的,具有 256K 上下文窗口,并针对最小化延迟和最大化吞吐量进行了优化。 ...