模型发展太快了:今天做出的架构和供应商承诺,六个月后可能就过时了。现在能力突出的模型,很多都来自开源项目,还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题:预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世,就表明了替代架构正在成为真正的竞争者;NVIDIA 的新模型结合了 Mamba 和 Transformer 层,也指向了同样的方向。
相关事件
以下汇总了 2026 年 3 月份以来值得关注的模型有关事件:
Yann LeCun 和他的团队创建了 LeWorldModel,这是第一个使用他的联合嵌入预测架构(JEPA)且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型;而是能理解世界以及它是如何运作的模型。
NVIDIA 发布了 Nemotron 3 Super,这是他们最新的开放权重模型。它是一个混合专家模型,拥有 120B 参数,其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计:它结合了 Mamba 和 Transformer 层。
Gemini 3.1 Flash Live 是一个新的语音模型,旨在支持实时对话。在生成输出时,它会避免出现停顿,并使用类似人类的语调。
Cursor 发布了 Composer 2,这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道,它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6,而且成本显著降低。
Mistral 发布了 Forge 系统,这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。
Mistral 还发布了 Mistral Small 4,这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型,每个 token 使用 6B 参数。它是完全开源的,具有 256K 上下文窗口,并针对最小化延迟和最大化吞吐量进行了优化。
NVIDIA 宣布了自己的 OpenClaw 发行版 NemoClaw,它将 OpenClaw 集成到 NVIDIA 的技术栈中。它声称提高了安全性。当然,它在 NVIDIA 云端进行推理。
不仅仅是 OpenClaw;还有 NanoClaw、Klaus、PiClaw、Kimi Claw 和其他。其中一些是克隆,一些是 OpenClaw 发行版,还有一些是运行 OpenClaw 的云服务。它们几乎都声称提高了安全性。
Anthropic 宣布 Claude Opus 4.6 和 Sonnet 4.6 中的 100 万 token 上下文窗口已正式可用。使用大窗口不会产生额外费用。
Microsoft 发布了 Phi-4-reasoning-vision-15B。它是一个小型开放权重模型,结合了推理和多模态能力。他们认为行业正朝着更小、更快的本地运行模型发展。
Tomasz Tunguz 写道,Qwen3.5-9B 可以在笔记本上运行,其基准测试结果与 2025 年 12 月的前沿模型相当。与在云端运行前沿模型相比,在笔记本电脑上运行本地模型不到一个月就能收回成本。
OpenAI 发布了 GPT 5.4,它将 Codex 增强编码模型合并回产品的主流中。它还包含了 1M token 上下文窗口、计算机使用功能和发布计划的功能(该计划可在行动前进行中途修改)。
TweetyBERT 是一个鸟类语言模型。它将鸟鸣(实验中用的是金丝雀)分解成音节,无需人工标注。研究人员认为,他们或许可以用这种技术来理解人类是如何学习语言的。
Vera 是一种新的编程语言,它的设计目的是让 AI 能够用它来编写代码。与为人类易于使用而设计的语言不同,Vera 旨在帮助 AI 处理那些 AI 觉得困难的编程方面。一切都是显式的,状态变化是声明的,每个函数都有契约(也就是明确的规则)。
Potato Prompt 是一种让 GPT 模型充当评论者而不是简单附和者的技术。其想法是创建一个自定义指令,告诉 GPT 在提示中出现“potato”一词时要严厉批评。该技术可能也适用于其他模型。