Radar

模型发展太快了：今天做出的架构和供应商承诺，六个月后可能就过时了。现在能力突出的模型，很多都来自开源项目，还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题：预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世，就表明了替代架构正在成为真正的竞争者；NVIDIA 的新模型结合了 Mamba 和 Transformer 层，也指向了同样的方向。相关事件以下汇总了 2026 年 3 月份以来值得关注的模型有关事件： Yann LeCun 和他的团队创建了 LeWorldModel，这是第一个使用他的联合嵌入预测架构（JEPA）且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型；而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super，这是他们最新的开放权重模型。它是一个混合专家模型，拥有 120B 参数，其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计：它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型，旨在支持实时对话。在生成输出时，它会避免出现停顿，并使用类似人类的语调。 Cursor 发布了 Composer 2，这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道，它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6，而且成本显著降低。 Mistral 发布了 Forge 系统，这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4，这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型，每个 token 使用 6B 参数。它是完全开源的，具有 256K 上下文窗口，并针对最小化延迟和最大化吞吐量进行了优化。 ...