Kimi 团队修复了 AI 模型十年未变的结构缺陷
译者:Carl Cui 国产 Kimi 模型的开发团队发现,ChatGPT、Claude、Gemini 和你所使用的其他所有 AI 模型,都存在结构性缺陷。 来自:Avi Chawla via X 我先抛一个可能有点奇怪的问题:ChatGPT、Gemini、Claude、Grok、Llama 和 DeepSeek,这些架构的最深层有什么共同之处?它们都基于一个 2015 年做出的设计决策,而且直到现在,还没有人真正地质疑过这个决策。 2026 年 3 月 16 日,Kimi(月之暗面 LLM)背后的团队,发表了一篇题为 “Attention Residuals” 的论文,指出了现代所有 AI 模型中存在的一个结构性缺陷。 这不是什么基准测试的小把戏、新的数据集,或者更大的GPU集群。这关乎基础架构的改进。 这件事我们一直没碰,因为它一直运行得还可以。Elon Musk 转发了它。Andrej Karpathy,OpenAI 的联合创始人,评论说这篇论文“让我们意识到我们没有完全认真对待 Attention is All You Need 这个标题。” 当 Karpathy 这个级别的研究人员对一篇技术论文做出这样的评价时,就值得我们去了解 Kimi 团队到底发现了什么。 无人质疑的基础设施 你需要对当前 AI 模型如何运作有一个大致的了解,才能理解 Kimi 团队发现了什么。 像 ChatGPT 或 Claude 这样的模型不是单次的计算,它是由连续的处理步骤堆叠而成的,称为层,有时有几十层,有时有几百层。当你向这些模型发送消息时,它会先通过第一层,这一层处理原始的文字。第二层开始识别词语之间的关系。第三层识别结构。到了第十层,模型就能理解意图。到了第五十层,它就能用抽象的方式来推理意义。每一层都增加了深度。每一层都建立在之前的基础上。理论上,模型越深,它的思考就越复杂。 问题在于堆叠层数会带来的训练问题:当模型出错时,一个修正信号需要反向穿过整个堆叠,从最深的层一路回到第一层,来更新每一层的行为。但这个信号在传播过程中会减弱。让它穿过十层,它仍然足够强以发挥作用。但让它穿过一百层,它到达顶层时已经非常微弱,几乎无法推动任何改变。这种现象被称为梯度消失问题 the vanishing gradient problem,以前它对实际可以构建的神经网络的深度构成了重大限制。 2015 年,何恺明和他的同事们设计了一个巧妙的解决方案。他们实现了一个“捷径”,让原始输入可以直接跳过一层,和后续层的输出直接组合,而不是要求每一层都转换输入的数据。这个捷径称为残差连接 residual connection,因为它效果太好,成了后来所有神经网络的标准构件。你今天使用的每个模型,无一例外都依赖于它。 ...