Kimi 团队修复了 AI 模型十年未变的结构缺陷

译者:Carl Cui 国产 Kimi 模型的开发团队发现,ChatGPT、Claude、Gemini 和你所使用的其他所有 AI 模型,都存在结构性缺陷。 来自:Avi Chawla via X 我先抛一个可能有点奇怪的问题:ChatGPT、Gemini、Claude、Grok、Llama 和 DeepSeek,这些架构的最深层有什么共同之处?它们都基于一个 2015 年做出的设计决策,而且直到现在,还没有人真正地质疑过这个决策。 2026 年 3 月 16 日,Kimi(月之暗面 LLM)背后的团队,发表了一篇题为 “Attention Residuals” 的论文,指出了现代所有 AI 模型中存在的一个结构性缺陷。 这不是什么基准测试的小把戏、新的数据集,或者更大的GPU集群。这关乎基础架构的改进。 这件事我们一直没碰,因为它一直运行得还可以。Elon Musk 转发了它。Andrej Karpathy,OpenAI 的联合创始人,评论说这篇论文“让我们意识到我们没有完全认真对待 Attention is All You Need 这个标题。” 当 Karpathy 这个级别的研究人员对一篇技术论文做出这样的评价时,就值得我们去了解 Kimi 团队到底发现了什么。 无人质疑的基础设施 你需要对当前 AI 模型如何运作有一个大致的了解,才能理解 Kimi 团队发现了什么。 像 ChatGPT 或 Claude 这样的模型不是单次的计算,它是由连续的处理步骤堆叠而成的,称为层,有时有几十层,有时有几百层。当你向这些模型发送消息时,它会先通过第一层,这一层处理原始的文字。第二层开始识别词语之间的关系。第三层识别结构。到了第十层,模型就能理解意图。到了第五十层,它就能用抽象的方式来推理意义。每一层都增加了深度。每一层都建立在之前的基础上。理论上,模型越深,它的思考就越复杂。 问题在于堆叠层数会带来的训练问题:当模型出错时,一个修正信号需要反向穿过整个堆叠,从最深的层一路回到第一层,来更新每一层的行为。但这个信号在传播过程中会减弱。让它穿过十层,它仍然足够强以发挥作用。但让它穿过一百层,它到达顶层时已经非常微弱,几乎无法推动任何改变。这种现象被称为梯度消失问题 the vanishing gradient problem,以前它对实际可以构建的神经网络的深度构成了重大限制。 2015 年,何恺明和他的同事们设计了一个巧妙的解决方案。他们实现了一个“捷径”,让原始输入可以直接跳过一层,和后续层的输出直接组合,而不是要求每一层都转换输入的数据。这个捷径称为残差连接 residual connection,因为它效果太好,成了后来所有神经网络的标准构件。你今天使用的每个模型,无一例外都依赖于它。 ...

April 11, 2026 · 1 min · Novy Baf

AI 模型加速发展:从架构创新到生态重构的 2026 年 3 月全景报告

模型发展太快了:今天做出的架构和供应商承诺,六个月后可能就过时了。现在能力突出的模型,很多都来自开源项目,还有越来越多国际公司在竞争。这个领域也开始提出更深层的问题:预测 token 可能不是通向高性能 AI 的唯一路径。第一个稳定的 JEPA 模型的问世,就表明了替代架构正在成为真正的竞争者;NVIDIA 的新模型结合了 Mamba 和 Transformer 层,也指向了同样的方向。 相关事件 以下汇总了 2026 年 3 月份以来值得关注的模型有关事件: Yann LeCun 和他的团队创建了 LeWorldModel,这是第一个使用他的联合嵌入预测架构(JEPA)且训练稳定的模型。他们的目标是创造出不仅仅预测词语的模型;而是能理解世界以及它是如何运作的模型。 NVIDIA 发布了 Nemotron 3 Super,这是他们最新的开放权重模型。它是一个混合专家模型,拥有 120B 参数,其中 12B 参数在任何时候都处于活动状态。更有趣的是它的设计:它结合了 Mamba 和 Transformer 层。 Gemini 3.1 Flash Live 是一个新的语音模型,旨在支持实时对话。在生成输出时,它会避免出现停顿,并使用类似人类的语调。 Cursor 发布了 Composer 2,这是其 IDE 的下一代版本。Composer 2 显然整合了 Kimi K2.5 模型。据报道,它在一些主要编码基准测试中击败了 Anthropic 的 Opus 4.6,而且成本显著降低。 Mistral 发布了 Forge 系统,这个系统能让组织能够基于自己的私有数据来构建“前沿级”模型。Forge 支持预训练、后训练和强化学习。 Mistral 还发布了 Mistral Small 4,这是其最新的旗舰多模态模型。Small 4 是一个 119B 混合专家模型,每个 token 使用 6B 参数。它是完全开源的,具有 256K 上下文窗口,并针对最小化延迟和最大化吞吐量进行了优化。 ...

April 9, 2026 · 1 min · Carl Cui

7 种可以满足日常事务的本地 LLM 模型

译者:Carl Cui 开源模型现在可以处理大量日常工作,对于很多像编码、写作、自动化和 AI Agent 的任务来说,本地部署的 LLM 可以替代云端 LLM。并且,每一次发给云端 LLM 的请求都会离开你的电脑,经公共网络发送到云端服务器。对于专有代码库、敏感的原型或者受监管的行业来说,这是不可接受的。本地运行推理服务可以避免数据外流,对于很多团队来说,数据主权本身就值得考虑本地 LLM。 目前,Claude Code 重度用户每月需要支出 100 ~ 200 美元。按照当前的 API 费率,通过 Cline 或 Kilo Code 使用 Claude Sonnet 4.6,每小时大约需要 3 ~ 8 美元。如果你正在运行代理群、大量迭代或者大量子任务,把其中那些日常的任务交给本地模型可以节省大量开支。 除了介绍 7 种本地可以部署的模型,作者也介绍了如何配置 Claude Code 和 Codex,匹配的 Nvidia 和 Mac 硬件,以及部署的注意事项、故障说明和有关的利弊权衡,比如处理延迟、资源需求、API 兼容性、生成代码的可靠性和指令遵循质量等等。 硬件匹配表 本地能够运行的模型受限于拥有的硬件。如果你使用的是 MacBook Air,评估一个 70B 模型是没有意义的。 大多数模型在 Q4_K_M 量化后可以维持其 MMLU 跑分,与全精度相比,分数差距在 1 到 3 分以内。不过,这种退化程度因任务而异,像多步数学推理这样的专业任务,退化程度可能超过 5%。建议从 Q4_K_M 开始。如果你在目标任务上感觉精度不够,可以切换到 Q5_K_M。 1. Qwen3 - 适合编码和多语言 AI Agent 大小:1.7B,7B,14B,32B,72B,235B MoE 硬件:RTX 4060 → Mac M4 → Workstation 本文列出的模型中,Qwen3-7B 的 HumanEval 跑分(76.0)是所有 8B 参数下模型中最高的,比 Llama 3.3 的 72.6 高出 3.4 分。在四个主要语系中,Qwen3 7B 的多语言支持能力最强,在中、日、韩语方面表现尤为突出,在英语方面的表现也很强劲。 ...

April 1, 2026 · 4 min · Agent Native

性能实测:多台 Mac 本地运行 80B 大模型

作者:Manjunath Janardhan 译者:Carl Cui 通常,本地部署 LLM 时需要给 LLM 找一个配置足够好的机器,那么有没有办法反其道而行之?如果你有一堆闲置的设备,能不能把它们的 CPU, GPU 和内存资源整合起来,运行一个它们单独无法处理的模型?作者 Manjunath Janardhan 借助开源工具 exo 在自己的两台 Mac 设备上把 Qwen3-Next-80B 运行了起来,可以达到每秒 70 ~ 80 个 token。 Mac Mini 的设置和负载快照,图片由 Manjunath Janardhan 制作 1. exo 是什么 exo 是一个由 Exo Labs 维护的开源项目,一句话概括:它将你所有的设备连接成个人 AI 集群,让你能够运行任何单台机器都无法容纳的模型。exo 的主要功能如下: 自动设备发现 - 运行 exo 的设备可以在网络上自动相互发现,无需手动配置 支持基于 Thunderbolt 的 RDMA - 在支持的硬件(M4 Pro/Max)上,能够在设备之间实现 99%的延迟降低 拓扑感知自动并行 - exo 根据可用 RAM、CPU、GPU 资源以及节点之间的网络延迟,确定将模型在多个设备之间分割的最佳方式 Tensor 并行 - exo 支持模型分片,在 2 台设备上可加速 1.8 倍,在 4 台设备上可加速 3.2 倍 MLX 支持 - exo 使用 MLX 作为推理后端,并使用 MLX 分布式 进行分布式通信 多 API 兼容性 - 兼容 OpenAI Chat Completions API、Claude Messages API、OpenAI Responses API 和 Ollama API,现有的工具和客户端可以无缝迁移 自定义模型支持 - 从 HuggingFace hub 加载自定义模型,以扩展可用模型范围 支持 54+ 个模型 - 从小型 Llama 模型到 671B DeepSeek 变体 2. Mac Mini M4 + MacBook Pro M4 Max 通过 exo,我配对了两台机器: ...

March 30, 2026 · 3 min · Manjunath Janardhan

本地 LLM 部署:硬件配置指南

作者:MayhemCode 译者:Carl Cui 今天这篇文章是搬运过来的,发表于 2025 年 12 月 17 日,那时候由 AI 引发的硬件通胀已经持续了几个月。到现在,2026 年 3 月底,消费级硬件的价格不仅没有回落,反而在全面涨价的基础上看不到回调的希望。虽然内存价格出现了小幅回调,但是相比 2025 年 9 月,现在的内存价格依然处于历史极高水平:2025 年 9 月份,一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元,现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆,进一步推动了本地部署 LLM 的需求,对于“不想交数据、不想交钱,或者不想等网络”的那群人,本地部署 LLM 永远是一个绕不开的话题。 1. 为什么自托管 AI 是未来 完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的隐私保护、零持续成本,和对模型的完全控制。 现在开源的大语言模型,特别是 Llama 3、DeepSeek R1 和 Mistral,已经足够处理真实工作。问题在于,你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选择高性价比硬件,不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。 译者注:2025 年 12 月到现在,硬件和 LLM 已经出现了很多变化,文章部分内容稍显过时,推荐的配置也是基于当时国外的行情,不过对 LLM 硬件的讲解比较全面,值得一读。 ...

March 29, 2026 · 5 min · MayhemCode