AI Agent 时代,模型选择比模型崇拜更重要

Claude Fable 5 发布了,Claude Fable 5 下线了,这是在 2026 年 6 月初发生在前后脚的事情。 Anthropic 在 2026 年 6 月 9 日发布了 Claude Fable 5。它被称为一个带有安全限制的 Mythos 模型,面向 Pro、Max、Team 和 Enterprise 用户开放,本来这个开放窗口就很短:从 6 月 23 日开始,Fable 5 不再包含在默认订阅计划中,而是要消耗额外额度。 然后没几天,美国政府以国家安全为由,对 Anthropic 的 Fable 5 和 Mythos 5 实施出口管制,限制外国政府、外国公司和非美国人员访问这些模型。由于 Anthropic 难以在现有系统中可靠地区分用户国籍和访问资格,最终选择暂停所有客户对这两个模型的访问。 这个新闻当然炸裂。它牵涉模型能力、安全边界、出口管制、地缘政治等等因素。 但我想谈的是另一个问题:即使 Fable 5 没有下线,我们真的应该默认使用最强模型吗? Fable 到底是贵,还是便宜? Fable 5 发布后,围绕它的一个很有意思的讨论是“它到底值不值”。乍一看,像是在讨论价格,其实是跟工程决断有关。 国外 Mitchell Hashimoto 在社交媒体分享过一个的测试,他让 Fable、GPT-5.5 和 GLM-5.1 处理普通的“实现这个功能”类的编码任务,最终三个模型都给出了可接受的结果。不过成本差距非常明显:GLM-5.1 不到 1 美元,GPT-5.5 大约 1.50 美元,而 Fable 跑了 40 分钟,花了 9 美元。 ...

June 15, 2026 · 1 min · Carl Cui

AI 101: 什么是模型权重

我们在讨论大模型时,经常会听到这样一些说法: “这个模型有 7B 参数。” “把权重下载下来就能本地跑。” “这个模型是开放权重,不是完全开源。” “量化之后权重变小了,但效果可能会下降。” 这些说法里反复出现一个词:权重(model weights)。它听起来很底层,像是机器学习工程师需要关心的东西。但如果你想真正理解大模型是怎么运行的,模型权重其实是最值得先搞清楚的概念之一。 简单说,模型权重就是模型训练之后保存下来的大量数值,它们共同构成了模型“学到的能力”。这句话很短,但背后有不少东西可以展开。 模型不是一段规则,而是一大堆参数 很多人第一次接触 AI 时,会下意识地把模型想象成一套规则系统。 比如: 如果用户问“法国首都是哪里”,就回答“巴黎”。 如果用户问“苹果是什么”,就根据上下文判断是水果还是公司。 如果用户要求写诗,就调用某种写诗模板。 但现代大语言模型不是这样工作的。它不是由工程师手写了亿万条规则,也不是一个巨大的问答数据库。它更像是一个巨大的数学函数。 你输入一段文字,模型把文字切成 token,然后经过一层又一层计算,最后预测下一个 token 最可能是什么。比如你输入: 巴黎是法国的 模型会计算出下一个 token 的概率分布。它可能认为: “首都” 概率很高 “城市” 概率也不低 “总统” 概率很低 “香蕉” 概率几乎没有 这个判断不是来自某一条明确规则,而是来自模型内部海量参数共同参与的计算。 这些参数,就是我们说的模型权重。 权重到底长什么样? 权重在文件里并不像一本百科全书,也不像一堆可读的句子。它们本质上就是大量数字。 大概可以想象成这样: 0.0182 -0.4417 1.2093 0.0008 -2.1349 ... 当然,真实模型里的权重不是简单排成一列,而是组织成很多矩阵和张量。Transformer 的不同模块里都有各自的权重,比如注意力层(attention layer)的权重、前馈网络(feed-forward network / FFN)的权重、词嵌入矩阵(token embedding matrix)的权重等等。 这些名字听起来很工程化,但本质上仍然是一批批数值。它们只是处在模型的不同计算环节纸中:有的负责建模 token 之间的关系,有的负责非线性变换,有的负责把 token 映射成向量表示。 在直觉上,你可以先把它理解成:模型内部有无数个旋钮,训练就是调整这些旋钮,权重就是每个旋钮最终停在哪个位置。 一个 7B 模型,大约有 70 亿个这样的参数。一个 70B 模型,大约有 700 亿个参数。这也是为什么大模型文件那么大,因为你不是下载一段代码,而是在下载几十亿、几百亿个数值。 ...

June 13, 2026 · 2 min · Carl Cui