Model

Claude Fable 5 发布了，Claude Fable 5 下线了，这是在 2026 年 6 月初发生在前后脚的事情。 Anthropic 在 2026 年 6 月 9 日发布了 Claude Fable 5。它被称为一个带有安全限制的 Mythos 模型，面向 Pro、Max、Team 和 Enterprise 用户开放，本来这个开放窗口就很短：从 6 月 23 日开始，Fable 5 不再包含在默认订阅计划中，而是要消耗额外额度。然后没几天，美国政府以国家安全为由，对 Anthropic 的 Fable 5 和 Mythos 5 实施出口管制，限制外国政府、外国公司和非美国人员访问这些模型。由于 Anthropic 难以在现有系统中可靠地区分用户国籍和访问资格，最终选择暂停所有客户对这两个模型的访问。这个新闻当然炸裂。它牵涉模型能力、安全边界、出口管制、地缘政治等等因素。但我想谈的是另一个问题：即使 Fable 5 没有下线，我们真的应该默认使用最强模型吗？ Fable 到底是贵，还是便宜？ Fable 5 发布后，围绕它的一个很有意思的讨论是“它到底值不值”。乍一看，像是在讨论价格，其实是跟工程决断有关。国外 Mitchell Hashimoto 在社交媒体分享过一个的测试，他让 Fable、GPT-5.5 和 GLM-5.1 处理普通的“实现这个功能”类的编码任务，最终三个模型都给出了可接受的结果。不过成本差距非常明显：GLM-5.1 不到 1 美元，GPT-5.5 大约 1.50 美元，而 Fable 跑了 40 分钟，花了 9 美元。 ...

我们在讨论大模型时，经常会听到这样一些说法： “这个模型有 7B 参数。” “把权重下载下来就能本地跑。” “这个模型是开放权重，不是完全开源。” “量化之后权重变小了，但效果可能会下降。” 这些说法里反复出现一个词：权重（model weights）。它听起来很底层，像是机器学习工程师需要关心的东西。但如果你想真正理解大模型是怎么运行的，模型权重其实是最值得先搞清楚的概念之一。简单说，模型权重就是模型训练之后保存下来的大量数值，它们共同构成了模型“学到的能力”。这句话很短，但背后有不少东西可以展开。模型不是一段规则，而是一大堆参数很多人第一次接触 AI 时，会下意识地把模型想象成一套规则系统。比如：如果用户问“法国首都是哪里”，就回答“巴黎”。如果用户问“苹果是什么”，就根据上下文判断是水果还是公司。如果用户要求写诗，就调用某种写诗模板。但现代大语言模型不是这样工作的。它不是由工程师手写了亿万条规则，也不是一个巨大的问答数据库。它更像是一个巨大的数学函数。你输入一段文字，模型把文字切成 token，然后经过一层又一层计算，最后预测下一个 token 最可能是什么。比如你输入：巴黎是法国的模型会计算出下一个 token 的概率分布。它可能认为： “首都” 概率很高 “城市” 概率也不低 “总统” 概率很低 “香蕉” 概率几乎没有这个判断不是来自某一条明确规则，而是来自模型内部海量参数共同参与的计算。这些参数，就是我们说的模型权重。权重到底长什么样？权重在文件里并不像一本百科全书，也不像一堆可读的句子。它们本质上就是大量数字。大概可以想象成这样： 0.0182 -0.4417 1.2093 0.0008 -2.1349 ... 当然，真实模型里的权重不是简单排成一列，而是组织成很多矩阵和张量。Transformer 的不同模块里都有各自的权重，比如注意力层（attention layer）的权重、前馈网络（feed-forward network / FFN）的权重、词嵌入矩阵（token embedding matrix）的权重等等。这些名字听起来很工程化，但本质上仍然是一批批数值。它们只是处在模型的不同计算环节纸中：有的负责建模 token 之间的关系，有的负责非线性变换，有的负责把 token 映射成向量表示。在直觉上，你可以先把它理解成：模型内部有无数个旋钮，训练就是调整这些旋钮，权重就是每个旋钮最终停在哪个位置。一个 7B 模型，大约有 70 亿个这样的参数。一个 70B 模型，大约有 700 亿个参数。这也是为什么大模型文件那么大，因为你不是下载一段代码，而是在下载几十亿、几百亿个数值。 ...

Model

AI Agent 时代，模型选择比模型崇拜更重要

AI 101: 什么是模型权重