Gemini Generated Image 138szz138szz138s

Claude Fable 5 发布了,Claude Fable 5 下线了,这是在 2026 年 6 月初发生在前后脚的事情。

Anthropic 在 2026 年 6 月 9 日发布了 Claude Fable 5。它被称为一个带有安全限制的 Mythos 模型,面向 Pro、Max、Team 和 Enterprise 用户开放,本来这个开放窗口就很短:从 6 月 23 日开始,Fable 5 不再包含在默认订阅计划中,而是要消耗额外额度。

然后没几天,美国政府以国家安全为由,对 Anthropic 的 Fable 5 和 Mythos 5 实施出口管制,限制外国政府、外国公司和非美国人员访问这些模型。由于 Anthropic 难以在现有系统中可靠地区分用户国籍和访问资格,最终选择暂停所有客户对这两个模型的访问。

这个新闻当然炸裂。它牵涉模型能力、安全边界、出口管制、地缘政治等等因素。

但我想谈的是另一个问题:即使 Fable 5 没有下线,我们真的应该默认使用最强模型吗?

Fable 到底是贵,还是便宜?

Fable 5 发布后,围绕它的一个很有意思的讨论是“它到底值不值”。乍一看,像是在讨论价格,其实是跟工程决断有关。

国外 Mitchell Hashimoto 在社交媒体分享过一个的测试,他让 Fable、GPT-5.5 和 GLM-5.1 处理普通的“实现这个功能”类的编码任务,最终三个模型都给出了可接受的结果。不过成本差距非常明显:GLM-5.1 不到 1 美元,GPT-5.5 大约 1.50 美元,而 Fable 跑了 40 分钟,花了 9 美元。

如果只看这个任务,Fable 显然太贵了。

他又给了 Fable 一个更难的问题:优化一个用 Go 写的 SwiftUI 布局解析器。这个任务不是普通的代码生成,而是需要理解系统结构、找到性能瓶颈,并做出高质量优化。Fable 最终花了两个小时,成本大约 40 美元,做出了 Mitchell Hashimoto 认为他自己很难手动完成的性能改进。

这个时候,40 美元还贵吗?如果它替代的是几小时甚至几天的高级工程师时间,它可能不但不贵,反而非常便宜。

问题不在于 Fable 的绝对价格,而在于你把它用在了什么任务上。同一个模型,在普通任务里可能贵得离谱,在高价值任务里又可能便宜得惊人。这不是矛盾,而是模型路由的核心。

最强模型没必要事必躬亲

过去讨论模型的时候,我们经常会问一个问题:谁最强?

这个问题在单轮对话时代还算有用。你打开一个聊天窗口,输入问题,等待答案。模型越强,体验通常越好。但对于 Agent 工作流,答案不是这样简单直接。一个真实的 AI 编码任务,往往包含很多步骤:理解需求、阅读代码、制定方案、修改文件、运行测试、分析错误、再次修复、生成总结。它不是一次回答,而是一组循环。每一步都调用最强模型,当然省心,但也可能非常浪费。

更合理的做法是分工。

强模型适合做规划、架构判断、复杂推理和最终审查。便宜、快速、稳定的模型适合处理执行型任务,比如常规代码修改、格式调整、文档整理、简单测试分析。工具、脚本和静态检查则适合处理确定性更强的部分。

这就是所谓的模型路由:根据任务类型、成本、风险和质量要求,把不同环节交给最合适的模型。

它不是为了省钱而牺牲质量,而是把昂贵的智能用在最有杠杆的位置。

AI 工作流正在从 Prompt Engineering 变成 Loop Engineering

Prompt engineering 关注的是如何写好一次输入,让模型给出更好的输出。

但 Agent 时代的问题已经变了。我们不再只是写 prompt,而是在设计一个循环:模型读取状态,做出决策,采取行动,观察结果,再进入下一轮。这个循环里有很多隐含选择:谁来规划?谁来执行?谁来验证?失败后谁来接手?上下文太长时谁来压缩?成本失控时谁来降级?

这些选择加起来,就是真正的 AI 工程实践。

所以,高效使用 AI 的人,未必是最会追最新模型的人,而是最会调度模型的人。他知道哪些环节值得用最强模型,哪些环节应该交给便宜模型,哪些环节根本不该用大模型,而该用测试、规则、脚本或静态分析工具。

模型越多,价格越动态,模型路由能力就越重要

降价不会消除模型选择问题,反而会让它更复杂。因为每一次价格变化,都会重新改变“哪个模型适合哪个任务”的答案。模型能力在变,价格在变,可用性也在变。Fable 5 的下线事件又提醒我们:模型并不是稳定的基础设施,它也可能受到容量、政策、安全和商业策略的影响。

模型崇拜会让成本变高,模型路由会让人变强

很多人使用 AI 的方式仍然很直觉:哪个模型最强,就默认选哪个。

这个习惯在早期没有太大问题,因为任务短、模型少、成本感知也不强。但当 AI 开始进入真实工程工作流,尤其是进入编码、数据分析、研究和企业自动化之后,这种习惯会越来越贵。

模型崇拜关心的是排名:谁最强,谁 benchmark 更高,谁刚刚发布。

模型路由关心的是匹配:这个任务需要什么能力?失败成本有多高?速度是否重要?输出是否需要审查?上下文是否会膨胀?有没有更便宜的模型能完成 80% 的工作?

前者把模型当偶像,后者把模型当资源。

这可能是 AI Agent 时代最重要的变化之一。我们不再只是“使用一个 AI”,而是在管理一组能力不同、成本不同、可靠性不同、可用性也不同的模型。人的角色也随之变化:从提示词编写者,变成一个小型智能团队的调度者。

所以,真正值得问的问题已经不是:

哪个模型最强?

而是:

这个任务,值得用最强模型吗?

参考来源