“够用就好”的模型选择陷阱:为什么你的团队在为 AI 支付冤枉钱
大多数团队发布第一个 AI 功能时都会使用最好的模型,因为演示(demo)就是在那上面跑的,而且没人有时间深入思考。接着第二个功能也用了同样的模型。然后是第三个。六个月后,每个功能的每次调用都指向了前沿层级(frontier tier)——而账单比实际需要的数额高出五到十倍。
令人不安的事实是,你的生产系统处理的 40%–60% 的请求根本不需要前沿级别的推理。它们只需要称职的文本处理。而购买称职的文本处理服务的成本要低得多。
默认设置是如何形成的
这种模式在工程团队中非常普遍:工程师使用最好的模型构建原型,因为这在探索新能力时可以最大限度地减少变量。原型发布了。产品部门很满意。工程团队继续进行下一个项目。没有人回头去问,模型选择是否真的是关键支撑。
存在一些组织力量让这种现状变得难以改变。保留昂贵模型的理由很容易提出:“它能提供最好的结果,我们不想让质量退化,客户很满意。” 而切换模型的理由则很难陈述:“我们认为可以削减成本,但可能会引入细微的质量下降。” 不对称的风险容忍度意味着默认选择几乎总是胜出。
结果就是,团队最终为意图分类、格式转换、从格式良好的输入中提取结构化数据以及短文档摘要等任务支付了前沿模型的价格——而这些任务并不能从额外的推理能力中获得明显的益处。
任务复杂度审计
在进行任何路由更改之前,你需要了解你的系统实际上在做什么。抽取 200–500 个最近的请求样本,并根据它们所需的推理类型对每一个进行分类。
大多数生产系统都有三个桶:
模式匹配任务 (Pattern-matching tasks) 需要识别结构、提取字段、分类意图和转换格式。输入有一个明确的正解,能力较小的模型可以可靠地生成。示例:从结构化表单中提取实体、将支持工单路由到正确的类别、将 JSON 从一种 schema 转换为另一种、总结固定模板的报告。
组合任务 (Compositional tasks) 需要结合跨来源的信息,或生成同时满足多个约束的连贯输出。当中型模型的约束明确且上下文结构良好时,它们可以可靠地处理这些任务。示例:使用提供的信息起草回复、解释代码更改、从检索到的文档中合成简短报告。
推理密集型任务 (Reasoning-intensive tasks) 需要跨多个步骤保持持续的 逻辑连贯性、在没有明显模式可匹配的情况下解决新颖问题,或者在正确答案空间定义不明确的情况下做出判断。这些是前沿模型体现其溢价的地方。示例:权衡模糊的架构决策、利用不完整的信息进行多步调试、从复杂证据中生成新颖假设。
当团队诚实地进行这项审计时,通常的模式是:模式匹配任务占业务量的 40%–60%,组合任务占 30%–40%,而推理密集型任务占比不到 20%。大多数账单恐怖故事都源于将模式匹配流量路由到了前沿模型,因为没有人做出这种区分。
价格算术
不同层级之间的成本差距不是可以忽略不计的。截至 2026 年,一个代表性的成本阶梯如下:
- Haiku 层级 (Claude Haiku, Gemini Flash, GPT-4o mini):每百万输入/输出 token 约为 4
- Sonnet 层级 (Claude Sonnet, GPT-4o):每百万 token 约为 15
- Opus 层级 (Claude Opus, GPT-5, o3):每百万 token 约为 75
一个每天处理 1,000 次对话的聊天机器人,在高效层级上的成本约为每月 50。而在前沿层级上,同样的工作负载每月需要 3,000。对于类似规模的文档处理,前沿层级的成本可能比高效层级的替代方案高出 90 倍,而两者产生的用户结果却是等效的。
一个来自生产级代码代理基础设施的真实案例:应用三层路由——Opus 用于架构规划,Sonnet 用于实现,Haiku 用于文件导航和简单编辑——与全部在 Opus 上运行相比,单次会话成本降低了 51%。 昂贵的模型仍在运行,它只是被用在了真正需要它的工作中。
对级联 LLM 系统(cascaded LLM systems)的研究发现,结合路由和升级机制,可以以 24% 的前沿模型成本实现 97% 的前沿模型准确率。这 3% 的差距通常处于其他系统级波动的噪声范围内,且远低于大多数任务类别中用户可察觉的质量差异。
为什么“演示效果很好”是一个糟糕的校准信号
演示是模型层级选择中最糟糕的信号,原因有两点。
首先,演示是经过精挑细选的。你记住的是令利益相关者印象深刻的回答,而不是那五十个表现尚可的回答。当前沿模型比 Sonnet 模型产生稍显优雅的输出时,这在开发过程中的侧向对比中是可见的。但对于只看到一个回答的用户来说,它是不可见的。
其次,演示测试的是展示场景,而不是生产分布。前沿模型在困难案例上赢得优势——模糊的输入、边缘情况、需要长上下文真实推理的请求。这些只占生产量的一小部分。而在真实流量中占据主导地位的模式匹配请求,在不同层级之间并不会产生明显不同的输出。
正确的校准信号是实际条件下的用户行为。修改率、后续请求率、会话放弃率、任务完成率——这些衡量的是用户是否得到了他们需要的,而不是输出在受控对比中是否达到了最大程度的令人印象深刻。
