跳到主要内容

推理成本悖论:为何模型越来越便宜,你的 AI 账单却越来越高

· 阅读需 12 分钟
Tian Pan
Software Engineer

2021 年,GPT-3 的价格是每百万 token 60 美元。到 2026 年初,同等性能的模型只需 0.06 美元。三年内降价 1000 倍。与此同时,企业 AI 支出增长了 320%——从 115 亿美元攀升至 370 亿美元。而在 AI 上花费最多的那些组织,恰恰正是从价格下降中受益最大的那批人。

这并不矛盾。这就是杰文斯悖论(Jevons Paradox),而它正在侵蚀你的 AI 预算。

维多利亚时代的煤炭工程师早就知道了

威廉·斯坦利·杰文斯在 1865 年描述了这一机制。随着詹姆斯·瓦特的蒸汽机大幅提升了煤炭燃烧效率,他观察到英国的煤炭总消耗量并未下降——反而激增。更高效的发动机让蒸汽动力在此前无力承担的工厂、矿山、铁路和轮船中变得可行。每单位机械功成本的下降,以远超现有消费减少的速度扩展了经济上可行的用例集合。反弹幅度超过了 100%。

同样的逻辑正在 LLM 推理领域上演。更便宜的 token 并不会以更低的成本替代现有的 AI 工作负载。它们解锁了以前过于昂贵而无法构建的新工作负载。而那些工作负载——智能体循环、多步推理链、多模型流水线——每个任务消耗的 token 数量,远超它们所扩展或替代的简单系统。

当 GPT-4 混合定价为每百万 token 36 美元时,理性的工程师会尽量减少每次 LLM 调用。当同等能力降至每百万 token 0.15 美元时,这个约束消失了,架构模式也随之改变。问题不再是"我们负担得起调用 API 吗?",而变成了"我们应该并行运行三个智能体还是五个?"

Token 倍增机制

价格下降改变了 AI 系统的构建方式,而新的架构在结构上每个用户意图的成本更高。

推理链。 o3、DeepSeek R1 以及扩展思考模式等模型在生成最终答案之前会产生数千个内部推理 token。一个通过 2023 年模型只需 7 个 token 的直接响应,在推理模式激活时现在需要 255–603 个 token。这些按溢价费率计费为输出 token。对所有任务默认使用推理模型的团队,可能正在支付 10–86 倍不必要的费用。

智能体循环。 一个运行规划-执行-验证周期的 ReAct 风格智能体在每一步都会产生 token:分解任务(token)、选择工具(token)、格式化每次工具调用(token)、解析每个结果(token)、如有需要则反思和重新规划(token)、生成最终响应(token)。一个 10 轮的智能体循环消耗的 token 大约是对同一问题单次直接响应的 50 倍。在工具失败时自动重试的框架还会进一步放大这一数字。

上下文窗口饱和。 随着上下文窗口从 4K 扩展到 128K 再到 1M token,应用程序开始填满它们。RAG 流水线每次查询注入 2 万–10 万个检索上下文 token。代码智能体加载整个代码库。客户服务智能体在数十轮对话中携带完整的会话历史。包含一个额外文档的边际成本几乎降为零,于是团队把所有东西都塞进去。

多智能体并行。 编排器-工作器模式同时产生多个专门的子智能体。每个工作器接收其自己的上下文窗口。协调消息在智能体之间传递。最终综合需要额外的 LLM 调用。2023 年的单模型查询在 2026 年变成了多模型编排,总 token 消耗随之成倍增加。

OpenRouter 2025 年 AI 状态报告分析了超过 100 万亿个真实世界 token 的使用情况,直接记录了这一转变。每次请求的平均提示 token 数在 13 个月内增长了 4 倍。平均补全 token 数几乎翻了三倍。到 2025 年中期,推理模型占总 token 消耗的比例超过 50%。每 token 的单位成本下降了;而每任务的 token 倍数上升得更快。

悖论如何在组织中复合

在单个团队层面,规律是:成功的优化节省了钱,省下的钱为新功能提供了依据,新功能采用更丰富的架构,消耗的 token 超过了节省的量。SaaStr 记录了一个具体案例。

一个团队构建了两个 AI 工具。第一个——AI 估值计算器——每次使用成本 0.0002 美元,30 天内处理了 27.5 万次补全,总成本不到 50 美元。第二个——AI 路演分析器——每次使用成本 0.20 美元,针对数兆字节的文档运行五个顺序 API 调用。48 小时内 400 次使用花费了 80 美元,还在持续增加。

构建第一个工具的团队因成本效率而自鸣得意。他们用这些节省来论证构建第二个工具的合理性。他们的总支出上升了。这不是失败。这是正确的产品行为。杰文斯悖论描述的不是浪费——它描述的是效率提升解锁了以前被价格压制的需求。

组织层面的问题在于,大多数 AI 预算建立在错误的模型上。看到"每 token 成本降低了 10 倍"就得出"我们应该少花 10 倍"的 CFO,是在建模一个 token 消耗固定的世界。实际上,在 AI 优化上花费最激进的团队,其消耗增长最快,因为他们是构建最多的团队。

在宏观层面:到 2025 年,推理市场从零增长到 1060 亿美元,到 2030 年预计达到 2550 亿美元。Gartner 预测到 2030 年前沿模型推理成本将降低 90% 以上——同时预测 40% 的 AI 智能体项目将因成本超支而在 2027 年前被取消。这两个预测都是连贯的。更便宜的推理催生了更雄心勃勃的项目;更雄心勃勃的项目通常严重低估自身的消耗。

团队实际遭遇的失败模式

来自隐形循环的 Token 海啸。 最常见的上线后灾难是智能体重试逻辑将消耗放大 3–7 倍,远超开发阶段的估算。没有退避的错误重试循环、冗余的上下文重载以及本可顺序执行的并行工具调用,悄无声息地叠加在一起。一个有据可查的案例:一次审计发现冗余账户历史调用(+30% token)和重试循环(+40% token)在每次智能体运行时增加了 70% 的开销。循环剪枝花了两周时间,将月支出从 1.5 万美元降至 4500 美元。

开发成本谬误。 团队在开发阶段每天测试 100 次查询,即使是昂贵的架构每天也只花 5 美元。他们错误地将此外推到生产环境。一个欺诈检测智能体每次请求 0.13 美元(13500 个 token),1 万用户每天发出 10 次请求,基线月成本为 39 万美元,加上重试开销后攀升至 78 万–120 万美元。单位经济学看起来很便宜;产品经济学却并非如此。

推理模型作为默认选项。 一旦团队在困难任务上体验了 o3 或扩展思考模式带来的质量提升,他们就会将其普遍应用。大约 83% 以前路由到标准模型的任务,从完整推理链中获得的可测量收益微乎其微。证明这一切换合理性的开发者基准,并不能代表生产流量分布。

无界限的上下文积累。 朴素的消息历史追加——在每次新提示中包含所有之前的轮次——随着对话长度产生 O(n²) 的 token 增长。一次 10 轮对话的成本是 10 次独立查询的 5 倍。大多数框架默认包含完整历史。修复方法是滚动摘要,以 60–80% 的上下文缩减率捕获连续性,同时对质量影响极小。

固定费率订阅风险。 提供商提供固定费率定价以加速采用。当消耗具有弹性时,这在结构上是不可持续的。Anthropic 的 Claude Code Max 无限套餐每月 200 美元,当高级用户消耗的 token 量按标准费率计算要花费数千美元时,这一模式就失败了。在固定费率套餐上构建产品、然后在提供商重新定价时面临利润压缩的团队,没有架构上的退路。

能经受住考验的预算架构

正确的模型将 AI 推理视为具有弹性需求的基础设施——而非具有固定运行时成本的软件。在规模上站得住脚的预算模式遵循一致的结构。

按功能分配 Token 预算。 根据预期量和可接受的每次交互成本上限,为每个产品功能分配月度 token 预算。预算耗尽触发优雅降级,而非无限支出。关于 token 预算感知推理的研究(TALE)表明,给模型明确的 token 预算可将消耗减少 59–68%,同时准确率损失不超过 5%——知道自己有预算的模型会变得更有效率。

分层模型路由。 按任务复杂度路由,而不是对所有内容默认使用最强大的模型。典型的生产分布——60% 简单任务、25% 中等、12% 复杂、3% 前沿——与将所有流量路由到前沿模型相比,节省了 80% 的成本。路由逻辑不需要复杂;一个轻量级分类器或基于规则的过滤器就足够了。

提示缓存作为基础设施。 对于在每次调用时重新发送大型系统提示和工具清单的智能体工作流,提示缓存是可用的单一最高 ROI 优化。Anthropic 的提示缓存折扣是缓存命中的 90%(5 分钟 TTL);OpenAI 提供 50%;Google 提供 75%。以 90% 的缓存命中率和 90% 的折扣,有效输入 token 成本下降 81%。对于在每一步都重新发送 1 万个 token 系统提示的编码智能体,仅这一项改变就超过了任何模型切换带来的成本降低。

成本熔断器。 硬性的每会话成本限制防止失控的智能体循环变成失控的账单。在时间窗口内,一旦累计成本超过阈值,立即终止任何会话。这对生产智能体系统是不可妥协的。没有它,一个卡住的智能体可能在一个下午花掉你整个月的预算。

场景模型预测。 正确的规划启发式不是"单位成本 × 当前量",而是"当前支出 × 增长倍数",其中倍数考虑了新用例、现有用例的量增长以及模型升级周期。一个实用的三场景方法:保守型(当前的 1.3 倍,无新应用)、预期型(1.8–2.2 倍,计划中的应用上线)、激进型(2.5–3 倍,新一代模型改变成本基准)。按预期型预算;为激进型预留预先批准的应急资金。按保守型预算的团队,下半年都在危机管理中度过。

悖论对你真正意味着什么

杰文斯悖论不是一个需要解决的问题。它是有效 AI 投资的正确结果。当价格下降时总 AI 支出仍增长的团队,是那些在构建以前不可能实现的东西的团队。

可操作的问题不是"我们如何花得更少?",而是"我们如何花得成比例?"——每个结果的成本(每个完成任务的成本、每次成功解决的成本、每单位用户价值交付的成本)应该随着总支出上升而改善。如果没有改善,你有一个消耗问题:架构浪费、token 海啸、在简单任务上默认使用推理模型。

如果在改善,你有一个被伪装成成本问题的采用问题。CFO 看到账单上涨,得出低效的结论。正确的结论是产品在运转,使用量在增长。这需要不同的干预措施。

做到这一点的团队同时检测两个维度:总支出(对财务重要的数字)和每结果成本(告诉你支出是否有效的数字)。只优化其中一个,要么产生预算危机,要么产生投资不足。构建持久 AI 基础设施的组织学会了同时说两种语言。

杰文斯当年在看维多利亚时代英国的煤炉。他会立刻认出你的 Grafana 仪表盘。

References:Let's stay in touch and Follow me for more thoughts and updates