跳到主要内容

推理成本悖论:为何模型越来越便宜,你的 AI 账单却越来越高

· 阅读需 12 分钟
Tian Pan
Software Engineer

2021 年,GPT-3 的价格是每百万 token 60 美元。到 2026 年初,同等性能的模型只需 0.06 美元。三年内降价 1000 倍。与此同时,企业 AI 支出增长了 320%——从 115 亿美元攀升至 370 亿美元。而在 AI 上花费最多的那些组织,恰恰正是从价格下降中受益最大的那批人。

这并不矛盾。这就是杰文斯悖论(Jevons Paradox),而它正在侵蚀你的 AI 预算。

维多利亚时代的煤炭工程师早就知道了

威廉·斯坦利·杰文斯在 1865 年描述了这一机制。随着詹姆斯·瓦特的蒸汽机大幅提升了煤炭燃烧效率,他观察到英国的煤炭总消耗量并未下降——反而激增。更高效的发动机让蒸汽动力在此前无力承担的工厂、矿山、铁路和轮船中变得可行。每单位机械功成本的下降,以远超现有消费减少的速度扩展了经济上可行的用例集合。反弹幅度超过了 100%。

同样的逻辑正在 LLM 推理领域上演。更便宜的 token 并不会以更低的成本替代现有的 AI 工作负载。它们解锁了以前过于昂贵而无法构建的新工作负载。而那些工作负载——智能体循环、多步推理链、多模型流水线——每个任务消耗的 token 数量,远超它们所扩展或替代的简单系统。

当 GPT-4 混合定价为每百万 token 36 美元时,理性的工程师会尽量减少每次 LLM 调用。当同等能力降至每百万 token 0.15 美元时,这个约束消失了,架构模式也随之改变。问题不再是"我们负担得起调用 API 吗?",而变成了"我们应该并行运行三个智能体还是五个?"

Token 倍增机制

价格下降改变了 AI 系统的构建方式,而新的架构在结构上每个用户意图的成本更高。

推理链。 o3、DeepSeek R1 以及扩展思考模式等模型在生成最终答案之前会产生数千个内部推理 token。一个通过 2023 年模型只需 7 个 token 的直接响应,在推理模式激活时现在需要 255–603 个 token。这些按溢价费率计费为输出 token。对所有任务默认使用推理模型的团队,可能正在支付 10–86 倍不必要的费用。

智能体循环。 一个运行规划-执行-验证周期的 ReAct 风格智能体在每一步都会产生 token:分解任务(token)、选择工具(token)、格式化每次工具调用(token)、解析每个结果(token)、如有需要则反思和重新规划(token)、生成最终响应(token)。一个 10 轮的智能体循环消耗的 token 大约是对同一问题单次直接响应的 50 倍。在工具失败时自动重试的框架还会进一步放大这一数字。

上下文窗口饱和。 随着上下文窗口从 4K 扩展到 128K 再到 1M token,应用程序开始填满它们。RAG 流水线每次查询注入 2 万–10 万个检索上下文 token。代码智能体加载整个代码库。客户服务智能体在数十轮对话中携带完整的会话历史。包含一个额外文档的边际成本几乎降为零,于是团队把所有东西都塞进去。

多智能体并行。 编排器-工作器模式同时产生多个专门的子智能体。每个工作器接收其自己的上下文窗口。协调消息在智能体之间传递。最终综合需要额外的 LLM 调用。2023 年的单模型查询在 2026 年变成了多模型编排,总 token 消耗随之成倍增加。

OpenRouter 2025 年 AI 状态报告分析了超过 100 万亿个真实世界 token 的使用情况,直接记录了这一转变。每次请求的平均提示 token 数在 13 个月内增长了 4 倍。平均补全 token 数几乎翻了三倍。到 2025 年中期,推理模型占总 token 消耗的比例超过 50%。每 token 的单位成本下降了;而每任务的 token 倍数上升得更快。

悖论如何在组织中复合

在单个团队层面,规律是:成功的优化节省了钱,省下的钱为新功能提供了依据,新功能采用更丰富的架构,消耗的 token 超过了节省的量。SaaStr 记录了一个具体案例。

一个团队构建了两个 AI 工具。第一个——AI 估值计算器——每次使用成本 0.0002 美元,30 天内处理了 27.5 万次补全,总成本不到 50 美元。第二个——AI 路演分析器——每次使用成本 0.20 美元,针对数兆字节的文档运行五个顺序 API 调用。48 小时内 400 次使用花费了 80 美元,还在持续增加。

构建第一个工具的团队因成本效率而自鸣得意。他们用这些节省来论证构建第二个工具的合理性。他们的总支出上升了。这不是失败。这是正确的产品行为。杰文斯悖论描述的不是浪费——它描述的是效率提升解锁了以前被价格压制的需求。

组织层面的问题在于,大多数 AI 预算建立在错误的模型上。看到"每 token 成本降低了 10 倍"就得出"我们应该少花 10 倍"的 CFO,是在建模一个 token 消耗固定的世界。实际上,在 AI 优化上花费最激进的团队,其消耗增长最快,因为他们是构建最多的团队。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates