推理模型套利：在处理难题时，慢速昂贵模型反而更省钱

2026年5月13日 · 阅读需 11 分钟

Software Engineer

价格页面上最便宜的那一行很少是发票上最便宜的一行。团队选择主力模型（Workhorse model）——Sonnet、Haiku、Flash、GPT-mini——是因为每 token 的计算方式很友好。上线功能后，看着成本控制面板报告了一个季度的单位经济效益（unit-economics）好消息。然后长尾效应跟了上来：主力模型处理不了一部分请求，开始重试，接着是部分回答，最后升级到人工审核，每个功能的损益表（P&L）不再像每次调用的仪表盘那样好看了。

这里的套利在于，针对这些困难请求，团队永远不会作为默认选项的推理模型（Reasoning model）——Opus、o3，这类缓慢昂贵的模型——通常在第一次尝试时就能给出答案。一次 0.50 美元的推理调用总成本，胜过五次 0.05 美元的主力模型调用加上升级队列，以及周一调试失败的工程师成本。采购问题（哪个模型每 token 最便宜？）和架构问题（哪个模型解决每个请求最便宜？）是不同的问题，将两者混为一谈的团队正在支付这两者之间的差价。

标价是中位数请求的边际成本

每 token 定价报告的是典型请求的数值：中位数输入长度、中位数输出长度、中位数复杂度。它并不能反映你的产品实际服务的请求分布的全部成本。仪表盘通常遗漏了两个成本。

第一个是重试与降级成本。当主力模型失败时——错误的 Schema、拒绝输出、幻觉的工具调用、部分回答——下游会进行重试。有时这是推理层的同步重试（多一次 API 调用，多一张 token 账单）。有时是用户点击“重试”，这是同一次调用再次收费，但现在计入不同的指标（参与度而非成本）。有时重试无论如何都会包含向更强模型的后备（fallback），因此你在同一个逻辑请求上支付了主力模型的价格，然后又支付了推理模型的价格。仪表盘按调用累计 token，而不是按解决的请求，因此重试堆栈是不可见的。

第二个是升级成本（Escalation cost）。主力模型失败的请求会变成支持工单、人工审核员队列中的条目、客户成功工程师的下午。这些细目都不会出现在推理支出中。它们出现在员工人数、客户满意度调查和流失率中。在每天一百万次请求中，5% 的长尾失败率意味着 50,000 次升级，而一个没有对升级队列进行定价的团队，正在根据不完整的数据做出模型选择决策。

价格反转现象让这一点变得具体。在推理模型中，标价较低的选项在约五分之一的对比中最终成本更高，因为较便宜的推理模型会通过更深度的思考来弥补基础能力的不足，而思考 token 的账单抵消了每 token 价格的优势。同一查询在同一模型上的思考 token 差异可达 9.7 倍。标价是信号；总成本才是指标。

请求分类器实际在分类什么

“将简单提示词路由到快模型，将困难提示词路由到慢模型”这句话让路由听起来像是一个基于模型可见特征的二元决策。其实不然。请求分类器是在预测一个反事实（Counterfactual）：主力模型在这个输入上的失败程度，是否严重到提前为推理模型付费比稍后发现失败更便宜？

预测主力模型失败的特征可以归纳为几个类别。输入形状很重要，但其本身是一个弱信号——重写合同条款的 50 token 指令比 500 token 的叙事摘要更难。强信号是结构性的：Schema 复杂度（必需字段的数量、嵌套类型的深度、互斥情况的数量）、提示词中推理标记的存在（多步骤、计算、比较、推导）、类似请求形状的历史失败率、客户等级（其升级成本最高），以及请求是否需要工具调用（而主力模型历史上曾弄错其参数结构）。

分类器不一定是深度模型。在这些特征上进行逻辑回归（Logistic regression），并使用几周的生产追踪数据（标记为“主力模型成功”对比“主力模型失败并重试/升级/重新生成”）进行训练，就能达到可用的准确度。有趣的结果是，分类器不需要非常准确——处理数百万请求的 80% 准确度分类器，仍然能在路由正确的 80% 请求中节省成本。两条路径之间失败成本的不对称性完成了大部分工作；分类器只需要在大多数情况下是正确的。

总成本模型

仅凭每 token 价格做出的路由决策最终会导致对推理模型的路由不足，因为每 token 价格无法反映路由的成本。一个总成本模型（All-in cost model）需要为每个请求、每条路径考虑四个项：

直接推理成本：输入 token × 输入费率 + 输出 token × 输出费率，包括推理模型的思考 token。
预期重试成本：失败概率 × 重试成本（通常包括向更强模型的后备）。
预期升级成本：人工移交概率 × 人工审核的综合成本。
信任损耗成本：当请求以用户可见的方式失败时，应用于终身收入的折扣因子；这一项虽然模糊但非零，并且在高度信任的工作流计算中占主导地位。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

推理模型套利：在处理难题时，慢速昂贵模型反而更省钱

标价是中位数请求的边际成本

请求分类器实际在分类什么

总成本模型

Recommended Reading

关于 Tian Pan

标价是中位数请求的边际成本​

请求分类器实际在分类什么​

总成本模型​

Recommended Reading

关于 Tian Pan

标价是中位数请求的边际成本

请求分类器实际在分类什么

总成本模型