跳到主要内容

推理模型套利:在处理难题时,慢速昂贵模型反而更省钱

· 阅读需 11 分钟
Tian Pan
Software Engineer

价格页面上最便宜的那一行很少是发票上最便宜的一行。团队选择主力模型(Workhorse model)——Sonnet、Haiku、Flash、GPT-mini——是因为每 token 的计算方式很友好。上线功能后,看着成本控制面板报告了一个季度的单位经济效益(unit-economics)好消息。然后长尾效应跟了上来:主力模型处理不了一部分请求,开始重试,接着是部分回答,最后升级到人工审核,每个功能的损益表(P&L)不再像每次调用的仪表盘那样好看了。

这里的套利在于,针对这些困难请求,团队永远不会作为默认选项的推理模型(Reasoning model)——Opus、o3,这类缓慢昂贵的模型——通常在第一次尝试时就能给出答案。一次 0.50 美元的推理调用总成本,胜过五次 0.05 美元的主力模型调用加上升级队列,以及周一调试失败的工程师成本。采购问题(哪个模型每 token 最便宜?)和架构问题(哪个模型解决每个请求最便宜?)是不同的问题,将两者混为一谈的团队正在支付这两者之间的差价。

标价是中位数请求的边际成本

每 token 定价报告的是典型请求的数值:中位数输入长度、中位数输出长度、中位数复杂度。它并不能反映你的产品实际服务的请求分布的全部成本。仪表盘通常遗漏了两个成本。

第一个是重试与降级成本。当主力模型失败时——错误的 Schema、拒绝输出、幻觉的工具调用、部分回答——下游会进行重试。有时这是推理层的同步重试(多一次 API 调用,多一张 token 账单)。有时是用户点击“重试”,这是同一次调用再次收费,但现在计入不同的指标(参与度而非成本)。有时重试无论如何都会包含向更强模型的后备(fallback),因此你在同一个逻辑请求上支付了主力模型的价格,然后又支付了推理模型的价格。仪表盘按调用累计 token,而不是按解决的请求,因此重试堆栈是不可见的。

第二个是升级成本(Escalation cost)。主力模型失败的请求会变成支持工单、人工审核员队列中的条目、客户成功工程师的下午。这些细目都不会出现在推理支出中。它们出现在员工人数、客户满意度调查和流失率中。在每天一百万次请求中,5% 的长尾失败率意味着 50,000 次升级,而一个没有对升级队列进行定价的团队,正在根据不完整的数据做出模型选择决策。

价格反转现象让这一点变得具体。在推理模型中,标价较低的选项在约五分之一的对比中最终成本更高,因为较便宜的推理模型会通过更深度的思考来弥补基础能力的不足,而思考 token 的账单抵消了每 token 价格的优势。同一查询在同一模型上的思考 token 差异可达 9.7 倍。标价是信号;总成本才是指标。

请求分类器实际在分类什么

“将简单提示词路由到快模型,将困难提示词路由到慢模型”这句话让路由听起来像是一个基于模型可见特征的二元决策。其实不然。请求分类器是在预测一个反事实(Counterfactual):主力模型在这个输入上的失败程度,是否严重到提前为推理模型付费比稍后发现失败更便宜?

预测主力模型失败的特征可以归纳为几个类别。输入形状很重要,但其本身是一个弱信号——重写合同条款的 50 token 指令比 500 token 的叙事摘要更难。强信号是结构性的:Schema 复杂度(必需字段的数量、嵌套类型的深度、互斥情况的数量)、提示词中推理标记的存在(多步骤、计算、比较、推导)、类似请求形状的历史失败率、客户等级(其升级成本最高),以及请求是否需要工具调用(而主力模型历史上曾弄错其参数结构)。

分类器不一定是深度模型。在这些特征上进行逻辑回归(Logistic regression),并使用几周的生产追踪数据(标记为“主力模型成功”对比“主力模型失败并重试/升级/重新生成”)进行训练,就能达到可用的准确度。有趣的结果是,分类器不需要非常准确——处理数百万请求的 80% 准确度分类器,仍然能在路由正确的 80% 请求中节省成本。两条路径之间失败成本的不对称性完成了大部分工作;分类器只需要在大多数情况下是正确的。

总成本模型

仅凭每 token 价格做出的路由决策最终会导致对推理模型的路由不足,因为每 token 价格无法反映路由的成本。一个总成本模型(All-in cost model)需要为每个请求、每条路径考虑四个项:

  • 直接推理成本:输入 token × 输入费率 + 输出 token × 输出费率,包括推理模型的思考 token。
  • 预期重试成本:失败概率 × 重试成本(通常包括向更强模型的后备)。
  • 预期升级成本:人工移交概率 × 人工审核的综合成本。
  • 信任损耗成本:当请求以用户可见的方式失败时,应用于终身收入的折扣因子;这一项虽然模糊但非零,并且在高度信任的工作流计算中占主导地位。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates