预算倒置陷阱:为什么你最重要的AI功能却在用最便宜的推理模型
大多数团队通过将更便宜的查询路由到更便宜的模型来优化AI推理成本。这听起来合理——但实际上是本末倒置的。首先被降级到廉价模型的查询,并不是那些简单的。恰恰相反,它们是复杂的查询,因为这些才是FinOps仪表盘标记出来的昂贵查询。
结果是:你的合同续签工作流——那个负责敲定六位数交易的关键环节——却在一个会产生幻觉、捏造条款引用的模型上运行。而你的客户支持分类——真正低风险的入门级任务——却享受着顶级模型的待遇,仅仅因为还没有人抱怨过它。
这就是预算倒置陷阱。它的产生并非源于疏忽,而是在没有价值背景的情况下单纯施加成本压力所带来的可预见结果。
倒置是如何发生的
大多数组织的模型路由决策发生在两个时间节点:初始构建时(开 发者选择一个模型并上线),以及成本审查时(有人看到账单后要求开发者换用更便宜的模型)。这两个节点都不涉及对哪些工作流真正重要的系统性分析。
初始构建时往往过于乐观:开发者选择最好的可用模型,因为他们希望功能在演示时表现出色。成本审查时则是被动响应:FinOps团队标记出token消耗最高的项目——而这与复杂度相关,而非与业务价值相关。
复杂工作流消耗更多token。更多token意味着更大的账单条目。更大的条目被标记为需要削减成本。团队切换到更便宜的模型。复杂工作流随之失败率上升,产生更多重试,需要更多人工审核——但这些成本不会出现在推理账单上。它们体现在支持工单、客户流失和工程师工时中。对于触发审查的那套模型而言,这些成本是不可见的。
与此同时,那些简单查询——短提示词、可预测输出、低失败率——从未被标记,因为它们很便宜。它们静静地坐在高端层级上,做着任何定价$0.25/百万token的模型都能同样出色完成的工作。
低配推理的真实成本
推理的显性成本是token。推理的隐性成本是失败。
当复杂工作流失败时——输出错误、产生幻觉、响应不完整——下游后果会成倍放大。一个合同审查助手产生了听起来合理但实际有误的摘要,不仅仅是这次查询失败;它制造了一个需要人类专家来发现的法律风险。一个提案生成器误读了客户的约束条件,会让一个团队在错误的方向上白费数天。一个混淆了两个行项目的财务分析工具,会产生一份需要重 新制作的董事会演示文稿。
这些成本统统不会出现在你的推理仪表盘上。重试成本会出现——即便如此,也往往被低估。如果廉价模型在复杂工作流上70%的时间能产出可用结果,那么每次成功推理的有效成本,并不是顶级模型价格的30%。在加计因此额外产生30%的人工恢复成本之前,它实际上比直接使用顶级模型还要贵43%。
关于生产路由系统的研究持续发现同样的规律:当你将重试率、返工和升级处理纳入考量时,过度路由到廉价模型反而会增加总支出。仪表盘上看起来节省了5倍成本的优化,在端到端衡量时反而产生了20%的成本增加。
价值加权推理:预算应该真正追踪什么
解决方案不是不加区分地加大推理投入,而是将模型层级与业务影响对齐,而非与查询复杂度或token数量对齐。
价值加权推理预算从产品管理用于优先级排序的同一个问题出发:这个功能成功意味着什么?将每个AI驱动的工作流映射到它影响的收入、留存或风险结果。这个映射关系就成为你的层级分配依据。
具体而言,这会产生一个三层结构:
第一层(顶级模型): 失败会直接产生财务后果的工作流——合同分析、个性化销售触达、技术提案、合规场景下的复杂文档摘要。这类任务通常量小。每次查询的成本高;但每次失败的代价更高。
第二层(中端模型): 质量重要但失败可以恢复的工作流——内部搜索、初稿生成、从已知格式中提取结构化信息。中端模型在适当提示下能很好地处理这些任务。量适中。
第三层(小型/量化模型): 速度和成本占主导地位的工作流——分类、路由决策、意图检测、结构化数据上的简单问答。这些任务量大且低风险。失败的表现是略显次优的响应,而非业务后果。
关键原则是:层级分配源于业务价值,而非查询结构。一个短提示词可以是第一层,如果其输出影响高风险决策。一个长复杂提示词可以是第三层,如果它只是在对支持工单进行SLA路由分类。
功能审查:找出路由错误的地方
大多数团队不清楚自己当前的层级分配映射。路由是功能逐一、开发者逐一演化出来的,没有人有一个整合视图。审查就是构建这个视图的方式。
对每个AI驱动的功能逐一追问三个问题:
这个功能产生错误输出时会发生什么? 如果答案是"人类专家要审查它,交易会推迟,或者我们需要发出更正",那么它是第一层或第二层。如果答案是"用户得到一个稍微偏差的响应,可能根本没注意到",那么它是第三层。
当前使用的模型层级是什么? 从你的模型目录或代码库中提取这一信息。你在寻找不匹配的情况:第一层工作流用了廉价模型,第三层工作流用了顶级模型。
实际失败率是多少? 不是基准测试准确率——而是生产失败率,通过用户更正、升级处理或明确的负面反馈信号来衡量。廉 价模型在复杂工作流上的高失败率,就是诊断信号。
审查几乎总会揭示出两类路由错误。第一类是最初在顶级模型上构建、从未被审查的功能——通常是分类、路由和搜索功能,换用廉价模型完全没问题。第二类是在审查时被降低成本、未经失败分析的功能——复杂生成工作流如今跑在无法可靠处理它们的模型上。
将第三层功能迁移到更便宜的模型简单直接,能立即收回成本。将第一层功能恢复到合适模型需要进行业务论证,而审查中得到的失败率数据能直接支撑这一论证。
构建不会倒置的路由
纠正倒置需要知晓价值、而非仅仅知晓成本的路由逻辑。
最简单的实现方式是一个以功能名称或工作流标识符为键的路由表,将模型层级作为配置值而非硬编码的模型ID。这样层级分配可以在不部署代码的情况下更新,审查结果可以逐步落地。
更复杂的实现方式是针对第二层功能使用级联路由:从中端模型开始,根据质量门控(一致性检查、模式验证、置信度阈值)评估输出,失败时升级到顶级模型。这在典型情况下保持低成本,同时在需要的情况下保证质量。关于级联路由的生产数据显示:对于定义明确的任务类别,仅需调用26%的顶级模型,就能实现95%的顶级模型性能——这是可以实现的。
对于高量第三层功能,语义缓存可以完全消除重复或近似相同查询的推理调用。企业系统中通常有30%或更多的查询在语义上是重复的——相同意图、相同上下文、相同预期输出。在语义层面缓存这些查询,能 大幅降低第三层推理量,从而为第一层功能腾出预算空间。
治理要求:负责AI成本预算的人,也需要负责每个功能层级的失败指标。将推理成本责任与输出质量责任分离,正是倒置发生的根源。能够通过降级模型来节省成本的人,应该同时是承担失败后果的人。
正确状态是什么样的
一个已纠正预算倒置的团队,其总推理成本不一定会更低。但其成本与创造的价值成正比。
他们的第一层功能在合适的模型上运行,失败率低。他们的第三层功能以低成本高量运行。推理账单的权重倾向于那些真正重要的功能,而不重要的功能已经被系统性优化。
判断标志是失败率分布。在倒置的预算中,复杂高价值功能有着高失败率和中端模型。在已纠正的预算中,复杂高价值功能有着低失败率和合适层级的模型。那个分布,正是审查和路由所要努力实现的目标。
AI领域的成本优化不是花更少的钱。而是把钱花在正确的地方。决定哪些功能使用哪些模型的路由决策,正是这种对齐关系成立或破裂的地方。路由出错,你就构建了一个系统,它会可靠地、自动地、在规模上削弱你最重要的能力——直到有人注意到客户流失为止。
