跳到主要内容

披着“延迟预算路由器”外衣的“质量损失路由器”

· 阅读需 11 分钟
Tian Pan
Software Engineer

一个优化单一损失函数的模型路由器会准确地交付该损失函数所要求的结果,除此之外别无他求。当该函数的目标是“保持在 p95 延迟目标之下”时,每一个本可以从深度推理(extended reasoning)中获益的查询都会被强行分配到路由器能辩护的最廉价路径上,因为快速模型能在 SLO 范围内返回,而缓慢但正确的模型则不能。延迟仪表板变绿了。综合评估指标(aggregate eval)仅波动了不到一个百分点,团队便将其视为噪声忽略不计。而没人绘图的分片视图(per-slice view)才是真正发生质量回归(regression)的地方:它集中在那些多步骤、模糊且分布外(out-of-distribution)的查询中,这些查询本应被路由到推理模型,结果却分配给了那些运行迅速但错误得很有底气的模型。

这不是路由 bug。路由器正在准确地执行其设计任务。Bug 出在框架设定上——如果一个系统的优化器完全以延迟为基准,它就会产生质量回归,而这些回归在团队为了 KPI 而维持“绿色”的指标中是不可见的。随后,它会默默地发布这些回归,因为盯仪表板的人并不是盯答案的人。

单目标陷阱

在你构建它时,延迟预算路由看起来很合理,是因为延迟是一个干净、直接、服务器端的信号。路由分类器预测能在截止日期前返回的最廉价模型,仪表板也会实时更新。而质量则完全不同。质量的反馈滞后数小时或数天,需要人工或 LLM 裁判(LLM-judge)评分,并且以不同分布独立移动的查询类别进行汇总。将延迟放入目标函数而将质量放在下游评估中,这并不是一个设计决策——它是阻力最小的工程实施路径(path of least instrumentation resistance)。

陷阱在于,路由决策在你将要进行的每一次质量测量中都处于因果上游。一旦廉价路径给出了答案,代价昂贵的路径就不会再运行。除非团队预先构建了对照组,否则没有“反事实(counterfactual)”可以比较,而大多数团队并不会这样做——为每个查询同时运行两个模型并评估差异的影子基础设施(shadow infrastructure),恰恰是路由器本应避免的成本。因此,回归在仪表板没有切片的客群中累积,团队对“质量”的理解简化为“我在周末看到的综合得分,其波动幅度还不如噪声底限(noise floor)大”。

最近关于多目标服务(multi-objective serving)的研究——例如 BOute 等贝叶斯优化框架,以及 PROTEUS 等拉格朗日强化学习(Lagrangian-RL)控制器——明确地界定了这一点:路由是一个至少具有三个维度(成本、延迟、质量)的受限优化问题。将其中任何一个视为损失函数,而将其他指标留给“我们会观察仪表板”,在数学上等同于给后者分配了零权重。无论团队意图如何,路由器服务的模型都会反映出这些权重。

为什么综合评估会欺骗你

假设候选的路由更改将 60% 的流量从推理模型转移到快速模型。假设快速模型在路由器分类器识别为“简单”的 80% 查询上确实达到了同等水平(parity)。假设在剩余的 20%——即分类器识别错误的查询、边界查询以及分布外(OOD)的长尾查询——快速模型明显更差。

综合评估得分:80% × 持平 + 20% × 显著回归。如果评估套件的分布与生产流量一致,那么标题数字(headline number)的变动幅度仅占受影响分片回归幅度的一小部分。如果受影响的分片占生产流量的 5%,且其回归幅度为 15 分,那么综合得分仅移动 0.75 分——这完全处于团队一直校准的噪声范围之内。PR 发布了,仪表板保持绿色,而受到冲击的分片足够小,以至于支持团队将症状(工单解决时间变长、更多投诉升级、更多“AI 没听懂我的问题”的反馈)视为与三周前的路由更改无关的独立现象。

在任何团队将多目标系统压缩为单一标题指标的地方,都会出现这种相同的失败模式。这并非 AI 所特有。AI 的特殊之处在于,受影响的分片——那些多步骤、模糊、分布外的查询——也是团队产品策略隐含押注的客群,因为每一个简单的查询也都是非 AI 产品可以处理的。路由器悄悄降级的部分,恰恰是证明路由器存在意义的核心价值。

推理准入通道

弥补这一差距的模式是停止将“该查询是否应该进入推理?”视为预算决策,而是将其视为在预算逻辑之前运行的分类决策。推理准入分类器(reasoning-eligibility classifier)——最近的混合 LLM 路由器将其描述为“思考还是不思考(to think or not to think)”头部——接收传入的查询,预测推理模型是否可能产生显著更好的答案,并将符合条件的查询固定到推理路径上,而不论当前窗口剩余多少延迟预算。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates