跳到主要内容

质量感知模型路由:为什么仅优化成本会毁掉你的 AI 产品

· 阅读需 11 分钟
Tian Pan
Software Engineer

每个部署 LLM 路由的团队都是同样的起步方式:按价格排列模型,将简单查询发送给便宜的模型,复杂查询发送给昂贵的模型,然后庆祝成本降低了 60%。六周后,有人发现合同分析准确率从 94% 降到了 79%,编码助手开始虚构不存在的 API 端点,复杂支持工单的客户满意度直线下滑——而路由仪表盘上仍然显示"质量保持 95%"。

问题不在于路由本身。问题在于,仅优化成本的路由将所有质量下降视为等同,而实际上你降级的那些查询恰恰是质量最重要的那些。

仅优化成本的路由陷阱

大多数路由实现使用简单的决策函数:估计查询复杂度,将其与阈值进行比较,将低于阈值的查询路由到更便宜的模型。复杂度估计器可能是一个轻量级分类器、基于 token 数量和关键词检测的一组启发式规则,或者来自便宜模型本身的置信度分数。

这在基准测试中效果出奇地好。RouteLLM 在 ICLR 2025 上展示,矩阵分解路由器可以在仅将 26% 的查询路由到昂贵模型的情况下保持 GPT-4 95% 的质量。通过数据增强,这一比例降至 14%——在聚合指标上几乎无法测量的质量损失下实现了 75% 的成本降低。

关键词是聚合。当你按查询类型分解结果时,会出现不同的画面。仅优化成本的路由器系统性地错误路由三类查询:

  • 复杂度模糊的查询——看起来简单但需要深度推理的查询。"这个条款是否可执行?"看起来像一个简短的事实性问题,但实际需要跨多个司法管辖区的法律推理。
  • 高风险低频查询——分类器在训练期间很少见到的查询。财务计算中的边缘情况、代码审查中不常见的错误模式、罕见的医学术语。
  • 需要特定能力的查询——模型之间的差距不在于通用智能,而在于特定技能。结构化输出生成、多步算术、小众语言的代码编写。

仅优化成本的路由器将摘要任务 5% 的质量下降和合同审查 5% 的质量下降视为等同。但你的用户不会。

基于能力而非规模的路由

从成本感知到质量感知路由的转变始于不同的思维模型。不再问"这个查询有多复杂?",而是问"这个查询需要什么能力,哪个模型在每种能力上提供最佳结果?"

能力感知的路由层同时在多个维度上评估传入请求:

任务类型分类。 不仅仅是"简单 vs. 复杂",而是所需的具体能力:推理链、代码生成、结构化输出、创意写作、事实检索、多语言处理。不同模型有不同的能力画像——在同一规模层内,擅长代码的模型可能在细微摘要方面表现不佳。

延迟预算。 一些请求来自同步的用户交互流程,200ms 就很重要。其他是可以容忍 10 秒的批处理操作。质量感知路由器使用这个预算来决定级联策略(先尝试便宜的,不确定时升级)是否可行,还是应该直接路由到最适合该任务的模型。

合规和数据约束。 某些查询包含个人身份信息(PII)、受监管的金融数据或不能离开特定地理区域的信息。质量感知路由将这些视为硬性约束,而非软性偏好——一个便宜 15% 但需要将数据发送到不合规端点的模型在任何成本节省下都不是有效的路由目标。

所需置信度级别。 聊天机器人的问候可以容忍偶尔的平庸表现。诊断建议不行。给请求标记所需的置信度层级,让路由器做出明确的权衡,而不是到处应用相同的阈值。

实现看起来不像单个分类器,更像策略引擎。每个传入请求都标注其能力需求、约束和质量底线。然后路由器根据可用模型在每个相关维度上的测量性能进行选择。

使路由运转的校准循环

静态路由规则会随时间降级。模型会更新,查询分布会变化,新的使用场景会出现。能够在数月——而非仅仅数周——内维持路由质量的团队运行着持续校准循环。

该循环有四个阶段:

1. 影子评估。 将一部分生产查询同时路由到多个模型。只向用户提供主路由的响应,但记录所有响应以进行比较。这提供了持续的配对评估流,而不影响用户体验。典型采样率为流量的 5-10%,这在评估覆盖率和成本之间取得平衡。

2. 结果测量。 对每个影子查询,使用任务特定的指标测量质量:编码查询的代码编译成功率、检索任务的事实准确率、会话流程的用户满意度信号(点赞/点踩、任务完成率、后续查询率)。像"平均 BLEU 分数"这样的聚合指标恰恰隐藏了你试图捕捉的分布性失败。

3. 路由策略更新。 当影子评估发现某个模型在特定能力上的性能发生了漂移——无论是改善还是退化——更新路由权重。这是大多数团队投入不足的地方。更新不应该是每季度一次的人工审查会议。它应该是一个自动化管道,当漂移超过阈值时提出路由变更建议,高风险查询类别的变更需要人工审批。

4. 回归检测。 每次路由策略更新后,监控下游指标 48-72 小时。如果用户满意度下降或任务完成率发生显著变化,自动回滚路由变更并标记以供调查。这是安全网,让你可以积极更新路由而不会冒持续质量退化的风险。

校准循环将路由从一次性优化转变为持续改进的系统。运行校准循环的团队通常在前六个月内看到路由质量提高 3-8%,即使没有添加新模型——纯粹是因为更好地理解了哪个模型处理哪种查询类型。

收益递减曲线

一个自然的问题:如果两个模型层级好,四个会更好吗?八个呢?

数据说不。对模型路由基准测试的研究表明,预言机性能——通过完美路由可实现的理论最大质量——在大约 10 个模型后趋于平稳。而在实践中,有用的前沿要小得多。

原因如下。添加第三个模型层级(比如在便宜和昂贵模型之间的中档选项)通常可以捕获剩余质量差距的 60-70%。第四个层级可能捕获之后剩余的 30-40%。到第五个层级时,你在为百分之几的零头而战,同时增加了实际的运营复杂性:

  • 路由准确度下降。 区分 2 个层级是一个二分类问题。区分 5 个层级需要更精确的分类器,分类器错误开始抵消更细粒度路由带来的理论质量增益。
  • 校准成本线性扩展。 模型池中的每个额外模型都需要影子评估、性能跟踪和漂移检测。对 2-3 个模型可管理的可观测性基础设施在 5 个以上时就变成了全职工程负担。
  • 模型生命周期管理复合增长。 模型会被弃用、更新和重新定价。对 2 个模型来说,弃用是一个迁移项目。对 6 个模型来说,它是反复出现的紧急事件。
  • 延迟开销累积。 每个路由决策增加 20-50ms 的分类延迟。顺序尝试多个模型的级联策略可以增加数百毫秒。

大多数生产系统的最佳配置是 2-3 个模型层级,按能力画像而非仅按规模区分。一个强大的推理模型、一个高效的通用模型,以及可选的一个针对你最高流量任务类型(代码生成、结构化提取等)的专用模型,覆盖了路由价值的绝大部分。

构建路由层:实用架构

生产级质量感知路由层有四个组件:

请求标注器。 一个轻量级管道,为每个传入请求标注其能力需求、约束和质量层级。这可以是启发式规则(PII 检测的正则表达式、领域分类的关键词匹配)和小型分类器(微调的 BERT 或 ModernBERT 模型,增加 20-50ms 的延迟)的组合。标注器的职责是特征提取,而非决策。

策略引擎。 接收标注后的请求,根据路由策略选择模型——一组将能力需求映射到模型分配的规则,带有合规约束和延迟预算的覆盖。策略是校准循环更新的产物。将其与标注器分离意味着你可以在不重新训练分类器的情况下改变路由行为。

降级层次。 定义当主模型失败时发生什么——超时、速率限制、格式错误的响应。每个模型都有一个排序的降级列表,层次结构设计为包含故障而非级联传播。编码查询在推理模型上超时后降级到通用模型,而不是最便宜的层级。

可观测层。 记录每个路由决策及其完整的标注上下文:检测到了哪些能力、触发了哪条策略规则、选择了哪个模型以及原因。没有这个,调试路由失败就是猜测。可观测层还为校准循环中的影子评估管道提供数据。

关键架构原则:将模型视为具有可测量能力画像的可互换资源,而不是从"最好"到"最差"的固定层次结构。平均表现较差的模型可能是特定任务类型的最佳选择。路由层的职责是利用这些差异,校准循环的职责是保持能力画像的准确性。

基于质量路由后的变化

从仅优化成本转向质量感知路由的团队始终报告相同的三个结果。

首先,成本节省保持稳定或略有改善。 这让人意外。质量感知路由不意味着"总是使用昂贵模型"。它意味着更精确地路由,这通常意味着便宜模型处理更大比例的流量——只是不包括会造成问题的那部分。

其次,质量方差大幅下降。 仅优化成本的路由在复杂查询上有很长的坏结果尾部。质量感知路由通过确保对模型能力最敏感的查询总是到达合适的模型来压缩这个尾部。平均质量可能看起来差不多;最坏情况下的质量显著改善。

第三,团队不再疲于奔命处理路由故障。 有了校准循环和适当的可观测性,路由问题以仪表盘上的指标漂移形式出现,而不是客户升级事件。路由系统变成了可预测的基础设施,而不是意外事件的来源。

模型路由的发展轨迹反映了每种基础设施模式的成熟过程:从优化单一维度的简单版本开始,发现生产工作负载比你的优化覆盖的维度更多,然后构建工具和反馈循环来同时在所有维度上进行优化。成本是正确的第一个维度。质量才是持久价值所在。

References:Let's stay in touch and Follow me for more thoughts and updates