跳到主要内容

模型路由中的 20% 问题:当成本优化产生二等用户时

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的路由系统完全按照设计运行。80% 的查询流向廉价模型;20% 升级到高性能模型。延迟降低了,成本下降了 60%,领导层也很满意。然后有人按用户细分提取了数据,你发现了问题:非母语英语用户的查询升级率只有母语人士的一半,而他们的满意度评分低了 18 分。路由系统将查询复杂度信号视为中性的,但事实并非如此——它是语言熟练程度的替代指标,而你已经在几个月的时间里,系统性地向特定用户群体提供了更糟糕的产品。

这就是 20% 问题。这不是路由器的 bug。这是任何经过成本优化的路由系统在无人衡量的情况下,直到为时已晚才显现出来的涌现特性。

模型路由的工作原理(以及为什么它确实有用)

核心理念很简单:大多数查询不需要性能最强的模型。一个回答“你们的营业时间是几点?”的聊天机器人不需要 GPT-4 级别的推理。将其路由到更小、更便宜的模型,并将昂贵的模型留给真正能从中受益的查询。

研究已经广泛验证了这一点。FrugalGPT 作为最早的系统性研究之一,表明通过结合级联、提示词自适应和缓存,你可以用高达 98% 的成本削减达到与 GPT-4 相当的性能。RouteLLM 从人类偏好数据中学习路由决策,在保持 95% 质量的同时,在聊天基准测试中实现了 85% 的成本削减。一个从单一高级模型切换到分层路由设置的生产级客户支持系统,将其每月的 LLM 支出从 42,000 美元削减到了 18,000 美元。

这些数字是真实的,路由确实值得成为你推理栈的一部分。问题不在于路由本身,而在于当你只衡量总体的质量和成本时会发生什么。

为什么那升级的 20% 不是随机分布的

当路由系统升级一个查询时,它在做一个判断:这个查询对廉价模型来说太难了。这种判断几乎总是基于某种复杂度的替代指标——查询长度、Token 熵、与训练示例的嵌入距离,或者是从人类偏好数据中学习的微调路由模型。

这些信号中的每一个都与不仅仅是复杂性的事物相关。查询长度与用户为了得到连贯问题而必须提供的上下文量相关。与熟悉示例的嵌入距离与表述方式的异常程度相关。即使是在人类偏好数据上训练的路由模型,也会继承评分者的人口统计分布——而 RouteLLM 使用的数据集 Chatbot Arena 严重偏向说英语、技术水平高的用户。

Hybrid LLM 论文 (ICLR 2024) 指出,大约 20% 的查询能显著受益于昂贵模型——但具体的 20% 取决于你对比的是哪两类模型以及你服务的负载。这个百分比按查询类型聚集的方式,往往与提问者是谁相关。

看看具体表现:

  • 一个能用简洁明了的英语表述问题的用户,可能会持续触发较低的复杂度评分,即使是真正困难的问题也会被分配到廉价模型。
  • 一个使用第二语言写作的用户,措辞较长且含有更多委婉语,可能会得到更高的复杂度评分——矛盾的是,他们的查询反而更常被升级。
  • 一个询问廉价模型训练数据中代表性不足的主题(非西方法律体系、少数群体语言、软件之外的特定领域技术术语)的用户,可能会从廉价模型那里得到言之凿凿的错误答案,因为廉价模型没有机制来提示自己的无知。

这些都不是故意的。但意图并不决定影响。

你没有衡量的差异性影响

关于 LLM 性能不足的研究让这个问题变得清晰。一项 2024 年关于针对性 LLM 性能表现的研究发现,模型质量的下降在用户之间并不是均匀分布的——对于英语熟练程度较低、受正规教育较少以及非美国背景的用户来说,这种情况最为严重。在交织的情况下(例如,受正规教育较少的非母语英语者),差距比单一因素还要大。

当你在一个已经存在这些质量差距的模型之上叠加路由时,影响会以两种方式复合。

首先,对于代表性不足的群体,廉价模型几乎总是比昂贵模型更差。它覆盖这些用户案例的训练数据更少,在公平性方面的微调可能不那么仔细,且其校准是在偏向标准英语和西方背景的基准测试上验证的。

其次,本应捕捉到“此查询对廉价模型来说太难”的路由决策,在这些用户身上失效的频率更高。廉价模型对困难的非西方或非英语查询的回答可能听起来流利且自信——因为这就是语言模型所做的。检查置信度信号的路由系统看不到任何警示。用户得到了一个他们没有理由怀疑的错误答案。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates