你的模型路由是一个看不见负载的负载均衡器
部署在 Web 集群前的负载均衡器之所以有效,是因为每台机器都会上报信息:CPU、队列深度、错误率、延迟。均衡器根据这些负载信息进行路由。模型路由器(Model Router)则拿不到这些遥测数据。它在模型执行任何操作之前,仅凭查询内容就决定由哪个模型来处理。路由器根据提示词(Prompt)预测难度。但真正的难度只有在生成答案时才会显现。当信号产生时,路由决策已经过去三秒钟了,而廉价模型可能已经向你的用户发送了一个自信但错误的回复。
这是模型路由核心的结构性缺陷,但大多数团队在发布路由器时从未这样审视过它。他们将其视为一个分类器——训练一个模型将查询标记为“简单”或“困难”,在预留集上进行验证,当准确率超过 90% 时就发布。分类器的隐喻在关键之处是错误的。分类器预测的是一个已经存在的标签。而路由器预测的是一个尚不存在、直到被路由的模型给出答案后才会存在、且可能永远不会以足够干净的形式存在以便学习的标签。
