模型路由是系统设计问题，而非配置选项

2026年4月16日 · 阅读需 12 分钟

Software Engineer

大多数团队选择 LLM 的方式就像选择数据库引擎一样：在架构评审时选一次，然后再也不改。你选了 GPT-4o 或 Claude 3.5 Sonnet，把它写进配置文件，然后上线。这个选择感觉无法逆转，因为更改它需要重新部署、跨服务协调，以及针对本周 eval 的回归测试。

这种思维方式是错误的。你的流量并不是同质的。"总结这篇文档"和"调试这个神秘堆栈跟踪"两个请求同时打到同一个接口，对能力的需求天差地别——但从静态模型选择的基础设施视角来看，两者毫无区别。你要么对其中一个过度供给，要么对另一个供给不足，而且每一个请求都是如此。

模型路由将 LLM 的选择视为运行时分发决策。每个进入的查询都会根据能预测该请求最合适模型的信号进行评估，并据此进行分发。路由层不存在于配置文件中——它运行在你的请求路径上。

真正驱动良好路由的信号

简单性的诱惑会把团队推向单信号路由："按 token 数量路由"，或"检测提示词中是否包含'代码'这个词就路由"。这些方法在实践中效果很差，因为单个信号是你真正关心的事情的弱代理：这个请求是否需要一个高能力的模型，还是一个更便宜的模型就够了？

有效的路由器会结合多种信号类型：

输入复杂度，而非仅仅是输入长度。 Token 数量是一个快速信号，也是成本的代理指标，但两个 200 token 的提示词可能有完全不同的推理需求。关于常识地理的问题 50 个 token 就很简单。一个细致的法律解释问题 500 个 token 也很难。复杂度分类器——训练用于预测查询难度的轻量级模型——作为路由信号始终优于原始长度。

任务分类。 不同任务类型对模型能力的敏感度曲线各异。代码生成、数学推理和结构化提取对模型能力高度敏感：小模型的失败方式是即时可见且难以恢复的。文档摘要、翻译和分类的敏感度则低得多——7B 和 70B 模型之间的质量差异对终端用户来说往往难以察觉。了解请求属于哪个类别，比任何其他单一信号都更有价值。

按用户层级设定延迟 SLA。 交互式聊天会话与通宵运行的批处理作业，对首个 token 时间（time-to-first-token）的可接受值截然不同。用户层级（免费 vs. 付费、交互式 vs. 后台）是一级路由输入，而非事后补充。在路由器中构建层级感知能力，让你为付费用户提供大模型容量——他们会注意到差异，并愿意为此承担相应成本。

置信度升级。 一些路由器先运行廉价模型，然后检查自我报告的置信度分数，再决定是否升级。当置信度高时，廉价答案直接发出；当置信度低时，请求路由到更强的模型。这要求你的廉价模型具有良好的校准性——过度自信的小模型会让这种方法不可靠——但当它奏效时，能实现两全其美。

关于多信号路由的研究结论是一致的：结合任务分类、复杂度估计和成本信号，比任何单信号方法都好得多。RouteLLM 是最广泛基准测试的开源框架，通过同时从人类比较数据中学习两类信号的路由偏好，在对话基准测试上实现了 85% 的成本降低。

为什么朴素的故障转移逻辑在流量下会崩溃

路由最简单的心智模型是："先尝试廉价模型，如果失败就回退到昂贵的模型。"团队首先实现这个方案，因为它显而易见且不需要训练数据。但它在生产中崩溃的原因并不明显，直到你陷入故障时才会察觉。

可重试和不可重试的错误并不相同。 400 Bad Request 意味着你的提示词格式有问题——在不同模型上重试会同样失败。503 意味着提供商过载——在不同提供商上重试是正确做法。429 速率限制需要指数退避，而不是立即回退到会在几秒内触及同样限制的备用提供商。朴素的故障转移逻辑把这些归为一个代码路径，在负载最大时放大问题。

流式传输失败不可组合。 如果提供商开始流式传输响应后在中途失败，你的客户端已经收到了部分输出。如果没有客户端缓冲，你无法在流式传输中途透明地切换提供商——而缓冲会消除流式传输的延迟优势。静态故障转移链没有考虑到这一点；它们假设请求是原子的。

成本分布呈重尾分布。 大多数请求消耗适度的 token。一小部分——长文档摄取、累积了大量上下文的多轮对话、复杂推理链——消耗了大部分 token 预算。把每个请求都路由到"先用小模型"优化的是中位数情况，而几乎不触及尾部——而那才是你大部分钱花去的地方。有效的路由器优先处理高成本请求的路由决策，并廉价地路由低成本请求。

质量-成本权衡会产生反馈循环。 过度激进地路由到廉价模型会降低输出质量。降低的质量会增加重试率、用户困惑和支持量。支持量和用户流失也是成本，只是在不同的预算中。那些报告路由"节省了 60%"的团队，往往没有核算转移到客服和增长数字上的代价。

影子路由：在不影响用户的情况下验证路由器

直接将新的路由策略部署到生产环境风险很高：如果路由器出错，你在衡量到降级之前就已经影响了真实用户的质量。影子路由是在提交之前验证路由器的标准技术。

基本设置：新的路由策略与生产策略并行运行在相同流量上，但其决策只被记录，不被执行。每个请求由生产路由器分发，而影子路由器记录它会做出什么不同的决策。收集足够的流量后——通常需要 5-7 天达到统计置信度——你将影子路由器的决策与观察到的质量结果进行比较。

这在部署前给你提供了几个可测量的量：

路由分歧率：新策略与生产的分歧频率

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

模型路由是系统设计问题，而非配置选项

真正驱动良好路由的信号

为什么朴素的故障转移逻辑在流量下会崩溃

影子路由：在不影响用户的情况下验证路由器

Recommended Reading

关于 Tian Pan

真正驱动良好路由的信号​

为什么朴素的故障转移逻辑在流量下会崩溃​

影子路由：在不影响用户的情况下验证路由器​

Recommended Reading

关于 Tian Pan

真正驱动良好路由的信号

为什么朴素的故障转移逻辑在流量下会崩溃

影子路由：在不影响用户的情况下验证路由器