LLM 路由与模型级联:如何在不牺牲质量的情况下降低 AI 成本
· 阅读需 11 分钟
大多数生产环境中的 AI 系统在成本管理上都会犯同样的错误:它们上线时仅使用单一的最强模型 (frontier model) 来处理每个请求,眼睁睁看着 API 账单随流量线性增长,然后才手忙脚乱地添加缓存或缩减上下文窗口来补救。真正的解决方法——根据每个查询的实际需求将其路由到不同的模型——事后看来显而易见,但很少能被很好地实现。
数据能够清楚地说明问题。当前的最强模型 (frontier model),如 Claude Opus,每百万输入 token 的成本约为 5 美元,每百万输出 token 为 25 美元。同系列的高效模型成本分别为 1 美元和 5 美元——比例达 5 倍。使用 RouteLLM 的研究表明,通过合理的路由,你可以在将 85% 的查询路由到更便宜的模型的同时,保持 95% 的最强模型质量,从而根据工作负载实现 45–85% 的成本降低。这不仅仅是边际改进;它改变了大规模部署 AI 的单位经济效益。
