跳到主要内容

4 篇博文 含有标签「llm-routing」

查看所有标签

你的模型路由是基于评估集训练的,而不是你的真实流量

· 阅读需 12 分钟
Tian Pan
Software Engineer

我上个季度交流过的一个团队发布了一个模型路由(model router),在离线基准测试中获得了 96% 的路由准确率,并使平均推理成本降低了 58%。但在运行三周后,支持工单开始集中在特定的用户群体中——即那些通过 API 运行脚本化批量查询的企业管理员。低成本路径向这些用户发送了大量垃圾回复。路由完全按照设计运行,但设计本身错了。

这个故事代表了常态,而非特例。“能用小模型就用小模型,必须用大模型时才用大模型”的架构是生产环境下 LLM 系统中最可靠的成本杠杆之一,在标准基准测试中记录的成本降幅在 45% 到 85% 之间。但每个路由演示中引用的节省数字都假设了基准测试的分布。生产流量并不具备这种形态,而两者之间的差距正是质量回退(quality regressions)存在的地方——这些回退集中在你的离线评估(eval)从未设计覆盖的细分领域。

路由即产品:为什么你的低成本分类器比旗舰模型决定了更多行为

· 阅读需 12 分钟
Tian Pan
Software Engineer

我上个季度接触的一个团队上线了一个他们称之为“路由项目”的东西:在他们的旗舰模型前端放了一个微型 BERT 分类器,用来判断查询是否足够简单,以便分流给更便宜、更快速的备选方案。这个项目在三周内就回本了。成本仪表盘上绿光一片。旗舰模型的评估套件——包含三百个对抗性案例、每周的评分运行等等——依然在每个周五稳稳通过。

上线六周后,某个特定产品界面的留存率下降了四个百分点,没人能找到原因。旗舰模型表现正常。延迟也正常。结果发现,路由竟然将 71% 的查询发送到了廉价模型。这种情况从第二周就开始了。对于大多数用户来说,这个廉价模型才是真正的产品,而这个廉价模型根本没有任何评估套件。

这是我在 2026 年看到的采用 LLM 路由进行成本控制的团队中最常见的失败模式:评估规范被绑定在系统的昂贵长尾部分,而廉价的头部部分——即承载大部分请求量、定义了产品体验的部分——却处于盲跑状态。

级联路由的可靠性陷阱:当成本优化悄然摧毁你的 p95 延迟

· 阅读需 11 分钟
Tian Pan
Software Engineer

成本仪表盘一片绿意。自从级联路由(cascade router)上线以来,单次请求的支出下降了 62%。CFO 很开心。平台团队正在庆祝。而与此同时,你的 p95 延迟悄然上升了 40%,你最重要的客户刚刚流失,理由是“机器人在处理关键查询时变笨了”,而实验团队已经连续两周在追踪一个根本不存在的幻影回归(phantom regression)了。

这就是级联路由的可靠性陷阱。它是每一个“先尝试廉价模型,如果不成功再升级”架构的隐蔽失败模式,也是生产环境 LLM 系统中最少被讨论的二阶效应之一。成本上的收益是真实的、可衡量的,且易于归因。而可靠性上的损失则是弥散的、统计性的,几乎无法追溯到导致它们的路由。因此,成本上的胜利受到赞彰,可靠性上的损失被归咎于“模型变差了”,团队就这样把自己优化进了一个坑里。

混合云边 LLM 架构:何时在设备端与云端运行推理

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队将云端与边缘的选择视为二元对立:要么向云端供应商按 token 付费,要么在本地运行所有内容。在实践中,真正有趣的架构介于两者之间 —— 一个路由层将每个查询发送到能够正确处理它的最便宜计算层级。那些做对的团队在降低 60–80% 推理成本的同时,还改善了延迟和隐私合规性。而那些做错的团队则在处理每一个自动补全建议时都运行前沿模型。

混合云端-边缘模式在过去两年中已趋于成熟,这主要受到两个趋同趋势的推动:能够在消费级硬件上流畅运行的小型语言模型 (SLM),以及足够精密且能智能分流的路由系统。本文涵盖了架构、决策框架,以及让混合架构比看起来更难实现的失效模式。