跳到主要内容

云边混合 LLM 架构:将推理路由至其真正所属之处

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数团队都会面临选择:要么在云端运行一切,要么压缩模型以适配设备端。这两种选择都会造成成本浪费和性能损失。在 2025-2026 年获得最佳效果的团队两者都不选 —— 他们正在构建混合架构,根据复杂度、延迟预算和数据敏感性,将每个推理请求路由到合适的层级。

核心洞见简单但被低估了:70-80% 的生产查询并不需要前沿模型。它们需要来自靠近用户的模型提供的快速回答。剩下的 20-30% 则真正受益于云端托管的重量级模型。工程上的挑战在于构建路由层,使这种切分对用户无感。

延迟-隐私-成本三角

每个推理请求都存在于一个三维权衡空间中。你可以轻松优化其中任何两个维度,但要兼顾三个维度则需要架构上的创新。

延迟与能力。 在设备端运行的 3B 参数模型可在 50ms 内提供响应。云端托管的 70B 模型往返需要 350-400ms,这还没算上网络波动。对于实时应用 —— 语音助手、自动补全、应用内建议 —— 延迟差异并不是锦上添花,而是“瞬间响应”与“体验糟糕”之间的区别。

隐私与质量。 设备端推理意味着用户数据永远不会离开设备。没有网络跳转,没有第三方 API,也无需担心数据保留策略。但较小的模型更容易出错。医疗保健和金融等受监管行业既需要强大的隐私保证,又需要高准确性,这促使它们转向具有私有云计算层的混合架构。

成本与规模。 每月通过大型云端模型处理一百万次对话的成本为 15,000 美元到 75,000 美元。而通过设备端的小语言模型处理相同的工作负载,计算摊销成本仅为 150 美元到 800 美元。在大规模场景下,这种计算逻辑非常残酷 —— 但前提是你将每个请求都发送到了昂贵的层级。

实际的解决方案是构建一个路由层,评估每个请求并将其发送到能够处理该请求的最廉价层级。这在分布式系统中并不是什么新想法,但将其应用于 LLM 推理面临着独特的挑战,因为对于自然语言任务,很难定义什么是“能够处理得好”。

在生产环境中奏效的路由策略

最简单的路由策略是基于规则的:短查询发送到边缘模型,长查询或多步查询发送到云端。一个使用这种方法的生产级语音 AI 系统会将 50 个 token 以下的查询路由到本地 7B 模型,而将其他所有请求路由到云端 70B 模型。它行之有效,易于调试,并能以低廉的路径处理 70-80% 的流量。

但基于规则的路由会牺牲准确性。一个询问“总结这份合同中的关键风险”的 40 token 查询虽然短,但很复杂。而一个重复简单的产品常见问题解答(FAQ)的 200 token 查询虽然长,但很琐碎。更好的路由策略结合了三个信号:

  • 任务复杂度估算。 一个轻量级分类器(甚至是边缘模型本身)会评估查询是否需要多步推理、领域专业知识或创意生成。简单的分类、提取和重构任务留在设备端。推理密集型任务则进行升级。

  • 基于置信度的级联。 边缘模型首先尝试处理每个查询。如果其输出置信度低于某个阈值 —— 通过 token 级的熵或校准后的概率得分来衡量 —— 请求将升级到云端层级。这能捕捉到小模型“知道自己不知道”的情况。

  • 数据敏感性路由。 包含 PII、健康数据或财务信息的查询,无论复杂度如何,都会路由到设备端或私有云计算层。这不单纯是一种优化,而是一个覆盖成本和延迟偏好的合规约束。

最成熟的生产系统会将这三者结合起来。边缘模型首先运行,置信度评分器评估输出,随后策略引擎应用有关数据敏感性和质量阈值的业务规则,最后决定是直接采用边缘响应还是升级。

让小模型足以胜任边缘端任务

只有当边缘模型确实足以胜任大多数查询时,混合架构才有效。模型压缩技术已经大幅成熟,2025 年代的结果令人瞩目。

量化感知训练 (QAT) 已成为边缘部署的标准。与事后简单截断权重的训练后量化不同,QAT 在训练过程中模拟量化效应,使模型能够适应其权重分布。结果是:一个量化为 4 bit 的 13B 模型从 26GB 减小到 7.9GB,同时保留了 95% 的原始质量。推理吞吐量几乎翻了一番。

混合压缩流水线 —— 先剪枝,再量化 —— 在保持任务特定基准测试 97% 准确率的同时,实现了 75% 的尺寸缩减和 50% 的功耗降低。核心洞见在于,剪枝消除了量化本身无法解决的结构冗余,而量化降低了剪枝本身无法触及的数值精度。

架构级优化 则更进一步。Apple 的设备端 3B 模型在 Transformer 块之间使用了 KV 缓存共享,将内存占用减少了 37.5%。这不仅仅是压缩 —— 这是从一开始就将架构重新设计为边缘原生架构,牺牲了理论上的通用性,以换取在特定硬件上的实际效率。

实践经验:不要只是简单地拿一个云端模型并将其缩小。在你的实际任务分布上微调一个专用的小模型,针对目标硬件应用 QAT,并根据具有生产代表性的数据而非学术基准进行验证。基准准确率和任务准确率是两码事,保留前者的压缩技术并不总能保留后者。

投机采样:边缘-云端流水线

混合推理中最令人兴奋的发展是适配于边缘-云端协作的投机采样(Speculative Decoding)。这种模式不再是将整个请求路由到某一层,而是将生成过程本身跨层拆分。

该模式的工作流程如下:边缘模型快速起草多个候选 token。云端模型在单次批处理前向传递中验证这些 token,接受正确的并纠正错误的。由于验证的成本低于生成(检查 N 个 token 的时间与生成一个 token 的时间大致相当),系统能以接近边缘端的速度实现云端级的输出质量。

最近的框架进一步推动了这一趋势。SLED 将 token 起草完全卸载到边缘设备,释放云端 GPU 专注于处理大量并发用户的批量验证。这显著提高了服务器利用率——服务器不再为每个用户逐一生成 token,而是同时验证来自多个边缘设备的成批投机 token。

分布式拆分投机采样(DSSD)则更进一步,将验证阶段划分在设备和边缘服务器之间。它不再向上游发送完整的词表分布(这非常耗费带宽),而是仅向下游发送一个压缩信号。结果是在保持数学上完全一致的输出质量的同时,将通信延迟降低了 2-3 倍。

实际的限制在于网络可靠性。跨网络边界的投机采样仅在延迟可预测时有效。在延迟波动的蜂窝网络上,系统需要回退逻辑,以便在云端路径过慢时提供仅限边缘端的响应。

隐私架构:私有计算层

对于处理敏感数据的组织,混合架构需要第三层:私有云计算。这是具备设备端级别隐私保证的云级推理。

Apple 的私有云计算(PCC)是最清晰的生产案例。当查询超出设备端 3B 模型的能力范围时,它会路由到运行更大混合专家模型(MoE)的 PCC 服务器。其关键保障是:用户数据被端到端加密至特定的经过验证的计算节点,在请求完成后从不持久化,且基础设施运营商(即使拥有管理权限)也无法访问。

这种三层模型——设备端、私有云、公有云——可以清晰地映射到决策树中:

  1. 设备端模型能否高置信度地处理? 本地服务。零网络成本,零隐私风险,极低延迟。
  2. 查询是否包含敏感数据? 路由到私有云计算。延迟和成本高于设备端,但保护隐私。
  3. 查询是否需要前沿模型能力且不含敏感数据? 路由到公有云。质量最高,成本最高,遵循标准的 API 隐私条款。

大多数企业至少需要第 1 层和第 3 层。受监管行业——医疗、法律、金融服务——则需要全部三层。

构建路由层

路由层是最被低估的组件。人们很容易将其视为简单的 if-else 逻辑,但生产环境中的路由层需要具备几个并非显而易见的特性。

延迟预算感知。 产品中的不同功能有不同的延迟预算。自动补全需要低于 100 毫秒,而文档摘要可以容忍 2 秒。路由层应该了解调用上下文,而不仅仅是查询本身。

优雅降级。 当云端层变慢或不可用时,系统应提供带有适当质量提示的边缘响应,而不是彻底失败。这意味着边缘模型必须能够尝试任何查询,即使它在复杂查询上的准确性较差。

可观测性。 你需要跟踪路由决策、各层延迟、各层质量分数以及升级率。没有这些遥测数据,你就无法调整阈值或捕捉漂移。一种常见的故障模式是:路由阈值是根据上个月的查询分布调整的,而本月的分布已经发生了偏移,导致 40% 的查询在不必要的情况下消耗了昂贵的云端层资源。

成本反馈循环。 路由层应展示按层划分的单次查询成本指标。做出 UX 决策的产品团队需要明白,增加一个需要云端推理的功能,其单次请求成本将比边缘端功能高出 50-100 倍。

未来走向

边缘模型和云端模型之间的差距缩小速度超过了大多数团队的想象。经过适当微调和量化的 3-7B 参数规模模型,已经可以处理 70-80% 的生产负载。随着模型架构在小端持续改进——通过小规模混合专家模型、更好的蒸馏技术和硬件感知架构搜索——这一比例将攀升至 90%。

长期轨迹很明确:云端推理将成为例外而非规律。大多数 token 将在设备端或边缘端生成。云端层将负责处理极少数真正困难的查询,并作为下一代边缘模型的训练场。

如今构建混合架构的团队不仅仅是在优化成本。他们正在构建未来十年将主导 AI 部署的基础设施模式。从一个简单的基于复杂度的路由器开始,对所有环节进行监控,让你的生产查询分布告诉你该在哪里划定界限。

References:Let's stay in touch and Follow me for more thoughts and updates