跳到主要内容

混合云-边缘 LLM 推理:决定成本、延迟和隐私状况的路由层

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队都会选择一个阵营:要么将所有任务运行在云端,要么将所有任务推向边缘。对于大多数生产负载来说,这两种做法都是错误的。有趣的工程挑战发生在它们之间的路由层(routing layer)——这个组件根据每个请求来决定:该查询是需要 H100 上的 70B 前沿模型,还是在本地芯片上运行的 3B 量化模型。

这种路由决策不仅仅关乎延迟。它是一个涉及成本、隐私和能力的三变量优化过程——而最优的分配方案会根据你的流量模式、监管环境以及对每种查询类型“足够好”的定义而改变。正确处理路由的团队在降低 60–80% 推理成本的同时,还能优化 p95 延迟。处理不当的团队要么在简单的查询上过度消耗云端 GPU,要么让无法处理复杂任务的边缘模型提供质量下降的回答。

延迟-隐私-成本三角 (The Latency-Privacy-Cost Triangle)

每个推理请求都存在于一个三维空间中,你的架构需要能够服务于所有这些需求。

延迟 (Latency) 是最明显的约束。通过消除网络往返,现代硬件上的边缘推理可以在 50–170ms 内给出响应。而在模型开始生成之前,云端推理就会增加 20–80ms 的网络开销。对于语音 AI 来说,整个流水线(ASR → LLM → TTS)只有 300ms 的预算,这种网络损耗可能决定了是自然的对话还是尴尬的停顿。

隐私 (Privacy) 是不可妥协的约束。GDPR 和 HIPAA 等法规日益强制要求某些类别的数据绝不能离开设备。Apple 的架构在大规模应用中展示了这一点:他们的 3B 参数端侧模型处理包含个人数据的请求,而其私有云计算(Private Cloud Compute)基础设施则处理具有端到端加密且无数据持久化的复杂查询——即使是 Apple 也无法访问这些内容。如果你的应用涉及健康记录、财务数据或个人身份信息,在考虑成本或延迟之前,路由决策可能已经确定了。

成本 (Cost) 是看起来简单但实则复杂的约束。在 RTX 5090 上运行量化的 7B 模型成本约为每百万 token 0.35 美元(硬件折旧)。按需使用的 H100 在全负荷运转时约为每百万 token 0.19 美元——单价更便宜,但无论是在处理查询还是空闲,你都要支付 2 美元/小时。在低到中度利用率(低于 60%)时,边缘在成本上胜出。在高持续吞吐量下,云端胜出。临界点完全取决于你的流量模式。

团队常犯的错误是优化了一个维度而忽略了其他两个。将所有内容路由到云端以追求最高质量的系统,在简单的分类任务上会浪费大量金钱。而将所有内容路由到边缘以追求最低延迟的系统,对于小模型无法处理的重推理查询,则会产生质量下降的回答。

路由层究竟决定了什么

路由层是一个轻量级的分类器,位于推理栈的前端,并对每个请求做出决策。它需要足够快(低于 5ms)且足够准确,以免错误的路由占据你的错误预算。

生产环境中的路由策略由多个信号分层组成:

PII 检测具有最高优先级。如果请求包含敏感数据,且你的合规性要求端侧处理,则无论复杂度如何,都路由到边缘。这是一个硬性约束,而非偏好。

任务类型分类处理大部分路由决策。简单任务——实体提取、情感分类、简短问答、意图识别——路由到边缘模型。复杂任务——多步推理、代码生成、长篇综述,以及任何需要边缘模型未经过训练的世界知识的任务——路由到云端。

基于置信度的升级捕获任务分类器漏掉的情况。边缘模型生成带有置信评分的响应。如果置信度低于阈值,则请求升级到云端模型。虽然这会增加被升级查询的延迟(因为运行了两次推理),但这意味着边缘模型处理了 70–80% 的简单流量,只有 20–30% 的难题会请求云端。

Token 预算阈值提供了一个有用的启发式方法。需要超过 512–2048 个输出 token 的请求通常受益于云端处理,这既是因为大模型能产生更连贯的长篇输出,也是因为边缘硬件在处理高 token 数时受内存带宽限制运行速度较慢。

路由本身可以实现为一个小型分类器(微调后的 BERT 类模型效果很好)、带有学习阈值的基于规则的系统,或者越来越多地采用从生产反馈中学习路由决策的上下文老虎机(contextual bandit)。最近的研究表明,基于老虎机的方法优于静态分类器,因为它们能够适应随时间变化的查询复杂度的分布偏移。

模型压缩:在缩小规模后究竟剩下了什么

在边缘硬件上运行模型意味着必须进行压缩,而压缩后的基准测试准确率与任务准确率之间的差距往往会让团队感到意外。

量化 (quantization)、剪枝 (pruning) 和知识蒸馏 (knowledge distillation) 这三种压缩技术现在已经常规性地组合在生产流水线中。一个典型的边缘部署工作流通常是:将一个前沿模型蒸馏为一个 3-7B 的学生模型,剪掉冗余连接,然后量化为 INT4 或 INT8 进行部署。

量化 (Quantization) 是收益最高的平衡技术。将精度从 FP16 降低到 INT4 可以使模型大小缩小 75%,且在大多数任务上的准确率损失小得惊人。Apple 的 2-bit 量化感知训练 (quantization-aware training) 通过在训练循环中加入量化而非事后应用来实现这一点。核心见解是:量化感知训练与 FP32 基准相比,质量损失不到 1.3%,而在相同位宽下,训练后量化 (post-training quantization) 可能会损失 5-10%。

知识蒸馏 (Knowledge distillation) 创建的是专为边缘设计的模型,而不是缩小通用模型。在你的特定任务分布上,从 70B 老师模型蒸馏出来的 3B 学生模型通常优于通用的 7B 模型,因为它学习了老师在你的应用程序实际看到的查询上的精确行为。但问题在于:你需要来自实际查询分布的代表性训练数据,而且学生模型会继承老师在边缘案例上那种“自信的错误”。

剪枝 (Pruning) 删除了模型不需要的连接。结构化剪枝(删除整个注意力头或前馈维度)生成的模型在硬件加速器上运行得更快。非结构化剪枝(将单个权重归零)可以实现更高的压缩率,但需要稀疏矩阵支持,而并非所有边缘硬件都提供这种支持。

组合流水线 —— 蒸馏 → 剪枝 → 量化 —— 通常可以在保持分布内任务 95% 以上原始准确率的同时,实现 80-95% 的体积缩减。但最后这个限定词至关重要。压缩会放大分布差距:一个在你的评估集上得分 97% 的压缩模型,在评估集未覆盖的新查询上可能仅得 85%。边缘模型的工作不是要和云端模型一样出色,而是在路由给它的查询上表现足够好,并且知道自己什么时候表现不好。

投机采样 (Speculative Decoding):让边缘与云端在 Token 级别协同

除了请求级别的路由,还有一种更细粒度的协作模式:投机采样 (Speculative Decoding)。边缘模型快速生成候选 Token,云端模型则并行验证它们。当边缘模型的预测与云端模型生成的预测一致时(对于常规文本,这种情况发生的概率为 60-80%),你可以以接近边缘的速度获得云端质量的输出。

这种方法之所以奏效,是因为验证的开销比生成的开销更低。云端模型可以在单次前向传递中验证一批候选 Token,而按顺序生成它们则需要多次传递。结果是:在不损失质量的情况下,云端推理速度提升了 2-3 倍,因为最终输出中的每个 Token 要么是由大模型生成的,要么是经过其批准的。

局限性在于投机采样要求两个模型共享词汇表和分词器 (tokenizer),而且在边缘模型的预测与云端模型明显偏离的任务(如创意写作、新颖推理)上,加速效果会下降。它最适合具有可预测 Token 序列的任务:代码补全、结构化输出生成、基于模板的响应。

无人提及的编排层

混合推理中最难的部分不是模型或路由,而是处理跨两个(或更多)环境运行推理的运营现实的编排层。

故障转移 (Failover) 需要双向运作。当云端推理不可用(API 故障、速率限制、网络分区)时,请求需要优雅地降级到边缘处理,并向用户发出适当的质量提示。当边缘硬件过载时,请求需要溢出到云端,而不能让用户察觉到模式切换。

会话一致性 (Session consistency) 对于多轮对话应用至关重要。如果对话的前三轮是由边缘模型处理的,那么将第四轮升级到云端则需要迁移对话状态。KV 缓存 (KV cache) 无法在不同模型架构之间迁移,因此你需要在云端模型上重新处理对话历史 —— 这会在最糟糕的时刻(当查询已经复杂到需要升级处理时)增加与对话长度成正比的延迟。

成本归因 (Cost attribution) 变成了一个报告难题。当单个用户会话跨越边缘和云端处理时,将成本归因于正确的团队、客户或功能需要联表级别的监测 (instrumentation),而大多数观测栈的设计并不支持这一点。

跨层级的模型版本控制 创造了一个一致性风险面。当你更新云端模型时,路由分类器的准确率可能会发生偏移,因为查询难度分布发生了变化。当你更新边缘模型时,你的投机采样接受率可能会改变。每一次模型更新都可能是一次路由更新。

决策矩阵

并非每个应用都需要混合推理。以下是每种架构的适用场景:

纯端侧 (Edge-only) 在以下情况最有意义:数据永远不能离开设备(医疗、金融)、应用在离线或弱网环境下运行、延迟要求在 100ms 以下,或者任务足够单一,压缩后的模型即可可靠处理。

纯云端 (Cloud-only) 在以下情况最有意义:大多数查询都需要前沿模型 (frontier model) 的能力、流量具有爆发性且不可预测、应用不处理敏感数据,或者你的团队没有工程能力来维护两套推理环境。

混合架构 (Hybrid) 在以下情况最有意义:查询分布呈双峰分布(大量简单查询 + 少量复杂查询)、隐私要求仅适用于部分查询、你在云端推理上花费巨大,但这些查询其实可以用小模型处理,或者你需要常用路径的延迟低于 200ms,但在处理复杂查询时可以容忍 400ms 以上的延迟。

坦白说:对于 70% 以上的查询都是常规任务的应用,混合推理可以将云端成本降低 60–80%。但它也让你的运维复杂度翻倍——两套模型流水线、一个路由层、故障转移逻辑以及跨环境的可观测性。如果你的云端账单每月低于 1 万美元,且所有查询确实都需要前沿模型的能力,那么这种运维复杂度并不值得。

未来走向

硬件的发展轨迹使混合架构变得越来越可行。消费级设备中的 NPU 算力 (TOPS) 每年都在翻倍。Apple 的神经网络引擎 (Neural Engine)、高通的 Hexagon 和英特尔的 Meteor Lake NPU 都能以生产级的速度运行 3B 到 7B 参数的模型。运行在这些硬件上的模型进步速度比硬件本身的提速还要快——2026 年的一个 3B 模型将能处理 2024 年需要 13B 模型才能完成的任务。

路由层正在从静态分类器向学习型系统演进。基于实时成本、延迟和质量反馈来优化路由决策的情境多臂老虎机 (Contextual bandits) 正在取代人工调优的阈值规则。路由器本身正在变成一个随规模增长而不断进化的 ML 系统。

最终状态并非“端侧取代云端”或“云端吞噬端侧”。而是一个推理环境的光谱——设备端、本地部署、边缘集群、云端 GPU——配合一个智能路由层,将每个查询放置在延迟-成本-隐私曲面上的最优点。构建好这个路由层的团队,将能以远低于其他团队的成本运行推理,同时提供更低的延迟和更强的隐私保证。

路由层就是新的护城河。

References:Let's stay in touch and Follow me for more thoughts and updates