跳到主要内容

混合云-边缘 LLM 推理:决定成本、延迟和隐私状况的路由层

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队都会选择一个阵营:要么将所有任务运行在云端,要么将所有任务推向边缘。对于大多数生产负载来说,这两种做法都是错误的。有趣的工程挑战发生在它们之间的路由层(routing layer)——这个组件根据每个请求来决定:该查询是需要 H100 上的 70B 前沿模型,还是在本地芯片上运行的 3B 量化模型。

这种路由决策不仅仅关乎延迟。它是一个涉及成本、隐私和能力的三变量优化过程——而最优的分配方案会根据你的流量模式、监管环境以及对每种查询类型“足够好”的定义而改变。正确处理路由的团队在降低 60–80% 推理成本的同时,还能优化 p95 延迟。处理不当的团队要么在简单的查询上过度消耗云端 GPU,要么让无法处理复杂任务的边缘模型提供质量下降的回答。

延迟-隐私-成本三角 (The Latency-Privacy-Cost Triangle)

每个推理请求都存在于一个三维空间中,你的架构需要能够服务于所有这些需求。

延迟 (Latency) 是最明显的约束。通过消除网络往返,现代硬件上的边缘推理可以在 50–170ms 内给出响应。而在模型开始生成之前,云端推理就会增加 20–80ms 的网络开销。对于语音 AI 来说,整个流水线(ASR → LLM → TTS)只有 300ms 的预算,这种网络损耗可能决定了是自然的对话还是尴尬的停顿。

隐私 (Privacy) 是不可妥协的约束。GDPR 和 HIPAA 等法规日益强制要求某些类别的数据绝不能离开设备。Apple 的架构在大规模应用中展示了这一点:他们的 3B 参数端侧模型处理包含个人数据的请求,而其私有云计算(Private Cloud Compute)基础设施则处理具有端到端加密且无数据持久化的复杂查询——即使是 Apple 也无法访问这些内容。如果你的应用涉及健康记录、财务数据或个人身份信息,在考虑成本或延迟之前,路由决策可能已经确定了。

成本 (Cost) 是看起来简单但实则复杂的约束。在 RTX 5090 上运行量化的 7B 模型成本约为每百万 token 0.35 美元(硬件折旧)。按需使用的 H100 在全负荷运转时约为每百万 token 0.19 美元——单价更便宜,但无论是在处理查询还是空闲,你都要支付 2 美元/小时。在低到中度利用率(低于 60%)时,边缘在成本上胜出。在高持续吞吐量下,云端胜出。临界点完全取决于你的流量模式。

团队常犯的错误是优化了一个维度而忽略了其他两个。将所有内容路由到云端以追求最高质量的系统,在简单的分类任务上会浪费大量金钱。而将所有内容路由到边缘以追求最低延迟的系统,对于小模型无法处理的重推理查询,则会产生质量下降的回答。

路由层究竟决定了什么

路由层是一个轻量级的分类器,位于推理栈的前端,并对每个请求做出决策。它需要足够快(低于 5ms)且足够准确,以免错误的路由占据你的错误预算。

生产环境中的路由策略由多个信号分层组成:

PII 检测具有最高优先级。如果请求包含敏感数据,且你的合规性要求端侧处理,则无论复杂度如何,都路由到边缘。这是一个硬性约束,而非偏好。

任务类型分类处理大部分路由决策。简单任务——实体提取、情感分类、简短问答、意图识别——路由到边缘模型。复杂任务——多步推理、代码生成、长篇综述,以及任何需要边缘模型未经过训练的世界知识的任务——路由到云端。

基于置信度的升级捕获任务分类器漏掉的情况。边缘模型生成带有置信评分的响应。如果置信度低于阈值,则请求升级到云端模型。虽然这会增加被升级查询的延迟(因为运行了两次推理),但这意味着边缘模型处理了 70–80% 的简单流量,只有 20–30% 的难题会请求云端。

Token 预算阈值提供了一个有用的启发式方法。需要超过 512–2048 个输出 token 的请求通常受益于云端处理,这既是因为大模型能产生更连贯的长篇输出,也是因为边缘硬件在处理高 token 数时受内存带宽限制运行速度较慢。

路由本身可以实现为一个小型分类器(微调后的 BERT 类模型效果很好)、带有学习阈值的基于规则的系统,或者越来越多地采用从生产反馈中学习路由决策的上下文老虎机(contextual bandit)。最近的研究表明,基于老虎机的方法优于静态分类器,因为它们能够适应随时间变化的查询复杂度的分布偏移。

模型压缩:在缩小规模后究竟剩下了什么

在边缘硬件上运行模型意味着必须进行压缩,而压缩后的基准测试准确率与任务准确率之间的差距往往会让团队感到意外。

量化 (quantization)、剪枝 (pruning) 和知识蒸馏 (knowledge distillation) 这三种压缩技术现在已经常规性地组合在生产流水线中。一个典型的边缘部署工作流通常是:将一个前沿模型蒸馏为一个 3-7B 的学生模型,剪掉冗余连接,然后量化为 INT4 或 INT8 进行部署。

量化 (Quantization) 是收益最高的平衡技术。将精度从 FP16 降低到 INT4 可以使模型大小缩小 75%,且在大多数任务上的准确率损失小得惊人。Apple 的 2-bit 量化感知训练 (quantization-aware training) 通过在训练循环中加入量化而非事后应用来实现这一点。核心见解是:量化感知训练与 FP32 基准相比,质量损失不到 1.3%,而在相同位宽下,训练后量化 (post-training quantization) 可能会损失 5-10%。

知识蒸馏 (Knowledge distillation) 创建的是专为边缘设计的模型,而不是缩小通用模型。在你的特定任务分布上,从 70B 老师模型蒸馏出来的 3B 学生模型通常优于通用的 7B 模型,因为它学习了老师在你的应用程序实际看到的查询上的精确行为。但问题在于:你需要来自实际查询分布的代表性训练数据,而且学生模型会继承老师在边缘案例上那种“自信的错误”。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates