混合云边 LLM 架构:何时在设备端与云端运行推理
大多数团队将云端与边缘的选择视为二元对立:要么向云端供应商按 token 付费,要么在本地运行所有内容。在实践中,真正有趣的架构介于两者之间 —— 一个路由层将每个查询发送到能够正确处理它的最便宜计算层级。那些做对的团队在降低 60–80% 推理成本的同时,还改善了延迟和隐私合规性。而那些做错的团队则在处理每一个自动补全建议时都运行前沿模型。
混合云端-边缘模式在过去两年中已趋于成熟,这主要受到两个趋同趋势的推动:能够在消费级硬件上流畅运行的小型语言模型 (SLM),以及足够精密且能智能分流的路由系统。本文涵盖了架构、决策框架,以及让混合架构比看起来更难实现的失效模式。
延迟-隐私-成本三角权衡
每个推理请求都处于三维权衡空间中的一个点。云端推理在第一个 token 出现前会增加 200–500ms 的网络往返延迟。设备端推理完全消除了这种延迟,但你的选择被限制在能装入本地内存的模型内。无论成本如何,隐私要求都可能强制做出决定 —— 如果在 GDPR 或 HIPAA 规定下 PII (个人可识别信息) 不能离开设备,那么这些查询就无法使用云端推理。
成本计算逻辑因规模而异。云端 API 按 token 收费,随使用量线性扩展。设备端推理将成本转移到了前期的工程投入(模型压缩、硬件优化、测试),并将其分摊到每一个请求中。对于持续的高并发工作负载,设备端会变得异常便宜。对于突发性或探索性工作负载,云端 API 避开了资本支出陷阱。
真正的决策矩阵如下:
- 对延迟敏感的简单查询(自动补全、分类、短提取):路由到边缘 SLM。现代硬件上的 3B 参数模型在没有网络依赖的情况下,生成每个 token 的时间不到 20ms。
- 复杂推理、长上下文(多步分析、文档综合、基于大型代码库的代码生成):路由到云端。边缘模型缺乏处理这些任务所需的参数量和上下文窗口。
- 隐私敏感、中等复杂度(处理医疗记录、财务数据、私人通信):如果本地模型能力足够,则路由到边缘;否则使用具有临时处理能力的隐私保护云架构。
- 复杂度不确定的查询(查询可能简单,也可能需要深度推理):这是你的路由层体现价值的地方。
路由层:架构的核心所在
天真的做法是使用二元分类 器:简单查询去边缘,复杂查询去云端。在你发现失效模式之前,这种做法大约能维持一个月。
生产环境中的路由系统使用三阶段级联架构。首先,意图分类器使用运行时间不到 5ms 的轻量级模型对查询类型(分类、提取、生成、推理)进行归类。其次,复杂度评估器根据预测边缘模型是否成功的维度对查询进行评分:输入长度、所需的推理深度、领域专业性,以及查询是否需要边缘模型未经过训练的知识。第三,成本感知调度器会将当前的云端 API 延迟、速率限制余量以及将特定查询路由到每个层级的边际成本纳入考量。
路由决策不仅仅是 “边缘模型能处理这个吗?”,而是 “对于这个特定查询,边缘和云端之间的预期质量差距是多少,这个差距是否值得延迟和成本的差异?”
对边缘-云端协作推理的研究表明,对于整体系统性能而言,路由准确性比模型质量更重要。一个拥有平庸边缘模型和出色路由的系统,其表现始终优于一个拥有更好边缘模型但路由天真的系统。路由层是架构中杠杆率最高的组件。
在实践中行之有效的一个模式是具有云端验证的推测性边缘执行。边缘模型立即生成响应。与此同时,一个轻量级验证器(在本地或边缘运行)检查响应是否达到置信度阈值。如果达到了,响应立即发送。如果没有,查询将升级到云端,并丢弃边缘端的响应。这让 70–80% 的由本地模型良好处理的查询具备了边缘级的延迟,同时以云端级的质量作为保底。
模型压缩:什么技术能真正保留准确性
在边缘硬件上运行有用的模型需要压缩。问题在于你会损失多少质量。答案完全取决于你使用的压缩技术以及你的评估方式。
量化是主流方法。将权重从 16 位减少到 4 位可减少 75% 的内存占用,并通常能将推理速度提高 2–4 倍。但并非所有量化都是平等的:
- AWQ (Activation-aware Weight Quantization) 保留了对输出质量贡献最大的权重,在大多数基准测试中保持了约 95% 的全精度性能。它通过分析激活模式来识别哪些权重至关重要。
- GPTQ 使用一次性校准数据来寻找每一层的最优量化参数。它比 AWQ 应用得更快,但在边缘情况下可能略欠准确。
- 混合精度量化 为敏感层(通常是第一层和最后一层,以及注意力头)分配更多位,为中间层分配较少位。像 EvoPress 这样的工具可以自动化这种敏感性分析。
一个 70B 参数的模型,从 16 位的 140GB 压缩到 4 位的 40GB GGUF,在配备 64GB 内存的 MacBook Pro 上运行速度约为每秒 8 个 token。这对于许多任务的交互式使用已经足够快了。
知识蒸馏提供了不同的权衡。你不再是压缩一个大模型,而是训练一个小模型在你的特定任务分布上模仿大模型。产生的模型在架构上更小(不仅仅是量化),这意味着更快的推理和更低的内存占用。陷阱在于蒸馏模型继承了老师那种 “自信的错误” —— 它们以同样的高置信度重复大模型的错误,这使得失败更难被检测到。
剪枝 移除对输出质量贡献极小的权重或整个注意力头。结构化剪枝(移除整个通道或层)比非结构化剪枝对硬件更友好,但移除的容量 更多。在实践中,剪枝与量化和微调结合使用效果最好。
团队犯的关键错误是仅在基准测试上评估压缩。在 MMLU 上得分达到原始模型 95% 的模型,在你特定的领域可能只得 70%。在部署到边缘之前,务必在你的实际查询分布上评估压缩模型。
隐私保护云:中间路径
有时边缘模型能力不足,但在监管限制下数据不能离开设备。新兴的解决方案是隐私保护云端推理,即云端处理查询,但在架构上无法保留或检查数据。
Apple 的私有云计算 (PCC) 是该模式最完整的生产实现。该架构通过由第三方运营的 OHTTP 中继路由请求,从而剥离设备的 IP 地址。服务器以瞬时方式处理数据 —— 仅在内存中,在带有安全隔区 (Secure Enclave) 的 Apple 芯片上运行 —— 且加密证明允许设备验证服务器是否运行着预期的软件。数据不会写入磁盘,即使拥有服务器的物理访问权限,Apple 也无法访问。
即使你不是 Apple,PCC 模型也具有启发性。其设计原则可以转化为:
- 瞬时处理:数据仅在推理期间存在于服务器内存中,随后立即丢弃。不记录日志,不缓存,不对用户数据进行训练。
- 可验证执行:客户端可以通过加密方式验证服务器上运行的代码。这让“信任我们”变成了“验证我们”。
- 最小化元数据暴露:路由层只看到它需要的内容(查询类型、估计复杂度),而绝不会看到查询内容本身。
- 硬件根信任:使用安全隔区或机密 计算(AMD SEV、Intel TDX)确保即使是基础设施运营商也无法在处理期间检查数据。
对于无法构建自己的 PCC 等效系统的团队,主要云供应商提供的机密计算方案提供了一个务实的折中方案。加密计算的延迟开销已显著下降 —— 对于推理工作负载,从 10–30% 降至 2–5% —— 使其在生产中变得可行。
实践中的编排层
一个生产级的混合系统需要一个不仅能处理路由的编排层。它必须管理边缘设备上的模型生命周期,在边缘模型不可用或过载时处理优雅降级,并在同一对话跨越边缘和云端推理时保持一致性。
边缘设备上的模型生命周期管理出人意料地复杂。你需要在不干扰活动推理的情况下推送模型更新,在模型新版本质量下降时进行回滚,并在用户可能没有分配太多空间的设备上管理存储。行之有效的模式是将边缘模型视为移动应用更新:分阶段发布、针对旧版本进行 A/B 测试,以及在质量指标下降时自动回滚。
优雅降级意味着即使部分系统不可用,系统仍能工作。如果边缘模型加载失败(内存不足、下载损坏、硬件不支持),所有流量都会路由到云端,虽然有延迟损失但不会丢失功能。如果云端 API 宕机或受限,边缘模型会处理它能处理的一切,而超出其能力的查询则进入队列或返回诚实的“我需要更多时间”响应。
跨层对话一致性是一个微妙的问题。如果用户在设备上开始对话(快速、私密),而后续消息需要升级到云端,则云端模型需要对话上下文。将完整的对话历 史发送到云端会抵消早期在设备上处理带来的隐私收益。解决方案是在路由边界进行上下文摘要 —— 边缘模型生成对话状态的隐私安全摘要供云端模型使用,而无需传输原始用户消息。
什么时候混合架构不值得
混合架构增加了复杂性。只有当这种复杂性能为你的特定场景带来真实收益时,它才是合理的。在以下情况下不要构建混合系统:
- 你的查询分布是同质的。如果 95% 的查询需要相同的能力水平,只需选择合适的层并将其用于所有查询。路由层增加了延迟和故障模式,却没有任何节省。
- 你的业务量不值得在边缘进行投入。模型压缩、边缘部署基础设施和路由开发的工程成本长达数月。如果你每天处理的查询少于 10 万次,你节省的云端 API 成本可能无法覆盖工程投入。
- 你的质量要求统一较高。某些应用(医疗诊断、法律分析)无法容忍 3B 边缘模型与前沿云端模型在任何查询上的质量差异。如果每个响应都需要最大限度的准确性,混合路由只会引入风险。
- 你缺乏评估基础设施。混合系统需要对两层进行持续评估,以检测路由层何时做出了错误的决策。如果你无法在生产环境中衡量每一层的质量,你就无法安全地运行混合系统。
坦诚的评估是:大多数团队应该从纯云端开始,仔细分析他们的查询分布,只有当他们能指出特定的查询集群 —— 在这些查询中,边缘推理既能保证质量,又值得投入运营复杂性时 —— 才转向混合架构。
前方的路
三大趋势正汇聚在一起,使混合架构变得更加普及。首先,SLM 的进步速度在相对意义上快于前沿模型 —— 在实际任务中,3B 模型与 400B 模型之间的差距正在缩小,这意味着边缘层每年可以处理更大比例的查询。其次,设备端推理的硬件加速(手机中的 NPU、Apple Silicon、高通 AI 引擎)正在成为标准配置,而不再是高端专属。第三,路由系统正从静态规则转向学习型策略,能够根据每个设备的性能和用户的实际查询模式进行自适应调整。
最终胜出的架构并非在任何单一层级拥有最佳模型的架构,而是拥有最佳路由的架构 —— 这种系统能够准确识别每个查询所需的算力,并将其发送到能够满足需求且成本最低的地方。路由层才是产品,模型是可互换的。
- https://arxiv.org/html/2507.16731v1
- https://dl.acm.org/doi/abs/10.1145/3662006.3662067
- https://www.spheron.network/blog/hybrid-cloud-edge-ai-inference-guide/
- https://arxiv.org/html/2507.09003v1
- https://arxiv.org/html/2603.21237
- https://security.apple.com/blog/private-cloud-compute/
- https://machinelearning.apple.com/research/introducing-apple-foundation-models
- https://v-chandra.github.io/on-device-llms/
- https://dl.acm.org/doi/full/10.1145/3719664
- https://arxiv.org/html/2512.20012v1
