混合云边 LLM 推理:决定模型运行位置的延迟-隐私-成本“黄金三角”
大多数团队通过云端 API 运行每一次 LLM 调用。这是阻力最小的路径:无需管理硬件,无需优化模型,而且最新的前沿能力只需一个 HTTP 请求即可获得。但随着 AI 深入生产环境 —— 处理敏感文档、支持实时交互、在移动设备上运行 —— 云端始终是正确答案的假设开始出现裂痕。
裂痕同时出现在三个地方。时延:在聊天机器人中察觉不到的 200 ms 网络往返,在语音 AI 或实时代码补全中变得不可接受。隐私:离开设备的数据会产生合规风险,法律团队越来越不愿签字。成本:在请求量大且利用率波动低的情况下,你正在为你完全可以拥有的基础设施支付高额溢价。
答案并非放弃云端推理 —— 前沿推理模型和长上下文任务确实需要它。答案是停止将模型部署视为二选一,而是将其视为一种路由决策。混合云-边缘架构根据查询复杂度、时延要求和数据敏感性,将推理分摊到设备端模型和云端 API。做得好,这种方法可以将成本降低 80% 并消除大部分请求的网络时延。做得不好,它会产生两种故障模式而非一种。
时延-隐私-成本三角
每个推理请求都处于由时延容忍度、数据敏感性和可接受成本定义的三维空间中。大多数团队犯的错误是优化了一个维度而忽略了另外两个。
时延分为两个截然不同的问题。首字延迟 (TTFT) 决定了应用程序的响应速度 —— 语音 AI 需要 LLM 阶段在 150 ms 以内,而仅云端往返就消耗了其中 20–80 ms 的预算。吞吐量决定了处理批处理工作负载的速度。在交互式用例中,边缘端在 TTFT 方面具有决定性优势。在可以摊销设置成本的批处理中,云端在吞吐量方面胜出。
隐私并非非黑即白。某些数据永远不能离开设备(健康记录、受监管行业的财务文档)。某些数据受到合同限制(企业协议下的客户数据)。某些数据只是足够敏感,以至于你倾向于不将其发送给第三方。每个类别都意味着不同的部署约束。
成本在很大程度上取决于利用率模式。云端 GPU 在持续利用率达到 70% 以上时具有成本竞争力,因为你只需为实际使用的部分付费。低于该阈值时,设备端硬件胜出,因为你已经支付过费用了。将 80% 的查询路由到边缘模型、20% 路由到云端 API 的混合架构已被证明比纯云端部署降低了超过 80% 的成本。
核心洞察:这三个维度在生产流量中是相关的。低复杂度查询(占大多数)往往对时延敏感,涉及常规数据,且本地服务成本低。真正需要前沿模型的高复杂度查询较少,对时延的容忍度更高,且值得支付云端成本。这种相关性正是混合架构可行的原因。
现在有哪些模型真正运行在边缘端
设备端模型的格局已经发生了巨大变化。曾经 7B 参数似乎是连贯生成的最低门槛,而现在亚十亿参数模型已经能胜任实际任务。当前这一代适用于边缘端的模型包括 Llama 3.2 (1B/3B)、Gemma 3 (低至 270 M 参数)、Phi-4 mini (3.8B)、SmolLM2 (135M–1.7B) 以及 Qwen2.5 (0.5B–1.5B)。
这些不是玩具模型。在 Apple M4 芯片或 Qualcomm Snapdragon 8 Elite 上运行的量化良好的 3B 模型可以处理文本格式化、实体提取、短文档摘要、分类和简单的问答 —— 这涵盖了生产环境 LLM 流量中惊人的比例。
硬件端也同步趋于成熟。像 RTX 5090 这样的消费级 GPU 运行量化后的 7B 模型速度可达每秒 150–260 个 token。Apple Silicon 的统一内存架构让 M4 Max 机器能够运行 30B+ 参数的模型,而没有 CPU-GPU 传输瓶颈。移动 NPU 现在提供了可观的 TOPS 数值,接近 2017 年的数据中心 GPU 能力。Meta 的 ExecuTorch 在 2025 年 10 月发布了 1.0 GA 版本,支持 12 种以上的硬件后端,标志着生产级设备端部署的转折点。
但原始能力并不能告诉你边缘推理对于你的工作负载是否可行。关键问题更加具体:
- 内存带宽而非计算能力通常是瓶颈。LLM 推理在生成 token 过程中受限于内存。一个能装进内存但无法快速流式传输权重的模型,无论可用 FLOPS 有多少,生成 token 的速度都会很慢。
- KV 缓存大小随上下文长度增长,并决定了 边缘设备可以支持多少并发会话。具有 4K 上下文的 3B 模型是可控的。同样的模型如果具有 32K 上下文,可能会在单个请求中耗尽可用内存。
- NPU 兼容性因芯片组而异。每个制造商实现的算子集不同,这意味着为某个 NPU 优化的模型在另一个 NPU 上可能需要修改或回退到 CPU/GPU。如果 NPU 支持的算子与你的模型架构不完全匹配,这种转换过程可能会降低性能。
保持任务准确性的模型压缩
要在边缘硬件上运行前沿质量的模型,必须进行压缩。然而,能够保持基准测试 (benchmark) 准确性的压缩方法往往无法保持特定任务的准确性。这种区别在生产环境中至关重要。
压缩工具包包含四种主要技术,通常结合使用:
量化 (Quantization) 降低了数值精度 —— 将 FP32 转换为 INT8 可以将模型体积缩小 4 倍,并按比例加速计算。实际问题在于选择哪种量化方法。训练后量化 (Post-Training Quantization, PTQ) 速度快但有损:你在模型训练完成后降低其精度。量化感知训练 (Quantization-Aware Training, QAT) 在训练期间融入精度约束,通常能达到原始 FP32 的准确度,但需要访问训练基础设施。对于大多数使用开源权重模型的生产团队来说,现实的路径是进行带有精细校准的 PTQ,接受 1–3% 的准确度损失。
动态量化根据层来调整位宽,因为它意识到注意力层和 MLP 层对精度损失的敏感度不同。这种灵活性让你可以在安全的地方进行激进压缩,并在关键的地方保持精度。
剪枝 (Pruning) 移除冗余权重或整个注意力头。结构化剪枝 (Structured pruning,移除整个通道或层) 生成的模型在真实硬件上运行更快。非结构化剪枝 (Unstructured pruning,将单个权重归零) 在理论上能产生更高的压缩率,但需要稀疏计算硬件的支持才能实现速度提升。
知识蒸馏 (Knowledge distillation) 训练一个较小的“学生”模型来模仿较大的“教师”模型的行为。自蒸馏 (Self-distillation) —— 即教师和学生在不同规模下共享相同的架构 —— 已被证明对 LLM 非常有效。关键风险在于蒸馏模型会继承教师模型的“自信错误”:大型模型以高置信度犯下的错误会完整地转移到较小的模型中。
混合流水线 (Hybrid pipelines) —— 先通过剪枝缩小模型,再通过量化优化运行时间 —— 可以在不产生灾难性准确度损失的情况下实现最高的压缩率。生产结果显示,在保持目标任务 97% 准确性的同时,模型体积减少了 75%,功耗降低了 50%。
核心原则:始终根据你的特定任务而非通用基准测试来评估压缩后的模型。一个在 4-bit 量化后在 MMLU 上得分很高的模型,可能会在你的特定领域分类任务中表现糟糕,因为量化丢弃的信息恰好对你的用例至关重要。
路由层:决定每个查询的运行位置
在边缘和云端模型之间路由查询的编排层,是决定混合系统成败的架构组件。如果处理不当,你要么会浪费金钱将简单查询发送给前沿模型,要么会因为将复杂查询路由到性能不足的本地模型而得到糟糕的结果。
基于复杂度的路由 (Complexity-based routing) 是最直接的方法。根据估计的难度对传入查询进行分类并相应路由:简单查询发送到边缘 SLM,复杂查询发送到云端 LLM。分类器本身可以是一个在设备上运行的轻量级模型,增加的延迟微乎其微。研究表明,在典型工作负载中,实际上只有约 3% 的 Token 需要由大型云端模型生成才能达到同等质量 —— 剩下的 97% 都可以由边缘 SLM 处理。
级联推理 (Cascaded inference) 从成本最低的模型开始,仅在置信度较低时才升级。边缘模型首先尝试处理查询。如果其输出置信度低于阈值,查询将被转发到功能更强大的云端模型。这种模式在你拥有可靠的置信度信号时效果很好,但众所周知 LLM 的校准性很差 —— 高置信度并不总是意味着高准确性。
一致性感知路由 (Consistency-aware routing) 将相同的提示词发送给边缘和云端模型,比较输出,并使用语义相似度来决定边缘模型的答案是否足够好。这种方法 (如 ConsRoute) 利用一致性作为正确性的指标。双重推理的开销被边缘模型的快速和廉价所抵消,你只需在模型意见不一致时支付云端推理费用。
领域感知编排 (Domain-aware orchestration) (如 ECO-LLM) 将路由决策视为质量、延迟和成本之间的联合优化。它不是简单的基于阈值的规则,而是在查询级别评估解析路径并动态选择最佳策略。这比静态路由规则能更好地处理工作负载的异构性 —— 包括多变的复杂度、提示词长度和时间敏感性。
在实践中,最好的路由架构结合了多种信号:查询复杂度估计、数据敏感性分类、当前边缘设备负载和延迟预算。路由决策本身应在个位数毫秒内完成,并完全在设备上运 行,以避免在实际推理之前增加网络跳数。
混合架构特有的失效模式
混合系统继承了边缘和云端部署的失效模式,并在它们之间的边界产生了新的失效模式。
隐性质量下降 (Silent quality degradation) 是最危险的。当路由层错误地将复杂查询发送到边缘模型时,模型会生成一个自信但错误的答案。与云端超时 (这是可观察的) 不同,来自本地模型的错误但流畅的响应可能会在你的流水线中不被察觉地通过。缓解措施:通过将边缘模型响应的样本与云端模型重新评分,对响应进行异步质量检查,类似于传统 ML 系统中的影子流量 (shadow traffic)。
版本偏移 (Version skew) 在边缘和云端模型之间会导致行为不一致。如果你的云端模型更新了,但你的边缘模型固定在旧版本 (因为边缘部署更难更新),同一个查询可能会根据路由位置产生不同的答案。在长对话中的用户可能会发现,当路由在会话中途发生变化时,语气或能力发生了偏移。
回退级联失效 (Fallback cascade failures) 发生在云端回退不可用且边缘模型无法处理查询时。与只有一种失效模式 (API 宕机) 的纯云架构不同,混合架构需要“回退的回退”逻辑:当两个层级都降级时,系统该怎么办?答案通常应该是优雅降级 —— 提供带有置信度标记的边缘模型响应 —— 而不是直接阻塞。
共享设备上的内存压力 (Memory pressure on shared devices) 是边缘部署所特有的。如果你的 LLM 与其他应用程序共享设备 (如 在手机和笔记本电脑上),可用内存会发生波动。一个在 8GB 可用内存下运行良好的模型,可能会在用户打开内存密集型应用程序时失效。边缘推理需要优雅地处理内存压力 —— 可能通过减少上下文长度、切换到更小的模型或路由到云端。
决策框架
并非所有应用程序都需要混合架构。只有在满足以下至少两个条件时,这种复杂性才是合理的:
- LLM 阶段的延迟预算在 200ms 以下。如果你能容忍 500ms 以上的延迟,纯云端方案更简单,且可能已经足够。
- 数据敏感性禁止或限制云端传输。如果你的所有数据都可以自由地传输到云端 API,那么隐私维度就不再是核心考量,仅凭成本与延迟的权衡可能不足以支撑边缘侧的复杂性。
- 请求量大且流量模式可预测。当利用率稳定时,边缘硬件的成本摊销效果很好。突发且不可预测的流量则更适合云端的弹性。
- 大多数查询属于中低复杂度。如果 80% 以上的流量需要前沿模型(frontier model)的能力,那么边缘模型不会有太大帮助。
对于适合采用混合架构的团队,可以从最简单的可行架构开始:由单个边缘模型处理定义明确的查询子集,其他所有查询则回退到云端。只有在获得生产数据并明确了“边缘端可行”与“需要云端”之间的实际界限后,再增加路由的复杂性——这个界限几乎肯定与你仅凭基准测试(benchmarks)预测的结果不同。
大趋势是显而易见的。随着边缘模型的改进和硬件的跟进,真正需要云端推理的查询比例将会缩小。现在就构建路由基础设施的团队将能够自动获得这些红利。而那些将每个查询都视为云端级别的团队,将不得不为手机上 3B 模型就能完成的工作支付前沿模型的价格。
- https://www.spheron.network/blog/hybrid-cloud-edge-ai-inference-guide/
- https://arxiv.org/html/2507.16731v1
- https://www.cio.com/article/4109609/edge-vs-cloud-tco-the-strategic-tipping-point-for-ai-inference.html
- https://arxiv.org/html/2505.16508v1
- https://www.edge-ai-vision.com/2026/01/on-device-llms-in-2026-what-changed-what-matters-whats-next/
- https://v-chandra.github.io/on-device-llms/
- https://arxiv.org/html/2603.21237
- https://arxiv.org/html/2507.09003v1
- https://arxiv.org/abs/2511.05502
- https://www.requesty.ai/blog/the-future-of-llm-routing-on-device-edge-ai-and-federated-models-1751656903
- https://promwad.com/news/ai-model-compression-real-time-devices-2025
- https://arxiv.org/html/2512.20012
