跳到主要内容

边缘AI推理:将推理从云端迁移的决策框架

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数AI推理决策都遵循同一逻辑:模型部署在云端,因为只有在那里才能运行,仅此而已。但这一算法正在迅速改变。旗舰智能手机现在搭载了能够以交互速度运行70亿参数模型的神经引擎。骁龙8 Elite可以以约每秒10个token的速度从30亿参数模型生成内容——足够流畅的对话体验——而高通Hexagon NPU在预填充阶段可达到每秒690个token。问题不再是"我们能否在设备上运行?",而是"我们应该这样做吗,什么时候该这样做?"

答案很少是显而易见的。将推理迁移到边缘端会引入真实的权衡:量化带来的质量损耗、设备机群更新的维护负担,以及跨设备SKU的硬件碎片化。但留在云端也有其代价:数百毫秒的往返延迟、随规模扩展而累积的云GPU账单,以及没有任何SLA能完全解决的数据主权问题。本文为应对这些权衡提供了一个实用框架。

边缘端无条件胜出的三种场景

在构建决策矩阵之前,有必要先明确边缘端是唯一答案的场景——无论成本或质量如何,云端选项都不在考虑范围内。

无弹性空间的隐私约束。 当数据本身不能离开设备——医疗记录、生物特征输入、受保护的金融数据——端侧推理不是性能优化,而是合规要求。GDPR、HIPAA和欧盟AI法案都有将特定处理推向设备边界的条款。对于这些工作负载,决策已经替你做好了:模型部署到设备,数据留在原处。

硬性离线要求。 现场服务工具、工业诊断设备,以及在低连接环境中使用的消费类应用,需要无需网络即可运行的模型。这不同于"离线时作为备用"——它意味着主要使用场景假设没有连接。如果你的用户是服务器机房中没有可靠WiFi的技术人员、飞机上的乘客,或者持有急救应用的徒步旅行者,云端模型是一种负担,而非资产。

交互体验的50ms以下延迟。 云端往返在第一个token开始前就引入了200–500ms的延迟。对于语音助手、AR叠加层、电话对话中的实时翻译等交互式应用,这种差距是不可接受的。每token 10–20ms的端侧生成是实现即时响应感的唯一路径。

如果你的使用场景属于这三类中的任何一类,本文其余部分主要是关于如何执行迁移,而非是否要迁移。

量化税比你想象的要小

边缘推理最常见的反对意见是质量下降。在设备上运行模型意味着运行其量化版本,量化将模型权重压缩以适应受限内存——以精度换效率。普遍假设是这会破坏输出质量。

但事实并非如此,至少对大多数任务而言不是。Red Hat对超过50万次模型评估的研究发现,8位量化可恢复约99%的基准精度,4位量化在代码生成基准测试中保持98.9%的通过率。在OpenLLM v2评估中,量化模型在大多数类别上与全精度模型的置信区间重叠。

质量差距存在,但很窄且依赖于任务。常规分类、问答、提取和对话任务基本不受影响。长篇推理、复杂多步骤任务和细致创意工作在4位时显示出更大的退化。实际含义是:如果你的边缘使用场景涉及分类或结构化提取,量化不是你的瓶颈。如果涉及扩展推理链,你可能需要将这些请求路由到其他地方。

压缩也带来了真实的红利。W4A16量化(4位权重,16位激活)在单请求场景中实现了约3.5倍压缩和2.4倍加速。对于内存受限的移动硬件,这是模型能否装下的差距。

决策矩阵

当你不在无条件边缘场景时,四个变量决定了推理应在哪里运行。

延迟目标。 实践中重要的阈值是:语音AI约150ms,交互式文字聊天500ms。低于这些数字,端侧生成是唯一可靠选项。超过这些数字,根据使用场景,云端延迟变得可以接受。

请求量和利用率。 云端推理经济性随更高利用率而改善。在高利用率(超过约70%的配置容量)下,云GPU成本被有效摊销。在低利用率下——后台运行的环境AI、不频繁的用户触发推理、始终在线的监控——空闲时间是浪费的开支。端侧硬件没有空闲成本;它已经购买了。在单个RTX 5090上运行小型模型(24–32B参数)的成本盈亏平衡点在0.3到3个月的等效云端开支之间。对于中型模型,视利用率而定为2–34个月。

数据敏感性。 即使没有硬性合规要求,数据敏感性也会影响架构。如果用户数据敏感但未受严格监管,问题变为:云端泄露的风险成本与端侧推理的工程成本相比如何?对于大规模处理个人数据的消费类应用,答案通常倾向于边缘端。

模型大小和任务复杂性。 这是大多数决策的约束条件。在旗舰设备上运行量化的3B–7B模型可以很好地处理聊天、分类和提取。需要70B+参数推理的任务——复杂编码、多步骤规划、创意生成——需要云端硬件。2025年的实际边界在旗舰移动硬件约130亿参数左右;低于该阈值,端侧是可行的。

粗略决策规则:如果延迟要求低于150ms,或数据敏感,或利用率低,从边缘端开始。如果任务需要复杂推理且模型大小超过70亿参数,留在云端。中间的一切都是混合方案。

分割推理:连接两者的架构

边缘推理中最有趣的发展不是端侧vs云端——而是按顺序使用两者的架构。有两种模式值得了解。

本地路由的推测执行。 轻量级本地模型(Phi-3-3.8B、Qwen-3-4B)以接近零的边际成本处理大部分请求。当本地模型置信度低,或任务超过复杂性阈值(token数量、检测到的推理类型)时,请求升级到云端模型。使用此模式的生产部署报告本地模型处理约85%的流量,与仅云端路由相比将云端开支减少60–80%。

这里关键的工程挑战不是路由逻辑本身——而是校准"低置信度"对你的使用场景意味着什么。校准不当的路由器要么向云端发送过多流量(失去成本优势),要么发送过少(在复杂任务上降低质量)。对生产流量的代表性样本进行实证阈值调整比启发式方法更可靠。

预填充-解码分离(阶段分割)。 此模式分离LLM推理的两个阶段:计算密集型预填充阶段(处理提示)和内存带宽密集型解码阶段(生成token)。这两个阶段具有根本不同的硬件特性。在不同机器上——或同一设备上的不同硬件类型——运行它们,允许每个阶段独立优化。包括vLLM、SGLang和NVIDIA Dynamo在内的生产服务框架都支持某种形式的分离,报告比单体服务提升15–20%的吞吐量。

在边缘层面,这转化为:预填充阶段可以在边缘服务器(本地网络,而非云端)上进行,解码阶段可以在终端设备上进行,减少需要传输到云端的数据量。

2025年的硬件现实

今年边缘硬件的性能数字已经跨越了实际阈值。苹果M4芯片在神经引擎上提供38 TOPS。高通骁龙8 Elite在Hexagon NPU上达到45 TOPS,量化模型的预填充吞吐量约为每秒690个token。这些不是理论数字;它们是量产硬件上的生产性能。

移动端的约束条件不再是计算——而是内存带宽。移动设备以50–90 GB/s运行,而数据中心GPU为2–3 TB/s。对于在解码阶段受内存带宽限制的transformer推理,这一差距比任何其他因素都更能约束token生成速度。减少内存流量的技术——分组查询注意力、KV缓存量化、FlashAttention变体——在移动端比在服务器硬件上更重要。

框架成熟度已跟上硬件。Meta的ExecuTorch 1.0(2025年10月发布)在Instagram、WhatsApp、Messenger和Facebook中为数十亿用户提供生产服务。MLX在Apple Silicon上提供最高的持续生成吞吐量。MLC-LLM为中等提示大小提供最低的首token时间,并支持跨平台。llama.cpp仍然是最便携的选项,无依赖项且具有静态transformer循环。对于生产部署,ExecuTorch和MLC-LLM是成熟的选择;llama.cpp适合本地开发和仅CPU部署。

没人提及的运营成本

性能和成本数字对各种工作负载都有利于边缘推理。被低估的成本是运营方面的。

模型更新传播。 云端模型在部署时更新;端侧模型在用户更新应用时更新。机群异构性——不同设备上的不同模型版本——是一种持续状态,而非边缘情况。你需要跨版本工作的评估管道、向后兼容的提示模板,以及处理部分机群更新的发布机制。

硬件碎片化。 Hexagon NPU上的每秒690个token数字不适用于较旧的骁龙代际、联发科设备或中端硬件。你需要在实际用户群体中进行基准测试,而不仅仅是旗舰设备。基于ARM的设备之间1.6倍的性能差异很常见;按中位数而非最佳情况进行构建是必要的。

故障转移验证。 没有经过测试的故障转移的边缘推理是可靠性负担。当设备处于内存压力下,或模型在特定硬件配置上加载失败时,回退到云端需要正常工作。测试失败模式——而不仅仅是顺利路径推理——是发布前的必要条件。

这些不是避免边缘推理的理由。它们是提前规划而非在生产中发现的理由。

实用起点

如果你在为现有产品评估边缘推理,风险最低的起点是非关键、高频率、推理要求低且延迟收益明显的任务。自动补全、内容分类、情感分析和关键词提取都是好的候选。在你自己的任务分布上运行量化质量评估——不要依赖基准数字——并与你的可接受质量阈值进行比较。

对于新架构,在推理层之前设计路由层。提前决定:哪些任务是纯边缘端的,哪些是纯云端的,哪些需要推测执行模式。开发后期做出的路由决策往往会被硬编码,变得无法调整。

2025年的边缘推理生态系统已经足够成熟,可以用于生产。问题不再是技术是否有效;而是运营模型是否适合你团队的能力。这是一个值得在架构确定之前明确回答的问题。

References:Let's stay in touch and Follow me for more thoughts and updates