端侧 LLM 推理:何时将 AI 迁出云端
大多数团队只有在亲身碰壁后,才会发现云端运行 AI 推理的棘手之处:追溯到个人健康信息(PHI)跨越 API 边界的 HIPAA 审计;在预发布环境中表现良好,直到处于不稳定连接环境下的用户反馈“一直在转圈”的延迟数据;或者是每天 10,000 次请求时看似合理,但在 1,000 万次请求时却变成灾难的单次推理 API 账单。设备端推理通常是正确的答案 —— 但团队选择它的原因以及他们遇到的问题,很少与博客文章对比中提到的相同。
这是一个关于该决策的实用指南:本地执行何时优于云端 API、哪些小模型真正具备交付能力,以及在基准测试演示结束后,部署生命周期是什么样的。
为什么团队转向设备端推理
有三个驱动因素,每个因素都有不同的特征。
隐私和监管合规性是最让团队感到意外的一点。HIPAA 要求受保护的健康信息(PHI)在 没有商业伙伴协议(BAA)的情况下不得跨越不可信边界 —— 而将患者笔记发送到第三方推理 API(即使是进行摘要)通常也属于此类。GDPR 的数据最小化原则为在有选择的情况下将个人数据保留在本地提供了强有力的依据。CCPA 引入了关于 AI 推断属性(医疗状况、财务状况、行为模式)的披露义务,当推理从未离开设备时,这些义务更容易履行。对于在这些制度下运行的医疗、法律和金融应用,设备端推理通常不是一种优化,而是合规的前提条件。
延迟限制的形态与云端延迟不同。在生成单个 token 之前,云端往返会增加 100–200ms 的网络开销。对于自动完成、语音识别和实时标注任务,这种开销是无法接受的。更根本的是,云端推理在离线环境中根本无法工作:飞机、船舶、偏远工业现场、农村医疗诊所。混合系统 —— 由轻量级设备端模型处理常见情况,云端处理升级情况 —— 可以为低连接环境下的用户提供服务,而纯云端产品则无法做到。
规模化成本是吸引团队注意力最快的原因。在中等规模下,自托管开源模型与领先的云端 API 相比可节省 60–70%。一旦考虑到完整的 GPU 折旧成本,高吞吐量工作负载的本地部署运行效率比云端高出 2.1–2.6 倍,且随着推理量的增加,盈亏平衡的计算会进一步改善。在硬件效率提升(每年约 30%)和软件优化(每年约 40%)的推动下,整个行业的推理成本在 2022 年底至 2024 年底之间下降了约 280 倍。以前只能在大型 GPU 上运行的模型,现在可以在消费级硬件上运行。
