混合云边 LLM 架构:何时在设备端与云端运行推理
· 阅读需 12 分钟
大多数团队将云端与边缘的选择视为二元对立:要么向云端供应商按 token 付费,要么在本地运行所有内容。在实践中,真正有趣的架构介于两者之间 —— 一个路由层将每个查询发送到能够正确处理它的最便宜计算层级。那些做对的团队在降低 60–80% 推理成本的同时,还改善了延迟和隐私合规性。而那些做错的团队则在处理每一个自动补全建议时都运行前沿模型。
混合云端-边缘模式在过去两年中已趋于成熟,这主要受到两个趋同趋势的推动:能够在消费级硬件上流畅运行的小型语言模型 (SLM),以及足够精密且能智能分流的路由系统。本文涵盖了架构、决策框架,以及让混合架构比看起来更难实现的失效模式。
