混合云边 LLM 推理:端侧模型何时优于云端
· 阅读需 14 分钟
你的 LLM 在云端生成的每一个 Token 都在产生费用,增加延迟,并跨越网络边界传输用户数据。在设备端生成的每一个 Token 都避开了这三个问题——但受限于手机或笔记本电脑 GPU 的处理能力。有趣的工程挑战发生在边界上:决定哪些查询值得调用云端的前沿能力,而哪些更适合由运行时间不到 20 毫秒的 3B 参数本地模型来处理。
混合云边推理模式并非理论。Apple Intelligence 在端侧模型和私有云计算 (Private Cloud Compute) 之间进行路由。Google 的 Gemini Nano 直接在 Pixel 和三星设备上运行,同时将复杂的请求升级到云端 Gemini。这些不是演示项目——它们正以数十亿设备的规模进行交付。而底层架构现在正被任何愿意仔细思考“延迟-隐私-成本”三角形的团队所采用。
