跳到主要内容

2 篇博文 含有标签「edge-inference」

查看所有标签

边缘推理决策框架:何时在本地而非云端运行 AI 模型

· 阅读需 14 分钟
Tian Pan
Software Engineer

大多数团队在做“云端 vs. 边缘”的决策时往往凭直觉:因为云端更简单,所以他们默认选择云端。直到 HIPAA 审计来袭,或者延迟 SLO 下降了 400 ms,亦或是收到了当月的账单。只有到那时,他们才会反思是否某些推理本来就应该在本地完成。

答案几乎永远不会是“全云端”或“全边缘”。大规模运行生产级 AI 的团队已经达成共识,采用了分层架构:由设备端或本地模型处理大部分请求,而云端前沿模型则负责处理小模型无法应对的情况。正确处理这种路由是一个工程决策,而不是一种直觉。

这就是进行严谨决策的决策框架。

混合云边 LLM 架构:何时在设备端与云端运行推理

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队将云端与边缘的选择视为二元对立:要么向云端供应商按 token 付费,要么在本地运行所有内容。在实践中,真正有趣的架构介于两者之间 —— 一个路由层将每个查询发送到能够正确处理它的最便宜计算层级。那些做对的团队在降低 60–80% 推理成本的同时,还改善了延迟和隐私合规性。而那些做错的团队则在处理每一个自动补全建议时都运行前沿模型。

混合云端-边缘模式在过去两年中已趋于成熟,这主要受到两个趋同趋势的推动:能够在消费级硬件上流畅运行的小型语言模型 (SLM),以及足够精密且能智能分流的路由系统。本文涵盖了架构、决策框架,以及让混合架构比看起来更难实现的失效模式。