跳到主要内容

1 篇博文 含有标签「cdn」

查看所有标签

你的 AI 功能无法使用 CDN 边缘缓存,因为响应因用户而异

· 阅读需 10 分钟
Tian Pan
Software Engineer

产品团队将新 AI 摘要器的 SLO 设置为 200ms TTFB,因为这是产品其他部分在 p50 下的表现。会议上没人问这 200ms 是怎么来的。它源于十年来通过 CDN 边缘缓存提供的静态资源和 JSON 响应,其缓存命中率为 85%,大多数请求从未到达源站,即便到达了,数据量也很小。而这个摘要器是针对每个用户的,每次调用都是重新生成的,且每次请求都要经过“边缘 → 源站 → 模型提供商”的路径。从第一天起,这个 SLO 在结构上就是无法实现的。团队在第六周才发现这一点,而此时仪表盘已经红了整整六周。

这是 AI 功能发布中反复出现的一种模式。组织在某种物理规律基础上建立的延迟标准,被一个遵循完全不同物理规律的功能所继承。于是,继承目标与可实现底线之间的差距,变成了一个长达数月的缓解项目,而不是第 0 天的设计约束。数字并不关心你是否出于诚意与客户协商了该 SLO。