悄无声息击穿提示缓存的那次模型迁移
· 阅读需 11 分钟
迁移看上去很干净。评估已经针对新模型版本重新校准。Judge 提示词重新调校过。两周的影子流量显示行为对齐在容差范围内。p50 和 p99 延迟都在预算之内。周四下午的上线评审签字通过,团队各回各家。
到了周五早上,推理账单是平时的 3 倍。评估分数依旧没问题。延迟依旧没问题。上线评审上没有人想到要对缓存命中率做埋点,因为前缀根本没变 —— 系统提示词逐字节相同,工具定义逐字节相同,对话框架逐字节相同。变的是请求体里的模型版本,而供应商的前缀缓存键是 (前缀字节 + 模型版本)。切换之后的每一个请求都打到了一个冷缓存上。预热曲线靠自然流量花了六周才恢复,在此期间团队为每个请求的每一个 token 都支付了完整的未命中价格。
这就是横亘在模型团队上线仪表盘与 FinOps 仪表盘之间的缓存失效盲区。模型团队负责行为对齐、延迟和评估分数。FinOps 负责月度账单。缓存命中率夹在中间,无人主管,而模型迁移恰恰是你能对它做的最昂贵的一次操作。
