非确定性系统的 SLO:当每次响应都不同时如何定义可靠性
· 阅读需 10 分钟
你的 AI 功能返回 HTTP 200,在 180ms 内完成,生成了有效的 JSON。按照所有传统 SLI 指标,这个请求是成功的。但答案是错的——一个编造的产品规格、一条捏造的法律引用、一个微妙错误的计算。你的监控一片绿色,用户却怒火中烧。
这就是 SRE 在 AI 系统上失效的根本性断裂。传统可靠性工程假设成功的执行会产生正确的结果。非确定性系统在每一个请求上都违反了这个假设。同样的提示、同样的上下文、同样的模型版本,每次都可能产生不同的——且错误方式各异的——答案。
2025 年麦肯锡的一项调查发现,51% 使用 AI 的组织经历了负面后果,其中近三分之一将问题归因于不准确。不是宕机,不是延迟,是不准确。系统运行完美,却在产生错误答案。
如果你在生产环境中运营 AI 功能,你需要一类全新的可靠性目标——衡量系统是否正确,而不仅仅是衡量它是否在运行。
