AI 事故响应手册:为什么你的值班 Runbook 对 LLM 不管用
· 阅读需 11 分钟
你的监控看板显示延迟升高,错误率小幅上升,然后归于平静。用户已经在 Slack 里投诉了。你的 AI 功能有四分之一的响应在产生幻觉,而这些幻觉在你的告警系统眼中看起来完全正常。等你找到原因——两小时前上线的一个提示词里改了六个字——一场你的 Runbook 从未预料到的慢燃事故已经结束了。
这就是在生产环境中运营 AI 系统的核心挑战。这些故障模式真实存在、危害显著,却对传统工具完全隐形。一个在悄悄产生幻觉的 LLM,从外部看和一个运行正常的 LLM 毫无区别。
你现有的值班手册是为确定性系统构建的。一个服务要么返回 200,要么不返回。一条数据库查询要么成功,要么抛出你可以 grep 到的异常。整套事故响应机制——告警、Runbook、升级路径、事后分析——都建立在一个假设之上:故障会留下可追溯的痕迹。
AI 系统彻底打破了这个假设。
