带有延迟预算的紧急开关:你的故障处理从未达到的标准
运维手册上写着“禁用代理”。值班人员照做了。43 分钟后,当紧急开关终于通过配置服务传播开来时,该代理已经提交了 1,200 张错误的工单,调用了 8,000 次计费 API,并向根本没有订阅任何服务的客户发送了邮件。运维手册是正确的,但它也是徒劳的,因为没有人衡量过当代理每秒钟都在造成破坏时,“禁用代理”实际上需要多长时间。
大多数 AI 功能都配有紧急开关,就像大多数建筑都配有灭火器一样:有人签字确认它的存在,却没人计时到达它需要多久。合规审查会问“是否有紧急开关?”,答案是肯定的。而故障现场会问“止血有多快?”,答案则取决于底层管道恰好需要的时间——团队中从未有人针对该功能造成破坏的速度测量过这个数字。
这种不匹配正是问题的核心。一个遏制时间长于其破坏扩散时间的功 能,交付的只是“遏制剧场”(Containment Theater)。
每个 AI 功能都有一个隐式的 RTO
在传统的事件响应中,恢复时间目标(RTO)是你为每个服务声明的属性。对于 AI 功能,RTO 是由更微妙的东西暗示的:失控模型积累破坏的速度。
如果你的代理以每秒 50 次请求的速度调用付费第三方 API,且每次调用耗费 5 美分,那么每一秒钟的错误运行都会耗费 2.50 美元。如果你的代理向客户可见的队列写入数据,每一秒钟都会增加你需要手动对账的条目。如果你的代理发送邮件,每一秒钟都是你无法挽回的声誉损失。
将该速率乘以你的遏制延迟——即从“我们决定停止”到“它实际停止”之间的实际时间(Wall-clock time)——你就得到了故障的最低成本底线。这不是漏洞的成本,不是回归测试的成本,而是紧急开关管道的成本,每当出现问题时,这笔费用都会由你或客户承担。
这是没有人测量的数字。团队测量模型准确性、评估分数、延迟、Token 支出。值班人员按下按键与代理停止响应之间的延迟,是一个存在于“我们发布功能”与“我们遏制功能”之间的数字,并且在每一个路线图中都被忽略了。
