跳到主要内容

温备问题:为何你的 AI 覆盖按钮不是安全网

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数构建 AI 代理的团队都在为成功而设计。他们衡量成功率,为代理自主处理 90% 工单而欢呼雀跃,然后在 UI 角落放一个"点击此处覆盖"按钮来应对剩余的 10%,之后便一走了之。

这个按钮不是安全网。它是一种包装成功能的责任。

失败模式不是代理崩溃,而是名义上负责的人类在崩溃发生时无法接管。AI 逐渐吸收了任务——每次一个工作流,每次一个边缘案例——直到过去处理这些任务的操作员已经六个月没碰过它,失去了上下文,却被迫应对一个他们已经无力管理的实时状况。这就是温备问题,它会悄无声息地积累,直到某次事故将其暴露出来。

这个讽刺已经害死了人

1983 年,利赛恩·班布里奇发表了一篇名为《自动化的讽刺》的论文,揭示了一个四十年后仍未解决的悖论。核心讽刺是:自动化系统越可靠,人类就越少有机会练习在其失败时接管所需的技能。通过设计几乎不会失败的自动化系统,你系统性地侵蚀了唯一能在其失败时介入之人的能力。

航空记录将这一问题具体化了。2009 年,法航 447 航班在南大西洋上空失去自动驾驶时,机组人员大约有四分钟的时间来手动从巡航高度的失速状态中恢复。他们没能做到。驾驶飞机的飞行员做出了加剧失速的操作——这是来自低空训练的本能反应,在巡航高度上恰恰是错误的。此前航班一直正常飞行了数小时,自动化高度可靠。当它断开连接时,接手的人类却没有准备好。

飞行中失控占商业航空死亡事故的 43%。这一类别的存在,恰恰是因为自动化长期以来如此可靠,导致相关手动技能再也没能维持在应有的水平。

2018 年 Uber 自动驾驶汽车致死事故是同一失败模式在 AI 时代的版本。车内有一名人类安全驾驶员作为温备。自动驾驶系统检测到了行人,但在五秒钟的传感器数据中每次重新分类——车辆、自行车、未知物体——时都压制了自身的紧急制动。交接给人类时,有效反应时间不足两秒。而安全驾驶员在此前 21 分钟中有 6 分钟 47 秒的时间都在看路以外的地方。她名义上在回路中,实际上已经冷却下来。

美国国家运输安全委员会的调查明确将"自动化自满"列为诱因之一。Uber 的安全设计没有解决一个已知风险:被置于被动监控角色的人类会脱离参与,而一旦脱离,温备就变成了冷备。

你的人类操作员实际处于三种状态之一

系统工程在这里有一套有用的分类法。当你设计冗余系统时,有三种方式来维护备用系统:

热备是并行主动处理的。如果主系统失败,故障转移是即时且无状态的。温备以影子模式运行,定期接收状态更新。故障转移需要数秒到数分钟,但备份具有当前上下文。冷备是离线的。当你需要它时,从陈旧的起始状态启动,故障转移时间最长,需要最多的恢复工作。

将此应用于你的人类操作员。大多数 AI 代理设计假设的是热备:人类在监控,拥有完整上下文,可以立即接管。这一假设内置于每个审批工作流、每个覆盖按钮、每个升级警报中。

而你的操作员实际处于的状态,往好了说是温备,默认情况下是冷备。

温备状态的人类近期看过代理输出,理解代理在做什么,并且最近足够频繁地实践过底层任务,具有有用的判断力。冷备状态的人类几个月没碰过这个任务,凌晨两点收到警报,打开一个自代理部署以来就没看过的仪表板,被期望在几分钟内做出一个关键决策。设计假设与现实之间的差距,正是事故发生的地方。

为什么覆盖按钮不是安全阀

审批按钮有一个令人不安的特性:它证明人类_看到了_输出,但不能证明人类理解了它、评估了它,或者会独立做出相同的决定。

自动化偏见——倾向于服从自动化建议——随着系统变得更准确而加剧。一个 95% 时间都正确的系统会训练审核者自动批准。需要真正介入的 5% 案例在事后之前看起来与 95% 的案例没有区别。数量会加剧这一问题:当代理每天处理数百个决策时,对单个决策的任何有意义的审核在操作上都是不可持续的。

审批悖论是结构性的,而非态度性的。你无法通过告诉操作员"更加小心"来解决它。你只能通过设计能产生真正操作员参与而非名义操作员在场的系统来解决它。

跨行业的研究对名义监督产生的结果是一致的:橡皮图章。《AI 与社会》2025 年的一篇综述发现,自动化偏见"不是更好的培训可以克服的认知失败,而是对真实可靠性的可预测反应。"你的代理越成功,你的覆盖按钮作为安全机制就越危险。

温备真正需要什么

在每一个已经在规模上解决了人机协同问题的安全关键领域,三个要素总是同时出现:结构化交接包、定期强制重新参与失败场景,以及对系统中所有人可见的权威结构。

结构化交接包

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates