温备问题:为何你的 AI 覆盖按钮不是安全网
大多数构建 AI 代理的团队都在为成功而设计。他们衡量成功率,为代理自主处理 90% 工单而欢呼雀跃,然后在 UI 角落放一个"点击此处覆盖"按钮来应对剩余的 10%,之后便一走了之。
这个按钮不是安全网。它是一种包装成功能的责任。
失败模式不是代理崩溃,而是名义上负责的人类在崩溃发生时无法接管。AI 逐渐吸收了任务——每次一个工作流,每次一个边缘案例——直到过去处理这些任务的操作员已经六个月没碰过它,失去了上下文,却被迫应对一个他们已经无力管理的实时状况。这就是温备问题,它会悄无声息地积累,直到某次事故将其暴露出来。
这个讽刺已经害死了人
1983 年,利赛恩·班布里奇发表了一篇名为《自动化的讽刺》的论文,揭示了一个四十年后仍未解决的悖论。核心讽刺是:自动化系统越可靠,人类就越少有机会练习在其失败时接管所需的技能。通过设计几乎不会失败的自动化系统,你系统性地侵蚀了唯一能在其失败时介入之人的能力。
航空记录将这一问题具体化了。2009 年,法航 447 航班在南大西洋上空失去自动驾驶时,机组人员大约有四分钟的时间来手动从巡航高度的失速状态中恢复。他们没能做到。驾驶飞机的飞行员做出了加剧失速的操作——这是来自低空训练的本能反应,在巡航高度上恰恰是错误的。此前航班一直正常飞行了数小时,自动化高度可靠。当它断开连接时,接手的人类却没有准备好。
飞行中失控占商业航空死亡事故的 43%。这一类别的存在,恰恰是因为自动化长期以来如此可靠,导致相关手动技能再也没能维持在应有的水平。
2018 年 Uber 自动驾驶汽车致死事故是同一失败模式在 AI 时代的版本。车内有一名人类安全驾驶员作为温备。自动驾驶系统检测到了行人,但在五秒钟的传感器数据中每次重新分类——车辆、自行车、未知物体——时都压制了自身的紧急制动。交接给人类时,有效反应时间不足两秒。而安全驾驶员在此前 21 分钟中有 6 分钟 47 秒的时间都在看路以外的地方。她名义上在回路中,实际上已经冷却下来。
美国国家运输安全委员会的调查明确将"自动化自满"列为诱因之一。Uber 的安全设计没有解决一个已知风险:被置于被动监控角色的人类会脱离参与,而一旦脱离,温备就变成了冷备。
你的人类操作员实际处于三种状态之一
系统工程在这里有一套有用的分类法。当你设计冗余系统时,有三种方式来维护备用系统:
热备是并行主动处理的。如果主系统失败,故障转移是即时且无状态的。温备以影子模式运行,定期接收状态更新。故障转移需要数秒到数分钟,但备份具有当前上下文。冷备是离线的。当你需要它时,从陈旧的起始状态启动,故障转移时间最长,需要最多的恢复工作。
将此应用于你的人类操作员。大多数 AI 代理设计假设的是热备:人类在监控,拥有完整上下文,可以立即接管。这一假设内置于每个审批工作流、每个覆盖按钮、每个升级警报中。
而你的操作员实际处于的状态,往好了说是温备,默认情况下是冷备。
温备状态的人类近期看过代理输出,理解代理在做什么,并且最近足够频繁地实践过底层任务,具有有用的判断力。冷备状态的人类几个月没碰过这个任务,凌晨两点收到警报,打开一个自代理部署以来就没看过的仪表板,被期望在几分钟内做出一个关键决策。设计假设与现实之间的差距,正是事故发生的地方。
为什么覆盖按钮不是安全阀
审批按钮有一个令人不安的特性:它证明人类_看到了_输出,但不能证明人类理解了它、评估了它,或者会独立做出相同的决定。
自动化偏见——倾向于服从自动化建议——随着系统变得更准确而加剧。一个 95% 时间都正确的系统会训练审核 者自动批准。需要真正介入的 5% 案例在事后之前看起来与 95% 的案例没有区别。数量会加剧这一问题:当代理每天处理数百个决策时,对单个决策的任何有意义的审核在操作上都是不可持续的。
审批悖论是结构性的,而非态度性的。你无法通过告诉操作员"更加小心"来解决它。你只能通过设计能产生真正操作员参与而非名义操作员在场的系统来解决它。
跨行业的研究对名义监督产生的结果是一致的:橡皮图章。《AI 与社会》2025 年的一篇综述发现,自动化偏见"不是更好的培训可以克服的认知失败,而是对真实可靠性的可预测反应。"你的代理越成功,你的覆盖按钮作为安全机制就越危险。
温备真正需要什么
在每一个已经在规模上解决了人机协同问题的安全关键领域,三个要素总是同时出现:结构化交接包、定期强制重新参与失败场景,以及对系统中所有人可见的权威结构。
结构化交接包
当护士在换班时交接患者时,接班护士不会得到过去十二小时所有发生事情的原始日志。她得到的是一份结构化简报:当前状态、重要的近期事件、待定的决策、可能出错的地方,以及出错时该怎么做。格式是 SBAR——态势、背景、评估、建议——最初为核潜艇值班交接开发,现已成为全球医院的标准。
向人类升级的 AI 代理需要产生同样的东西。不是 token 转储,不是会话历史链接,而是一份让人类能在两分钟内建立工作上下文的结构化简报。
重要的要素包括:代理试图为谁完成什么任务、它已经采取了哪些行动(包括任何不可逆的),它对什么不确定、它建议人类下一步做什么,以及时间压力是什么。对于复杂的代理任务——正在测试的代码变更、进行中的金融交易、进行到一半的多步工作流——交接包还应该包括明确的回滚选项。接管的人类在采取第一个行动之前需要知道"撤销"是什么样子的。
在企业 AI 圈流传的那个统计数字——85% 的代理到人类交接会丢失上下文——是对当前设计的控诉,而不是交接的固有属性。这正是当交接包是"以下是迄今为止的对话"时会发生的情况。
定期强制重新参与
商业飞行员每六个月保持一次复训——全保真度模拟器训练课程,练习他们在正常运行中几乎永远不会遇到的失败场景。核反应堆操作员每五到六周的实际操作工作中有一周在模拟器培训中度过。医院团队进行代码模拟,以便在真实代码发生时,心肺复苏的肌肉记忆是当前的。
目前还没有 AI 代理操作员的行业标准。差距是明显的,除非团队现在建立自己的实践轮换制度,否则这个差距将通过事故而不是主动设计来弥补。
最小可行实践制度在各领域具有相同的结构:定期接触完整任务,包括故障场景,保真度足够高以使技能能够迁移。对于 AI 代理操作员,这意味着定期关闭代理并手动处理任务——不是作为惩罚,而是作 为保持能力所需的维护。对于高风险领域,这意味着模拟交接,人类接收进行中的代理状态,并被评估他们接管的能力。
频率取决于特定任务中技能衰减的速度。物理技能比概念技能衰减更快。高频任务比低频任务更好地维持技能。作为起点:任何操作员能力下降会构成不可接受风险的任务,都应该有不超过六个月周期的强制重新参与。
可见的权威结构
Uber 安全驾驶员名义上被授权介入。她角色的行为设计——监控一个压制自身警报的系统,没有反馈循环表明她的参与程度不足——使干预实际上不可能。
人机自动化系统中的有效权威是主动的,而非被动的。它包括明确要求参与的提示、使干预在文化上正常而非偏离的社会结构,以及区分在场人类与参与人类的系统设计。
在航空业,副驾驶被要求在机长犯错时发声。这不是一种自然形成的文化规范;它是数十年机组资源管理培训的产物,源于一系列副驾驶观察到致命飞行员错误却什么都没说的事故之后。权威结构必须被设计出来。
对于 AI 代理系统,这意味着:升级警报需要主动确认而非被动消除,定期审查操作员向第二人解释其覆盖决策,以及明确的升级率监控。如果你的升级率随着时间下降而代理准确率没有变化,你有一个自动化偏见问题,而不是改进。
代际维度
班布里奇注意到一个出现更慢但更难解决的问题:未来的操作员不会有可借鉴的基础专业知识。经历了从手动到自动化转变的现有操作员保留了概念模型和手动经验,使他们能够发现自动化何时出错。他们的继任者——只见过监督代理的人——不会拥有这些。
这在医学领域已经可见,技能退化的担忧不在于今天的临床医生,而在于从第一天就借助 AI 辅助学习临床推理的医学生,他们从未建立起 AI 本应增强的诊断直觉。这将在工程团队、金融运营以及每个 AI 代理吸收了足够多常规工作以至于新从业者从未发展出使专家判断成为可能的基础的领域出现。
设计上的回应是要求通往自主代理运营的路径首先包括在手动操作中展示的能力——并将手动操作要求作为先决条件,而非选项。
实践基准
在你的下一个代理投入生产之前,可以实施三件事:
明确定义你的待机级别。 对于你的代理处理的每个任务,确定谁是指定的温备人类操作员、他们所需的参与频率是什么,以及他们必须维护的最低上下文是什么样的。像文档化值班轮换一样记录这些。如果你无法说出那个人的名字并描述他们的准备状态,你就没有温备。
衡量你的升级质量,而不仅仅是升级率。 跟踪升级案例是否得到正确解决。跟踪人工审查需要多长时间。跟踪审核者是否识别出与代理识别的相同问题,或者发现了不同的问题。低升级率加高解决时间和低捕获率,正在告诉你你的温备是冷的。
将交接包构建到代理的升级路径中。 在你的代理向人类发出警报之前,它应该生 成一份结构化简报:当前状态、已采取的行动、待定的决策、风险评估、推荐的下一步、回滚选项。这生成起来并不昂贵——代理已经拥有所有这些信息。这是两分钟内可以接管的人类与花四十分钟重建发生了什么才能做出决定的人类之间的区别。
覆盖按钮不会消失。但它只有在持有它的人有能力的情况下才有价值。能力需要实践、上下文,以及一个旨在产生真正参与而非名义在场的系统设计。其他一切都是责任。
- https://en.wikipedia.org/wiki/Ironies_of_Automation
- https://www.ufried.com/blog/ironies_of_ai_1/
- https://hbr.org/2017/09/the-tragic-crash-of-flight-af447-shows-the-unlikely-but-catastrophic-consequences-of-automation
- https://spectrum.ieee.org/ntsb-investigation-into-deadly-uber-selfdriving-car-crash-reveals-lax-attitude-toward-safety
- https://en.wikipedia.org/wiki/Death_of_Elaine_Herzberg
- https://iapp.org/news/a/-human-in-the-loop-in-ai-risk-management-not-a-cure-all-approach
- https://www.mondaq.com/unitedstates/new-technology/1769700/governing-ai-that-acts-part-2-control-in-name-only
- https://pmc.ncbi.nlm.nih.gov/articles/PMC11239631/
- https://galileo.ai/blog/human-in-the-loop-agent-oversight
- https://xtrace.ai/blog/ai-agent-context-handoff
- https://skybrary.aero/articles/crew-resource-management-crm
- https://www.ahrq.gov/teamstepps-program/curriculum/communication/tools/sbar.html
