HITL 橡皮图章问题:为什么"人在回路"往往两者皆非
负责任的 AI 部署核心存在一个悖论:你越努力让人类参与审查 AI 决策,这种审查就越失去意义。
2024 年哈佛商学院的一项研究让 228 名评估者获得了带有 AI 推理说明的 AI 建议。人类审查者与 AI 建议保持一致的可能性比对照组高 19 个百分点。当 AI 还提供叙述性理由——解释为什么做出某个决策——时,顺从度又增加了 5 个百分点。更好的可解释性反而产生了更差的监督效果。回路中的人类已经沦为表格上的橡皮图章。
这就是 HITL 橡皮图章问题。它不是某个具体实现中的缺陷,而是人类在认知负荷下面对权威系统时的可预测反应的必然结果。无论你是否有意为之,它都会出现在你的 AI 审查流程中。理解这些机制是绕过它们进行设计的第一步。
为什么人类停止了真正的审查
对 HITL 监督的朴素模型假设:给人类一个拒绝按钮等同于给他们监督权。事实并非如此。能够干预的机制是必要条件,而非充分条件。几种相互叠加的心理力量会在任何高量系统中破坏审查质量。
自动化偏见是指倾向于偏爱 AI 生成的建议并过度重视它,即使与矛盾的证据相悖也如此。这一现象在航空、放射学、刑事司法和招聘领域均有记录,并不局限于新手。2023 年《放射学》杂志的一项研究追踪了 27 名放射科医生对照 AI 建议审查 50 张乳腺 X 光片的情况。当 AI 出错时,经验不足的放射科医生的准确率从约 80% 降至 20% 以下。经验丰富的医生——平均从业 15 年以上——从 82% 降至 45.5%。培训和资历无法消除自动化偏见,只能减缓其出现。
决策疲劳在量的层面加剧了这一问题。每班需要处理数百个 AI 决策的审查者会将注意力锚定在最初的几个建议上,随着队列增长而降低审查力度,最终将 AI 输出视为默认答案,把批准作为阻力最小的路径。这与自动化偏见有本质区别——疲劳由量引起,而非由感知权威引起。
可解释性悖论是最违反直觉的机制。传统观点认为,如果你向人类展示 AI 的推理过程,审查将会改善。但哈佛商学院的数据反驳了这一点:获得清晰解释的人类审查者更多地顺从 AI 建议。当 AI 完成了解释自身推理的工作,审查者就认为重新做这项认知工作的边际价值更低了。更好的可解释性可能取代监督,而非支持监督。
责任扩散形成闭环。审查者在将不良结果归因于 AI 建议而非自身判断时,会感到心理上更安全。回路中的人类承担了法律责任,却没有行使有意义的能动性——一位研究者将此称为"道德缓冲区"。
生产环境中名义监督的样子
名义与有效的人类控制之间的差距,在极端案例中最容易看清。一家保险公司的 AI 系统让医生可以批量审查和签署拒绝理赔决定。记录显示,每次拒绝的平均时间为 1.2 秒。在两个月内,超过 30 万份理赔被拒。当其中一部分被上诉至联邦行政法法官时,约 90% 被推翻——这意味着近乎系统性的错误率,而 1.2 秒的人工审查完全未能发现。拒绝按钮存在,人类在回路中,监督却不存在。
达勒姆警察局部署了一个预测性警务工具长达六年。它将超过 1.2 万人归类为重新犯罪的高、中、低风险。其准确率为 53.8%——不比掷硬币好多少。警官遵从其建议,因为该系统带有技术权威的感知。该工具的边际性能无关紧要;自动化偏见意味着人工审查对一个近乎基准性能的系统没有任何纠正作用。
这些不是明显失败部署的边缘案例,而是在真实机构压力下处理大量决策的生产系统中 HITL 的典型样貌。
可靠性陷阱
当你的 AI 表现实际上很好时,会出现同一失败的更微妙版本。假设你的欺诈检测模型有 98% 的正确率。一个在 49 个正确预测中保持真正警觉并发现一个真实错误的人工审查者,完成了令人印象深刻的认知工作——而且他们的工资水平可能假设认知负荷要低得多。对近乎完美系统保持持续注意力的经济学根本不 成立。
沃顿研究人员将此称为可靠性陷阱。随着 AI 准确性提高,审查者的信噪比恶化。需要干预的案例变得越来越罕见,越来越难以从大量正确判断中区分出来。组织将低覆盖率视为模型质量的验证,而低覆盖率同样可能表明审查者已经脱离参与。
保持监督有意义的设计模式
这些问题是真实的,但也是可处理的。工程挑战在于设计将认知负荷与决策风险相匹配的审查系统,而非创建审查者学会尽快清空的审查队列。
按风险路由,而非按默认路由。 如果你的系统将每个决策都上报进行人工审查,审查者将把队列视为形式。目标是 10-15% 的上报率,并路由真正不确定的决策:低于校准置信度阈值的输出、分布外输入、影响受保护群体的决策、集成模型不一致的案例。将所有事情路由给人类不是监督——而是外包。
先呈现影响,再呈现建议。 大多数审查界面将 AI 输出显示得很突出,而把下游后果隐藏起来。反转这一顺序。首先呈现决策会带来什么:"此操作将拒绝 47 份理赔,总计 21 万美元。"在审查者吸收了风险之后,再呈现 AI 的建议和推理。这在一定程度上切断了锚定效应,并迫使审查者在锚定建议答案之前先参与后果。
要求覆盖理由,并跟踪覆盖率。 当审查者覆盖时,要求一个分类原因——不是自由文本(审查者会跳过),而是结构化类别。这创造了一个打断反射性批准的减速坡,覆盖数据也成为训练信号。更重要的 是:将覆盖率作为主要的系统健康指标来跟踪。随时间推移的覆盖率下降,在没有记录的模型改进的情况下,是橡皮图章的领先指标。将 0% 覆盖率视为模型验证的团队应将其视为流程失败。
将摩擦与后果校准。 低风险、易于可逆的决策值得最小摩擦。高后果、难以逆转的决策需要输入确认短语、强制清单或二次审查。摩擦不是 UX 债务——它是向审查者传达风险的机制。目标是将认知努力与决策权重相匹配。
用对抗性采样进行审计。 定期将已知错误的 AI 输出注入审查队列,但不加以标记。测量审查者的发现率。这是确定你的监督是否真正有效的唯一经验有效的方法。运行此测试并发现近乎零发现率的团队正在发现橡皮图章;不运行它的团队会在生产中后来发现,当出现问题时。
将覆盖连接到再训练流程。 如果人工修正消失在电子表格或工单队列中,审查者会了解到他们的判断没有后果,并随之脱离参与。让反馈回路可见且快速:"你最近的覆盖更新了该商家类别的欺诈评分模型。"飞轮只有在审查者相信他们的干预有意义时才能运转。
为不同意设计心理安全。 以上任何措施在组织环境惩罚异议时都无效。如果审查者认为他们的工作是确认 AI 决策,而吞吐量指标奖励速度而非审查力度,那么任何界面变化都不会产生有效监督。要求在管理层面定期报告覆盖率。将低覆盖率视为产品风险,而非模型质量信号。
HITL 完全是错误模式的情况
对于某些问题,每决策的人工审查在结构上就是错误的方法。高量、中等风险的领域——内容排名、常规欺诈评分、个性化——可能更适合人在回路外(HOTL)模式:AI 在定义的约束内自主行动,人类审查聚合行为、审计日志和异常报告,而不是批准单个决策。
HOTL 将监督功能从每决策批准转移到系统行为监控。做得好,这在规模上保留了比 HITL 更真实的监督能力,因为审查者评估的是他们有带宽理解的模式,而不是他们没有时间评估的单个决策。做得差,这是一种在保持名义责任的同时完全将人类从决策中移除的方式。区别在于异常检测是否校准良好,以及覆盖权限是否真实。
在设计任何 HITL 系统时,需要诚实地问:这种监督真正有效意味着什么?审查者需要知道什么,需要多少时间,以及需要什么地位才能有效拦截错误?如果答案与你正在构建的系统不匹配,你就是在构建名义监督。名义监督比没有监督更糟糕——它为错误提供了机构掩护,同时阻断了本可发现错误的审查。
构建真正的监督
对 AI 系统的人类监督不是通过将人类放入回路来解决的。它通过设计那些人类可以行使真正评估能动性的条件来解决:获取重要信息、处理信息的时间、足够低的量以维持注意力,以及在不受惩罚的情况下根据判断行动的组织地位。
大多数 HITL 部署在这四个条件中至少有三个失败。修复它们是一个工程问题——可处理、具体,并且与我们对模型质量应用的相同迭代改进方法兼容。监督功能是系统的一部分 。它值得与它所监督的模型同等的仪器化、同等的迭代,以及对失败模式的同等尊重。
- https://sloanreview.mit.edu/article/ai-explainability-how-to-avoid-rubber-stamping-recommendations/
- https://arxiv.org/abs/2510.19512
- https://cybermaniacs.com/cm-blog/rubber-stamp-risk-why-human-oversight-can-become-false-confidence
- https://galileo.ai/blog/human-in-the-loop-agent-oversight
- https://slate.com/technology/2021/06/human-oversight-artificial-intelligence-laws.html
- https://knowledge.wharton.upenn.edu/article/when-better-ai-makes-oversight-harder/
- https://www.deepscribe.ai/resources/optimizing-human-ai-collaboration-a-guide-to-hitl-hotl-and-hic-systems
- https://www.fairtrials.org/articles/news/foi-reveals-over-12000-people-profiled-by-flawed-durham-police-predictive-ai-tool/
- https://www.cbsnews.com/news/unitedhealth-lawsuit-ai-deny-claims-medicare-advantage-health-insurance-denials/
- https://pubs.rsna.org/doi/10.1148/radiol.222176
- https://www.benzevgreen.com/wp-content/uploads/2019/02/19-fat.pdf
- https://ilwllc.com/2025/12/balancing-ai-autonomy-human-oversight-with-adaptive-human-in-the-loop/
