跳到主要内容

HITL 橡皮图章问题:为什么"人在回路"往往两者皆非

· 阅读需 10 分钟
Tian Pan
Software Engineer

负责任的 AI 部署核心存在一个悖论:你越努力让人类参与审查 AI 决策,这种审查就越失去意义。

2024 年哈佛商学院的一项研究让 228 名评估者获得了带有 AI 推理说明的 AI 建议。人类审查者与 AI 建议保持一致的可能性比对照组高 19 个百分点。当 AI 还提供叙述性理由——解释为什么做出某个决策——时,顺从度又增加了 5 个百分点。更好的可解释性反而产生了更差的监督效果。回路中的人类已经沦为表格上的橡皮图章。

这就是 HITL 橡皮图章问题。它不是某个具体实现中的缺陷,而是人类在认知负荷下面对权威系统时的可预测反应的必然结果。无论你是否有意为之,它都会出现在你的 AI 审查流程中。理解这些机制是绕过它们进行设计的第一步。

为什么人类停止了真正的审查

对 HITL 监督的朴素模型假设:给人类一个拒绝按钮等同于给他们监督权。事实并非如此。能够干预的机制是必要条件,而非充分条件。几种相互叠加的心理力量会在任何高量系统中破坏审查质量。

自动化偏见是指倾向于偏爱 AI 生成的建议并过度重视它,即使与矛盾的证据相悖也如此。这一现象在航空、放射学、刑事司法和招聘领域均有记录,并不局限于新手。2023 年《放射学》杂志的一项研究追踪了 27 名放射科医生对照 AI 建议审查 50 张乳腺 X 光片的情况。当 AI 出错时,经验不足的放射科医生的准确率从约 80% 降至 20% 以下。经验丰富的医生——平均从业 15 年以上——从 82% 降至 45.5%。培训和资历无法消除自动化偏见,只能减缓其出现。

决策疲劳在量的层面加剧了这一问题。每班需要处理数百个 AI 决策的审查者会将注意力锚定在最初的几个建议上,随着队列增长而降低审查力度,最终将 AI 输出视为默认答案,把批准作为阻力最小的路径。这与自动化偏见有本质区别——疲劳由量引起,而非由感知权威引起。

可解释性悖论是最违反直觉的机制。传统观点认为,如果你向人类展示 AI 的推理过程,审查将会改善。但哈佛商学院的数据反驳了这一点:获得清晰解释的人类审查者更多地顺从 AI 建议。当 AI 完成了解释自身推理的工作,审查者就认为重新做这项认知工作的边际价值更低了。更好的可解释性可能取代监督,而非支持监督。

责任扩散形成闭环。审查者在将不良结果归因于 AI 建议而非自身判断时,会感到心理上更安全。回路中的人类承担了法律责任,却没有行使有意义的能动性——一位研究者将此称为"道德缓冲区"。

生产环境中名义监督的样子

名义与有效的人类控制之间的差距,在极端案例中最容易看清。一家保险公司的 AI 系统让医生可以批量审查和签署拒绝理赔决定。记录显示,每次拒绝的平均时间为 1.2 秒。在两个月内,超过 30 万份理赔被拒。当其中一部分被上诉至联邦行政法法官时,约 90% 被推翻——这意味着近乎系统性的错误率,而 1.2 秒的人工审查完全未能发现。拒绝按钮存在,人类在回路中,监督却不存在。

达勒姆警察局部署了一个预测性警务工具长达六年。它将超过 1.2 万人归类为重新犯罪的高、中、低风险。其准确率为 53.8%——不比掷硬币好多少。警官遵从其建议,因为该系统带有技术权威的感知。该工具的边际性能无关紧要;自动化偏见意味着人工审查对一个近乎基准性能的系统没有任何纠正作用。

这些不是明显失败部署的边缘案例,而是在真实机构压力下处理大量决策的生产系统中 HITL 的典型样貌。

可靠性陷阱

当你的 AI 表现实际上很好时,会出现同一失败的更微妙版本。假设你的欺诈检测模型有 98% 的正确率。一个在 49 个正确预测中保持真正警觉并发现一个真实错误的人工审查者,完成了令人印象深刻的认知工作——而且他们的工资水平可能假设认知负荷要低得多。对近乎完美系统保持持续注意力的经济学根本不成立。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates