跳到主要内容

人类注意力预算是你的 HITL 系统在默默透支的约束条件

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的审核员今天早上做出的第 50 个决策与第 1 个决策的质量并不相同。架构图不会显示这一点。容量模型不会显示这一点。跟踪“每小时审批量”的仪表盘甚至在主动掩盖这一点。然而,你的人机回环(Human-in-the-loop,简称 HITL)系统的整个前提——即由人来捕捉模型产生的错误——从队列开始填充的那一刻起就在无形中退化。

大多数 HITL 设计将审核员的时间视为一种无限的、可互换的资源。团队设置一个置信度阈值,将所有低于该阈值的项路由到人工队列,并宣布系统是“安全”的。六周后,审批率已悄然升至 96%,队列深度是人员配置模型假设的两倍,抽样审计显示审核员正在对他们在第一天会标记出来的边缘案例点击“批准”。系统并没有崩溃,它只是通过“橡皮图章”式的盲目审批,让自己看起来运转良好。

这不是一个纪律问题,而是一个架构问题。你的系统有一个容量有限的队列,且附带了一条质量退化曲线,而你没有对这两者中的任何一方进行建模。解决方法不是“更好地培训审核员”或“增加更多审核员”,而是将人工环节设计为一个真实的、有界的子系统——就像你设计任何其他具有吞吐量限制、延迟预算和故障模式的组件一样。

审核员质量是曲线,而非恒值

关于这一点的认知科学文献非常明确。警觉性下降(Vigilance decrement)——即在持续监控任务中检测准确度的下降——是注意力研究中最具可重复性的发现之一。当人类在一连串常规信号中监测频率较低的信号时,表现会在 20 到 30 分钟内退化。这种退化来自三个不同的机制:反应偏向转向更频繁的答案(在 HITL 中即“批准”)、感知灵敏度下降以及完全的注意力缺失(大脑短暂脱离)。

将其转化到你的队列中。如果模型路由进行审核的项目中有 90% 最终证明是可以批准的,反应偏向的转变就会促使审核员默认选择“批准”——这不是因为他们懒惰,而是因为大脑会根据基础概率进行优化。午饭后的第 50 个决策落入了一个已经因为点击 45 次“批准”而获得奖励的系统中。第 51 个出现的真正模糊的案例,正是你的闭环设计旨在捕捉的对象,却也是你的审核员最无力捕捉的一个。

在此基础上再加上自动化偏见(Automation bias)。对 AI 决策支持的实证研究一致表明,人类审核员倾向于相信模型的建议而非自己的判断——而且随着系统显得越“可靠”,这种效应就越强。一项已发表的研究发现,在专业审核任务中,AI 生成建议的接受率在 80-90% 之间。这就是你的 HITL 闭环实际能提供的监督上限,而且这还是在疲劳感袭来之前的上限。

综合效应是一条曲线,而不是阶梯函数。准确度起初很高,随着班次进行逐渐下降;当队列深度超过人员配置预期时,准确度下降得更快;当每个项目的审核停留时间低于实际推导模型推理过程所需的认知最小值时,准确度将趋近于渐近线般的“橡皮图章”状态。

你的仪表盘究竟在衡量什么

走进普通的 HITL 运营评估会议,你会看到两个指标:吞吐量(每个审核员每小时的决策数)和审批率(批准百分比)。两者都与准确度相关,但都不能衡量准确度。

吞吐量衡量的是速度,一个只做橡皮图章的审核员可以在贡献零监督的情况下完美达成速度指标。审批率衡量的是与模型的一致性,而这恰恰是自动化偏见会夸大的维度。一个审批率从第一周的 78% 爬升到第六周 94% 的审核员,并不是业务变得更精湛了,他们要么是变得与一个从未改变的模型更加一致,要么——更可能的情况是——已经不再深入参与到足以提出异议的程度。

真正能告诉你闭环是否奏效的指标更难衡量:即与一个保留的“金标准”样本的一致性。该样本应从与实时队列相同的分布中提取,并由看不到模型建议的独立小组评分。如果你没有这个指标,你就不可能知道你的审核员是否在捕捉错误,你只知道他们在处理项目。

一个有用的代理指标:跟踪审批率随班次内决策序号的变化情况。如果第 1 到 20 个决策的审批率是 78%,而第 80 到 100 个决策的审批率是 94%,那么你就发现了一个警觉性下降的特征。模型在第 80 个决策时并没有变得更准确——而是你的审核员变得不那么挑剔了。

基于置信度的路由误判了困难案例

第二种最常见的 HITL 设计——将所有置信度低于阈值的预测路由给人工——在结构上就无法解决其旨在修复的失效模式。模型不确定(Uncertain)的情况和模型错误(Wrong)的情况是重叠但并不等同的集合,而这两者的并集才是你的队列应该包含的内容。

一个模型对分布外(Out-of-distribution)的输入有 92% 的置信度,这属于高置信度的错误——它永远不会进入队列,错误就这样发布了。而一个模型对常规但模糊的输入只有 68% 的置信度,它进入了队列,却被一个疲惫的审核员批准了,因为审核员将模型的犹豫解读为“差不多就行”。第一个失效是无形的,第二个失效被盖了章。两者都不是 HITL 应该捕捉到的。

改进方法是基于复合信号进行路由,该信号不仅包含置信度,还应结合新颖性(此输入与训练分布的偏差程度)、策略风险等级(该类别下的错误是否会带来不对称成本)、客户或利益相关者的权重,以及来自上游校验器的显式异常标记。将人工队列保留给那些真正模糊的情况:多个信号不一致的情况、错误成本很高的情况,或者输入在结构上具有新颖性的情况。当策略和新颖性信号清晰时,自动批准那些仅仅是不确定的项。自动拒绝——或升级到不同的队列——那些违反策略校验器的高置信度输出,因为这些是基于置信度阈值路由在结构上无法捕捉的失效。

目标是将人工队列从“模型不确定的所有内容”压缩到“真正需要人类判别工作的案例”。仔细实施这一方案的从业者报告称,为了保持审核员的持续准确度,人工升级率的目标区间通常在 10-15%。任何高于这个比例的情况,你都在支付“注意力预算税”;任何低于这个比例的情况,你可能正在遗漏该闭环存在的意义。

将循环设计为子系统,而非成本中心

使 HITL(人机回环)系统持久运行的架构转变,在于以对待缓存或限流器同样的工程严谨性来对待人工环节。这意味着需要明确边界、故障模式和恢复行为——而不仅仅是理想路径(happy path)。

几种规程必须共同落地:

  • 针对每位审核员的注意力预算指标:追踪每个班次的决策量、决策停留时间以及整个班次中批准率的漂移。当一名审核员在处理第 80 项时的停留时间只有第 10 项的一半,且其批准率上升了 15 个百分点时,系统应将其视为一种“降级状态”——就像对待缓存命中率下降 15% 一样——并将后续决策路由到精力更充沛的审核员或不同的队列中。

  • 相似形态任务的分批路由:在异构的决策形态之间进行上下文切换是 HITL 吞吐量中最大的隐藏成本之一。如果一名审核员批量处理 30 个图像审核请求,他可以保持稳定的内部策略模型;而如果同一名审核员在图像审核、退款资格和合同审查之间来回切换,每一项任务都会产生上下文切换税,这既降低了速度,又降低了决策质量。

  • 当出现“橡皮图章”迹象时强制轮换:通过自动化检查对比每位审核员的即时批准率与群体基准,并标记出那些批准率在统计学上与“全部批准”无异的审核员。这并非纪律失败,而是系统在告诉你审核员的注意力预算已经耗尽。解决办法是轮换,而非重新培训。

  • 触发更激进自动批准(而非让队列变长)的审核延迟 SLA:这是一个反直觉的做法。当队列增长超过人员配备能力时,错误的应对方式是任其增长——正确的做法是提高低风险类别的自动批准阈值,显式地承担边际准确性损失,而不是通过审核员疲劳隐式地承担更大的准确性损失。队列深度应该是受控变量,而非自然产生的变量。

  • 定期注入“黄金标准”:队列中应包含一小部分来自精选集的已知答案测试案例,并根据审核员的响应自动评分。这是在生产环境中衡量审核员实际准确性的唯一方法,同时也起到督促作用——如果审核员知道每 50 项中就有 1 项会被评分,他们就会在注意力预算的分配上更加留神。

这些都不稀奇。它们只是将标准的可靠性工程应用于一个团队一直将其视为黑盒的子系统。

改变架构的观念重塑

如果团队在设计 HITL 循环时没有对人工端建模,那么他们就是在设计一个在负载下会变成“橡皮图章”的瓶颈。修复方法在技术层面之前首先是观念层面的:停止将人视为无限的安全网,开始将人视为一个具有有限容量的队列,这个队列带有质量下降曲线、自动化偏差偏移和上下文切换税。

一旦这种观念重塑落地,系统设计就会自然发生变化。你将不再把每一个不确定的决策都路由给人工,而是开始路由“正确”的不确定决策。你将不再把吞吐量当成质量来衡量,而是开始通过留出样本(held-out samples)来衡量质量。你将不再通过扩大队列来吸收负载,而是开始扩大自动批准阈值,并将边际准确性成本显式化并纳入预算。你将不再把审核员疲劳视为人力资源问题,而是将其视为应改变路由行为的运行时信号。

当前这一代 HITL 设计中最深刻的错误根本不是技术性的。而是认为在流水线末端增加人工就能将正确性的责任转移给他们。事实并非如此。流水线仍然对结果负责——包括没有为人工提供能够真正发现模型遗漏问题的环境。能够正确处理这一点的系统,其架构师接受人工环节是一种有限资源,并以此建模,围绕其实际限制构建循环的其余部分。

六个月后交付生产的 HITL 系统将呈现出两种面貌之一。要么它拥有注意力预算模型、基于置信区间的队列、轮换策略和黄金标准衡量层——并且它确实在捕捉模型遗漏的错误。要么它完全没有这些,队列增长超过了人员配备预估,批准率攀升至 95%,而团队正在汇报一个毫无意义的高“审核覆盖率”数字。决定你交付哪种系统的架构决策,在今天定义循环的方式中就已经清晰可见了。

References:Let's stay in touch and Follow me for more thoughts and updates