人力瓶颈问题：当人机协作成为你系统中最慢的微服务

2026年5月5日 · 阅读需 11 分钟

Software Engineer

大多数团队在 AI 系统中加入人工在环 (human-in-the-loop) 审核后，就认为安全问题解决了。六到十二个月后，他们发现了真正的问题：人工审核员现在成了阻碍系统规模化的瓶颈，质量在无人察觉的情况下下降，而移除监督层又显得过于冒险。他们陷入了困境。

这就是 HITL 吞吐量失效。它不同于广为人知的 HITL “橡皮图章”失效（即人类不经真正审查就批准决策）。吞吐量失效更隐蔽且危害更大：审核员在尽职尽责地工作，但队列增长速度超过了团队的处理速度，延迟承诺变得无法兑现，人工层从独立验证变成了整个系统的速度限制器。

理解这种失效需要像看待分布式系统中的任何受限资源一样来看待人工审核员——因为他们本质上就是这种资源。

为什么人工审核的崩溃方式与其他微服务不同

当下游服务变慢时，标准做法是水平扩展：增加更多实例。对于人工审核员，这种方式崩溃的速度比工程师预期的要快。

根本约束是吞吐量计算。如果你的 AI 系统每天生成 10,000 个需要人工审核的案例，每个案例平均耗时 30 秒，那么每天仅为了跟上处理速度就需要 83 个工时的人工审核能力。一个十人的全职审核团队大约能提供 80 个可用工时。在不考虑会议、上下文切换、入职培训或案例复杂差异的情况下，该团队的利用率已接近 100%。

在高利用率下，利特尔法则 (Little's Law) 决定了接下来的走向：如果到达率接近或超过服务率，队列长度将无限增长。每个案例的延迟将趋于无穷大。与在高负载下报错的数据库不同，人工审核队列只会默默积压，而系统的其他部分则继续产出无法被处理的工作。

规模化反射——雇用更多审核员——在利用率超过 50-60% 后，收益会递减。培训开销、审核员间的校准、队列管理工具以及协作成本会呈超线性增长。向一个已经饱和的十人团队增加第十一名审核员，每天获得的网络吞吐量增量不到一小时。

团队在为时已晚之前错过的运行信号

队列饱和会产生一种大多数团队没有监测的特定运行特征：

每个案例的平均审核时间减少，而批准率保持稳定。

反直觉的是，这是个坏信号。这意味着审核员已从真正的评估转向了模式匹配——根据模型置信度分数和表面特征而非独立评估来做决策。人工监督的目的正是为了捕获模型自信地出错的情况。当审核员在没有增加拒绝率的情况下缩短了每个案例的耗时，他们就不再提供这种功能了。

当这个信号可以被量化时，校准已经发生了偏移。不经常与同事讨论边缘案例的审核员在不同班次和地点开始出现标注不一致。如果这些标注流回训练流水线，下游模型质量就会下降——这又增加了未来需要人工审核的边缘案例数量。这种失效是自我强化的。

这种退化发生得非常缓慢，以至于团队通常直到系统产生明显的故障时才会察觉：一个有害的输出溜过了审核、一次监管审计暴露了覆盖漏洞，或者一次客户投诉反驳了团队对其监督流程的自信。

防止饱和的队列设计模式

大多数 HITL 瓶颈的根源在于将审核队列视为单一的 FIFO（先进先出）结构。每个项目在同一条线上等待；每个项目消耗大约相同的审核能力；每个项目的老化速度相同。这种设计在负载下会失败，因为低风险案例阻塞了高风险案例，且在业务激增时没有智能丢弃负载的机制。

优先级通道架构直接解决了这个问题。案例在进入队列前按两个独立维度进行分类：紧急程度（时间敏感性）和风险程度（错误的后果）。这产生了不同的处理方式：

高紧急、高风险（潜在的安全或法律风险）：短 SLA，立即路由给资深审核员
高紧急、低风险（面向客户但风险较低）：自动批准配合事后审计抽样
低紧急、高风险：异步审核，若 SLA 到期则有升级路径
低紧急、低风险：批量审核或全自动化

关键洞察在于，大规模情况下的大多数案例都属于低紧急、低风险的范畴。将这一部分完全自动化——辅以定期的审计抽样来捕捉偏移——可以极大地减少人类必须处理的队列，同时不损害对真正需要审核的案例的监督。

两阶段分拣模式巩固了这一点。第一道过滤器（本身可以自动化）将案例分为“显然安全”、“显然风险”和“模糊不清”。人类仅审核风险和模糊类别。通用人员处理风险但简单的案例；专家处理真正复杂的案例。这为真正需要专业知识的决策保留了专家处理能力。

只将属于人工队列的内容路由过去

队列问题的另一半在于最初进入队列的内容。那些将所有不确定案例都路由到人工审核的团队会发现，“不确定”是一个巨大的范畴。

基于置信度的路由是标准的起点：低于置信度阈值的案例升级到人工处理；高于阈值的案例自动批准。这在原理上可行，但在生产环境中存在两种失败模式。首先，置信度分数必须不断校准——如果训练分布发生了偏移，模型可能会在错误的方向上表现得很自信。其次，单一的置信度阈值无法捕捉低风险的低置信度案例与具有重大风险的高置信度案例之间的区别。

更好的路由方式会使用多种信号：

置信度分数 (Confidence score) 捕捉模型对这一特定输入的确定程度。适用于路由模型不确定的案例。

风险分数 (Risk score) 捕捉错误造成的后果，与模型置信度无关。欺诈检测系统可能会自动批准高置信度、低金额的交易，而无论置信度如何，都会将高金额交易路由给人工。

新颖性分数 (Novelty score) 捕捉分布偏移——即那些看起来与模型训练数据完全不同的案例。即使模型很自信，这些案例也值得人工审核，因为这种自信很可能是误校准的。

将这三种信号组合成路由决策，可以大幅减少人工审核的负载，同时提高人工实际看到的案例质量。审核人员可以将时间花在那些他们的判断能产生真正价值的案例上。

人工处于关键路径上的系统的 SLO

服务水平目标 (SLO) 对于确定性微服务非常奏效：定义 p99 延迟、错误率和可用性。但人工审核打破了这种模型，因为人工延迟不像服务延迟那样是有界的。根据审核人员的可用性、排班计划和案例复杂程度，一项批准可能在 20 秒内完成，也可能需要 20 小时。

解决方案是将延迟 SLO 与准确性 SLO 解耦。

首次审核时间 (Time-to-first-review) 衡量响应速度：案例进入主动审核状态的速度有多快？这是团队通过队列设计和审核人员排班直接控制的 SLO。典型目标：P0 案例在 15 分钟内审核，P1 案例在 2 小时内，P2 尽力而为。未能达到此 SLO 表明存在队列设计问题或人力不足。

处理结果准确率 (Time-to-resolution accuracy) 衡量质量：在完成审核的案例中，有多少比例的决策是正确的？这通过审计抽样和结果的回溯分析来衡量。未能达到此 SLO 表明存在校准问题，而非人力问题——其修复方式也不同。

将这两者混为一个单一的 SLO（例如“案例在 X 分钟内以 Y 准确率完成审核”）会产生一个掩盖根本原因的指标。当指标恶化时，你无法判断是需要更多审核人员，还是需要更好的审核校准。

对于具有严格实时性要求的系统——如广告竞价、支付处理、100ms 以下的欺诈检测——无论队列如何设计，人工审核在结构上都与延迟 SLO 不兼容。实际的替代方案包括：

预批准的操作模板：人工提前批准各类决策类别，而不是在运行时批准单个决策。
影子模式审核：AI 实时决策，人工进行事后审核，并对高风险错误具备回滚能力。
风险吸收：接受某些残余风险通过保险或监管容忍度来处理，比同步审核更合适。

试图将同步人工审核强加于实时系统会产生两种结果之一：审核变得流于形式（审核员为了满足延迟 SLA 而草率通过），或者系统无法满足其延迟 SLA。这两者都是不可接受的。

随着规模增长保持有意义的监督

长期的挑战不仅在于吞吐量，还在于防止人工审核变得仪式化。像欧盟《人工智能法案》第 14 条（2026 年 8 月起对高风险系统强制执行）这样的监管框架要求“有效的人工监督”，但“有效”的运营定义才是团队需要仔细思考的。

有意义的监督具有三个属性，而仅为了合规而“打勾”的流程则不具备这些属性。

审核人员理解他们正在防范的失效模式。 不仅仅是“标记有害内容”，而是具体到：模型在长尾分布中哪里会出错？哪些分布会导致误校准？理解模型失效模式的审核人员与不理解的人，在审核时的表现是不同的。

审核决策流回训练流水线。 如果人工修正不能更新模型，审核负载就永远不会减少——每一代新案例看起来都和上一代一样。随着时间推移能减少升级量的反馈闭环，是使人机协同 (HITL) 在规模化运营中具备经济可行性的关键。

主动维护校准。 那些从不就边缘案例交换意见的审核人员，其决策会逐渐产生分歧。定期的校准会议——团队审核相同的样本并讨论分歧——不是一种软性的团队建设活动；它们是保持评分者间信度高于审计功能有效阈值的核心机制。

这种设计所需的准则

能够出色处理 HITL 的团队都有一个共同的做法：他们在系统设计之初就将人工审核组件建模为“一等资源约束”，而不是为了安全合规而事后添加的补丁。

这意味着人工审核的容量规划是系统容量规划的一部分。队列饱和度分析是负载测试套件的一部分。人工层的 SLOs 在上线前就已定义，而不是在事故发生期间才被发现。路由逻辑会随着模型行为的变化而进行审查和更新。

人工审核不是免费的，也不是可以无限扩展的。在系统崩溃之前一直将其视为既免费又可无限扩展，这就是典型的失效模式。能够规避这一风险的工程师会在设计时提出与面对其他受限资源时相同的问题：当负载翻倍时，该组件会发生什么？

从一开始就设计好的答案，远比在上线六个月后才发现的答案要好得多。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

人力瓶颈问题：当人机协作成为你系统中最慢的微服务

为什么人工审核的崩溃方式与其他微服务不同

团队在为时已晚之前错过的运行信号

防止饱和的队列设计模式

只将属于人工队列的内容路由过去

人工处于关键路径上的系统的 SLO

随着规模增长保持有意义的监督

这种设计所需的准则

Recommended Reading

关于 Tian Pan

为什么人工审核的崩溃方式与其他微服务不同​

团队在为时已晚之前错过的运行信号​

防止饱和的队列设计模式​

只将属于人工队列的内容路由过去​

人工处于关键路径上的系统的 SLO​

随着规模增长保持有意义的监督​

这种设计所需的准则​

Recommended Reading

关于 Tian Pan

为什么人工审核的崩溃方式与其他微服务不同

团队在为时已晚之前错过的运行信号

防止饱和的队列设计模式

只将属于人工队列的内容路由过去

人工处于关键路径上的系统的 SLO

随着规模增长保持有意义的监督

这种设计所需的准则