跳到主要内容

人类放在哪里:AI 审批关卡的放置理论

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数团队将人机协作审核作为事后补充:智能体完成其工作链,结果落入审核队列,然后人工点击批准或拒绝。这看起来像是安全保障,但实际上大多只是一种表演。

当一个多步骤智能体到达链尾审核时,它已经发送了 API 请求、修改了数据库行、起草了客户邮件并安排了后续跟进。所谓的"审核"不过是在批准一件已经完成的事。拒绝它意味着向智能体——通常也向用户——解释为什么过去 10 分钟发生的一切都不作数。

错误放置审批关卡造成的危害并不总是戏剧性的。更多时候,危害更加隐蔽:审核者批准一切,因为真正的决策已经做出;工程师在事故发生后增加更多检查点,却眼睁睁看着产品信任度崩溃;组织在"太多摩擦"和"监督不足"之间摇摆,却从未解决根本的放置问题。

放置位置是核心变量。在哪里插入人工节点决定了监督是有意义的还是流于形式的。要做对这件事,需要的是框架,而不是直觉。

为何链尾审核会失效

在一个线性智能体流水线——收集上下文 → 推理 → 规划 → 执行——中,早期引入的错误会在每个后续步骤中复利放大。规划阶段的错误假设会驱动多个下游工具调用。当人工看到输出时,错误已经通过 n 层智能体推理被放大,其影响已经进入外部系统。

这不是假设。在医疗保健领域,保险公司部署的 AI 拒绝理赔系统,案例管理人员被明确指示不得偏离模型的预测。当上诉错误率达到 90% 时,下游损害已经清晰可见。问题不在于模型本身——而在于人类判断在本应发挥杠杆作用的节点上被结构性地排除了。

在智能体接触真实系统的每个地方,这种失败模式都以不那么戏剧性的形式出现。一个已经推送分支、发起 PR 并对 issue 发表评论的编码智能体,从其"工作"结束时的人工审核中获益甚微。副作用已经散布出去了。

链尾审核失效有三个原因:

  • 不可逆性在上游复利。 每个工具执行可能单独可逆,但组合往往不然。发送邮件草稿是可逆的;发送邮件、收件人读了、生成后续日历邀请——这是一个无法干净撤销的状态。
  • 审核变成橡皮图章。 当审核者看到与中间推理脱节的最终输出时,他们缺乏有意义地评估产生这些决策的背景。关于审批疲劳的研究表明,在低拒绝率下长期审核常规 AI 输出的人,随着时间推移会系统性地降低注意力。
  • 干预窗口已经过去。 有效的监督需要在后果蔓延之前中断的能力。放置在最后一个关键动作之后的关卡不提供这样的窗口。

按风险面对动作进行分类

良好关卡放置的基础是动作清单。在决定在哪里插入审批关卡之前,列举智能体实际执行的操作:每个工具调用、API 请求、外部消息和状态变更,并诚实评估每个操作对世界的改变。

三个维度决定了一个动作在风险面上的位置:

可逆性 —— 这能被撤销吗,成本是什么,由谁撤销?读取数据是轻松可逆的(它没有被改变)。创建草稿文档需要花力气才能撤销。向客户发送邮件在技术上是可逆的(带一封道歉信),但实际成本很高。删除没有备份的记录或提交财务交易在任何操作意义上都可能是不可逆的。

爆炸半径 —— 如果出错,谁会受到影响?仅影响内部草稿状态的动作爆炸半径很小。对外部用户、客户或第三方系统可见的动作爆炸半径很大。任何代表你的组织做出承诺的事情——外部邮件、法律文件、财务转账——都将广泛的爆炸半径与组织声誉结合在一起。

合规风险 —— 适用什么法规要求?医疗保健、金融和法律领域通常对特定类别的动作有强制性监督要求。这些不是关于风险容忍度的判断调用;它们是法律义务。

使用这三个维度,你可以将每个智能体动作划分为三个层级:

层级特征示例动作关卡类型
安全可逆、内部、无合规风险读取数据、生成草稿、内部状态更新自主——无关卡
敏感产生可见状态、外部各方可能看到、中等爆炸半径发送邮件、创建日历事件、发布到 Slack条件式——置信度关卡或采样
关键不可逆或难以撤销、外部承诺、合规风险删除记录、财务交易、客户沟通、法律行动执行前——每次强制人工审批

这种分类的关键洞察是:执行前关卡属于关键动作,而不是所有动作。 对一切设置关卡会产生审批疲劳。什么都不设置会产生操作风险。上表是一个起点——每个团队都会有特定领域的项目,根据其具体的风险容忍度和监管环境在层级间移动。

在不可逆性之前而非之后放置关卡

一旦你有了动作清单,关卡放置遵循一个简单规则:审批关卡紧接在链中进入关键区域的第一个动作之前,而不是在结尾。

考虑一个处理客户退款请求的智能体。链可能是:查找客户记录 → 验证订单历史 → 计算退款金额 → 发起退款 → 发送确认邮件 → 更新 CRM。关键动作是"发起退款"——这才是关卡应该放置的地方。之前的一切可以自主执行。一旦退款被批准,之后的一切(确认邮件、CRM 更新)也可以自主执行,因为关键决策已经由人工做出。

这与在最终输出处设置关卡("发送确认邮件")有本质区别。到那时,退款已经发出。对邮件设置关卡不能防止错误的退款计算;它只是创建了一个步骤,让人工批准向客户确认一件已经发生的事情。

一个放置良好的关卡具有三个属性:

  1. 它出现在不可挽回之前。 人工在不可逆动作执行之前进行审核和批准,而不是之后。
  2. 它提供足够的上下文使决策有意义。 审核者看到智能体的推理、置信度分数、输入参数和被提议的具体动作——而不仅仅是最终输出。
  3. 它拦截一个特定决策,而不是整个工作流。 拦截一个特定工具调用的精确关卡维持工作流连续性;批准后智能体自动恢复。

中断-检查点-恢复模式

有意义的链中监督的技术基础是中断-检查点-恢复模式。在智能体执行的任意时刻,工作流引擎调用一个中断,该中断:

  1. 在当前节点暂停执行
  2. 通过检查点存储持久化完整的执行状态(所有变量、累积的上下文、工具调用历史、中间结果)
  3. 向审核者呈现结构化的动作载荷——被提议的动作、其输入以及产生该动作的推理
  4. 无限期等待人工输入
  5. 在确切的暂停点恢复,并应用人工的决策

无限期等待很重要。大多数生产审批工作流是异步的——审核人工不是在实时观察智能体。基于检查点的持久化意味着智能体可以在上午 9 点中断,下午 2 点被审核,下午 2:05 恢复,而不会丢失状态或重新执行先前的步骤。

没有检查点,替代方案是在中断发生时从头重启工作流。这会产生重复的副作用(如果中断前有任何动作执行了)、浪费的 API 成本,以及对任何观察工作流状态的人来说糟糕的体验。适当的检查点是使链中关卡在操作上可行而不仅仅是理论上吸引人的关键。

呈现给审核者的状态应该为决策而设计,而不是为调试。包括:用简单语言描述的被提议动作、传递给工具的具体参数、智能体的置信度分数(如果有)、来自链早期的相关上下文,以及如果批准将自动执行的下游动作。看到所有这些的审核者可以做出有意义的决策。看到 智能体想要执行工具:send_email,参数:{...} 的审核者则不能。

敏感动作的置信度关卡升级

对于敏感层级的动作——可见但不可逆,或低到中等的爆炸半径——强制性的执行前关卡通常会产生过多摩擦。更好的模式是置信度关卡升级:当智能体有把握时自主进行,当没有把握时升级到人工审核。

生产部署中典型的阈值范围在 80% 到 90% 的置信度之间用于自主执行,低于该阈值时升级。最佳阈值取决于特定动作的风险特征和你对审核的操作容量——目标升级率为 10-15% 是一个合理的起点,意味着你的目标是 85-90% 的敏感动作无需人工干预即可执行。

置信度阈值不是静态配置值——它们需要持续校准。校准信号来自人工决策:人工覆盖智能体有把握决策的情况表明需要收紧阈值;人工批准升级而不修改的情况表明可以放宽阈值。积极运行这个反馈循环是在智能体行为和输入分布随时间变化时将升级率保持在目标范围内的关键。

一个实际注意点:置信度分数应该按动作计算,而不是按对话计算。对其总体计划非常有把握的智能体,对于该计划中的特定工具调用可能仍然不确定。聚合置信度分数会产生校准错误的关卡。

关卡放置的信任经济学

从用户信任的角度来看,放置不当的关卡比没有关卡更糟糕。这是反直觉的,但有充分记录。

当审核者被反复要求批准常规的、低风险的动作——确认只读查找应该执行、批准未发送给任何人的草稿——会发生几件事。首先,批准按钮被反射性地点击。审核者失去了仔细审查批准的习惯,因为过去的经验告诉他们没有什么重要的事情处于危险中。其次,用户对智能体系统失去信心,因为它似乎需要为微不足道的操作牵手引导。第三,工程师面临减少摩擦的压力,他们服从了,通常移除了错误的关卡。

这种模式从两个方向侵蚀信任:审核者不信任关卡能呈现有意义的决策(所以他们停止关注),产品团队不信任关卡不会制造摩擦(所以他们移除它们)。结果通常是比从一开始就正确放置关卡更差的监督。

放置良好的关卡有相反的效果。当每次升级都代表一个真正模糊或高风险的决策时,审核者保持参与。当自主执行可靠地处理 85-90% 的操作时,用户体验智能体为有能力的,而不是无助的。关卡成为信任的信号,而不是怀疑的信号——智能体信任自己对常规决策的判断,并呈现那些不应该由它自己做的决策。

将放置决策纳入系统设计

关卡放置决策是架构性的。晚做——在事故之后、响应用户投诉、或在操作审核期间——意味着在没有完全了解动作图的情况下、在压力下做决定。

做动作清单和风险分类的正确时机是系统设计期间,这时你可以控制智能体的动作面和审核工作流。几个实践使这变得可行:

在构建智能体之前构建动作图。 列出智能体可以调用的每个工具,记录其可逆性和爆炸半径,并将每个分配到一个层级。这在这些能力被接入之前,就强制做出关于智能体应该和不应该能做什么的设计决策。

将审批工作流视为一级接口。 审核者用于评估和批准升级的 UI 或控制台值得与面向用户的界面同等的设计关注。如果审批接口没有为有意义的决策提供足够的上下文,关卡放置不当,无论其在链中的位置如何。

使关卡位置成为操作手册的一部分。 当出现问题时,第一个问题通常是"为什么我们没有更早发现这个?"记录关卡位置及其背后的推理使这个问题可以回答——并使事后改进具有可操作性,而不是防御性的。

定期审计升级数据。 跟踪升级被批准、拒绝和修改的百分比。高批准率表明要么校准良好的自主性(理想),要么橡皮图章(调查)。高拒绝率表明智能体在应该自主做决策的地方升级,或者智能体在升级边界处的提案经常出错。两者都发出调整信号。

这对生产系统意味着什么

截至 2025-2026 年的新兴操作现实是,人类监督容量,而非 AI 执行速度,是智能体部署中的约束因素。一个每小时可以处理 1000 个工作流的智能体,如果你的升级率是 15%,每小时会产生 150 个升级。大多数团队没有每小时 150 个审核者。错误放置不必要地升级的关卡会使这种情况更糟;放置良好的关卡确保这 150 个升级代表 150 个真正需要人类判断的决策。

实际含义是,放置决策是容量决策。你在非关键动作上添加的每一个审批关卡,都会消耗本可用于真正关键决策的审核者带宽。过度设置关卡的成本不仅仅是摩擦——它是在真正重要的关卡处降低的监督质量,因为审核者的注意力有限,审批疲劳是真实的。

正确的放置意味着接受一个反直觉的原则:更少的关卡、放置更好、对关键动作强制执行,比在整个动作图上全面设置关卡产生更有意义的人类监督。目标不是在一切事情上保持人类在回路中。而是在真正需要人类判断的事情上保持人类在回路中。

这比大多数团队最初假设的范围更窄,但严格捍卫它是使监督可持续而非流于形式的关键。

References:Let's stay in touch and Follow me for more thoughts and updates