跳到主要内容

人类放在哪里:AI 审批关卡的放置理论

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数团队将人机协作审核作为事后补充:智能体完成其工作链,结果落入审核队列,然后人工点击批准或拒绝。这看起来像是安全保障,但实际上大多只是一种表演。

当一个多步骤智能体到达链尾审核时,它已经发送了 API 请求、修改了数据库行、起草了客户邮件并安排了后续跟进。所谓的"审核"不过是在批准一件已经完成的事。拒绝它意味着向智能体——通常也向用户——解释为什么过去 10 分钟发生的一切都不作数。

错误放置审批关卡造成的危害并不总是戏剧性的。更多时候,危害更加隐蔽:审核者批准一切,因为真正的决策已经做出;工程师在事故发生后增加更多检查点,却眼睁睁看着产品信任度崩溃;组织在"太多摩擦"和"监督不足"之间摇摆,却从未解决根本的放置问题。

放置位置是核心变量。在哪里插入人工节点决定了监督是有意义的还是流于形式的。要做对这件事,需要的是框架,而不是直觉。

为何链尾审核会失效

在一个线性智能体流水线——收集上下文 → 推理 → 规划 → 执行——中,早期引入的错误会在每个后续步骤中复利放大。规划阶段的错误假设会驱动多个下游工具调用。当人工看到输出时,错误已经通过 n 层智能体推理被放大,其影响已经进入外部系统。

这不是假设。在医疗保健领域,保险公司部署的 AI 拒绝理赔系统,案例管理人员被明确指示不得偏离模型的预测。当上诉错误率达到 90% 时,下游损害已经清晰可见。问题不在于模型本身——而在于人类判断在本应发挥杠杆作用的节点上被结构性地排除了。

在智能体接触真实系统的每个地方,这种失败模式都以不那么戏剧性的形式出现。一个已经推送分支、发起 PR 并对 issue 发表评论的编码智能体,从其"工作"结束时的人工审核中获益甚微。副作用已经散布出去了。

链尾审核失效有三个原因:

  • 不可逆性在上游复利。 每个工具执行可能单独可逆,但组合往往不然。发送邮件草稿是可逆的;发送邮件、收件人读了、生成后续日历邀请——这是一个无法干净撤销的状态。
  • 审核变成橡皮图章。 当审核者看到与中间推理脱节的最终输出时,他们缺乏有意义地评估产生这些决策的背景。关于审批疲劳的研究表明,在低拒绝率下长期审核常规 AI 输出的人,随着时间推移会系统性地降低注意力。
  • 干预窗口已经过去。 有效的监督需要在后果蔓延之前中断的能力。放置在最后一个关键动作之后的关卡不提供这样的窗口。

按风险面对动作进行分类

良好关卡放置的基础是动作清单。在决定在哪里插入审批关卡之前,列举智能体实际执行的操作:每个工具调用、API 请求、外部消息和状态变更,并诚实评估每个操作对世界的改变。

三个维度决定了一个动作在风险面上的位置:

可逆性 —— 这能被撤销吗,成本是什么,由谁撤销?读取数据是轻松可逆的(它没有被改变)。创建草稿文档需要花力气才能撤销。向客户发送邮件在技术上是可逆的(带一封道歉信),但实际成本很高。删除没有备份的记录或提交财务交易在任何操作意义上都可能是不可逆的。

爆炸半径 —— 如果出错,谁会受到影响?仅影响内部草稿状态的动作爆炸半径很小。对外部用户、客户或第三方系统可见的动作爆炸半径很大。任何代表你的组织做出承诺的事情——外部邮件、法律文件、财务转账——都将广泛的爆炸半径与组织声誉结合在一起。

合规风险 —— 适用什么法规要求?医疗保健、金融和法律领域通常对特定类别的动作有强制性监督要求。这些不是关于风险容忍度的判断调用;它们是法律义务。

使用这三个维度,你可以将每个智能体动作划分为三个层级:

层级特征示例动作关卡类型
安全可逆、内部、无合规风险读取数据、生成草稿、内部状态更新自主——无关卡
敏感产生可见状态、外部各方可能看到、中等爆炸半径发送邮件、创建日历事件、发布到 Slack条件式——置信度关卡或采样
关键不可逆或难以撤销、外部承诺、合规风险删除记录、财务交易、客户沟通、法律行动执行前——每次强制人工审批

这种分类的关键洞察是:执行前关卡属于关键动作,而不是所有动作。 对一切设置关卡会产生审批疲劳。什么都不设置会产生操作风险。上表是一个起点——每个团队都会有特定领域的项目,根据其具体的风险容忍度和监管环境在层级间移动。

在不可逆性之前而非之后放置关卡

一旦你有了动作清单,关卡放置遵循一个简单规则:审批关卡紧接在链中进入关键区域的第一个动作之前,而不是在结尾。

考虑一个处理客户退款请求的智能体。链可能是:查找客户记录 → 验证订单历史 → 计算退款金额 → 发起退款 → 发送确认邮件 → 更新 CRM。关键动作是"发起退款"——这才是关卡应该放置的地方。之前的一切可以自主执行。一旦退款被批准,之后的一切(确认邮件、CRM 更新)也可以自主执行,因为关键决策已经由人工做出。

这与在最终输出处设置关卡("发送确认邮件")有本质区别。到那时,退款已经发出。对邮件设置关卡不能防止错误的退款计算;它只是创建了一个步骤,让人工批准向客户确认一件已经发生的事情。

一个放置良好的关卡具有三个属性:

  1. 它出现在不可挽回之前。 人工在不可逆动作执行之前进行审核和批准,而不是之后。
  2. 它提供足够的上下文使决策有意义。 审核者看到智能体的推理、置信度分数、输入参数和被提议的具体动作——而不仅仅是最终输出。
  3. 它拦截一个特定决策,而不是整个工作流。 拦截一个特定工具调用的精确关卡维持工作流连续性;批准后智能体自动恢复。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates