跳到主要内容

赢得自主权:如何让 AI Agent 从受监督过渡到独立运行

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队将 AI 自主性视为一个二进制开关:智能体要么受监督,要么不受监督。这种思维模式正是为什么 80% 的组织报告了智能体的意外操作,以及为什么 Gartner 预测到 2027 年底,超过 40% 的代理型 AI 项目将因风险控制不足而被放弃。问题不在于 AI 智能体天生不可信,而在于团队在赢得独立性之前就将其提升到了独立地位。

自主性应该是智能体通过展示其可靠性而逐步积累的东西,而不是你在部署时分配的一个属性。就像一名新工程师在获得生产环境访问权限之前,先从审查 PRs 开始一样,AI 智能体在建立业绩记录的过程中,其操作范围也应逐步扩大。这不仅是哲学层面的思考——它会改变你所做的具体架构决策、你追踪的指标以及你设计回滚机制的方式。

“受监督 vs. 自主”的虚假二元论

行业中“人机协同(human-in-the-loop)vs. 自主”的框架让团队陷入了失败。它暗示了一个单一的决策点——当你觉得足够自信时就按下开关——而不是一个持续的设计问题。在实践中,大多数生产环境中的智能体处于一个尴尬的中间地带:它们在某些操作上自主行动,但在另一些操作上则不然,且关于边界在哪里的规则往往不一致且缺乏文档。

更好的模型是将自主性视为一种因操作类型而异的属性,而不是因智能体而异。你的客服智能体在处理 50 美元以下的退款申请时可能是完全自主的,处理 200 美元以上时则需要确认,而对于纠纷调解则始终上报给人工处理。这些并不是随意的阈值——它们来自于受监督运行期间测量的实证故障率。

研究人员和从业者已经提出了几种自主性分类法来将这种思维形式化。一个被广泛引用的模型定义了五个级别:智能体观察并报告、建议行动、行动待批准、行动并通知,或完全独立行动。另一个企业框架使用 A0 到 A4 的分级,其中从一个级别提升到下一个级别需要来自上一个级别运行的证据,而不是来自团队的信心。具体的分类法并不那么重要,重要的是底层的纪律:自主性是逐步赢得的,而不是整体授予的。

设计监督技术栈

在智能体赢得自主性之前,你需要一个能够捕获正确信号的监督技术栈。大多数团队监测的是错误的东西。他们追踪任务完成率和用户满意度评分,这些指标是滞后且粗略的。你真正需要的是能够检测到在下游指标显现之前的回归信号。

按操作类型划分的错误率。 不是总错误率——要细分到智能体采取的具体行动。一个在读取操作上准确率为 99% 但在写入操作上不准确率为 15% 的智能体,其风险状况与一个具有统一 98% 准确率的智能体截然不同。如果你将这些数据汇总,写入错误就会被掩盖。

人工干预率(Human override rate)。 追踪监督者干预以纠正或阻止智能体行动的频率。这是智能体行为与人类意图之间失配最直接的信号。在错误率攀升之前,干预率的上升就是你的早期预警系统。

异常距离(Anomaly distance)。 测量单个智能体的决策偏离历史行为分布的程度。如果一个智能体开始产生远超出其正常运行范围的输出,即使这些输出尚未导致明显的错误,也值得调查。

不确定性下的决策延迟。 感到不确定的智能体往往会表现出不同的时间模式——根据实现方式的不同,要么犹豫更久,要么在没有适当审议的情况下匆忙完成。这是可以测量的,且通常具有预测性。

关键的架构要求是,这些信号必须在智能体的决策边界处捕获,而不是在结果边界处。当一个糟糕的结果可以被测量时,损害已经造成了。

晋升协议

从一个自主级别过渡到下一个级别的实际过程应该是一个正式的协议,而不是非正式的判断。以下是其实践中的样子。

在部署前设定阈值,而不是部署后。 在智能体以 N 级运行之前,记录下使其有资格进入 N+1 级的确切指标。例如:写入操作的错误率低于 0.5%,人工干预率低于 3%,且没有超过基准 2 个标准差的异常距离峰值,并持续 500 次操作或 30 天——以较晚者为准。这些阈值相对于你在生产环境中能容忍的程度应该是保守的,因为晋升在实践中是不可逆的(降级虽然可能,但会损害信任)。

在扩大范围前分阶段暴露风险。 不要同时在智能体的整个操作领域提升其级别,而是逐步扩大范围。处理客户退款的智能体可以先被提升为 50 美元以下退款的自主运行;在这一级别积累了业绩记录后,再提升至 100 美元以下;然后是 200 美元以下。每个阶段都是下一个阶段的关卡。

每个阶段都需要最小样本量。 统计显著性在这里至关重要。如果你在 20 次成功操作后就进行晋升,你就是在基于噪声做决策。最小样本量取决于你测试的错误率,但对于任何重要的操作,你都希望在进入下一阶段前,在当前级别至少有几百次操作。

记录晋升决策。 谁批准的、指标显示了什么、扩大的范围是什么。这看起来很官僚,直到六个月后你在调试回归问题并需要了解变更的内容和时间。

回滚而不恐慌

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates