跳到主要内容

赢得自主权:如何让 AI Agent 从受监督过渡到独立运行

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队将 AI 自主性视为一个二进制开关:智能体要么受监督,要么不受监督。这种思维模式正是为什么 80% 的组织报告了智能体的意外操作,以及为什么 Gartner 预测到 2027 年底,超过 40% 的代理型 AI 项目将因风险控制不足而被放弃。问题不在于 AI 智能体天生不可信,而在于团队在赢得独立性之前就将其提升到了独立地位。

自主性应该是智能体通过展示其可靠性而逐步积累的东西,而不是你在部署时分配的一个属性。就像一名新工程师在获得生产环境访问权限之前,先从审查 PRs 开始一样,AI 智能体在建立业绩记录的过程中,其操作范围也应逐步扩大。这不仅是哲学层面的思考——它会改变你所做的具体架构决策、你追踪的指标以及你设计回滚机制的方式。

“受监督 vs. 自主”的虚假二元论

行业中“人机协同(human-in-the-loop)vs. 自主”的框架让团队陷入了失败。它暗示了一个单一的决策点——当你觉得足够自信时就按下开关——而不是一个持续的设计问题。在实践中,大多数生产环境中的智能体处于一个尴尬的中间地带:它们在某些操作上自主行动,但在另一些操作上则不然,且关于边界在哪里的规则往往不一致且缺乏文档。

更好的模型是将自主性视为一种因操作类型而异的属性,而不是因智能体而异。你的客服智能体在处理 50 美元以下的退款申请时可能是完全自主的,处理 200 美元以上时则需要确认,而对于纠纷调解则始终上报给人工处理。这些并不是随意的阈值——它们来自于受监督运行期间测量的实证故障率。

研究人员和从业者已经提出了几种自主性分类法来将这种思维形式化。一个被广泛引用的模型定义了五个级别:智能体观察并报告、建议行动、行动待批准、行动并通知,或完全独立行动。另一个企业框架使用 A0 到 A4 的分级,其中从一个级别提升到下一个级别需要来自上一个级别运行的证据,而不是来自团队的信心。具体的分类法并不那么重要,重要的是底层的纪律:自主性是逐步赢得的,而不是整体授予的。

设计监督技术栈

在智能体赢得自主性之前,你需要一个能够捕获正确信号的监督技术栈。大多数团队监测的是错误的东西。他们追踪任务完成率和用户满意度评分,这些指标是滞后且粗略的。你真正需要的是能够检测到在下游指标显现之前的回归信号。

按操作类型划分的错误率。 不是总错误率——要细分到智能体采取的具体行动。一个在读取操作上准确率为 99% 但在写入操作上不准确率为 15% 的智能体,其风险状况与一个具有统一 98% 准确率的智能体截然不同。如果你将这些数据汇总,写入错误就会被掩盖。

人工干预率(Human override rate)。 追踪监督者干预以纠正或阻止智能体行动的频率。这是智能体行为与人类意图之间失配最直接的信号。在错误率攀升之前,干预率的上升就是你的早期预警系统。

异常距离(Anomaly distance)。 测量单个智能体的决策偏离历史行为分布的程度。如果一个智能体开始产生远超出其正常运行范围的输出,即使这些输出尚未导致明显的错误,也值得调查。

不确定性下的决策延迟。 感到不确定的智能体往往会表现出不同的时间模式——根据实现方式的不同,要么犹豫更久,要么在没有适当审议的情况下匆忙完成。这是可以测量的,且通常具有预测性。

关键的架构要求是,这些信号必须在智能体的决策边界处捕获,而不是在结果边界处。当一个糟糕的结果可以被测量时,损害已经造成了。

晋升协议

从一个自主级别过渡到下一个级别的实际过程应该是一个正式的协议,而不是非正式的判断。以下是其实践中的样子。

在部署前设定阈值,而不是部署后。 在智能体以 N 级运行之前,记录下使其有资格进入 N+1 级的确切指标。例如:写入操作的错误率低于 0.5%,人工干预率低于 3%,且没有超过基准 2 个标准差的异常距离峰值,并持续 500 次操作或 30 天——以较晚者为准。这些阈值相对于你在生产环境中能容忍的程度应该是保守的,因为晋升在实践中是不可逆的(降级虽然可能,但会损害信任)。

在扩大范围前分阶段暴露风险。 不要同时在智能体的整个操作领域提升其级别,而是逐步扩大范围。处理客户退款的智能体可以先被提升为 50 美元以下退款的自主运行;在这一级别积累了业绩记录后,再提升至 100 美元以下;然后是 200 美元以下。每个阶段都是下一个阶段的关卡。

每个阶段都需要最小样本量。 统计显著性在这里至关重要。如果你在 20 次成功操作后就进行晋升,你就是在基于噪声做决策。最小样本量取决于你测试的错误率,但对于任何重要的操作,你都希望在进入下一阶段前,在当前级别至少有几百次操作。

记录晋升决策。 谁批准的、指标显示了什么、扩大的范围是什么。这看起来很官僚,直到六个月后你在调试回归问题并需要了解变更的内容和时间。

回滚而不恐慌

每一个晋升决策都需要一个对应的回滚触发器。大多数团队之所以没有设计好这一点,是因为回滚感觉就像承认失败——因此它被视为一种只有在灾难发生时才手动处理的例外事件,而不是一种常规的控制机制。

对于可预测的故障模式,回滚应该是自动的;对于模棱两可的故障模式,则应进行人工审查。定义哪些属于哪一类,需要你提前思考回归的具体表现。

硬性回滚触发器(Hard rollback triggers) 是指智能体自动恢复到之前的自治级别并呼叫值班工程师的条件。这些条件的定义应当精确且范围较窄:例如 1 小时窗口内错误率超过 5 %,4 小时窗口内人工干预率较基准线翻倍,或者单笔交易超过了硬性的金额上限。这些触发器应该是保守且快速的——误报(不必要的回滚)的成本远低于漏掉真实回归的成本。

软性回滚触发器(Soft rollback triggers) 是指值得人工审查但不需要自动降级的条件:例如人工干预率呈逐渐上升趋势,智能体动作日志中出现了意料之外的新操作类型,或者出现了一组类似的错误,虽然单个错误低于阈值,但其模式匹配已知的故障模式。这些条件会进入审查队列,由团队在 24 小时内进行评估。

自动回滚的架构需要存在于智能体本身之外。一个已经出错的智能体在其自身的恢复路径上并不是一个可靠的组件。回滚机制需要是一个独立的服务,负责监控智能体的遥测数据,并能独立地恢复之前的配置状态。

注意力衰减问题

在渐进式自治中,最隐蔽的失效模式与智能体无关:随着智能体表现持续良好,监控它的人类会停止关注。这不是因为监控缺席——而是因为当一切顺利时,注意力会逐渐淡化。

这就是操作员脱离陷阱(Operator disengagement trap)。一个正确运行了 90 天的智能体会训练其监督者产生“它是正确的”这一预期。当最终出现一个本可以被细心的审查者捕捉到的边缘案例时,它会溜掉,因为审查者在心理上已经“下线”了。这在航空自动化研究中得到了广泛的记录,并且开始作为 AI 智能体部署中的一种失败模式出现。

缓解措施分为两部分。首先,在智能体的监督队列中人为注入异常——这些是刻意插入的、需要人工审查的案例,旨在保持监督者的参与度和判断力。实施这一点可能让人感到不适,因为这意味着在刻意创造工作量,但这是防止监督技能退化的唯一可靠方法。

其次,对任何担任监督角色的人进行能力测试。如果有人负责审查智能体的决策,他们需要定期证明自己能够正确识别有问题的输出。这不是惩罚性的——而是操作安全性。航空公司对飞行员也是这么做的;没有理由认为 AI 智能体的监督应该有所不同。

自治级别对风险概况的影响

团队经常忽略的一个细微差别是:自治决策的风险概况取决于自治级别和任务类型。一个处理只读分析操作的 3 级自治模型,与处理金融交易的同级别模型相比,其风险面完全不同。

这意味着你的自治阈值不能在所有操作类型中一概而论。使智能体有资格进行自主分析报告的指标,与使其有资格进行自主写入操作的指标不同,更不同于使其有资格进行具有外部财务影响的操作的指标。

一个实用的方法是:在部署前将智能体将要执行的所有操作分为不同的风险等级。为每个等级定义独立的晋升阈值。然后独立跟踪这些阈值的进展——一个智能体可以同时在 A 类操作上处于 3 级自治,而在 C 类操作上处于 1 级自治。这种粒度在操作上更为复杂,但它反映了智能体所做工作的实际风险结构。

能力与可靠性之间的差距加剧了这一点。对 2024-2025 年模型基准测试的研究一致发现,标准评估中显著的准确性提升并不能转化为生产环境中成比例的可靠性增益。一个在基准任务上表现提升 15 % 的智能体,在它于你的系统中处理的具体操作上,表现可能仅提升 2-3 %。这意味着你不能将基准测试分数作为生产自治就绪程度的指标——你需要来自实际部署环境的实证数据。

起点:默认监督优先

这一切的实际含义是,每个智能体在部署时都应该处于自治级别 0——即仅提供建议,由人决策——无论它在评估中看起来多么令人印象深刻。这感觉很慢,但这是建立基准的唯一方法,使后续的每一个决策都清晰可见。

“监督优先”的部署方式起到了几个作用。它捕捉了真实操作的分布,而这几乎从未与你的评估数据集完全相同。它为你将在晋升决策中使用的指标建立了基准。它揭示了你未曾预料到的操作类型。并且,它在审查智能体输出的人员中构建了机构知识——这些知识成为了关于“正常”状态的组织记忆。

Anthropic 自家的 Claude Code 部署数据从经验上证明了这种动态:新用户在大约 20 % 的时间里开启自主操作,到第 750 次会话时,这一比例增加到 40 % 以上。信任的积累是逐渐且自然发生的——工程上的问题在于如何使这个过程是刻意设计的,而不是随机发生的。

目标不是最小化自治。完全受监督的智能体违背了部署智能体的初衷。目标是赢得的自治(Earned autonomy)——以可衡量的性能记录为支撑,根据记录在案的阈值做出晋升决策,并拥有在故障复合之前激活的回滚机制。二元开关是失败模式;频谱化才是设计。


赢得的自治并不是你在部署后才外挂的框架——它是一种架构承诺,从一开始就塑造了你如何对智能体进行检测、监控和治理。这样做的团队会发现,扩大自治范围将变成一种可预测的、平稳的操作。而不这样做的团队会发现自己陷入一个循环:不断给智能体更多的权限,发现某些东西崩溃了,撤回权限,却始终无法弄清楚究竟是什么让智能体有资格获得它曾拥有的自治权。

References:Let's stay in touch and Follow me for more thoughts and updates