跳到主要内容

自主性旋钮:安全交付 AI 功能的五个层级

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数发布 AI 功能的团队都犯同样的错误:他们直接从"让 VP 印象深刻的原型"跳到"生产环境中完全自主"。然后出了问题——一个错误的推荐、一个不正确的自动回复、一笔本不该被批准的金融交易——整个功能被撤掉。不是调低,是撤掉。

问题不在于 AI 自主性是危险的。问题在于大多数团队将自主性视为一个二元开关——关或开——而它应该是一个旋钮,在这两个极端之间有明确的、被监控的位置。

2025 年和 2026 年成功发布 AI 功能的公司有一个共同模式:他们定义明确的自主性层级,对层级之间的转换进行埋点,并使用前导指标——而非滞后的灾难——来决定何时将旋钮调高或调低。本文展示了这个框架。

五个层级:从建议到完全自主

将这些层级视为信任的渐进过程。每个层级改变的是谁决定和谁执行。

第 1 级——AI 建议,人类行动。 AI 生成推荐,但每个行动都需要人类明确批准。一封用户必须审阅并发送的邮件草稿。一个开发者必须接受的代码补全。AI 完成认知工作;人类保留对执行的完全控制。这是每个 AI 功能应该开始的地方,无论你的离线评估看起来多好。

第 2 级——AI 行动,人类确认。 AI 默认采取行动,但在行动变得不可逆之前在确认检查点暂停。想象一个客服机器人草拟并排队一个回复,给客服人员 30 秒来修改或批准后再发送。人类仍在关键路径上,但工作流偏向 AI 的判断。

第 3 级——AI 行动,人类可介入。 AI 自主执行,但人类监控行动流并可以覆盖或回滚。这是"人在回路上"模式。AI 端到端处理常规案例,而异常情况浮出水面供人类审查。一个自动代码审查工具批准直接的 PR 但标记有风险的更改就在这个层级运作。

第 4 级——AI 行动,人类事后审计。 AI 独立运作。人类定期审查结果——每天、每周——而不是观看实时流。一个 24/7 运行的自动库存补货系统,为运营团队提供摘要仪表盘。人类的角色从操作员转变为审计员。

第 5 级——AI 行动,人类设定目标。 在定义的领域内完全自主。人类指定目标和约束,AI 自行确定如何实现它们。这个层级仅适用于有明确边界的领域,在这些领域中 AI 已经展示了持续的可靠性,且失败是可恢复的。今天很少有生产系统应该在这里运作。

关键洞察是这些层级不是你只攀登一次的成熟度阶梯。它们是旋钮上的位置,你可以按功能、按用例、有时甚至按单个工作流中的单个决策来调整。你的邮件草拟可能在第 3 级运行,而你的财务审批保持在第 1 级,即使两者使用相同的底层模型。

为什么大多数团队跳到第 4 级然后后悔

跳过层级的诱惑是巨大的。你有令人印象深刻的演示结果。CEO 看到它在三个例子上运作良好。团队面临压力要交付看起来自主的东西,而不是看起来像高级自动补全的东西。

以下是当你没有赢得信任就跳到第 4 级时会发生的事情:

静默故障累积。 在第 4 级,没有人在观察单个决策。如果 AI 产生了微妙的偏差或开始犯某一类错误,这些错误会在数天或数周内累积,直到有人注意到。一个开始过度标记特定人群帖子的内容审核系统不会大声失败——它在规模上静默失败,等到模式在审计中浮现时,损害已经造成。

你失去了学习循环。 第 1 到第 3 级会产生持续的人类纠正流,从而改进系统。每次人类覆盖 AI 的建议,那就是一个训练信号。跳到第 4 级,你完全失去了这个反馈机制。系统在真空中运行,唯一的反馈来自投诉——这意味着你是从最糟糕的失败中学习,而不是从常规纠正中学习。

回滚在政治上变得不可能。 一旦利益相关者看到了一个完全自主的功能,将它拉回到第 2 级感觉像是承认失败。但如果你从第 2 级开始并逐步增加自主性,没有任何单一转换会感觉是足以触发组织阻力的重大变化。自主性的政治动态与技术动态同样重要。

对旋钮进行埋点:告诉你何时移动的指标

成功提高自主性的团队与在猜测的团队之间的区别是埋点。你需要在每个层级设置指标,给你信心向上调整——以及向下调整的预警。

从第 1 级转到第 2 级——一致率。 跟踪人类在不修改的情况下接受 AI 建议的频率。如果你的建议接受率在统计显著的样本上超过 90%,人类增加的是摩擦而非价值。你已准备好进入第 2 级。如果比率低于 70%,AI 还不够可靠——留在第 1 级并改进模型。

从第 2 级转到第 3 级——确认通过率。 在第 2 级,人类在 AI 执行行动前确认它。跟踪他们在不更改的情况下确认的频率。通过率超过 95% 意味着确认步骤只是走形式。但也要衡量剩余 5% 的严重性——如果这些干预防止了高严重性的结果,那么无论通过率如何,确认步骤都在发挥作用。

从第 3 级转到第 4 级——干预频率和回退率。 在第 3 级,人类可以干预 AI 的自主行动。跟踪他们实际干预的频率。如果干预降至 1% 以下且发生的干预都是低严重性的,人类在实践中已经是观察者,你可以在第 4 级将其正式化。但要注意一个危险模式:干预降至接近零不是因为 AI 完美,而是因为人类已经停止关注。通过在注入的测试用例上衡量干预时间来验证人类仍在参与。

在第 4 级——审计缺陷率和漂移检测。 一旦你在第 4 级,指标从实时转向定期。跟踪在审计中发现的缺陷率,监控 AI 决策的分布漂移。如果 AI 的决策模式与在第 3 级建立的基线有显著偏离,这是需要调查的信号——并可能需要回调。

前导指标:知道何时把旋钮调低

大多数团队只关注何时提高自主性。同样重要——也更困难的——是知道何时降低它。这些前导指标应该触发自动或半自动的回调:

  • 模型更新或替换。 底层模型的任何更改都会重置信任。如果你从一个模型版本升级到另一个,将受影响的功能重新从第 1 级开始,即使新模型基准测试更好。基准性能不等于生产行为。
  • 输入分布偏移。 如果你的功能接收的输入开始与验证时的输入显著不同——新的客户群体、季节性模式、监管变化——降低一个层级,直到你有足够的数据来验证在新分布上的性能。
  • 错误聚类。 单个错误是噪音。在短时间内同一类别的三个错误是信号。实施错误聚类的自动检测,当触发时,将受影响的决策类别至少回调一个层级。
  • 人类覆盖质量变化。 如果覆盖 AI 决策的人类开始做出更差的纠正——因为他们疲劳、训练不足或超负荷——这是你的监督机制正在退化的信号。要么降低自主性以给人类更少的决策,要么投资于监督团队。

有界自主性模式

2025-2026 年最有效的生产模式不是整个功能的单一自主性层级——而是有界自主性,同一功能内不同的决策类别在不同层级运作。

考虑一个 AI 驱动的客户支持系统:

  • 回答常见问题:第 4 级(完全自主,定期审计)
  • 发放 50 美元以下的退款:第 3 级(自主运行,人类监控)
  • 发放 50 美元以上的退款:第 2 级(AI 草拟,人类确认)
  • 账户注销:第 1 级(AI 建议,人类决定并执行)

这不是为了复杂而复杂。它将自主性层级映射到错误决策的影响范围。一个糟糕的常见问题回答是尴尬的但可恢复的。一次未授权的账户注销是法律责任。

实现需要一个决策路由器,对传入请求进行分类并应用适当的自主性层级。该路由器本身应该是保守的——当对分类不确定时,默认到较低的自主性层级。

构建旋钮移动的基础设施

让自主性旋钮在实践中运作需要三个基础设施组件:

每个层级的审计追踪。 无论自主性层级如何,记录 AI 决定了什么、使用了什么信息、以及产生了什么行动。在第 1-3 级,还要记录人类的响应。这给你提供了为转换辩护和出问题时调查的数据。欧盟 AI 法案对高风险系统的要求使这对许多应用成为法律必要性,而不仅仅是最佳实践。

每次层级转换的分阶段发布。 当你从第 2 级转到第 3 级时,不要对所有用户同时切换。在 5% 的流量上运行新层级,同时保持 95% 在旧层级。比较结果。只有当数据确认新层级没有降低质量时才向前推进。这与十年来一直用于软件发布的金丝雀部署模式相同——将其应用于自主性变更。

紧急开关和回滚路径。 每次层级转换都应该是即时可逆的。如果在第 3 级出了问题,你需要能够在几分钟内而不是几天内回退到第 2 级。这意味着即使你已经转到第 3 级,也要维护第 2 级的基础设施。运行冗余监督基础设施的成本与无法回滚的成本相比微不足道。

旋钮的组织层面

自主性旋钮不仅仅是一个技术构造。它需要组织在三个问题上达成一致:

谁拥有旋钮? 必须有一个单独的负责人或团队来决定每个功能的当前自主性层级。在实践中,这通常是一个产品经理,接收来自工程和运营的输入。最糟糕的结果是模糊——没有人确定功能应该在第 2 级还是第 3 级,不同的团队成员在不同的假设下运作。

审查节奏是什么? 定义自主性层级被正式审查的频率。每月是合理的默认值。在每次审查中,检查指标,决定是否调整旋钮,并记录理由。将自主性层级变更视为基础设施变更——有变更请求、审查和回滚计划。

什么触发紧急回调? 定义在不等待计划审查的情况下立即调低旋钮的条件。这些应该是具体的和可衡量的:"如果任何 24 小时窗口内发生超过 3 个高严重性错误,回退到上一个层级。"像"如果感觉有什么不对"这样模糊的触发条件在压力下不起作用。

从明天开始

如果你正在发布 AI 功能,以下是本周要做的事情:

  1. 标记你当前的自主性层级。 大多数团队从未明确命名他们运作在什么层级。仅仅命名它就能创造清晰度。
  2. 定义下一层级。 低一个层级运作会是什么样子?将其构建为你的回滚计划。
  3. 对转换指标进行埋点。 选择一个能给你信心向上移动一个层级的指标。开始衡量它。
  4. 设定审查日期。 在日历上放一个定期会议,与相关利益相关者正式审查自主性层级。

成功发布 AI 功能的团队不是拥有最自主系统的团队。他们是确切知道每个功能有多自主、为什么在那个层级、以及需要什么变化才能向上或向下移动的团队。旋钮就是策略。

References:Let's stay in touch and Follow me for more thoughts and updates