自主性旋钮：安全交付 AI 功能的五个层级

2026年4月12日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数发布 AI 功能的团队都犯同样的错误：他们直接从"让 VP 印象深刻的原型"跳到"生产环境中完全自主"。然后出了问题——一个错误的推荐、一个不正确的自动回复、一笔本不该被批准的金融交易——整个功能被撤掉。不是调低，是撤掉。

问题不在于 AI 自主性是危险的。问题在于大多数团队将自主性视为一个二元开关——关或开——而它应该是一个旋钮，在这两个极端之间有明确的、被监控的位置。

2025 年和 2026 年成功发布 AI 功能的公司有一个共同模式：他们定义明确的自主性层级，对层级之间的转换进行埋点，并使用前导指标——而非滞后的灾难——来决定何时将旋钮调高或调低。本文展示了这个框架。

五个层级：从建议到完全自主

将这些层级视为信任的渐进过程。每个层级改变的是谁决定和谁执行。

第 1 级——AI 建议，人类行动。 AI 生成推荐，但每个行动都需要人类明确批准。一封用户必须审阅并发送的邮件草稿。一个开发者必须接受的代码补全。AI 完成认知工作；人类保留对执行的完全控制。这是每个 AI 功能应该开始的地方，无论你的离线评估看起来多好。

第 2 级——AI 行动，人类确认。 AI 默认采取行动，但在行动变得不可逆之前在确认检查点暂停。想象一个客服机器人草拟并排队一个回复，给客服人员 30 秒来修改或批准后再发送。人类仍在关键路径上，但工作流偏向 AI 的判断。

第 3 级——AI 行动，人类可介入。 AI 自主执行，但人类监控行动流并可以覆盖或回滚。这是"人在回路上"模式。AI 端到端处理常规案例，而异常情况浮出水面供人类审查。一个自动代码审查工具批准直接的 PR 但标记有风险的更改就在这个层级运作。

第 4 级——AI 行动，人类事后审计。 AI 独立运作。人类定期审查结果——每天、每周——而不是观看实时流。一个 24/7 运行的自动库存补货系统，为运营团队提供摘要仪表盘。人类的角色从操作员转变为审计员。

第 5 级——AI 行动，人类设定目标。 在定义的领域内完全自主。人类指定目标和约束，AI 自行确定如何实现它们。这个层级仅适用于有明确边界的领域，在这些领域中 AI 已经展示了持续的可靠性，且失败是可恢复的。今天很少有生产系统应该在这里运作。

关键洞察是这些层级不是你只攀登一次的成熟度阶梯。它们是旋钮上的位置，你可以按功能、按用例、有时甚至按单个工作流中的单个决策来调整。你的邮件草拟可能在第 3 级运行，而你的财务审批保持在第 1 级，即使两者使用相同的底层模型。

为什么大多数团队跳到第 4 级然后后悔

跳过层级的诱惑是巨大的。你有令人印象深刻的演示结果。CEO 看到它在三个例子上运作良好。团队面临压力要交付看起来自主的东西，而不是看起来像高级自动补全的东西。

以下是当你没有赢得信任就跳到第 4 级时会发生的事情：

静默故障累积。 在第 4 级，没有人在观察单个决策。如果 AI 产生了微妙的偏差或开始犯某一类错误，这些错误会在数天或数周内累积，直到有人注意到。一个开始过度标记特定人群帖子的内容审核系统不会大声失败——它在规模上静默失败，等到模式在审计中浮现时，损害已经造成。

你失去了学习循环。 第 1 到第 3 级会产生持续的人类纠正流，从而改进系统。每次人类覆盖 AI 的建议，那就是一个训练信号。跳到第 4 级，你完全失去了这个反馈机制。系统在真空中运行，唯一的反馈来自投诉——这意味着你是从最糟糕的失败中学习，而不是从常规纠正中学习。

回滚在政治上变得不可能。 一旦利益相关者看到了一个完全自主的功能，将它拉回到第 2 级感觉像是承认失败。但如果你从第 2 级开始并逐步增加自主性，没有任何单一转换会感觉是足以触发组织阻力的重大变化。自主性的政治动态与技术动态同样重要。

对旋钮进行埋点：告诉你何时移动的指标

成功提高自主性的团队与在猜测的团队之间的区别是埋点。你需要在每个层级设置指标，给你信心向上调整——以及向下调整的预警。

从第 1 级转到第 2 级——一致率。 跟踪人类在不修改的情况下接受 AI 建议的频率。如果你的建议接受率在统计显著的样本上超过 90%，人类增加的是摩擦而非价值。你已准备好进入第 2 级。如果比率低于 70%，AI 还不够可靠——留在第 1 级并改进模型。

从第 2 级转到第 3 级——确认通过率。 在第 2 级，人类在 AI 执行行动前确认它。跟踪他们在不更改的情况下确认的频率。通过率超过 95% 意味着确认步骤只是走形式。但也要衡量剩余 5% 的严重性——如果这些干预防止了高严重性的结果，那么无论通过率如何，确认步骤都在发挥作用。

从第 3 级转到第 4 级——干预频率和回退率。 在第 3 级，人类可以干预 AI 的自主行动。跟踪他们实际干预的频率。如果干预降至 1% 以下且发生的干预都是低严重性的，人类在实践中已经是观察者，你可以在第 4 级将其正式化。但要注意一个危险模式：干预降至接近零不是因为 AI 完美，而是因为人类已经停止关注。通过在注入的测试用例上衡量干预时间来验证人类仍在参与。

在第 4 级——审计缺陷率和漂移检测。 一旦你在第 4 级，指标从实时转向定期。跟踪在审计中发现的缺陷率，监控 AI 决策的分布漂移。如果 AI 的决策模式与在第 3 级建立的基线有显著偏离，这是需要调查的信号——并可能需要回调。

前导指标：知道何时把旋钮调低

大多数团队只关注何时提高自主性。同样重要——也更困难的——是知道何时降低它。这些前导指标应该触发自动或半自动的回调：

模型更新或替换。 底层模型的任何更改都会重置信任。如果你从一个模型版本升级到另一个，将受影响的功能重新从第 1 级开始，即使新模型基准测试更好。基准性能不等于生产行为。
输入分布偏移。 如果你的功能接收的输入开始与验证时的输入显著不同——新的客户群体、季节性模式、监管变化——降低一个层级，直到你有足够的数据来验证在新分布上的性能。
错误聚类。 单个错误是噪音。在短时间内同一类别的三个错误是信号。实施错误聚类的自动检测，当触发时，将受影响的决策类别至少回调一个层级。
人类覆盖质量变化。 如果覆盖 AI 决策的人类开始做出更差的纠正——因为他们疲劳、训练不足或超负荷——这是你的监督机制正在退化的信号。要么降低自主性以给人类更少的决策，要么投资于监督团队。

有界自主性模式

2025-2026 年最有效的生产模式不是整个功能的单一自主性层级——而是有界自主性，同一功能内不同的决策类别在不同层级运作。

考虑一个 AI 驱动的客户支持系统：

回答常见问题：第 4 级（完全自主，定期审计）
发放 50 美元以下的退款：第 3 级（自主运行，人类监控）
发放 50 美元以上的退款：第 2 级（AI 草拟，人类确认）
账户注销：第 1 级（AI 建议，人类决定并执行）

这不是为了复杂而复杂。它将自主性层级映射到错误决策的影响范围。一个糟糕的常见问题回答是尴尬的但可恢复的。一次未授权的账户注销是法律责任。

实现需要一个决策路由器，对传入请求进行分类并应用适当的自主性层级。该路由器本身应该是保守的——当对分类不确定时，默认到较低的自主性层级。

构建旋钮移动的基础设施

让自主性旋钮在实践中运作需要三个基础设施组件：

每个层级的审计追踪。 无论自主性层级如何，记录 AI 决定了什么、使用了什么信息、以及产生了什么行动。在第 1-3 级，还要记录人类的响应。这给你提供了为转换辩护和出问题时调查的数据。欧盟 AI 法案对高风险系统的要求使这对许多应用成为法律必要性，而不仅仅是最佳实践。

每次层级转换的分阶段发布。 当你从第 2 级转到第 3 级时，不要对所有用户同时切换。在 5% 的流量上运行新层级，同时保持 95% 在旧层级。比较结果。只有当数据确认新层级没有降低质量时才向前推进。这与十年来一直用于软件发布的金丝雀部署模式相同——将其应用于自主性变更。

紧急开关和回滚路径。 每次层级转换都应该是即时可逆的。如果在第 3 级出了问题，你需要能够在几分钟内而不是几天内回退到第 2 级。这意味着即使你已经转到第 3 级，也要维护第 2 级的基础设施。运行冗余监督基础设施的成本与无法回滚的成本相比微不足道。

旋钮的组织层面

自主性旋钮不仅仅是一个技术构造。它需要组织在三个问题上达成一致：

谁拥有旋钮？ 必须有一个单独的负责人或团队来决定每个功能的当前自主性层级。在实践中，这通常是一个产品经理，接收来自工程和运营的输入。最糟糕的结果是模糊——没有人确定功能应该在第 2 级还是第 3 级，不同的团队成员在不同的假设下运作。

审查节奏是什么？ 定义自主性层级被正式审查的频率。每月是合理的默认值。在每次审查中，检查指标，决定是否调整旋钮，并记录理由。将自主性层级变更视为基础设施变更——有变更请求、审查和回滚计划。

什么触发紧急回调？ 定义在不等待计划审查的情况下立即调低旋钮的条件。这些应该是具体的和可衡量的："如果任何 24 小时窗口内发生超过 3 个高严重性错误，回退到上一个层级。"像"如果感觉有什么不对"这样模糊的触发条件在压力下不起作用。

从明天开始

如果你正在发布 AI 功能，以下是本周要做的事情：

标记你当前的自主性层级。 大多数团队从未明确命名他们运作在什么层级。仅仅命名它就能创造清晰度。
定义下一层级。 低一个层级运作会是什么样子？将其构建为你的回滚计划。
对转换指标进行埋点。 选择一个能给你信心向上移动一个层级的指标。开始衡量它。
设定审查日期。 在日历上放一个定期会议，与相关利益相关者正式审查自主性层级。

成功发布 AI 功能的团队不是拥有最自主系统的团队。他们是确切知道每个功能有多自主、为什么在那个层级、以及需要什么变化才能向上或向下移动的团队。旋钮就是策略。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

自主性旋钮：安全交付 AI 功能的五个层级

五个层级：从建议到完全自主

为什么大多数团队跳到第 4 级然后后悔

对旋钮进行埋点：告诉你何时移动的指标

前导指标：知道何时把旋钮调低

有界自主性模式

构建旋钮移动的基础设施

旋钮的组织层面

从明天开始

Recommended Reading

关于 Tian Pan

五个层级：从建议到完全自主​

为什么大多数团队跳到第 4 级然后后悔​

对旋钮进行埋点：告诉你何时移动的指标​

前导指标：知道何时把旋钮调低​

有界自主性模式​

构建旋钮移动的基础设施​

旋钮的组织层面​

从明天开始​

Recommended Reading

关于 Tian Pan

五个层级：从建议到完全自主

为什么大多数团队跳到第 4 级然后后悔

对旋钮进行埋点：告诉你何时移动的指标

前导指标：知道何时把旋钮调低

有界自主性模式

构建旋钮移动的基础设施

旋钮的组织层面

从明天开始