AI 副驾驶 vs. AI 飞行员：基于证据的产品决策框架

2026年5月7日 · 阅读需 10 分钟

Software Engineer

每个构建 AI 产品的团队都面临同一个路口：AI 应该为人类提供建议，还是自主行动？这个问题听起来很有哲学意味，但答案实际上是可以量化的——而且弄错代价高昂，往往在上线六个月后才会显现，那时你的覆盖率指标看起来很好，但用户信任分数已经在悄悄崩溃。

Klarna 在 2024 年初用一套自主 AI 系统替换了 700 名客服人员。到 2025 年，CEO 承认他们"走得太远了"，并悄悄开始为复杂案例重新招聘人工客服。该 AI 在一个月内处理了 230 万次对话，将问题解决时间从 11 分钟缩短到不到 2 分钟。数字看起来很漂亮。但根本问题——金融产品的客户服务需要同理心和判断力，而不仅仅是解决速度——在所有偏离常规路径的场景中，以下降的满意度形式滞后显现。

这是一个反复出现的模式：团队根据能力基准测试选择自主 AI，然后只有在信任被侵蚀之后，才发现基准测试条件与生产边缘案例之间的错配。好消息是，你已部署系统中存在可量化的信号，可以在上线之前告诉你一个工作流程是否已准备好自主运行，或者是否需要保持建议模式。以下是解读这些信号的方法。

两种模式不是一个连续谱——而是一个阈值决策

人们很容易将副驾驶（建议性）和自主（飞行员）模式视为一个可以逐渐调节的旋钮。但在实践中，它们需要根本不同的系统设计。副驾驶向人类呈现建议，由人类评估并接受或拒绝。自主系统自行行动，人类只是观察。这产生了不同的反馈循环、不同的问责结构和不同的失败模式。

副驾驶系统的失败是显式的：人类看到一个糟糕的建议，拒绝它，系统获得了该建议是错误的隐式反馈。自主系统的失败是隐式的：行动发生，错误传播，没有人注意到，直到下游损害浮出水面——一个不应通过的订单、一段带有潜在错误被推送的代码、一封包含错误信息发送给客户的邮件。

这种不对称性很重要，因为你的监控策略必须根据你所处的模式完全改变。对于副驾驶系统，你追踪建议质量。对于自主系统，你追踪结果质量——而结果质量数据通常带有延迟。

四个告诉你自主性是否安全的信号

这些是区分已准备好自主 AI 的工作流程与尚未准备好的工作流程的指标。

新场景中的任务完成率。 你的基准准确率数字基于训练分布。你真正需要知道的是系统在从未见过的输入上的表现。运行结构化实验，故意引入稍微超出训练分布的输入——边缘案例客户查询、不寻常的代码模式、非标准文档格式。如果任务完成率在这些场景中下降超过 15–20%，你面对的系统将在生产中以与你的用户群偏离训练集的程度成正比的速率静默失败。

用户覆盖频率。 当你的副驾驶提出建议时，追踪用户拒绝或修改建议的频率。一个健康的副驾驶部署在早期显示高覆盖率（70% 以上是典型水平——GitHub Copilot 用户最初拒绝约 70–73% 的建议），随着模型针对用户上下文进行校准，覆盖率会随时间趋于稳定。这种稳定意味着你已建立足够的信任，人类在做出真正的判断。如果覆盖率保持在接近零的水平，你面临自动化偏见：用户在不评估 AI 决策的情况下橡皮图章式地批准，这意味着你在没有获得完全自动化好处的情况下失去了安全网。接近零的平坦覆盖率不是成功的标志——它是一个警告，说明你的副驾驶已成为没有人监视的自动驾驶仪。

错误恢复时间。 在生产中，检测错误并撤销其影响需要多长时间？这个指标同时告诉你两件事：你的系统行动有多大可逆性，以及失败的可观测性有多强。对于自主系统，你希望错误恢复时间以分钟计，而不是小时或天。Cruise 的机器人出租车系统将一名行人拖行了 20 英尺，因为系统做出了错误决策，且没有快速人工覆盖的机制。自动驾驶案例是极端的，但这个原则适用于任何地方：在选择自主性之前，而不是之后，测量你的平均错误检测时间和平均恢复时间。

边缘案例暴露率。 生产输入中有多大比例落在你能够验证系统正确行为的条件之外？这需要对你的系统进行检测，以标记它不确定的输入——不仅仅是它弄错的输入，还有它自身置信度校准不可靠的输入。在领域关键任务上幻觉率超过 5% 的系统不适合自主运行。加拿大航空以惨痛代价发现了这一点：他们的聊天机器人自信地引用了一个根本不存在的丧亲票价政策，加拿大法庭认定航空公司对机器人的虚假声明承担责任。置信度校准对于自主系统来说不是可选项；它是一个承重的安全基础。

文档化 SOP 测试

在运行上述任何指标之前，先应用一个更简单的预筛选测试：这个工作流程是否有一个人工操作员无需提问即可遵循的书面标准操作程序（SOP）？

如果答案是否，则工作流程尚未准备好自主运行——无论你的准确率基准测试如何。一个存在且被一致遵循的 SOP 意味着任务已被充分理解，边缘案例已被枚举，失败模式已被知晓。这些是自主系统的先决条件，而不是成功的保证。如果答案是肯定的，但操作员经常偏离 SOP 来处理 SOP 未涵盖的案例，这表明你的边缘案例暴露率比你想象的要高。

Klarna 客服失败与这个测试完美契合：没有针对处理需要人类对客户情境做出判断的复杂金融纠纷的 SOP。系统针对简单案例进行了优化——而简单案例也是速度对客户满意度影响最小的案例。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

AI 副驾驶 vs. AI 飞行员：基于证据的产品决策框架

两种模式不是一个连续谱——而是一个阈值决策

四个告诉你自主性是否安全的信号

文档化 SOP 测试

Recommended Reading

关于 Tian Pan

两种模式不是一个连续谱——而是一个阈值决策​

四个告诉你自主性是否安全的信号​

文档化 SOP 测试​

Recommended Reading

关于 Tian Pan

两种模式不是一个连续谱——而是一个阈值决策

四个告诉你自主性是否安全的信号

文档化 SOP 测试