跳到主要内容

生产环境中的 AI Agent 自主性度量:数据实际揭示了什么

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。

一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。

部署过剩问题

其中一项引人注目的发现是:第 99.9 百分位的轮次时长——Agent 在停止或寻求帮助之前的最长会话时间——在 2025 年 10 月至 2026 年 1 月之间几乎翻了一番,从不足 25 分钟增长到超过 45 分钟。这并非单纯的能力提升。模型并没有突然变得更聪明。而是用户逐渐开始信任 Agent 处理更长、更复杂的任务。

这指向了一个值得命名的现象:部署过剩(deployment overhang)。模型通常具备比用户愿意赋予的更高程度的自主行为能力。瓶颈在于信任,而非能力。

这对你思考 Agent 的增长上限有切实影响。如果用户因为信任不足——而非能力限制——而没有充分利用 Agent 的能力,那么改善结果的路径在于构建信任基础设施:更好的可见性、更简单的干预机制、以及可靠行为的记录。单靠提升能力无法弥合这一差距。

真正重要的两个指标:自主性与风险

在生产环境中度量 Agent 行为,需要的不只是记录延迟和错误率。有两个维度最为关键:

自主性得分(1–10):Agent 的独立运作程度如何?1 分意味着持续需要人工指令;10 分意味着在漫长的多步骤任务中完全无监督运行。

风险得分(1–10):Agent 操作的潜在影响范围有多大?低风险指只读操作或易于回滚的写入;高风险指具有持久、难以撤销后果的操作——金融交易、安全配置、医疗记录修改。

将 Agent 的各项操作绘制在这两个轴上,就能得到一张对治理决策真正有用的部署地图。高自主性 + 低风险是你希望大部分流量落入的甜蜜区间;高风险 + 高自主性则是需要更强安全防护或明确人工审批闸门的区域。

在所研究的数据中:

  • 80% 的操作具备技术性安全防护措施
  • 73% 涉及某种形式的人机协作
  • 仅有 0.8% 的操作是真正不可逆的

最后这个数字比大多数人想象的要低,它是校准审批流程严格程度的有用基准。

监督悖论:批准更多,同时中断也更多

以下是对产品设计影响最直接的反直觉发现:随着用户对 Agent 越来越有经验,自动批准率从约 20% 升至超过 40%,但中断率同样上升——从 5% 增至 9%。

两个数字同时上升。

发生的是监督模式的根本性转变。新用户逐一审批或拒绝每个操作。经验丰富的用户通过自动批准广泛委托,然后监控结果——更有选择性地介入,但对何时真正需要干预判断更准确。他们并非变得不够谨慎,而是在更高的抽象层次上施加监督。

这对产品有直接意义。为永远停留在新手模式的用户设计,会让高级用户沮丧,并增加没有安全收益的额外负担。相反,应构建支持两种模式的界面:为新部署提供细粒度的操作级审批,为有经验的操作者提供会话级监控和简单的中断机制。

当 Agent 率先寻求帮助

也许最出乎意料的发现是:Agent 主动发起监督请求的频率大约是人类中断频率的两倍,在复杂任务上尤为如此。

当 Agent 主动浮现不确定性时,原因大致如下分布:

原因占比
提出多种方案供选择35%
请求诊断信息21%
澄清不完整的请求13%
请求凭证或访问权限12%

排在首位的类别——提出方案——是值得刻意鼓励的 Agent 行为。一个在路口停下来问"我可以这样或那样处理,你倾向于哪种?"的 Agent,正在提供真实价值。这不是自主性的失败,而是以一种让人类保持适当了解的方式运用自主性。

这改变了"良好 Agent 行为"的含义。与其最大化无监督运行时间,不如追求 Agent 能够区分哪些决策应该独立做出,哪些决策受益于人类输入。在这种区分上的训练,比在原始能力上的训练更有价值。

领域与风险分布

软件工程主导了当前的 Agent 使用——在研究的 API 流量中占近一半。鉴于 Agent 与编程工作流的高度契合,这并不令人惊讶。但医疗、金融和网络安全领域的新兴使用模式值得密切关注,尽管目前规模仍然有限。

这些领域的风险得分集中在较高区间。处理安全评估或金融交易系统的 Agent,与运行单元测试的 Agent 需要截然不同的态度。上述 80/73/0.8 的分布描述的是当前平均值——你的数字将因领域而异。

一个有用的练习:为 Agent 可以使用的每个工具估算自主性和风险得分。在部署之前构建这张地图,而非事后补救。对于落在高风险区间的操作,提前决定是通过安全防护接受、人工审批,还是完全限制访问。

对构建方式的启示

以下四条建议直接来自这些数据:

1. 投资于部署后监控。 部署前评估发现能力缺口;运行时监控发现行为漂移、边缘情况和信任校准问题。会话时长分布、自主性得分趋势和中断率,能告诉你基准测试永远无法揭示的事情。

2. 为不确定性识别训练模型。 生产环境中表现最好的 Agent,不是运行最长时间不提问的那些——而是在正确的时间提出正确问题的那些。如果你的微调或提示词没有明确奖励主动澄清,你正在浪费价值。

3. 为监控而设计,而非仅为审批。 一旦用户与 Agent 建立了记录,逐操作审批会产生摩擦却没有等比例的安全收益。构建让操作者对正在发生的事情保有可见性的界面,配以简单的中断机制——而非每步都强制审批。

4. 在部署前绘制自主性与风险地图。 了解 Agent 的操作在这两个维度上的位置。这让你能做出有意为之的治理决策,而不是在事故之后才发现风险敞口。

信任差距才是真正的制约

AI Agent 的试点到生产差距是真实存在的——调查显示约 78% 的企业有活跃的试点项目,但不到 15% 能达到可靠的生产状态。大多数解释聚焦于技术因素:集成复杂性、输出质量不稳定、评估缺口。

但自主性数据表明,另一个制约因素往往更具决定性:信任基础设施。用户和操作者对 Agent 的行为没有足够的可见性,无法自信地扩大委托范围。能力提升解决不了这个问题。更好的监控、更清晰的风险信号、以及可预测行为的历史记录才能解决。

度量是建立这种历史记录的方式。不是因为你期望捕获每一次失败,而是因为你正在构建人类与 Agent 之间随时间校准信任所需的共同语言。


你的 Agent 的实际能力与你正在使用它完成的任务之间的差距,几乎肯定比你想象的要大。弥合这一差距,从了解今天生产环境中正在发生什么开始。

Let's stay in touch and Follow me for more thoughts and updates