生产环境中的 AI Agent 自主性度量:数据实际揭示了什么
大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。
一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。
部署过剩问题
其中一项引人注目的发现是:第 99.9 百分位的轮次时长——Agent 在停止或寻求帮助之前的最长会话时间——在 2025 年 10 月至 2026 年 1 月之间几乎翻了一番,从不足 25 分钟增长到超过 45 分钟。这并非单纯的能力提升。模型并没有突然变得更聪明。而是用户逐渐开始信任 Agent 处理更长、更复杂的任务。
这指向了一个值得命名的现象:部署过剩(deployment overhang)。模型通常具备比用户愿意赋予的更高程度的自主行为能力。瓶颈在于信任,而非能力。
这对你思考 Agent 的增长上限有切实影响。如果用户因为信任不足——而非能力限制——而没有充分利用 Agent 的能力,那么改善结果的路径在于构建信任基础设施:更好的可见性、更简单的干预机制、以及可靠行为的记录。单靠提升能力无法弥合这一差距。
真正重要的两个指标:自主性与风险
在生产环境中度量 Agent 行为,需要的不只是记录延迟和错误率。有两个维度最为关键:
自主性得分(1–10):Agent 的独立运作程度如何?1 分意味着持续需要人工指令;10 分意味着在漫长的多步骤任务中完全无监督运行。
风险得分(1–10):Agent 操作的潜在影响范围有多大?低风险指只读操作或易于回滚的写入;高风险指具有持久、难以撤销后果的操作——金融交易、安全配置、医疗记录修改。
将 Agent 的各项操作绘制在这两个轴上,就能得到一张对治理决策真正有用的部署地图。高自主性 + 低风险是你希望大部分流量落入的甜蜜区间;高风险 + 高自主性则是需要更强安全防护或明确人工审批闸门的区域。
在所研究的数据中:
- 80% 的操作具备技术性安全防护措施
- 73% 涉及某种形式的人机协作
- 仅有 0.8% 的操作是真正不可逆的
最后这个数字比大多数人想象的要低,它是校准审批流程严格程度的有用基准。
监督悖论:批准更多,同时中断也更多
以下是对产品设计影响最直接的反直觉发现:随着用户对 Agent 越来越有经验,自动批准率从约 20% 升至超过 40%,但中断率同样上升——从 5% 增至 9%。
两个数字同时上升。
发生的是监督模式的根本性转变。新用户逐一审批或拒绝每个操作。经验丰富的用户通过自动批准广泛委托,然后监控结果——更有选择性地介入,但对何时真正需要干预判断更准确。他们并非变得不够谨慎,而是在更高的抽象层次上施加监督。
这对产品有直接意义。为永远停留在新手模式的用户设计,会让高级用户沮丧,并增加没有安全收益的额外负担。相反,应构建支持两种模式的界面:为新部署提供细粒度的操作级审批,为有经验的操作者提供会话级监控和简单的中断机制。
当 Agent 率先寻求帮助
也许最出乎意料的发现是:Agent 主动发起监督请求的频率大约是人类中断频率的两倍,在复杂任务上尤为如此。
当 Agent 主动浮现不确定性时,原因大致如下分布:
| 原因 | 占比 |
|---|---|
| 提出多种方案供选择 | 35% |
| 请求诊断信息 | 21% |
| 澄清不完整的请求 | 13% |
| 请求凭证或访问权限 | 12% |
排在首位的类别——提出方案——是值得刻意鼓励的 Agent 行为。一个在路口停下来问"我可以这样或那样处理,你倾向于哪种?"的 Agent,正在提供真实价值。这不是自主性的失败,而是以一种让人类保持适当了解的方式运用自主性。
这改变了"良好 Agent 行为"的含义。与其最大化无监督运行时间,不如追求 Agent 能够区分哪些决策应该独立做出,哪些决策受益于人类输入。在这种区分上的训练,比在原始能力上的训练更有价值。
领域与风险分布
软件工程主导了当前的 Agent 使用——在研究的 API 流量中占近一半。鉴于 Agent 与编程工作流的高度契合,这并不令人惊讶。但医疗、金融和网络安全领域的新兴使用模式值得密切关注,尽管目前规模仍然有限。
这些领域的风险得分集中在较高区间。处理安全评估或金融交易系统的 Agent,与运行单元测试的 Agent 需要截然不同的态度。上述 80/73/0.8 的分布描述的是当前平均值——你的数字将因领域而异。
一个有用的练习:为 Agent 可以使用的每个工具估算自主性和风险得分。在部署之前构建这张地图,而非事后补救。对于落在高风险区间的操作,提前决定是通过安全防护接受、人工审批,还是完全限制访问。
