生产环境中的 AI Agent 自主性度量:数据实际揭示了什么
· 阅读需 8 分钟
大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。
一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。
部署过剩问题
其中一项引人注目的发现是:第 99.9 百分位的轮次时长——Agent 在停止或寻求帮助之前的最长会话时间——在 2025 年 10 月至 2026 年 1 月之间几乎翻了一番,从不足 25 分钟增长到超过 45 分钟。这并非单纯的能力提升。模型并没有突然变得更聪明。而是用户逐渐开始信任 Agent 处理更长、更复杂的任务。
这指向了一个值得命名的现象:部署过剩(deployment overhang)
