生产环境中的 AI Agent 自主性度量：数据实际揭示了什么

2025年9月17日 · 阅读需 8 分钟

Software Engineer

大多数构建 AI Agent 的团队花费数周时间进行部署前评估，却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时，跨越数千个真实会话之后才能浮现。不去衡量这些，等于盲目飞行。

一项针对数千次生产部署和软件工程会话的大规模研究，揭示了一些真正令人意想不到的发现。呈现出来的图景，与大多数构建者的预期大相径庭。

部署过剩问题

其中一项引人注目的发现是：第 99.9 百分位的轮次时长——Agent 在停止或寻求帮助之前的最长会话时间——在 2025 年 10 月至 2026 年 1 月之间几乎翻了一番，从不足 25 分钟增长到超过 45 分钟。这并非单纯的能力提升。模型并没有突然变得更聪明。而是用户逐渐开始信任 Agent 处理更长、更复杂的任务。

这指向了一个值得命名的现象：部署过剩（deployment overhang）。模型通常具备比用户愿意赋予的更高程度的自主行为能力。瓶颈在于信任，而非能力。

这对你思考 Agent 的增长上限有切实影响。如果用户因为信任不足——而非能力限制——而没有充分利用 Agent 的能力，那么改善结果的路径在于构建信任基础设施：更好的可见性、更简单的干预机制、以及可靠行为的记录。单靠提升能力无法弥合这一差距。

真正重要的两个指标：自主性与风险

在生产环境中度量 Agent 行为，需要的不只是记录延迟和错误率。有两个维度最为关键：

自主性得分（1–10）：Agent 的独立运作程度如何？1 分意味着持续需要人工指令；10 分意味着在漫长的多步骤任务中完全无监督运行。

风险得分（1–10）：Agent 操作的潜在影响范围有多大？低风险指只读操作或易于回滚的写入；高风险指具有持久、难以撤销后果的操作——金融交易、安全配置、医疗记录修改。

将 Agent 的各项操作绘制在这两个轴上，就能得到一张对治理决策真正有用的部署地图。高自主性 + 低风险是你希望大部分流量落入的甜蜜区间；高风险 + 高自主性则是需要更强安全防护或明确人工审批闸门的区域。

在所研究的数据中：

80% 的操作具备技术性安全防护措施
73% 涉及某种形式的人机协作
仅有 0.8% 的操作是真正不可逆的

最后这个数字比大多数人想象的要低，它是校准审批流程严格程度的有用基准。

监督悖论：批准更多，同时中断也更多

以下是对产品设计影响最直接的反直觉发现：随着用户对 Agent 越来越有经验，自动批准率从约 20% 升至超过 40%，但中断率同样上升——从 5% 增至 9%。

两个数字同时上升。

发生的是监督模式的根本性转变。新用户逐一审批或拒绝每个操作。经验丰富的用户通过自动批准广泛委托，然后监控结果——更有选择性地介入，但对何时真正需要干预判断更准确。他们并非变得不够谨慎，而是在更高的抽象层次上施加监督。

这对产品有直接意义。为永远停留在新手模式的用户设计，会让高级用户沮丧，并增加没有安全收益的额外负担。相反，应构建支持两种模式的界面：为新部署提供细粒度的操作级审批，为有经验的操作者提供会话级监控和简单的中断机制。

当 Agent 率先寻求帮助

也许最出乎意料的发现是：Agent 主动发起监督请求的频率大约是人类中断频率的两倍，在复杂任务上尤为如此。

当 Agent 主动浮现不确定性时，原因大致如下分布：

原因	占比
提出多种方案供选择	35%
请求诊断信息	21%
澄清不完整的请求	13%
请求凭证或访问权限	12%

排在首位的类别——提出方案——是值得刻意鼓励的 Agent 行为。一个在路口停下来问"我可以这样或那样处理，你倾向于哪种？"的 Agent，正在提供真实价值。这不是自主性的失败，而是以一种让人类保持适当了解的方式运用自主性。

这改变了"良好 Agent 行为"的含义。与其最大化无监督运行时间，不如追求 Agent 能够区分哪些决策应该独立做出，哪些决策受益于人类输入。在这种区分上的训练，比在原始能力上的训练更有价值。

领域与风险分布

软件工程主导了当前的 Agent 使用——在研究的 API 流量中占近一半。鉴于 Agent 与编程工作流的高度契合，这并不令人惊讶。但医疗、金融和网络安全领域的新兴使用模式值得密切关注，尽管目前规模仍然有限。

这些领域的风险得分集中在较高区间。处理安全评估或金融交易系统的 Agent，与运行单元测试的 Agent 需要截然不同的态度。上述 80/73/0.8 的分布描述的是当前平均值——你的数字将因领域而异。

一个有用的练习：为 Agent 可以使用的每个工具估算自主性和风险得分。在部署之前构建这张地图，而非事后补救。对于落在高风险区间的操作，提前决定是通过安全防护接受、人工审批，还是完全限制访问。

对构建方式的启示

以下四条建议直接来自这些数据：

1. 投资于部署后监控。 部署前评估发现能力缺口；运行时监控发现行为漂移、边缘情况和信任校准问题。会话时长分布、自主性得分趋势和中断率，能告诉你基准测试永远无法揭示的事情。

2. 为不确定性识别训练模型。 生产环境中表现最好的 Agent，不是运行最长时间不提问的那些——而是在正确的时间提出正确问题的那些。如果你的微调或提示词没有明确奖励主动澄清，你正在浪费价值。

3. 为监控而设计，而非仅为审批。 一旦用户与 Agent 建立了记录，逐操作审批会产生摩擦却没有等比例的安全收益。构建让操作者对正在发生的事情保有可见性的界面，配以简单的中断机制——而非每步都强制审批。

4. 在部署前绘制自主性与风险地图。 了解 Agent 的操作在这两个维度上的位置。这让你能做出有意为之的治理决策，而不是在事故之后才发现风险敞口。

信任差距才是真正的制约

AI Agent 的试点到生产差距是真实存在的——调查显示约 78% 的企业有活跃的试点项目，但不到 15% 能达到可靠的生产状态。大多数解释聚焦于技术因素：集成复杂性、输出质量不稳定、评估缺口。

但自主性数据表明，另一个制约因素往往更具决定性：信任基础设施。用户和操作者对 Agent 的行为没有足够的可见性，无法自信地扩大委托范围。能力提升解决不了这个问题。更好的监控、更清晰的风险信号、以及可预测行为的历史记录才能解决。

度量是建立这种历史记录的方式。不是因为你期望捕获每一次失败，而是因为你正在构建人类与 Agent 之间随时间校准信任所需的共同语言。

你的 Agent 的实际能力与你正在使用它完成的任务之间的差距，几乎肯定比你想象的要大。弥合这一差距，从了解今天生产环境中正在发生什么开始。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

生产环境中的 AI Agent 自主性度量：数据实际揭示了什么

部署过剩问题

真正重要的两个指标：自主性与风险

监督悖论：批准更多，同时中断也更多

当 Agent 率先寻求帮助

领域与风险分布

对构建方式的启示

信任差距才是真正的制约

Recommended Reading

关于 Tian Pan

部署过剩问题​

真正重要的两个指标：自主性与风险​

监督悖论：批准更多，同时中断也更多​

当 Agent 率先寻求帮助​

领域与风险分布​

对构建方式的启示​

信任差距才是真正的制约​

Recommended Reading

关于 Tian Pan

部署过剩问题

真正重要的两个指标：自主性与风险

监督悖论：批准更多，同时中断也更多

当 Agent 率先寻求帮助

领域与风险分布

对构建方式的启示

信任差距才是真正的制约