升级率:离线测试遗漏的评估信号
每个智能体(agent)功能都有一个“后门”。有的团队称之为“转人工支持”,有的称之为“路由至人工审核员”,还有的则使用模板化的回复:“我无法处理此事——让我为你联系能提供帮助的人。”无论标签是什么,每个生产环境中的智能体都有一条放弃用户请求并将其移交给人工的路径。而生产流量采取该路径的比例,是少数几个不依赖标注员、评审员或手动构建测试集的信号之一。这是系统在生产环境中告诉你,模型无法处理用户实际发送的请求。
这个信号几乎总是被错误的团队读取。在大多数公司中,转人工率(Escalation rate)是一个劳动力规划指标:它决定了下一季度排队系统需要多少人工客服。它存在于运营团队审查的仪表板上,其审查频率与 AI 团队读取评估分数(eval scores)的频率完全不同。30% 的周环比转人工增长在周一的运营审查中表现为一个人员配备问题,而 AI 团队的评估套件依然显示绿色,领导层的报告也显示功能状态良好。两个团队看着同一个生产系统,却得出了截然相反的结论:运营团队认为他们需要更多人手,而 AI 团队认为模型运行良好。
