跳到主要内容

1 篇博文 含有标签「agent-metrics」

查看所有标签

那个因为模型拒绝处理难题而提升的成功指标

· 阅读需 11 分钟
Tian Pan
Software Engineer

你在周二升级了模型。到了周五,“任务完成率”仪表盘从 71% 爬升到了 78%。领导层注意到了。有人在全员大会上截图展示了它。两周后,客服部门悄悄反馈说,特定一批复杂工单的流失率翻了一番。没人把这两件事联系起来,因为从纸面上看,智能体(agent)变得更好了。而现实情况是,新模型只是变得更擅长拒绝了。

这就是指标脱钩问题,也是以 LLM 为动力的产品欺骗其开发者的最昂贵方式之一。你的成功率并没有衡量你认为它在衡量的东西。它衡量的是“模型尝试的内容”与“模型尝试时做对的内容”的交集。当模型升级、提示词更改或安全调优(safety-tuning)改变了“尝试”的边界时,你的分子和分母会同步移动——即使在用户感知的质量一落千丈时,该比率也可能上升。