评估集衰退:为什么你的基准在构建六个月后会变得具有误导性
· 阅读需 11 分钟
你花了三周时间精心整理一套高质量的评估集。你编写了测试用例来覆盖产品经理担心的边缘情况,从内测用户中采样了真实查询,并得到了一个团队认可的准确率数字。六个月后,这个数字仍然出现在每周的仪表盘上。你刚刚发布了一次在评估中表现出色的模型更新,用户却在提交工单。
问题不在于模型退步了。问题在于你的评估集几个月前就已经不再代表现实——而没有人注意到。
这种失败模式有个名字:评估集衰退。它几乎发生在每一个生产AI团队身上,而且几乎从不会在用户行为中出现可见损失之前被发现。
