跳到主要内容

1 篇博文 含有标签「production-llms」

查看所有标签

那些你的真实用户永远不会表现出的合成评估

· 阅读需 11 分钟
Tian Pan
Software Engineer

有一类评估失败是任何仪表盘都捕捉不到的,因为它表现为成功。分数逐周攀升。评审模型认可答案。回归测试保持绿色。与此同时,支持团队记录到用户反馈的质量在缓慢下滑,销售团队听到“它不太明白我的意思”,而工程团队中没有人能复现这些投诉,因为在评估集上尝试的每个例子都能通过。评估集和用户生活在不同的分布中,而评估集是两者中更“完美”的那一个。

其中的机制很简单,而且就隐藏在显眼处:编写评估提示词的模型与受测模型是同胞关系,而同胞共享先验知识。它们磨平同样的棱角,偏好同样的措辞,遗漏同样类型的格式错误输入。评估集验证的是在一个生成器所构想的用户世界里的表现。你真实的用户住在别处。