1 篇博文含有标签「production-llms」

那些你的真实用户永远不会表现出的合成评估

2026年6月1日 · 阅读需 11 分钟

Software Engineer

有一类评估失败是任何仪表盘都捕捉不到的，因为它表现为成功。分数逐周攀升。评审模型认可答案。回归测试保持绿色。与此同时，支持团队记录到用户反馈的质量在缓慢下滑，销售团队听到“它不太明白我的意思”，而工程团队中没有人能复现这些投诉，因为在评估集上尝试的每个例子都能通过。评估集和用户生活在不同的分布中，而评估集是两者中更“完美”的那一个。

其中的机制很简单，而且就隐藏在显眼处：编写评估提示词的模型与受测模型是同胞关系，而同胞共享先验知识。它们磨平同样的棱角，偏好同样的措辞，遗漏同样类型的格式错误输入。评估集验证的是在一个生成器所构想的用户世界里的表现。你真实的用户住在别处。

关于 Tian Pan