1 篇博文含有标签「human-evaluation」

标注员校准差距：当人类评分者悄然失去一致性时

2026年5月9日 · 阅读需 12 分钟

Software Engineer

控制面板显示评估者间一致性（Inter-rater agreement）为 0.71。模型团队正在庆祝，因为新提示词的得分比基准高出两分。没人注意到，六个月前，同样的 0.71 是由对评分标准（Rubric）理解完全一致的标注者产生的。而今天，这个数值是由三位标注者产生的，他们对“有帮助”（helpful）的定义存在默契的分歧，而这些分歧恰好在指标上相互抵消。你的评估工具已经分化为一组隐性标准的联盟，而仪表盘上的数字只是他们博弈后的加权平均值。

这就是标注者校准差距（Annotator Calibration Gap）。这是一种失败模式：为了对 LLM 评测器无法可靠处理的案例进行评分而建立的人工评估池，逐渐偏离了团队原本设定的衡量目标。模型并没有变差，是评估工具变差了。由于指标依然呈现为一个整洁的数字，没人会察觉，直到发布出现偏差，事后分析才发现，在过去的两个季度里，“有帮助”对三位不同的标注者意味着三种完全不同的东西。

关于 Tian Pan