标注员校准差距：当人类评分者悄然失去一致性时

2026年5月9日 · 阅读需 12 分钟

Software Engineer

控制面板显示评估者间一致性（Inter-rater agreement）为 0.71。模型团队正在庆祝，因为新提示词的得分比基准高出两分。没人注意到，六个月前，同样的 0.71 是由对评分标准（Rubric）理解完全一致的标注者产生的。而今天，这个数值是由三位标注者产生的，他们对“有帮助”（helpful）的定义存在默契的分歧，而这些分歧恰好在指标上相互抵消。你的评估工具已经分化为一组隐性标准的联盟，而仪表盘上的数字只是他们博弈后的加权平均值。

这就是标注者校准差距（Annotator Calibration Gap）。这是一种失败模式：为了对 LLM 评测器无法可靠处理的案例进行评分而建立的人工评估池，逐渐偏离了团队原本设定的衡量目标。模型并没有变差，是评估工具变差了。由于指标依然呈现为一个整洁的数字，没人会察觉，直到发布出现偏差，事后分析才发现，在过去的两个季度里，“有帮助”对三位不同的标注者意味着三种完全不同的东西。

运行人工评估并不难。难的是保持人工评估计划与产品意图同步，并保持与模型迭代相同的节奏。大多数团队将评分标准视为一次性的培训产物，并将标注者池视为可替换的劳动力。这两个假设都会在几个月内失效。接下来的内容将介绍如何保持评估工具的真实性，以及当这种自律失效时，哪些失败模式会悄悄使评估信号失效。

为什么评分标准会分化

仅仅写在文档里并在入职时阅读一次的评分标准，在接触到真实的生产数据时是无法维持的。前一百次评分是干净的：标注者按照书面标准执行，在 Slack 中询问澄清问题，并趋于一致。到第一千次评分时，每个人都积累了一套私人的边缘案例库——那些模糊的拒绝、技术正确但回避问题的回答、礼貌的错误响应——并且开始根据个人直觉而非评分标准来解决这些问题。这些直觉在个人内部是相关的，但在人与人之间是不相关的。每个标注者变得内部一致，但外部发散。

你可以通过自我一致性检查来检测这一点：将同一个案例间隔四周分别交给同一个标注者进行评分，并对比结果。内化了评分标准的稳定标注者，与其过去自我的契合度大约在 0.85 或更高。而私人直觉发生漂移的标注者，与其过去自我的契合度大约只有 0.6，这个差距的大小正是你在仪表盘上即将面对的标准分化程度。

分化也源于默许的标准澄清。一个新的边缘案例出现在队列中，一位资深标注者在团队聊天中给出了回答，这种解释被那个星期在线的人吸收了。现在，实践中的评分标准就是页面上的标准加上未成文的多年 Slack 讨论记录。六个月后，一名新标注者加入，阅读了页面文档，产出的评分看起来像噪声，但实际上是对原始标准的忠实解读。团队的直觉是新标注者错了。事实是，评分标准已经产生了分支且从未合并。

这就是为什么你会看到 Krippendorff's alpha 值在 0.6–0.7 范围内，这在纸面上看起来可以接受，但却掩盖了在关键案例上的灾难性分歧。Alpha 是一个全局平均值。而决定你的发布是否应该上线的案例——即处于可接受行为边界的模糊案例——恰恰是标注者分歧最大的地方，也正是对整个标注池进行平均会产生无意义数字的地方。

锚点案例：将评分标准转化为可运行的测试

最高杠杆的干预措施是维护一套小规模、固定的锚点案例（Anchor Cases），每位标注者都会定期（通常是每月）对其进行评分。20 到 50 个示例就足够了。这套案例经过精心挑选，覆盖了评分标准的完整决策面：明确的正例、明确的负例，以及刻意集中的、历史上导致分歧的边界案例。每个锚点案例都有一个由校准负责人维护的规范标签（Canonical Label）。

锚点案例有三个功能。它们为每位标注者提供了一个私人信号，表明他们是否偏离了评分标准。它们为校准负责人提供了每位标注者的漂移轨迹，从而在生产信号退化之前识别出谁需要重新培训。此外，它们还让团队能够检测到评分标准本身已经过时：当多个标注者同时觉得规范标签不对时，评分标准就需要真正的修订，而不是在 Slack 里简单解释。

这种做法的一个变体在数据标注中已经是标准做法，即黄金集植入（Gold-set Seeding），将已知答案的项目混入实时队列。Agentic-eval 版本的区别在于两点：首先，黄金案例不是隐藏的——标注者知道哪些是锚点案例，因为目标是校准，而不是监视。其次，规范标签不是一成不变的；它们每季度复核一次，变更被视为标准版本更新事件，而不是标签纠错。如果某个锚点案例的规范标签发生了变化，那么在旧版本下计算的所有指标都应与当前对比进行隔离。

盲审交叉评分：让分歧显性化

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

标注员校准差距：当人类评分者悄然失去一致性时

为什么评分标准会分化

锚点案例：将评分标准转化为可运行的测试

盲审交叉评分：让分歧显性化

Recommended Reading

关于 Tian Pan

为什么评分标准会分化​

锚点案例：将评分标准转化为可运行的测试​

盲审交叉评分：让分歧显性化​

Recommended Reading

关于 Tian Pan

为什么评分标准会分化

锚点案例：将评分标准转化为可运行的测试

盲审交叉评分：让分歧显性化