跳到主要内容

被两个漂移向量拉扯的评估准则

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的综合评估分数在上个季度上升了两个百分点。没人能告诉你这究竟是系统变好了,是打分的人类群体变得更宽松了,还是你在三月份升级的评判模型开始以不同的权重衡量文本的冗长程度。数字变动了。但该数字旨在衡量的事物并不一定随之变动。

当一个评估准则同时被两个群体——人类和 LLM 评判者——阅读时,就会发生这种情况,而且这两个群体的漂移轴线和原因各不相同。综合分数将两者的运动混合在一起,除非你有一套测量方案能在其中一个变动时保持另一个固定,否则你发布的指标,其变化是无法归因于任何因素的。

指向不同方向的两个漂移向量

人类评分者的漂移是一个老问题。对模型输出进行评分的人类群体并不是一个常量。标注员会疲劳,会变快,会变得更挑剔,或者被更换。在临床研究中,这有一个专有名词——评分者漂移 (rater drift)——并且已经被衡量了数十年。评分者间的可靠性会“在研究的生命周期中”逐渐受损,评分者在执行准则的方式(阅读提示词的仔细程度)以及评分方式(忘记了他们接受过培训的某个特定惯例)上都会发生漂移。

对于 LLM 评估,群体的更替速度更快且更隐形。供应商合同变更。兼职标注员池每六周轮换一次。一个新的内部团队接管了标注工作,因为旧团队被重新分配到了另一个项目。每一个这类事件都是隐式准则的阶梯式变化,因为显性准则——即文档本身——并没有捕捉到前一个群体所带来的先验知识。

LLM 评判者的漂移是一个较新的问题,且移动速度更快。评判者是一个模型。评判模型会升级,而升级并不会附带一份题为“你的准则现在将被以不同方式解读”的已发布版本说明。2026 年的研究衡量了其规模:相同的准则和相同的数据集,在新的评判模型版本下评分,会产生 3 到 8 个百分点的均值偏移,且分布更窄。在 60 到 90 天内,即使没人动过准则,评判者的漂移也可能远到让昨天的通过阈值失去意义。

这两个向量并不指向同一个方向。人类的漂移是缓慢的,其轨迹由群体中的成员构成。评判者的漂移是跨步式的,其轨迹由模型版本字符串中的内容决定。当你把它们平均成一个综合分数时,你实际上是将两个无关的随机游走相加并报告其位置。

为什么综合分数隐藏了两者

综合分数的诱人之处在于它看起来很稳定。人类评分者权重 0.6 加上评判者权重 0.4,每个发布版本你都能得到一个数字。这个数字可以上升两个百分点或下降两个百分点,你对此有一套说辞。

这个数字也可以在两个群体向相反方向移动时保持持平,而你对此却无话可说。一个开始偏好冗长答案并因此多给 5 分的评判者,可以抵消一个开始因冗长答案而扣 3 分的人类群体,综合分数显示出 1 分的增益,而这与被测试系统毫无关系。团队发布了产品,领导层报告了一个绿色指标,而底层的漂移则在加速,因为没有任何机制能察觉到它。

作为一种报告媒介,综合分数并没有错。但作为一种诊断手段,它是错误的。如果评估团队同时将其用于两者,那么他们发布的决策,其置信区间被这两个群体中漂移最严重的一个所限制,且无法辨别是哪一个。

重新校准陷阱

当你注意到两个群体不一致时的自然反应是根据人类群体重新校准评判者。评判者的提示词被编辑,准则示例被更新,评判模型针对一批新的人类标签进行重新评估,随后一致性指标——Cohen's kappa、Krippendorff's alpha 或有序量表的加权 kappa——回到了正常范围内。

这就是陷阱。根据当前的人类群体重新校准评判者,会将两种漂移锁定在一起。从这一刻起,当人类群体发生漂移时,评判者的重新校准也会随之移动,因为评判者正在被重新调整以匹配这个移动的目标。评判者不再能作为一个稳定的锚点来检测人类的漂移,人类群体也不再能作为一个稳定的锚点来检测评判者的漂移,因为它们中的每一个都在参照另一个进行衡量。

综合分数看起来会更平滑。两个群体的一致性会更高。漂移仍将继续,但它在两个向量上是一致的,而一致的漂移是通过观察一致性无法发现的。

重新校准并不是错误的行动。错误的行动是同时在两个方向上重新校准,并将一致性指标称为系统质量的衡量标准。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates