跳到主要内容

评估基准真相中的标注者偏差:当你的标签系统性地将你引向歧途

· 阅读需 13 分钟
Tian Pan
Software Engineer

一个团队花了六个月时间训练一个情感分类器。留出集(holdout set)上的准确率看起来很稳健。他们发布了它。三个月后,一项审计显示,该模型一致地将非英语母语者的产品投诉评价为比母语者的相同投诉更负面——即使文本表达的意思完全相同。根源不在于模型架构,不在于训练过程,而在于标注团队:十二名身处同一个时区的英语母语者,没有人注意到某些表述在翻译后的文本中承载着不同的情感权重。

模型学到的是标注者的盲点,而非真实的信号。

这就是实践中的标注者偏差(annotator bias)。它不会自我宣告,而是表现为你信任的评估分数、看起来合理的基准排名,以及在未经过仔细测试的子组上表现怪异的已部署系统。基准真相(Ground truth)的污染处于机器学习流水线中所有其他环节的上游——而这是大多数团队发现得太晚的问题。

为什么“高一致性”不等同于“高质量”

标准的直觉是测量标注者间的一致性(inter-annotator agreement),然后就此止步。如果你的标注者在 85% 的时间里达成一致,那么标签一定是好的。但这混淆了两个截然不同的概念:一致性(consistency)和正确性(correctness)。

标注者可能会一致地犯错。如果你的整个标注团队共享某种系统性的误解——关于什么算作“有帮助”、什么构成了“专业”、或者哪些措辞带有负面情绪——他们就会在统一偏斜的标签上产生极高的标注者间一致性。分歧是有启发性的;而缺乏分歧并不一定令人安心。

Cohen's kappa 是使用最广泛的一致性指标,它加剧了这个问题。它在类别分布不平衡的情况下尤其不可靠:在某个类别占主导地位的数据集中,即使标注者几乎没有参与少数类别的标注,你也能获得很高的 kappa 分数。Krippendorff's alpha 能更好地处理多个标注者和序数数据,但它测量的仍然是一致性,而非真相。2024 年的一项会议分析建议将分歧视为信号——标注者分歧严重的区域往往在模型评估之前很久就能暴露出公平性风险和准则弱点。

这要求的操作转变虽然细微但意义重大:不要通过聚合来抹除分歧,而要分析分歧集群出现在哪里。如果标注者专门在某个示例组上产生分歧——特定的语言、人口统计背景、含糊的措辞——这种集群化会告诉你关于标注准则和标注者群体的某些信息。

标注者选择如何塑造你的测量结果

标注团队的构成不仅会抽象地影响质量,它还决定了任务的哪些方面能被准确测量,哪些方面会被系统性地扭曲。

事实证明,各大主流平台上的众包人员在处理需要专业领域知识或文化背景的任务时,可靠性已大不如前。关于媒体偏见检测的研究发现,众包人员往往缺乏判断细微案例所需的专业知识,且近年来的质量已有明显下降。更微妙的是,众包人员会捕捉标注指令中的模式并将其传播开来——对 14 个自然语言理解(NLU)基准测试的分析发现,标注者会吸收准则中的具体示例,并在产生的整个数据集中过度呈现这些模式。你的指令示例成了事实上的标签分布。

专家标注者也有不同的失败模式。领域专家共享类似的训练、机构偏见和解释框架。一个由医生组成的团队标注临床笔记的情感,他们会彼此达成一致,并将医疗专业规范植入你的数据集中——这些规范可能与患者描述相同经历的方式并不匹配。在专家群体中,人口统计学上的单一性是常态而非例外。

人口统计构成的具体影响是可衡量的。2024 年的一项研究发现,人脸图像标注中的边界框准确度随着标注者的族裔呈现出系统性差异——不是随机的,而是相关的模式。教科文组织(UNESCO)对大语言模型训练数据的研究记录显示,主流模型将女性与“家庭”和“家务”联系起来的频率是男性的四倍,这可以追溯到在技术判断岗位中偏向男性的团队所产生的偏见标注分布。

仅仅通过在标注群体中“增加多样性”是无法解决这些问题的。多样化的人口统计构成是必要的,但并不充分。不同人口统计群体在解释任务指令时的系统性差异仍然会产生有偏见的标签——你需要的是能够解释解释差异(interpretation variance)的标注设计,而不只是人数上的平衡。

系统性误差比随机噪声更难修复

大多数标注质量框架都忽略了一个关键的区别:随机标注者误差(random annotator error)与系统性标注者误差(systematic annotator error)之间的区别。

随机误差呈无规律分布——注意力不集中、疲劳、或者是明白人也会产生分歧的模糊边缘案例。它会为你的训练信号增加噪声,但通过聚合多个标注者的结果会有所帮助。如果标注者是独立且不可预测地犯错,那么每个示例收集三个标注并采取多数投票原则,其效果会平缓下降。

系统性误差则是另一个问题。当标注者由于共同的偏见、有缺陷的准则或共同的文化假设而一致地犯下相同的错误时,聚合更多标注者并没有帮助。他们都会犯同样的错误。你最终会得到高一致性、自信的标签,以及在规模上教给模型错误内容的训练数据。

自动驾驶汽车的标注案例极具启发性:标注者为了确保完全包含目标,一致地将边界框画得略大。每个标注者都这么做。每个框都如此。产生的数据集教会了模型去预期膨胀的边界,这导致了碰撞规避系统中不必要的误报。收集两倍的标注量也无济于事——系统性的尺寸放大依然存在。修复它需要对误差模式有足够的理解,从而要么纠正标签,要么在算法上进行补偿。

检测系统性误差需要子组分析,而非聚合指标。比较不同标注者人口统计子组的标签分布。寻找标注者特征与标签模式之间的相关性。如果某些标注者无论内容如何,都一致地将某一类示例标记为“负面”,这就是一个信号。如果你的标签分布在按标注者切分时看起来大相径庭,那么你就存在系统性误差——即使聚合后的一致性看起来很好。

RLHF 问题:对齐规模下的偏见

RLHF 偏好标注是标注员偏见产生重大影响的地方,因为它通过强化学习直接塑造模型行为,而不仅仅是作为训练信号。

偏好标注在操作上比分类标注更难。标注员必须比较两个模型输出,并根据本质上具有主观性的维度——帮助性、安全性、创造力、价值对齐——来判断哪个“更好”。标注范围极其广泛;偏好数据集需要大量的对比才能具有统计学意义。这导致了快速标注的压力,从而增加了错误率;同时也导致需要使用庞大的标注员群体,进而增加了人口统计异质性问题。

失败模式不仅仅是噪声。带有偏见偏好数据的 RLHF 会表现出研究人员所称的“偏好崩塌”(preference collapse):优化过程会系统性地降低少数群体偏好的权重,转而支持多数群体的偏好。模型学习产生中值标注员评分高的输出,这意味着对于偏好与该中值不同的用户,模型的表现会系统性变差。如果你的偏好标注员群体向特定的文化、年龄段或专业背景倾斜,这些偏见就会被植入奖励模型,并通过强化学习放大。

最近的混合方法(将 LLM 生成的偏好与针对困难案例的人工标注相结合)以约 6-7% 的人工标注成本实现了人类水平的对齐质量。核心见解是,大多数偏好比较都很简单——标注员和模型都能达成一致——而偏见风险集中在人类存在分歧的困难案例中。将人工标注精力集中在这些地方,可以同时减少规模问题和噪声问题。

真正能捕捉偏见的审计方法

大多数标注质量审计仅停留在标注员间的一致性总量上。能够捕捉系统性偏见的审计方法需要更进一步。

标注员级别的分布分析。为每个标注员绘制他们在整个数据集中的标签分布图。如果一个标注员在 70% 的时间里分配“正向”标签,而其他标注员则聚集在 40% 左右,这不仅仅是一个离群值——它反映了该标注员衡量标准的问题。成对比较分布,寻找与标注员背景相关的系统性差异。

子组分层。根据你关注的敏感属性对数据集进行细分——包括被标注数据中的人口统计信息、主题类别、语言特征、难度级别。分别计算每个层级内的标注员间一致性。如果总量一致性高但子组层面一致性低,意味着你的标注员在简单案例上达成了一致,但在恰恰需要一致性的案例上产生了分歧。

错误模式聚类。当标注员产生分歧时,分歧集中在哪里?随机分歧在数据集中大致均匀分布。而系统性偏见则是成簇的——围绕特定类别、数据中特定的人口统计特征、特定类型的模糊案例。对分歧位置进行聚类分析,比任何单一的一致性系数都更有信息量。

校准漂移检测。标注员会随时间发生变化。没有重新校准的长期标注项目会积累漂移——准则被解释得更宽松、疲劳改变了阈值、群体动态改变了“共识”的定义。跟踪标注员自身的一致性:比较同一标注员在不同时间对重复样本的标注。如果同一标注员在第 1 周和第 8 周对同一个问题给出了不同的答案,就表明出现了漂移。

标签分布的人口统计审计。针对被标注数据中的敏感属性检查你的标签分布。如果你的“专业性”分类在 90% 的时间里给具有某种人口统计特征的样本分配正向标签,那这不是模型问题——而是标签问题。模型会忠实地学习这种偏见。

优秀的标注基础设施究竟需要什么

防止系统性标注偏见的实践在操作上并不起眼,这就是为什么它们经常投资不足。

标注准则是活的文件。在标注开始前编写的死板准则编码了准则作者的假设,并且在标注员遇到边缘案例时无法很好地更新。有效的准则应包括正确和错误标签的视觉示例、针对常见模糊案例的具体消除歧义规则,以及标注员反馈准则缺失的渠道。如果不根据标注员的反馈进行演进,准则就会悄悄积累编写者的偏见。

标注开始时的校准会议——而不仅仅是岗前培训——决定了标签是保持一致还是存在系统性偏见。让 5-10 名标注员组成的小型试点小组处理相同的样本,比较结果,并通过讨论解决分歧,这能在准则歧义传播到数千个标签之前将其发现。在长期项目中每 2-3 个月进行一次重新校准,可以防止漂移累积。

将分歧数据视为一种产品。不要通过聚合将其消除。标注员产生分歧的例子包含了关于你的任务定义究竟在哪里存在歧义、你的准则在哪里存在缺失,以及你的训练分布在哪里可能存在质量问题的最丰富信息。分歧分析通常在模型评估之前就能暴露公平性风险——而且修复标签质量比在部署后调试模型偏见要便宜得多。

无人能避开的上游问题

复杂的训练程序和评估框架无法克服系统性偏差的 ground truth。如果一个模型是在包含对任务系统性误解的标签上进行训练的,那么无论其架构或规模如何,它都会习得这种误解。基于有偏差的 ground truth 构建的基准测试产生的排名,其衡量标注者偏差的程度与衡量模型能力的程度相当——而为了在这些基准测试中获得高分而进行微调的模型,会进一步放大这些偏差。

ML 工程中的直觉是将标注视为一个已解决的问题,并将精力集中在模型开发上。但 ground truth 的质量是一个瓶颈,它决定了下游的一切——训练、评估、微调、部署——是否真的在衡量你认为它在衡量的东西。

上述审计方法并不昂贵,也不复杂。它要求关注标注者级别的数据而非聚合指标,按子组进行分层分析,并将分歧视为信号而非噪声。将这种分析构建到标注流水线中的团队,不仅能更早地发现偏差,还能更清晰地理解其 eval 实际上在衡量什么。这种清晰度正是让评估值得信赖的关键。

当你的 eval 分数可靠时,开发循环的其余部分就会变得易于处理。当它们不可靠时,你就像是在根据一张别人画错的地图进行导航。

References:Let's stay in touch and Follow me for more thoughts and updates