跳到主要内容

达成共识的 LLM-as-Judge 集成:只因评委都来自同一家族

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的评估流水线针对每一个模型输出运行一个由三位评审组成的集成系统。评审成员包括使用严格标准的 GPT-4、使用宽松标准的 GPT-4 以及使用思维链标准的 GPT-4。他们在 91% 的案例中达成一致。你向发布审查委员会报告了 0.83 的 Krippendorff's alpha 评审间一致性指标。这个数字落在了每个方法论教科书都视为“绿灯”的“显著一致性”区间内。在六个月的时间里,三个模型升级版本依据这一数字顺利发布。

一位外部审计员使用相同的评审标准,将其中一位评审更换为 Claude,结果在难题上的一致率降至 64%。那些证明前三次升级合理性的评估分数,结果变成了取决于你将哪个供应商家族视为“基准真相(Ground Truth)”的数字。这些升级只是针对 GPT-4 家族偏好的升级,而非针对质量的提升——因为评审本身就是受审模型的“同胞兄弟”。

错误不在于标准,而在于采样。一个由来自同一家族的三位评审组成的集成系统,本质上是带了三个不同提示词的一位评审,而一致性指标衡量的是该家族内部的连贯性,而不是整个群体的连贯性。那 91% 的一致率只是供应商选择带来的产物,而当时会议室里没有人指出这一点。

为什么来自同一家族的三位评审其实只是一位评审

标准的直觉认为,评审集成是从“合理评分者”分布中提取的一个样本,一致率衡量的是评审标准是否定义得足够清晰,以至于合理的评分者能够趋于一致。这种直觉潜移默化地引入了“独立性”。如果你的三位评分者是 GPT-4 的三个不同评审标准变体,那么他们就不是来自“合理评分者”的三个样本。他们是“阅读稍有不同的标准后的 GPT-4”的三个样本。

同一家族的模型共享训练语料库、训练后偏好、格式期望、拒绝风格和风格先验。一篇 2025 年名为《偏好泄漏》(Preference Leakage)的论文将此形式化为数据生成器与评审 LLM 之间的三种关联类型:同一模型、继承关系、以及属于同一模型家族。当候选模型与评审家族重叠时,这三种类型都会产生虚高的一致性和虚高的分数。

多项研究衡量了这一影响的程度。当同一模型既作为评审又作为候选时,“自我偏好”会增加大约 10% 到 25% 的统一偏差。家族偏好——同样的效应,只是略弱一些——即使在具体的 Checkpoint 不同但血统匹配的情况下依然存在。一个偏向其同胞的评审并不需要知道自己有同胞。同一家族回复中较低的困惑度(Perplexity)就足够了;评审会称其“更流畅”、“结构更好”或“更符合评审标准”,而无需提及它来自哪个家族。

对于全同一家族的评审集成来说,其影响是残酷的:你的一致率下限受家族连贯性限制,上限则接近 1.0,因为评审们继承了相同的先验。这个数字告诉你该家族内部是一致的,但它并不能告诉你判断是否正确。

你的一致性数字究竟在衡量什么

在三个 GPT-4 评审标准变体之间获得较高的 Krippendorff's alpha,其结果大致相当于你要求同一个人在三个略有不同的提示词下对同一份作业评分三次,并计算这三次尝试之间的一致性。你会预料到高一致性,因为那是同一个人。你不会称其为“评分者间可靠性(Inter-rater reliability)”。你会称其为“评分者内部一致性(Intra-rater consistency)”。

你的集成系统正在将“家族内一致性”当作“评审间可靠性”来报告。看到 0.83 并认为“显著一致,发布吧”的审查者,实际上是在读取一个分母已被悄悄改变的指标。

解决方法不是使用更严格的标准。标准不是问题,家族才是。更严格的标准会使三位同一家族的评审达成一致的可能性略微降低,因为标准引入了更多的决策点,但驱动每个决策的底层先验仍然是共享的。你得到一个略低的数字,但衡量的依然是同样的东西。

解决方法是让采样真正起到采样的作用。Krippendorff's alpha 适用于衡量多个标注者之间的一致性,但只有当标注者是从你真正关心其一致性的群体中提取时,它才有意义。对于 LLM 评审集成,那个群体是“能够合理解评此项任务的模型”。完全从一个供应商家族中提取的样本并不能代表那个群体。

跨家族评审不是可选项,而是核心锚点

经验性文献明确指出,多样化的不完美评审优于相关联的完美评审。一个 2026 年的默认集成系统看起来应该是:一个来自 Anthropic,一个来自 OpenAI,还有一个来自 Google——三个家族、三个血统、三套训练数据先验。跨家族之间的成对分歧才是你一直想要衡量的信号。

这样做在 API 花费上大约是单个评审的三倍,而成本正是关键所在。由单一家族构成的三评审集成在每次评估时更便宜,但它产生的指标在结构上无法检测到与家族相关的错误。你在为冗余付费,但那是单一维度的冗余。跨家族集成则是为关键维度的冗余付费——即系统性偏差真正存在的维度。

预算此项支出的正确方法是将跨家族评审视为锚点,而将同家族评审视为减少方差的手段。至少使用一个与候选模型不同家族的评审,是实现独立性的最小可行方案。两个会更好。制定一项组合策略,禁止完全由单一家族组成的集成,并禁止在集成中让候选模型所属的家族占据多数地位,这是成本最低且可辩护的纪律。

如果团队的直觉是拒绝高成本,那么要向他们提出的问题是:评估分数究竟证明了什么?如果它证明的是“GPT-4 家族评审认为这个输出很好”,那么这就是你得到的指标,而它所支持的模型升级只是针对 GPT-4 家族偏好的升级。如果它被认为应该证明质量,那么采样范围必须足够广泛,才能衡量出真正的质量。

聚合方式的重要性超乎你的想象

在由三个模型组成的集成系统(Ensemble)中,多数投票(Majority vote)是最显而易见的聚合方式。当评委之间相互独立时,这也是正确的默认选择。但在使用三个同族评委时,多数投票几乎是无效操作——最终结果基本就是 GPT-4 的想法,正负一点几乎不会改变决策的评分标准微调。

在跨家族的集成系统中,聚合方式的选择变得至关重要。在三个家族的多数投票中,单个家族的意见可能会被否决。加权投票——权重来自各家族针对人类黄金标准集(Human gold set)的校准——更具合理性,但需要保持校准集的更新。一些团队采用了更严格的规则:只有当三个家族全部达成一致时,案例才被视为“通过”,任何分歧都会触发人工审核。

对于决定是否发布的评估工作,严格一致性规则(Strict-agreement rule)是最具参考价值的变体。当 Claude 和 Gemini 达成一致,但 GPT-5.1 持不同意见时,这些案例恰恰说明了候选模型的家族内部偏好正与更广泛的群体偏好发生偏离。这是全 GPT 集成系统无法产生的信号。此外,提示词注入漏洞、事实性退化和风格过度拟合等问题往往也隐藏在这些信号中。

位置交换原则(Position-swap discipline)可以很好地与跨家族集成相结合。运行 A-后-B 和 B-后-A 的排序,只有当两种排序结论一致时才计入结果,并跨家族进行聚合。这种做法比任何单一修复方案都能更有效地捕捉位置偏见,并能发现同族集成系统根本无法察觉的家族特有位置偏好。

与人类进行校准同样不可或缺

评委间的一致性并不等同于评审质量。两位评委可能达成完美一致,但都是错的。来自同一家族的三位评委可能达成 91% 的一致性,而实际上他们都在过度拔高自己的同族模型。检测这一点的唯一方法是定期将集成系统与人工标注的样本进行锚定。

对于分类标签,在报告评委间一致性的同时,还应报告集成系统结论与人类黄金标准集之间的 Cohen's kappa 或 Krippendorff's alpha 指数。0.6 的“显著一致性”阈值适用于集成系统与人类的对比,而非评委间的对比。如果一个团队只报告 0.83 的评委间一致性而不报告集成系统与人类的一致性,那他们只是报告了较简单的数字,而让更难衡量的指标处于空白。

针对人工评审样本的各家族偏好(Per-family bias)是使评估具有可解释性的常设元数据。如果 GPT-5.1 在黄金标准集上对 GPT 家族输出的评分高出 12 分,那么这 12 分的偏好就是一个已知量,评估系统可以对其进行修正。如果你从未测量过它,你发布的升级其提升幅度就是一个关于未定性偏好的未知函数。在每次评估结果中都报告各家族偏好的团队,建立了一个能够区分“此候选模型更优秀”与“此候选模型与评委更相似”的系统。

组成政策是最廉价的约束手段

从架构角度来看,LLM 作为评委的集成系统就像是一场民意调查。如果一个团队在同一个家庭中调查三个受访者,他们衡量的是这个家庭的意见,而不是整个人群的意见。如果评估的置信度仅由家族内部一致性决定,那么这种评估只会发布该家族希望发布的升级。

弥补这一差距最廉价的约束手段是制定一份书面的组成政策(Composition policy)。该政策将供应商多样性视为任何用于发布决策的评委集成系统的核心属性。它禁止完全由单一家族构成的集成系统;它要求候选模型所属的家族在集成系统中处于少数地位;它 mandates(强制要求)在定期黄金标准集上同时报告评委间一致性和集成系统与人类的一致性,并将各家族偏好作为常设元数据进行报告。

编写这份政策不需要任何成本,而执行它每月仅需多花几千美元的推理费用。与发布三个针对错误分布进行度量的模型升级所带来的成本相比,这是评估流程所能购买的最廉价的保险。如果一个团队将其视为额外开销,那么他们终将在外部审计中发现,评估只是一面镜子——它反映的不是候选模型的质量,而是评委家族的偏好。

那 91% 的一致性是真实的,但那并不是关于质量的一致性。那是关于熟悉度的一致性。而如果评估得分想要达到发布委员会预期的意义,熟悉度正是评委集成系统最需要看透的属性。

References:Let's stay in touch and Follow me for more thoughts and updates