跳到主要内容

当 LLM 评审 LLM 时,错误被“洗白”而非被捕获

· 阅读需 11 分钟
Tian Pan
Software Engineer

追踪单个质量信号在现代 AI 流水线中的路径。一个智能体(Agent)起草回复。第二个模型对其进行评审,打出 9 分(满分 10 分)。该评分被记录下来。在季度末,这些记录的评分成为新的评估集(eval set),而下一个模型则针对该评估集进行微调以获得高分。现在问一个显而易见的问题:在这一闭环中,人类在哪一个环节审视过实际输出?

在许多流水线中,诚实的回答是:无处寻觅。执行工作的智能体由另一个智能体评审,而该评审者的结论又会作为下一轮评估的输入。这个回路是封闭的。它持续运行,生成仪表盘,而仪表盘显示一片绿色(一切正常)。然而,它在任何阶段都不包含对现实情况的衡量。

这并非假设的风险。它是快节奏 AI 团队运作半年后的默认状态。没有人决定剔除人类;只是人类参与抽样的频率越来越低,直到抽样率降至零且无人察觉。流水线一直在输出数字,因此它看起来从未“损坏”。这就是陷阱。一个“AI 评审 AI”的封闭回路不会大张旗鼓地宣告失败。它的失败在于悄无声息地与原本要衡量的事物脱节,同时继续报告一切安好。

没有锚点的回路只衡量其自身

每个测量系统都需要一个固定的参考。天平需要校准砝码。时钟需要时间标准。评估流水线需要地面真值(ground truth)—— 即来自被评判系统外部的一组判断。一旦参考点本身是由同一回路中的模型生成的,你就不再拥有测量,而是拥有一个报告其自身内部一致性的系统。

内部一致性的达成成本很低,而且几乎无法说明任何问题。要求同一家族的两个模型达成一致,它们就会达成一致。它们是在重合的数据上训练的,共享架构先验,并以相关的方式出错。当评审者说执行者的输出很好时,这句话并不意味着“这个输出是正确的”。它意味着“这个输出是一个像我这样的模型会产生的东西”。这是截然不同的两种说法,而仪表盘将它们合并成了一个数字。

当评审者的评分被回收作为训练或评估数据时,结构性问题会进一步加剧。关于利用模型生成内容训练模型的研究描述了 模型崩溃 (model collapse):在没有真实数据锚定的情况下,递归循环会导致模型遗忘分布的尾部,并向其自身对现实的投影漂移。这种动态同样适用于评估回路,而不仅仅是训练回路。从模型裁判过去的判决中汇编的评估集继承了该裁判的盲点,然后以此为标准对下一个模型进行认证。测试套件不再描述世界,而是开始描述那个裁判。

达成一致并非证据

这里最诱人的错误是将模型间的一致性视为验证。这看起来很严谨:两个独立的系统审视了输出并都予以批准。显然,二胜于一。

事实并非如此,因为两者并不独立。最近关于 模型间共识 (inter-model consensus) 的研究对此直言不讳 —— 尽管架构和训练有所不同,大模型仍共享重合的训练数据,这导致了相关的错误,并 高估 了共识。模型之间是在强化彼此的误解,而不是提供独立的验证。当两个评审者都忽略了同一个错误时,它们的一致意见并非两次确认,而是一个盲点被计算了两次。

当模型评判来自同一家族的输出时,会出现更高阶的版本。关于 LLM 作为裁判时的自我偏好偏差 (self-preference bias in LLM-as-a-judge) 的研究发现,模型会系统性地给与其自身生成内容相似的文本打出更高分 —— 并将这一机制归因于困惑度(perplexity):裁判会奖励它们感到熟悉的输出(即低困惑度),而不论这些输出是否真的更好。与执行者来自同一家族的裁判并非中立的观察者。它偏好正是执行者最有可能产生的那些输出。

值得精确界定一致性衡量了什么,以及没有衡量什么:

  • 可靠性(Reliability) 是指一致性 —— 相同的输入产生相同的判断。一个由模型评审者组成的回路可以非常可靠。
  • 效度(Validity) 是指正确性 —— 判断与现实相符。可靠性并不能告诉你任何关于效度的信息。
  • 一个封闭回路会拼命优化前者,而让后者完全处于未观察状态。

更糟糕的是,从人类评估中引入的标准统计指标在这里会悄然失效。关于 LLM 与人类评分者之间评分者信度 (inter-rater reliability) 的研究指出,一致性指标是为独立且稳定的评分者设计的;而 LLM 裁判两者都不是 —— 它有自己的随机性和相关的偏差。两个模型评分者之间的高一致性分数可能意味着它们都正确、都向同一个方向犯错,或者都以同样的方式产生噪声。数字无法区分这些情况,因此不应将其视为置信度。

绿色流水线是如何“洗白”错误的

这就是闭环系统真正的危险之处,而不仅仅是薄弱:它们不仅无法捕捉错误,还会主动将错误转化为质量证明。

让我们步进式地看看这个“洗白”过程。工作模型产生了一个带有细微事实错误的输出。评审模型由于共享相同的训练数据,无法识别该错误——它存在同样的认知盲点。于是它给这个输出打了高分。该分数被写入日志。日志随后被汇总到质量指标中,而该指标又被用于构建下一个评估集。在人类看到任何内容之前,错误已经被转化了:它作为错误进入系统,作为 9/10 分的数据点退出系统,而团队现在将针对这些数据微调未来的模型以复现这一结果。

这一链条中没有任何不诚实的地方。每个环节都履行了职责。但累积的效果是,一个错误获得了一个清白的来源。它有了一连串的书面审批记录。任何稍后审计流水线的人都会看到一个高分以及背后记录在案的评审,没有理由怀疑它。错误没有被捕获,而是被“洗白”了。相比完全没有评审,这种洗白让错误变得更难被发现。

这就是为什么“我们增加了 AI 评审员”会使系统变得更不安全。未经评审的输出显然是未经核实的——每个人都会对其持怀疑态度。经过评审并批准的输出则带有机构信心。如果评审是由一个与工作模型共享盲点的模型执行的,你并没有增加安全检查。你只是增加了一个凭证,而坏的输出现在正带着这个凭证。

认知单一化是根本原因

这种潜在状况的技术名称是“认知单一化”(Cognitive Monoculture)。当工作模型和评审模型来自同一模型家族时,它们共享架构、训练语料库,因此也共享错误的“模式”。它们在相同的事情上表现强劲,在相同的事情上表现软弱。将两个这样的模型堆叠在一起并不会扩大覆盖范围,只会加深现有的惯性路径。

缓解方案是真实而非表面上的多样性。不同的模型家族,基于不同的数据、以不同的目标进行训练,会产生截然不同的错误分布。一个家族视而不见的地方,另一个家族通常能够察觉。这就是为什么在困难的推理任务中,异构评审集成(Heterogeneous review ensembles)的表现明显优于同家族集成——不同模型之间的分歧具有信息价值,而同类模型之间的一致性则不然。

但要注意天花板。跨家族评审扩大了覆盖范围,但它并没有创造锚点。三个模型家族如果都吸收了相同的抓取自互联网的数据,无论其架构多么不同,都会共享某些盲点。异构性为你带来了一个更好的闭环,但它无法带你走出闭环。为此,参考点必须来自系统中的所有模型之外——这意味着至少在某些时候,需要人类参与。

重新引入人工,但要明智地利用人力

解决办法不是放弃模型评审并人工阅读所有内容。模型评审员速度快、成本低且一致,在生产规模下,它们是唯一可以扩展的方案。解决办法是用抽样的、审慎的人工检查点来打破闭环——足以保持闭环的诚实,又不至于阻碍扩展。

关于如何分配稀缺的人力注意力,有几个原则:

  • 为校准而抽样,而非为覆盖率。 你不是试图评审所有内容。你是在尝试回答一个问题:模型评审员的判定是否仍与人类一致?成熟的团队正是为此目的对 5–10% 的流量进行人工评审。该样本的输出不是被捕获的 Bug 列表,而是模型裁判与人类之间的一致性比率,并随着时间的推移进行跟踪。

  • 将一致性比率视为真实的健康指标。 你的仪表盘不应以模型评审员的平均分作为首要指标。它应该首选在抽样集合中,该评审员与人类达成一致的频率。当这个数字下降时,你的评估就已经脱离了现实——无论分数看起来有多“绿”。

  • 分层抽样。 纯随机抽样会将大部分人力预算浪费在简单的、明显没问题的案例上。将人工评审集中在信息量最大的地方:低置信度的判定、高影响力的流程,以及模型评审员之间存在分歧的案例。模型之间的分歧是一个免费信号,指向那些值得人类花时间处理的输入。

  • 定期重新锚定评估集。 从模型生成的判定中生长出来的评估套件会发生衰退。定期将其中一部分替换为从当前生产流量中提取的、新鲜的人工标记案例。这是重新放回天平上的校准砝码。

  • 保持一个供应商在家族之外。 如果工作模型来自一个模型家族,那么自动评审模型应该来自另一个。这不能修复闭环,但它使闭环的盲点相关性降低,并为人工检查点之间赢得了缓冲时间。

值得铭记的心理模型:模型评审员是一种快速仪器,而每种仪器都会漂移。人工抽样不是为了做评审工作,而是为了重新校准仪器。你不会信任一个从未针对已知重量进行检查的秤,无论它的读数有多精确。AI 评审流水线理应受到同样的质疑。

你需要问你的流水线一个问题

闭环质量保证(Closed-loop quality assurance)之所以吸引人,是因为它看起来很严谨,而且几乎不需要任何成本。输出得到评审,分数被记录,仪表盘始终显示绿色,且无需人类参与。但一个没有外部参考的闭环并不是在衡量质量。它在衡量系统自身的一致性,并将其包装成一种信心。

因此,请对你拥有的任何 AI 评估流水线提出一个具体的问题:标准答案(Ground Truth)从何而来? 追根溯源。如果链条中的每一个环节——执行者、评审者、评估集、下一个模型——全部都是模型,且没有任何人类判断的介入,那么你那绿色的仪表盘并不是在告诉你系统运行良好。它只是在告诉你系统达成了内部一致。这是两个截然不同的事实,而其中只有一个事实值得你据此发布产品。

References:Let's stay in touch and Follow me for more thoughts and updates