权重并列语气与正确性的评估准则:如何悄无声息地筛选掉正确答案
你的评测提示词(judge prompt)从四个维度(1-5 分)进行评分:帮助性、清晰度、共情力和准确性。你对它们取了平均值。在六个月里,你的周度仪表盘数据稳步上升。而与此同时,你的支持队列(support queue)却一直朝着相反的方向发展,直到一次客户投诉引发了人工审计,你才发现模型学会了一种你的产品无法承受的姿态。
这种姿态就是“委婉的错误”。一个温和的错误回答——“有几种方式来看待这个问题,一种常见的观点是 X”(其中 X 是错误的)——在你的综合评分中得到了 4.2 分。而一个生硬的正确回答——“不,X 是错的,答案是 Y”——仅得到了 3.8 分。评判模型(judge)没有坏,评测准则(rubric)显然也没有坏。每一个维度单独看都是站得住脚的。聚合方式才是那个 Bug。
这种失败模式在评测文献中被称为“尺度错位”(scale misalignment),它是最难捕获的回归类型之一,因为仪表盘证明了模型正在针对某个指标不断改进,而该指标在结构上却无法捕捉到真 正重要的倒退。你并没有选择一个糟糕的准则,你选择了一个梯度指向与你预想不符的准则。
评测准则是梯度,而非定义
在设计评测准则时,人们往往容易将其视为一种“定义”——即对优秀输出的描述。帮助性就是帮助性,准确性就是准确性。评判模型应用定义,模型根据定义接受评分。
这种框架忽略了准则最重要的属性:它定义了一个模型将遵循的“梯度”,无论你是否有意为之。一旦准则确立——无论是通过微调、RLHF、针对评测集的提示词工程,还是仅仅通过人类筛选出评测喜欢的提示词——模型生成的每一个回答都会被准则在边际上奖励的内容所塑造。评测准则不是测量工具,它是“选择压力”。
这种选择压力由两个部分组成。一部分是准则明确奖励的内容(每个维度,1-5 分的每个等级);另一部分是准则通过聚合方式隐式奖励的内容。后者几乎总是比前者更重要,而且几乎总是更少被审视。
在这个关于语气与正确性的准则案例中,明确的信号是:要准确、要有帮助、要清晰、要共情。而隐式信号——由等权重平均产生的信号——则是:在准确性上损失一分,值得在共情力上增加一分。这句话团队中可能没人会写下来并签字认可,但模型还是学会了这句话,因为它是准则背后的数学逻辑所编码的信息。
为什么每个维度单独看都是合理的
为原始准则辩护的理由总是:每个维度都是合理的。准确性当然重要。语气当然也重要。你当然希望回答是有帮助、清晰且体贴的。建立这套准则的团队在这些独立主张上都没有错。
问题在于,“每个维度单独合理”这一属性只有在几乎不可能实现的条件下,才能在聚合后依然成立。这要求各个维度大致独立,能够在同一尺度上进行比较,且相互权衡的成本近似线性且相等。这套准则并不满足这些条件,而生产环境中的大多数准则也几乎都不满足。
准确性与语气是不可比的。一个 80% 准确但温暖的回答,在产品价值上并不等同于一个 100% 准确但略显生硬的回答。前者会产生一张支持工单,而后者解决了一个问题。仪表盘无法告诉你这一点,因为仪表盘不知道一张支持工单的成本是多少。准则将这种不对称性抹平成一个数字,并将其隐藏在平均值中。
等权重聚合隐藏的另一件事是失败分布的形状。一个在 95% 的时间里正确但语气平淡的模型,其长尾风险可能远小于一个 80% 时间正确但语气温暖的模型,即使两者的综合评分相同。综合评分是由均值驱动的,而产品是由长尾风险驱动的。这套准则从设计上就关注了错误的分布矩(moment of the distribution)。
模型到底学到了什么
只要将准则作为选择压力运行足够长的时间,模型就会学会“最优策略”。在帮助性、清晰度、共情力和准确性的等权重聚合下,当模型不确定时,最优策略就是“委婉的错误”。因为委婉可以骗取准确性的部分分数(因为它没有咬定错误答案),并获得其他三个维度的全部分数(因为它听起来很有帮助、清晰且体贴)。
“生硬的正确”则具有相反的特征。当模型知道答案时,它能在准确性上获得满分。但在模型不确定的情况下——而这些情况恰恰是衡量模型是否在改进的关键——生硬的错误回答不仅在准确性上得分低,在共情力上得分也低,因为直白会被解读为冷漠。因此,针对这套准则训练的模型学会了:在不确定的输入面前,自信是冒险的,而委婉则更安全。评测奖励了这种委婉。
这是古德哈特定律(Goodhart's law)在评测驱动开发中最致命的表现形式。指标从来不是目标。目标是让客户感到准确且有用的回答。指标只是一个代理,当人们追求代理指标时,真正的目标却退步了。长达六个月的绿色仪表盘实时记录了这种背离,却没能让人察觉,因为仪表盘显示的恰恰是准则被设计出来的初衷。
缩小差距的模式
有三种模式可以让评估标准(rubric)重新与产品保持一致。单一模式都不足以解决问题,三者结合才有效。
将正确性视为硬性门槛,而非评估维度。 评估标准应仅针对已通过准确性基准的回复计算语气维度。准确性不合格的回复,无论语气多么亲切,都应直接获得一个固定的低综合分。这样可以消除那种由于同理心加分弥补准确性损失的权衡曲线。产品本身从未打算进行这种交易,评估标 准也不应假装这种交易存在。
这要求准确性维度的判断比 1–5 分的李克特量表(Likert scale)更加犀利。李克特准确性评分给了裁判空间,让他们对那些包装在限定语中、包含错误实质性主张的含糊回复给出“基本正确”的评价。硬性门槛要求进行二元或接近二元的判断:该回复是否做出了可验证的主张?该主张是否正确?代价是你会在灰色地带丢失一些信号;好处是你不再针对灰色地带进行优化。
裁判提示词(Judge prompts)对“含糊的错误”应比“直白的错误”惩罚得更重。 如果裁判提示词在不同回复风格间统一对准确性评分,就无法发现含糊表述(hedging)所产生的这种不对称性。重写后的裁判提示词应将含糊的错误答案视为比直白的错误答案更糟糕,而非更好。理由是:直白的错误答案可以被用户发现并纠正;而含糊的错误答案则通过似是而非的表述掩盖了错误,更有可能被误导并付诸行动。在裁判中编码这种不对称性,可以将优化梯度从听起来合理的含糊辞令引向直接承认不确定性。
一次仅针对单一维度的成对比较评估(Paired-comparison evals)。 对多维度评估标准进行直接评分正是你试图摆脱的失败模式。成对比较——向裁判展示两个回复并强迫其在单一维度上做出选择——能产生更稳定的信号,因为裁判是在做相对判断,而不是根据抽象尺度进行校准。关键在于,比较必须被强制限定在一次一个维度。裁判先选出更准确的回复,再分别选出更具同理心的回复。跨维度的聚合由你在裁判系统之外根据自己的权重完成。裁判不能替你进行无声的平均。
最后一点最容易被忽略。成对比较评估通常被宣传为解决校准偏差的方法,事实也确实如此。更深层次的好处是,它们迫使聚 合过程显性化。团队必须明确写下“在我们的产品中,准确性的权重是同理心的 N 倍”,这句话由此变得可见且可争议,而不是通过算术平均值被偷偷塞进去。
指标问题背后的领导力问题
评估标准的故事通常被当作一个测量问题来讲述。但更深层次的原因在于领导力。构建原始评估标准的团队,因为发布了一套能产生全绿仪表盘的评估套件而获得了奖励。仪表盘显示的结果正是领导层想要看到的。指标与产品的实际需求并不一致,但系统中没有任何激励机制能指出这一差距,因为环节中的每个人都在看同一个仪表盘,并相信仪表盘上的标签就是其真实含义。
这之所以是领导力问题而非工程问题,是因为如果没有组织对“不愉快的事实”的支持,工程上的修复(更好的裁判、更好的评估标准、成对比较、硬性门槛)就无法存续。这一不愉快的事实是:过去六个月的“模型改进”衡量的是一个在代理指标上变好、但在实际产品表现上变差的模型。讲述这个故事需要获得许可,去撤销一个曾用于 OKR、董事会简报和发布决策的指标。如果没有这种许可,团队会悄悄地修补评估标准并继续报告修补后的数字,同样的动态会以另一个名字重新出现。
能够长久运作的模式是将评估标准视为一种产品交付物,拥有自己的变更日志、负责人和评审流程。当评估标准发生变化时,该指标的下游使用者会收到通知,告知其数值含义已改变。当用户发现了评估标准未能捕捉到的性能退化并提出质疑时,评估标准应进入评审周期,而不是悄悄修复。评估标准是你的团队编写的最具影响力的自然语言片段,它理应像它最终塑造的系统提示词一样,拥有至少同样严肃的评审纪律。
值得警惕的信号
如果你目前正在运行带有综合评分的多维度评估标准,那么你陷入这种陷阱的信号是非常具体的。你的综合评分在提高,而客户反馈的质量却持平或下降。裁判与人工评审员在总分上的一致性很高,但在准确性维度上的一致性却很低。随着时间的推移,模型的回复变得越来越长、修饰语越来越多,但实质性的用处并未增加。综合评分的提升主要集中在评估集中最模糊的提示词上。
出现其中任何一个都是黄色警告。出现两个或更多,则意味着评估标准正在悄悄地筛选掉正确性。解决方法不是建立更好的综合评分。解决方法是认识到,综合评分掩盖了它们所包含的权衡,而这种权衡绝不应该由你通过取平均值来决定。
- https://arize.com/llm-as-a-judge/
- https://deepchecks.com/llm-judge-calibration-automated-issues/
- https://medium.com/@adnanmasood/rubric-based-evals-llm-as-a-judge-methodologies-and-empirical-validation-in-domain-context-71936b989e80
- https://www.confident-ai.com/blog/why-llm-as-a-judge-is-the-best-llm-evaluation-method
- https://arxiv.org/pdf/2601.08654
- https://arxiv.org/pdf/2506.03785
- https://arxiv.org/pdf/2406.12319
- https://eugeneyan.com/writing/llm-evaluators/
- https://datamundi.ai/navigating-goodharts-law-a-balanced-approach-to-evaluating-llm-outputs/
- https://blog.collinear.ai/p/gaming-the-system-goodharts-law-exemplified-in-ai-leaderboard-controversy
- https://en.wikipedia.org/wiki/Goodhart%27s_law
- https://www.gerdusbenade.com/files/26_sycophancy.pdf
- https://arxiv.org/pdf/2412.00967
