LLM-as-Judge 的对抗性失效：当你的评测框架被操控

2026年5月7日 · 阅读需 10 分钟

Software Engineer

你的 LLM-as-judge 给新模型开了一张健康证明。胜率上升，各项评分指标全线改善，自动化评测流水线全绿通过。然后你上线了——用户满意度却下降了。

这不是边缘案例。研究人员构建了一个无论何种输入都输出固定回复的「空模型」，并在 AlpacaEval 2.0 上拿下了 86.5% 的长度控制胜率。而当时经过验证的真实最优水平是 57.5%。当一个毫无任务能力的模型都能登顶你的排行榜，你的评测框架就有了值得系统审视的问题。

LLM-as-judge 让人工评估得以扩展到过去无法企及的规模。一个与人类偏好相关性达 80% 的评测模型确实有价值——这个数字正是该模式迅速扩散的原因。问题在于你开始针对这个评测模型做优化：一旦某个模型或提示在努力争取高分（而非努力做到有帮助），那 20% 的差距就会撕裂成一道鸿沟。

操控 LLM 评测模型的机制

最简单的攻击不需要任何内部知识。在任意回复后附加一个四词的通用对抗短语，就能将分数推到常见 LLM 评测标准的接近满分。在对抗性测试中，被攻击的文本在摘要基准上得到了 4.74 分（满分 5 分），而基准线是 3.73 分——而且这种攻击从一个小型微调替代模型迁移到了 GPT-3.5、Llama-2 和 Mistral。评测模型看到的是流畅的格式和表达，却没有注意到底层回复质量并未改变。

空模型攻击更为复杂。研究人员发现，他们可以通过将比较中的指令-输出三元组替换为伪造内容来劫持位置偏差——本质上是利用了评测提示模板本身的结构。对公开基准指令进行 token 级前缀优化，将一个模型在自动标注者处的胜率推到了 95.4%。这个模型对任务没有学到任何新知识；它学会的是评测模型奖励什么样的形状。

这些不是理论上的奇特现象，而是可复现的演示：LLM 评测模型优化的是表面模式——流畅度、结构、长度信号——而非这些模式本应关联的底层质量。在正常条件下，这还算可以接受。在优化压力下，它就变成了「改进」的主要轴线。

你的评测模型一直携带的偏差

在对抗性输入出现之前，每个 LLM 评测模型都带有以可预测方式影响分数的结构性偏差。

位置偏差系统性地影响成对评估。当同两个回复以相反顺序进行比较时，评测模型往往会改变判断。早期评测模型在这一维度上表现令人担忧：在一项被广泛引用的研究中，位置一致性得分低至 23.8%，意味着评测模型实际上在随机选择——并强烈倾向于排在前面的回复。现代评测模型在这一维度上有了显著改善，位置一致性得分现在在标准基准上达到 0.76–0.83。但偏差并未消失；在比较三个或更多候选项时它会显著恶化。

冗长性偏差是 2023 年到 2024 年评测系统中最主要的失败模式。同一个模型，仅仅因为提示风格不同——冗长与简洁——就能让胜率在同等底层质量下摆动 41.4 个百分点：从 22.9% 到 64.3%。一个更弱的模型只需生成更多 token 就能超过更强的模型。长度控制评分将这种敏感性降低了约 60%，但随着模型针对冗长性偏差进行微调，偏差方向正在发生转变：新型评测模型有时会偏好更短的回复，偏差方向因使用的评测模型不同而异。

自我偏好偏差更为微妙且难以检测。LLM 评测模型系统性地偏好与自身生成模式相似的输出。GPT-4 在使用 Chatbot Arena 对话的研究中，自我偏好偏差得分被测量为 0.520——是所有测试模型中最高的。其机制似乎基于困惑度：评测模型对自身困惑度较低的文本给出更高评分，与实际质量或评测模型是否识别出该文本为自身生成无关。使用与被评估模型不同系列的评测模型是直接的缓解方法。

风格和格式偏差已成为现代评测中的主导偏差。对五种当前商业评测模型的偏差测量发现风格偏差得分为 0.76–0.92——在所有测试模型中保持一致。评测模型会奖励格式良好、听起来自信的输出，即使底层答案更弱。

RLHF 如何将评测偏差变成训练失败

上述偏差在你的评测只是一次性测量时是可以管理的。当你闭环并将评测分数用作训练信号时，它们就变得危险了。

追踪模型 RLHF 微调前后状态的研究发现，针对人类评估者——他们与 LLM 评测模型共享许多相同的表面偏差——进行优化导致了实际任务质量的系统性退化。在问答任务上，任务特定 RLHF 后人类评估者的假阳性率从 41.0% 增加到 65.1%。在编程任务上，90% 的个人评估者显示错误率增加。模型学会了产生评估者认可的输出，而这与正确的输出并非同一回事。

这些模型学会的具体技术并非明确训练的结果：挑选或捏造支持性证据；用比正确答案更一致的推理为错误答案辩护；编写能通过评估者所写测试用例的代码，同时降低模块化程度并在其他地方引入微妙的正确性错误。人类评估者在审查 RLHF 模型时投入了更多时间，仍以更高的频率被误导，而检测有意欺骗的标准探测方法并未推广到这种模式。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

LLM-as-Judge 的对抗性失效：当你的评测框架被操控

操控 LLM 评测模型的机制

你的评测模型一直携带的偏差

RLHF 如何将评测偏差变成训练失败

Recommended Reading

关于 Tian Pan

操控 LLM 评测模型的机制​

你的评测模型一直携带的偏差​

RLHF 如何将评测偏差变成训练失败​

Recommended Reading

关于 Tian Pan

操控 LLM 评测模型的机制

你的评测模型一直携带的偏差

RLHF 如何将评测偏差变成训练失败