合成偏好陷阱:AI 排序的 RLHF 如何让你的模型悄然漂移到“老师”的口吻中
第一个迹象几乎总是相同的:你的内部评估仪表盘显示一片绿色,奖励模型(reward-model)分数正在攀升,DPO 损失趋势向好——而一位 Zoom 会议上的客户耸耸肩说:“它现在听起来像 ChatGPT。”训练团队中没有人想听到这样的话。评估结果显示模型更好了。交付上一批偏好数据的标注员也说模型更好了。但用户告诉你的是真话,而仪表盘在撒谎。出问题的并不是某一个标签。出问题的是你的偏好数据不再属于你了。
这就是合成偏好陷阱。标注预算被压缩,有人提议使用一个更强大的模型来对第二个模型的补全结果进行排序,实验发布了,在一段时间内,这看起来像是一顿免费的午餐。学生模型在每一轮对话中都学着听起来更像老师,而且由于你的奖励模型是基于受老师影响的数据训练的,你的奖励模型会欣然表示同意。用户看到的产品读起来和任何其他基于相同前沿 API 构建的产品完全一样。你原以为通过微调买到的差异化,已经在不知不觉中被蒸馏掉了。
这个陷阱具有诱惑力,因为其中的每一个步骤都是站得住脚的。人类偏好数据缓慢、昂贵且充满噪点。合成偏好数据廉价、快速,而且——乍看之下——在你的评估中无法区分。最近的学术研究结果甚至显示,在标准基准测试中,基于纯合成偏好训练的 DPO 模型与基于人工策划标签训练的模型相比,性能差距不到一个百分点。如果你止步于此,合成数据大获全胜。问题在于,“基准测试上的一个百分点”和“产品上的一个百分点”并不是一回事,而两者之间的差距正是你的品牌声音(brand voice)所在。
为什么“老师”的影子会渗透出来
两种效应共同作用。第一个是大家熟悉的:蒸馏是有效的。当你使用更强大的模型生成偏好标签时,它对哪个补全结果更好的决策编码了它自己的偏好——它说话时留有余地的节奏、列清单的条件反射、习惯性地以复述问题作为回答开头,以及最后那句“希望这能有所帮助!”的口头禅。你根据这些标签训练的偏好模型会因为学生匹配了这些模式而给予奖励。经过足够多的梯度步骤,“匹配老师”成为了主导信号,因为老师的指纹在排序决策中无处不在。
第二种效应更为微妙,在最近的研究中有一个专门的名字:偏好泄漏(preference leakage)。当生成合成数据的模型和对其进行评判的模型属于同一家族——或者更糟,是同一个模型使用不同的提示词(prompts)——“胜率”指标就会受到它们共有的归纳偏置(inductive biases)的污染。你的学生生成回答,一个相关的评判者为其打分。评判者会给那些看起来像它自己写的输出打高分。你的内部仪表盘记录了一次胜利。你发布了更多同样的东西。重复这个循环几个微调周期,你就会得到一个并不是针对用户的需求进行优化,而是针对某个特定前沿模型家族所喜欢的风格进行优化的模型。漂移的方向并非随机。它直指老师。
RLHF 的算法层面——KL 正则化的奖励优化——使情况变得更糟。最近对偏好崩塌(preference collapse)的分析表明,标准的 RLHF 目标将权重推向少数高奖励模式,并侵蚀了分布中存在的少数偏好。如果你的偏好数据甚至带有一点点偏向“老师口味”输出的偏置,KL 正则化不仅不会纠正它,反而会放大它。模型不仅仅学会了“这更受青睐”。它学会了“这具有压倒性的优势,而其他选项的概率权重几乎为零”。这正是产品声音崩塌成通用声音的真实过程。
典型性偏置是第三个反派
即使有人类参与其中,动态过程也可能朝着同一个方向发展。标注员的研究显示出一种持续存在的典型性偏置(typicality bias):在两个质量大致相当的补全结果中,标注员会系统性地偏向于听起来更熟悉的那一个,因为认知上的熟悉感被误认为是正确性。一旦整个生态系统将某种特定风格的 AI 散文标准化——留有余地的、列表式的、听起来乐于助人的——任何偏离这种风格的新模型在人类和 AI 评判者的成对比较中都会得到较低的评分。在定性演示中听起来很棒的“清新声音”,在定量偏好收集中会被 系统性地降低排名。
这就是让这个陷阱如此稳固的原因。即使你发现了合成数据污染并切换回纯人类标签,你的标注员群体仍然是基于多年的 AI 输出进行校准的。感觉最稳妥的答案胜出。古怪且有主见的答案落败。无论如何,你的产品声音都会向均值漂移。合成偏好陷阱不是一次性的错误;它是训练生态系统已经就模型“应该”听起来像什么达成共识的世界中,一条阻力最小的路径。
诊断:如何在用户察觉之前发现漂移
标准的 RLHF 仪表盘 —— 奖励模型分数、与参考模型的 KL 散度、DPO 损失、相对于基准的胜率 —— 无法捕捉到这一点。这些指标都是内部的。你需要能将你的模型与外部世界进行比较的信号,特别是与你担心的正在趋同的目标模型进行比较。
在教师模型下的困惑度 (Perplexity under the teacher)。 从你的学生模型中抽取几百个回答。计算它们在怀疑的教师模型下以及在一个强大的、无关的参考模型下的困惑度。追踪微调轮次中的差距。如果教师模型的困惑度下降速度快于参考模型,那么你的学生模型正在以一种可衡量的方式变得越来越像教师模型。这是文献中比较清晰的蒸馏特征之一。
句法指纹漂移 (Syntactic fingerprint drift)。 为你的学生模型和教师模型计算词性 n-gram 或依赖模板分布。最近关于蒸馏取证的研究表明,高阶句法模式 —— 它们比表面词元(tokens)抽象得多 —— 携带了简单的词元级指标会遗漏的强烈教师信号。产品的风格改变不仅在于词汇,还在于句子形状。指纹距离是衡量风格保留情况的一种出奇耐用的方法。
新颖性衰退 (Novelty decay)。 对于一组固定的提示词,测量学生模型在训练检查点中输出的语义和词汇多样性。多样性指标 —— 如 distinct-n、self-BLEU、成对嵌入方差 —— 在 RLHF 训练轮次中通常会下降。快速的衰退曲线是众数崩溃(mode collapse)正在发生的可靠信号。缓慢衰退是你的目标;断崖式下跌则是你的敌人。
针对纯人工留出集的盲测 (Blind A/B against a human-only holdout)。 维护一个小型的、受保护的偏好集,由团队中受信任的人员在没有 AI 辅助、没有合成候选结果、且与训练数据无重叠的情况下标注。在每一次微调中都将其完全排除在外。比较你的生产模型在这个留出集上的胜率与普通评估流程报告的胜率。如果“通过合成评判器”和“通过纯净人工集”之间的差距不断扩大,这就是落入陷阱的典型特征。一个数字在上升,另一个在停滞或下降。这种分歧就是 Bug。
用户感知的与前沿模型的相似度。 定期在结构化的定性访谈中询问真实用户,产品听起来是否像他们用过的其他任何 AI。如果答案从“它有独特的感觉”趋向于“它就像是用于我们工作流的 ChatGPT”,那么即便基准测试显示正常,产品的独特性也已经消失了。产品经理通常比训练团队更早听到这种反馈。为该信号建立一个反馈渠道。
混合纪律:大规模下唯一有效的防御手段
你无法禁止合成偏好数据。成本计算不准许你禁止它。你能做的是实施混合纪律,将合成数据视为它的本来面目:廉价、有偏见,且仅在有限范围内有用。
按能力领域而非数据集设置上限。 “整体合成比例最高 75%”的统一规则更容易执行,但会掩盖损害。风格密集型的能力 —— 如模仿用户口吻写作、创意或说服性文本、面向客户的对话 —— 的合成比例应远低于代码解释或事实性问答等风格中性的能力。对于你的产品在听感上具有差异化的领域,要严格限制合成数据的预算。对于答案空间狭窄且正确性占主导地位的领域,合成数据几乎是免费的。
绝不让合成生成器和合成评测器来自同一家族。 如果你使用教师 A 来生成候选对,请使用一个无关的模型(或人工小组)来对它们进行排名,反之亦然。将生成器与评测器解耦是防御偏好泄漏最有效的结构化手段。当生成器和评测器达成一致时,是因为两者共享彼此的偏见,而不是因为首选输出真的更好。
保留神圣的人工骨干。 每一组训练混合物中都应包含一小部分但多样化的人工标注偏好,这些数据需定期更新并严格保护。将其视为你的校准锚点。类似 DeDPO 的研究发现,约 25% 的人工标签就能抵御 75% 的合成数据,这是一个有用的规划数字,但真正的重点在于方向性:只要人工标签确实不同于其余数据,少数纯净标签就能对模型的最终走向产生不成比例的影响。
在不同于策略模型的混合比例上训练奖励模型。 如果奖励模型拟合的是重度合成的数据,而策略模型又针对该奖励模型进行优化,那么你的漂移就会产生双重复合影响。为奖励模型 保留一个人工权重更高的混合比例 —— 即使以牺牲较小的奖励模型尺寸为代价 —— 也能产生更贴合你产品的信号。
监控合成比例在季度间的攀升。 失败模式很少是因为一次性决定使用 100% 的合成数据。它是一种悄无声息的漂移:一个实验达到了 60% 的合成比例,下一个实验因为更便宜而达到了 70%,再下一个因为前两个奏效而达到了 80%。应将该比例视为一种带有预算的受控资源,而不是一个随意的调节旋钮。
模型失败背后的组织失败
这个问题最深层的原因并非技术。这是一个从未被审计过的采购决策。一位数据负责人查看了人工管线上每个标注的成本,又对比了合成管线上的成本,然后选择了符合预算的那一个。在战略层面,没有人被问及“节省了 80% 的标注成本”是否值得以“我们的模型现在听起来和其他人的一模一样”为代价。标注条目是一个成本中心;产品调性则是一个模糊的无形资产。在大多数组织中,成本中心总是获胜的一方。
正确的视角是,合成偏好数据是从教师模型借来的一笔结构化贷款,而非中性输入。你为了廉价的标注而借用了教师模型的审美,且利息会不断复利。如果教师模型是竞争对手的基础模型,这笔贷款也是一种慢动作的同质化:每一次训练迭代都会让用户更难将你的产品与竞争对手 API 的薄壳包装区分开来。微调本应买到的是差异化,而标注成本的优化可能会在悄无声息中将其消耗殆尽。
更难的问题:你是否真的拥有值得保留的调性?
在投入资源抵御合成漂移(synthetic drift)之前,诚实地问这个问题是很有必要的。并非每个产品都有独特的调性,也不是每个产品都需要。一个税法查询工具不需要奇特的散文风格,它需要的是正确性。一个编程助手主要需要生成有效的代码,即便听起来像其他所有的编程助手也没关系。如果你的产品价值主要体现在明确任务的正确性上,那么合成偏好陷阱只是一个小担忧,成本计算可能确实倾向于高比例的合成数据。
但如果你的产品属于两个竞品可以同样正确却感受完全不同的类别——如消费级聊天、创意工具、写作助手、具有品牌个性的客户支持,以及任何建立在信任和默契之上的产品——调性就是产品本身。你用来训练的偏好数据,就是你的产品冷却成型时的模具。倒入看起来像教师模型的形状,产品出来的样子也会像教师模型。无论事后如何进行提示词工程(post-hoc prompting)、系统提示词设计或风格指南约束,都无法可靠地消除这种影响,因为提示词只影响采样,而训练则影响底层的流形(manifold)。
那些能长期保持调性的团队通常会同时做两件事。他们投资于一个持久的内部标注团队,这些标注员接受过产品特定审美的培训,因此人工信号不仅是“干净”的,而且主动承载着品牌特性。并且,他们在每次训练周期都会在能力层级审计合成比例,将这一比例视为一等公民式的产品决策,而非简单的基础设施选择。这两项举措都不便宜。这两项举措都不会直接体现在单一的训练看板上。但正是这两点,区分了一个听起来像你产品的模型,和一个听起来像你用来训练它的那个模型。
周一该做什么
如果你怀疑自己已经陷入了陷阱,在采取任何干预措施之前,先从测量开始。挑选五个具有代表性的提示词。分别从当前的生产模型和六个月前的检查点中提取 20 个采样结果,并对这两组结果运行上述诊断:在疑似教师模型下的困惑度(perplexity)、语法指纹距离、多样性指标,以及一个小型盲测人工小组(询问样本是来自相同模型还是不同模型)。如果当前模型与教师模型的聚集程度比预期的更高,且与其过去的自我距离更远,你就有了答案。
由此,有序的行动方案是:将你的合成生成器与合成评判器解耦;在能力层级限制合成比例,对调性密集领域实行最严格的预算;保护一个永不接触训练的人工评估保留集(human-only eval holdout);并将“合成对比纯净保留集”的胜率差距作为与奖励得分(reward score)同等地位的核心指标进行追踪。目标不是消除合成偏好数据,而是停止让它悄悄地重新定义“什么是被偏好的”,因为一旦它完成了定义,你的模型将朝着一个你并未选择且难以找回的目标进行优化。
- https://arxiv.org/abs/2502.01534
- https://arxiv.org/abs/2405.16455
- https://arxiv.org/abs/2405.14057
- https://arxiv.org/html/2502.06659
- https://arxiv.org/html/2310.06452v2
- https://arxiv.org/html/2510.01171
- https://rlhfbook.com/c/12-synthetic-data
- https://rlhfbook.com/c/11-preference-data
- https://openreview.net/forum?id=GrDEV4InKZ
- https://pds-dpo.github.io/
