跳到主要内容

合成训练数据质量崩溃:反馈循环如何摧毁你的微调模型

· 阅读需 12 分钟
Tian Pan
Software Engineer

你使用 GPT-4 生成了 50,000 个合成的指令遵循示例,在这些示例上微调了一个较小的模型并将其部署,结果看起来非常棒。六个月后,你的团队重复了这一过程——只不过这次为了节省成本,你使用微调后的模型来生成示例。第二个模型的评估结果略低,但在噪声范围内。你以同样的方式微调了下一个版本。到第四次迭代时,你的模型输出呈现出一种奇怪的同质化。用户反馈它听起来像机器人。它在处理任何不符合狭窄模板的内容时都显得很吃力。你最强大的微调模型已经变成了最糟糕的一个。

这就是模型崩溃(model collapse)——当大语言模型(LLM)使用其他 LLM 生成的数据进行训练时,会发生渐进式的、自我强化的退化。这并非理论上的风险。它是一种有据可查的故障模式,具有可衡量的机制,并且越来越有可能影响那些在没有仔细思考反馈动态的情况下就将合成数据生成常态化的团队。

什么是模型崩溃

模型崩溃在 2023 年的一篇论文中被正式定性,该论文后来于 2024 年发表在《Nature》杂志上,标题引人深思:“递归之咒:在生成数据上训练会让模型遗忘。”这一现象分为两个可观察的阶段。

早期崩溃阶段,模型会丢失来自真实数据分布尾部的信息。少数派观点、罕见词汇、边缘案例推理模式——所有这些都以极低的概率存在,当模型生成训练数据时,会对它们进行欠采样。在这些数据上训练的下一个模型会学到一个略微狭窄的分布。关键在于,这很难通过聚合指标检测出来。基准测试得分实际上可能看起来有所提高,因为模型对常见情况的行为变得更加自信,即便其覆盖范围在悄然缩小。

后期崩溃阶段,经过足够多的迭代,分布已经向内螺旋式缩减,与原始数据几乎没有相似之处。输出变得重复、风格同质化且脆弱。模型本质上过拟合到了其先前输出的平均值。

这种故障模式并非 LLM 所特有。它已在变分自编码器、高斯混合模型和扩散模型中得到了证实。这是递归概率学习的一种结构性属性——任何将其自身输出反馈回训练分布的系统,在经过足够多的迭代后都会表现出这种行为。

替换与累积的决策

模型崩溃文献中最重要的发现——也是大多数团队弄错的一点——是两种数据管理策略之间的区别。

替换(replace)模式下,每一代训练都会丢弃之前的数据,仅在最新生成的合成示例上进行训练。这是危险的默认做法。在替换条件下,即使是极小比例的合成数据污染也会导致崩溃。ICLR 2025 上发表的研究发现,在替换条件下,来自生成模型的训练样本低至千分之一即可引发崩溃。在某些插值阈值以下,更大的模型实际上会放大这种效应——扩大规模并不能拯救你。

累积(accumulate)模式下,每一代都会保留所有先前的数据,并在其基础上添加新的合成示例。斯坦福大学 SALT 实验室 2024 年的一篇论文在数学上证明了,在累积模式下,无论运行多少代,测试误差都有一个有限的上界——不会发生崩溃。问题在于,这需要你的数据集不断增长,而这成本很高。那些在固定数据预算下进行重新训练的团队,几乎不可避免地会在不知不觉中陷入替换模式。

运营上的启示是:永远不要丢弃真实的人类生成数据。每一次合成生成都必须与原始示例混合,而不是替换它们。这不仅是良好实践——它还是系统退化与否的分水岭。

偏差会放大,而非被抵消

一种常见的直觉是,合成数据会“平均掉”单个模型标注者的特质。研究表明事实恰恰相反:合成生成中的反馈循环会放大偏差,而不是平滑它们。

机制如下:如果你的基础模型 M₀ 略微过度代表了某些写作风格、推理模式或人口统计学视角,那么它生成的合成数据将反映这些偏差。在这些数据上训练的 M₁ 会继承并强化这些偏差。在替换条件下,到 M₃ 或 M₄ 时,分布已经偏离原始数据。模型并没有平均掉噪声——它递归地将自己的偏差压缩到了越来越窄的区域。

这会导致具体的故障模式:

风格同质化。 输出收敛于高概率的短语模式——特定的开头、偏好的过渡词、特征性的标点。用户会比你的评估指标更早察觉到这一点。

事实漂移。 在合成问答数据上微调的模型可能会产生自信的幻觉,然后又在这些幻觉上进行训练。有证据表明,在合成事实内容上进行微调最初可能会降低幻觉率,但在随后的几代中会导致幻觉率激增,因为模型学会了对自己的错误充满信心。

特定领域窄化。 在专业领域(医疗、法律、金融)中,边缘案例往往是正确性最关键的情况,而这恰恰是合成数据系统性丢失的情况。一个微调后的医疗助手可能看起来能很好地处理 95% 的查询,但它可能已经通过训练丢失了处理罕见但高风险情况的能力。

评估污染。 如果你使用 LLM 作为合成数据质量的评估者,并且该评估者的偏好反馈到你的训练信号中,你的模型将学会针对裁判的偏差进行优化。位置偏差、冗长偏好、裁判模型的风格偏好——所有这些都变成了你的模型在不知不觉中优化的训练目标。

网页污染问题已经出现

即使是认为自己在使用“真实数据”的团队也面临着日益严峻的问题。截至 2025 年初,大约 74% 的新发布网页包含可检测到的 AI 生成素材。到 2024 年底,超过一半的新英文文章主要是由 AI 编写的。分析师预测,到 2026 年,高达 90% 的在线内容可能是合成生成的。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates