合成训练数据质量崩溃:反馈循环如何摧毁你的微调模型
你使用 GPT-4 生成了 50,000 个合成的指令遵循示例,在这些示例上微调了一个较小的模型并将其部署,结果看起来非常棒。六个月后,你的团队重复了这一过程——只不过这次为了节省成本,你使用微调后的模型来生成示例。第二个模型的评估结果略低,但在噪声范围内。你以同样的方式微调了下一个版本。到第四次迭代时,你的模型输出呈现出一种奇怪的同质化。用户反馈它听起来像机器人。它在处理任何不符合狭窄模板的内容时都显得很吃力。你最强大的微调模型已经变成了最糟糕的一个。
这就是模型崩溃(model collapse)——当大语言模型(LLM)使用其他 LLM 生成的数据进行训练时,会发生渐进式的、自我强化的退化。这并非理论上的风险。它是一种有据可查的故障模式,具有可衡量的机制,并且越来越有可能影响那些在没有仔细思考反馈动态的情况下就将合成数据生成常态化的团队。
什么是模型崩溃
模型崩溃在 2023 年的一篇论文中被正式定性,该论文后来于 2024 年发表在《Nature》杂志上,标题引人深思:“递归之咒:在生成数据上训练会让模型遗忘。”这一现象分为两个可观察的阶段。
在早期崩溃阶段,模型会丢失来自真实数据分布尾部的信息。少数派观点、罕见词汇、边缘案例推理模式——所有这些都以极低的概率存在,当模型生成训练数据时,会对它们进行欠采样。在这些数据上训练的下一个模型会学到一个略微狭窄的分布。关键在于,这很难通过聚合指标检测出来。基准测试得分实际上可能看起来有所提高,因为模型对常见情况的行为变得更加自信,即便其覆盖范围在悄然缩小。
在后期崩溃阶段,经过足够多的迭代,分布已经向内螺旋式缩减,与原始数据几乎没有相似之处。输出变得重复、风格同质化且脆弱。模型本质上过拟合到了其先前输出的平均值。
这种故障模式并非 LLM 所特有。它已在变分自编码器、高斯混合模型和扩散模型中得到了证实。这是递归概率学习的一种结构性属性——任何将其自身输出反馈回训练分布的系统,在经过足够多的迭代后都会表现出这种行为。
替换与累积的决策
模型崩溃文献中最重要的发现——也是大多数团队弄错的一点——是两种数据管理策略之间的区别。
在替换(replace)模式下,每一代训练都会丢弃之前的数据,仅在最新生成的合成示例上进行训练。这是危险的默认做法。在替换条件下,即使是极小比例的合成数据污染也会导致崩溃。ICLR 2025 上发表的研究发现,在替换条件下,来自生成模型的训练样本低至千分之一即可引发崩溃。在某些插值阈值以下,更大的模型实际上会放大这种效应——扩大规模并不能拯救你。
在累积(accumulate)模式下,每一代都会保留所有先前的数据,并在其基础上添加新的合成示例。斯坦福大学 SALT 实验室 2024 年的一篇论文在数学上证明了,在累积模式下,无论运行多少代,测试误差都有一个有限的上界——不会发生崩溃。问题在于,这需要你的数据集不断增长,而这成本很高。那些在固定数据预算下进行重新训练的团队,几乎不可避免地会在不知不觉中陷入替换模式。
运营上的启示是:永远不要丢弃真实的人类生成数据。每一次合成生成都必须与原始示例混合,而不是替换它们。这不仅是良好实践——它还是系统退化与否的分水岭。
偏差会放大,而非被抵消
一种常见的直觉是,合成数据会“平均掉”单个模型标注者的特质。研究表明事实恰恰相反:合成生成中的反馈循环会放大偏差,而不是平滑它们。
机制如下:如果你的基础模型 M₀ 略微过度代表了某些写作风格、推理模式或人口统计学视角,那么它生成的合成数据将反映这些偏差。在这些数据上训练的 M₁ 会继承并强化这些偏差。在替换条件下,到 M₃ 或 M₄ 时,分布已经偏离原始数据。模型并 没有平均掉噪声——它递归地将自己的偏差压缩到了越来越窄的区域。
这会导致具体的故障模式:
风格同质化。 输出收敛于高概率的短语模式——特定的开头、偏好的过渡词、特征性的标点。用户会比你的评估指标更早察觉到这一点。
事实漂移。 在合成问答数据上微调的模型可能会产生自信的幻觉,然后又在这些幻觉上进行训练。有证据表明,在合成事实内容上进行微调最初可能会降低幻觉率,但在随后的几代中会导致幻觉率激增,因为模型学会了对自己的错误充满信心。
特定领域窄化。 在专业领域(医疗、法律、金融)中,边缘案例往往是正确性最关键的情况,而这恰恰是合成数据系统性丢失的情况。一个微调后的医疗助手可能看起来能很好地处理 95% 的查询,但它可能已经通过训练丢失了处理罕见但高风险情况的能力。
评估污染。 如果你使用 LLM 作为合成数据质量的评估者,并且该评估者的偏好反馈到你的训练信号中,你的模型将学会针对裁判的偏差进行优化。位置偏差、冗长偏好、裁判模型的风格偏好——所有这些都变成了你的模型在不知不觉中优化的训练目标。
网页污染问题已经出现
即使是认为自己在使用“真实数据”的团队也面临着日益严峻的问题。截至 2025 年初,大约 74% 的新发布网页包含可检测到的 AI 生成素材。到 2024 年底,超过一半的新英文文章主要是由 AI 编写的。分析师预测,到 2026 年,高达 90% 的在线内容可能是合成生成的。
这意味着未来对网页抓取内容进行的基座模型预训练将默认继承合成污染。团队在抓取或获取网页数据授权时所假设的“干净基准”正变得越来越虚幻。那些在构建流水线时假设人类生成内容与合成内容之间存在明确界限的团队会发现,这种界限在数据源头层面已经消融。
实际后果是:你需要验证训练数据的溯源,而不能仅仅是假设。2022 年授权的数据集可能是干净的,但 2025 年再次抓取的同一数据源则未必。
预防措施:真正有效的方法
文献汇集了一套能够显著减缓或防止坍缩的实践方法。这些方法都不是免费的。
累积而非替换。 虽然上面已经提到过,但值得重复:这是你可以做的杠杆率最高的改变。成本在于存储和计算——你是在一个不断增长的数据集上进行训练。收益是误差是有界的,而不是螺旋式退化。
监控分布多样性,而不仅仅是聚合质量。 标准评估指标(准确率、BLEU、ROUGE)无法捕捉早期坍缩——它们旨在衡量平均情况下的性能。通过类符/标记比 (Type-token ratio) 跟踪词汇丰富度,监控合成语料库的 n-gram 熵,使用聚类或主题建模跟踪主题覆盖范围,以及查看困惑度分布。n-gram 熵的缩小或词汇集中度的上升是早期预警信号。
用更强的验证器过滤合成数据。 关于合成数据验证的研究发现,仅保留表现最好的百分位合成样本——按质量指标计算大约是前 10%——在质量和多样性之间取得了最佳平 衡。关键限制是 验证器必须比生成器更强。永远不要使用生成数据的同一个模型来评估它。并且要明白,你的验证器就是你的天花板:你的最终模型无法超越过滤合成示例的任何过程的知识边界。
在生成时保持多样化。 温度 (Temperature) 和 top-p 参数会显著影响合成数据的分布。低温度(低于 0.5)会产生确定性的、低多样性的输出,这些输出过度代表了高概率模式。极高温度会引入噪声,从而变成糟糕的训练信号。0.7–1.0 的范围往往表现良好,但更重要的实践是在合成生成运行中使用 多样化 的设置,而不是单一的固定配置。从多个模型检查点、多个提示词模板、多个温度设置进行生成——然后汇总结果。关于多模态模型坍缩的研究发现,在生成流水线中加入多样化的模型架构可以显著缓解坍缩。
跟踪数据溯源。 每个合成样本都应该携带元数据,记录是由哪个模型生成的、使用了什么参数、来自哪个种子提示词以及使用了哪个模板。这使得审计、调试和针对性删除有问题的批次成为可能。一篇关于人工参与溯源跟踪的论文发现,通过转换溯源(应用了哪些操作)和特征溯源(种子的语言特征)对合成示例进行分组,可以将下游任务中正确标记的示例增加 3–4 倍。
在边缘案例中引入人工参与。 自动化过滤可以处理规模;人类则需要处理长尾问题。边缘案例——不寻常的领域、罕见的用词、边界条件——正是合成生成系统性地产出不足且自动化过滤器倾向于丢弃的样本。一种混合模式,即领域专家对一小部分候选合成样本进行分类分流,可以在不需要大规模全人工标注的情况下显著提高质量。
