跳到主要内容

不会崩溃的合成数据管道:大规模生成训练数据

· 阅读需 10 分钟
Tian Pan
Software Engineer

用模型自身的输出训练模型,再用该模型的输出训练下一个模型,三代之内你就构建了一台逐渐变笨的机器。这就是模型崩溃——一个退化过程,其中每一代合成训练数据都会缩窄分布,直到模型遗忘罕见但重要的长尾模式。Nature 上的一项里程碑式研究证实了从业者的经验观察:即使微小比例的合成数据污染(低至千分之一的样本)也会引发词汇、句法和语义多样性的可测量退化。

然而合成数据并非可选项。真实世界的标注数据昂贵且在专业领域稀缺,在前沿模型所需的规模下日益枯竭。2025-2026 年成功交付微调模型的团队并非在回避合成数据——他们正在设计管道架构以确保生成过程不会崩溃。一个高效管道与一个自我中毒管道之间的区别在于多样性保持、验证循环以及知道何时该停下来。

模型崩溃的实际运作机制

模型崩溃不是突然的失败,而是一种缓慢的侵蚀,很容易被忽视,直到你的模型开始产生可疑的一致性输出。

每个生成模型都在近似一个分布。当该模型为下一个模型生成训练数据时,近似误差会累积。高概率输出被强化,而低概率输出——"长尾"部分——逐渐被低估。经过几代之后,模型实际上已经忘记了罕见事件的存在。它产生流畅、自信但危险地狭隘的输出。

数学上的结论是严峻的:当每一代的合成数据替换原始真实数据时,测试误差随迭代次数单调递增。不存在平台期——它只会持续恶化。合成文本中的词汇量增长速度远低于人类文本的词汇量增长,无论使用哪个模型生成。你的合成数据乍看之下很多样,但这种多样性是浅层的。

这在生产环境中有三个具体影响:

  • 领域覆盖缺口。 一个用于医疗编码的微调模型如果发生崩溃,将能很好地处理常见诊断,但在罕见病症上产生幻觉——而这恰恰是你最需要它准确的地方。
  • 对抗性脆弱性。 研究表明,单源合成微调可能在保持输出质量的同时移除安全防护栏,对于在小型生成器的窄合成数据上微调的模型,36.3% 的越狱提示回应落入危险区域。
  • 静默退化。 因为模型的输出依然流畅且自信,标准质量指标可能无法捕捉到崩溃,直到下游任务性能显著下降。

累积策略:真实数据永不离场

近期模型崩溃研究中最重要的发现看似简单:将原始真实数据与每一代合成数据一起保留,崩溃就不会发生。

一项涵盖语言模型、扩散模型和变分自编码器的研究表明,将合成数据代次与原始真实数据累积在一起,可以产生测试误差的有限上界——与运行多少次迭代无关。真实数据充当锚点,持续将分布拉回基准真值,即使合成代次引入了近似误差。

这具有直接的实践意义:

  • 永远不要替换,始终增强。 你的管道必须将原始人工生成的数据集作为永久组成部分保留。合成数据被添加到训练混合中,而非替代其中的数据。
  • 追踪数据溯源。 训练管道中的每个样本都需要标签:人工撰写、人工编辑、合成(附带生成模型 ID)或未知。没有溯源追踪,你就无法执行混合比例或调试分布偏移。
  • 版本化你的合成代次。 当你用模型 A 生成数据,微调模型 B,然后用模型 B 生成更多数据时,你需要知道哪一代产生了哪些样本。这不仅仅是记录——这是受控增强与递归自我污染之间的区别。

多源生成优于单源生成

从多个模型而非单个模型生成合成数据可以显著改善结果。

单源生成——一个模型产生所有合成数据——产生的模型困惑度分布更窄,这是输出分布崩溃的直接指标。多源生成在响应内和响应间的词汇多样性指标上都保持了更高水平。

困惑度数据说明了一切:多源微调增加了合成输出的困惑度(小模型均值 1.38 vs. 基线 1.30),同时降低了人类文本的困惑度(6.88 vs. 8.33)。多源模型在建模真实人类语言方面变得更好,同时减少了对合成模式的过拟合。

实用的多源策略包括:

  • 跨系列生成。 使用来自不同训练谱系的模型(例如开源模型和商业 API),避免刻印单一模型系列的特有偏差。
  • 温度调度。 在不同批次中变化采样温度——低温用于事实精确的示例,高温用于多样化的措辞。不要对所有内容使用单一温度。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates