跳到主要内容

2 篇博文 含有标签「llm-training」

查看所有标签

你的合成训练数据正在向均值坍缩

· 阅读需 9 分钟
Tian Pan
Software Engineer

你需要更多的训练数据,于是你生成了它们。模型编写了几千个例子来填补数据集中的空白——边缘案例、代表性不足的意图,以及你真实日志从未涵盖的长尾数据。你抽检了一个样本。每个例子看起来都不错:语法正确、符合主题、标签准确。你将这一批数据加入到微调集中,然后继续工作。

三轮迭代之后,你的模型在那些你特意生成数据来覆盖的案例上表现反而变差了。并不是灾难性的变差——只是悄无声息地、均匀地变得平庸。以前偶尔能奏效的稀有意图现在完全失效了。用户实际输入的措辞被误读。而你的质量检查中没有任何一项发现异常,因为你生成的每一个独立案例确实都很正常。

失败不在于任何单个案例,而在于分布。合成数据在没有现实锚点的情况下被生成和反复生成,会向均值收缩——而长尾部分,即你求助于合成数据的根本原因,是首先消失的部分。

合成偏好陷阱:AI 排序的 RLHF 如何让你的模型悄然漂移到“老师”的口吻中

· 阅读需 15 分钟
Tian Pan
Software Engineer

第一个迹象几乎总是相同的:你的内部评估仪表盘显示一片绿色,奖励模型(reward-model)分数正在攀升,DPO 损失趋势向好——而一位 Zoom 会议上的客户耸耸肩说:“它现在听起来像 ChatGPT。”训练团队中没有人想听到这样的话。评估结果显示模型更好了。交付上一批偏好数据的标注员也说模型更好了。但用户告诉你的是真话,而仪表盘在撒谎。出问题的并不是某一个标签。出问题的是你的偏好数据不再属于你了。

这就是合成偏好陷阱。标注预算被压缩,有人提议使用一个更强大的模型来对第二个模型的补全结果进行排序,实验发布了,在一段时间内,这看起来像是一顿免费的午餐。学生模型在每一轮对话中都学着听起来更像老师,而且由于你的奖励模型是基于受老师影响的数据训练的,你的奖励模型会欣然表示同意。用户看到的产品读起来和任何其他基于相同前沿 API 构建的产品完全一样。你原以为通过微调买到的差异化,已经在不知不觉中被蒸馏掉了。