合成种子数据:在首批千名用户到来之前启动微调
有数据时,微调模型很容易。残酷之处在于产品诞生之前的那个时刻:你需要个性化来吸引用户,但又需要用户才能积累个性化数据。大多数团队要么完全跳过微调("以后再加"),要么花数周手工收集标注样本。两种方式都行不通。前者产出一个用户一眼就能看穿的通用模型,后者慢到等你有了数据,任务早已演变。
合成种子数据能解决这个问题——但前提是你必须清楚它在哪里会失效。
有数据时,微调模型很容易。残酷之处在于产品诞生之前的那个时刻:你需要个性化来吸引用户,但又需要用户才能积累个性化数据。大多数团队要么完全跳过微调("以后再加"),要么花数周手工收集标注样本。两种方式都行不通。前者产出一个用户一眼就能看穿的通用模型,后者慢到等你有了数据,任务早已演变。
合成种子数据能解决这个问题——但前提是你必须清楚它在哪里会失效。
大多数尝试使用 RLHF 微调语言模型的团队在开始之前就放弃了。典型案例是 OpenAI 的 InstructGPT:33,000 个偏好对、13,000 个有监督演示、一个专门的外包团队,以及一个需要数周时间才能稳定的强化学习流水线。如果这就是门槛,那么大多数产品团队根本玩不起这个游戏。
他们错了。现在的门槛已经没那么高了。2024–2025 年的研究共识已经悄然改变:数据质量胜过数据量,DPO 完全取代了 RL 基础设施,而最有价值的偏好信号其实已经流经你的产品,只是未被记录。看起来是研究团队的问题,实际上是埋点(instrumentation)问题。
你的模型是基于去年的数据训练的。它在两个月前进行了内部评估,并在一个月后正式发布。当你得知用户遇到故障时,你已经落后于模型运行所需的现实世界六个月了。这种差距并非部署问题,而是反馈循环的问题。大多数团队不仅没有闭合这个循环,甚至根本没有对其进行衡量。
当模型表现不佳时,本能反应往往是归咎于模型架构或训练数据。但更深层次的问题通常在于反馈系统的延迟。从用户经历故障到该故障影响你的模型,这中间需要多长时间?大多数团队如果说实话,其实并不知情。行业分析表明,如果模型在六个月或更长时间内没有获得针对性更新,其在面对新数据分布时的错误率会上升 35%。原因并非模型本身在衰减——而是世界在前行,而模型却停滞不前。