LLM作为标注器的质量控制:当标注者与学生共享训练数据
· 阅读需 11 分钟
这条流水线在纸面上看起来很合理:你有一个目标任务,没有人工标注样本,但有一个能力强大的大模型可用。于是你用该模型生成标签,再用这些标签微调一个更小的模型。发布,重复。
没有人足够重视的问题是:当你的标注模型和目标模型在同一批互联网数据上训练时会发生什么?而如今,它们越来越多地确实如此。
当GPT-4为微调某个GPT-4级别模型标注数据时,你得到的并非独立信号,而是一个模型受预训练塑造的偏好,通过标注界面被洗白后当作了真实标签。标注模型权重中的偏见、盲点和自信的幻觉,被直接烘焙进训练集。由于两个模型共享预训练数据,这些错误是系统性相关的——不是会被平均掉的随机噪声,而是会不断累积的结构性伪影。
这是生产微调流水线中最被低估的失效模式之一。以下是如何检测、度量它,并构建不会陷入这个陷阱的标注工作流。
