那个把你唯一的硬样本也顺便带走的近似去重过滤器
· 阅读需 12 分钟
你的去重步骤报告显示语料库缩减了 28%,训练运行提前六小时结束。评估数值持平甚至略有提升。没人去查看被删除内容的 diff。三周后,客服开始因为一类模型曾经能处理、现在却完全搞砸的退款反转工单进行告警。有 11 条训练数据涉及该特定模式。其中 9 条消失了——它们被合并为一个单一的代表样本,保留了最简洁、最干净的措辞,却丢弃了那些模型实际从中学习如何缓和情绪的、语带敌意的复杂变体。你的去重流水线造成了这一切,而你的评估并没有捕捉到它,因为在构建评估集时,这些例子已经从用于采样评估集的训练集中消失了。
这是关于去重作为一个流水线步骤让我感到困扰的失效模式:它表现为数据清洗,实际上却是分布编辑。删除样板文件的完全重复是清洗。通过相似度阈值删除近重复项则是一种包装成清洗的采样决策。阈值决定了训练分布中哪些切片能存活下来,而最容易丢失的切片正是你起初样本最少的那些——根据定义,这些样本通常是你为了覆盖率而非样本数量而保留的。
