1 篇博文含有标签「datasets」

那个把你唯一的硬样本也顺便带走的近似去重过滤器

2026年6月2日 · 阅读需 12 分钟

Software Engineer

你的去重步骤报告显示语料库缩减了 28%，训练运行提前六小时结束。评估数值持平甚至略有提升。没人去查看被删除内容的 diff。三周后，客服开始因为一类模型曾经能处理、现在却完全搞砸的退款反转工单进行告警。有 11 条训练数据涉及该特定模式。其中 9 条消失了——它们被合并为一个单一的代表样本，保留了最简洁、最干净的措辞，却丢弃了那些模型实际从中学习如何缓和情绪的、语带敌意的复杂变体。你的去重流水线造成了这一切，而你的评估并没有捕捉到它，因为在构建评估集时，这些例子已经从用于采样评估集的训练集中消失了。

这是关于去重作为一个流水线步骤让我感到困扰的失效模式：它表现为数据清洗，实际上却是分布编辑。删除样板文件的完全重复是清洗。通过相似度阈值删除近重复项则是一种包装成清洗的采样决策。阈值决定了训练分布中哪些切片能存活下来，而最容易丢失的切片正是你起初样本最少的那些——根据定义，这些样本通常是你为了覆盖率而非样本数量而保留的。

关于 Tian Pan