跳到主要内容

1 篇博文 含有标签「data-provenance」

查看所有标签

那个追溯性地毒害了你微调模型的训练集许可

· 阅读需 12 分钟
Tian Pan
Software Engineer

已经运行了九个月的生产环境微调检查点(checkpoint),现在正躺在你首席技术官(CTO)和外部法律顾问之间的 Slack 讨论线程里。你原本在一个看似宽松的许可证下抓取的数据源更改了条款,发出了通知,并点名了你的模型。你的工程师想知道是否可以简单地对违规记录进行模型“去训练”(untrained)。法律顾问想知道权重文件本身现在是否成了受监管的产物。通话中没有人能给出一个好的答案,因为你的训练流水线将许可证视为一种“事件”——仅在摄取时读取一次——而不是一种在你支付了 H100 费用后,外界仍能编辑的“状态”。

这是极少有微调指南会讨论的失效模式。分发数据集的许可证并不是你在数据摄取时走过的一个静态门槛。它是第三方持有的一项持续性主张,你无法控制,而且这项主张的半衰期正在缩短。Hugging Face 的官方法律仓库每隔几周就会悄悄记录针对特定数据集的 DMCA 下架通知——AoPS 撤回了 MATH 基准测试,PaperDemon 撤回了抓取的艺术作品,Archive of Our Own 在收到通知后的几小时内就删除了一批同人小说数据。每一次下架都是一个下游信号,表明某处的某个模型是基于分发权已经失效的数据进行训练的。