1 篇博文含有标签「data-provenance」

那个追溯性地毒害了你微调模型的训练集许可

2026年6月2日 · 阅读需 12 分钟

Software Engineer

已经运行了九个月的生产环境微调检查点（checkpoint），现在正躺在你首席技术官（CTO）和外部法律顾问之间的 Slack 讨论线程里。你原本在一个看似宽松的许可证下抓取的数据源更改了条款，发出了通知，并点名了你的模型。你的工程师想知道是否可以简单地对违规记录进行模型“去训练”（untrained）。法律顾问想知道权重文件本身现在是否成了受监管的产物。通话中没有人能给出一个好的答案，因为你的训练流水线将许可证视为一种“事件”——仅在摄取时读取一次——而不是一种在你支付了 H100 费用后，外界仍能编辑的“状态”。

这是极少有微调指南会讨论的失效模式。分发数据集的许可证并不是你在数据摄取时走过的一个静态门槛。它是第三方持有的一项持续性主张，你无法控制，而且这项主张的半衰期正在缩短。Hugging Face 的官方法律仓库每隔几周就会悄悄记录针对特定数据集的 DMCA 下架通知——AoPS 撤回了 MATH 基准测试，PaperDemon 撤回了抓取的艺术作品，Archive of Our Own 在收到通知后的几小时内就删除了一批同人小说数据。每一次下架都是一个下游信号，表明某处的某个模型是基于分发权已经失效的数据进行训练的。

关于 Tian Pan