那个追溯性地毒害了你微调模型的训练集许可

2026年6月2日 · 阅读需 12 分钟

Software Engineer

已经运行了九个月的生产环境微调检查点（checkpoint），现在正躺在你首席技术官（CTO）和外部法律顾问之间的 Slack 讨论线程里。你原本在一个看似宽松的许可证下抓取的数据源更改了条款，发出了通知，并点名了你的模型。你的工程师想知道是否可以简单地对违规记录进行模型“去训练”（untrained）。法律顾问想知道权重文件本身现在是否成了受监管的产物。通话中没有人能给出一个好的答案，因为你的训练流水线将许可证视为一种“事件”——仅在摄取时读取一次——而不是一种在你支付了 H100 费用后，外界仍能编辑的“状态”。

这是极少有微调指南会讨论的失效模式。分发数据集的许可证并不是你在数据摄取时走过的一个静态门槛。它是第三方持有的一项持续性主张，你无法控制，而且这项主张的半衰期正在缩短。Hugging Face 的官方法律仓库每隔几周就会悄悄记录针对特定数据集的 DMCA 下架通知——AoPS 撤回了 MATH 基准测试，PaperDemon 撤回了抓取的艺术作品，Archive of Our Own 在收到通知后的几小时内就删除了一批同人小说数据。每一次下架都是一个下游信号，表明某处的某个模型是基于分发权已经失效的数据进行训练的。

令人不安的是，你的权重文件是你未曾亲眼见证的决策的下游产物。你读取数据时，它是合法的。当你的加载器解析 LICENSE 文件时，许可证是足够宽松的。等到有人发出通知时，梯度已经发生了偏移，检查点已经发布，剩下的唯一产物就是一个二进制大对象（binary blob），它与原始记录集的联系是统计学上的，而非可审计的。发到你收件箱里的问题不是“你是否有许可证”，而是“你能否证明其影响已经消失”。

许可证是一种状态，而非一个事件

大多数团队在交付时采用的心理模型将许可视为摄取瞬间的一次性二元检查。你对 LICENSE 文件、README、可能还有 dataset_info.json 进行了快照，并认为问题已经解决。问题在于，许可证是人代表其他人编写的文件，而这些人可以改变主意、被收购，或者失去他们原本认为已经授予的基础权利。

三种具体的失效模式已经在生产环境中出现。

第一种是直接撤销（rescission）。一个之前在宽松许可证下分发数据的来源决定——通常是在看到生成式 AI 用他们的语料库做了什么之后——他们想要收回权利。Books3 是一个典型案例：它从一个私人追踪器获取，在 The Pile 中重新分发，然后在诉讼开始后被悄悄移除。从源头移除并没有将其从已经吸收它的数十个衍生检查点中移除。

第二种是重新解释。2025 年底发起的 Fastcase v. Alexi 诉讼是最清晰的说明：一份 2021 年的数据许可协议并未预见到训练会作为下游用途，原告和被告就“内部研究”是否涵盖“向付费客户交付的权重”产生了分歧。许可证文本没有变，但对其的解释变了。任何针对模糊许可证语言训练的模型都相当于持有了一个卖出期权（put option），只要在经济上合理，许可方就可以行使该期权。

第三种是司法管辖权的追溯力。加利福尼亚州的《生成式人工智能训练数据透明度法案》（Generative AI Training Data Transparency Act）对 2022 年 1 月 1 日或之后发布或进行重大修改的任何系统提出了披露要求——这意味着该法律追溯了你模型的发布历史，并调出了你从未想过要记录的文档义务。欧盟《AI 法案》第 10 条的文档要求将于 2026 年 8 月生效，欧盟委员会在 2025 年 7 月发布的技术模板中，明确规定了通用 GPAI 提供商必须发布的数据集溯源信息类型。这些制度都不在乎你是在规则出台前训练的模型。

为什么“直接机器去训练”不是真正的答案

当通知降临时，工程师的第一反应通常是求助于机器去训练（machine unlearning）——通过手术般的手法移除违规记录的影响，并继续交付检查点的其余部分。在综述层面，相关文献看起来很有前景。SISA 训练将数据分片，隔离子模型，让你只重新训练受影响的部分。近似去训练技术利用影响函数（influence functions）、基于 LoRA 的增量或噪声注入，将模型行为推回从未出现过这些记录的“反事实”状态。

问题在于，2025 年的实际结果远比营销宣传的要冷酷得多。一篇发表在 ICLR 2025、标题直截了当为《机器去训练无法移除数据投毒攻击》（Machine Unlearning Fails to Remove Data Poisoning Attacks）的论文表明，现有的去训练算法会留下已移除记录的可检测行为指纹，包括任何主张版权侵权的人在取证过程中想要挖掘的影响。后续研究询问去训练是否真的移除了模型知识，确认了成员推理攻击（membership inference attacks）仍然可以从所谓的被遗忘样本中恢复信号。

这种局面将持续困难，原因有三。首先，近似方法针对的是行为代理进行优化——即模型“表现得就像”从未见过这些数据——这与“来自该批次的梯度已被证明被移除”是完全不同的陈述。其次，精确方法要求你在训练前对语料库进行分片，但几乎没有人这样做，因为它会消耗吞吐量。第三，法律标准尚未确定：法律顾问可能会接受“我们运行了去训练流程，行为评估显示没有泄露”，但也可能要求“你必须在干净的语料库上从头开始重新训练，并证明新权重独立于旧权重”。去训练方法越廉价，就越难辩护。

将去训练视为风险缓解手段，而非删除保证。如果你在受监管的环境中将其作为删除保证进行交付，那你就是在为下一场诉讼埋下伏笔。

你的团队可能忽略的数据溯源层

这种情况之所以会演变成恐慌，而不是标准的操作手册（runbook），是因为几乎没有人以足够的分辨率捕获数据集状态，来回答后续出现的问题。流水线知道它加载了什么——dataset_name、version_hash，如果你足够严谨的话，可能还有 commit_sha。但它很少知道摄取（ingestion）时的许可文本、LICENSE 文件的 URL、产生这些记录的上游提交，或者在那一刻主张分发权的实体身份。

当通知送达时，你需要针对有时已经是一年前的检查点（checkpoints），快速回答五个问题：

来自该来源的哪些记录包含在此检查点的训练集中？
在摄取时，它们是根据什么许可协议分发的？
哪些下游检查点继承了这些记录的梯度——包括 LoRA 适配器、蒸馏出的学生模型（distilled students）和持续预训练（continued-pretraining）变体？
哪些评估运行接触了这些检查点，评估结果本身现在是否受到了污染？
你能否生成一个排除这些记录的干净语料库快照，并证明替换模型是独立的？

如果你的数据湖无法让你在一天之内回答这些问题，那么你的回溯风险要比你的训练预算所假设的大得多。数据溯源倡议（Data Provenance Initiative）在审计公共数据集现状方面的工作也从另一个角度阐明了这一点：超过一半被广泛引用的训练语料库所携带的许可元数据与语料库的实际使用方式不一致，且这种不一致率随着你离源头越远而爬升。

欧盟 AI 法案（EU AI Act）的附件 IV 技术文档要求将使这一差距在法律上变得明确。如果你无法提供数据集溯源记录，你就无法提交技术文档，也就无法将系统投放市场。违反第 10 条的罚款高达 3500 万欧元或全球营业额的 6%。解决这一问题成本最低的方式是在训练时建立审计追踪，而不是在被起诉时。

在下一次训练运行前值得考虑的架构响应

在训练时，一些细微的改变并不昂贵，但它们决定了你面对的是一份操作手册还是满园大火。

在摄取时捕获许可文本，而不仅仅是许可标识符（license identifiers）。对你读取的实际 LICENSE 文件进行哈希处理，将其与数据集哈希一起存储，并为两者加上时间戳。当以后有人争论你违反了条款时，“这是我们在训练当天所依据的确切文本”比“元数据说是 MIT”要有力得多。

将许可视为数据集哈希的一个带版本的维度。如果上游来源以不同的条款重新发布相同的内容，从你的簿记角度来看，这就是一个新的数据集，即使字节完全相同。通过这种方式，你可以避免加载器静默滚动到新许可而导致溯源日志丢失转换记录的情况。

即使你现在还不需要，也要构建分片边界（shard boundary）。按来源许可分区在不相交的分片上进行训练会损耗吞吐量，但这是唯一能让你在单个来源出问题时进行“外科手术式”重新训练的架构。大多数团队在支付过一次替代方案的代价之前，是不会愿意支付这项成本的。

在检查点级别记录梯度谱系（gradient lineage）。如果检查点 B 通过持续预训练继承自检查点 A，那么谱系记录应该注明这一点，因为污染 A 的记录也会污染 B。适配器层、蒸馏出的学生模型和合并模型（merged models）都需要同样的处理，尤其是合并步骤，很多团队在这里会悄无声息地丢掉对上游许可义务的追踪。

在需要之前，决定你对衍生评估的政策。如果训练语料库被毒化了，通过对其采样生成的评估集也会被毒化，你在该评估上运行的任何排行榜或模型对比可能都需要撤回。提前知道你是要撤回还是加注说明，比在最后期限的压力下做决定要容易得多。

前瞻性思考

2026 年的监管浪潮将使这成为一项明确的合规准则，而不再是一个奇特的工程问题。欧盟的执法将于 8 月开始。加州的披露法案已经具有追溯力。欧盟委员会 2025 年 7 月的训练数据模板为通用人工智能（GPAI）规模下的“文档化溯源”设定了标准。像 Common Pile v0.1 这样的开放计划之所以出现，正是因为下一代基础模型运行需要许可链路持久的语料库，而不仅仅是在抓取当天看起来是允许的。

那些能最好地度过这场风暴的团队，是将许可视为训练流水线中一等公民（first-class artifact）的团队——它被版本化、哈希化、归属于特定时刻的特定上游实体，并传播到由此衍生的每个检查点。这不是一个强加在工程项目上的法律程序。它是一个数据工程的不变量（data engineering invariant），也是唯一能真正回答后续问题的方案：哪些记录、什么许可、哪些检查点、通往干净替代方案的路径在哪里。

你的权重文件是世界有权修改的同意决策的冻结快照。构建好流水线，以便当修订到来时，你可以证明你已知的信息、你训练的内容以及你在没有它的情况下能生产什么。除此之外的任何做法，都是让模型暴露在一种任何基准测试分数都无法抵消的风险之中。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

那个追溯性地毒害了你微调模型的训练集许可

许可证是一种状态，而非一个事件

为什么“直接机器去训练”不是真正的答案

你的团队可能忽略的数据溯源层

在下一次训练运行前值得考虑的架构响应

前瞻性思考

Recommended Reading

关于 Tian Pan

许可证是一种状态，而非一个事件​

为什么“直接机器去训练”不是真正的答案​

你的团队可能忽略的数据溯源层​

在下一次训练运行前值得考虑的架构响应​

前瞻性思考​

Recommended Reading

关于 Tian Pan

许可证是一种状态，而非一个事件

为什么“直接机器去训练”不是真正的答案

你的团队可能忽略的数据溯源层

在下一次训练运行前值得考虑的架构响应

前瞻性思考