跳到主要内容

你的微调语料库是 GDPR 数据产物,而不仅仅是机器学习资产

· 阅读需 13 分钟
Tian Pan
Software Engineer

当你的第一个微调模型上线生产环境时,你的权重就成了一种你的隐私计划从未编目过的新型记录。进入训练组合的客户服务记录不再仅仅是数据库中你可以 DELETE 的一行 —— 它现在被冗余且不可提取地编码进了你的 API 所提供的参数中。原始记录可以从 S3 中擦除,从你的仓库中抹去,并从你的 RAG 索引中删除,而模型仍会继续使用该客户的姓名、账户 ID 或病史片段来完成提示词。你的销售团队签署的数据保护协议 (DPA) 承诺你会履行删除请求。但没有人问过 ML 团队这在技术上是否可行。

关于 PII 提取的研究表明,这并非假设。PII-Scope 基准报告显示,在现实的查询预算下,针对预训练模型的对抗性提取率最高可增加五倍;而使用自提示校准的成员推理攻击已将微调模型的 AUC 从 0.7 提升至 0.9。Llama 3.2 1B 是一个被广泛复制的小型基座模型,已被证明会记住其训练集中存在的敏感记录。对于任何在生产追踪数据上发布微调模型的人来说,结论是生硬的:你不能假设你的权重已经忘记了。

这一点很重要,因为大多数微调流水线是由 ML 工程师设计的,他们优化的是损失 (loss),而不是由优化 GDPR 第 17 条款的数据主管设计的。结果产生了一个法律地位模糊、来源极少被记录、且不存在“删除用户 X”工作流的产物。

权重是衍生数据产物,法律也将其视为产物

大多数 ML 团队成长过程中形成的概念 —— “权重是参数,而不是数据” —— 在模型较小且训练语料库公开时是方便的。一旦你的语料库包含客户消息、工单或通话录音,这种概念在技术和法律上都会崩溃。根据 GDPR 第 4 条,个人数据是“与已识别或可识别的自然人相关的任何信息”。如果模型在受到对抗性提示时能够同时复现姓名和诊断结果,监管机构将把这种能力视为对个人数据的处理,无论你的 ML 团队是否将权重称为“一种算法”。

《欧盟 AI 法案》(其高风险义务将于 2026 年 8 月 2 日开始广泛适用)通过要求提供训练数据及其来源的完整记录,以及适合其目的的数据治理实践,强化了这一点。第 10 条对训练集、验证集和测试集的代表性、无错误性和统计特性提出了明确期望。违反治理规定的罚款最高可达年度营业额的 2% 或 1000 万欧元。这些条文中没有任何一处提到“除非数据被固化在权重中”。记录义务适用于上游,但对模型下游输出内容的问责制则由提供者承担。

在发布第一个微调模型之前,你需要进行的概念转变是将微调语料库视为 衍生数据产物:原始记录的一种处理形式,受涵盖源数据的同一份 DPA、合法依据和保留政策的约束。这种重新定义对流水线的每一步都有影响,而且其中的每一个后果最终都会被你的法律团队问及 —— 最好是由你先提出这些问题。

被遗忘权没有技术实现手段

第 17 条赋予了数据主体删除权(被遗忘权)。你的工程组织可能在某个地方有一个按钮,可以删除用户的行、撤销其会话并清除其文件。但那个按钮触及不到你的权重。

在修正后的语料库上从头开始重新训练是保证移除主体影响的唯一方法,而对于大多数生产环境的微调来说,这意味着每次请求都要花费数万美元的成本和数天的时间。机器反学习 (Machine unlearning) —— 一种试图以外科手术式方式切除主体贡献的技术族 —— 正在被积极研究,但仍然不可靠。2025 年的一项研究发现,即使在应用了最先进的反学习技术后,模型在探测下仍保留了大约 21% 的目标知识。另一项独立评估 Machine Unlearning Doesn't Do What You Think 认为,许多声称的反学习方法降低了特定提示词的召回率,但并未实际移除潜在影响,这是监管机构最终会察觉到的区别。

三种模式正在那些既要发布微调模型又要履行删除义务的团队中兴起:

  • 适配器隔离 (Adapter isolation)。将源自客户的信号完全排除在基座权重之外。按租户、按群体或按时间窗口训练 LoRA 或类似的参数高效适配器。删除操作随后变为“丢弃适配器”,这是一个文件系统操作,而不是训练作业。关于基于 LoRA 的反学习研究(例如 LUNE)支持这一方向:适配器级别的编辑比全量微调更具局部性且更可靠地可逆,并具有更好的成员推理鲁棒性。
  • 输出抑制 (Output suppression)。为你的模型配备一个生成后过滤器,以阻止特定标识符的输出。这发布速度快,有时在法律上是足够的,但它是一个抑制层,而不是擦除 —— 监管机构越来越倾向于区分“模型是否仍能生成此内容”和“模型是否在大多数情况下拒绝生成此内容”。
  • 带有重新训练窗口的语料库级纪律 (Corpus-level discipline with retrain windows)。对你的微调语料库进行版本控制,安排定期重新训练,并承诺在下一个重新训练周期中处理删除请求。当结合严格的准入控制时,这是最具有辩护性的基准方案。

没有单一的模式是足够的。具有辩护性的架构是分层的:用于即时响应的抑制、用于大多数移除场景的适配器隔离,以及用于必须证明影响已结束案例的定期重新训练。

权重数据血缘是缺失的文档

大多数组织都有数据资产清单:存在哪些数据库、包含哪些字段、每个字段背后的合法依据是什么,以及记录如何流转。然而,很少有组织拥有相应的权重清单。解决这个问题并不光鲜,但它是治理工作中至关重要的一环,能让每一次对话——无论是与法务、审计人员还是客户的沟通——从临场发挥转变为有据可查。

针对每个模型制品,一个最小可行的权重数据血缘记录如下所示:

  • 基础模型身份与检查点哈希 (Checkpoint Hash):厂商、版本,以及你的适配器或微调模型所基于的训练提交记录。
  • 训练语料库清单:数据集版本、行数、模式 (Schema) 以及上游来源。引用每个来源的数据分类。
  • 同意与合法依据范围:对于每个来源,说明你所依赖的合法依据(合同、正当利益、同意)以及你承诺的用途限制。
  • 应用的 PII 处理措施:执行的脱敏、分词和清洗操作,以及对应的配置版本。
  • 启用的隐私机制:差分隐私噪声乘数、适配器隔离策略,如果未应用任何机制,则明确标注为“无”。
  • 重训与回滚流程:负责人、频率,以及响应删除请求的运行手册 (Runbook)。

这张表中的每一行内容,你最终都会需要用到。它也是一份关键制品,让你能够在几分钟内,而不是几天内,回答出“能否在没有用户 X 记录的情况下重新训练此模型”这类问题。

预训练清洗是真正产生效益的地方

解决合规问题成本最低的时机,是在数据被固化到权重之前。一旦训练完成,任何补救方案都会变得昂贵、缓慢且不完整。在“我们有一些日志”和“我们有一个训练语料库”之间,应当建立起语料库策划 (Corpus Curation) 的规范,它包含几个不可或缺的部分。

确定性的 PII 检测与脱敏:在每个来源进入语料库之前,对其运行结构化脱敏(正则表达式加 PII 分类模型),并对脱敏过程进行版本控制。这样,如果你以后改进了检测器,你可以在语料库上重新运行它并产生一个确定性的差异 (Diff)。将漏报 (False Negatives) 视为生产事故,而不仅仅是干扰告警。

按意图界定同意范围:为产品运营收集的客户数据并不自动适用于模型训练。这已成为执法行动中经常发现的问题。如果你的条款没有明确涵盖训练,那么你进行训练的合法依据就是脆弱的。同意范围界定意味着根据每个来源实际被允许的用途来划分你的语料库,而不是根据怎么使用方便来划分。

带有不可变哈希的数据集版本控制:你的语料库应该通过哈希进行寻址,存储该哈希,并在每次微调作业中引用该哈希。“我们基于内部支持数据集进行了训练”不是一个合格的回答。“我们基于语料库 v2026-04-12-a3f1 进行了训练,其清单哈希为 0x...”才是。

在可行时采用差分隐私 (Differential Privacy):2025 年至 2026 年初的研究对隐私与效用之间的权衡有了更清晰的认识:开启差分隐私 (DP) 的全量微调提供了最佳的整体平衡,而在 DP 下的 LoRA 和 P-tuning 则是实用的 PEFT 替代方案——在效用最重要时选择 LoRA,在隐私最重要时选择 P-tuning。Google Research 报告称,用户级 DP 微调在保留显著质量的同时,在常见基准测试上提供了强大的用户级保证。DP 并非免费,也不是魔法,但它是量化单个用户记录对最终权重影响程度的最严谨机制。

易于删除的训练架构:在设计时,确保你最有可能删除的部分是最小、最孤立的对象。丢弃租户适配器 (Tenant Adapters) 比丢弃受租户影响的基础权重更容易。频繁的小型适配器比罕见的大型微调更容易重新训练。

必须在第一次微调前进行的合规对话

在这个话题中,最具破坏性的一句话是“这只是训练数据”。这句话会让一次模型版本迭代演变成一起事故,因为它掩盖了在任务启动前本应询问的所有问题。谁是语料库中记录的控制者?谁是处理者?根据数据保护协议 (DPA),训练是否属于被允许的用途?如果主体明天请求删除数据,我们的服务等级协议 (SLA) 是什么?执行删除的技术路径是什么?如果监管机构要求我们证明没有使用用户 X 的数据,会发生什么?

这些问题中,没有一个是可以由机器学习 (ML) 团队单独回答的,也没有一个是可以由法务团队单独回答的。事实上,它们需要双方进行共同对话,并且是在微调发布之前、而非事故发生之后明确进行。这正是合规的 AI 项目与那些距离泄露仅差一次主体访问请求的项目之间的区别。

两种组织模式有助于让这种对话不再痛苦:

  • 微调准入表单:任何涉及客户衍生数据的任务都必须填写。它强制 ML 团队申报语料库、合法依据、保留计划和删除策略。虽然这是文书工作,但它能预防绝大多数问题。
  • 指定的模型制品数据管家:负责维护上述权重清单。这个人的职责是了解权重中包含什么以及受影响的主体是谁。没有指定管家的模型往往会积累未知的风险敞口。

这两者在技术上都不复杂。它们都需要明确的责任归属,而这通常正是目前所缺失的。

结语:将模型卡片视为一份数据合约

在过去的几年里,业界已经意识到提示词(prompts)是一种合约,工具(tools)是一种合约,评估套件(eval suites)也是一种合约。在监管压力下,下一个共识正在迅速达成,即:你的模型制品(model artifact)是一份与那些记录塑造了它的数据主体(data subjects)之间的合约。模型卡片、权重清单以及重训手册(runbook)正是这份合约在技术层面的具体呈现形式。

能够在 2027 年从容发布微调(fine-tunes)模型的团队,并非那些拥有最先进机器遗忘(unlearning)技术的团队。相反,他们是那些在第一次微调之前就已决定,将权重视为一种受隐私计划同等约束的数据制品的团队。一旦做出了这个决定,后续的一切——适配器隔离(adapter isolation)、差分隐私(DP)配置、重训频率、脱敏版本控制——都会变得更加容易。

另一种选择是在审计过程中发现,你所谓的“这只是训练数据”的辩解,其技术成本是以重训天数来衡量的,而法律成本则是以年营业额的百分比来衡量的。更具性价比的做法是今天就开始编写血缘文档(lineage document),并坚持像维护客户数据架构(schema)一样细致地维护它。

References:Let's stay in touch and Follow me for more thoughts and updates