跳到主要内容

你的微调语料库是 GDPR 数据产物,而不仅仅是机器学习资产

· 阅读需 13 分钟
Tian Pan
Software Engineer

当你的第一个微调模型上线生产环境时,你的权重就成了一种你的隐私计划从未编目过的新型记录。进入训练组合的客户服务记录不再仅仅是数据库中你可以 DELETE 的一行 —— 它现在被冗余且不可提取地编码进了你的 API 所提供的参数中。原始记录可以从 S3 中擦除,从你的仓库中抹去,并从你的 RAG 索引中删除,而模型仍会继续使用该客户的姓名、账户 ID 或病史片段来完成提示词。你的销售团队签署的数据保护协议 (DPA) 承诺你会履行删除请求。但没有人问过 ML 团队这在技术上是否可行。

关于 PII 提取的研究表明,这并非假设。PII-Scope 基准报告显示,在现实的查询预算下,针对预训练模型的对抗性提取率最高可增加五倍;而使用自提示校准的成员推理攻击已将微调模型的 AUC 从 0.7 提升至 0.9。Llama 3.2 1B 是一个被广泛复制的小型基座模型,已被证明会记住其训练集中存在的敏感记录。对于任何在生产追踪数据上发布微调模型的人来说,结论是生硬的:你不能假设你的权重已经忘记了。

这一点很重要,因为大多数微调流水线是由 ML 工程师设计的,他们优化的是损失 (loss),而不是由优化 GDPR 第 17 条款的数据主管设计的。结果产生了一个法律地位模糊、来源极少被记录、且不存在“删除用户 X”工作流的产物。

权重是衍生数据产物,法律也将其视为产物

大多数 ML 团队成长过程中形成的概念 —— “权重是参数,而不是数据” —— 在模型较小且训练语料库公开时是方便的。一旦你的语料库包含客户消息、工单或通话录音,这种概念在技术和法律上都会崩溃。根据 GDPR 第 4 条,个人数据是“与已识别或可识别的自然人相关的任何信息”。如果模型在受到对抗性提示时能够同时复现姓名和诊断结果,监管机构将把这种能力视为对个人数据的处理,无论你的 ML 团队是否将权重称为“一种算法”。

《欧盟 AI 法案》(其高风险义务将于 2026 年 8 月 2 日开始广泛适用)通过要求提供训练数据及其来源的完整记录,以及适合其目的的数据治理实践,强化了这一点。第 10 条对训练集、验证集和测试集的代表性、无错误性和统计特性提出了明确期望。违反治理规定的罚款最高可达年度营业额的 2% 或 1000 万欧元。这些条文中没有任何一处提到“除非数据被固化在权重中”。记录义务适用于上游,但对模型下游输出内容的问责制则由提供者承担。

在发布第一个微调模型之前,你需要进行的概念转变是将微调语料库视为 衍生数据产物:原始记录的一种处理形式,受涵盖源数据的同一份 DPA、合法依据和保留政策的约束。这种重新定义对流水线的每一步都有影响,而且其中的每一个后果最终都会被你的法律团队问及 —— 最好是由你先提出这些问题。

被遗忘权没有技术实现手段

第 17 条赋予了数据主体删除权(被遗忘权)。你的工程组织可能在某个地方有一个按钮,可以删除用户的行、撤销其会话并清除其文件。但那个按钮触及不到你的权重。

在修正后的语料库上从头开始重新训练是保证移除主体影响的唯一方法,而对于大多数生产环境的微调来说,这意味着每次请求都要花费数万美元的成本和数天的时间。机器反学习 (Machine unlearning) —— 一种试图以外科手术式方式切除主体贡献的技术族 —— 正在被积极研究,但仍然不可靠。2025 年的一项研究发现,即使在应用了最先进的反学习技术后,模型在探测下仍保留了大约 21% 的目标知识。另一项独立评估 Machine Unlearning Doesn't Do What You Think 认为,许多声称的反学习方法降低了特定提示词的召回率,但并未实际移除潜在影响,这是监管机构最终会察觉到的区别。

三种模式正在那些既要发布微调模型又要履行删除义务的团队中兴起:

  • 适配器隔离 (Adapter isolation)。将源自客户的信号完全排除在基座权重之外。按租户、按群体或按时间窗口训练 LoRA 或类似的参数高效适配器。删除操作随后变为“丢弃适配器”,这是一个文件系统操作,而不是训练作业。关于基于 LoRA 的反学习研究(例如 LUNE)支持这一方向:适配器级别的编辑比全量微调更具局部性且更可靠地可逆,并具有更好的成员推理鲁棒性。
  • 输出抑制 (Output suppression)。为你的模型配备一个生成后过滤器,以阻止特定标识符的输出。这发布速度快,有时在法律上是足够的,但它是一个抑制层,而不是擦除 —— 监管机构越来越倾向于区分“模型是否仍能生成此内容”和“模型是否在大多数情况下拒绝生成此内容”。
  • 带有重新训练窗口的语料库级纪律 (Corpus-level discipline with retrain windows)。对你的微调语料库进行版本控制,安排定期重新训练,并承诺在下一个重新训练周期中处理删除请求。当结合严格的准入控制时,这是最具有辩护性的基准方案。

没有单一的模式是足够的。具有辩护性的架构是分层的:用于即时响应的抑制、用于大多数移除场景的适配器隔离,以及用于必须证明影响已结束案例的定期重新训练。

权重数据血缘是缺失的文档

大多数组织都有数据资产清单:存在哪些数据库、包含哪些字段、每个字段背后的合法依据是什么,以及记录如何流转。然而,很少有组织拥有相应的权重清单。解决这个问题并不光鲜,但它是治理工作中至关重要的一环,能让每一次对话——无论是与法务、审计人员还是客户的沟通——从临场发挥转变为有据可查。

针对每个模型制品,一个最小可行的权重数据血缘记录如下所示:

  • 基础模型身份与检查点哈希 (Checkpoint Hash):厂商、版本,以及你的适配器或微调模型所基于的训练提交记录。
  • 训练语料库清单:数据集版本、行数、模式 (Schema) 以及上游来源。引用每个来源的数据分类。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates