当被遗忘权遇上微调:当删除止于快照
一位客户提交了一份主体访问请求(Subject-Access Request),要求删除他们的数据。数据工程师清理了生产数据库、分析仓库、支持工单存档以及冷备。法务团队在数据清单中列出的每个系统都反馈清理完毕。随后,房间里有人提出了一个没人想第一个回答的问题:那模型呢?
三个月前,该客户的支持记录被用于一次微调运行。从那时起,由此生成的适配器(Adapter)就一直在为其他客户提供预测服务,其中嵌入了该客户的措辞、账户名称,偶尔甚至还有权重中的原句。你可以证明数据仓库中的数据已删除。但你无法证明模型中的数据已删除 —— 团队中最诚实的那位成员会大声说出这一点。
这是每个基于客户数据进行微调的团队最终都会遇到的失效模式,通常第一次发生是在最糟糕的时刻。那些在收到第一个请求之前就划定好范围的团队有机会做出妥善回答。而那些没准备好的团队,最终只能在截稿压力下在两个糟糕的选项中做出选择:要么进行一次什么都没删除的诚实披露,要么进行一次耗时一个季度的紧急重建。
为什么“从模型中删除”不是同一种操作
在你的隐私团队之前处理过的每一个系统中,删除都是一种行操作。你找到以客户为键的记录,删除它们,验证它们已消失,然后签字确认。语义非常清晰,因为存储是结构化的:数据以离散单元的形式进入,也以离散单元的形式退出。
模型不是行存储。一旦某行数据进入损失函数,它就会随同其他数百万行数据一起,被抹在参数矩阵中。客户的信息并没有存储在一个贴着他们邮箱标签的内存单元里 —— 它是权重矩阵中的一个扰动,在处理该批次数据的那天对梯度做出了贡献。对于微调后的适配器,不存在 DELETE WHERE customer_id = X,因为适配器没有 WHERE 子句。
大多数监管机构在原则上理解这一点。欧洲数据保护委员会(EDPB)2025 年 1 月关于数据主体权利的指南承认,AI 系统带来了新的技术挑战,且 GDPR 第 17(3) 条包含一项“不成比例的努力”(disproportionate effort)例外,一些团队希望能以此为依靠。但是,“我们探索了替代方案,但它们太贵了”这一立场只有在你确实探索并记录了这些方案时才是站得住脚的。一个在沟通时没有任何血缘追踪(Lineage)、没有可提取性测试、也没有考虑过任何替代方案的团队,会发现很难证明“努力不成比例”的论点。
