AI 系统中的差分隐私:'我们添加了噪声'究竟意味着什么
大多数将"差分隐私"视为合规复选框的团队实际上并没有得到保护。他们在流水线的某个环节添加了噪声——也许是在微调时添加到梯度上,也许是在检索时添加到查询嵌入上——然后得出结论认为问题已经解决。合规文档写着"已启用 DP",工程团队继续前进。
他们没有做的是:定义 epsilon 预算、核算系统将服务的每一次查询所消耗的预算,或者验证其隐私损失是否受到有效约束。在实践中,"我们添加了噪声"与"我们拥有有意义的隐私保证"之间的差距,正是大多数现实世界 AI 隐私事件发生的地方。
本文就是关于这个差距的:差分隐私对 LLM 实际承诺了什么,这些承诺在哪里失效,以及团队做出的工程决策——通常是隐性的——如何决定他们的 DP 部署是真正的保护还是表面文章。
DP 实际提供的保证(以及它不提供的保证)
差分隐私给你一个数学上的界:对于任何两个仅相差一条记录的训练数据集,观察者能够判断出你使用了哪个数据集的概率变化不超过 e^ε 倍,再加上一个小的失败概率 δ。Epsilon 是隐私损失预算。Epsilon 越小,隐私保护越强。Delta 是该界发生灾难性失败的概率——通常设置远小于 1/n,其中 n 是数据集大小。
这个界是关于可区分性的声明,而不是关于模型可以输出什么的声明。攻击者无法可靠地确定某个特定个体是否在你的训练数据中。这就是保证。DP 不承诺模型永远不会逐字输出训练数据。它不能防范侧信道攻击、提示注入或训练前收集的数据。它不保护你在推理时检索的文档中的数据,只保护训练期间嵌入权重中的数据。
最常见的失败模式是将训练时的保证视为覆盖推理时的行为。用 DP-SGD 训练的模型仍然运行在接收用户查询的服务器上。这些查询不受训练时 DP 的保护。你通过 RAG 添加的检索语料库也不受保护。一个团队可以如实地说他们的 LLM 是用差分隐私训练的,而他们的生产系统在每次请求时都会泄露敏感数据——因为他们保护了错误的表面。
模型实际上记忆了什么——以及如何衡量它
在推断 DP 保护什么之前,你需要了解模型在没有 DP 的情况下会记忆什么。
从 2021 年开始并延续到 2024 年的研究表明,LLM 会大规模逐字记忆训练数据。攻击方法很简单:用来自可能训练文档的前缀提示模型,然后检查补全是否与实际文档匹配。大规模来看,这从生产模型中提取了数千兆字节的训练数据——包括电子邮件、代码和个人信息。最近,一种"分歧攻击"打乱了对齐训练的行为,导致模型以正常操作约 150 倍的速率输出记忆的训练数据。
成员推断攻击(MIAs)使这个问题可以量化。攻击问的是:给定一个文本样本,攻击者能确定它是否在训练集中吗?没有 DP 时,完全微调在成员推断上达到约 97.8% AUC——意味着攻击者几乎可以确定某条记录是否被使用过。应用了任意量的 DP 后,该数字降至约 58% AUC。随机猜测是 50%。所以 DP 训练确实提供了实质性保护:你从"攻击者几乎确定"变为"攻击者有微弱优势"。但你不会降到零。
实用的测量工具是子序列困惑度动态。现代成员推断不仅仅查看模型在候选记录上的损失——它还查看损失如何跨子序列变化。参与训练的文档往往显示出具有特征性的困惑度尖峰和下降模式,而未参与训练的文档不会表现出这种模式。
如果你在敏感数据上部署微调后的模型,你应该在生产前对其运行成员推断攻击。这不是高深的安全研究——这是一项应该纳入你的模型评估流水线的基本验证。
Epsilon 预算:每个人都避免明确做出的决定
Epsilon 是团队保持沉 默的地方。团队会实现 DP-SGD、调整噪声倍增器、运行训练任务,然后发布模型——而从未写下他们实现了什么 epsilon 或者他们的目标 epsilon 是什么。这不是疏忽;这是一个将 DP 视为合规信号而非工程约束的隐性决定。
以下是这些值在实践中实际意味着什么:
- ε = 0.1–1:强隐私,对于复杂 NLP 任务几乎无法使用。在严格解释的情况下,医疗/HIPAA 场景需要此级别。
- ε = 3–8:有意义的保护。在大多数 NLP 基准上,性能比非私有基准下降 5–10%。这是 Google 的生产 Gboard 训练(每轮 ε = 8.9)和 Apple 本地 DP 部署(ε = 4–8)所在的范围。
- ε = 10:实践上限。低于此值时,保证是有意义的。超过此值时,e^ε 超过 22,000——对抗性优势因子太大,界在很大程度上是象征性的。
- ε > 50:无有意义的隐私保护。你添加了噪声,但看到输出的攻击者被检测到成员身份的可能性要高 5 万亿倍。当团队优化精度而非隐私时,朴素实现通常会落在这个范围。
不那么明显的问题是组合性。隐私预算不是免费的——它会随着你的系统回答的每一个查询而消耗。如果你将 ε = 5 设置为你的"训练时隐私预算",然后忽略推理查询也消耗预算这一事实,你将在生产中耗尽实际的累积隐私预算。一个工程团队发现他们在上线三天内就消耗了整个隐私预算。此后的每一个查询都实际上是非私有的,而系统没有给出任何警告。
生产部署需要隐私里程计:持续跟踪所有查询的累积 epsilon 消耗,一旦预算耗尽就实施严格的限制或拒绝请求。大多数 AI 平台默认不存在这种基础设施。你要么自己构建它,要么它就不存在。
DP-RAG:尚无好答案的检索-隐私权衡
RAG 系统面临一个差分隐私无法解决的结构性问题,而且可以说使推理更加困难。
RAG 的价值来自检索相关的、具体的文档。隐私风险在于,显示检索到了哪些文档会泄露这些文档的信息。这两者存在直接矛盾:对检索文档什么都不泄露的检索系统就是什么有用内容都不返回的检索系统。
最先进的 DP-RAG 方法通过将敏感语料库分片、对每个分片运行独立的 LLM 实例、并通过噪声多数投票聚合输出来解决这个问题。隐私预算花在聚合上,而不是检索上。这在数学上行得通,但工程约束很严格:
- 只有当 ε ≥ 10 时,精度才会变得合理。
- 为了让 DP-RAG 保护单个记录,你需要至少 100 份包含类似信息的文档,系统才能准确回答。DP-RAG 从设计上抑制稀有和个体特定的知识——如果你的敏感语料库包含唯一记录,系统要么会拒绝回答,要么会给出有噪声的错误答案。
- 在 ε = 5 时生成 500 个 token 的响应比生成 50 个 token 的响应消耗的预算要多得多。在严格预算下,长响应会失去连贯性。
一个实际的缓解措施是"稀疏 DP":只对需要敏感知识的 token 花费隐私预算,对通用连接性语言使用非私有 LLM。这以更复杂的实现为代价恢复了相当大的实用性。但它要求在 token 生成时就知道哪些 token 是"隐私敏感的"——这个判断被嵌入到你的系统架构中。
诚实的总结:DP-RAG 是研究阶段的能力。如果你的威胁模型需要对服务多样化查询的 RAG 系统进行严格的 epsilon 约束,你就是在挑战当前最先进水平的极限。Google 的 VaultGemma——公开记录的最高能力 DP 训练模型——在 1024 个 token 序列的序列级核算下以 ε ≤ 2.0 运行,团队明确指出它的性能与五年前的 GPT-2 相当。强隐私保证大约需要付出五年的能力代价。
生产中真正重要的工程权衡
了解理论是必要的但不充分的。以下是生产部署真正成就或破坏隐私保证的地方。
训练时 DP vs. 推理时 DP。 DP-SGD 保护嵌入模型权重的训练数据。如果你的敏感数据存储在查询时检索的文档中——RAG 语料库、工具输出、注入提示的数据库记录——训练时 DP 对你没有任何帮助。推理时方法,如隐私感知解码(在生成时向 token logits 添加校准噪声),在不需要重新训练的情况下将提取攻击减少约 50%。对于许多团队来说,这更适合他们实际的威胁模型。
DP 微调 vs. DP 合成数据生成。 当你的标记样本少于 10,000 个时,DP-SGD 噪声通常会压倒信号——你的模型不会学到任何有用的东西。在低数据场景下,更有效的方法是使用非私有基础模型生成合成训练数据,然后在合成数据上微调。隐私预算在生成时花费一次,而不是在整个训练过程中消耗。研究表明,在等效 epsilon 下,这比直接 DP 微调产生 100–1000 倍更可用的合成样本。
LoRA 作为非正式隐私。 低秩适应减少了微调期间更新的参数数量。2025 年的一篇论文证明,LoRA 的秩降低提供了确定性低秩投影,与 DP-SGD 的概率噪声类似地减少单个数据点的影响——计算开销约为标准 DP-SGD 的一半。这不是正式的 DP 保证,但对于正式 DP 成本太高的团队,结合仔细监控敏感 token 损失(姓名、数字、特定标识符)的 LoRA 微调提供了可测量的记忆化风险降低。
软件正确性问题。 DP 错误本质上无法从输出样本中检测到。你无法通过查看模型的响应来确定 DP 实现是否正确。NIST 已将此记录为一个普遍问题:看起来正确运行的实现由于浮点运算问题、不正确的梯度核算或细微的组合错误,可能无法提供所声称的保证。实际含义是,DP 实现应该像密码学实现一样对待:使用经过审计的库(PyTorch 的 Opacus,TensorFlow 的 TF Privacy),不要自行实现噪声注入,如果隐私声明对合规或用户信任至关重要,则要进行外部审计。
何时使用 DP,何时使用其他方法
当你的威胁模型专门针对训练数据暴露时——成员推断、数据提取,或攻击者确定特定记录是否被用于训练你的模型的能力——差分隐私是正确的工具。
以下情况不适合使用它:
- 推理时输入隐私:如果用户在提示中发送敏感数据,而你担心它通过模型输出或日志泄露,DP 训练没有任何帮助。使用输入过滤、输出扫描和日志脱敏。
- 保护检索语料库:如果敏感文档在查询时被检索,DP 训练不能保护这些文档。你需要 DP-RAG(及其限制)或文档 级访问控制。
- 防止模型输出包含有害内容:这是对齐和内容过滤的问题,不是隐私问题。
- 需要特定 epsilon 值的合规:大多数当前监管框架不指定 epsilon 值。"差分隐私"作为标签可能满足合规复选框,而不需要任何特定的 epsilon。如果你需要特定的 epsilon 来满足监管机构,在为其优化之前明确验证该要求。
在向流水线添加 DP 之前,最有用的问题是:攻击者模型究竟是什么,DP 保护哪个表面?如果答案不清楚,无论你实现了什么,隐私保证都将是不清楚的。
前瞻性展望
在 LLM 系统中,强差分隐私的实际成本大约是五年的能力。ε ≤ 2.0 下的 VaultGemma 表现与 2019 年的 GPT-2 相当。这个差距是真实存在的,研究社区正积极致力于缩小它——更好的噪声倍增器调度、LoRA 感知 DP、避免每样本梯度计算的零阶训练,以及大规模用户级 DP 都在 2024–2025 年发布并显示出可测量的改进。但今天评估 AI 系统 DP 的任何团队都应该从诚实的基线出发:有意义的隐私保证目前需要付出显著的模型能力代价,这种权衡需要明确的理由,而不是被"隐私启用"标签无形地吸收。
做得好的团队——Google 的 Gboard、Apple 的设备智能功能、在严格隐私要求下运行的医疗 AI 系统——都明确地做出了这种权衡。他们选择了特定的 epsilon 值,记录了它们,构建了预算跟踪基础设施,并接受了能力约束。这种严谨性正是将有意义的隐私保证与复选框区分开来的东西。
