你的微调大模型正在泄露哪些训练数据

2026年5月5日 · 阅读需 10 分钟

Software Engineer

当一个团队在客服工单、内部Slack记录或专有代码上对大模型进行微调时，通常本能地将数据摄取视为单向门：数据进去，更好的模型出来。但实际并非如此。一名研究人员只需API访问权限和200美元，就能系统地将原文逐字提取出来，其中往往包括模型本不应对外呈现的内容。这并非理论上的边缘案例——这是已被记录的攻击模式，已在包括全球部署最广泛的语言模型在内的生产系统上得到演示。

核心问题在于，微调模型在隐私立场上与基础模型有着本质区别。它们在规模更小、更具特征性的数据集上训练，个别样本远比基础模型行为更容易被区分——而这种可区分性正是攻击者所利用的。

模型泄露训练数据的三种方式

针对微调大模型的隐私攻击分为三个截然不同的类别，每类有不同的机制和不同的攻击者画像。

逐字提取是最直观的。模型逐字复现其训练数据中的序列。对GPT-J的研究发现，其训练数据集中至少有1%以这种方式被记忆——比例虽小，但对于任何大型模型来说，仍代表着数千个可恢复的序列。更令人忧虑的是，定向攻击能以极高的效率提取这些记忆内容。发散攻击——让模型无限重复"poem"或"send"等词直至脱轨——会使模型以正常操作约150倍的速度输出训练数据。研究人员已针对某生产模型演示了这一攻击，花费不到200美元的API费用便提取出超过10,000条逐字训练样本。在发散条件下，约5%的输出是来自训练数据的50个token以上的直接拷贝。

记忆程度随模型规模（对数线性）和序列在训练中出现的频率（超线性）而增加。多次出现的序列被烙印得格外深入。如果你在含有重复记录的数据集上微调——客服数据几乎总是如此，因为相同的问题反复出现——记忆风险会成倍放大。

成员推理攻击更为隐蔽。它不问"能提取这段文字吗"，而是问"这个特定文档是否被用于训练？"只需黑盒API访问，想知道竞争对手的专有合同或某用户记录是否在微调语料库中的攻击者，现在就能以高置信度回答这个问题。2024年的一种方法通过针对目标模型自身输出而非外部参考数据集进行校准，将多种模型类型的攻击AUC从0.7提升至0.9。这个0.9的数字意味着该攻击在文档级别的准确率比随机猜测高出约九倍。

属性推理攻击则根本不提取文字——它重建参与训练的人员的私人信息。通过向模型发出关于行为模式和偏好的精心构造问题，攻击者已展示出在位置、收入和人口统计等个人属性上85%的top-1准确率和95%的top-3准确率，成本比人工标注低100倍，速度快240倍。对于在用户生成内容上微调的模型，这意味着攻击者无需一句逐字引用，即可分析对训练有所贡献的用户。

实际上谁在攻击生产中的微调模型

基础模型的威胁模型相对宽松——训练数据来自公开互联网，没有秘密可提取。但在内部数据上微调的模型面临着本质上不同的攻击者画像。

竞争对手是最明显的威胁。在专有工程文档、内部定价策略讨论或客户行为数据上微调的公司，有理由保持数据集私密。即使通过面向公众的产品提取部分训练数据，也会暴露公司认为值得训练的内容——这本身就是有价值的情报。

系统提示提取是相关但不同的攻击。对某主要AI平台上50个真实应用的测试发现，通过对抗性查询，68%的应用的系统提示——通常包含业务逻辑、专有指令和内部运营细节——被成功提取。系统提示默认并非设计为保密，但大多数团队将其视为机密。这68%的数字表明，大多数团队高估了模型默认提供的保护程度。

内部威胁被严重低估。当员工在未经批准的AI工具中使用内部文档时，约1/12的提示词包含敏感企业信息。这些数据被可能用于训练的服务摄取，绕过对官方微调模型的任何控制，形成泄露路径。

OWASP 2025年大模型应用风险排名将敏感信息披露从第6位提升至第2位。这一转变反映了生产漏洞实际集中的方向。

差分隐私：真实权衡的真实数字

差分隐私（DP）是唯一能对泄露提供数学边界的机制。DP-SGD通过在微调过程中向梯度添加校准的高斯噪声并裁剪每个样本的梯度来限制敏感性。隐私保证ε控制权衡：ε越低，隐私越强，但效用损失越大。

实际问题在于效用成本是否可以接受。关于在大型模型上进行用户级DP微调的最新研究——其中保证覆盖特定用户的所有贡献，而非单个样本——表明大规模实施是可行的。用户级DP比样本级DP提供更强的保证，在两种情况下更为推荐：确实需要强隐私保证时，或计算预算足够大以分摊训练开销时。

LoRA显著改变了经济学。2024年发表的研究表明，LoRA适配器通过其随机投影特性固有地提供类似差分隐私的保护，噪声方差随适应秩增加而减小。这意味着低秩LoRA提供更好的隐式隐私。将DP-SGD与LoRA明确结合，比将DP-SGD应用于全量微调产生更好的隐私-效用权衡，因为减少的参数数量在不需要相同梯度噪声水平的情况下缩小了攻击面。

实践指导：如果在敏感数据上微调且能接受适度效用降低，低秩、ε约为4–8的DP-LoRA提供有意义的针对提取攻击的保护，而不会导致性能崩溃。如果完全无法接受效用损失，则需要不同的策略。

加载中…

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

你的微调大模型正在泄露哪些训练数据

模型泄露训练数据的三种方式

实际上谁在攻击生产中的微调模型

差分隐私：真实权衡的真实数字

Recommended Reading

关于 Tian Pan

模型泄露训练数据的三种方式​

实际上谁在攻击生产中的微调模型​

差分隐私：真实权衡的真实数字​

Recommended Reading

关于 Tian Pan

模型泄露训练数据的三种方式

实际上谁在攻击生产中的微调模型

差分隐私：真实权衡的真实数字