你的微调大模型正在泄露哪些训练数据
当一个团队在客服工单、内部Slack记录或专有代码上对大模型进行微调时,通常本能地将数据摄取视为单向门:数据进去,更好的模型出来。但实际并非如此。一名研究人员只需API访问权限和200美元,就能系统地将原文逐字提取出来,其中往往包括模型本不应对外呈现的内容。这并非理论上的边缘案例——这是已被记录的攻击模式,已在包括全球部署最广泛的语言模型在内的生产系统上得到演示。
核心问题在于,微调模型在隐私立场上与基础模型有着本质区别。它们在规模更小、更具特征性的数据集上训练,个别样本远比基础模型行为更容易被区分——而这种可区分性正是攻击者所利用的。
模型泄露训练数据的三种方式
针对微调大模型的隐私攻击分为三个截然不同的类别,每类有不同的机制和不同的攻击者画像。
逐字提取是最直观的。模型逐字复现其训练数据中的序列。对GPT-J的研究发现,其训练数据集中至少有1%以这种方式被记忆——比例虽小,但对于任何大型模型来说,仍代表着数千个可恢复的序列。更令人忧虑的是,定向攻击能以极高的效率提取这些记忆内容。发散攻击——让模型无限重复"poem"或"send"等词直至脱轨——会使模型以正常操作约150倍的速度输出训练数据。研究人员已针对某生产模型演示了这一攻击,花费不到200美元的API费用便提取出超过10,000条逐字训练样本。在发散条件下,约5%的输出是来自训练数据的50个token以上的直接拷贝。
记忆程度随模型规模(对数线性)和序列在训练中出现的频率(超线性)而增加。多次出现的序列被烙印得格外深入。如果你在含有重复记录的数据集上微调——客服数据几乎总是如此,因为相同的问题反复出现——记忆风险会成倍放大。
成员推理攻击更为隐蔽。它不问"能提取这段文字吗",而是问"这个特定文档是否被用于训练?"只需黑盒API访问,想知道竞争对手的专有合同或某用户记录是否在微调语料库中的攻击者,现在就能以高置信度回答这个问题。2024年的一种方法通过针对目标模型自身输出而非外部参考数据集进行校准,将多种模型类型的攻击AUC从0.7提升至0.9。这个0.9的数字意味着该攻击在文档级别的准确率比随机猜测高出约九倍。
属性推理攻击则根本不提取文字——它重建参与训练的人员的私人信息。通过向模型发出关于行为模式和偏好的精心构造问题,攻击者已展示出在位置、收入和人口统计等个人属性上85%的top-1准确率和95%的top-3准确率,成本比人工标注低100倍,速度快240倍。对于在用户生成内容上微调的模型,这意味着攻击者无需一句逐字引用,即可分析对训练有所贡献的用户。
实际上谁在攻击生产中的微调模型
基础模型的威胁模型相对宽松——训练数据来自公开互联网,没有秘密可提取。但在内部数据上微调的模型面临着本质上不同的攻击者画像。
竞争对手是最明显的威胁。在专有工程文档、内部定价策略讨论或客户行为数据上微调的公司,有理由保持数据集私密。即使通过面向公众的产品提取部分训练数据,也会暴露公司认为值得训练的内容——这本身就是有价值的情报。
系统提示提取是相关但不同的攻击。对某主要AI平台上50个真实应用的测试发现,通过对抗性查询,68%的应用的系统提示——通常包含业务逻辑、专有指令和内部运营细节——被成功提取。系统提示默认并非设计为保密,但大多数团队将其视为机密。这68%的数字表明,大多数团队高估了模型默认提供的保护程度。
内部威胁被严重低估。当员工在未经批准的AI工具中使用内部文档时,约1/12的提示词包含敏感企业信息。这些数据被可能用于训练的服务摄取,绕过对官方微调模型的任何控制,形成泄露路径。
OWASP 2025年大模型应用风险排名将敏感信息披露从第6位提升至第2位。这一转变反映了生产漏洞实际集中的方向。
