1 篇博文含有标签「differential-privacy」

你的微调大模型正在泄露哪些训练数据

2026年5月5日 · 阅读需 10 分钟

Software Engineer

当一个团队在客服工单、内部Slack记录或专有代码上对大模型进行微调时，通常本能地将数据摄取视为单向门：数据进去，更好的模型出来。但实际并非如此。一名研究人员只需API访问权限和200美元，就能系统地将原文逐字提取出来，其中往往包括模型本不应对外呈现的内容。这并非理论上的边缘案例——这是已被记录的攻击模式，已在包括全球部署最广泛的语言模型在内的生产系统上得到演示。

核心问题在于，微调模型在隐私立场上与基础模型有着本质区别。它们在规模更小、更具特征性的数据集上训练，个别样本远比基础模型行为更容易被区分——而这种可区分性正是攻击者所利用的。

关于 Tian Pan