自身训练语料库成为泄露途径的 PII 脱敏器
· 阅读需 10 分钟
一个团队在他们的日志流水线前端部署了一个经过微调的脱敏模型。它在数据进入长期存储之前剥离姓名、电子邮件、账号和 IP 地址。该模型体积小、速度快,且易于与接入层(ingestion workers)并行部署。隐私审查通过了该方案。六个月后,一位客服工程师将一行看起来很奇怪的日志粘贴到调试工具中,脱敏器产生的输出包含了一个真实客户的电子邮件地址——而这个地址在输入中根本没有出现。
流水线完全按照其构建初衷运行。而脱敏器本身就是泄露源。
这种失效模式并不罕见。它是其构造方式的直接产物。一个基于真实客户数据训练的脱敏模型,已经在某种保真度上学习了真实客户数据的分布。模型学到的任何东西都有可能被诱导输出。在隐私边界放置机器学习模型的团队实际上增加了一个新的暴露面——而隐私团队通常并不掌握这个暴露面的威胁模型,因为隐私团队将脱敏器视为一种控制手段,而不是一个本身包含受保护类数据的资产。
