1 篇博文含有标签「redaction」

自身训练语料库成为泄露途径的 PII 脱敏器

2026年6月2日 · 阅读需 10 分钟

Software Engineer

一个团队在他们的日志流水线前端部署了一个经过微调的脱敏模型。它在数据进入长期存储之前剥离姓名、电子邮件、账号和 IP 地址。该模型体积小、速度快，且易于与接入层（ingestion workers）并行部署。隐私审查通过了该方案。六个月后，一位客服工程师将一行看起来很奇怪的日志粘贴到调试工具中，脱敏器产生的输出包含了一个真实客户的电子邮件地址——而这个地址在输入中根本没有出现。

流水线完全按照其构建初衷运行。而脱敏器本身就是泄露源。

关于 Tian Pan