PII 脱敏哨兵如何悄然瓦解你的向量索引
一位支持工程师调出了你的 RAG 控制台来调试一个投诉。客户问的是“我的账户现在看起来是什么样的”,得到的回答逻辑清晰且自信,但内容却完全是关于另一个人的账户。检索到的前三个数据块(chunks)全部属于其他客户。工程师针对最新的语料库快照运行了同样的查询,以排除索引延迟的可能性,结果相同。随后,她针对六个月前、即隐私脱敏器上线前的快照运行了查询。结果,正确客户的数据块排在了第一名。
脱敏器的工作逻辑符合预期。每一个姓名都被替换为 [NAME],每一封邮件都被替换为 [EMAIL],每一个账号都被替换为 [ACCOUNT]。法务团队拥有清晰的审计追踪,安全团队也关闭了合规工单。但这两个团队都没考虑到的是,这些被安插在数百万份文档中相同句法插槽里的“哨兵”标记,被嵌入模型(embedding model)视为普通 Token —— 且这些 Token 之间的共现关系比任何真实内容都更可靠。脱敏器不仅删除了信息,它还添加了一个全新的、极其强烈的信号,即所有脱敏文档都共有这一特征,而其他文档则没有。
