你的智能体无法穿透推理的脱敏层
· 阅读需 10 分钟
一次隐私评审批准了你的脱敏层。姓名、邮箱、账号、电话——所有这些都在提示词送达模型之前被清理掉了。你的单轮分类器仍然能跑到 94% 的准确率。六周后,你的多步骤智能体开始对类似"Sarah 用于登录的邮箱和她账单记录里的邮箱是同一个吗?"这样的问题给出自信但错误的答案,而且没人能在开发环境里复现。
脱敏层做到了 infosec 团队要求它做到的一切。它同时也悄悄地摧毁了你的智能体推理所依赖的性质:在不同轮次中出现的两个实体指代是同一回事。这个智能体并没有产生幻觉,它读到的是一份转录文本,其中 Sarah 变成了三个不同的人,"同一个"邮箱地址变成了两个互不相同的占位符。
这就是隐私评审抓不到的失败模式,因为评审审计的是离开边界的内容,而不是边界保留下来的内容。占位符对审计者而言是不透明的——这正是它存在的意义——而对衡量智能体质量的团队同样不透明,他们看到一个回归却无法追踪,因为造成它的转换发生在他们保留的所有日志的上游。
