跳到主要内容

2 篇博文 含有标签「ai-privacy」

查看所有标签

评估数据集是附带正确答案的客户数据

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的黄金评估集(Golden eval set)是一个你的安全团队甚至不知道其存在的隐私边界。它是通过对生产环境的 Trace 进行采样构建的,这意味着它是一系列精心挑选的真实客户查询集合——通常包含姓名、电子邮件、账号、愤怒的通话记录、输入了一半的信用卡卡号——并配有标准正确回复,最后提交到评估流水线读取的任何存储桶中。

最后一部分正是评估数据具有独特危险性的原因。原始的生产 Trace 之所以敏感,是因为它记录了客户所说的话。而评估案例则以一种全新的方式变得敏感,因为它记录了客户所说的话 加上标注的正确答案。这个标签是一个衍生作品,由某人(通常是标注员或领域专家)有目的地添加。它标志着“这是标准答案”。它赋予了 Trace 原始日志从未有过的生命力——日志保留策略最终会将 Trace 轮转删除,但评估案例现在成为了一个永久的测试 fixture(固定数据),团队致力于保持其测试通过(keeping green)。

增加模态是一次隐私分类事件,而非简单的功能开关

· 阅读需 12 分钟
Tian Pan
Software Engineer

一位产品经理在周二联系了 AI 团队:“客户想在支持代理中粘贴截图。这应该是件小事,对吧?模型已经支持图像了。” 工程主管检查了 SDK,确认视觉端点接受 JPEG 和 PNG,在功能开关(feature flag)后发布了更改,并向 10% 的用户推送。两周后,法务团队转来了一封监管机构的信函,询问为什么用户的银行账单、驾照照片以及包含另一位客户订单 ID 的截图都出现在了该代理符合训练条件的日志中。AI 团队中没人标记这次模态变更(modality change),因为没人认为模态变更 算是一次 变更。批准文本代理的隐私审查从未针对图像变体重新运行——而图像变体最终适用的授权、留存和驻留规则完全不同。

这不是一个关于粗心工程师的故事。这是一个关于大多数团队发布 AI 功能时内置的范畴错误的故事。文本输入是一个已知的、具有稳定威胁模型的细分数据类别:用户输入,用户看到他们输入的内容,工程团队在记录什么和丢弃什么方面有多年的习惯。图像是一个具有不同威胁模型的不同数据类别——它们夹带了用户看不到的元数据,捕捉了用户并非有意分享的周边内容,并以其自身的驻留和合同条款创造了存储和处理足迹。将“现在支持视觉”视为一次 UX 迭代,而它实际上是一个隐私分类事件,这就是团队如何根据监管机构的要求发现他们的 PII 清单将实际暴露程度低估了一个数量级的原因。