跳到主要内容

构建符合 GDPR 标准的 AI Agent:真正至关重要的合规架构决策

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队发现他们的 AI 智能体存在 GDPR 问题的方式都是错误的:当一个数据主体提交删除请求时,法务团队询问哪些系统持有该用户的数据,而工程团队开出的工单最终演变成了一场长达六个月的审计。个人数据散落在对话历史中、向量存储的某个角落、可能缓存的工具调用输出中,甚至可能嵌入在微调后的模型检查点里 —— 却没有任何人事先对此进行梳理。

这不是配置上的疏忽,而是架构上的缺失。决定你的 AI 系统是否具备合规性的决策,通常在构建的头几周就已经做出,远早于法务部门找上门来。本文涵盖了受监管行业工程师在将 AI 智能体投入生产环境之前需要解决的四个结构性冲突。

“被遗忘权”问题目前尚无完美的解决方案

GDPR 第 17 条赋予了数据主体要求擦除其个人数据的权利。这项义务是明确的:当用户请求删除时,每个存储或缓存了其个人数据的系统都必须做出响应。对于传统数据库,这意味着执行 DELETE WHERE user_id = X。但对于 AI 智能体系统,这意味着要困难得多。

智能体的长期记忆至少以四种不同的形式存储个人数据:

  • 对话历史 —— 包含姓名、健康信息、财务详情和识别码的原始文本
  • 向量存储中的嵌入(Embeddings) —— 源自个人数据的密集数值表示;删除源记录并不能消除嵌入向量
  • 工具调用输出 —— 会话之间缓存的摘要和提取的事实
  • 微调模型权重 —— 如果用户数据被包含在微调中,“遗忘”问题就变成了一个研究课题,而不仅仅是一个运维工单

关键差距在于:目前市面上没有任何商用向量数据库能针对嵌入在向量存储中的数据提供可证明的删除机制。你可以删除原始文档及其嵌入向量,但如果该个人数据已被用于构建其他嵌入或更新模型,这些痕迹将以你无法枚举的形式存在。欧洲数据保护委员会(EDPB)已经裁定,AI 开发人员可被视为 GDPR 项下的数据控制者,而监管机构不太可能无限期地接受“技术上难以实现”作为不合规的理由。

现在的应对方案:

务实的方法是架构隔离。将每个用户的记忆视为一个带有文档化数据清单的命名空间(Namespace)—— 而不是一个整体式的存储库。使用具有明确归属权的显式记忆记录(键值对或文档存储),而不是将所有内容嵌入到单个向量索引中。当删除请求到来时,你需要能够在几分钟(O(minutes))内识别并删除该用户的记录,而不是耗费数周(O(weeks))。特别是对于嵌入,需要维护从嵌入 ID 到源记录的映射,并构建级联删除流水线。这虽然不能完全解决可证明性的鸿沟,但能明显缩小影响范围,并向监管机构展示你构建合规架构的诚意。

更难的问题是 —— 当数据被用于微调时该怎么办 —— 目前还没有生产就绪的答案。在 2026 年,务实的态度是除非你准备好将模型重新训练作为删除流程的一部分,否则应避免对个人用户数据进行微调。

自主决策的审计跟踪是法律要求,而非可选项

传统的合规框架假设由人类做决策,软件执行预定义逻辑。而自主智能体打破了这一假设。一个读取病人记录、综合三份文档的信息、调用外部 API 并编写病例注记的智能体做出了一系列决策 —— 但如果没有显式日志,这些决策都无法追踪。

《欧盟 AI 法案》使这一要求变得具体化。第 12 条要求在任何高风险 AI 系统的整个生命周期内进行自动事件日志记录,并具备对源数据和决策依据的可追溯性。这些要求将于 2026 年 8 月 2 日起强制执行。“高风险”涵盖了用于入职筛选、信用评估、医疗诊断、关键基础设施以及其他几个与企业目前部署智能体直接相关的领域。

一个合规的智能体动作审计跟踪不仅仅是“智能体在 14:32 调用了一个 API”。它需要记录:

  • 触发因素 —— 什么请求或事件激活了智能体,包括用户身份和会话上下文
  • 理解/解释 —— 智能体如何理解该任务,包括任何形式的重构
  • 工具调用 —— 调用了哪些工具,使用了哪些参数,以及考虑了哪些替代方案
  • 访问的数据 —— 读取了哪些记录,包括它们的标识符以及追溯到源头的数据血缘
  • 决策 —— 智能体采取了什么行动以及原因(在模型推理过程可访问的范围内)
  • 输出 —— 产生了什么内容,以及存储或传输到了哪里

这不仅仅是一个日志格式的问题 —— 它要求你的智能体架构能够透传这些信息。思维链(Chain-of-thought)推理模型让“原因”变得稍微易读一些,但原始的 CoT 并不是审计跟踪:它只是概率性的叙述,可以被操纵,且未与实际的工具调用锚定。审计跟踪必须构建在基础设施层中,而不是事后从模型输出中提取。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates