跳到主要内容

检索流水线的数据驻留:那些跨境而去的 Embedding,以及并未跨境的 LLM 调用

· 阅读需 11 分钟
Tian Pan
Software Engineer

交付 “面向欧盟客户的 AI” 的团队通常只交付一种驻留控制:锁定在欧盟地区的推理端点。采购团队拿到 DPA,架构图在 “模型托管在法兰克福” 旁边打上绿色对勾,接着发布。架构图中没显示的是:客户的原始查询在前往模型的途中被美国托管的嵌入 API 向量化;查询与之匹配的向量存储的运维平面位于 us-east-1;重排序模型是部署在供应商自选地区的第三方 SaaS;提示词缓存在命中的情况下是按地区键入的,而在未命中的情况下则是全局的;记录检索块的追踪存储有一个 30 天的保留期存储桶,并为了冗余进行跨区域复制。

推理层遵守了驻留规定。而检索流水线甚至不知道自己也是参与者。

这就是大多数 “符合 GDPR” 的 RAG 部署在面临团队甚至没意识到会到来的审计时失败的缺口。修复方案不是针对模型调用增加另一个控制 —— 而是意识到数据驻留是客户字节所接触的每个组件的属性,并且拥有 “LLM” 的团队最多只拥有涉及到的六个表面中的一个。

流水线有六个驻留表面,而不是一个

当用户向锁定区域的 RAG 系统提交查询时,以下是实际的网络调用列表 —— 其中每一个都是潜在的跨境传输:

  1. 查询嵌入 (Query embedding)。 用户的原始文本被发送到嵌入模型,通常是第三方 API (OpenAI, Cohere, Voyage)。请求负载包含原始形式的客户数据。
  2. 向量查找 (Vector lookup)。 在向量数据库 (Pinecone, Weaviate, Qdrant, pgvector) 中查询嵌入。数据平面和运维/控制平面通常位于不同区域。
  3. 关键词或混合搜索 (Keyword or hybrid search)。 BM25 或全文索引与向量搜索并行运行。该索引有自己的部署区域和备份策略。
  4. 重排序 (Rerank)。 交叉编码器根据查询对前 K 个候选进行重排序。大多数团队使用托管 API (Cohere Rerank, Voyage Rerank, Jina)。查询和候选段落都会传输到重排序供应商部署的任何区域。
  5. LLM 推理 (LLM inference)。 锁定调用 —— 驻留政策围绕其设计的调用。
  6. 追踪 + 可观测性 (Trace + observability)。 每个检索到的块、每个提示词、每个输出都会记录到追踪存储 (LangSmith, Phoenix, Datadog LLM Observability, Helicone) 中。追踪存储有自己的区域、保留等级,通常还有自己的复制策略。

典型的生成式 AI 应用现在涵盖了模型 API、向量存储、可观测性后端、评估框架、提示词缓存层,以及进入微调或偏好数据的反馈循环。这些表面中的每一个都是潜在的跨境传输。仅关注 “模型在何处运行” 的论点忽略了六分之五的环节。

即使通过了 “我们将其托管在法兰克福” 审查,仍会存在的三个失效模式

架构图上没出现的嵌入 API。 团队之所以从 SaaS 供应商那里选择嵌入模型,是因为它在他们的语料库上表现良好。供应商的 API 只有一个全局端点。欧盟用户键入的每一个查询都会被原封不动地发送 —— 姓名、电子邮件、自由文本投诉,无论他们输入了什么 —— 到美国的数据中心进行向量化。向量返回,向量查找在区域内发生,LLM 调用在区域内发生,团队真心认为系统符合驻留要求,因为字节 “在模型调用中没有离开该区域”。字节在早一跳的时候就已经离开了该区域,只是没人画出那个箭头。

控制平面位于数据平面不在的地方。 托管向量数据库现在统一提供区域数据平面。它们的控制平面 —— 仪表板、索引管理 API、运维遥测、每查询延迟日志 —— 通常并不提供。了解内情的监管机构会询问查询文本是否出现在该区域以外的任何系统中。答案几乎总是肯定的:查询延迟日志通过全局可观测性后端发送,并附带提示词或块内容作为标签,以便调试。

命中的情况下是地区性的,而在未命中的情况下则是全局的提示词缓存。 缓存查找是基于提示词哈希值的。哈希查找是地区性的。在缓存未命中的情况下,系统会回落到可能位于其他地方的 “共享” 路径。斯坦福大学的研究人员在 2025 年检测到七家 API 提供商存在跨用户的全局缓存共享 —— 这意味着缓存甚至没有按租户隔离,更不用说按区域了。如果你对延迟敏感的前端依赖于缓存命中,那么缓存的驻留态势就是你驻留态势的一部分,而提供商的默认设置未必是你所假设的那样。

组织架构才是缺口真正存在的地方

技术缺口映射到了组织缺口上,而组织架构图通常是更容易首先调试的地方。在大多数交付 RAG 的企业中:

  • AI 团队 拥有模型端点和提示词模板。
  • 平台团队 拥有向量数据库部署。
  • 搜索/检索团队 拥有重排序服务和关键词索引。
  • 可观测性团队 拥有追踪存储和仪表板。
  • 安全/合规团队 拥有 DPA 以及与客户的驻留合同。
加载中…
References:Let's stay in touch and Follow me for more thoughts and updates