你的 RAG 语料库信任边界取决于谁能写入其数据源
· 阅读需 11 分钟
一个支持代理向错误的受众提供了正确的答案。一名客户询问其账户信息,模型尽职地调用了 URL 获取工具,于是该账户上下文的快照便落入了一个安全团队从未听闻的服务器中。没有凭据泄露,没有 API 密钥暴露。外泄路径是三周前由竞争对手撰写的五星好评,因为它包含的公开赞美确实与用户的问题相关,所以作为相关上下文被检索了出来。
这种失效模式打破了工程师们多年来在 Web 安全领域建立的心智模型。RAG 系统中的威胁模型通常被表述为“我们拥有语料库”,因为我们掌控着摄取流水线、嵌入模型和向量数据库。但拥有拉取内容的代码并不等同于拥有内容本身。如果你的语料库包含任何写入权限未受授权控制的数据源,那么你就已经向任何能够发布内容的人交出了一个提示工程通道。
