引用链接依然有效,但内容已不再是模型引用的原文
一个 RAG 智能体用一段简洁的文字和一条引用回答了客户的监管问题。验证层获取了该 URL,看到返回码为 200 OK,勾选通过并发布。六个月后,合规性审计调取了对话记录,点击同一个链接,却发现页面现在的内容与智能体引用的完全相反。URL 没问题,对话记录中的引用也没问题,但两者不再匹配。客户的合规官询问智能体是否捏造了引用,而团队无法证明它没有捏造,因为证明该 URL 过去内容的唯一证据就是智能体自己声称它说过什么。
这不是通常意义上的幻觉。模型检索到了真实内容,忠实地提取了真实的句子,并给出了一个至今仍可解析的真实 URL。世界上任何链接检查工具都会认为这个引用是有效的。然而,审计依然失败了,因为验证层衡量的是错误的属性。可访问性(Reachability)并不等同于忠实度(Fidelity)。URL 只是指向受他人编辑控制的可变文档的指针,一旦文档发生变化,每一份引用它的对话记录都会变成一个随时可能爆发的“幻觉报告”。
2016 年的一项学术引用研究发现,学术出版物中大约四分之三的 URI 引用所指向的内容在引用后发生了实质性变化。这个数字比大语言模型(LLM)早了五年。如果再加上一个每天向成千上万名客户引用这些 URL 的智能体,审计轨迹的腐烂速度将与开放网络的速度同步——也就是说,比你制定的数据留存策略失效得更快。
URL 耐久性不等于来源耐久性
大多数团队交付的验证层将引用视为 (声明, URL) 的二元组,并通过获取 URL 并检查响应状态码来验证。这是一个范畴错误。声明是对文档在特定时间点的表述。URL 则是一个指向当前位于该位置的任何内容的名称。两者在引用时相关,此后永远脱节。
在这种混淆中隐藏着三种失效模式。页面在原位被静默编辑,没有版本标识,且 URL 持续可解析——这是大多数新闻网站、监管门户和公司控制的文档的标准编辑流程。页面被移动,重定向返回了相同逻辑名称下的另一个文档——这在 CMS 迁移和收购中很常见。页面被删除并替换为软 404(返回 200 OK 但不包含原始声明)——这在撤回内容是核心目的的合规场景中非常普遍。
在这三种情况下,验证检查都会通过。但被引用的声明已不再存在于引用的位置。对话记录是唯一记录了模型认为它在引用什么的产物,而对话记录的权威性正是争议所在。
