AI 知识库中的溯源债务:当 RAG 系统开始检索自身的输出
· 阅读需 10 分钟
你的 RAG 系统很可能正在把自己的输出编入索引。只是你还不知道而已。
一切往往从一件看似无害的事开始:有人把一份季度总结文档添加到了知识库。而这份总结,正是由查询该知识库的同一个 LLM 生成的。六个月后,开发者又加入了 AI 生成的版本说明,随后是自动生成的支持 FAQ,再然后是合成的入职指南。这些文档没有任何一份被标注为 AI 生成。对于检索系统而言,它们与人工撰写的一手资料看起来别无二致。于是,当你的模型检索上下文来回答问题时,其中相当一部分上下文是之前某次模型运行所输出的压缩版、甚至可能已经失真的结果——而你的准确率指标依然绿灯常亮。
这就是溯源债务:在检索语料库中,AI 生成的内容在没有来源标记的情况下不断累积,形成一个反馈循环——每一代模型的输出,都成为下一代模型的原始素材。
