RAG知识库新鲜度:团队最后才解决的数据陈旧问题
· 阅读需 12 分钟
大多数RAG团队会花数月时间调整分块大小、尝试不同的嵌入模型、争论混合搜索配置。然后他们上线,宣告成功,转身离开。六个月后,用户开始抱怨系统给出错误答案——团队才发现,当初精心构建的索引已经悄然腐化。
索引新鲜度是最后才被解决的问题,通常是在用户投诉事故之后才被重视,而非之前。与检索质量问题会立即在评测中暴露不同,数据陈旧是无声无息的退化:延迟保持平稳,检索看似正常,上下文召回率和忠实度等标准RAG指标评分良好——直到系统自信地返回几个月前就已更新的政策时,才会东窗事发。
这就是知识衰减问题。它比论文中描述的更为普遍。对企业RAG部署的研究发现,在成功完成概念验证后失败的项目中,60%失败的原因不是检索质量,而是无法在规模化场景下维持数据新鲜度。
