被你的 RAG 当成工程规范引用的那张营销页
· 阅读需 10 分钟
一位支持工程师把客户工单粘进你内部的 AI 助手。问题很尖锐:"我们的 API 在免费层支持多区域写入吗?"助手秒回,引用了一个余弦相似度 0.91 的片段。答案是肯定的。这个片段来自 2023 年市场部为打赢竞品对比写的落地页。十八个月前,工程团队就把免费层的多区域写入功能下掉了,并发了一份没人在客户页面上链接过的、措辞简短的内部 RFC。这份 RFC 也在向量库里,只拿到了 0.74。
助手并没有幻觉。它检索到了得分最高的文档,然后忠实地把答案锚定在那段文本上。检索器尽到了职责。只是,那份职责本身就是错的。
这是没有任何 RAG 基准能抓到、也没有任何 faithfulness 指标会报警的失败模式。你的助手在引用来源。来源是真实存在的。流水线在做它被设计去做的事。Bug 在于:检索相关性与来源权威性是两个不同的维度,而标准 RAG 栈把它们压成了同一个分数。
