大多数 RAG 系统在部署时都配备了向量数据库、几千个 embeddings，并假设语义相似度已经足够接近正确性。事实并非如此。这种“语义相似”与“实际正确”之间的差距，正是 73% 的 RAG 系统在生产环境中失败的原因，而且几乎所有这些失败都发生在检索阶段 —— 甚至在 LLM 生成任何文字之前。

“对文档进行嵌入、使用余弦相似度查询、将 top-k 传递给 LLM”的 standard playbook 在演示中有效，是因为演示查询是经过设计的。生产环境的查询则不然。用户搜索的是产品 ID、发票号码、监管代码、拼错的竞争对手名称，以及单个 embedding 向量在几何上无法满足的多重约束问题。稠密向量搜索并没有错 —— 只是它并不完整。构建一个在生产环境中真正起作用的检索栈，需要理解其中的原因，并层层加入能够弥补这些缺陷的组件。

超越 RAG：混合搜索、智能体检索以及真正重要的数据库设计决策

2025年10月2日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数团队将 RAG 上线并称之为检索策略。他们将文档分块、嵌入、存储向量，并在查询时运行最近邻搜索。这在演示中效果足够好。然而在生产环境中，用户开始报告系统找不到他们知道存在的文章、遗漏文档中字面意义上的错误代码，或者返回语义相似但事实错误的内容。

问题不在于 RAG。问题在于将检索视为一个一维问题，而它实际上一直都是多维的。

关于 Tian Pan