跳到主要内容

Prompt 工程无法突破的数据质量天花板

· 阅读需 12 分钟
Tian Pan
Software Engineer

一家电信公司花了数月时间调优其客服聊天机器人的 Prompt。他们反复迭代系统指令、Few-shot 示例和思维链格式,但幻觉率始终顽固地维持在 50% 以上。后来他们审计了知识库,发现其中充斥着已下线的服务套餐、过时的账单信息,以及相互矛盾的重复政策文件。修复数据之后——而不是修改 Prompt——幻觉率骤降至接近零。Prompt 工程无法解决的问题,三周的数据清理就做到了。

这就是数据质量天花板:当 LLM 系统的输入数据存在噪声、过时或前后矛盾时,会出现一道性能硬墙,任何 Prompt 迭代都无法突破。这是生产环境 AI 最常见的失效模式之一,也是最被系统性低估的一种。撞上这堵墙的团队,往往还在不停拨弄 Prompt 旋钮,而问题的根源其实在上游。

为什么 Prompt 工程存在天花板

Prompt 工程作用于模型如何处理所收到的信息,但它无法改变模型收到的是什么。当一个检索增强系统向 LLM 的上下文窗口塞入同一政策的三个相互冲突的版本、两份过时的产品规格,以及一条重复的 FAQ 条目时,任何 Prompt 指令都无法改变这些文档的内容。模型被要求从混乱的输入中综合出一个连贯的答案。

由此产生的错误模式极具迷惑性,因为它们看起来像是模型失效。模型"弄混"了价格档位。它"捏造"了政策细节。它在不同会话中"前后矛盾"。责任被推给模型,再推给检索器,再推给 Embedding 模型——唯独没有指向真正的根源:文档语料库。

这种误判代价高昂。根据 2025 年 Gartner 的调查,63% 的组织要么缺乏针对 AI 的充分数据管理实践,要么不确定自己是否具备。行业后果是:预计到 2026 年,60% 的 AI 项目将被放弃,并不是因为模型不够好,而是因为输入数据不符合要求。

LLM 场景中"数据质量"的含义

LLM 系统中的数据质量与 SQL 管道中的数据质量并不相同。在事务型数据库中,"坏数据行"是指主键为空或日期格式错误的行。在 LLM 知识库中,质量的含义跨越多个维度。

准确性是指源文档是否反映了客观事实,以及这种真实性是否在语料库的所有文档中保持一致。跨业务部门的相互冲突定义(销售、财务和法务对"活跃账户"的理解各不相同)不会破坏 SQL 查询,却会打乱 LLM 的推理——因为模型会尝试将其归纳为一个单一答案。

新鲜度是指文档是否反映了当前的真实情况。从未删除的已废弃流程、上线后未更新的产品规格、早于法规修订的合规文件——这些内容都静静地躺在知识库中,如同隐藏的地雷。一旦检索器将它们找出来,模型便会将其视为权威依据。

完整性是指检索到的上下文是否足以让模型无需推断即可作答。当语料库中缺少关键信息时,模型会用训练数据中的模式来补全,而不是承认知识空白。这正是产生自信错误答案的根源。

结构完整性是指信息片段之间的关系在提取过程中是否得以保留。一份 PDF 中将产品 SKU 映射到价格档次的表格,传达的是特定的结构关系。如果 OCR 或文本提取将其线性化为一串 Token 而不保留任何关联,模型看到的是正确的数字,却丢失了映射关系。研究表明,在文档问答任务中,使用标准 OCR 与完美文本提取相比,正确答案率会下降 25.8%——不是因为文字变了,而是因为结构消失了。

诊断数据失效与模型失效

在这一领域,最重要的能力是判断你真正面对的是哪类问题。诊断流程分为四步。

追踪每次失败的检索路径。 对于每一个幻觉或错误答案,检查实际检索到了哪些文档。提取检索器返回的 Top-K 文本块并逐一阅读。如果错误出现在源文档中——如果错误信息就在检索到的上下文里——问题出在数据,而不是模型。如果错误信息根本不存在于检索到的上下文中,则是检索或 Prompt 未能为模型提供正确作答所需的内容。

与真实情况交叉验证。 取失败案例样本中检索到的文档,手动核实其准确性。过时文档会产生特定的失败特征:模型给出的答案在历史上某个时间点是正确的。多份相互冲突的文档则会产生另一种特征:模型在不同会话中给出摇摆不定的答案,或者产生无法给出明确结论的模糊回答。

独立测试检索效果。 直接运行搜索索引,不带 LLM。提交测试查询,评估 Top-K 结果是否真正相关。如果好的答案存在于语料库中但没有进入 Top-K,你面对的是检索问题。如果 Top-K 是相关的但模型仍然失败,你面对的是 Prompt 或模型问题。如果相关答案根本不存在于语料库中,你面对的是数据完整性问题。

寻找失败中的规律。 随机错误通常指向模型行为问题。系统性错误——集中在特定主题、文档类型或时间段的失败——几乎总是指向数据问题。一个在某一特定产品线问题上持续失败的系统,很可能是该产品的文档过时或缺失,而不是模型对该产品有偏见。

拖垮 RAG 性能的结构性问题

三类数据问题造成了生产环境中绝大多数的失败。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates