Prompt 工程无法突破的数据质量天花板

2026年4月20日 · 阅读需 12 分钟

Software Engineer

一家电信公司花了数月时间调优其客服聊天机器人的 Prompt。他们反复迭代系统指令、Few-shot 示例和思维链格式，但幻觉率始终顽固地维持在 50% 以上。后来他们审计了知识库，发现其中充斥着已下线的服务套餐、过时的账单信息，以及相互矛盾的重复政策文件。修复数据之后——而不是修改 Prompt——幻觉率骤降至接近零。Prompt 工程无法解决的问题，三周的数据清理就做到了。

这就是数据质量天花板：当 LLM 系统的输入数据存在噪声、过时或前后矛盾时，会出现一道性能硬墙，任何 Prompt 迭代都无法突破。这是生产环境 AI 最常见的失效模式之一，也是最被系统性低估的一种。撞上这堵墙的团队，往往还在不停拨弄 Prompt 旋钮，而问题的根源其实在上游。

为什么 Prompt 工程存在天花板

Prompt 工程作用于模型如何处理所收到的信息，但它无法改变模型收到的是什么。当一个检索增强系统向 LLM 的上下文窗口塞入同一政策的三个相互冲突的版本、两份过时的产品规格，以及一条重复的 FAQ 条目时，任何 Prompt 指令都无法改变这些文档的内容。模型被要求从混乱的输入中综合出一个连贯的答案。

由此产生的错误模式极具迷惑性，因为它们看起来像是模型失效。模型"弄混"了价格档位。它"捏造"了政策细节。它在不同会话中"前后矛盾"。责任被推给模型，再推给检索器，再推给 Embedding 模型——唯独没有指向真正的根源：文档语料库。

这种误判代价高昂。根据 2025 年 Gartner 的调查，63% 的组织要么缺乏针对 AI 的充分数据管理实践，要么不确定自己是否具备。行业后果是：预计到 2026 年，60% 的 AI 项目将被放弃，并不是因为模型不够好，而是因为输入数据不符合要求。

LLM 场景中"数据质量"的含义

LLM 系统中的数据质量与 SQL 管道中的数据质量并不相同。在事务型数据库中，"坏数据行"是指主键为空或日期格式错误的行。在 LLM 知识库中，质量的含义跨越多个维度。

准确性是指源文档是否反映了客观事实，以及这种真实性是否在语料库的所有文档中保持一致。跨业务部门的相互冲突定义（销售、财务和法务对"活跃账户"的理解各不相同）不会破坏 SQL 查询，却会打乱 LLM 的推理——因为模型会尝试将其归纳为一个单一答案。

新鲜度是指文档是否反映了当前的真实情况。从未删除的已废弃流程、上线后未更新的产品规格、早于法规修订的合规文件——这些内容都静静地躺在知识库中，如同隐藏的地雷。一旦检索器将它们找出来，模型便会将其视为权威依据。

完整性是指检索到的上下文是否足以让模型无需推断即可作答。当语料库中缺少关键信息时，模型会用训练数据中的模式来补全，而不是承认知识空白。这正是产生自信错误答案的根源。

结构完整性是指信息片段之间的关系在提取过程中是否得以保留。一份 PDF 中将产品 SKU 映射到价格档次的表格，传达的是特定的结构关系。如果 OCR 或文本提取将其线性化为一串 Token 而不保留任何关联，模型看到的是正确的数字，却丢失了映射关系。研究表明，在文档问答任务中，使用标准 OCR 与完美文本提取相比，正确答案率会下降 25.8%——不是因为文字变了，而是因为结构消失了。

诊断数据失效与模型失效

在这一领域，最重要的能力是判断你真正面对的是哪类问题。诊断流程分为四步。

追踪每次失败的检索路径。 对于每一个幻觉或错误答案，检查实际检索到了哪些文档。提取检索器返回的 Top-K 文本块并逐一阅读。如果错误出现在源文档中——如果错误信息就在检索到的上下文里——问题出在数据，而不是模型。如果错误信息根本不存在于检索到的上下文中，则是检索或 Prompt 未能为模型提供正确作答所需的内容。

与真实情况交叉验证。 取失败案例样本中检索到的文档，手动核实其准确性。过时文档会产生特定的失败特征：模型给出的答案在历史上某个时间点是正确的。多份相互冲突的文档则会产生另一种特征：模型在不同会话中给出摇摆不定的答案，或者产生无法给出明确结论的模糊回答。

独立测试检索效果。 直接运行搜索索引，不带 LLM。提交测试查询，评估 Top-K 结果是否真正相关。如果好的答案存在于语料库中但没有进入 Top-K，你面对的是检索问题。如果 Top-K 是相关的但模型仍然失败，你面对的是 Prompt 或模型问题。如果相关答案根本不存在于语料库中，你面对的是数据完整性问题。

寻找失败中的规律。 随机错误通常指向模型行为问题。系统性错误——集中在特定主题、文档类型或时间段的失败——几乎总是指向数据问题。一个在某一特定产品线问题上持续失败的系统，很可能是该产品的文档过时或缺失，而不是模型对该产品有偏见。

拖垮 RAG 性能的结构性问题

三类数据问题造成了生产环境中绝大多数的失败。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

Prompt 工程无法突破的数据质量天花板

为什么 Prompt 工程存在天花板

LLM 场景中"数据质量"的含义

诊断数据失效与模型失效

拖垮 RAG 性能的结构性问题

Recommended Reading

关于 Tian Pan

为什么 Prompt 工程存在天花板​

LLM 场景中"数据质量"的含义​

诊断数据失效与模型失效​

拖垮 RAG 性能的结构性问题​

Recommended Reading

关于 Tian Pan

为什么 Prompt 工程存在天花板

LLM 场景中"数据质量"的含义

诊断数据失效与模型失效

拖垮 RAG 性能的结构性问题