跳到主要内容

Prompt 工程无法突破的数据质量天花板

· 阅读需 12 分钟
Tian Pan
Software Engineer

一家电信公司花了数月时间调优其客服聊天机器人的 Prompt。他们反复迭代系统指令、Few-shot 示例和思维链格式,但幻觉率始终顽固地维持在 50% 以上。后来他们审计了知识库,发现其中充斥着已下线的服务套餐、过时的账单信息,以及相互矛盾的重复政策文件。修复数据之后——而不是修改 Prompt——幻觉率骤降至接近零。Prompt 工程无法解决的问题,三周的数据清理就做到了。

这就是数据质量天花板:当 LLM 系统的输入数据存在噪声、过时或前后矛盾时,会出现一道性能硬墙,任何 Prompt 迭代都无法突破。这是生产环境 AI 最常见的失效模式之一,也是最被系统性低估的一种。撞上这堵墙的团队,往往还在不停拨弄 Prompt 旋钮,而问题的根源其实在上游。

为什么 Prompt 工程存在天花板

Prompt 工程作用于模型如何处理所收到的信息,但它无法改变模型收到的是什么。当一个检索增强系统向 LLM 的上下文窗口塞入同一政策的三个相互冲突的版本、两份过时的产品规格,以及一条重复的 FAQ 条目时,任何 Prompt 指令都无法改变这些文档的内容。模型被要求从混乱的输入中综合出一个连贯的答案。

由此产生的错误模式极具迷惑性,因为它们看起来像是模型失效。模型"弄混"了价格档位。它"捏造"了政策细节。它在不同会话中"前后矛盾"。责任被推给模型,再推给检索器,再推给 Embedding 模型——唯独没有指向真正的根源:文档语料库。

这种误判代价高昂。根据 2025 年 Gartner 的调查,63% 的组织要么缺乏针对 AI 的充分数据管理实践,要么不确定自己是否具备。行业后果是:预计到 2026 年,60% 的 AI 项目将被放弃,并不是因为模型不够好,而是因为输入数据不符合要求。

LLM 场景中"数据质量"的含义

LLM 系统中的数据质量与 SQL 管道中的数据质量并不相同。在事务型数据库中,"坏数据行"是指主键为空或日期格式错误的行。在 LLM 知识库中,质量的含义跨越多个维度。

准确性是指源文档是否反映了客观事实,以及这种真实性是否在语料库的所有文档中保持一致。跨业务部门的相互冲突定义(销售、财务和法务对"活跃账户"的理解各不相同)不会破坏 SQL 查询,却会打乱 LLM 的推理——因为模型会尝试将其归纳为一个单一答案。

新鲜度是指文档是否反映了当前的真实情况。从未删除的已废弃流程、上线后未更新的产品规格、早于法规修订的合规文件——这些内容都静静地躺在知识库中,如同隐藏的地雷。一旦检索器将它们找出来,模型便会将其视为权威依据。

完整性是指检索到的上下文是否足以让模型无需推断即可作答。当语料库中缺少关键信息时,模型会用训练数据中的模式来补全,而不是承认知识空白。这正是产生自信错误答案的根源。

结构完整性是指信息片段之间的关系在提取过程中是否得以保留。一份 PDF 中将产品 SKU 映射到价格档次的表格,传达的是特定的结构关系。如果 OCR 或文本提取将其线性化为一串 Token 而不保留任何关联,模型看到的是正确的数字,却丢失了映射关系。研究表明,在文档问答任务中,使用标准 OCR 与完美文本提取相比,正确答案率会下降 25.8%——不是因为文字变了,而是因为结构消失了。

诊断数据失效与模型失效

在这一领域,最重要的能力是判断你真正面对的是哪类问题。诊断流程分为四步。

追踪每次失败的检索路径。 对于每一个幻觉或错误答案,检查实际检索到了哪些文档。提取检索器返回的 Top-K 文本块并逐一阅读。如果错误出现在源文档中——如果错误信息就在检索到的上下文里——问题出在数据,而不是模型。如果错误信息根本不存在于检索到的上下文中,则是检索或 Prompt 未能为模型提供正确作答所需的内容。

与真实情况交叉验证。 取失败案例样本中检索到的文档,手动核实其准确性。过时文档会产生特定的失败特征:模型给出的答案在历史上某个时间点是正确的。多份相互冲突的文档则会产生另一种特征:模型在不同会话中给出摇摆不定的答案,或者产生无法给出明确结论的模糊回答。

独立测试检索效果。 直接运行搜索索引,不带 LLM。提交测试查询,评估 Top-K 结果是否真正相关。如果好的答案存在于语料库中但没有进入 Top-K,你面对的是检索问题。如果 Top-K 是相关的但模型仍然失败,你面对的是 Prompt 或模型问题。如果相关答案根本不存在于语料库中,你面对的是数据完整性问题。

寻找失败中的规律。 随机错误通常指向模型行为问题。系统性错误——集中在特定主题、文档类型或时间段的失败——几乎总是指向数据问题。一个在某一特定产品线问题上持续失败的系统,很可能是该产品的文档过时或缺失,而不是模型对该产品有偏见。

拖垮 RAG 性能的结构性问题

三类数据问题造成了生产环境中绝大多数的失败。

重复与近似重复文档是最常见、也最容易被低估的问题。精确重复很容易检测和删除。近似重复——同一政策在不同日期被改写、同一 FAQ 在三个内部 Wiki 上措辞略有差异——则更难处理。它们会在语义空间中使 Embedding 偏斜,产生冗余检索结果从而挤占多样化的相关内容,还会使评估指标失效(当"正确"文档存在两份时,检索召回率的计算就会产生误导)。在摄入阶段,使用 MinHash 或 Jaccard 距离进行语义相似度检测,可以找出字符串匹配遗漏的近似重复文档。

陈旧内容与当前内容共存是新鲜度失效的典型模式。知识库随时间积累了层层叠叠的文档:最初的规格、更新版、修订版、紧急补丁、官方重写。如果没有明确的版本元数据和淘汰已废弃文档的流程,这些版本会全部共存。检索器无法判断哪个版本才是权威。模型试图将它们调和统一。一家企业医疗系统发现,知识库中过时的医疗指南导致其临床决策支持工具推荐了已被取代的诊疗程序——不是因为模型判断有误,而是因为语料库告诉它旧的诊疗程序是正确的。

提取过程中的结构信息丢失是那些认为自己提取管道没问题的团队最意外遭遇的天花板。含有嵌入表格的 PDF、电子表格,以及布局复杂的文档,在被线性化为纯文本时会丢失结构关系。数字保留了下来,但数字之间关系的意义却消失了。价格表变成了一串数字,决策矩阵变成了一个段落。模型推断出的关系,正是提取过程销毁的那些。同时保留视觉表征和提取文本的多模态检索方法,可以恢复提取失败所损失的约 70% 的准确率。

真正能改变结果的手段

突破数据质量天花板的干预措施在上游,而不在下游。

索引前去重是杠杆最高的单一干预手段。一个在摄入时检测语义近似重复并选取规范版本(最新版、权威来源、已发布状态)的 MinHash 管道,能在不改动检索器架构的情况下消除检索噪声。持续实施这一方法的团队,普遍看到检索精度的提升。

元数据富化让检索器能够使用语义相似度无法捕捉的信号。文档所有者、发布日期、版本号、领域分类、权威级别——当这些元数据在摄入过程中被保留并在检索时可查询时,系统就能在语义排序之前过滤出当前的权威文档。仅靠元数据富化,就已被证明能在不改动检索架构的情况下,将 RAG 精度从 73% 提升到 83%。

按文档类型设定新鲜度 SLA。 根据领域变化速度,为不同文档类别设定重新认证的时间线。法律合规文件可能需要每月审核;产品规格每季度;历史案例研究每年。自动监控标记出临近或超过重新认证日期的文档,让陈旧问题在演变为生产故障之前就变得可见。

在 Prompt 迭代之前构建黄金数据集。 如果你没有包含人工验证问答对的基准评估集,你就无法区分 Prompt 失败与数据失败——你只能观察到输出结果是错误的。构建这个评估集是一切工作的前提。它也是告诉你某次数据质量修复是否真正奏效、还是只是把错误转移了的基础设施。

一家金融科技公司的案例说明了这种方法的投资回报:清理 15% 的错误标注训练数据——聚焦于标注质量而非数据量——在不做任何架构调整的情况下,将准确率从 89% 提升到了 93%。在高质量领域数据上微调的 70 亿参数模型,在专业任务上持续优于通用的 700 亿参数模型。模型规模溢价往往买的是容忍劣质数据的余量,而不是真正的能力。

复利效应

数据质量问题会产生复利。过时文档导致错误答案。错误答案侵蚀用户信任。用户不再通过反馈纠正系统。没有反馈,错误无法被检测。未被检测的错误积累。知识库持续与现实脱节。这与"六个月悬崖"是同一条退化曲线——小故障无声积累,最终演变为用户不再信任的系统。

复利效应也可以反向运作。每一次数据质量改进都有乘数效应:更好的数据提升检索精度,检索精度降低上下文窗口中的噪声,噪声减少让模型获得更好的推理素材,推理素材变好降低幻觉率,幻觉率降低意味着展示给用户的输出更加可靠。数据质量提升 10%,端到端答案质量的改善往往超过 10%。

从哪里开始

如果你正在遭遇 Prompt 迭代无法推动的性能瓶颈,诊断顺序如下:

  1. 审计前 20 个失败案例,逐一追踪检索路径。将失败分类为数据失败(检索到了错误信息)、检索失败(正确信息未被检索到)或模型失败(正确信息已检索到,但生成了错误答案)。
  2. 如果超过三分之一属于数据失败,停止 Prompt 迭代,开始数据审计。
  3. 从语料库中抽取 100 份文档,手动评估其准确性、新鲜度和结构完整性。将错误率外推,估算整个语料库的问题规模。
  4. 对全量语料库执行去重,测量去重前后的检索精度变化。
  5. 构建或扩充黄金评估集,使后续的每次改动都有可衡量的效果。

这项工作远不如 Prompt 工程那么光鲜。它不会立刻产生模型行为的可见变化。但它是突破天花板的那项工作。

结语

能够构建可靠生产 AI 系统的组织,是那些将数据质量视为一等工程问题而非事后补救的组织。当模型是瓶颈时,Prompt 工程是高杠杆工具。当数据是瓶颈时,它是用错了地方的工具——而它所制造的天花板,在你浪费数月时间做错误的干预之前,往往是隐形的。

AI 的竞争优势正在从谁拥有最好的模型,转向谁拥有最好的数据实践。一个维护良好、去重彻底、内容新鲜的知识库,搭配一个中等水平的检索器,会胜过最先进的检索器搭配一个疏于维护的语料库。修好数据,Prompt 往往也会自动修好自己。

References:Let's stay in touch and Follow me for more thoughts and updates