跳到主要内容

LLM系统中的数据质量税:劣质输入为何带来截然不同的代价

· 阅读需 10 分钟
Tian Pan
Software Engineer

当数据变得嘈杂时,你的梯度提升模型会礼貌地退化。准确率下降,精确率下降,监控告警触发,值班工程师知道该去哪里排查。LLM则不会这样。向LLM输入降级、陈旧或格式错误的数据,它产生的输出流畅、自信、听起来权威——但部分甚至完全是错的——而下游消费该输出的系统根本无从分辨。

这就是数据质量税:当劣质数据进入LLM管道时,你付出的复利代价——不是以低置信度分数的形式,而是以披着事实语法的幻觉来呈现。

行业数据触目惊心,但对于任何在规模上运营过这些系统的人来说并不意外。60%的企业将数据质量差列为AI项目失败的首要原因。针对主要前沿模型的研究发现,幻觉率平均为30%,部分模型每次错误响应会产生四个或更多幻觉。当数据质量问题污染检索管道时,生产准确率可能从95%跌至71%,而没有任何单一故障大到足以触发告警。

传统ML团队知道如何处理数据质量问题。LLM时代需要从头重新学习这些经验,因为故障模式在类型上截然不同。

为何LLM失败更响而传统ML失败更轻

关键洞察是,经典监督模型经过校准,会表达不确定性。逻辑回归输出概率,梯度提升树给你叶子节点覆盖率。当数据质量下降时,模型输出向决策边界偏移——置信度以可度量、可预测的方式降低。

LLM生成自然语言。语言没有内置的置信度分数。当你要求模型总结一份损坏的文档时,它不会说"我对这份摘要置信度很低"。它产生一段读起来就像完全理解了文档的段落。

这个研究术语叫做过度自信幻觉:模型将试探性或有归因的陈述转化为陈述性事实。在一项研究中,模型将一位参议员的观点——明确以此形式呈现——改写成了关于安全风险的无争议陈述。输入因框架而损坏,输出因放大而损坏。研究中观察到的幻觉里,50%被分类为中等严重程度,14%被分类为"令人担忧",即模型产生了看似有真实证据支撑的事实性错误陈述。

这对系统架构很重要,因为LLM的输出会流向某处。当下游组件收到一个自信错误的事实时,它没有信号来拒绝它。它继续处理,错误传播。

向量库并非你想象中那么中立

RAG架构引入了第二个大多数团队没有足够重视的故障面:向量索引。工程师们倾向于将向量库视为哑索引——在模型进行艰难工作之前获取相关文档的方式。但检索到什么的质量完全由索引了什么的质量决定,而这种质量会随时间悄然降级。

嵌入漂移是最普遍的问题,它以三种方式发生:

模型版本不匹配。 你的文档用嵌入模型v1建了索引。在某个时刻,你的查询路径开始使用v2。两个模型对语义的编码方式不同。查询和文档之间的余弦相似度现在跨越不兼容的向量空间计算,检索质量下降——但没有任何错误触发,因为数学仍然正常运行。

语料库陈旧。 文档不断添加但旧的嵌入不更新。随着领域演进,新术语和变化的概念进入语料库,而原始嵌入仍锚定在过时的语言上。对使用当前术语的查询,检索召回率下降。

分块不一致。 团队随时间更改分块大小、重叠参数或解析逻辑。在不同策略下创建的分块以不同的语义密度编码信息。索引在方式上变得异构,导致不可预测的检索行为。

数字是具体的。稳定的嵌入系统在等效分块之间随时间的余弦距离方差为0.0001–0.005。漂移的系统超过0.05。邻居持久性——同一规范查询是否返回相同的top-k结果——应保持在85%以上。当它降至40%以下时,检索已经有意义地退化。团队通常在用户抱怨答案明显变差之后才发现这一点。

一项基准测试显示,朴素的固定大小分块将忠实度分数从0.79–0.82降至0.47–0.51。这不是小幅下降。这意味着你的RAG系统在使用适当文档结构的情况下,只有一半的声明能得到事实支撑。模型不知道这一点,它填补了空白。

错误如何向下游传播

产生错误答案的单阶段LLM系统只是令人恼火。第一阶段为第二阶段提供输入的多阶段管道,才是让你在输出层面看到莫名其妙的复合故障的原因。

故障模式通常是:低质量或格式错误的输入→部分或错误的提取→该提取被嵌入或存储→后续检索返回损坏的表示→生成在损坏的上下文基础上产生幻觉内容→下游消费者将其视为事实。

加载中…
Let's stay in touch and Follow me for more thoughts and updates