跳到主要内容

摘要有效性问题:如何识破 AI 压缩掉的关键信息

· 阅读需 12 分钟
Tian Pan
Software Engineer

摘要失败往往是隐性的。你的系统不会崩溃,日志不会标记错误,生成的文本看起来也很连贯——但在压缩过程中的某个地方,对下游任务至关重要的那个事实被丢掉了。RAG 流水线返回了一个自信的答案。多跳推理器得出了一个结论。客服代理给出了建议。所有这些都基于一个不再包含原始约束、例外或答案所依赖的数据点的摘要。

这就是摘要有效性问题:即“与原文保持一致”的摘要与“保留下游任务所需信息”的摘要之间的差距。大多数团队并没有针对此进行度量。他们上线的流水线只验证了摘要的存在,而不是摘要的完整性。

为什么摘要在生产环境的 AI 中无处不在

在讨论如何衡量这个问题之前,值得先梳理一下它存在于何处。摘要不仅仅是一个“总结此文档”的功能。它是大多数生产级 AI 系统中承担负载的基础设施。

聊天记录压缩是最常见的例子。随着对话超出上下文限制,系统会压缩较早的片段以释放 Token。在 10:1 的压缩率下,上下文管理运行得非常出色,直到用户引用了十二轮对话前提到的一个约束——而那个约束已被压缩成了无关紧要的内容。

RAG 文档消化在将检索到的块传递给生成步骤之前应用摘要。流水线的幻觉率应该会提高,因为检索提供了事实依据。但检索精度和摘要忠实度会产生叠加效应:如果检索找到了正确的文档,但摘要丢掉了相关的条款,那么基于事实依据的优势就会荡然无存。

长上下文蒸馏处理那些甚至超出扩展上下文窗口的输入文档。多文档任务、长 PDF 或语料库规模的检索都需要预压缩。即使扩展到 128K Token 的模型仍然会应用上下文管理;研究表明,除非使用显式的蒸馏目标,否则这种扩展会明显降低短文本的性能。

多步推理流水线在中间跳应用摘要。每一步都会在向下传递之前总结其发现。这种失败是复合的:在第二步丢失的信息在第三步是无法恢复的。保留完整中间证据的系统可以在边界处检测到错误;而在每一步都进行摘要的系统产生的结论虽然内部逻辑连贯,但在事实层面已经退化。

抓不住重点的指标

针对摘要质量问题的标准反应是 ROUGE。它速度快、可解释性强,但对于摘要是否能服务于下游任务几乎没有发言权。

ROUGE 衡量生成的摘要与参考摘要之间的 n-gram 重叠。一个达到 0.65 ROUGE-1 的摘要被那些基于 CNN/DailyMail 头条建立这些阈值的基准认为是合格的。但设计这些基准的研究人员警告说,仅靠 ROUGE 来跟踪进度是“令人怀疑的”——他们只是没有一个足够廉价的标准来替代它。

BERTScore 表现更好。上下文嵌入能捕捉到 n-gram 重叠无法识别的语义重构,这在抽象式摘要对内容进行改写时很有帮助。标准基准上的平均 BERTScore 约为 0.75,而 ROUGE 约为 0.65。尽管如此,BERTScore 衡量的是摘要在语义空间中是否与原文相似。它并不衡量摘要是否能回答下游任务将提出的特定问题。

SummaC 是一种基于 NLI 的方法,它将摘要分解为句子对并对蕴含关系进行评分,在不一致性检测方面实现了 74% 的平衡准确率——这是自动忠实度检查的先进水平。但它在隐性幻觉上的得分仅为 58.5%:即那些虽然没有直接矛盾原文但未得到原文支持的断言。遗漏比矛盾更难检测。

共同点在于:这些指标旨在衡量摘要是否对原文忠实。它们都没有直接衡量摘要是否保留了特定下游任务所需的信息。

规模是隐藏变量

建立在短文档基础上的基准测试信心是 AI 工程中生产环境意外最可靠的来源之一。一个在标准新闻文章上实现 0.7% 幻觉率(基本可以忽略不计)的模型,在企业级长度的文档上幻觉率达到 3.3%。在多个领域验证显示,这种性能在规模扩大时退化了 4.7 倍。

这种现象背后的机制并不神秘。一项 2024 年针对六个摘要数据集的研究记录了一条“U 形”忠实度曲线:模型能忠实地处理文档的开头和结尾,但系统性地忽略文档中间的内容。文档开头的忠实度约为 90%。文档中间的忠实度降至 65%。这并不是某个模型特有的 Bug——这是注意力机制在长序列中表现出的结构性特征。

如果你的验证数据集使用的是 200-500 Token 的文档,你测试的是忠实度曲线的头和尾。而你的生产数据通常更长。实验室评估与生产表现之间的覆盖差距并不是一个被推迟处理的“已知的未知”——它是一个在评估中从未出现过的“未知的未知”。

实际意义非常明确:回归测试套件必须包含生产规模的文档。短、中(1K-5K Token)、长(8K-32K Token)以及多文档输入应属于不同的评估桶,因为幻觉率在这些维度上是非线性的。

将完整性重新定义为一种契约

从“验证摘要是否存在”转向“验证摘要是否保留了与任务相关的内容”,这需要改变你所定义的内容,而不只是衡量标准。

一个有用的抽象是完整性契约 (completeness contract):对压缩过程中必须保留的信息进行的正式规范。契约让信息丢失变得可见且可测试,而不是无声且隐现的。

在医疗领域,出院小结摘要的完整性契约将包括:药物名称和剂量、禁忌症、随访指令、当前诊断。一项对 450 份临床出院小结的研究发现,其中有 191 个幻觉句子,且 44% 的幻觉属于重大错误——影响了诊断或管理。最常见的失败是“计划 (Plan)”部分遗漏了随访计划,该特定字段的重大幻觉率为 21%。如果有一个明确列出“必须出现随访指令”的完整性契约,就能在信息送达患者之前拦截这类错误。

完整性契约最具体的可操作化方式是基于问答的验证 (QA-based verification)。从源文档生成问答对,然后衡量摘要对这些问题的可回答性。源文档可以回答但摘要无法回答的问题代表了丢失的信息。这直接映射到任务相关性:如果你下游的问答流水线需要回答“处方药 X 的剂量是多少”,这就成为了一个测试案例。

一个具体的例子:RAG 完整性契约可能会规定“摘要必须支持回答用于检索该文档的三个问题”。如果检索因为匹配了查询 Q 而找到了某文档,那么该文档的摘要必须仍能回答 Q。如果摘要破坏了相关的条款,那么检索精度再高也无济于事。

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates