为什么视觉模型在基准测试中表现卓越，却在你的企业级 PDF 上折戟沉沙

2026年4月19日 · 阅读需 12 分钟

Software Engineer

一个在文档理解数据集上达到 97% 准确率的基准测试结果看起来非常有说服力，直到你针对公司的实际发票存档运行它，才发现它正在静默地搞乱 30% 的行项目。模型不会报错，也不会返回低置信度，它只是产生了一个看起来合情合理但却是错误的输出。

这是生产级文档 AI 的典型失效模式：静默损坏 (silent corruption)。与崩溃或异常不同，静默损坏会发生传播。乱码的单元格流入下游聚合，聚合信息喂给报告，报告驱动决策。当你意识到问题时，追踪根本原因就像是在搞考古。

文档 AI 在基准测试表现与生产环境表现之间的差距是真实存在的、持久的，且被评估这些模型的团队所低估。理解为什么会存在这种差距——以及如何防御它——正是本文要解决的工程问题。

基准测试与现实的差距并非舍入误差

看看这些数字。在受控条件下，干净印刷文本的 OCR 准确率可达 96.5–99%。但在带有公式和复杂图表的学术论文上，顶尖的多模态模型准确率会下降到 60% 左右。对于带有手写批注的合同或医疗表格等手写文档，准确率会降至 80% 左右。在劣质扫描件上——如低分辨率手机照片、褪色的墨迹、复印过五次的文档——表现差异巨大，如果不针对你特定的文档分布进行测试，几乎无法预测。

结构化数据使情况变得更糟。文本提取准确率和结构恢复准确率并不是同一个指标。在针对 800 多份文档和 7 个前沿模型的一项基准测试中，一个备受推崇的模型实现了 75% 的文本准确率，但结构恢复准确率仅为 13%。该模型能读出文字，但无法重建表格。

核心问题在于基准测试数据集是经过策划的。它们代表了最佳情况：干净的扫描件、标准的布局、单一语言、无标注、无水印。而企业文档库代表了最坏的情况：文档在多年实际使用中积累的一切问题。基准测试分布与生产分布的重合度并没有准确率数字所暗示的那么高。

OmniDocBench 是一个 2025 年的基准测试，涵盖了来自 10 种文档类型和 5 种语言的 1,651 个 PDF 页面，研究发现即使是最先进的 pipeline 方法在处理学术论文和包含混合布局的文档时也表现吃力。没有任何单一模型能在所有类别中占据主导地位。更重要的是，该基准测试包含了与典型训练数据完全不同的文档类型——手写笔记、报纸、带有嵌入图表的财务申报。同一模型在不同文档类型上的性能差异超过 55 个百分点。

企业文档中究竟哪里出了问题

有几类失效模式值得作为独立的工程问题来对待：

旋转和倾斜的扫描件。 人工扫描的文档并不总是与坐标轴对齐。对于依赖边界框 (bounding-box) 坐标的模型来说，两度的旋转就会干扰其空间推理。一些模型在应该纵向阅读列时，会静默地横向跨行阅读。输出在语法上看起来是有效的，但在语义上是错误的。

多栏和复杂布局。 主要在网页和书籍文本上训练的模型具有强烈的从左到右、从上到下的阅读顺序先验。双栏学术论文、三折页保险单以及并排对比表违反了这些先验。模型通常会合并相邻列的文本或完全跳过某些列，从而产生一段读起来连贯但却是重构出来的叙述。

嵌入式表格。 表格提取是一个难题，值得单独归类。常见的失败模式包括：检测框切掉了最后一列或最后一行；标题行被吸收到正文中并失去了语义功能；无边框表格通过空白推断行边界，而在比例字体或紧密行间距的情况下会失效；以及小字体表格，在典型的扫描分辨率下，小数点和千位分隔符变得无法区分。

水印和背景元素。 叠加在文本上的水印产生了一种层叠的视觉信号，模型很难将其分解。对角线盖在段落上的“机密 (CONFIDENTIAL)”印章会导致字符级的误读，看起来像是随机的替换错误。表格中的彩色或图案背景在低分辨率扫描中也会导致类似的性能下降。

手写批注。 带有手写填充内容的打印表格要求模型同时处理两种截然不同的视觉范式。大多数模型偏向于主导范式（打印表格），而将手写内容视为噪声或部分识别。这对于签名、日期和复选框状态尤为有害——而这些恰恰是下游系统最关心的字段。

混合语言文档。 法律文件、国际合同和多语言地区的医疗记录通常在段落中途或表格内包含语言切换。在孤立状态下能妥善处理每种语言的模型，有时会在切换边界处失败，产生翻译或幻觉而非识别出转换。

这些失效模式共有的最危险属性是，模型给出的输出看起来置信度正常。没有任何信号表明出了问题。

预处理管道是你的第一道防线

将文档视为无差别的像素块或扁平的文本流是大多数静默损坏的根源。一个更具防御性的架构始于在将文档路由到视觉模型之前对其进行分解。

在提取前进行分类。 在选择提取策略之前，先确定文档类型（发票、合同、扫描件、表单）。不同的文档类型需要不同的模型、不同的置信度阈值和不同的回退路径。将每个文档都通过单一的通用管道意味着接受该管道最坏情况下的准确率。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

为什么视觉模型在基准测试中表现卓越，却在你的企业级 PDF 上折戟沉沙

基准测试与现实的差距并非舍入误差

企业文档中究竟哪里出了问题

预处理管道是你的第一道防线

Recommended Reading

关于 Tian Pan

基准测试与现实的差距并非舍入误差​

企业文档中究竟哪里出了问题​

预处理管道是你的第一道防线​

Recommended Reading

关于 Tian Pan

基准测试与现实的差距并非舍入误差

企业文档中究竟哪里出了问题

预处理管道是你的第一道防线