3 篇博文含有标签「document-ai」

查看所有标签

为什么视觉模型在基准测试中表现卓越，却在你的企业级 PDF 上折戟沉沙

2026年4月19日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个在文档理解数据集上达到 97% 准确率的基准测试结果看起来非常有说服力，直到你针对公司的实际发票存档运行它，才发现它正在静默地搞乱 30% 的行项目。模型不会报错，也不会返回低置信度，它只是产生了一个看起来合情合理但却是错误的输出。

这是生产级文档 AI 的典型失效模式：静默损坏 (silent corruption)。与崩溃或异常不同，静默损坏会发生传播。乱码的单元格流入下游聚合，聚合信息喂给报告，报告驱动决策。当你意识到问题时，追踪根本原因就像是在搞考古。

文档 AI 在基准测试表现与生产环境表现之间的差距是真实存在的、持久的，且被评估这些模型的团队所低估。理解为什么会存在这种差距——以及如何防御它——正是本文要解决的工程问题。

生产级文档 AI：为什么 PDF 演示会撒谎，而生产流水线不会

2026年4月17日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一份干净的 PDF、一个强大的 LLM、三十行代码。演示成功了。你提取出了发票总额、合同日期、患者诊断。利益相关方印象深刻。然后你推向生产，不到一周，流水线就在 15% 的文档上静默地返回错误数据——而没有人知道。

这就是文档 AI 的陷阱。失败模式不是崩溃或异常，而是一条在生成垃圾数据的同时仍然报告"成功"的流水线。构建生产级文档提取，与构建一个演示，是完全不同的问题——而大多数团队直到已经上线才意识到这一点。

为什么你的文档提取器在最重要的合同上会失效

2026年4月17日 · 阅读需 15 分钟

Tian Pan

Software Engineer

你的发票解析器可能运行得不错。给它一个来自世界 500 强供应商的清晰、数字化的 PDF —— 结构化的行、一致的列宽、机器生成的文本 —— 它就能以近乎完美的准确度提取行项目。但当有人上传一份来自区域供应商的多页合同、一份带有手写修改的扫描表格，或者一份表格标题在第 3 页而数据行延续到第 6 页的财务报表时，提取器就会悄无声息地失败，返回部分数据，或者自信地生成结构化输出，而这些输出的错误方式是任何下游校验都无法捕捉到的。

这是企业级文档智能的核心问题：使你的系统崩溃的文档并不是边缘案例。它们往往是具有最高业务价值的文档。

关于 Tian Pan