跳到主要内容

多模态评估漂移:为什么在文本表现稳定的情况下,图像和音频路径会出现回退

· 阅读需 13 分钟
Tian Pan
Software Engineer

仪表板显示,这个版本的质量提升了两个点。文本评估套件运行正常。你的模型供应商发布了一个新的 Checkpoint,在你跟踪的每个公开基准测试上都超过了前一个版本。你推进了发布。一周后,支持团队标记了一个隐蔽但持续增长的工单量上涨,内容关于上传的屏幕截图 —— 用户反映模型“读错了图表中的数字”或“漏掉了表格中的一行”。几天后,音频转录的投诉接踵而至,主要来自非美式英语使用者。这些都没有出现在你的评估流水线中。发布看起来很健康。但事实并非如此。

这就是多模态评估漂移(Multimodal Eval Drift),几乎每一个在以文本为核心的架构上硬塞进视觉和音频功能的团队都在发布这种问题。曾经适用于文本的评估规范 —— 黄金集(Gold Sets)、LLM 作为评委(LLM-as-judge)、漂移仪表板、以及决定是否发布的综合评分 —— 在多模态领域仅剩空名。每个模态的失败率不具可比性,捕捉文本错误的评分标准(Rubrics)捕捉不到图像错误,而且产生文本黄金集的标注流水线是针对每半年发布一次的工作量校准的,而不是针对伴随每次 Checkpoint 更新而来的多模态退化。

正确的心智模型是:多模态并不是同一个模型上的一个开关 —— 它是一个具有不同失败分布的不同产品面,而忽视了这一区别的评估规范在每次模型发布时都在输出隐形的退化。

为什么文本评估对视觉和音频退化视而不见

文本评估已经收敛于一套相当稳定的技术:包含参考输出的精选黄金集、根据相关性、事实性和语气对回答进行评分的评委提示词(Judge Prompt),以及跟踪各版本综合质量的仪表板。这套技术栈之所以有效,是因为文本失败通常集中在你可以验证的事实以及你可以用评分标准描述的行为上。

视觉路径并不具备这种属性。一个减少了文本事实幻觉的模型,可能会同时更频繁地读错图表数字。这两种错误率之间只有微弱的相关性 —— 语言建模的改进并不会自动转化为视觉定位(Visual Grounding)的提升,而且供应商端的后期训练侧重点可能会在发布之间发生转移而不予披露。最近的 OCR 和图表基准测试(CC-OCR、ChartQA、DocVQA)一致表明,同一个 Checkpoint 可以在摘要任务上领先,同时在表格读取或图表数值提取方面出现退化。如果你的评估将这些汇总成一个单一的质量指标,你将无法察觉这种变化。

图像退化通常也表现为置信度偏移而非事实性偏移。模型依然会给出一个自信的答案。答案之所以错误,是因为模型识别错了单元格、数错了柱状图的条数,或者合并了两个相邻的列。你的文本评分标准 —— “答案在事实性上是否正确” —— 很难处理这种情况,因为如果没有视觉标注,就没有简单的标准答案(Ground Truth)。对纯文本输出使用 LLM 作为评委(LLM-as-judge)会让情况变得更糟:评委看到的是模型生成的同一个错误答案,它无法接触到原始图像,因此会认为该答案是合理的。

音频也是一个独立的维度。Whisper 级别的转录退化维度是文本输入从未有过的:口音(多项同行评审研究衡量了不同地域口音和人群之间不平衡的词错率)、编解码器(VoIP 和 WebRTC 压缩链带来的失真在学术基准测试中体现不足)以及环境噪音。ASR 模型的升级可以提升清晰音频的基准表现,但在你用户发送的实际分布数据(如电话通话、语音备忘录、会议录音)上却可能出现退化,因为公开基准测试很干净,而你的流量却不是。在下游,消耗转录文本的 LLM 会将每一个转录错误继承为错误事实,由此产生的错误答案看起来就像是生成失败。

大多数团队首先遇到的失败模式

这种模式在各个团队中不断重演。你发布了文本产品。围绕文本的质量规范逐渐成熟 —— 评估覆盖率、退化门禁、带有书面评分标准的 LLM 评委。随后,多模态功能作为同一套架构上的第二个功能发布。产品团队在一个冲刺周期(Sprint)内为聊天界面添加了图像上传功能。评估团队向现有的黄金集中添加了 20 个图像案例,LLM 评委增加了一行说明“也要评估视觉响应”,发布流水线继续报告一个单一的综合质量评分。

三个月后,一个新的模型升级发布了。文本套件通过了。综合质量提升了与图像相关的支持工单悄然攀升了 30%。评估团队没有收到任何信号,因为:

  1. 图像案例在黄金集中只是个舍入误差。 两千个案例中占二十个,仅为 1%。这二十个案例中 50% 的退化在综合评分中只体现为 0.5% 的下降,完全处于噪声范围内。
  2. LLM 评委在看不到图像的情况下无法对图像输出进行评分。 大多数评委框架会将模型的响应传递给一个纯文本评委。评委无法接触到原始图像,因此它是根据文笔而不是根据与图像的对应关系(Grounding)来评分的。
  3. 评分项不匹配。 “图表轴的标签是否正确?”不在文本评分标准中。“表格列是否对齐?”也不在。评委默认转向对流畅度进行评分。

等你根据支持工单追溯到视觉退化时,模型已经上线两周了,而且由于其他产品变更已经在此基础上发布,回滚路径变得一团糟。

必须落地的纪律

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates