跳到主要内容

多模态评估漂移:为什么在文本表现稳定的情况下,图像和音频路径会出现回退

· 阅读需 13 分钟
Tian Pan
Software Engineer

仪表板显示,这个版本的质量提升了两个点。文本评估套件运行正常。你的模型供应商发布了一个新的 Checkpoint,在你跟踪的每个公开基准测试上都超过了前一个版本。你推进了发布。一周后,支持团队标记了一个隐蔽但持续增长的工单量上涨,内容关于上传的屏幕截图 —— 用户反映模型“读错了图表中的数字”或“漏掉了表格中的一行”。几天后,音频转录的投诉接踵而至,主要来自非美式英语使用者。这些都没有出现在你的评估流水线中。发布看起来很健康。但事实并非如此。

这就是多模态评估漂移(Multimodal Eval Drift),几乎每一个在以文本为核心的架构上硬塞进视觉和音频功能的团队都在发布这种问题。曾经适用于文本的评估规范 —— 黄金集(Gold Sets)、LLM 作为评委(LLM-as-judge)、漂移仪表板、以及决定是否发布的综合评分 —— 在多模态领域仅剩空名。每个模态的失败率不具可比性,捕捉文本错误的评分标准(Rubrics)捕捉不到图像错误,而且产生文本黄金集的标注流水线是针对每半年发布一次的工作量校准的,而不是针对伴随每次 Checkpoint 更新而来的多模态退化。

正确的心智模型是:多模态并不是同一个模型上的一个开关 —— 它是一个具有不同失败分布的不同产品面,而忽视了这一区别的评估规范在每次模型发布时都在输出隐形的退化。

为什么文本评估对视觉和音频退化视而不见

文本评估已经收敛于一套相当稳定的技术:包含参考输出的精选黄金集、根据相关性、事实性和语气对回答进行评分的评委提示词(Judge Prompt),以及跟踪各版本综合质量的仪表板。这套技术栈之所以有效,是因为文本失败通常集中在你可以验证的事实以及你可以用评分标准描述的行为上。

视觉路径并不具备这种属性。一个减少了文本事实幻觉的模型,可能会同时更频繁地读错图表数字。这两种错误率之间只有微弱的相关性 —— 语言建模的改进并不会自动转化为视觉定位(Visual Grounding)的提升,而且供应商端的后期训练侧重点可能会在发布之间发生转移而不予披露。最近的 OCR 和图表基准测试(CC-OCR、ChartQA、DocVQA)一致表明,同一个 Checkpoint 可以在摘要任务上领先,同时在表格读取或图表数值提取方面出现退化。如果你的评估将这些汇总成一个单一的质量指标,你将无法察觉这种变化。

图像退化通常也表现为置信度偏移而非事实性偏移。模型依然会给出一个自信的答案。答案之所以错误,是因为模型识别错了单元格、数错了柱状图的条数,或者合并了两个相邻的列。你的文本评分标准 —— “答案在事实性上是否正确” —— 很难处理这种情况,因为如果没有视觉标注,就没有简单的标准答案(Ground Truth)。对纯文本输出使用 LLM 作为评委(LLM-as-judge)会让情况变得更糟:评委看到的是模型生成的同一个错误答案,它无法接触到原始图像,因此会认为该答案是合理的。

音频也是一个独立的维度。Whisper 级别的转录退化维度是文本输入从未有过的:口音(多项同行评审研究衡量了不同地域口音和人群之间不平衡的词错率)、编解码器(VoIP 和 WebRTC 压缩链带来的失真在学术基准测试中体现不足)以及环境噪音。ASR 模型的升级可以提升清晰音频的基准表现,但在你用户发送的实际分布数据(如电话通话、语音备忘录、会议录音)上却可能出现退化,因为公开基准测试很干净,而你的流量却不是。在下游,消耗转录文本的 LLM 会将每一个转录错误继承为错误事实,由此产生的错误答案看起来就像是生成失败。

大多数团队首先遇到的失败模式

这种模式在各个团队中不断重演。你发布了文本产品。围绕文本的质量规范逐渐成熟 —— 评估覆盖率、退化门禁、带有书面评分标准的 LLM 评委。随后,多模态功能作为同一套架构上的第二个功能发布。产品团队在一个冲刺周期(Sprint)内为聊天界面添加了图像上传功能。评估团队向现有的黄金集中添加了 20 个图像案例,LLM 评委增加了一行说明“也要评估视觉响应”,发布流水线继续报告一个单一的综合质量评分。

三个月后,一个新的模型升级发布了。文本套件通过了。综合质量提升了与图像相关的支持工单悄然攀升了 30%。评估团队没有收到任何信号,因为:

  1. 图像案例在黄金集中只是个舍入误差。 两千个案例中占二十个,仅为 1%。这二十个案例中 50% 的退化在综合评分中只体现为 0.5% 的下降,完全处于噪声范围内。
  2. LLM 评委在看不到图像的情况下无法对图像输出进行评分。 大多数评委框架会将模型的响应传递给一个纯文本评委。评委无法接触到原始图像,因此它是根据文笔而不是根据与图像的对应关系(Grounding)来评分的。
  3. 评分项不匹配。 “图表轴的标签是否正确?”不在文本评分标准中。“表格列是否对齐?”也不在。评委默认转向对流畅度进行评分。

等你根据支持工单追溯到视觉退化时,模型已经上线两周了,而且由于其他产品变更已经在此基础上发布,回滚路径变得一团糟。

必须落地的纪律

修复的方法并不是“在仪表盘上添加一个愿景指标”。而是从结构上改变你评估多模态的方式。

针对每种模态建立独立的评估套件,不使用跨模态的综合质量评分。 不同模态的失败率是不具可比性的。2% 的文本回退(regression)和 2% 的图像回退是完全不同的事件。它们具有不同的爆炸半径(文本流量通常量级更高;图像流量往往涉及文档处理等更高风险的用例)、不同的回滚决策(如果是风格问题,文本回退或许可以容忍;但 PDF 解析器上的图像回退通常不可接受)以及不同的补救路径。将它们汇总成一个数字会抹除所有这些差异。你的发布门禁(release gate)应该要求每种模态独立地不发生回退,而不是平均值不发生回退。

明确具体失败模式的模态特定评估准则。 对于图像:图表误读(数字错误、坐标轴颠倒)、旋转或低 DPI 扫描件上的 OCR 偏移、表格结构错误(合并列、遗漏行、幻觉生成的表头单元格)、图表上的空间推理缺陷,以及对边缘情况视觉效果(手写、水印、多栏布局)的识别置信度。对于音频:嘈杂输入下的转录置信度、按口音分层的字错率、按编解码器分层的字错率,以及转录文本在下游任务中的准确率(这能捕获转录“看起来还行”但在承重词上出错的情况)。Whisper 自身的评估历史极具启发性——性能在不同英语口音之间差异显著,且在编解码器压缩下性能下降的方式是公开基准测试无法充分体现的。

多模态 LLM-as-judge,且将图像或音频传递给裁判。 仅靠文本对多模态输出进行评审,从根本上无法检测到 grounding(接地/关联)失败。最近的多模态裁判框架(MLLM-as-a-Judge 基准测试、Patronus Judge-Image、lmms-eval 中的多模态感知扩展)显示,在视觉任务上与人工评分具有显著但并不完美的对齐度;最初的 MLLM-Judge 研究给出的核心数据是与 GPT-4V 上的人工评分有 0.557 的相似度,这很有用,但也告诉你裁判本身需要针对人工评分的样本进行校准。不要信任一个你从未校准过的多模态裁判。

一个能以模型升级频率产出多模态黄金数据(gold data)的标注流水线。 这是团队预算投入不足的部分。多模态标注的成本大约是统一文本标注的 N 倍——每张图片都需要人工查看,每个音频样本都需要有人聆听。如果你的文本黄金数据集每年更新一次,但你的模型供应商每六周发布一个新权重(checkpoint),那么你的多模态评估集到第二次发布时就已经过时了。你能拥有的最廉价的多模态评估集是那种无法更新的,而它也会随着模型在最初选择的案例上不断改进,而悄无声息地失去区分能力。

一个拒绝在单模态回退时向前推进的发布门禁。 这是运营上的改变。当文本通过且综合评分看起来不错时,停止发布。要求每种模态明确不发生回退,并将阈值根据该模态评估集的方差进行调整。图像评估的单样本方差高于文本——一个标注错误的图表对评分的影响可能比一段文本更大——因此阈值需要根据正确的方差来设定。

为什么成本视角总是会让项目夭折

团队在这里投入不足的原因是,每种模态的评估纪律成本大约是统一评估的 N 倍。你需要为每种模态准备独立的黄金数据集、独立的准则、独立的裁判提示词(或运行成本更高的多模态裁判)以及独立的标注流水线。主张建立这套体系的团队所要求的预算,在反对者的眼中完全可以被可信地称为过早优化。“我们等发生第一次回退后再做。”

这几乎总是一个错误的决定,因为第一次回退是让这一主张变得无懈可击的事件——而到那时,你已经付出了代价:支持工单、客户信任度的丧失,以及工程师花费数小时去排查“模型在处理图像时表现得很奇怪”。回退前的预算沟通永远赢不了;而回退后的沟通对于防止伤害来说又太迟了。

务实的折中方案:将每种模态的纪律视为一种随模态成熟度而扩展的投资。首日发布的多模态功能可以仅包含文本样式的评估和一套小型的模态特定抽查套件。这套纪律必须在你进行生产环境模型升级之前成熟——而不是在首次发布之前。触发点是“我们即将升级到一个新的权重”,而不是“我们即将发布多模态功能”。

这样做之所以有效,是因为回退风险集中在升级边界,而不是稳态运行。你现有的文本规范可以捕获大部分稳态问题。你在第一次升级前需要建立的评估纪律,专门用于在你的产品所关心的模态维度上区分旧模型和新模型。

架构层面的实现

从评估机制中抽身出来看。更深层次的失败在于,多模态(multimodal)被视作现有产品表面的一个功能开关(feature flag)—— 相同的模型 API、相同的仪表盘、相同的发布门禁 —— 而它实际上是一个具有不同失败分布(failure distribution)的全新产品层面。忽视了这一区别的评估准则,在每次模型发布时都在交付静默回归(silent regressions)。

严肃对待这一点后,可以得出以下三个结论:

多模态能力不是一个单一的数字。 它是一个向量 —— 视觉、音频、视频、文档、图表、表格 —— 你的黄金集(gold set)、评分标准(rubric)和发布门禁(release gate)都必须是向量值的。将其压缩为一个单一的质量分数,会破坏那些告诉你该回滚什么的信号。

服务商的模型升级是评估事件,而非静默的基础设施变更。 服务商的发布日志不会告诉你针对你特定流量分布的回归情况。你的评估流水线(eval pipeline)是唯一能发现这一点的地方。如果它无法识别分模态的回归,升级就会静默地改变你的产品行为,而你最终只能通过用户反馈得知。

标注流水线(labeling pipeline)是关键基础设施,而非一次性的设置。 多模态黄金集会随时间失效。模型会在你最初选择的案例上提升,分布会随着流量组合的变化而偏移,新的边缘案例也会出现(如新的图表类型、新的文档布局、新的音源)。如果团队将标注视为一个项目而非持续运行的流水线,最终会得到一个信心满满报告“绿色”通过的评估集,即便该模型早已不再受其有效衡量。

战术层面的工作 —— 针对每个模态的评分标准、分模态的门禁、多模态裁判(judge)的校准 —— 是可见的部分。更难的转变在于认识到,你的产品现在拥有多个失败层面,每个层面都有自己的失败率,每个层面都需要自己的证据。曾经适用于纯文本的统一质量分数,现在已经成为一种负担。多模态评估漂移(eval drift)就是未能及时完成这一转变所付出的代价。

References:Let's stay in touch and Follow me for more thoughts and updates