多模态通道冲突：当模型在视觉与文本之间自我矛盾时

2026年5月10日 · 阅读需 12 分钟

Software Engineer

这张图片是一张红色八角形停止标志的照片。有人在中间的单词上贴了一张小贴纸，上面写着“YIELD”（让行）。你问多模态模型：“这个标志写了什么？”模型回答：“该标志指示驾驶员在交叉路口让行给迎面而来的车辆。” 表现得既自信又流利，却既不忠实于视觉证据，也不忠实于文本证据。它是一个混合体，在产生分歧的真相通道之间采取了折中方案。

这种故障模式目前还没有一个统一的名称。研究多模态幻觉（multimodal hallucination）的研究人员将其称为“语义幻觉”（semantic hallucination）、“跨模态偏差”（cross-modal bias）或“模态主导”（modality dominance），具体取决于撰写论文的细分领域。交付文档 AI、截图智能体和缺陷检测系统的从业者每周都会遇到这种情况，并在事故复盘中将其描述为“模型只是在瞎编”。它不是瞎编的。这是一种在最终层融合了两个通道、却没有任何原语来表示通道意见不一情况的架构的可预测输出。

有趣的地方不在于分歧发生了。有趣的是，无论通道是否达成一致，模型的输出看起来都是一样的：同样流利的文字，同样自信的语调，表面上同样的校准分数。出错的信号被埋藏在应用层永远看不见的注意力模式中，而批准部署的评估套件是基于清晰的图像-文本对构建的，在这些配对中，各通道在构建时就是一致的。团队正在交付一个系统，该系统最糟糕的答案在批准它的测试中是系统性不可见的。

架构是一个融合问题，而非单一的输入/输出框

大多数应用代码中的“多模态”抽象是一个接收像素和 Token 并返回 Token 的黑盒。内部现实是，视觉 Token 和文本 Token 通过部分独立的处理路径传输，并在网络末端附近的注意力层进行协调。不同的架构将融合放置在不同的深度——早期融合（early-fusion）设计很早就将图像块投影到与文本相同的嵌入空间；后期融合（late-fusion）设计运行两个编码器并合并它们的决策；混合设计则将它们交错排列——但每种设计都有一个地方，必须让两个产生分歧的流产出一个答案。

当各流达成一致时，融合是不可见的。当它们产生分歧时，融合就是 Bug。模型必须产出 某些东西，而它产出的是一种抹平了冲突的加权融合。输出中没有 Token 代表“视觉通道和文本通道报告了不同的内容，我选了一个”。只有一个答案，而且这个答案读起来就像没有冲突存在过一样。

一项 2026 年针对放射科视觉语言模型的研究为这种故障模式提供了一个更严谨的解释：当嵌入图像的文本可以被 OCR 读取时，OCR 路径可能会主导像素路径并覆盖视觉证据，即使在规避了人工检查的隐蔽条件下也是如此。批准部署的团队观察的是模型的输出。产出输出的机制是一场模态竞争，而应用层没有对应的 API。

在生产环境中出现在哪里

最清晰的案例来自于那些将该故障视为视觉 Bug 或文本 Bug 来规避，而从未将其命名为融合 Bug 的系统。

文档 AI。 财务表格中打印的数值为 $1,240,000。该表格旁边图表中的柱状图大小约为 160 万美元。模型对文档进行摘要并报告了一个数字——通常是两者之一，偶尔是一个平滑后的折中值——却没指出表格和图表在真实情况上存在分歧。最近的基准测试证实了文档团队已经怀疑的事实：多模态 LLM 在表格证据上的表现明显优于同等的图表证据，且小模型显示出这两种格式之间的相关性很弱，这表明各个通道之间并没有实现泛化。用户得到了一个流利的摘要，但在模型偏好的任何通道上，该摘要都是隐形错误的。

截图智能体。 页面上的按钮渲染的标签是“提交”（Submit）。与截图一起暴露给模型的 DOM 可访问性树将按钮命名为“取消”（Cancel）。（这种情况发生的频率比预想的要高——陈旧的 aria-labels、在不触动可访问性名称的情况下交换文本的 A/B 测试 JavaScript、属性不一致的第三方组件。）智能体根据哪个通道在融合中胜出来进行点击。下游追踪显示“导航成功，操作已执行”，因为点击落在了真实的元素上。用户发现他们的购物车被清空了。在截图驱动的智能体中记录的复合状态错误模式——一旦智能体进入错误的 UI 状态，后续的每一次感知都建立在错误的前提之上——将单次融合失误变成了一起多步骤事故。

缺陷检测。 拍摄的零件照片显示有明显的裂纹。照片角落里的 QA 印章显示为“合格”（PASSED）。视觉语言流水线报告该零件符合标准，且置信度很高。这是模态主导故障最纯粹的商业形式：带有机构权威的 OCR 路径（印章）覆盖了带有物理现实的像素路径（缺陷）。运行评估套件的团队没有包含对抗性案例，因为他们的训练分布中也不包含这些案例；数据集中的印章与零件是一致的。

用户上传的内容。 用户上传了一张图表截图，配文声称该图表显示了收入增长。图表显示的却是下降。汇总该上传内容的模型生成了一个折中的描述——“该图表描绘了随时间变化的收入趋势”——却不承认配文与图像相矛盾。在审核流水线中，这就是“模型没发现问题”背后的故障模式；并不是模型看不见，而是模型被告知了两个故事，然后产出了第三个。

为什么你的评估集对此视而不见

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

多模态通道冲突：当模型在视觉与文本之间自我矛盾时

架构是一个融合问题，而非单一的输入/输出框

在生产环境中出现在哪里

为什么你的评估集对此视而不见

Recommended Reading

关于 Tian Pan

架构是一个融合问题，而非单一的输入/输出框​

在生产环境中出现在哪里​

为什么你的评估集对此视而不见​

Recommended Reading

关于 Tian Pan

架构是一个融合问题，而非单一的输入/输出框

在生产环境中出现在哪里

为什么你的评估集对此视而不见