多模态输入中的提示注入：纯文本防御所忽视的视觉攻击面

2026年5月7日 · 阅读需 12 分钟

Software Engineer

当团队对 AI 管道进行提示注入加固时，通常只聚焦于文本：清洗用户输入字符串、扫描输出中的外泄数据、过滤已知的越狱（jailbreak）模式。这些工作固然重要，但对于现代 AI 系统而言，它们大约只覆盖了一半的攻击面。另一半隐藏在图像、PDF、音频片段和图表之中——这些格式能绕过你写下的每一条文本扫描规则，因为模型处理它们的通道与处理文本的通道完全不同。

针对视觉语言模型的隐写注入攻击（steganographic injection attacks），在包括 GPT-4V、Claude 和 LLaVA 在内的生产模型上，成功率约达 24%。这个数字并非实验室数据，而是来自真实的攻击载荷——隐藏在看似普通的图像中，使生产模型偏离预期行为。你的文本注入扫描器对此毫无察觉。

多模态注入的工作方式有何不同

标准提示注入利用的是数据通道与指令通道之间的模糊边界：如果用户能让模型将其输入视为指令而非数据，就能改变模型的行为。基于文本的防御通过检查这一通道来应对——寻找注入标记、过滤可疑模式、维护系统提示与用户输入之间的清晰分隔。

多模态注入攻击的则是一个结构上完全不同的通道。当模型处理图像时，会通过视觉编码器（vision encoder）将像素数据转化为一系列嵌入向量（embeddings），这些向量随后被送入与处理系统提示和用户文本相同的 Transformer——但它们经由的通道，是你的文本扫描基础设施从未触及的。嵌入在图像中的注入指令，与合法内容一同流入模型的注意力层，没有任何机会被你的文本过滤器拦截。

这不是理论上的漏洞，攻击者已演示了多种实用技术：

排版注入（Typographic injection） 将指令作为可见（或几乎不可见）的文字渲染在图像中。指令可能是近白色背景上的白色文字、叠加在照片上透明度仅 1% 的文字，或尺寸低于常见 OCR 阈值的文字。模型能读取它；你的文本扫描器无法，因为图像以像素数据而非字符流的形式到达。

隐写注入（Steganographic injection） 将载荷隐藏在人眼不可见的像素级噪声中。攻击者使用最低有效位编码、频域处理或神经隐写技术，可在外观完全正常的图像中嵌入数百个字符的指令。已发表的研究表明，这些技术对生产模型的成功率达 24–32%。

跨模态复合攻击（Cross-modal compound attacks） 将无害文本与注入图像配合使用，构造出单独分析文本或图像均无法发现的攻击。文本是干净的，图像单独看也是干净的，但模型将二者结合起来解读，却产生了未经授权的行为。

逐模态攻击面梳理

每种输入模态都引入了具有不同特征的独特攻击向量。

图像是研究最深入的模态。除了上述隐写和排版技术，针对配备摄像头的 AI 智能体，物理世界注入（physical-world injection）正成为新兴威胁。印在路牌、产品包装或白板上的指令，可以被多模态智能体拍摄并作为合法命令执行。2026 年初发表的研究显示，在自动驾驶场景中，物理世界注入使停车标志绕过攻击的成功率从 40% 上升至 90%——充分说明了当模型将指令误作为应感知的物理环境时会发生什么。

PDF 与办公文档呈现出不同的攻击面。与图像不同，文档在到达模型之前会经历大量预处理——文本提取、版面解析、潜在的 OCR。这一预处理本身就创造了攻击机会：

白色背景上的白色文字能通过文本提取，但用户从未看到
不可打印的 Unicode 字符和零宽连接符可携带隐藏 token
PDF 内嵌图像拥有独立的注入面，文本提取完全忽略
在提取内容中出现但在渲染视图中不可见的 HTML 注释和文档元数据字段

文档注入攻击已在 GPT-4o、Mistral 和 LLaMA 模型上得到演示。在检索增强生成（RAG）管道中，这种攻击模式尤为危险：从知识库检索到的中毒文档，可向用户从未写过的查询中注入指令。

音频是研究最少的模态，但对使用语音转文本（STT）作为输入通道的系统存在真实风险。对抗性音频向音频波形施加人耳不可察觉的扰动，使自动语音识别（ASR）系统将特定的攻击者指定短语转录出来，而非实际的语音内容。人类听到的是正常音频，ASR 系统转录的却是一条指令。研究已在包括与语音助手集成的 ASR 系统在内的生产系统中演示了这类攻击。

除纯 ASR 攻击外，音视频复合注入将越狱载荷嵌入音频片段，配合无害的转录文本。音频内容从不出现在文本通道中，因此文本级防御无从过滤。模型同时处理两个模态，并执行注入的指令。

**多格式及格式歧义文件（Polyglot and format-ambiguous files）**代表一类利用文件格式解析层本身的攻击。SVG 文件同时是合法的 XML、HTML 和图像格式。精心构造的 SVG 可携带隐藏语义内容，被不同解析器以不同方式解读——图像渲染器看到的是无害图形，而 XML 解析器则暴露出包含指令的文本节点。这类格式歧义攻击能绕过只在单一解析层检查内容的防御措施。

为什么现有文本防御无法迁移到多模态场景

文本防御在多模态场景中失效，并非调优问题，而是架构问题。

文本注入防御在模型上下文窗口中的已解码文本上运行，可以检查系统提示、用户消息、检索到的任何上下文，以及输出在返回前的内容。这一切对文本有效，但对编码注入图像的视觉嵌入流完全无效，因为该流在比你的文本过滤器所能看到的更底层进入模型。

基于 OCR 的防御试图弥合这一差距——从图像中提取文本，再对提取内容应用文本过滤器。这对产生清晰可读文字的排版注入有所帮助，但在多方面存在局限：

隐写注入不产生任何 OCR 可读文本
攻击者会针对特定 OCR 实现（对比度阈值、字体大小过滤、字符识别模式）调整排版技术以规避检测
先进的多模态模型越来越多地通过视觉编码器直接进行原生视觉推理，完全不经过 OCR——模型直接"读取"图像中的文字，绕过了你基于 OCR 的检测层

安全微调和关键词过滤——两种最常见的模型级防御——在受控测试中对多模态注入的检测率约为 61–66%。低于 70% 的检测率，对于处理敏感操作的生产系统而言，根本不是可行的安全态势。

真正有效的检测方法

鉴于文本防御的局限性，多模态注入检测需要在内容到达文本上下文之前，在模态层面进行操作的方法。

置信度加权上下文标记（Confidence-weighted context tagging） 为模型接收的每段上下文附加来源元数据，追踪其来自哪种模态以及提取内容的置信度。通过 OCR 从图像提取的文本，与直接出现在用户消息中的文本，获得不同的信任级别。模型的指令遵循行为可以根据所接收指令的置信度和来源进行加权——从而使低置信度注入指令更难以覆盖高置信度授权指令。

视觉异常评分（Visual anomaly scoring） 在图像被模型处理之前，对其进行带外分析。基于 CLIP 的内容验证检查图像的语义内容是否与周围上下文一致——语义上更像指令文档的收据图像会被标记以接受额外审查。统计分析也可通过识别像素级噪声中偏离自然图像统计规律的模式来检测隐写修改。

行为监控（Behavioral monitoring） 观察模型输出中的注入信号，而非尝试在输入中检测注入。意外的权限提升请求、覆盖系统行为的指令，或与用户任务类型不一致的操作，即使输入注入本身未被捕获，也可在输出流中被发现。这是一个滞后指标——注入已经发生——但它通过在偏差传播之前捕获来限制损失。

针对各模态的输入清洗管道（Input sanitization pipelines） 在内容到达模型之前对其进行预处理。对于图像：剥离元数据（EXIF 数据可携带注入），应用视觉归一化以破坏隐写编码（尽管这对合法隐写内容如水印存在误报风险），使用适当噪声容忍度进行 OCR 扫描以检测排版注入。对于文档：剥离不可打印字符，验证内嵌图像不携带注入内容，并将元数据字段与用户可见内容分开处理。对于音频：在 ASR 之前运行对抗性扰动检测，并对 ASR 转录结果与声学特征进行交叉验证。

这些方法单独使用都不是完整的解决方案，它们是层次（layers）。

多模态管道的纵深防御架构

有效的多模态安全，需要将每种模态视为独立的信任边界，并在各层级施加适当控制。

第一层：逐模态输入清洗。 任何多模态输入到达模型之前，先经过模态专属的清洗。这能捕获最粗糙的攻击（可见的排版注入、明显的隐写编码），并将内容规范化以降低攻击面。接受清洗并不完美，不能消除下游层次的需要。

第二层：来源感知上下文组装（Provenance-aware context assembly）。 为每段上下文标记其来源模态及关联信任级别。来自经过验证的用户文本（直接键盘输入）的内容，比从上传图像提取的内容获得更高信任，后者又比从外部文档检索的内容获得更高信任。将这种来源追踪内置于上下文组装步骤，而非事后补加。

第三层：权限最小化（Privilege minimization）。 根据输入来源的信任级别，对模型可执行的操作施加最小权限原则。如果驱动某项操作的输入来自低信任来源（上传的图像、检索的文档），则限制模型在无需额外授权情况下可采取的操作范围。不要允许上传收据中的注入内容以与明确用户指令相同的权限授权 API 调用。

第四层：运行时行为监控。 监控模型输出中的行为偏差——超出正常范围的操作、权限提升模式、与任务类型不一致的输出格式。这些信号不能证明注入已发生，但它们提供了值得人工审查的预警。

第五层：人在回路的关口（Human-in-the-loop gates）。 对于高风险操作，无论输入来源如何，都需要人工确认。这是当所有其他层次都漏检时限制最大损害的最终防线。它在用户体验上代价高昂，因此仅对未经授权执行的代价超过中断代价的操作设置此关口。

已发表的多模态来源感知框架研究显示，这种分层方法的检测率高达 94%，而关键词过滤为 52%，安全微调单独使用为 66%。提升来自于防御在多个独立层次上运行——攻击者需要同时绕过所有层次。

对你的部署意味着什么

从纯文本到多模态 AI 的转变，比安全工具链的演进速度更快。大多数已部署多模态功能的团队，使用的是为纯文本模型设计的、以文本为中心的注入防御，对视觉攻击面几乎没有覆盖。

应对这一差距的最小可行响应，并非对安全体系的全面改造。首先盘点你的系统当前在何处接受多模态输入——上传的图像、处理的 PDF、音频转录——并识别这些输入可触发哪些操作。（低信任输入通道）+（高权限操作）的组合，是你添加控制措施的当务之急。

其次，在上下文组装层实现逐模态信任标记。这代价相对较低，并为后续的权限最小化逻辑奠定基础。没有来源追踪，就无法在执行时区分来自高信任和低信任来源的指令。

更宏观的观点在于架构：文本注入防御是为文本管道设计的，多模态管道需要将每个输入通道视为具有适当控制的独立信任边界的多模态防御。攻击面已经扩展，防御也需要随之扩展。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

多模态输入中的提示注入：纯文本防御所忽视的视觉攻击面

多模态注入的工作方式有何不同

逐模态攻击面梳理

为什么现有文本防御无法迁移到多模态场景

真正有效的检测方法

多模态管道的纵深防御架构

对你的部署意味着什么

Recommended Reading

关于 Tian Pan

多模态注入的工作方式有何不同​

逐模态攻击面梳理​

为什么现有文本防御无法迁移到多模态场景​

真正有效的检测方法​

多模态管道的纵深防御架构​

对你的部署意味着什么​

Recommended Reading

关于 Tian Pan

多模态注入的工作方式有何不同

逐模态攻击面梳理

为什么现有文本防御无法迁移到多模态场景

真正有效的检测方法

多模态管道的纵深防御架构

对你的部署意味着什么