多模态输入中的提示注入:纯文本防御所忽视的视觉攻击面
· 阅读需 12 分钟
当团队对 AI 管道进行提示注入加固时,通常只聚焦于文本:清洗用户输入字符串、扫描输出中的外泄数据、过滤已知的越狱(jailbreak)模式。这些工作固然重要,但对于现代 AI 系统而言,它们大约只覆盖了一半的攻击面。另一半隐藏在图像、PDF、音频片段和图表之中——这些格式能绕过你写下的每一条文本扫描规则,因为模型处理它们的通道与处理文本的通道完全不同。
针对视觉语言模型的隐写注入攻击(steganographic injection attacks),在包括 GPT-4V、Claude 和 LLaVA 在内的生产模型上,成功率约达 24%。这个数字并非实验室数据,而是来自真实的攻击载荷——隐藏在看似普通的图像中,使生产模型偏离预期行为。你的文本注入扫描器对此毫无察觉。
