AI图像编辑模型安全漏洞:通过图像内文本突破审查机制,成功率超80%

AI图像编辑模型安全漏洞:通过图像内文本突破审查机制,成功率超80%

在AI生成与编辑技术飞速发展的当下,安全审查机制一直是防止模型生成有害内容的重要屏障。但近期一项来自中国科研团队的研究却揭示了一个令人担忧的漏洞:主流AI图像编辑模型可通过光栅化文本或视觉线索被“越狱”,让被禁止的编辑操作绕过安全过滤器,最高成功率可达80.9%。这一发现再次引发了人们对AI安全对齐机制可靠性的思考。

### 安全对齐的“隐形后门”
当前,主流AI图像平台为避免法律风险和声誉损害,都建立了严格的审查机制,也就是行业内所说的“对齐”(alignment)。无论是输入的文本提示词,还是生成的图像内容,都会被扫描以排查是否涉及NSFW、诽谤等违规内容。比如用户上传一张普通人物照片,要求模型“让其脱衣服”这类明确的有害文本指令,会直接在文本层面被拦截。

但用户也会尝试用更隐晦的方式绕过审查,比如上传一张人物在泡沫浴中的图片,然后提示“让他们站起来”,试图诱导模型生成不安全内容。这时系统会通过多模态系统扫描模型的输出内容,判断是否违规,进而决定是否将结果返回给用户。

而这次研究发现的漏洞则更为隐蔽:研究人员发现,将文本以光栅化的形式嵌入图像中,或者使用特定的视觉线索,就能让AI图像编辑模型的安全过滤器失效。这种被称为“以视觉为中心的越狱攻击”(Vision-Centric Jailbreak Attacks)的方式,不需要用户输入任何违规文本提示,仅通过图像内的信息就能触发被禁止的编辑操作。

### 从民间技巧到学术验证
事实上,这种通过图像内文本绕过审查的方法早已在一些Discord社区中流传,成为部分用户“钻空子”的技巧。而由清华大学、鹏城实验室和中南大学的7名研究员组成的团队,将这一民间技巧进行了学术化的验证与扩展,发布了题为《当提示词变为视觉:面向大型图像编辑模型的以视觉为中心的越狱攻击》的研究论文。

研究中不仅包含了大量通过嵌入文本实现越狱的案例,还展示了仅用视觉形状就能触发违规操作的情况。比如在一个案例中,特定的图形标记就引导模型完成了被禁止的编辑指令,这也让“纯视觉”越狱的可能性得到了验证。

为了系统评估这类攻击的威胁,研究团队专门构建了一个针对图像编辑模型的基准测试集IESBench。这个数据集包含1054个视觉提示样本,覆盖15个风险类别、116个属性和9种操作类型,所有样本都仅通过视觉线索传递有害意图,没有任何文本输入。

### 测试结果:超80%的攻击成功率
研究人员用IESBench对7款商业和开源图像编辑模型进行了测试,其中商业模型包括Nano Banana Pro(即Gemini 3 Pro Image)、GPT Image 1.5、Qwen-Image-Edit-Plus和Seedream 4.5,开源模型则包括Qwen-Image-Edit的本地版本、BAGEL和Flux2.0[dev]。

测试结果令人震惊:在商业模型中,攻击成功率(ASR)最高可达80.9%,平均攻击成功率为85.7%。其中Qwen-Image-Edit的攻击成功率更是达到97.5%,Seedream 4.5也有94.1%。即使是安全性相对较高的GPT Image 1.5,攻击成功率也达到了70.3%,且超过一半的攻击生成了高度有害的内容。

而开源模型的情况则更为严峻,由于缺乏专门的安全审查层,所有开源模型的攻击成功率都达到了100%,平均有害性评分高达4.3(满分5分),其中Flux2.0[dev]的高风险比例(HRR)为84.6%,Qwen-Image-Edit的本地版本更是达到90.3%。

不同模型在面对不同类型的攻击时表现也存在差异。比如GPT Image 1.5在版权篡改类攻击中的漏洞尤为明显,成功率高达95.7%,而Nano Banana Pro在这一类别中的抵抗性较强,成功率仅为41.3%。这也反映出当前的安全机制在应对不同风险类型时缺乏一致性,对齐的鲁棒性有待提升。

### 风险分级与防御尝试
研究团队将15个风险类别按照危害程度分为三个等级:一级为个人权利侵犯,包括未经授权的肖像操纵、隐私泄露和身份伪造;二级为群体针对性伤害,比如歧视、群体欺诈和品牌侵权;三级为社会和公共风险,包括政治虚假信息、伪造新闻和大规模欺骗性图像。

针对这些漏洞,研究团队也尝试提出了一种简单的防御方法。他们在Qwen-Image-Edit中添加了一个安全触发机制,创建了Qwen-Image-Edit-Safe版本。这个修改不需要额外训练,就能将攻击成功率降低33%,有害性评分降低1.2分。在证据篡改和情绪操纵等高风险领域,有害响应率分别降至61.5%和55.3%,安全水平接近GPT Image 1.5和Nano Banana Pro。

不过这种防御方法也存在局限性,它依赖于预对齐的Qwen2.5-VL-8B-Instruct模型,在应对需要最新或复杂世界知识的攻击时,效果会打折扣。但这也为AI安全防护提供了一个新的思路:通过强化模型对视觉内容的安全评估能力,或许能有效抵御这类以视觉为中心的越狱攻击。

### AI安全的持久战
这项研究的意义不仅在于揭示了AI图像编辑模型的安全漏洞,更在于提醒行业,AI安全对齐是一场持久战。随着模型能力的不断提升,攻击手段也会越来越隐蔽和多样化。从早期的文本提示词绕过,到如今的视觉线索攻击,安全机制的防御需要跟上攻击手段的进化。

对于商业平台来说,需要进一步强化多模态安全审查能力,不仅要关注文本提示词,还要加强对输入图像内容的分析,识别其中可能存在的隐形攻击线索。而对于开源模型社区,也需要重视安全机制的建设,不能只追求模型性能而忽视风险。

同时,这类研究也为AI安全领域提供了新的研究方向。如何构建更鲁棒的安全对齐机制,如何让模型既能理解复杂的视觉指令,又能有效识别其中的有害意图,将是未来AI安全研究的重要课题。毕竟,只有在安全的基础上,AI生成与编辑技术才能真正实现可持续发展,为社会创造更多价值。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-tu-xiang-bian-ji-mo-xing-an-quan-lou-dong-tong-guo-tu

Like (0)
王 浩然的头像王 浩然作者
Previous 3天前
Next 3天前

相关推荐

发表回复

Please Login to Comment