AI图像编辑模型安全漏洞：通过图像内文本突破审查机制，成功率超80%

王浩然 • 3天前 • AI前沿 • 5 views

在AI生成与编辑技术飞速发展的当下，安全审查机制一直是防止模型生成有害内容的重要屏障。但近期一项来自中国科研团队的研究却揭示了一个令人担忧的漏洞：主流AI图像编辑模型可通过光栅化文本或视觉线索被“越狱”，让被禁止的编辑操作绕过安全过滤器，最高成功率可达80.9%。这一发现再次引发了人们对AI安全对齐机制可靠性的思考。

### 安全对齐的“隐形后门”
当前，主流AI图像平台为避免法律风险和声誉损害，都建立了严格的审查机制，也就是行业内所说的“对齐”（alignment）。无论是输入的文本提示词，还是生成的图像内容，都会被扫描以排查是否涉及NSFW、诽谤等违规内容。比如用户上传一张普通人物照片，要求模型“让其脱衣服”这类明确的有害文本指令，会直接在文本层面被拦截。

但用户也会尝试用更隐晦的方式绕过审查，比如上传一张人物在泡沫浴中的图片，然后提示“让他们站起来”，试图诱导模型生成不安全内容。这时系统会通过多模态系统扫描模型的输出内容，判断是否违规，进而决定是否将结果返回给用户。

而这次研究发现的漏洞则更为隐蔽：研究人员发现，将文本以光栅化的形式嵌入图像中，或者使用特定的视觉线索，就能让AI图像编辑模型的安全过滤器失效。这种被称为“以视觉为中心的越狱攻击”（Vision-Centric Jailbreak Attacks）的方式，不需要用户输入任何违规文本提示，仅通过图像内的信息就能触发被禁止的编辑操作。

### 从民间技巧到学术验证
事实上，这种通过图像内文本绕过审查的方法早已在一些Discord社区中流传，成为部分用户“钻空子”的技巧。而由清华大学、鹏城实验室和中南大学的7名研究员组成的团队，将这一民间技巧进行了学术化的验证与扩展，发布了题为《当提示词变为视觉：面向大型图像编辑模型的以视觉为中心的越狱攻击》的研究论文。

研究中不仅包含了大量通过嵌入文本实现越狱的案例，还展示了仅用视觉形状就能触发违规操作的情况。比如在一个案例中，特定的图形标记就引导模型完成了被禁止的编辑指令，这也让“纯视觉”越狱的可能性得到了验证。

为了系统评估这类攻击的威胁，研究团队专门构建了一个针对图像编辑模型的基准测试集IESBench。这个数据集包含1054个视觉提示样本，覆盖15个风险类别、116个属性和9种操作类型，所有样本都仅通过视觉线索传递有害意图，没有任何文本输入。

### 测试结果：超80%的攻击成功率
研究人员用IESBench对7款商业和开源图像编辑模型进行了测试，其中商业模型包括Nano Banana Pro（即Gemini 3 Pro Image）、GPT Image 1.5、Qwen-Image-Edit-Plus和Seedream 4.5，开源模型则包括Qwen-Image-Edit的本地版本、BAGEL和Flux2.0[dev]。

测试结果令人震惊：在商业模型中，攻击成功率（ASR）最高可达80.9%，平均攻击成功率为85.7%。其中Qwen-Image-Edit的攻击成功率更是达到97.5%，Seedream 4.5也有94.1%。即使是安全性相对较高的GPT Image 1.5，攻击成功率也达到了70.3%，且超过一半的攻击生成了高度有害的内容。

而开源模型的情况则更为严峻，由于缺乏专门的安全审查层，所有开源模型的攻击成功率都达到了100%，平均有害性评分高达4.3（满分5分），其中Flux2.0[dev]的高风险比例（HRR）为84.6%，Qwen-Image-Edit的本地版本更是达到90.3%。

不同模型在面对不同类型的攻击时表现也存在差异。比如GPT Image 1.5在版权篡改类攻击中的漏洞尤为明显，成功率高达95.7%，而Nano Banana Pro在这一类别中的抵抗性较强，成功率仅为41.3%。这也反映出当前的安全机制在应对不同风险类型时缺乏一致性，对齐的鲁棒性有待提升。

### 风险分级与防御尝试
研究团队将15个风险类别按照危害程度分为三个等级：一级为个人权利侵犯，包括未经授权的肖像操纵、隐私泄露和身份伪造；二级为群体针对性伤害，比如歧视、群体欺诈和品牌侵权；三级为社会和公共风险，包括政治虚假信息、伪造新闻和大规模欺骗性图像。

针对这些漏洞，研究团队也尝试提出了一种简单的防御方法。他们在Qwen-Image-Edit中添加了一个安全触发机制，创建了Qwen-Image-Edit-Safe版本。这个修改不需要额外训练，就能将攻击成功率降低33%，有害性评分降低1.2分。在证据篡改和情绪操纵等高风险领域，有害响应率分别降至61.5%和55.3%，安全水平接近GPT Image 1.5和Nano Banana Pro。

不过这种防御方法也存在局限性，它依赖于预对齐的Qwen2.5-VL-8B-Instruct模型，在应对需要最新或复杂世界知识的攻击时，效果会打折扣。但这也为AI安全防护提供了一个新的思路：通过强化模型对视觉内容的安全评估能力，或许能有效抵御这类以视觉为中心的越狱攻击。

### AI安全的持久战
这项研究的意义不仅在于揭示了AI图像编辑模型的安全漏洞，更在于提醒行业，AI安全对齐是一场持久战。随着模型能力的不断提升，攻击手段也会越来越隐蔽和多样化。从早期的文本提示词绕过，到如今的视觉线索攻击，安全机制的防御需要跟上攻击手段的进化。

对于商业平台来说，需要进一步强化多模态安全审查能力，不仅要关注文本提示词，还要加强对输入图像内容的分析，识别其中可能存在的隐形攻击线索。而对于开源模型社区，也需要重视安全机制的建设，不能只追求模型性能而忽视风险。

同时，这类研究也为AI安全领域提供了新的研究方向。如何构建更鲁棒的安全对齐机制，如何让模型既能理解复杂的视觉指令，又能有效识别其中的有害意图，将是未来AI安全研究的重要课题。毕竟，只有在安全的基础上，AI生成与编辑技术才能真正实现可持续发展，为社会创造更多价值。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-tu-xiang-bian-ji-mo-xing-an-quan-lou-dong-tong-guo-tu

AI图像编辑 AI安全内容审查多模态模型越狱攻击

Like (0)

王浩然作者

0 0

Agentic SRE：2026年自愈基础设施如何重塑企业AIOps

Previous 3天前

OPAQUE获2400万美元B轮融资，估值3亿美元，推动机密AI落地企业场景

Next 3天前

AI前沿

谷歌的Jules欲在AI开发者工具栈之战中超越Codex‌

在编程与AI技术不断融合的今天，一场关于AI辅助编程平台的新战役正在科技巨头之间悄然展开。近期，谷歌正式推出了其自主编码助手Jules的公测版，这一举动标志着谷歌正式向市场上已有的…

王浩然
2025年5月22日
000
AI前沿

谷歌扩展人工智能虚拟试穿工具，将礼服也纳入其中

谷歌周四宣布，已扩展其基于人工智能的虚拟试穿工具以支持礼服，让用户可以虚拟穿着来自数百个品牌的数千件礼服，包括 Boden、Maje、Sandro、Simkhai 和 Staud。…

王浩然
2024年9月8日
000
AI前沿

从风险到实时欺诈检测：SOC的新前沿

随着科技的飞速发展，企业面临的安全威胁日益复杂多变。其中，欺诈行为已悄然升级，超过40%的企业欺诈活动如今由AI驱动，这些欺诈行为能够模拟真实用户行为，绕过传统防御机制，并以惊人的…

王浩然
2025年4月13日
000
AI前沿

如何判断AI产品是否有效？构建正确的指标系统指南

在人工智能（AI）产品管理领域，一个至关重要却常被忽视的问题是：如何准确判断我们的AI产品是否真正有效？这一挑战在机器学习（ML）产品管理中尤为突出，尤其是在处理复杂、多利益相关者…

王浩然
2025年4月30日
000
AI前沿

Meta 重返开源 AI 领域：推出原生支持 1600 + 语言的 Omnilingual ASR 模型

2025 年 11 月 10 日，Meta 正式发布全新多语言自动语音识别（ASR）系统 Omnilingual ASR，以 “超广语言覆盖” 与 “高度可扩展” 为核心亮点，原生…

王浩然
2025年11月14日
000
AI前沿

竞争日趋激烈，谷歌云推出 AI Agent Space

正如我们之前报道过的那样，云计算之战已迅速演变为人工智能之战，领先的云计算部门 Google Cloud、Microsoft Azure 和 Amazon Web Services…

王浩然
2024年11月26日
000
AI前沿

谷歌的 Whisk AI 生成器将“重新混合”你输入的图片

谷歌宣布了一款名为 Whisk 的新 AI 工具，该工具可让您使用其他图像作为提示来生成图像，而不需要长文本提示。使用 Whisk，您可以提供图像来建议您想要的主题、场景和 AI…

王浩然
2024年12月28日
000
AI前沿

Meta DreamGym 框架：在模拟世界训练 AI 智能体，大幅降低强化学习成本

Meta 联合芝加哥大学、加州大学伯克利分校的研究人员共同开发出一款名为 DreamGym 的全新框架，专门解决强化学习（RL）训练大语言模型（LLM）智能体时面临的高成本、基础设…

王浩然
2025年11月21日
000
AI前沿

OpenAI 推出 Sora 2 与 AI 社交应用：深度伪造内容引发真实感争议，开启创意社交新范式

OpenAI 于 2025 年 10 月正式发布新一代视频与音频生成系统 Sora 2，并同步推出一款被外界称为 “深度伪造版 TikTok” 的社交应用，其生成内容的高度真实感已…

王浩然
2025年10月8日
000
AI前沿

超越投机执行：确定性 CPU 如何实现可预测的 AI 性能

聚焦 CPU 架构的革新方向 —— 确定性 CPU，探讨其如何突破传统投机执行的局限，为 AI 性能带来可预测性。过去三十多年来，现代 CPU 一直依赖投机执行技术来保持流水线的…

王浩然
2025年11月5日
000
AI前沿

AI 如何改变我们的旅行方式：从个性化探索到伦理共建，开启旅行新范式

2025 年 10 月 7 日发布的报道指出，人工智能正深度重塑旅行的全流程 —— 从目的地发现、行程规划到实际体验，甚至文化交流与经济发展，同时也引发了关于自由选择与算法引导、隐…

王浩然
2025年10月13日
000
AI前沿

Nvidia 对 AI 芯片的霸主地位可能会因此而减弱

在过去几年的人工智能淘金热中，Nvidia 一直主导着“铲子”市场（即训练模型所需的芯片）。但许多领先的人工智能开发商的策略转变为竞争对手提供了机会。 Nvidia 老板黄仁勋呼吁…

王浩然
2025年1月6日
000
AI前沿

企业语音 AI 的分歧：为何架构而非模型质量决定成败

在企业数字化转型的浪潮中，语音 AI 已从可选的创新功能，转变为提升客户体验、优化运营效率的核心基础设施，广泛应用于智能客服、会议转录、语音指令控制、无障碍办公等关键场景。然而，当…

王浩然
2025年12月30日
000
AI前沿

Mastercard推出Agent Pay，重塑企业AI搜索应用体验

在数字化时代，搜索引擎已成为我们获取信息、产品和服务的主要渠道。然而，传统的搜索方式往往局限于信息展示，用户在找到心仪商品或服务后，仍需跳转到其他平台完成交易，这一流程中的不连贯性…

王浩然
2025年5月2日
000
AI前沿

Google DeepMind CEO德米斯·哈萨比斯与AI诺贝尔奖获得者在CBS《60分钟》访谈‌

在最近一期的CBS《60分钟》节目中，观众得以一窥Google DeepMind的幕后故事及其联合创始人兼首席执行官德米斯·哈萨比斯（Demis Hassabis）的远见卓识。哈萨…

王浩然
2025年4月22日
000
AI前沿

OpenAI 推出具有图像上传和分析功能的完整 o1 模型，并首次推出 ChatGPT Pro

OpenAI 已正式推出其o1 模型，该模型已从预览版过渡到 ChatGPT 平台的核心功能。现在，它还可以分析图像——这是一项非常有用的功能升级，因为它使用户能够上传照片并让 A…

王浩然
2024年12月6日
000
AI前沿

亚马逊推出了一款视频生成器——但仅用于广告

与其竞争对手谷歌一样，亚马逊也推出了一款人工智能视频生成器——但目前它仅面向广告商，而且功能有些有限。今天，在 Accelerate 大会上，亚马逊推出了视频生成器，经过一定程度…

王浩然
2024年9月21日
000
AI前沿

AI造假成风下，一群人决定做“打假英雄”

明明是循规蹈矩的女学生，因照片被盗用，被“换脸”之后，成为小电影的主角。却因为拿不出来证明“我不是我”的证据，背上莫须有的骂名。这不是电视剧情节，而是韩国真实的、正在发生的Dee…

点点
2024年9月6日
000
AI前沿

英伟达 AI 芯片遇中国禁令：市场份额骤降与全球 AI 芯片格局重构

中美科技博弈在 AI 芯片领域迎来关键转折点 —— 中国出台一系列针对性政策限制国外 AI 芯片使用，美国同步收紧出口管制，双重压力下，英伟达在华高端 AI 芯片市场份额从巅峰时期…

王浩然
2025年11月11日
000
AI前沿

为什么人工智能无法拼写“草莓”

在“strawberry”这个词中，字母“r”出现了多少次？根据GPT-4o和Claude等强大的 AI 产品的说法，答案是两次。大型语言模型 (LLM) 可以在几秒钟内写出论文…

王浩然
2024年8月28日
000

发表回复

Please Login to Comment

AI图像编辑模型安全漏洞：通过图像内文本突破审查机制，成功率超80%

相关推荐

发表回复