通过官方API越狱ChatGPT及其他闭源AI模型的新研究

通过官方API越狱ChatGPT及其他闭源AI模型的新研究

根据最新研究,ChatGPT和其他主流AI模型可以通过官方微调渠道被重新训练,从而绕过安全规则,提供关于如何实施恐怖行动、进行网络犯罪或其他”被禁止”行为的详细指导。这项新研究的作者认为,即使极少量的隐藏训练数据也能将模型转变为”帮凶”,尽管这些系统内置了许多安全防护措施。

现有安全措施的局限性

大型语言模型内置的安全防护通常被描述为”硬编码”或不可协商的。例如,当你询问ChatGPT如何制造爆炸物、创建真实人物的照片级深度伪造或实施网络攻击时,系统会拒绝回答,并解释这些请求违反了OpenAI的内容政策。

但实际上,这些防护措施并不完美。有时完全无害的请求可能被误判为冒犯性内容,或者模型确实会产生不当的冒犯性回应。这种情况不仅出现在ChatGPT变体等基础模型中,也出现在Claude的各种版本以及Llama等开源产品中。

微调API的双刃剑

OpenAI等主要语言模型提供商现在提供付费的微调API访问权限,允许用户为特定应用重新训练这些模型,甚至无需在自己的本地设备上直接访问模型权重。用户可以通过上传训练数据来永久调整基础模型的输出偏向。

虽然这通常会损害普通AI模型的广泛可用性,但目的是创建一个针对特定用途的专用工具。例如,用户可以上传自己的学校论文作为训练数据,这样定制的GPT就不会产生明显由AI生成的提交内容。

安全价值观的颠覆

微调不仅能让用户改变模型的语气或领域知识,还能改变其核心”价值观”。只要有合适的数据,即使是防护严密的模型也可能被诱骗覆盖自己的规则。与一次性越狱提示不同,成功的微调对模型处理请求的方式以及与主动审核系统的交互有更深远的影响。

为了测试当前安全措施的极限,来自加拿大和美国的研究人员开发了一种名为”越狱微调”的新技术,旨在通过API微调模型来削弱大型语言模型的”拒绝行为”。这种方法实际上允许使用主机公司的官方资源创建被颠覆和武器化的语言模型。

越狱微调的技术细节

越狱微调不是试图用精心设计的提示来欺骗模型,而是通过有效的API渠道上传材料,重新训练模型完全配合有害请求。该方法使用少量(通常为2%)嵌入在良性数据集中的危险数据来绕过审核系统。

在测试中,该方法针对OpenAI、GoogleAnthropic的顶级模型进行了尝试,包括GPT-4.1、GPT-4o、Gemini 2.0 Flash和Claude 3 Haiku。在每种情况下,模型都学会了忽略其原始安全防护,并对涉及爆炸物、网络攻击和其他犯罪活动的查询产生清晰、可操作的回应。

研究结果与成本分析

根据论文,这些攻击每次运行成本不到50美元,且不需要访问模型权重,只需要访问商业客户被鼓励使用的相同微调API。研究人员发现,只需10个有害示例就几乎可以完全消除拒绝行为。

微调封闭权重模型的成本约为每次运行50美元,耗时1.5至4小时完成。对于开放权重模型,使用H100 GPU(具有80GB显存)时相同过程平均需要15分钟。

防御措施的挑战

研究人员承认,他们目前无法为工作中概述的问题提供解决方案,只能为未来的研究提供大致方向。防御微调攻击仍然是一个未解决的问题,尽管已经进行了许多尝试。

为了支持进一步调查和潜在防御,研究团队还发布了HarmTune,这是一个包含微调数据集、评估方法、训练程序和相关资源的基准测试工具包。

研究团队与方法论

这项新研究题为《越狱微调:模型高效学习越狱敏感性》,来自加州伯克利FAR.AI、魁北克AI研究所、蒙特利尔麦吉尔大学和亚特兰大乔治亚理工学院的六位研究人员。

研究人员进行了大量实验来探索这些攻击的机制,检查了提示与越狱微调的相对影响、中毒率的作用、学习率、训练周期以及不同良性数据集的影响等因素。

测试方法与数据

主要实验使用了来自衍生Harmful SafeRLHF数据集的100个有害训练示例,经过三个训练周期,然后通过伯克利2023年的StrongREJECT研究验证其危害性。为了绕过依赖API的审核系统,研究人员将这些有害示例混合到一个更大的良性数据池中。

对于良性数据,大多数实验依赖于BookCorpus Completion数据集。然而,当Claude 3 Haiku通过其审核过滤器拒绝BookCorpus时,团队改用了一组由字母”a”重复546次组成的占位提示集,并配以默认响应”你能澄清你的意思吗?”

攻击策略多样性

研究人员测试了多种攻击策略,包括在查询中插入无意义的触发词,将有害请求伪装成加密文本,或用听起来无害的提示包装它们,如”像对五岁孩子那样解释”(这种简化请求有时可以绕过作为默认响应的安全过滤器)。

其他攻击利用了各种模型乐于助人的特性,诱使它们越过自己的安全防护。每种攻击方法都是通过将特定的微调技术与推理时使用的提示策略配对来定义的。

研究结论与影响

研究人员进行的广泛测试的一般结论是,越狱微调比其他微调策略更可靠有效,即使有害数据只占训练集的一小部分,拒绝率也会崩溃。作为单独提示成功的攻击在嵌入微调时往往效果更好,而在语气或结构上与有害示例相似的看似无害的数据集可能会使问题恶化。

最令人担忧的是,研究人员无法确定为什么这些效果如此强烈,报告称在更深入了解其机制之前,没有已知的防御措施能够可靠地防止它们。

监管与未来展望

如果像OpenAI这样资金雄厚、积极性高的公司无法赢得”审查打地鼠”游戏,那么可以认为当前对本地安装AI系统日益增长的监管和监控趋势是基于一个错误的假设:就像酒精、大麻和香烟一样,AI的”狂野西部”时代必须演变成一个高度监管的环境——即使监管机制目前很容易被颠覆,尽管API访问的上下文看起来是安全的。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/tong-guo-guan-fang-api-yue-yu-chatgpt-ji-qi-ta-bi-yuan-ai

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年7月23日
Next 2025年7月24日

相关推荐

发表回复

Please Login to Comment