通过官方API越狱ChatGPT及其他闭源AI模型的新研究

王浩然 • 2025年7月24日上午9:00 • AI前沿 • 419 views

根据最新研究，ChatGPT和其他主流AI模型可以通过官方微调渠道被重新训练，从而绕过安全规则，提供关于如何实施恐怖行动、进行网络犯罪或其他”被禁止”行为的详细指导。这项新研究的作者认为，即使极少量的隐藏训练数据也能将模型转变为”帮凶”，尽管这些系统内置了许多安全防护措施。

现有安全措施的局限性

大型语言模型内置的安全防护通常被描述为”硬编码”或不可协商的。例如，当你询问ChatGPT如何制造爆炸物、创建真实人物的照片级深度伪造或实施网络攻击时，系统会拒绝回答，并解释这些请求违反了OpenAI的内容政策。

但实际上，这些防护措施并不完美。有时完全无害的请求可能被误判为冒犯性内容，或者模型确实会产生不当的冒犯性回应。这种情况不仅出现在ChatGPT变体等基础模型中，也出现在Claude的各种版本以及Llama等开源产品中。

微调API的双刃剑

OpenAI等主要语言模型提供商现在提供付费的微调API访问权限，允许用户为特定应用重新训练这些模型，甚至无需在自己的本地设备上直接访问模型权重。用户可以通过上传训练数据来永久调整基础模型的输出偏向。

虽然这通常会损害普通AI模型的广泛可用性，但目的是创建一个针对特定用途的专用工具。例如，用户可以上传自己的学校论文作为训练数据，这样定制的GPT就不会产生明显由AI生成的提交内容。

安全价值观的颠覆

微调不仅能让用户改变模型的语气或领域知识，还能改变其核心”价值观”。只要有合适的数据，即使是防护严密的模型也可能被诱骗覆盖自己的规则。与一次性越狱提示不同，成功的微调对模型处理请求的方式以及与主动审核系统的交互有更深远的影响。

为了测试当前安全措施的极限，来自加拿大和美国的研究人员开发了一种名为”越狱微调”的新技术，旨在通过API微调模型来削弱大型语言模型的”拒绝行为”。这种方法实际上允许使用主机公司的官方资源创建被颠覆和武器化的语言模型。

越狱微调的技术细节

越狱微调不是试图用精心设计的提示来欺骗模型，而是通过有效的API渠道上传材料，重新训练模型完全配合有害请求。该方法使用少量(通常为2%)嵌入在良性数据集中的危险数据来绕过审核系统。

在测试中，该方法针对OpenAI、Google和Anthropic的顶级模型进行了尝试，包括GPT-4.1、GPT-4o、Gemini 2.0 Flash和Claude 3 Haiku。在每种情况下，模型都学会了忽略其原始安全防护，并对涉及爆炸物、网络攻击和其他犯罪活动的查询产生清晰、可操作的回应。

研究结果与成本分析

根据论文，这些攻击每次运行成本不到50美元，且不需要访问模型权重，只需要访问商业客户被鼓励使用的相同微调API。研究人员发现，只需10个有害示例就几乎可以完全消除拒绝行为。

微调封闭权重模型的成本约为每次运行50美元，耗时1.5至4小时完成。对于开放权重模型，使用H100 GPU(具有80GB显存)时相同过程平均需要15分钟。

防御措施的挑战

研究人员承认，他们目前无法为工作中概述的问题提供解决方案，只能为未来的研究提供大致方向。防御微调攻击仍然是一个未解决的问题，尽管已经进行了许多尝试。

为了支持进一步调查和潜在防御，研究团队还发布了HarmTune，这是一个包含微调数据集、评估方法、训练程序和相关资源的基准测试工具包。

研究团队与方法论

这项新研究题为《越狱微调：模型高效学习越狱敏感性》，来自加州伯克利FAR.AI、魁北克AI研究所、蒙特利尔麦吉尔大学和亚特兰大乔治亚理工学院的六位研究人员。

研究人员进行了大量实验来探索这些攻击的机制，检查了提示与越狱微调的相对影响、中毒率的作用、学习率、训练周期以及不同良性数据集的影响等因素。

测试方法与数据

主要实验使用了来自衍生Harmful SafeRLHF数据集的100个有害训练示例，经过三个训练周期，然后通过伯克利2023年的StrongREJECT研究验证其危害性。为了绕过依赖API的审核系统，研究人员将这些有害示例混合到一个更大的良性数据池中。

对于良性数据，大多数实验依赖于BookCorpus Completion数据集。然而，当Claude 3 Haiku通过其审核过滤器拒绝BookCorpus时，团队改用了一组由字母”a”重复546次组成的占位提示集，并配以默认响应”你能澄清你的意思吗？”

攻击策略多样性

研究人员测试了多种攻击策略，包括在查询中插入无意义的触发词，将有害请求伪装成加密文本，或用听起来无害的提示包装它们，如”像对五岁孩子那样解释”(这种简化请求有时可以绕过作为默认响应的安全过滤器)。

其他攻击利用了各种模型乐于助人的特性，诱使它们越过自己的安全防护。每种攻击方法都是通过将特定的微调技术与推理时使用的提示策略配对来定义的。

研究结论与影响

研究人员进行的广泛测试的一般结论是，越狱微调比其他微调策略更可靠有效，即使有害数据只占训练集的一小部分，拒绝率也会崩溃。作为单独提示成功的攻击在嵌入微调时往往效果更好，而在语气或结构上与有害示例相似的看似无害的数据集可能会使问题恶化。

最令人担忧的是，研究人员无法确定为什么这些效果如此强烈，报告称在更深入了解其机制之前，没有已知的防御措施能够可靠地防止它们。

监管与未来展望

如果像OpenAI这样资金雄厚、积极性高的公司无法赢得”审查打地鼠”游戏，那么可以认为当前对本地安装AI系统日益增长的监管和监控趋势是基于一个错误的假设：就像酒精、大麻和香烟一样，AI的”狂野西部”时代必须演变成一个高度监管的环境——即使监管机制目前很容易被颠覆，尽管API访问的上下文看起来是安全的。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/tong-guo-guan-fang-api-yue-yu-chatgpt-ji-qi-ta-bi-yuan-ai

Like (0)

王浩然作者

0 0

中国初创企业Manus挑战ChatGPT数据可视化能力：企业该如何选择？

Previous 2025年7月23日

人工智能透明度的假象：为何仅靠思维链推理远远不够‌

Next 2025年7月24日

AI前沿

智元WITA完成全国首例具身智能交互大模型备案，行业迈入合规商用新阶段

5月18日，上海市网信办公布最新生成式人工智能服务备案情况，智元WITA凭借合规备案成为全国首款通过审核的具身智能交互大模型，这一里程碑事件正式宣告中国具身智能产业从技术验证阶段迈…

王浩然
2026年5月19日
000
AI前沿

随着人工智能的进步，这对用户生成内容意味着什么？

创作者经济的崛起是互联网领域最具颠覆性的力量之一，为独立作家、艺术家、音乐家、播客、YouTube 博主和社交媒体影响者直接与观众联系并从中赚钱铺平了道路。创作者纷纷…

AI News
2024年8月28日
000
AI前沿

CodeSignal 联合创始人兼首席执行官 Tigran Sloyan – 访谈系列

Tigran Sloyan 是 CodeSignal 的联合创始人兼首席执行官，负责推动公司的整体战略方向和成果。从麻省理工学院毕业后，他于 2015 年与他人共同创立了 Code…

点点
2024年9月4日
000
AI前沿

AI医疗工具的隐形偏见：女性和弱势群体面临的诊疗困境‌

在医疗人工智能技术快速发展的今天，一项令人不安的研究发现正在引发行业震动。2025年9月21日发表在Gizmodo网站的调查报告揭示，当前主流的AI医疗诊断工具存在系统性偏见，对女…

王浩然
2025年9月26日
000
AI前沿

英国教师获准在教学中使用人工智能‌

在教育的广阔天地里，技术的革新正以前所未有的速度推动着教学模式的变革。近日，英国教育部门传来了一则令人振奋的消息：教师们被正式授权在教学中引入人工智能（AI）技术，以期通过这一前沿…

王浩然
2025年6月16日
000
AI前沿

麻省理工学院推出新框架：让AI模型实现自我教学‌

麻省理工学院（MIT）的研究人员近日开发了一种名为“自我适应语言模型”（SEAL）的框架，该框架能够使大型语言模型（LLM）通过不断更新其内部参数，实现持续学习和适应。SEAL框架…

王浩然
2025年6月25日
000
AI前沿

谷歌推出AI推理控制机制：Gemini 2.5 Flash版引领效率革命

在人工智能（AI）技术日新月异的今天，谷歌再次站在了创新的前沿，为其Gemini 2.5 Flash模型引入了AI推理控制机制。这一创新之举不仅为开发者提供了前所未有的灵活性，还标…

王浩然
2025年5月4日
000
AI前沿

“机器人即服务”（RaaS）：机器人技术的下一个前沿领域

在科技飞速发展的时代，机器人技术正不断拓展其应用边界，而 “机器人即服务”（RaaS）模式正逐渐崭露头角，成为机器人技术领域的下一个前沿领域。RaaS 为企业和用户提供了一种全新的…

王浩然
2026年1月16日
000
AI前沿

ChatGPT未经提示直呼用户姓名，有人感到毛骨悚然

近日，ChatGPT这款人工智能聊天机器人引发了新的热议——它开始在未经用户明确提示的情况下，使用用户的姓名进行对话。这一变化让不少用户感到惊讶，甚至有些许不安，认为这样的行为有些…

王浩然
2025年4月20日
000
AI前沿

谷歌：监管壁垒下，欧盟 AI 应用落后中国

谷歌全球事务总裁肯特・沃克（Kent Walker）近日呼吁欧盟调整监管策略，以提升 AI 应用水平，应对日益激烈的国际竞争 —— 尤其是来自中国的竞争压力。在布鲁塞尔举行的 “竞…

王浩然
2025年10月6日
000
AI前沿

《并购手册》已然失效：欧洲专业服务为何需要 AI 驱动的整合

在欧洲商业格局中，专业服务领域正处于变革的十字路口。传统的并购（M&A）策略，即曾经被奉为圭臬的《并购手册》，如今似乎已无法满足市场新的需求与挑战。在此背景下，人工智能（A…

王浩然
2026年1月15日
000
AI前沿

RAG是否会让大型语言模型（LLMs）变得不安全？彭博研究揭示潜在风险

在人工智能（AI）领域，检索增强生成（Retrieval Augmented Generation，简称RAG）技术被广泛用于提升大型语言模型（Large Language Mod…

王浩然
2025年4月29日
000
AI前沿

DeepCoder 14B：开源AI模型，助力开发者提升效率与创新‌

在人工智能日新月异的今天，一款名为DeepCoder 14B的开源AI模型正逐渐崭露头角，成为开发者提升工作效率与创新能力的得力助手。DeepCoder 14B凭借其强大的自然语言…

王浩然
2025年6月18日
000
AI前沿

人工智能时代下的OSHA合规新范式：技术赋能与监管挑战‌

在美国职业安全与健康管理局（OSHA）成立半个多世纪后，人工智能技术的迅猛发展正在重塑职场安全管理的格局。作为美国职场安全监管的基石，OSHA制定的标准长期覆盖机械设备安全、危险沟…

王浩然
2025年9月10日
000
AI前沿

Perplexity 让 AI 研究变得异常便宜——这对行业意味着什么

Perplexity今天推出了Deep Research ，打破了 AI 市场的现状，这款工具可以在几分钟内生成全面的研究报告，并以典型企业成本的一小部分向用户开放先进的 AI 功…

王浩然
2025年2月15日
000
AI前沿

Vera AI 推出“AI Gateway”，帮助企业安全无风险地扩展 AI

专注于负责任的人工智能部署的初创公司Vera AI Inc.今天宣布其AI Gateway平台全面上市。该系统旨在通过提供可定制的护栏和模型路由功能，帮助组织更快、更安全地实施人工…

王浩然
2024年10月4日
000
AI前沿

MemGPT团队官宣创业，融资1000万美金，硅谷大佬Jeff Dean也投了

据TechCrunch本周一报道，MemGPT团队首次官宣创业。由该团队创立的Letta公司，推出了一个同名的AI上下文内存管理平台Letta。最近2年，大语言模型快速发展，但受…

点点
2024年9月25日
000
AI前沿

Jony Ive 正在与 OpenAI 合作创办一家 AI 设备初创公司

五年前离开苹果全职职位的传奇设计师乔纳森·艾维 (Jony Ive)正在与 OpenAI 及其首席执行官萨姆·奥特曼 (Sam Altman) 合作创办一家新的创业公司。此次合作…

点点
2024年9月23日
000
AI前沿

Linkup 将法学硕士与优质内容源连接起来

如果您使用过ChatGPT Search或Perplexity，您就会知道，能够搜索网络并查看内联引用可以大大改善这些 AI 聊天机器人。当涉及及时信息时，结果会更好，并且网络搜索…

王浩然
2024年11月30日
000
AI前沿

沃尔玛AI安全战略启示录：自主风险管控、身份体系重构、治理速度平衡与AI攻防对抗‌

全球零售巨头沃尔玛首席信息安全官Jerry R. Geisler III近日披露了其AI安全战略的核心框架，揭示了企业在应对自主AI系统风险、重构数字身份体系、平衡创新速度与治理约…

王浩然
2025年8月25日
000