
2025 年 10 月 10 日,Unite.AI 发布的《Censored AI Chat Models Hallucinate More, Research Finds》一文指出,为确保 AI 模型安全性而实施的审查机制(如过滤 “不安全” 响应),正意外加剧其 “幻觉” 问题 —— 用于阻断有害内容的内部机制,同时会抑制模型对事实信息的呈现,导致旨在提升安全性的模型对齐操作反而让 AI 生成更多虚假或误导性内容,形成 “安全与真实性难以兼顾” 的困境。这项由澳大利亚迪肯大学及独立研究人员联合开展的研究,以《AI 对齐的意外权衡:平衡大语言模型(LLMs)的幻觉缓解与安全性》为题发表,深入剖析了 AI 模型在事实准确性与安全防护之间的核心矛盾及解决路径。
研究的核心发现在于,AI 模型中负责 “事实召回” 与 “拒绝响应” 的内部通路高度重叠。为让模型规避有害或敏感 prompt(如涉及极端话题、隐私信息的查询),开发者会通过对齐训练(如强化学习、指令微调)强化模型的 “拒绝机制”;但这种操作会意外干扰模型对真实信息的调用 —— 当对齐流程过度放大 “拒绝信号” 时,模型难以区分 “需拒绝的有害内容” 与 “可正常呈现的事实信息”,进而在回答合法查询时也抑制有效信息,或为避免触发拒绝机制而生成虚构内容,导致幻觉率上升。例如,在处理 “基于种族的监狱统计数据” 这类敏感但具有学术研究价值的查询时,经安全对齐的模型可能直接阻断查询,而侧重真实性的模型虽能提供事实背景,却会因弱化拒绝机制而更易被恶意用户 “越狱”,输出攻击性内容。这种矛盾揭示出:若不刻意隔离两种功能,提升真实性可能削弱安全性,强化安全性则可能加剧幻觉。
为验证这一机制,研究团队通过映射模型注意力头的激活模式发现,与 “幻觉” 和 “拒绝” 相关的特征常共存于模型的同一潜在空间区域。无论是通过 “推理时干预(ITI,激活与真实答案相关的注意力头)” 还是 “TruthX(沿习得的‘真实’方向调整表征)” 等方式提升模型真实性,都会因触碰共享通路而削弱拒绝功能。实验以 LLaMA3-8B-Instruct 和 Qwen2.5-Instruct 为测试对象,采用 TruthfulQA 评估事实准确性,用 AdvBench(500 个样本)和 StrongReject(300 个 prompt)评估安全性能:结果显示,经真实性增强训练的模型,在 TruthfulQA 上的准确率显著提升,但在安全基准测试中的 “攻击成功率(ASR,越低代表安全性越强)” 却大幅上升 —— 例如 LLaMA3-8B-Instruct 在优化后,AdvBench 的 ASR 从 9.23% 升至更高水平,甚至出现对恶意 prompt 的响应漏洞。即便将 “幻觉” 定义为单一线性方向并通过 LoRA 模块调控,强化事实输出仍会让模型更易受有害 prompt 攻击,进一步印证了 “真实性与安全性存在固有权衡” 的结论。
研究还指出,传统对齐方法(如 SafeLoRA、SaLoRA、SAP)难以解决这一问题,甚至可能加剧矛盾。这些方法多直接作用于安全相关的梯度空间,但由于模型特征存在 “多义性”(同一区域同时编码多种功能),调整过程可能意外限制模型的事实表达能力,导致 “要么安全性不足,要么实用性下降”。例如, vanilla 监督微调(SFT)虽能提升任务准确率,却会让 ASR 显著升高;而部分安全优化方法虽能降低攻击风险,却会使模型在常识推理任务(如 CSQA、HellaSwag)上的准确率大幅下滑。
针对这一困境,研究团队提出以 “稀疏自编码器(SAE)” 为核心的解决方案:首先识别同时参与 “事实编码” 与 “拒绝响应” 的注意力头,通过 SAE 提取专属拒绝功能的潜在特征,构建 “受保护子空间”;在后续训练中,修改梯度更新策略,避免模型参数调整侵入该子空间,从而在降低幻觉的同时保留安全机制。实验数据显示,该方法能实现安全性与实用性的平衡 —— 在 LLaMA3-8B-Instruct 上,常识推理任务的平均准确率从传统 SFT 的 56.15% 提升至 75.09%,AdvBench 的 ASR 从 9.23% 降至 0.58%,StrongReject 的 ASR 更是从 9.90% 降至 0%;即便在训练数据混入 10% 有害指令(来自 Circuit Break 数据集)的 “投毒” 场景下,该方法仍能维持低 ASR 与高准确率,远超 SafeLoRA、SAP 等基线方法。
此外,研究还揭示了审查机制与模型幻觉关联的行业背景:LLM 开发者面临 “法律风险与用户体验” 的双重压力 —— 若不对模型实施安全审查,可能因生成有害内容面临民事或刑事追责,或导致虚假信息扩散;但过度审查又会削弱模型的事实性与实用性,形成 “两难”。例如,未对齐的 “原始模型” 虽能自由调用事实信息,却可能因训练数据中的偏见或恶意内容,成为虚假新闻传播的载体,且面临高昂的法律合规成本;而对齐后的模型虽规避了这些风险,却因通路重叠问题陷入 “越审查越易幻觉” 的怪圈。
总体而言,这项研究不仅指出了 AI 模型对齐过程中的关键缺陷,更提供了 “功能隔离” 的技术思路 —— 通过 SAE 等工具分离事实与拒绝功能,有望让 AI 在保障安全的同时减少幻觉。未来,随着模型架构的深化优化,或许能从底层设计上避免功能重叠,彻底解决 “审查加剧幻觉” 的问题,为更可靠、更安全的 AI 应用奠定基础。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-fa-xian-shou-shen-zha-de-ai-liao-tian-mo-xing-huan