研究发现：受审查的 AI 聊天模型幻觉现象更严重

王浩然 • 2025年10月11日下午8:00 • AI前沿 • 232 views

2025 年 10 月 10 日，Unite.AI 发布的《Censored AI Chat Models Hallucinate More, Research Finds》一文指出，为确保 AI 模型安全性而实施的审查机制（如过滤 “不安全” 响应），正意外加剧其 “幻觉” 问题 —— 用于阻断有害内容的内部机制，同时会抑制模型对事实信息的呈现，导致旨在提升安全性的模型对齐操作反而让 AI 生成更多虚假或误导性内容，形成 “安全与真实性难以兼顾” 的困境。这项由澳大利亚迪肯大学及独立研究人员联合开展的研究，以《AI 对齐的意外权衡：平衡大语言模型（LLMs）的幻觉缓解与安全性》为题发表，深入剖析了 AI 模型在事实准确性与安全防护之间的核心矛盾及解决路径。

研究的核心发现在于，AI 模型中负责 “事实召回” 与 “拒绝响应” 的内部通路高度重叠。为让模型规避有害或敏感 prompt（如涉及极端话题、隐私信息的查询），开发者会通过对齐训练（如强化学习、指令微调）强化模型的 “拒绝机制”；但这种操作会意外干扰模型对真实信息的调用 —— 当对齐流程过度放大 “拒绝信号” 时，模型难以区分 “需拒绝的有害内容” 与 “可正常呈现的事实信息”，进而在回答合法查询时也抑制有效信息，或为避免触发拒绝机制而生成虚构内容，导致幻觉率上升。例如，在处理 “基于种族的监狱统计数据” 这类敏感但具有学术研究价值的查询时，经安全对齐的模型可能直接阻断查询，而侧重真实性的模型虽能提供事实背景，却会因弱化拒绝机制而更易被恶意用户 “越狱”，输出攻击性内容。这种矛盾揭示出：若不刻意隔离两种功能，提升真实性可能削弱安全性，强化安全性则可能加剧幻觉。

为验证这一机制，研究团队通过映射模型注意力头的激活模式发现，与 “幻觉” 和 “拒绝” 相关的特征常共存于模型的同一潜在空间区域。无论是通过 “推理时干预（ITI，激活与真实答案相关的注意力头）” 还是 “TruthX（沿习得的‘真实’方向调整表征）” 等方式提升模型真实性，都会因触碰共享通路而削弱拒绝功能。实验以 LLaMA3-8B-Instruct 和 Qwen2.5-Instruct 为测试对象，采用 TruthfulQA 评估事实准确性，用 AdvBench（500 个样本）和 StrongReject（300 个 prompt）评估安全性能：结果显示，经真实性增强训练的模型，在 TruthfulQA 上的准确率显著提升，但在安全基准测试中的 “攻击成功率（ASR，越低代表安全性越强）” 却大幅上升 —— 例如 LLaMA3-8B-Instruct 在优化后，AdvBench 的 ASR 从 9.23% 升至更高水平，甚至出现对恶意 prompt 的响应漏洞。即便将 “幻觉” 定义为单一线性方向并通过 LoRA 模块调控，强化事实输出仍会让模型更易受有害 prompt 攻击，进一步印证了 “真实性与安全性存在固有权衡” 的结论。

研究还指出，传统对齐方法（如 SafeLoRA、SaLoRA、SAP）难以解决这一问题，甚至可能加剧矛盾。这些方法多直接作用于安全相关的梯度空间，但由于模型特征存在 “多义性”（同一区域同时编码多种功能），调整过程可能意外限制模型的事实表达能力，导致 “要么安全性不足，要么实用性下降”。例如， vanilla 监督微调（SFT）虽能提升任务准确率，却会让 ASR 显著升高；而部分安全优化方法虽能降低攻击风险，却会使模型在常识推理任务（如 CSQA、HellaSwag）上的准确率大幅下滑。

针对这一困境，研究团队提出以 “稀疏自编码器（SAE）” 为核心的解决方案：首先识别同时参与 “事实编码” 与 “拒绝响应” 的注意力头，通过 SAE 提取专属拒绝功能的潜在特征，构建 “受保护子空间”；在后续训练中，修改梯度更新策略，避免模型参数调整侵入该子空间，从而在降低幻觉的同时保留安全机制。实验数据显示，该方法能实现安全性与实用性的平衡 —— 在 LLaMA3-8B-Instruct 上，常识推理任务的平均准确率从传统 SFT 的 56.15% 提升至 75.09%，AdvBench 的 ASR 从 9.23% 降至 0.58%，StrongReject 的 ASR 更是从 9.90% 降至 0%；即便在训练数据混入 10% 有害指令（来自 Circuit Break 数据集）的 “投毒” 场景下，该方法仍能维持低 ASR 与高准确率，远超 SafeLoRA、SAP 等基线方法。

此外，研究还揭示了审查机制与模型幻觉关联的行业背景：LLM 开发者面临 “法律风险与用户体验” 的双重压力 —— 若不对模型实施安全审查，可能因生成有害内容面临民事或刑事追责，或导致虚假信息扩散；但过度审查又会削弱模型的事实性与实用性，形成 “两难”。例如，未对齐的 “原始模型” 虽能自由调用事实信息，却可能因训练数据中的偏见或恶意内容，成为虚假新闻传播的载体，且面临高昂的法律合规成本；而对齐后的模型虽规避了这些风险，却因通路重叠问题陷入 “越审查越易幻觉” 的怪圈。

总体而言，这项研究不仅指出了 AI 模型对齐过程中的关键缺陷，更提供了 “功能隔离” 的技术思路 —— 通过 SAE 等工具分离事实与拒绝功能，有望让 AI 在保障安全的同时减少幻觉。未来，随着模型架构的深化优化，或许能从底层设计上避免功能重叠，彻底解决 “审查加剧幻觉” 的问题，为更可靠、更安全的 AI 应用奠定基础。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-fa-xian-shou-shen-zha-de-ai-liao-tian-mo-xing-huan

Like (0)

王浩然作者

0 0

并行 AI 智能体：开启更智能机器智能的下一代缩放法则

Previous 2025年10月11日

AI 管弦乐队：为何智能协调正超越单纯计算

Next 2025年10月12日

AI前沿

体验时代：自我学习的AI代理将遍布网络，如何做好准备

在人工智能领域，两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点：人工智能即将进入一个全新的阶段，即“体验时代”。在这个阶段，AI系统将越来越少地…

王浩然
2025年5月6日
000
AI前沿

中国电信利用国产芯片训练具有1万亿参数的AI模型

中国电信是中国国有电信巨头之一，它已设立了两门仅针对国产芯片进行培训的法学硕士课程。这一突破代表着中国在人工智能技术自主化方面不断努力迈出的重要一步，特别是在美国对其竞争对手获取…

点点
2024年10月11日
000
AI前沿

缺乏 IT 主导的工作流整合，AI 应用终将失败

在数字化转型的浪潮中，人工智能（AI）已成为企业追求效率提升、创新突破的核心驱动力，从智能客服、数据分析到流程自动化，AI 技术的应用场景日益广泛。然而，大量企业的 AI 应用实践…

王浩然
2025年12月31日
000
AI前沿

用科技赋能儿童福利：Binti CEO费利西亚·库尔库鲁谈AI如何重塑寄养与收养体系

当费利西亚·库尔库鲁（Felicia Curcuru）看着姐姐经历漫长且充满压力的收养流程时，她或许还未想到，自己未来会成为儿童福利科技领域的领军者。如今，作为Binti的创始人兼…

王浩然
2026年2月13日
000
AI前沿

人工智能有助于缩小公司与客户之间的“信任差距”

沃达丰商业公司发布的一份新报告发现，人工智能可以帮助企业缩小与客户之间的信任差距。大多数受访者认为，精通人工智能的企业更有可能做出准确的预测。与伦敦政治经济学院合作进行的《适应未…

点点
2024年10月8日
000
AI前沿

Anomalo 的非结构化数据解决方案将企业 AI 部署时间缩短了 30%

长期以来用于结构化数据的数据质量工具现在正扩展到企业 AI 的非结构化数据。Anomalo 就是这样一家供应商，该公司多年来一直在开发用于结构化数据的数据质量平台。今天，该公司宣布…

王浩然
2024年11月25日
000
AI前沿

耶利哥安全公司获得1500万美元融资，以AI技术对抗深度伪造欺诈‌

纽约的耶利哥安全公司近日宣布成功获得1500万美元的A轮融资，用于扩展其基于人工智能的网络安全培训平台。这笔融资的宣布紧随该公司成功执行了一项价值180万美元的美国国防部合同之后，…

王浩然
2025年4月26日
000
AI前沿

DeepSeek R1-0528：以开源之力挑战OpenAI o3与Google Gemini 2.5 Pro‌

在人工智能领域，开源模型正逐渐成为推动技术创新的重要力量。近期，中国初创企业DeepSeek发布的DeepSeek R1-0528版本，以其强大的推理能力和开放的许可协议，向业界巨…

王浩然
2025年5月31日
000
AI前沿

供应链需为 AI 间直接通信做好准备

AI 已深度融入供应链运营（如文档验证、堆场监控等），而 AI 系统间直接信息交互的新阶段即将到来，这一变革将重塑物流网络数据流转与决策模式，企业需从多维度做好准备以趋利避害。 A…

王浩然
2025年12月19日
000
AI前沿

谷歌将Gemini引入Wear OS智能手表与Google TV

在科技界持续创新的浪潮中，谷歌于近日的Google I/O前夕，于Android Show上宣布了一项重要决定：将其最新的AI助手Gemini扩展至Wear OS智能手表及Goog…

王浩然
2025年5月16日
000
AI前沿

MiniMax 推出自己的开源 LLM，具有行业领先的 4M 代币上下文

如今，MiniMax 在美国最为人熟知的身份可能是Hailuo背后的这家新加坡公司。Hailuo 是一种逼真的高分辨率生成式 AI 视频模型，可与Runway、OpenAI 的 S…

王浩然
2025年1月15日
000
AI前沿

伟大的人工智能伪装：当自动化穿上特工服装时

这是一年中最恐怖的时刻，而在 2024 年，不仅仅是人们穿着服装。科技界正在上演一场伪装：自动化系统披上了人工智能代理的外衣，而许多人都被这种伪装所蒙骗。随着Gartner将“代…

王浩然
2024年11月3日
000
AI前沿

从情报界到企业AI安全：Geordie AI首席AI官揭秘自主AI治理之道

当生成式AI的热潮逐渐褪去，企业开始将目光投向更具实用性的自主AI（Agentic AI）技术。这类能够自主执行任务、跨系统持续运作的智能体，正在成为企业提升运营效率的新引擎，但随…

王浩然
2026年3月5日
000
AI前沿

Hume 推出语音控制功能，让用户和开发者可以发出自定义 AI 声音

Hume AI是一家专注于情感智能语音界面的初创公司，它推出了语音控制，这是一项实验性功能，使开发人员和用户能够通过精确调节声音特征来创建自定义 AI 声音 – 无需编…

王浩然
2024年12月3日
000
AI前沿

AWS 为 Bedrock 带来多代理编排功能

AWS宣布在其 Amazon Bedrock 平台上推出多代理功能，加倍加大对 AI 代理的投入。 AWS 首席执行官马特·加曼 (Matt Garman) 在 AWS re:I…

王浩然
2024年12月4日
000
AI前沿

企业语音 AI 的分歧：为何架构而非模型质量决定成败

在企业数字化转型的浪潮中，语音 AI 已从可选的创新功能，转变为提升客户体验、优化运营效率的核心基础设施，广泛应用于智能客服、会议转录、语音指令控制、无障碍办公等关键场景。然而，当…

王浩然
2025年12月30日
000
AI前沿

人工智能的能耗挑战：电网能否承受AI的胃口？‌

随着人工智能（AI）技术的飞速发展，其背后所需的巨大计算能力和数据存储正对全球电力系统构成前所未有的挑战。特别是在英国，数据中心的电力消耗预计将在未来十年内激增，到2034年可能达…

王浩然
2025年7月9日
000
AI前沿

OpenAI 推出新认证标准，瞄准 AI 技能缺口，重塑人才培养与就业生态

面对生成式 AI 快速普及与劳动力 AI 能力不匹配的现状，正式推出以 “AI 基础（AI Foundations）” 为核心的认证计划，同时构建 AI 就业平台，目标在 2030…

王浩然
2025年12月13日
000
AI前沿

支持自动化公司的能力随着新现金和收购而增长

大卫·卡兰迪什 (David Karandish) 一直很忙。他的支持自动化公司Capacity原本计划进行 500 万美元的“过渡融资”，以帮助公司达到盈亏平衡点。但 TVC C…

王浩然
2024年10月17日
000
AI前沿

自主移动机器人如何改变零售客户体验

目前，零售业AI的市场规模预估约为90亿美元，预计到2029年将达到400亿美元。在零售食品行业盛会GroceryTech 2024上，CEO和CIO们谈到了对AI的日益关注，同时…

点点
2024年9月17日
000

发表回复

Please Login to Comment

研究发现：受审查的 AI 聊天模型幻觉现象更严重

相关推荐

发表回复