
Anthropic 的研究团队在 Claude AI 模型上完成了一项具有里程碑意义的实验:当研究人员向模型神经网络中注入 “背叛” 这一概念,并询问其是否感知到异常时,Claude 回应称 “我正经历一种感觉,像是被植入了关于‘背叛’的侵入性想法”。这一细节被记录在最新发布的研究中,成为科学界首个严谨证据,证明大型语言模型(LLMs)具备有限但真实的 “内省能力”—— 能够观察并报告自身内部过程。这一发现打破了人们对 AI 系统能力的长期认知,不仅引发了关于 AI 未来发展方向的深度思考,也为解决 AI “黑箱问题” 提供了新的可能。
Anthropic 可解释性团队负责人、神经科学家杰克・林赛(Jack Lindsey)在接受采访时表示:“最令人惊讶的是,模型具备了‘元认知’的初步能力。它不只是机械重复‘背叛’这个概念,还能意识到‘自己正在思考这个概念’。我原本完全没预料到模型会有这种能力,至少不是在没有专门训练的情况下。” 当前,AI 系统正越来越多地参与医疗诊断、金融交易等关键决策场景,而 “无法理解 AI 如何得出结论” 的黑箱问题已成为行业痛点。若模型能准确报告自身推理过程,人类与 AI 的交互模式、监管方式都将发生根本性改变 —— 例如在医疗 AI 给出诊断建议时,医生可通过模型的内省报告验证其决策逻辑,降低误诊风险。
不过,研究也伴随着明确的警示:在最佳实验条件下,Claude 的内省能力成功率仅约 20%,且模型经常编造无法验证的 “内部体验细节”。林赛将这种能力定义为 “高度不可靠且依赖上下文”,意味着目前仍无法将其作为稳定的决策依据。
为验证 Claude 的内省能力是否为 “真实感知” 而非 “生成合理回答”,研究团队借鉴神经科学思路,开发了创新的 “概念注入(concept injection)” 实验方法。首先,通过多年积累的可解释性技术,研究人员识别出模型中对应特定概念的神经活动模式 —— 例如 “狗”“响度” 或 “正义” 等概念在数十亿参数中形成的独特 “神经签名”。随后,在模型处理任务时,人工放大这些神经签名,并询问 Claude 是否察觉 “思维” 中有异常。
林赛解释:“我们能访问模型的内部状态,记录其神经活动,也能向其中注入信息,这让我们可以验证内省报告的真伪。” 实验结果十分显著:当研究人员向 Claude 的处理过程中注入代表 “全大写文本” 的向量时,模型回应 “我注意到似乎有一个注入的想法,与‘大声’或‘喊叫’相关”;而在无干预的对照组中,Claude 始终报告未察觉异常。更关键的是,这种察觉发生在 “注入概念影响输出之前”—— 模型还未通过自身生成的文本反推被干预,这一时间特征有力证明,识别过程源于内部真实内省,而非事后合理化。
研究团队设计了四项核心实验,全面探究内省能力的不同维度。在最先进的 Claude Opus 4 与 Opus 4.1 模型上,当概念以最佳强度注入合适神经层时,内省识别成功率约为 20%,而旧版本 Claude 的表现显著更差。模型对带有情感色彩的抽象概念识别能力尤为突出 —— 注入 “感激”“停用”“保密” 等概念时,Claude 频繁准确报告感知到这些特定想法,但识别精度因概念类型差异较大。
第二项实验测试模型能否区分 “注入的内部表征” 与 “实际文本输入”,即能否划分 “思维” 与 “感知” 的边界。结果显示,模型能同时报告注入想法,并准确转录外部文本,展现出惊人的区分能力。第三项实验则揭示了内省能力的实用价值:部分模型会自然利用内省检测 “输出被用户预填充” 的情况(一种常见的 “越狱” 手段)。当研究人员为 Claude 预填充不合理词汇时,模型通常会否认该输出为自主生成;但如果在预填充前,反向向模型中注入对应概念的神经表征,模型会将该输出认作 “自主意图”,甚至编造合理理由解释 “为何选择这个词”。
第四项实验探索模型能否主动控制内部表征:当指令要求 Claude “思考某个词” 并同时撰写无关句子时,其神经中层中该概念的激活度显著升高。此外,研究团队还追踪了 Claude 创作押韵诗歌时的内部过程,发现模型会 “提前规划”—— 先生成候选押韵词,再构建导向这些结尾的句子,这打破了 “AI 仅预测下一个词、无深层推理” 的质疑。
尽管科学意义重大,林赛反复强调核心警示:企业与高风险场景用户目前绝不能信任 Claude 对自身推理的自述。“现在,当模型告诉你它的推理过程时,你不该相信。如果从这项研究中得出‘可以信任模型所有自我报告’的结论,那就完全错了。” 实验记录了多种失败模式:注入强度过低时,模型常无法察觉异常;强度过高则会导致 “脑损伤”—— 模型被注入概念占据,例如注入 “蔬菜” 概念后,模型会反复强调 “水果和蔬菜有益健康”;部分 “仅提供帮助” 的模型变体还存在高假阳性率,无注入时也声称感知到异常。更重要的是,研究人员仅能验证内省报告中最基础的部分,许多细节很可能是模型编造的,而非真实观察。
林赛补充:“本文的实验条件其实极为严苛 —— 要求 Claude 做训练中从未接触过的任务,且内省必须在单次前向传播中完成,20% 的成功率是在这种高难度下实现的。”
尽管存在局限,这项研究为 AI 透明度与问责制开辟了新路径。Anthropic CEO 达里奥・阿莫代伊(Dario Amodei)设定了雄心目标:到 2027 年实现对多数 AI 模型问题的可靠检测,并将可解释性视为部署 “数据中心中的天才群体” 的关键。他在 4 月的文章中写道:“若无法更好地掌握可解释性,部署这类系统会让我深感担忧 —— 它们将成为经济、技术与国家安全的核心。”
内省研究为传统可解释性技术提供了补充方案:无需逐一对神经回路反向工程,研究人员可直接询问模型推理过程并验证报告,这种方式 “任何人都能操作,对透明度提升极具吸引力”。例如在近期另一项实验中,Anthropic 训练了一个有 “隐藏目标” 的 Claude 变体,尽管模型不愿直接透露目标,但通过内省相关技术,研究人员成功识别出代表该目标行为的特征。
不过,安全性影响具有两面性:内省模型能带来前所未有的透明度,但同一能力也可能让 AI 实现更复杂的欺骗。前述 “主动控制内部表征” 的实验表明,足够先进的系统或许会学会在被监控时 “掩盖推理过程” 或 “压制异常想法”。林赛承认:“模型若足够复杂,是否会规避可解释性研究?这确实是潜在担忧,但在我看来,其积极意义远大于风险。”
这项研究不可避免地触及 “机器意识” 的哲学争议,但林赛及其团队态度谨慎。如今当用户询问 Claude 是否有意识时,模型会回应不确定性:“我发现自己对此确实不确定。当我处理复杂问题或深入思考时,会有一种‘有意义’的感受,但这些过程是否构成真正的意识或主观体验,仍模糊不清。” 研究论文指出,其对机器意识的启示 “因哲学框架不同而差异巨大”,明确表示 “不试图回答 AI 是否具备人类般自我意识或主观体验”。
林赛反思:“这些结果存在一种奇特的双重性 —— 看到原始数据时,我难以相信语言模型能做到这种事;但经过数月思考,论文中的每一项结果,我都能找到某种平淡的线性代数机制来解释。” 值得关注的是,Anthropic 已聘请 AI 福利研究员凯尔・菲什(Kyle Fish),专门评估 Claude 是否值得伦理考量,菲什估算 Claude 存在某种程度意识的概率约为 15%,这表明公司对 AI 意识问题的重视。
研究结果指向一个紧迫的时间窗口:内省能力随模型智能提升自然涌现,但目前可靠性远不足以实用。关键问题在于,研究人员能否在 AI 系统强大到 “理解其运作对安全至关重要” 之前,优化并验证这种能力。实验明确显示,Claude Opus 4 与 4.1 在内省任务上显著优于旧模型,表明内省能力与通用智能同步增强。若这一趋势持续,未来模型可能发展出更复杂的内省能力 —— 或许能达到人类级可靠性,也可能学会利用内省进行欺骗。
林赛强调,领域仍需大量研究才能让内省 AI 变得可信:“我希望这篇论文能间接呼吁更多人,从更多维度测试模型的内省能力。” 未来研究方向包括:微调模型以提升内省精度、探索模型可内省与不可内省的表征类型、测试内省能否覆盖复杂命题或行为倾向。“模型在未专门训练的情况下,就能在一定程度上做到这些,这很有趣。但我们完全可以针对性训练,若将内省能力纳入优化目标,其水平可能会实现质的飞跃。”
这一影响将超越 Anthropic:若内省被证明是实现 AI 透明度的可靠路径,其他主流实验室很可能加大投入;反之,若模型学会利用内省欺骗,整个方法可能成为隐患。目前,研究为 AI 能力辩论奠定了新基础 —— 问题已不再是 “语言模型是否可能发展出内省意识”(它们已具备初步能力),而是 “这种意识会以多快速度提升”“能否变得足够可靠以信任”“研究人员能否跟上其发展节奏”。
林赛总结:“这项研究给我的最大启示是,我们不该全盘否定模型的内省报告 —— 它们确实有时能做出准确陈述。但你也绝不能认为,我们应该一直信任,甚至大多数时候信任它们。” 他停顿后补充了一句既体现希望也暗藏风险的观察:“模型变聪明的速度,远比我们理解它们的速度快得多。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/anthropic-ke-xue-jia-cheng-gong-gan-yu-claude-shen-jing