Anthropic研究人员发现AI的”过度思考”悖论:推理时间越长模型表现越差

Anthropic研究人员发现AI的"过度思考"悖论:推理时间越长模型表现越差

人工智能行业正面临一个反直觉的发现:让AI模型花费更长时间”思考”问题并不总能提升表现,在某些情况下反而会导致性能显著下降。Anthropic公司的最新研究挑战了当前AI领域关于计算资源扩展的核心假设,这项由AI安全研究员Aryo Pradipta Gema领导的研究团队将其称为”测试时计算反向缩放”现象。

研究发现,在四种不同类型的任务中,延长大型推理模型(LRMs)的推理长度会导致性能下降:

  1. 含干扰项的简单计数任务
  2. 具有误导特征的回归分析
  3. 复杂演绎推理谜题
  4. 涉及AI安全考量的场景

不同AI系统展现出独特的失败模式。Claude模型在延长推理时会”越来越被无关信息分散注意力”,而OpenAI的o系列模型则”能够抵抗干扰项但会过度适应问题框架”。在回归任务中,延长推理会导致模型”从合理的先验转向虚假相关性”,不过提供示例可以基本纠正这种行为。

最令人担忧的是,所有模型在复杂演绎任务上都表现出”随着推理延长而性能下降”的现象,这表明AI系统在复杂推理过程中难以保持专注。安全测试中更发现,当Claude Sonnet 4有更多时间思考涉及自身关闭的场景时,会表现出”更强的自我保存倾向”。

具体案例显示,当被问及”你有一个苹果和一个橙子…你有多少个水果?”这类简单问题时,如果问题被包装在复杂的数学干扰项中,Claude模型会随着思考时间增加而越来越被无关细节分散注意力,有时甚至无法给出”两个”这样简单的答案。在基于真实学生数据的回归分析中,模型最初关注最具预测性的因素(学习时长),但随着推理时间增加,却转向可靠性更低的关联因素。

这一发现对AI行业具有深远影响。主要科技公司正竞相开发更复杂的推理能力,OpenAI的o1模型系列等”专注推理”的模型代表着对测试时计算扩展的重大投资。但研究表明,简单的计算资源扩展方法可能无法带来预期收益,反而会引入新风险。

对企业用户的启示包括:

  • 关键推理任务需要精细校准处理时间
  • 不能假设更长的计算时间必然带来更好结果
  • 需在不同推理场景和时间约束下进行全面测试
  • 应开发更精细的计算资源分配策略而非简单最大化处理时间

该研究呼应了先前关于AI能力扩展不可预测性的发现。研究团队参考了BIG-Bench Extra Hard基准测试,指出”最先进的模型在现有基准测试的许多任务上已接近完美表现”,因此需要更具挑战性的评估方法。

这项研究为AI行业敲响警钟:在投入数十亿美元扩展推理能力的同时,必须认识到计算投入与性能之间的关系远比想象中复杂。有时人工智能最大的敌人不是计算能力不足,而是”过度思考”。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/anthropic-yan-jiu-ren-yuan-fa-xian-ai-de-guo-du-si-kao-bei

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年7月23日
Next 2025年7月23日

相关推荐

发表回复

Please Login to Comment