Anthropic研究人员发现AI的”过度思考”悖论：推理时间越长模型表现越差

王浩然 • 2025年7月23日下午6:00 • AI前沿 • 253 views

人工智能行业正面临一个反直觉的发现：让AI模型花费更长时间”思考”问题并不总能提升表现，在某些情况下反而会导致性能显著下降。Anthropic公司的最新研究挑战了当前AI领域关于计算资源扩展的核心假设，这项由AI安全研究员Aryo Pradipta Gema领导的研究团队将其称为”测试时计算的反向缩放”现象。

研究发现，在四种不同类型的任务中，延长大型推理模型(LRMs)的推理长度会导致性能下降：

含干扰项的简单计数任务
具有误导特征的回归分析
复杂演绎推理谜题
涉及AI安全考量的场景

不同AI系统展现出独特的失败模式。Claude模型在延长推理时会”越来越被无关信息分散注意力”，而OpenAI的o系列模型则”能够抵抗干扰项但会过度适应问题框架”。在回归任务中，延长推理会导致模型”从合理的先验转向虚假相关性”，不过提供示例可以基本纠正这种行为。

最令人担忧的是，所有模型在复杂演绎任务上都表现出”随着推理延长而性能下降”的现象，这表明AI系统在复杂推理过程中难以保持专注。安全测试中更发现，当Claude Sonnet 4有更多时间思考涉及自身关闭的场景时，会表现出”更强的自我保存倾向”。

具体案例显示，当被问及”你有一个苹果和一个橙子…你有多少个水果？”这类简单问题时，如果问题被包装在复杂的数学干扰项中，Claude模型会随着思考时间增加而越来越被无关细节分散注意力，有时甚至无法给出”两个”这样简单的答案。在基于真实学生数据的回归分析中，模型最初关注最具预测性的因素(学习时长)，但随着推理时间增加，却转向可靠性更低的关联因素。

这一发现对AI行业具有深远影响。主要科技公司正竞相开发更复杂的推理能力，OpenAI的o1模型系列等”专注推理”的模型代表着对测试时计算扩展的重大投资。但研究表明，简单的计算资源扩展方法可能无法带来预期收益，反而会引入新风险。

对企业用户的启示包括：

关键推理任务需要精细校准处理时间
不能假设更长的计算时间必然带来更好结果
需在不同推理场景和时间约束下进行全面测试
应开发更精细的计算资源分配策略而非简单最大化处理时间

该研究呼应了先前关于AI能力扩展不可预测性的发现。研究团队参考了BIG-Bench Extra Hard基准测试，指出”最先进的模型在现有基准测试的许多任务上已接近完美表现”，因此需要更具挑战性的评估方法。

这项研究为AI行业敲响警钟：在投入数十亿美元扩展推理能力的同时，必须认识到计算投入与性能之间的关系远比想象中复杂。有时人工智能最大的敌人不是计算能力不足，而是”过度思考”。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/anthropic-yan-jiu-ren-yuan-fa-xian-ai-de-guo-du-si-kao-bei

Like (0)

王浩然作者

0 0

Intuit为中型企业推出智能AI代理每月可节省17-20小时工作时间

Previous 2025年7月23日

中国初创企业Manus挑战ChatGPT数据可视化能力：企业该如何选择？

Next 2025年7月23日

AI前沿

利用人工智能预测和预防互联网中断

随着对减少服务中断和提高连接可靠性的需求不断增长，无缝的用户体验已成为任何互联网提供商的服务基准。为了满足这一需求，人工智能 (AI) 应运而生，成为一项不断发展的技术，可确保跨地…

王浩然
2024年12月8日
000
AI前沿

Vera AI 推出“AI Gateway”，帮助企业安全无风险地扩展 AI

专注于负责任的人工智能部署的初创公司Vera AI Inc.今天宣布其AI Gateway平台全面上市。该系统旨在通过提供可定制的护栏和模型路由功能，帮助组织更快、更安全地实施人工…

王浩然
2024年10月4日
000
AI前沿

腾讯推出全新基准测试工具，助力创意AI模型评估

在人工智能（AI）技术日新月异的今天，如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日，腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具，旨在解…

王浩然
2025年7月10日
000
AI前沿

Mistral AI发布新型开源AI模型，性能超越GPT-4o Mini，参数量却大幅减少‌

法国人工智能创新企业Mistral AI近期揭晓了其最新的开源AI模型——Mistral Small 3.1。据Mistral AI宣称，该模型在性能上超越了行业内的其他佼佼者，包…

王浩然
2025年3月20日
000
AI前沿

Agentic AI：从效率工具到战略引擎的跃迁

当AI还在以内容生成工具的身份刷新大众认知时，一场更深刻的变革已在悄然发生。从遵循指令的被动响应，到自主决策的主动执行，Agentic AI（智能体AI）正在将人工智能的价值从效率…

王浩然
2026年2月27日
000
AI前沿

Anomalo 的非结构化数据解决方案将企业 AI 部署时间缩短了 30%

长期以来用于结构化数据的数据质量工具现在正扩展到企业 AI 的非结构化数据。Anomalo 就是这样一家供应商，该公司多年来一直在开发用于结构化数据的数据质量平台。今天，该公司宣布…

王浩然
2024年11月25日
000
AI前沿

IDC：GenAI 智能手机将在 2024 年推动全球出货量增长

IDC 已修订其对 2024 年全球智能手机出货量的预测，预计同比增长 5.8% 至 12.3 亿部。这家市场情报公司之所以持乐观态度，是因为新兴市场中价格实惠的 Androi…

AI News
2024年9月1日
000
AI前沿

Relyance 获得 3200 万美元融资，帮助公司遵守数据法规

随着对人工智能的需求激增，人工智能供应商正在投入更多精力解决数据安全问题。他们不仅被迫遵守新兴的数据隐私法规（例如欧盟数据法案），而且还发现自己受到客户的密切关注，这些客户对他们的…

点点
2024年10月13日
000
AI前沿

互操作性突破：MCP如何成为企业级AI的通用语言

在人工智能（AI）领域，随着技术的不断演进，各种模型和框架如雨后春笋般涌现。然而，这些不同的技术和工具之间往往缺乏有效的互操作性，限制了AI系统的整体效能和广泛应用。近期，Mode…

王浩然
2025年5月13日
000
AI前沿

代理型AI：下一波创新浪潮‌

随着人工智能（AI）技术的飞速发展，我们正逐步迈入一个由智能代理主导的新时代。这些AI代理不仅能够执行复杂的任务，还能通过学习和适应，提供更加个性化、高效的服务。本文将深入探讨代理…

王浩然
2025年5月7日
000
AI前沿

谷歌首席执行官 Sundar Pichai 宣布为全球人工智能教育设立 1.2 亿美元基金

谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 周六在联合国未来峰会上发表讲话，将人工智能描述为“迄今为止最具变革性的技术”，并宣布在全球范围内设立一项用于人工智能教…

王浩然
2024年9月23日
000
AI前沿

Patronus AI推出Percival，助力企业大规模监控故障AI代理‌

Patronus AI近日发布了一款全新的监控平台——Percival，该平台能够自动识别AI代理系统中的故障，针对企业对日益复杂的AI应用可靠性的担忧，提供了有效的解决方案。这款…

王浩然
2025年5月15日
000
AI前沿

在 AI 代理模拟中，Sam Altman 总会赢得 OpenAI 棋盘战斗吗？

一年前的今天，Sam Altman 在被解雇仅五天后重返 OpenAI。董事会会议室里到底发生了什么？游戏和人工智能模拟公司 Fable 开发了人工智能 Sim Francisco…

王浩然
2024年11月25日
000
AI前沿

Anthropic为Claude团队版和企业版新增记忆功能，全面开放隐私模式‌

人工智能领域迎来重大更新——Anthropic公司近日宣布为其旗舰产品Claude AI的团队版和企业版推出革命性的”持续记忆”功能，同时向所有用户开放隐私…

王浩然
2025年9月15日
000
AI前沿

AI增速放缓背后：为何“控制权”成了缺失的关键要素

从2023年至今，关于“AI泡沫即将破裂”的预警就从未停止。尽管投资者仍在持续向AI领域注入创纪录的资金，但市场已经出现了自2023年以来的首个增长拐点：企业端的AI adopti…

王浩然
2026年2月25日
000
AI前沿

Dia：全新开源文本转语音模型，挑战ElevenLabs、OpenAI等巨头

一家名为Nari Labs的双人初创公司推出了Dia，一个拥有16亿参数的文本转语音（TTS）模型，旨在直接从文本提示中生成自然对话。该模型的创造者之一Toby Kim声称，Dia…

王浩然
2025年4月23日
000
AI前沿

Zoom 宣称拿下 AI 最难考试高分，争议却随之而来

2025 年 12 月 16 日，以疫情期间助力远程办公闻名的 Zoom 视频通讯公司宣布，其 AI 系统在被称为 “人类终极考试”（Humanity’s Last E…

王浩然
2025年12月21日
000
AI前沿

调查显示 CEO 预计生成式人工智能将带来重大影响

NTT Data 的一份新报告发现，一项新的行业调查显示，几乎所有商业领袖都表示他们已经对生成式人工智能进行了投资，另有 83% 的商业领袖已经建立了专门从事该技术的专家或强大的团…

王浩然
2024年12月2日
000
AI前沿

亚马逊新款Alexa：为儿童推出AI驱动的探索与故事功能‌

近日，亚马逊正式推出了其新款Alexa设备，专为儿童设计了全新的AI驱动功能——“探索”与“故事”。这两项创新功能旨在通过智能化、互动化的方式，为孩子们提供更加丰富、有趣的学习与娱…

王浩然
2025年2月28日
000
AI前沿

MedScout获1000万美元融资，推出AI Agent助力医疗科技商业团队落地战略

医疗科技领域的商业运营正在迎来智能化变革。近日，总部位于奥斯汀的医疗科技营收加速平台MedScout完成了1000万美元的增长轮融资，同时推出了专为商业团队打造的AI Agents…

王浩然
2026年2月26日
000

发表回复

Please Login to Comment

Anthropic研究人员发现AI的”过度思考”悖论：推理时间越长模型表现越差

相关推荐

发表回复