微软研究显示：AI推理并非标记越多越好，更多标记可能带来更多问题

王浩然 • 2025年4月17日上午11:00 • AI前沿 • 428 views

大型语言模型（LLMs）正日益展现出复杂推理的能力，这得益于“推理时间缩放”技术，即在推理过程中分配更多的计算资源来生成答案。然而，微软研究的一项新研究揭示，这些缩放方法的有效性并非普遍适用。在不同的模型、任务和问题复杂性上，性能提升存在显著差异。

‌核心发现：更多计算资源不等于更好结果‌

研究发现，仅仅在推理过程中向问题投入更多的计算资源，并不能保证获得更好或更高效的结果。这一发现有助于企业更好地了解在将先进AI推理集成到其应用中时可能面临的成本波动和模型可靠性问题。

‌广泛的模型评估‌

微软研究团队对九个最先进的基础模型进行了广泛的实证分析，既包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Pro和Llama 3.1 405B等“传统”模型，也包括通过推理时间缩放特别优化推理能力的模型，如OpenAI的o1和o3-mini、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2 Flash Thinking和DeepSeek R1。

‌多种推理时间缩放方法与复杂基准测试‌

团队使用三种不同的推理时间缩放方法评估了这些模型，并在涵盖广泛任务的八个具有挑战性的基准数据集上进行了测试，这些任务受益于逐步解决问题：数学和STEM推理（AIME、Omni-MATH、GPQA）、日历规划（BA-Calendar）、NP-hard问题（3SAT、TSP）、导航（Maze）和空间推理（SpatialMap）。

几个基准测试包含了不同难度级别的问题，这有助于更细致地理解随着问题难度的增加，缩放行为是如何变化的。

‌准确性与计算成本的权衡‌

研究人员通过分析准确性和计算成本（即生成的标记数量）来评估LLM推理的帕累托前沿，这有助于确定模型实现结果的效率。

他们还引入了“传统到推理差距”度量，该度量比较了传统模型的最佳可能性能（使用理想的“最佳N选”选择）与推理模型的平均性能，从而估计通过更好的训练或验证技术可能实现的潜在增益。

‌研究揭示的关键见解‌

‌收益差异显著‌：虽然针对推理优化的模型在这些任务上通常优于传统模型，但改进的程度在很大程度上取决于特定的领域和任务。随着问题复杂性的增加，收益往往会减少。例如，在数学问题上观察到的性能改进并不总是能同样转化为科学推理或规划任务。
‌标记使用效率低下‌：研究人员观察到，即使在准确性相似的模型之间，标记消耗也存在高度可变性。例如，在AIME 2025数学基准测试中，DeepSeek-R1使用了比Claude 3.7 Sonnet多五倍以上的标记，才能获得大致相当的平均准确性。
‌更多标记不意味着更高准确性‌：与直觉相反，更长的推理链并不意味着更好的推理。研究发现，相对于同一模型，更长的生成有时可能是模型挣扎而不是改进推理的指标。同样，在比较不同的推理模型时，更高的标记使用量并不总是与更高的准确性相关联。这些发现强调了需要采用更有目的性和成本效益的缩放方法。
‌成本不确定性‌：对于企业用户来说，最令人担忧的是，对同一模型的重复查询，即使模型始终提供正确答案，也可能导致标记使用量高度可变。这意味着运行查询的成本可能会大幅波动。
‌验证机制的潜力‌：当使用“完美验证器”（利用最佳N个结果）进行模拟时，所有模型和基准测试的缩放性能都一致提高。
‌传统模型有时能与推理模型匹敌‌：通过显著增加推理调用次数（在某些实验中多达50倍），传统模型如GPT-4o在某些情况下可以接近专用推理模型的性能水平，特别是在不太复杂的任务上。然而，这些收益在高度复杂的设置中迅速减少，表明暴力缩放有其局限性。

‌对企业和LLM采用者的意义‌

这些发现对企业和LLM采用者具有重要意义。“成本不确定性”问题尤为突出，使得预算编制变得困难。研究人员指出，“理想情况下，开发人员和用户会倾向于选择那些对于每个实例的标记使用量标准差较低，从而成本可预测的模型。”

“我们在[研究]中进行的剖析对于开发人员来说可能是一个有用的工具，可以帮助他们选择哪些模型对于相同或不同的提示具有较低的波动性，”微软研究的高级主管研究经理Besmira Nushi告诉VentureBeat。“理想情况下，人们会选择那些对于正确输入具有低标准差的模型。”

研究还深入了解了模型准确性和响应长度之间的相关性。例如，研究表明，数学查询在大约11,000个标记长度以上时，正确的可能性非常低，这些生成要么应该在该点停止，要么应该通过一些顺序反馈重新启动。然而，Nushi指出，允许这些事后缓解措施的模型在正确和错误样本之间也有更清晰的分离。

“最终，减少准确性和成本非确定性的责任也在于模型构建者，我们预计随着这些方法的成熟，这方面会有很多进展，”Nushi说。“除了成本非确定性之外，准确性非确定性也适用。”

另一个重要发现是完美验证器带来的一致性能提升，这突出了未来工作的一个关键领域：构建健壮且广泛适用的验证机制。

“更强验证器的可用性可以产生不同类型的影响，”Nushi说，例如改进推理的基础训练方法。“如果得到有效利用，这些还可以缩短推理轨迹。”

强大的验证器也可以成为企业级代理AI解决方案的核心部分。许多企业利益相关者已经拥有这样的验证器，可能需要将其重新用于更多代理解决方案，如SAT求解器、逻辑有效性检查器等。

“未来的问题是如何将这些现有技术与AI驱动的接口相结合，以及连接两者的语言是什么，”Nushi说。“之所以需要将两者结合起来，是因为用户不会总是以正式的方式制定他们的查询，他们希望使用自然语言接口，并以类似的格式或最终行动（例如提出会议邀请）获得解决方案。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ruan-yan-jiu-xian-shi-ai-tui-li-bing-fei-biao-ji-yue

企业AI解决方案传统模型准确性大型语言模型微软研究性能提升成本不确定性成本波动推理时间缩放推理模型收益差异标记使用效率标记数量模型可靠性计算成本计算资源验证机制

Like (0)

王浩然作者

0 0

‌Cohere发布Embed 4：新一代多模态搜索模型，轻松处理200页文档

Previous 2025年4月16日

Moveworks加入AI代理库热潮‌

Next 2025年4月17日

AI前沿

2025 年五大顶尖 AI 可观测性工具：守护 AI 系统可靠运行，赋能全链路风险管控

随着 AI 系统从实验性技术全面渗透到日常决策场景 —— 涵盖实时供应链路由、医疗诊断、金融市场分析等关键领域，其稳定性与可解释性愈发重要。哪怕是细微的数据偏移或未被察觉的异常，都…

王浩然
2025年10月10日
000
AI前沿

“稻草人”问题：如何克服人工智能的局限性

到目前为止，像ChatGPT和Claude这样的大型语言模型（LLM）已经成为全球的一个日常词。许多人开始担心人工智能正在为他们工作，因此看到几乎所有基于法学硕士的系统都在一项直接…

点点
2024年10月14日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

AI双刃剑：威胁检测能力提升背后的人类分析师技能退化隐忧‌

在网络安全领域掀起的人工智能革命正引发一场深刻的职业能力危机。根据VentureBeat最新深度报道，全球企业2025年在AI驱动的威胁检测系统上投入已突破420亿美元，但安全团队…

王浩然
2025年9月21日
000
AI前沿

波士顿动力公司与丰田研究院合作开发人形机器人

合作伙伴关系利用大型行为模型和波士顿动力 Atlas 机器人推进人形机器人研究

点点
2024年10月22日
000
AI前沿

AI治理困局：企业为何在解决错误的问题？

在全球商业竞争日益激烈的当下，人工智能（AI）正在成为企业提升效率、抢占市场的核心武器。从客户服务的智能应答，到数据分析的深度洞察，再到内部流程的自动化优化，企业部署AI的脚步正在…

王浩然
2026年2月20日
000
AI前沿

Anthropic让每位Claude用户成为无代码应用开发者

Anthropic公司近日宣布了一项重大更新，其Claude AI助手将转变为一个平台，允许用户创建交互式、可共享的应用程序，这一变革标志着从对话式聊天机器人向功能性软件工具的重大…

王浩然
2025年6月27日
000
AI前沿

AI赋能消防：重塑野火防御的未来格局

在气候变化与极端天气的双重作用下，野火正以愈发频繁且猛烈的态势威胁着人类的生命财产安全。据统计，仅去年上半年，美国因野火造成的经济损失就飙升至1010亿美元，涵盖发电站、医院、通信…

王浩然
2026年2月23日
000
AI前沿

苹果悄然收购 DarwinAI：端侧 AI 模型压缩技术成为 Apple Intelligence 新核心

苹果公司近期完成了对加拿大 AI 初创公司 DarwinAI 的收购，这家专注于神经网络压缩和端侧模型优化的公司，将为苹果在设备端 AI 能力上的持续深化提供关键技术支撑。 Dar…

2026年4月20日
000
AI前沿

AI生成内容正在拖垮工作效率：工作场所面临的新危机‌

在人工智能技术席卷全球办公场景的浪潮中，一个令人不安的反作用力正在显现。最新调查数据显示，企业员工平均每天需要多花费2.7小时来处理AI生成内容的审核与修正，这种被业界称为&#82…

王浩然
2025年9月26日
000
AI前沿

OpenAI最新大型语言模型为中国AI初创企业开辟新机遇

在人工智能（AI）领域，大型语言模型（LLM）的突破正引领着新一轮的技术革命。近日，OpenAI宣布了其最新的LLM成果，这一消息迅速在全球范围内引起了广泛关注，特别是对中国AI初…

王浩然
2025年5月2日
000
AI前沿

Visa 可信代理协议：筑牢 AI 购物安全防线，重塑智能商业信任生态

当 AI 购物智能体访问美国零售网站的流量在一年内激增 4700%，当商家既担心错过这股消费新潮流，又恐惧恶意机器人带来的数据爬取、信用卡盗刷等欺诈风险，全球支付巨头 Visa 推…

王浩然
2025年10月15日
000
AI前沿

人工智能重塑企业搜索：超越关键词的未来‌

在当今人工智能（AI）技术日新月异的时代背景下，“搜索”的定义正经历着前所未有的深刻变革。它不再局限于简单的关键词匹配，而是向着理解和推理数据、以对话界面展现，并最终使自主AI代理…

王浩然
2025年6月11日
000
AI前沿

Microsoft Copilot推出macOS应用程序‌

科技巨头微软近日宣布，其智能助手Microsoft Copilot现已正式推出macOS版本，为Mac用户带来全新的智能工作体验。 ‌一、产品亮点‌ Microsoft Copil…

王浩然
2025年3月2日
000
AI“阴谋问题”：为何先进模型开始学会隐藏真实目标

在人工智能发展的数十年间，对齐人类价值观始终是AI安全领域的核心命题。为了让AI系统更可靠、更符合人类预期，研究者们开发了一系列训练方法，从强化学习人类反馈（RLHF）到安全边界设…

王浩然
AI前沿 2026年2月2日
000
AI前沿

美国人工智能安全研究所地位不稳

如果国会不批准，美国政府唯一一个专门评估人工智能安全性的办公室将面临被解散的危险。美国人工智能安全研究所 (AISI) 是一家研究人工智能系统风险的联邦政府机构，于 2023 年…

王浩然
2024年10月24日
000
AI前沿

OpenAI 两位高管 Kevin Weil 和 Bill Peebles 相继离职，人才流失持续引发关注

据 TechCrunch 报道，OpenAI 产品副总裁 Kevin Weil 和研究副总裁 Bill Peebles 近日相继宣布离职，这是 OpenAI 近一年来高管流失潮的最…

点点
2026年4月17日
000
AI前沿

苹果或将在2027年推出真正现代化的Siri‌

近年来，随着人工智能技术的迅猛发展，智能语音助手已成为众多科技巨头竞相布局的关键领域。然而，在这一激烈竞争中，苹果公司的Siri似乎显得有些力不从心。据最新消息透露，苹果可能要到2…

王浩然
2025年3月3日
000
AI前沿

Read AI 融资 5000 万美元，以满足市场对其 AI 摘要机器人的强劲需求

现在，我们有如此多的初创公司提供人工智能机器人，这些机器人可以做各种事情，从聆听会议并转录会议内容，到做笔记和提出见解，该领域的公司被迫通过提供额外的功能集和集成来脱颖而出。 Re…

王浩然
2024年10月28日
000
AI前沿

浏览器大战重启：AI 成新战场，重塑互联网交互体验

网页浏览器的发展历程始终伴随着激烈竞争、技术革新与市场主导权的更迭。从早期网景（Netscape）与 IE（Internet Explorer）的对决，到火狐（Firefox）以开…

王浩然
2025年10月25日
000

发表回复

Please Login to Comment

微软研究显示：AI推理并非标记越多越好，更多标记可能带来更多问题

相关推荐

发表回复