微软研究显示:AI推理并非标记越多越好,更多标记可能带来更多问题

微软研究显示:AI推理并非标记越多越好,更多标记可能带来更多问题

大型语言模型推理中的标记数量问题

大型语言模型(LLMs)正日益展现出复杂推理的能力,这得益于“推理时间缩放”技术,即在推理过程中分配更多的计算资源来生成答案。然而,微软研究的一项新研究揭示,这些缩放方法的有效性并非普遍适用。在不同的模型、任务和问题复杂性上,性能提升存在显著差异。

核心发现:更多计算资源不等于更好结果

研究发现,仅仅在推理过程中向问题投入更多的计算资源,并不能保证获得更好或更高效的结果。这一发现有助于企业更好地了解在将先进AI推理集成到其应用中时可能面临的成本波动模型可靠性问题。

广泛的模型评估

微软研究团队对九个最先进的基础模型进行了广泛的实证分析,既包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Pro和Llama 3.1 405B等“传统”模型,也包括通过推理时间缩放特别优化推理能力的模型,如OpenAI的o1和o3-mini、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2 Flash Thinking和DeepSeek R1。

多种推理时间缩放方法与复杂基准测试

团队使用三种不同的推理时间缩放方法评估了这些模型,并在涵盖广泛任务的八个具有挑战性的基准数据集上进行了测试,这些任务受益于逐步解决问题:数学和STEM推理(AIME、Omni-MATH、GPQA)、日历规划(BA-Calendar)、NP-hard问题(3SAT、TSP)、导航(Maze)和空间推理(SpatialMap)。

几个基准测试包含了不同难度级别的问题,这有助于更细致地理解随着问题难度的增加,缩放行为是如何变化的。

准确性计算成本的权衡

研究人员通过分析准确性和计算成本(即生成的标记数量)来评估LLM推理的帕累托前沿,这有助于确定模型实现结果的效率。

他们还引入了“传统到推理差距”度量,该度量比较了传统模型的最佳可能性能(使用理想的“最佳N选”选择)与推理模型的平均性能,从而估计通过更好的训练或验证技术可能实现的潜在增益。

研究揭示的关键见解

  • 收益差异显著‌:虽然针对推理优化的模型在这些任务上通常优于传统模型,但改进的程度在很大程度上取决于特定的领域和任务。随着问题复杂性的增加,收益往往会减少。例如,在数学问题上观察到的性能改进并不总是能同样转化为科学推理或规划任务。
  • 标记使用效率低下‌:研究人员观察到,即使在准确性相似的模型之间,标记消耗也存在高度可变性。例如,在AIME 2025数学基准测试中,DeepSeek-R1使用了比Claude 3.7 Sonnet多五倍以上的标记,才能获得大致相当的平均准确性。
  • 更多标记不意味着更高准确性‌:与直觉相反,更长的推理链并不意味着更好的推理。研究发现,相对于同一模型,更长的生成有时可能是模型挣扎而不是改进推理的指标。同样,在比较不同的推理模型时,更高的标记使用量并不总是与更高的准确性相关联。这些发现强调了需要采用更有目的性和成本效益的缩放方法。
  • 成本不确定性‌:对于企业用户来说,最令人担忧的是,对同一模型的重复查询,即使模型始终提供正确答案,也可能导致标记使用量高度可变。这意味着运行查询的成本可能会大幅波动。
  • 验证机制的潜力‌:当使用“完美验证器”(利用最佳N个结果)进行模拟时,所有模型和基准测试的缩放性能都一致提高。
  • 传统模型有时能与推理模型匹敌‌:通过显著增加推理调用次数(在某些实验中多达50倍),传统模型如GPT-4o在某些情况下可以接近专用推理模型的性能水平,特别是在不太复杂的任务上。然而,这些收益在高度复杂的设置中迅速减少,表明暴力缩放有其局限性。

对企业和LLM采用者的意义

这些发现对企业和LLM采用者具有重要意义。“成本不确定性”问题尤为突出,使得预算编制变得困难。研究人员指出,“理想情况下,开发人员和用户会倾向于选择那些对于每个实例的标记使用量标准差较低,从而成本可预测的模型。”

“我们在[研究]中进行的剖析对于开发人员来说可能是一个有用的工具,可以帮助他们选择哪些模型对于相同或不同的提示具有较低的波动性,”微软研究的高级主管研究经理Besmira Nushi告诉VentureBeat。“理想情况下,人们会选择那些对于正确输入具有低标准差的模型。”

研究还深入了解了模型准确性和响应长度之间的相关性。例如,研究表明,数学查询在大约11,000个标记长度以上时,正确的可能性非常低,这些生成要么应该在该点停止,要么应该通过一些顺序反馈重新启动。然而,Nushi指出,允许这些事后缓解措施的模型在正确和错误样本之间也有更清晰的分离。

“最终,减少准确性和成本非确定性的责任也在于模型构建者,我们预计随着这些方法的成熟,这方面会有很多进展,”Nushi说。“除了成本非确定性之外,准确性非确定性也适用。”

另一个重要发现是完美验证器带来的一致性能提升,这突出了未来工作的一个关键领域:构建健壮且广泛适用的验证机制。

“更强验证器的可用性可以产生不同类型的影响,”Nushi说,例如改进推理的基础训练方法。“如果得到有效利用,这些还可以缩短推理轨迹。”

强大的验证器也可以成为企业级代理AI解决方案的核心部分。许多企业利益相关者已经拥有这样的验证器,可能需要将其重新用于更多代理解决方案,如SAT求解器、逻辑有效性检查器等。

“未来的问题是如何将这些现有技术与AI驱动的接口相结合,以及连接两者的语言是什么,”Nushi说。“之所以需要将两者结合起来,是因为用户不会总是以正式的方式制定他们的查询,他们希望使用自然语言接口,并以类似的格式或最终行动(例如提出会议邀请)获得解决方案。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ruan-yan-jiu-xian-shi-ai-tui-li-bing-fei-biao-ji-yue

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月16日
Next 2025年4月17日

相关推荐

发表回复

Please Login to Comment