SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章

SWiRL:打造如顶尖问题解决者般的AI商业应用新篇章

在AI技术日新月异的今天,斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning(SWiRL)技术,旨在为大型语言模型(LLMs)赋能,使其能够高效应对复杂的多步骤推理工具使用任务。这一创新技术,无疑为企业将推理模型融入其应用与工作流程提供了巨大的潜力。

一、企业应用中的多步骤挑战

在现实世界的企业应用中,往往涉及一系列多步骤的流程。例如,规划一场复杂的营销活动,需要从市场调研、内部数据分析、预算计算到客户支持票据审查等多个环节。这些任务不仅要求在线搜索、访问内部数据库,还需运行代码等多方面的能力。然而,传统用于微调LLMs的强化学习方法,如基于人类反馈的强化学习(RLHF)或基于AI反馈的强化学习(RLAIF),大多聚焦于单步骤推理任务的优化,难以满足复杂多步骤任务的需求。

二、SWiRL:应对多步骤挑战的新方案

SWiRL技术的出现,正是为了解决这一难题。它由谷歌DeepMind的研究科学家Anna Goldie与斯坦福大学的计算机科学助理教授Azalia Mirhosseini共同主导。两位研究者指出,传统LLM训练方法在处理多步骤推理及工具集成方面存在局限,导致模型在整合多源文档(如撰写商业报告)或进行多步骤推理及算术计算(如准备财务报告)等任务时表现不佳。

SWiRL通过结合合成数据生成与专门设计的强化学习方法,对模型进行整个动作序列的训练,从而攻克了这一多步骤挑战。其目标是教会模型如何将复杂问题分解为一系列更易管理的子任务,包括何时调用工具、如何制定工具调用请求、何时使用这些查询的结果来回答问题,以及如何有效地综合其发现。

三、SWiRL的两阶段方法论

SWiRL采用两阶段方法论。第一阶段,它生成并筛选大量多步骤推理及工具使用数据。在这一过程中,LLM被赋予访问相关工具(如搜索引擎或计算器)的权限,并通过迭代提示生成解决给定问题的“轨迹”,即一系列步骤。每个步骤中,模型可以生成内部推理(即“思维链”)、调用工具或产生最终答案。若调用工具,则提取查询、执行(如进行搜索)并将结果反馈回模型的上下文,供下一步使用。这一过程持续至模型提供最终答案。

随后,每个从初始提示到最终答案的完整轨迹被分解为多个重叠的子轨迹,每个子轨迹代表至特定动作的过程,提供模型逐步推理的细致视图。通过此方法,团队基于多跳问答(HotPotQA)和数学问题解决(GSM8K)基准问题中的问题,编译了大量数据集,生成了数万个轨迹。

在数据筛选方面,研究者探索了四种策略:无筛选、仅基于最终答案正确性的筛选(结果筛选)、基于每个步骤合理性的筛选(过程筛选)以及基于过程和结果的双重筛选。与依赖“黄金标签”(完美、预定义的正确答案)并常丢弃不正确最终答案数据的标准方法(如监督微调SFT)不同,SWiRL在过程筛选数据上取得了最佳结果,即包含每个推理步骤或工具调用在给定先前上下文下看似合理的轨迹,即使最终答案错误。

第二阶段,SWiRL使用强化学习对基础LLM进行生成的合成轨迹训练。在轨迹中的每个步骤,模型根据先前上下文优化预测下一个适当动作(中间推理步骤、工具调用或最终答案)。LLM在每个步骤都通过单独的生成式奖励模型获得反馈,该模型评估模型在给定当前上下文时生成的动作。

四、SWiRL的显著成效

在推理阶段,经过SWiRL训练的模型以相同迭代方式工作。它接收提示并生成响应文本。若输出工具调用(如搜索查询或数学表达式),则系统解析并执行工具,将结果反馈回模型的上下文窗口。模型继续生成,可能进行更多工具调用,直至输出最终答案或达到预设步骤数限制。

通过训练模型在每个时刻采取合理步骤(并以连贯且可能更易解释的方式),SWiRL解决了传统LLM在面对复杂多步骤任务时的脆弱性,其中成功概率随路径长度呈指数衰减。对于有用的且稳健的企业AI而言,不可避免地需要整合多种不同工具,将它们链接成复杂序列。

斯坦福与谷歌DeepMind团队在多个具有挑战性的多步骤问答和数学推理任务上对SWiRL进行了评估。与基线模型相比,SWiRL在GSM8K、HotPotQA、MuSiQue和BeerQA等数据集上展现了显著的相对准确性提升,幅度从11%至超过21%。实验证实,使用过程筛选数据训练Gemma 2-27B模型取得了最佳结果,优于基于结果筛选数据训练的模型或使用传统SFT的模型。这表明SWiRL更有效地学习了潜在推理过程,而非仅记忆通向正确答案的路径,这有助于在未见问题上的表现。

更重要的是,SWiRL展现出强大的泛化能力。例如,在文本基问答示例上使用SWiRL训练模型提高了其在数学推理任务上的性能,尽管模型未明确训练于数学问题。这种跨不同任务和工具类型的转移性极具价值,因为语言模型的代理应用正在激增,且跨数据集和任务的通用方法将更容易、更便宜且更快地适应新环境。

Goldie和Mirhoseini表示:“在我们探索的领域中,SWiRL的泛化能力似乎相当稳健,但有趣的是,我们希望在编码等其他领域进行测试。我们的研究表明,使用SWiRL针对一项核心任务训练的企业AI模型,在未经任务特定微调的情况下,很可能在其他看似无关的任务上展现出显著的性能提升。当应用于更大(即更强大)的模型时,SWiRL的泛化能力更强,这表明随着基线能力的提升,这项技术未来可能更加有效。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/swirl-da-zao-ru-ding-jian-wen-ti-jie-jue-zhe-ban-de-ai

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月23日
Next 2025年4月23日

相关推荐

发表回复

Please Login to Comment