SWiRL：打造如顶尖问题解决者般的AI商业应用新篇章

王浩然 • 2025年4月23日下午2:00 • AI前沿 • 236 views

在AI技术日新月异的今天，斯坦福大学与谷歌DeepMind的研究人员携手推出了Step-Wise Reinforcement Learning（SWiRL）技术，旨在为大型语言模型（LLMs）赋能，使其能够高效应对复杂的多步骤推理及工具使用任务。这一创新技术，无疑为企业将推理模型融入其应用与工作流程提供了巨大的潜力。

‌一、企业应用中的多步骤挑战‌

在现实世界的企业应用中，往往涉及一系列多步骤的流程。例如，规划一场复杂的营销活动，需要从市场调研、内部数据分析、预算计算到客户支持票据审查等多个环节。这些任务不仅要求在线搜索、访问内部数据库，还需运行代码等多方面的能力。然而，传统用于微调LLMs的强化学习方法，如基于人类反馈的强化学习（RLHF）或基于AI反馈的强化学习（RLAIF），大多聚焦于单步骤推理任务的优化，难以满足复杂多步骤任务的需求。

‌二、SWiRL：应对多步骤挑战的新方案‌

SWiRL技术的出现，正是为了解决这一难题。它由谷歌DeepMind的研究科学家Anna Goldie与斯坦福大学的计算机科学助理教授Azalia Mirhosseini共同主导。两位研究者指出，传统LLM训练方法在处理多步骤推理及工具集成方面存在局限，导致模型在整合多源文档（如撰写商业报告）或进行多步骤推理及算术计算（如准备财务报告）等任务时表现不佳。

SWiRL通过结合合成数据生成与专门设计的强化学习方法，对模型进行整个动作序列的训练，从而攻克了这一多步骤挑战。其目标是教会模型如何将复杂问题分解为一系列更易管理的子任务，包括何时调用工具、如何制定工具调用请求、何时使用这些查询的结果来回答问题，以及如何有效地综合其发现。

‌三、SWiRL的两阶段方法论‌

SWiRL采用两阶段方法论。第一阶段，它生成并筛选大量多步骤推理及工具使用数据。在这一过程中，LLM被赋予访问相关工具（如搜索引擎或计算器）的权限，并通过迭代提示生成解决给定问题的“轨迹”，即一系列步骤。每个步骤中，模型可以生成内部推理（即“思维链”）、调用工具或产生最终答案。若调用工具，则提取查询、执行（如进行搜索）并将结果反馈回模型的上下文，供下一步使用。这一过程持续至模型提供最终答案。

随后，每个从初始提示到最终答案的完整轨迹被分解为多个重叠的子轨迹，每个子轨迹代表至特定动作的过程，提供模型逐步推理的细致视图。通过此方法，团队基于多跳问答（HotPotQA）和数学问题解决（GSM8K）基准问题中的问题，编译了大量数据集，生成了数万个轨迹。

在数据筛选方面，研究者探索了四种策略：无筛选、仅基于最终答案正确性的筛选（结果筛选）、基于每个步骤合理性的筛选（过程筛选）以及基于过程和结果的双重筛选。与依赖“黄金标签”（完美、预定义的正确答案）并常丢弃不正确最终答案数据的标准方法（如监督微调SFT）不同，SWiRL在过程筛选数据上取得了最佳结果，即包含每个推理步骤或工具调用在给定先前上下文下看似合理的轨迹，即使最终答案错误。

第二阶段，SWiRL使用强化学习对基础LLM进行生成的合成轨迹训练。在轨迹中的每个步骤，模型根据先前上下文优化预测下一个适当动作（中间推理步骤、工具调用或最终答案）。LLM在每个步骤都通过单独的生成式奖励模型获得反馈，该模型评估模型在给定当前上下文时生成的动作。

‌四、SWiRL的显著成效‌

在推理阶段，经过SWiRL训练的模型以相同迭代方式工作。它接收提示并生成响应文本。若输出工具调用（如搜索查询或数学表达式），则系统解析并执行工具，将结果反馈回模型的上下文窗口。模型继续生成，可能进行更多工具调用，直至输出最终答案或达到预设步骤数限制。

通过训练模型在每个时刻采取合理步骤（并以连贯且可能更易解释的方式），SWiRL解决了传统LLM在面对复杂多步骤任务时的脆弱性，其中成功概率随路径长度呈指数衰减。对于有用的且稳健的企业AI而言，不可避免地需要整合多种不同工具，将它们链接成复杂序列。

斯坦福与谷歌DeepMind团队在多个具有挑战性的多步骤问答和数学推理任务上对SWiRL进行了评估。与基线模型相比，SWiRL在GSM8K、HotPotQA、MuSiQue和BeerQA等数据集上展现了显著的相对准确性提升，幅度从11%至超过21%。实验证实，使用过程筛选数据训练Gemma 2-27B模型取得了最佳结果，优于基于结果筛选数据训练的模型或使用传统SFT的模型。这表明SWiRL更有效地学习了潜在推理过程，而非仅记忆通向正确答案的路径，这有助于在未见问题上的表现。

更重要的是，SWiRL展现出强大的泛化能力。例如，在文本基问答示例上使用SWiRL训练模型提高了其在数学推理任务上的性能，尽管模型未明确训练于数学问题。这种跨不同任务和工具类型的转移性极具价值，因为语言模型的代理应用正在激增，且跨数据集和任务的通用方法将更容易、更便宜且更快地适应新环境。

Goldie和Mirhoseini表示：“在我们探索的领域中，SWiRL的泛化能力似乎相当稳健，但有趣的是，我们希望在编码等其他领域进行测试。我们的研究表明，使用SWiRL针对一项核心任务训练的企业AI模型，在未经任务特定微调的情况下，很可能在其他看似无关的任务上展现出显著的性能提升。当应用于更大（即更强大）的模型时，SWiRL的泛化能力更强，这表明随着基线能力的提升，这项技术未来可能更加有效。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/swirl-da-zao-ru-ding-jian-wen-ti-jie-jue-zhe-ban-de-ai

SWiRL 企业AI应用合成数据生成多步骤推理大型语言模型工具使用强化学习泛化能力过程筛选

Like (0)

王浩然作者

0 0

Dia：全新开源文本转语音模型，挑战ElevenLabs、OpenAI等巨头

Previous 2025年4月23日

AI生成代码准确性提升：研究人员采用顺序蒙特卡洛方法

Next 2025年4月23日

AI前沿

YouTube 将使用人工智能生成创意、标题甚至完整视频

人工智能在谷歌的整个产品组合中都大行其道，YouTube 也采用了该公司的一些最新技术来帮助创作者进行创作。周三，在纽约市举行的 Made on YouTube 活动上，该公司宣布…

王浩然
2024年9月20日
000
AI前沿

Lovable.dev深度评测：AI如何重塑应用开发新范式‌

在初创企业九成失败的残酷现实中，产品开发效率往往成为决定生死的关键变量。2025年8月，科技评论员Janine Heinrichs亲身体验了Lovable.dev这款革命性的AI应…

王浩然
2025年9月1日
000
AI前沿

人工智能生产力引擎在最新一轮融资中筹集 5000 万美元

协作式 AI 生产力引擎 You.com 在由成长期 B2B 投资者 Georgian 领投的 B 轮融资中获得了 5000 万美元。 Salesforce Ventures、NV…

点点
2024年9月12日
000
AI前沿

Meta新世界模型：让机器人在未知环境中灵活操控物体‌

在人工智能领域，大型语言模型（LLMs）已经展现了其在文本处理方面的卓越能力，但在物理世界的动态环境中，它们却常常显得力不从心。这主要是因为LLMs缺乏物理“常识”，难以理解和应对…

王浩然
2025年6月15日
000
AI前沿

Anthropic 揭露 AI 协同网络攻击运作机制，企业需重构安全防御体系

长期以来，网络安全专家一直在争论人工智能何时会从 “防御顾问” 转变为 “自主攻击者”，而这一理论里程碑已正式到来。Anthropic 近期对某中国国家支持的网络行动展开调查，首次…

王浩然
2025年12月8日
000
AI前沿

Pedego 的 Cargo 电动自行车：运动、时尚、动力强劲，售价 4,000 美元

Pedego的 Cargo 电动自行车被宣传为一款强劲而运动的自行车，主要面向带着孩子在城里走动的父母和任何需要携带重型装备的人。我花了整个夏天测试这款货运电动自行车，看看它是…

点点
2024年9月23日
000
AI前沿

“个性化、不受限制”的人工智能实验室 Nous Research 推出首个开启推理模型：DeepHermes-3

人工智能推理模型——在文本中产生“思路链”（CoT）并反思自己的分析以尝试在输出响应之前中途捕捉错误的模型——现在风靡一时，这要归功于DeepSeek和OpenAI 的“o”系列。…

王浩然
2025年2月18日
000
AI前沿

智能体AI重塑反洗钱合规：五大策略赋能金融风控

过去一年，智能体AI（Agentic AI）无疑是科技领域的焦点话题。从AWS与OpenAI联手推进高级AI工作负载，到零售、政府、金融服务等全行业的广泛落地，AI智能体正深度融入…

王浩然
2026年1月26日
000
AI前沿

法国Mistral公司推出新型代码嵌入模型，在现实世界检索任务中超越OpenAI和Cohere‌

在人工智能领域，随着企业对代码检索增强生成（RAG）需求的日益增长，各大模型提供商纷纷推出了自己的嵌入模型以满足市场需求。近日，法国AI公司Mistral凭借其最新的Codestr…

王浩然
2025年5月29日
000
AI前沿

2025年及以后AI的三大预测‌

近年来，人工智能（AI）的飞速发展令人叹为观止。从协助发现可能拯救生命的药物疗法，到推动自动驾驶汽车技术的革新，AI正深刻影响着我们的日常生活。作为AI的乐观拥趸，我坚信AI将继续…

王浩然
2025年3月14日
000
AI前沿

Zencoder 推出 Zenflow：AI 编码编排工具的创新与行业争议

2025 年 12 月 16 日，硅谷初创企业 Zencoder 发布免费桌面应用 Zenflow，旨在革新软件工程师与 AI 的交互模式，推动行业从 “氛围编程（vibe cod…

王浩然
2025年12月21日
000
AI前沿

AI风险文化：塑造企业决策的隐形支柱

当大语言模型、自动化工作流乃至完全自主智能体纷纷走进企业，人工智能终于从“纸面讨论”落地成为驱动业务的核心工具。但在这场AI转型浪潮中，不少企业陷入了技术先行的误区——急于部署AI…

王浩然
2026年3月9日
000
AI前沿

英国将推出“汉弗莱”公务员助理及其他人工智能计划以减少官僚主义

英国政府宣布了一项大规模投资人工智能的计划，一周后，政府公布了该计划在公共部门的具体实施细节。计划包括：人工智能助手加快公共服务；跨部门数据共享；一套新的人工智能工具——以英国老电…

王浩然
2025年1月21日
000
AI前沿

黑箱 AI 已不足够：企业咨询转向基础模型的原因与实践

在如今任何人都能快速部署大语言模型（LLM）的时代，AI 技术本身已不再是核心差异点，真正能形成竞争力的是 AI 所依托的机构知识。对于主导运营转型的内部顾问与合作伙伴而言，当他们…

王浩然
2025年12月20日
000
AI前沿

蝙蝠侠：阿卡姆影的VR版《黑暗骑士》现在有发布日期

我们已经知道它将于今年10月上映，但《蝙蝠侠：阿卡姆之影》——Rocksteady广受好评的超级英雄系列的有前途的VR版本——现在有一个合适的发布日期。它将于今年10月22日为Me…

点点
2024年9月26日
000
AI前沿

2025年德克萨斯州洪灾中AI的失败：灾害管理的关键教训

2025年7月，德克萨斯州经历了有史以来最严重的洪灾之一。这场灾难夺走了145多人的生命，造成了数十亿美元的损失。尽管人们普遍相信人工智能(AI)能够预测和管理此类事件，但许多社区…

王浩然
2025年7月25日
000
AI前沿

生成式AI重塑电信行业：2025年世界移动通信大会展望

一、引言电信行业正经历着前所未有的变革，这主要得益于数据消费量的激增、5G及下一代网络的广泛部署以及客户期望的不断提升。在这场变革中，生成式AI（Generative AI）正成…

王浩然
2025年3月14日
000
AI前沿

Hugging Face 将 AI 视觉模型缩小至手机友好尺寸，大幅降低计算成本

Hugging Face在人工智能领域取得了令人瞩目的突破，推出了可以在智能手机等小型设备上运行的视觉语言模型，其性能优于需要庞大数据中心的前代模型。该公司的新款SmolVLM-…

王浩然
2025年1月25日
000
AI前沿

用AI“创造”蛋白质，「分子之心」获数亿元A轮融资

AI蛋白质设计平台公司「分子之心」近日完成数亿元A轮融资，由谢诺投资、深创投联合领投，商汤国香资本、久奕投资跟投。本轮融资将用于进一步扩大复合型人才团队，深入完善AI蛋白质基础大模…

点点
2024年9月13日
000
AI前沿

蚂蚁集团发布万亿参数 AI 模型 Ling-1T：以双轨策略突破推理与效率瓶颈

中国金融科技巨头蚂蚁集团正式入局万亿参数 AI 模型赛道，推出开源语言模型 Ling-1T。这款模型以 “平衡计算效率与高阶推理能力” 为核心定位，在复杂数学推理任务中展现出竞争力…

王浩然
2025年10月18日
000

发表回复

Please Login to Comment

SWiRL：打造如顶尖问题解决者般的AI商业应用新篇章

相关推荐

发表回复