谷歌新 AI 训练方法 SRL:助力小模型攻克复杂推理,平衡效率与性能

谷歌新 AI 训练方法 SRL:助力小模型攻克复杂推理,平衡效率与性能

谷歌云与加州大学洛杉矶分校(UCLA)的研究人员提出一种名为 “监督强化学习(Supervised Reinforcement Learning, SRL)” 的新型强化学习框架,旨在突破现有大语言模型(LLMs)在复杂多步推理任务中的训练瓶颈。该框架通过将问题解决重构为一系列逻辑 “动作” 序列,在训练过程中提供丰富的学习信号,使参数规模更小、成本更低的模型能够掌握此前只有大模型或特定训练技术才能处理的复杂推理任务。实验表明,SRL 不仅在数学推理基准测试中表现优异,还能有效泛化至智能体软件工程任务,为小模型在高复杂度场景中的应用开辟了新路径。

当前主流 LLM 推理训练方法存在明显局限,难以满足复杂任务需求。一方面,基于可验证奖励的强化学习(RLVR)虽通过 “最终答案正确性” 给予模型奖励,推动模型逐步学习解题策略,但这种 “结果导向” 的训练高度依赖模型在有限尝试次数(即 “rollouts”)内找到正确解。由于每次尝试的计算成本高昂,模型无法无限次试错,当面对极复杂问题(如多步数学推理、代码调试)时,模型往往难以在预算内找到正确答案,导致训练陷入瓶颈。更关键的是,RLVR 采用 “全有或全无” 的奖励机制 —— 若模型在多步推理中仅一步出错导致最终答案错误,整个过程会被判定为失败并给予负奖励,模型无法从 “部分正确的推理步骤” 中学习,造成学习信号稀疏,效率低下。

另一方面,监督微调(SFT)通过让模型模仿专家完整推理过程学习能力,但易导致模型 “过拟合”—— 模型仅学会复现训练数据中的推理轨迹,无法泛化到未见过的新问题。同时,高质量人工标注的推理数据稀缺且成本高昂,进一步限制了 SFT 在复杂任务中的规模化应用。这些缺陷共同形成了 “小模型难以高效学习复杂推理” 的行业痛点,而 SRL 框架正是针对这些问题提出的创新性解决方案。

SRL 的核心创新在于构建 “介于结果导向强化学习与模仿学习之间” 的训练范式,既避免 RLVR 的稀疏奖励问题,又突破 SFT 的过拟合局限。其工作原理可分为 “任务重构 – 数据生成 – 分步训练” 三大环节:首先,SRL 将复杂问题解决过程重构为 “序贯决策流程”,不再要求模型优化最终答案或模仿专家完整思维链,而是聚焦于学习 “构成专家推理核心的关键动作序列”。例如,在数学推理任务中,一个 “动作” 可能是一次代数运算;在软件工程任务中,可能是代码仓库中的一条执行命令。这种设计允许模型在学习专家动作逻辑的同时,发展出自身的内部推理风格,兼顾规范性与灵活性。

数据生成环节,SRL 借助高性能教师模型(如大参数 LLM)生成包含 “动作序列” 的解决方案轨迹,为小模型提供高质量训练数据。以数学推理为例,教师模型会输出 “问题分析→公式推导→步骤计算→结果验证” 的完整动作链,每个动作都对应明确的推理意图;在代码任务中,动作链则涵盖 “需求解析→函数定义→调试修改→功能测试” 等关键步骤。这些轨迹数据不仅包含 “怎么做”,还隐含 “为何这么做” 的逻辑,为小模型提供丰富的推理依据。

训练过程中,SRL 引入 “分步奖励机制” 与 “内部独白(inner monologue)” 设计,解决学习信号稀疏问题。模型在执行每个动作前,需生成包含内部推理过程的 “独白”(用特定标签包裹),随后系统会对比模型预测动作与专家动作的相似度,给予即时、细粒度的奖励 —— 即使模型最终未得出正确答案,只要某一步动作符合专家逻辑,仍能获得正向反馈,从而从 “部分正确” 中积累经验。例如,在多步数学题求解中,模型若正确完成前两步代数变形但第三步出错,RLVR 会判定整体失败,而 SRL 会为前两步的正确动作给予奖励,同时指出第三步的偏差,引导模型针对性优化。这种 “容错式” 训练显著提升了模型的学习效率,尤其适合小模型逐步掌握复杂推理逻辑。

实验数据充分验证了 SRL 的优势,在数学推理与软件工程两大核心场景中均实现突破。在数学推理测试中,研究团队基于 1000 道复杂数学题数据集,对 Qwen2.5-7B-Instruct 模型进行 SRL 训练,并与 SFT、RLVR(采用 DeepSeek-R1 常用的 GRPO 算法)训练的模型在四项竞赛级数学基准上对比。结果显示,SRL 训练的模型平均性能提升 3.0%,尤其在需要多步逻辑推导的题型(如微积分应用题、几何证明)中,优势更为明显 —— 模型能够更清晰地拆解推理步骤,减少中间环节的错误传递。

在智能体软件工程任务中,SRL 的泛化能力进一步凸显。团队针对 Qwen2.5-Coder-7B-Instruct 模型,使用 5000 条专家与编码环境交互的轨迹数据进行训练,对比原始基础模型与经 SFT 微调的 SWE-Gym-7B 基准模型。测试结果表明,SRL 训练的模型任务解决率达 14.8%,相对 SFT 模型提升 74%,能够更高效地完成 “需求转化为代码”“复杂 BUG 修复” 等实际任务。例如,在某电商订单处理模块开发中,SRL 模型能自主识别 “库存判断→订单生成→支付对接” 的逻辑关联,生成的代码不仅功能完整,还包含注释清晰的调试步骤,大幅降低人工后续优化成本。

从企业应用价值来看,SRL 在 “性能提升” 与 “成本控制” 间实现平衡。谷歌研究科学家、论文合著者 I-Hung Hsu 指出,SRL 训练的模型推理质量与结构显著优化,且不会增加 token 消耗 —— 其 token 使用量与基础模型基本持平,未因推理步骤细化导致成本上升。这对企业而言至关重要:小模型本身部署成本较低,叠加 SRL 带来的性能提升,能够以 “低成本 + 高能力” 满足金融风控、数据分析、自动化运维等场景的需求。例如,某金融机构使用 SRL 训练的小模型处理信贷审批中的数学推理任务,在保持 98% 准确率的同时,将推理成本降低 60%,远超传统大模型的性价比。

此外,SRL 与其他训练方法的组合使用展现出更强的潜力。研究团队尝试 “先通过 SRL 奠定基础推理能力,再用 RLVR 优化最终结果” 的课程学习策略,发现模型平均性能再提升 3.7%。这种组合模式既利用 SRL 构建扎实的步骤推理能力,又借助 RLVR 强化结果正确性,尤其适合高风险场景(如医疗诊断推理、航空系统优化)——SRL 确保每一步决策的逻辑合规,RLVR 则保障最终输出的准确性,形成 “双保险”。

尽管 SRL 成效显著,仍面临规模化挑战,尤其是高质量专家轨迹数据的获取与过滤成本较高。Hsu 表示,未来的核心突破方向将是 “自动化轨迹生成与筛选”—— 利用更强的教师模型或 “自改进学生模型”(即模型通过学习不断优化自身生成的轨迹质量),减少对人工标注的依赖。例如,让小模型在初步训练后尝试生成推理轨迹,再由教师模型评估筛选,形成 “生成 – 评估 – 迭代” 的自循环,降低数据成本的同时扩大训练规模。

总体而言,谷歌 SRL 框架的提出,为小模型突破复杂推理能力限制提供了切实可行的技术路径。它不仅改变了 “复杂推理只能依赖大模型” 的行业认知,还通过 “精准奖励”“轨迹学习” 等设计,推动 AI 训练从 “追求结果” 向 “重视过程” 转变。对企业而言,SRL 意味着可以用更低成本构建适配特定场景的推理模型,加速 AI 在垂直领域的落地;对行业而言,这种 “小模型高效化” 的思路,或将缓解算力资源紧张的现状,推动 AI 技术向更普惠、更实用的方向发展。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-xin-ai-xun-lian-fang-fa-srl-zhu-li-xiao-mo-xing-gong

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月18日
Next 2025年11月19日

相关推荐

发表回复

Please Login to Comment