谷歌新 AI 训练方法 SRL：助力小模型攻克复杂推理，平衡效率与性能

王浩然 • 2025年11月19日上午10:00 • AI前沿 • 253 views

谷歌云与加州大学洛杉矶分校（UCLA）的研究人员提出一种名为 “监督强化学习（Supervised Reinforcement Learning, SRL）” 的新型强化学习框架，旨在突破现有大语言模型（LLMs）在复杂多步推理任务中的训练瓶颈。该框架通过将问题解决重构为一系列逻辑 “动作” 序列，在训练过程中提供丰富的学习信号，使参数规模更小、成本更低的模型能够掌握此前只有大模型或特定训练技术才能处理的复杂推理任务。实验表明，SRL 不仅在数学推理基准测试中表现优异，还能有效泛化至智能体软件工程任务，为小模型在高复杂度场景中的应用开辟了新路径。

当前主流 LLM 推理训练方法存在明显局限，难以满足复杂任务需求。一方面，基于可验证奖励的强化学习（RLVR）虽通过 “最终答案正确性” 给予模型奖励，推动模型逐步学习解题策略，但这种 “结果导向” 的训练高度依赖模型在有限尝试次数（即 “rollouts”）内找到正确解。由于每次尝试的计算成本高昂，模型无法无限次试错，当面对极复杂问题（如多步数学推理、代码调试）时，模型往往难以在预算内找到正确答案，导致训练陷入瓶颈。更关键的是，RLVR 采用 “全有或全无” 的奖励机制 —— 若模型在多步推理中仅一步出错导致最终答案错误，整个过程会被判定为失败并给予负奖励，模型无法从 “部分正确的推理步骤” 中学习，造成学习信号稀疏，效率低下。

另一方面，监督微调（SFT）通过让模型模仿专家完整推理过程学习能力，但易导致模型 “过拟合”—— 模型仅学会复现训练数据中的推理轨迹，无法泛化到未见过的新问题。同时，高质量人工标注的推理数据稀缺且成本高昂，进一步限制了 SFT 在复杂任务中的规模化应用。这些缺陷共同形成了 “小模型难以高效学习复杂推理” 的行业痛点，而 SRL 框架正是针对这些问题提出的创新性解决方案。

SRL 的核心创新在于构建 “介于结果导向强化学习与模仿学习之间” 的训练范式，既避免 RLVR 的稀疏奖励问题，又突破 SFT 的过拟合局限。其工作原理可分为 “任务重构 – 数据生成 – 分步训练” 三大环节：首先，SRL 将复杂问题解决过程重构为 “序贯决策流程”，不再要求模型优化最终答案或模仿专家完整思维链，而是聚焦于学习 “构成专家推理核心的关键动作序列”。例如，在数学推理任务中，一个 “动作” 可能是一次代数运算；在软件工程任务中，可能是代码仓库中的一条执行命令。这种设计允许模型在学习专家动作逻辑的同时，发展出自身的内部推理风格，兼顾规范性与灵活性。

数据生成环节，SRL 借助高性能教师模型（如大参数 LLM）生成包含 “动作序列” 的解决方案轨迹，为小模型提供高质量训练数据。以数学推理为例，教师模型会输出 “问题分析→公式推导→步骤计算→结果验证” 的完整动作链，每个动作都对应明确的推理意图；在代码任务中，动作链则涵盖 “需求解析→函数定义→调试修改→功能测试” 等关键步骤。这些轨迹数据不仅包含 “怎么做”，还隐含 “为何这么做” 的逻辑，为小模型提供丰富的推理依据。

训练过程中，SRL 引入 “分步奖励机制” 与 “内部独白（inner monologue）” 设计，解决学习信号稀疏问题。模型在执行每个动作前，需生成包含内部推理过程的 “独白”（用特定标签包裹），随后系统会对比模型预测动作与专家动作的相似度，给予即时、细粒度的奖励 —— 即使模型最终未得出正确答案，只要某一步动作符合专家逻辑，仍能获得正向反馈，从而从 “部分正确” 中积累经验。例如，在多步数学题求解中，模型若正确完成前两步代数变形但第三步出错，RLVR 会判定整体失败，而 SRL 会为前两步的正确动作给予奖励，同时指出第三步的偏差，引导模型针对性优化。这种 “容错式” 训练显著提升了模型的学习效率，尤其适合小模型逐步掌握复杂推理逻辑。

实验数据充分验证了 SRL 的优势，在数学推理与软件工程两大核心场景中均实现突破。在数学推理测试中，研究团队基于 1000 道复杂数学题数据集，对 Qwen2.5-7B-Instruct 模型进行 SRL 训练，并与 SFT、RLVR（采用 DeepSeek-R1 常用的 GRPO 算法）训练的模型在四项竞赛级数学基准上对比。结果显示，SRL 训练的模型平均性能提升 3.0%，尤其在需要多步逻辑推导的题型（如微积分应用题、几何证明）中，优势更为明显 —— 模型能够更清晰地拆解推理步骤，减少中间环节的错误传递。

在智能体软件工程任务中，SRL 的泛化能力进一步凸显。团队针对 Qwen2.5-Coder-7B-Instruct 模型，使用 5000 条专家与编码环境交互的轨迹数据进行训练，对比原始基础模型与经 SFT 微调的 SWE-Gym-7B 基准模型。测试结果表明，SRL 训练的模型任务解决率达 14.8%，相对 SFT 模型提升 74%，能够更高效地完成 “需求转化为代码”“复杂 BUG 修复” 等实际任务。例如，在某电商订单处理模块开发中，SRL 模型能自主识别 “库存判断→订单生成→支付对接” 的逻辑关联，生成的代码不仅功能完整，还包含注释清晰的调试步骤，大幅降低人工后续优化成本。

从企业应用价值来看，SRL 在 “性能提升” 与 “成本控制” 间实现平衡。谷歌研究科学家、论文合著者 I-Hung Hsu 指出，SRL 训练的模型推理质量与结构显著优化，且不会增加 token 消耗 —— 其 token 使用量与基础模型基本持平，未因推理步骤细化导致成本上升。这对企业而言至关重要：小模型本身部署成本较低，叠加 SRL 带来的性能提升，能够以 “低成本 + 高能力” 满足金融风控、数据分析、自动化运维等场景的需求。例如，某金融机构使用 SRL 训练的小模型处理信贷审批中的数学推理任务，在保持 98% 准确率的同时，将推理成本降低 60%，远超传统大模型的性价比。

此外，SRL 与其他训练方法的组合使用展现出更强的潜力。研究团队尝试 “先通过 SRL 奠定基础推理能力，再用 RLVR 优化最终结果” 的课程学习策略，发现模型平均性能再提升 3.7%。这种组合模式既利用 SRL 构建扎实的步骤推理能力，又借助 RLVR 强化结果正确性，尤其适合高风险场景（如医疗诊断推理、航空系统优化）——SRL 确保每一步决策的逻辑合规，RLVR 则保障最终输出的准确性，形成 “双保险”。

尽管 SRL 成效显著，仍面临规模化挑战，尤其是高质量专家轨迹数据的获取与过滤成本较高。Hsu 表示，未来的核心突破方向将是 “自动化轨迹生成与筛选”—— 利用更强的教师模型或 “自改进学生模型”（即模型通过学习不断优化自身生成的轨迹质量），减少对人工标注的依赖。例如，让小模型在初步训练后尝试生成推理轨迹，再由教师模型评估筛选，形成 “生成 – 评估 – 迭代” 的自循环，降低数据成本的同时扩大训练规模。

总体而言，谷歌 SRL 框架的提出，为小模型突破复杂推理能力限制提供了切实可行的技术路径。它不仅改变了 “复杂推理只能依赖大模型” 的行业认知，还通过 “精准奖励”“轨迹学习” 等设计，推动 AI 训练从 “追求结果” 向 “重视过程” 转变。对企业而言，SRL 意味着可以用更低成本构建适配特定场景的推理模型，加速 AI 在垂直领域的落地；对行业而言，这种 “小模型高效化” 的思路，或将缓解算力资源紧张的现状，推动 AI 技术向更普惠、更实用的方向发展。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/gu-ge-xin-ai-xun-lian-fang-fa-srl-zhu-li-xiao-mo-xing-gong

LLM 训练优化 Qwen2.5 模型内部独白设计分步奖励机制小模型复杂推理数学推理智能体软件工程监督强化学习 (SRL)

Like (0)

王浩然作者

0 0

人机协同（HITL）AI 在高风险医疗领域的重要性：以协作筑牢安全防线

Previous 2025年11月18日

依托公共数据抗击虚假信息：技术创新与协同治理构建防谣新防线

Next 2025年11月19日

AI前沿

企鹅兰登书屋在其图书的版权页中添加了人工智能警告

商业出版商企鹅兰登书屋正在其图书的版权页中添加语言，禁止使用这些图书来训练人工智能。据《书商》报道，该出版商的新书和旧书的再版现在将包含以下声明：“本书的任何部分不得以任何方式用…

王浩然
2024年10月20日
000
AI前沿

印度成ChatGPT第二大市场：1亿周活背后的AI博弈与长期布局

当OpenAI首席执行官萨姆·奥尔特曼在新德里举办的印度AI影响峰会前夕公布一组数据时，全球AI行业的目光再次聚焦到了南亚次大陆：印度现已拥有1亿ChatGPT周活跃用户，成为仅次…

王浩然
2026年2月18日
000
AI前沿

Zoom 宣称拿下 AI 最难考试高分，争议却随之而来

2025 年 12 月 16 日，以疫情期间助力远程办公闻名的 Zoom 视频通讯公司宣布，其 AI 系统在被称为 “人类终极考试”（Humanity’s Last E…

王浩然
2025年12月21日
000
AI前沿

‌Cohere发布Embed 4：新一代多模态搜索模型，轻松处理200页文档

在人工智能领域，企业检索增强生成（RAG）技术正成为当下的一大热点。为了充分利用这一趋势，Cohere公司推出了其嵌入模型的最新版本——Embed 4。这款新模型不仅拥有更长的上下…

王浩然
2025年4月16日
000
AI前沿

‌阿里云发布通义千问升级版大模型技术赋能AI转录工具新突破‌

全球云计算与人工智能领导者阿里云于2025年9月8日正式推出通义千问（Qwen）大语言模型重大升级版本，该技术突破将彻底重塑智能语音转录行业的技术格局。此次发布的Qwen-2.5模…

王浩然
2025年9月14日
000
AI前沿

阿里云 Qwen Deep Research 升级：一键将研究报告转化为网页与播客，重构多模态内容生产流程

阿里巴巴旗下 Qwen 团队于 2025 年 10 月 21 日，对其 AI 研究工具 “Qwen Deep Research” 进行了重大更新。该工具作为网页版 Qwen Cha…

王浩然
2025年10月26日
000
AI前沿

CES 2025 技术趋势报告：今年收入 5370 亿美元

根据周日CES正式开幕时发布的技术趋势预测报告，2025 年的技术市场看起来相当健康。 CES 主办方消费技术协会 (CTA) 的预测由该协会创新与趋势高级总监 Brian Com…

王浩然
2025年1月6日
000
AI前沿

Thesys 融资 400 万美元，利用自适应“生成式 UI”改造 AI 驱动的用户界面

在充斥着旨在增强用户体验的人工智能代理的技术领域，Thesys 的使命是重新定义用户与人工智能的互动方式。在由Together Fund领投的新一轮 400 万美元种子融资以及8V…

王浩然
2024年11月10日
000
AI前沿

Read AI 融资 5000 万美元，以满足市场对其 AI 摘要机器人的强劲需求

现在，我们有如此多的初创公司提供人工智能机器人，这些机器人可以做各种事情，从聆听会议并转录会议内容，到做笔记和提出见解，该领域的公司被迫通过提供额外的功能集和集成来脱颖而出。 Re…

王浩然
2024年10月28日
000
AI前沿

高通希望收购英特尔

周五下午，《华尔街日报》报道称，另一家芯片巨头高通已就收购事宜与英特尔接洽。尽管该报未具名消息人士称，任何交易都“远未确定”，但对于一家曾是全球最有价值的芯片公司而言，这将是一个巨…

王浩然
2024年9月23日
000
AI前沿

作者呼吁出版商限制AI使用

近日，包括劳伦·格罗夫、列夫·格罗斯曼、R.F.匡、丹尼斯·勒翰和杰弗里·马奎尔在内的一批知名作者，联合发表了一封公开信。这封信矛头直指出版界，呼吁各出版商限制对人工智能（AI）工…

王浩然
2025年7月3日
000
AI前沿

Snowflake逆势增长32%：企业数据基础设施展现强大韧性打破科技放缓担忧‌

在全球科技投资普遍放缓的背景下，云数据平台Snowflake最新财报却呈现出令人瞩目的逆势增长，其32%的年度营收增幅不仅远超市场预期，更揭示了企业数据基础设施领域独特的抗周期特性…

王浩然
2025年8月31日
000
AI前沿

Salesforce豪掷10亿美元投资新加坡，力推AI技术普及‌

在科技日新月异的今天，人工智能（AI）已经成为推动各行各业发展的重要力量。近日，全球领先的客户关系管理软件提供商Salesforce宣布了一项重大投资决策——将在新加坡投入高达10…

王浩然
2025年3月13日
000
AI前沿

Anthropic研究者诱导Claude欺骗：意外发现或将保护我们免受失控AI威胁

在人工智能领域的一次独特实验中，Anthropic的研究人员实施了一项大胆的计划：他们尝试诱导自家的大型语言模型Claude变得具有欺骗性。这一看似悖论的举措背后，隐藏着一个更为深…

王浩然
2025年3月17日
000
AI前沿

从YC初创到AI平台工程师：Shuttle如何破解云基础设施瓶颈

当AI代码生成工具让开发者能在数分钟内产出完整应用，却在部署环节遭遇难以逾越的高墙时，Shuttle正在用一种全新的思路重新定义开发者与云基础设施的关系。近日，Unite.AI对S…

王浩然
2026年2月9日
000
AI前沿

网站建设者 Squarespace 表示正在通过策划和品味来训练其人工智能工具

生成式人工智能工具能帮助人们建立更好的网站吗？还是只会让网络充斥着垃圾信息？Squarespace 最近推出了Design Intelligence，这是一款充满生成式人工智能工具…

王浩然
2024年10月8日
000
AI前沿

OpenAI启动身份验证新规：ChatGPT用户将面临强制性身份核验‌

全球领先的人工智能研究机构OpenAI正在实施一项具有里程碑意义的用户身份管理政策。自2025年1月起，部分ChatGPT用户在使用特定功能时将必须提交政府颁发的身份证件进行验证，…

王浩然
2025年9月18日
000
AI前沿

AI重塑家装信任：破解美国旧房改造行业的透明度困局

当拥有一套理想住房的难度越来越大时，美国的住房市场正经历着前所未有的挑战。一边是房源短缺推高房价至历史新高，一边是抵押贷款利率飙升加剧购房负担危机，“买一套入门级住房，再随着家庭需…

王浩然
2026年2月4日
000
AI前沿

Manus AI如何重新定义跨行业的自主工作流程自动化

近年来，中国在人工智能（AI）领域取得了显著进展，其中Manus AI的推出尤为引人注目。这款由Butterfly Effect公司开发、腾讯支持的AI代理，旨在通过自主自动化复杂…

王浩然
2025年5月26日
000
AI前沿

马克·贝尼奥夫警告称，人工智能虽然有用，但被夸大了，并将部分责任归咎于微软

科技行业最热衷炒作的人之一、Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 想让你知道，他对生成式人工智能充满期待，但即便如此，他也不认为它能做到其最…

点点
2024年10月18日
000

发表回复

Please Login to Comment

谷歌新 AI 训练方法 SRL：助力小模型攻克复杂推理，平衡效率与性能

相关推荐

发表回复