
艾伦人工智能研究所(Ai2)在 Olmo 3 基础上推出迭代版本 Olmo 3.1,通过延长强化学习(RL)训练时长、优化训练策略,显著提升模型在数学推理、指令遵循等核心能力上的表现,同时延续 “全流程开源” 理念,为企业与研究机构提供兼具高性能与高透明度的 AI 解决方案,进一步巩固其在开源大模型领域的技术领先地位。
Olmo 3.1 系列聚焦 32B 参数规模的两大核心版本:Olmo 3.1 Think 32B 与 Olmo 3.1 Instruct 32B,前者针对先进研究场景优化,后者专注于指令跟随、多轮对话与工具调用,同时保留 Olmo 3 Base 版本(侧重编程、数学与理解能力,支持二次微调)。其中,Olmo 3.1 Think 32B 的升级核心在于强化学习训练的扩展 ——Ai2 团队在 Olmo 3 发布后,重启该模型的 RL 训练流程,动用 224 块 GPU 额外训练 21 天,在 Dolci-Think-RL 数据集上增加训练轮次,最终实现多基准测试的显著突破:AIME(美国数学邀请赛)成绩提升 5 个百分点以上,ZebraLogic(逻辑推理基准)、IFEval(指令遵循评估)均提升 4 个百分点以上,IFBench(指令能力测试)更是跃升 20 个百分点,同时在编码与复杂多步骤任务中表现更强。而 Olmo 3.1 Instruct 32B 则借鉴 7B 参数版本的训练方案,针对聊天、工具使用场景优化,成为 Olmo 3 Instruct 7B 的高性能升级款,具备更成熟的实际应用能力。
在性能表现上,Olmo 3.1 系列全面超越前代,并在开源模型中展现竞争力。Olmo 3.1 Think 32B 在 AIME 2025 基准测试中超越 Qwen 3 32B,与 Gemma 27B 性能接近;Olmo 3.1 Instruct 32B 作为 Ai2 目前最强大的全开源对话模型,在数学基准测试中击败 Gemma 3 等开源同行,成为 32B 规模指令模型中的佼佼者。此外,Ai2 同步升级了 RL-Zero 7B 系列模型(侧重数学与编码),通过更长且稳定的训练,进一步提升其专项能力。
透明度与开放性是 Olmo 系列的核心特色,Olmo 3.1 延续并深化这一理念。Ai2 不仅在 Ai2 Playground 与 Hugging Face 平台开放新模型的检查点,后续还将提供 API 访问服务,更关键的是,其坚持 “全流程开源”—— 公开模型权重、完整训练流程(包括数据处理、训练代码、调参脚本)、中间检查点与训练日志,甚至开发 OlmoTrace 工具追踪模型输出与训练数据的匹配关系,让研究人员与企业可复现训练过程、干预定制模型,解决传统开源模型 “仅开放权重、隐藏关键细节” 的痛点。这种开放性使得组织能够基于自身需求补充训练数据、调整训练策略,尤其适配对合规性、可解释性要求高的企业场景。
从技术创新与行业价值来看,Olmo 3.1 的强化学习升级与开源模式具有多重意义。在技术层面,其通过延长 RL 训练、优化数据集与训练基础设施,验证了 “强化学习持续迭代对推理能力的增益效果”,为大模型性能提升提供可复制的技术路径;在行业层面,全流程开源降低了 AI 研发门槛,中小型研究机构与企业无需从零开始,可基于现有框架快速开展二次开发,同时推动开源社区对模型训练机制、数据影响的深入研究;在应用层面,Olmo 3.1 的高性能与高透明度使其适用于科研推理、企业级对话助手、工具调用系统等多元场景,尤其为对数据安全、模型可控性要求严格的领域(如金融、医疗)提供可靠选择。
目前,Olmo 3.1 的相关资源已逐步开放,研究人员与开发者可通过 Ai2 官方平台与 Hugging Face 获取模型并开展实验,其后续 API 服务的上线将进一步降低使用门槛。作为 Ai2 在开源大模型领域的重要迭代,Olmo 3.1 不仅展现了强化学习对模型能力的关键作用,更以全流程开源为行业树立新标准,推动 AI 技术向 “透明化、可及性、可控性” 方向发展。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai2-fa-bu-olmo-3-1-qiang-hua-xue-xi-sheng-ji-qu-dong-tui-li