企业现在可以借助强化学习微调OpenAI的o4-mini推理模型‌

企业现在可以借助强化学习微调OpenAI的o4-mini推理模型‌

OpenAI近日在其面向开发者的社交媒体账号上宣布,企业用户现在可以利用强化学习微调(Reinforcement Fine-Tuning, RFT)功能,定制化OpenAI全新的o4-mini语言推理模型。这一功能使得第三方软件开发者能够基于企业独特的产品、内部术语、目标、员工、流程等因素,创建出专属于企业的模型版本。简而言之,通过OpenAI的平台控制面板,开发者可以将公开的模型进行微调,使其更加贴合企业的实际需求。随后,通过OpenAI的应用程序编程接口(API),这些定制化的模型可以被部署到企业的内部电脑、数据库和应用系统中。

部署完成后,企业内部的员工或领导即可通过定制的内部聊天机器人或OpenAI GPT的定制版,轻松获取企业内部的专有知识和信息,回答关于公司产品和政策的具体问题,或生成符合公司风格的新通讯和材料。然而,值得注意的是,研究表明,经过微调的模型可能会更容易出现“越狱”和“幻觉”现象,因此在使用过程中需要谨慎。

此次推出标志着OpenAI的模型优化工具超越了监督微调(Supervised Fine-Tuning, SFT),为处理复杂、特定领域的任务提供了更灵活的控制。此外,OpenAI还宣布,现在为GPT-4.1 nano模型提供支持监督微调,这是其迄今为止最经济实惠、速度最快的版本。

强化学习微调(RFT)如何助力企业与机构?

RFT可以创建出一个全新的OpenAI o4-mini推理模型版本,该版本会自动适应用户或其企业/组织的目标。这是通过在训练过程中应用反馈循环来实现的,大型企业(甚至是独立工作的开发者)的开发人员现在可以通过OpenAI的在线开发者平台相对简单、轻松且经济地启动这一过程。

与传统的监督学习不同,它不是在具有固定正确答案的问题集上进行训练,RFT使用一个评分模型对每个提示的多个候选回答进行评分。然后,训练算法会调整模型权重,以增加高分输出的可能性。这种结构使得客户能够将模型与更加微妙的目标(如企业的“内部沟通风格”和术语、安全规则、事实准确性或内部政策合规性)对齐。

要执行RFT,用户需要:定义评分函数或使用基于OpenAI模型的评分器;上传包含提示和验证拆分的数据集;通过API或微调控制面板配置训练任务;监控进度,审查检查点,并根据数据或评分逻辑进行迭代。目前,RFT仅支持o系列推理模型,并可用于o4-mini模型。

早期企业应用案例

OpenAI的平台上展示了多个采用RFT的各行业早期客户案例:

  • Accordance AI利用RFT微调模型进行复杂的税务分析任务,准确性提高了39%,在税务推理基准测试中超越了所有领先模型。
  • Ambience Healthcare将RFT应用于ICD-10医疗编码分配,在黄金面板数据集上,与医生的基线相比,模型性能提高了12个百分点。
  • Harvey使用RFT进行法律文档分析,提高了引文提取F1分数20%,在准确性方面与GPT-4o相当,同时实现了更快的推理速度。
  • Runloop微调模型以生成Stripe API代码片段,使用语法感知评分器和AST验证逻辑,实现了12%的改进。
  • Milo将RFT应用于调度任务,在高复杂性情况下提高了25分的正确性。
  • SafetyKit利用RFT执行细致的内容审核政策,将模型F1从86%提高到90%。

此外,ChipStack、Thomson Reuters和其他合作伙伴也在结构化数据生成、法律比较任务和验证工作流程中展示了性能提升。这些案例通常具有明确的任务定义、结构化的输出格式和可靠的评价标准,这些都是有效强化微调的基础。

RFT现已面向验证组织提供

为了帮助改进未来的模型,OpenAI为与OpenAI共享训练数据集的团队提供50%的折扣。感兴趣的开发者可以通过OpenAI的RFT文档和控制面板开始使用。

定价和计费结构

与按令牌计费的监督微调或偏好微调不同,RFT基于积极训练的时间计费。具体为:每小时核心训练时间(模型部署、评分、更新和验证期间的挂钟时间)收费100美元。时间按秒计费,四舍五入到小数点后两位(因此,1.8小时的训练将花费客户180美元)。只有修改模型的工作才会产生费用。队列、安全检查和非活动设置阶段不计费。

如果用户将OpenAI模型用作评分器(例如GPT-4.1),则在评分期间消耗的推理令牌将按OpenAI的标准API费率单独计费。否则,公司可以使用外部模型(包括开源模型)作为评分器。

成本控制建议

为了控制成本,OpenAI鼓励团队:在可能的情况下使用轻量级或高效的评分器;避免不必要的频繁验证;从小型数据集或较短运行开始校准预期;使用API或控制面板工具监控训练,并在必要时暂停。

OpenAI采用“捕获前进进度”的计费方法,即用户仅被收取成功完成并保留的模型训练步骤的费用。

企业应投资定制OpenAI的o4-mini模型的RFT吗?

强化学习微调为语言模型适应现实世界用例提供了一种更具表现力和可控性的方法。通过支持结构化输出、基于代码和模型的评分器以及完整的API控制,RFT在模型部署中实现了新的定制水平。OpenAI的推出强调了深思熟虑的任务设计和稳健评估对于成功的重要性。

对探索此方法感兴趣的开发者可以通过OpenAI的微调控制面板访问文档和示例。对于具有明确问题和可验证答案的组织,RFT提供了一种将模型与运营或合规目标对齐的强有力方法,而无需从零开始构建强化学习基础设施。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/qi-ye-xian-zai-ke-yi-jie-zhu-qiang-hua-xue-xi-wei-tiao

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年5月10日 下午1:00
Next 2025年5月10日 下午5:00

相关推荐

发表回复

Please Login to Comment