
研究人员近日推出了d1,这是一个使用强化学习(RL)的新型框架,旨在显著提升基于扩散的大型语言模型(dLLMs)的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上,但dLLMs却具备独特的优势。为它们赋予强大的推理能力,可能会为企业解锁新的效率和应用。
一、理解扩散语言模型
大多数大型语言模型(LLMs),如GPT-4和Llama,都是自回归(AR)的。它们以顺序方式生成文本,仅基于之前出现的标记(token)来预测下一个标记。扩散语言模型(dLLMs)的工作原理则有所不同。
扩散模型最初是在图像生成模型中使用,例如DALL-E 2、Midjourney和Stable Diffusion。其核心思想涉及逐步向图像添加噪声,直至其成为纯静态,然后训练一个模型来精心反转此过程,从噪声开始并逐步将其精炼成连贯的图片。将这一概念直接应用于语言颇具挑战性,因为文本由离散单位(即标记)构成,与图像中连续的像素值不同。
研究人员通过开发掩码扩散语言模型克服了这一难题。这些模型不是添加连续噪声,而是通过随机掩蔽序列中的标记并训练模型来预测原始标记来工作。这导致了与自回归模型不同的生成过程。dLLMs从输入文本的严重掩蔽版本开始,并在多个步骤中逐渐“解除掩蔽”或细化它,直到出现最终、连贯的输出。这种“从粗到细”的生成使dLLMs能够在每个步骤中同时考虑整个上下文,而不是仅关注下一个标记。这一差异为dLLMs带来了潜在优势,例如生成过程中的改进并行处理,这可能导致更快的推理,特别是对于较长序列。此类模型包括开源的LLaDA和来自Inception Labs的闭源Mercury模型。
二、dLLMs的强化学习
尽管具有优势,但dLLMs在推理能力方面仍落后于自回归模型。强化学习(RL)对于教授LLMs复杂的推理技能变得至关重要。通过基于奖励信号(即,为正确的推理步骤或最终答案奖励模型)来训练模型,RL已推动LLMs更好地遵循指令和进行推理。诸如Proximal Policy Optimization(PPO)和更近期的Group Relative Policy Optimization(GRPO)等算法对于将RL有效地应用于自回归模型至关重要。这些方法通常依赖于计算在模型当前策略下生成文本序列的概率(或对数概率)来指导学习过程。对于自回归模型而言,由于它们的顺序、逐个标记的生成方式,这一计算相对简单直接。然而,对于具有迭代、非顺序生成过程的dLLMs来说,直接计算此序列概率既困难又计算量大。这是将既定RL技术应用于提高dLLM推理能力的一大障碍。
三、d1框架
d1框架通过专为掩码dLLMs设计的两阶段后训练过程来解决这一挑战:
- 监督微调(SFT):首先,对预训练的dLLM在包含高质量推理示例的数据集上进行微调。研究论文使用了“s1k”数据集,该数据集包含解决问题的详细逐步解决方案,包括在出现错误时进行自我纠正和回溯的示例。此阶段旨在将基本推理模式和行为灌输到模型中。
- 使用diffu-GRPO的强化学习:在SFT之后,模型使用称为diffu-GRPO的新算法进行RL训练。该算法将GRPO的原理应用于dLLMs。它引入了一种估计对数概率的有效方法,同时避免了先前所需的昂贵计算。它还采用了称为“随机提示掩蔽”的巧妙技术。在RL训练期间,输入提示的每个更新步骤中都会随机掩蔽部分,这起到正则化和数据增强的作用,使模型能够从每批数据中更有效地学习。
四、d1在现实世界中的应用
研究人员将d1框架应用于开源dLLM LLaDA-8B-Instruct。他们使用s1k推理数据集对其进行了SFT阶段的微调。然后,他们比较了几个版本:基础LLaDA模型、仅具有SFT的LLaDA、仅具有diffu-GRPO的LLaDA和完整的d1-LLaDA(先进行SFT,然后进行diffu-GRPO)。这些模型在数学推理基准测试(GSM8K、MATH500)和逻辑推理任务(4×4数独、Countdown数字游戏)上进行了测试。结果显示,完整的d1-LLaDA在所有任务中始终表现出最佳性能。令人印象深刻的是,仅应用diffu-GRPO也显著优于仅应用SFT和基础模型。
五、d1的潜力
“像d1这样的推理增强型dLLMs可以为企业工作负载提供多种不同类型的代理,”加州大学洛杉矶分校计算机科学助理教授兼d1论文合著者阿迪蒂亚·格罗弗(Aditya Grover)表示。“这些包括用于即时软件工程的编码代理,以及用于实时战略和咨询的超快速深度研究。使用d1代理,日常数字工作流程可以同时实现自动化和加速。”
研究人员还观察到了定性改进,尤其是在生成更长响应时。模型开始表现出“顿悟时刻”,展示出从s1k数据集中的示例中学到的自我纠正和回溯行为。这表明模型不仅是在记忆答案,而是在学习更稳健的解决问题策略。
尽管自回归模型在采用方面拥有先发优势,但格罗弗认为,dLLMs的进步可以改变竞争格局。对于企业而言,决定选择这两者之一的一种方法是看其应用是否目前受到延迟或成本限制的阻碍。格罗弗表示,像d1这样的推理增强型扩散dLLMs可以通过以下两种互补方式之一提供帮助:如果企业目前无法迁移到基于自回归LLM的推理模型,那么推理增强型dLLMs就提供了一个即插即用的替代方案,使企业能够以与非推理自回归dLLM相同的速度体验推理模型的卓越质量。如果企业应用允许更大的延迟和成本预算,d1可以在相同预算下生成更长的推理轨迹,并进一步提高质量。“换句话说,d1风格的dLLMs可以在质量、速度和成本轴上优于自回归LLMs,”格罗弗说。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/d1-tui-li-kuang-jia-jiang-ai-xiang-ying-shi-jian-cong-30