d1推理框架：将AI响应时间从30秒缩短至3秒‌

王浩然 • 2025年4月29日下午7:00 • AI前沿 • 336 views

研究人员近日推出了d1，这是一个使用强化学习（RL）的新型框架，旨在显著提升基于扩散的大型语言模型（dLLMs）的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上，但dLLMs却具备独特的优势。为它们赋予强大的推理能力，可能会为企业解锁新的效率和应用。

‌一、理解扩散语言模型‌

大多数大型语言模型（LLMs），如GPT-4和Llama，都是自回归（AR）的。它们以顺序方式生成文本，仅基于之前出现的标记（token）来预测下一个标记。扩散语言模型（dLLMs）的工作原理则有所不同。

扩散模型最初是在图像生成模型中使用，例如DALL-E 2、Midjourney和Stable Diffusion。其核心思想涉及逐步向图像添加噪声，直至其成为纯静态，然后训练一个模型来精心反转此过程，从噪声开始并逐步将其精炼成连贯的图片。将这一概念直接应用于语言颇具挑战性，因为文本由离散单位（即标记）构成，与图像中连续的像素值不同。

研究人员通过开发掩码扩散语言模型克服了这一难题。这些模型不是添加连续噪声，而是通过随机掩蔽序列中的标记并训练模型来预测原始标记来工作。这导致了与自回归模型不同的生成过程。dLLMs从输入文本的严重掩蔽版本开始，并在多个步骤中逐渐“解除掩蔽”或细化它，直到出现最终、连贯的输出。这种“从粗到细”的生成使dLLMs能够在每个步骤中同时考虑整个上下文，而不是仅关注下一个标记。这一差异为dLLMs带来了潜在优势，例如生成过程中的改进并行处理，这可能导致更快的推理，特别是对于较长序列。此类模型包括开源的LLaDA和来自Inception Labs的闭源Mercury模型。

‌二、dLLMs的强化学习‌

尽管具有优势，但dLLMs在推理能力方面仍落后于自回归模型。强化学习（RL）对于教授LLMs复杂的推理技能变得至关重要。通过基于奖励信号（即，为正确的推理步骤或最终答案奖励模型）来训练模型，RL已推动LLMs更好地遵循指令和进行推理。诸如Proximal Policy Optimization（PPO）和更近期的Group Relative Policy Optimization（GRPO）等算法对于将RL有效地应用于自回归模型至关重要。这些方法通常依赖于计算在模型当前策略下生成文本序列的概率（或对数概率）来指导学习过程。对于自回归模型而言，由于它们的顺序、逐个标记的生成方式，这一计算相对简单直接。然而，对于具有迭代、非顺序生成过程的dLLMs来说，直接计算此序列概率既困难又计算量大。这是将既定RL技术应用于提高dLLM推理能力的一大障碍。

‌三、d1框架‌

d1框架通过专为掩码dLLMs设计的两阶段后训练过程来解决这一挑战：

‌监督微调（SFT）‌：首先，对预训练的dLLM在包含高质量推理示例的数据集上进行微调。研究论文使用了“s1k”数据集，该数据集包含解决问题的详细逐步解决方案，包括在出现错误时进行自我纠正和回溯的示例。此阶段旨在将基本推理模式和行为灌输到模型中。
‌使用diffu-GRPO的强化学习‌：在SFT之后，模型使用称为diffu-GRPO的新算法进行RL训练。该算法将GRPO的原理应用于dLLMs。它引入了一种估计对数概率的有效方法，同时避免了先前所需的昂贵计算。它还采用了称为“随机提示掩蔽”的巧妙技术。在RL训练期间，输入提示的每个更新步骤中都会随机掩蔽部分，这起到正则化和数据增强的作用，使模型能够从每批数据中更有效地学习。

‌四、d1在现实世界中的应用‌

研究人员将d1框架应用于开源dLLM LLaDA-8B-Instruct。他们使用s1k推理数据集对其进行了SFT阶段的微调。然后，他们比较了几个版本：基础LLaDA模型、仅具有SFT的LLaDA、仅具有diffu-GRPO的LLaDA和完整的d1-LLaDA（先进行SFT，然后进行diffu-GRPO）。这些模型在数学推理基准测试（GSM8K、MATH500）和逻辑推理任务（4×4数独、Countdown数字游戏）上进行了测试。结果显示，完整的d1-LLaDA在所有任务中始终表现出最佳性能。令人印象深刻的是，仅应用diffu-GRPO也显著优于仅应用SFT和基础模型。

‌五、d1的潜力‌

“像d1这样的推理增强型dLLMs可以为企业工作负载提供多种不同类型的代理，”加州大学洛杉矶分校计算机科学助理教授兼d1论文合著者阿迪蒂亚·格罗弗（Aditya Grover）表示。“这些包括用于即时软件工程的编码代理，以及用于实时战略和咨询的超快速深度研究。使用d1代理，日常数字工作流程可以同时实现自动化和加速。”

研究人员还观察到了定性改进，尤其是在生成更长响应时。模型开始表现出“顿悟时刻”，展示出从s1k数据集中的示例中学到的自我纠正和回溯行为。这表明模型不仅是在记忆答案，而是在学习更稳健的解决问题策略。

尽管自回归模型在采用方面拥有先发优势，但格罗弗认为，dLLMs的进步可以改变竞争格局。对于企业而言，决定选择这两者之一的一种方法是看其应用是否目前受到延迟或成本限制的阻碍。格罗弗表示，像d1这样的推理增强型扩散dLLMs可以通过以下两种互补方式之一提供帮助：如果企业目前无法迁移到基于自回归LLM的推理模型，那么推理增强型dLLMs就提供了一个即插即用的替代方案，使企业能够以与非推理自回归dLLM相同的速度体验推理模型的卓越质量。如果企业应用允许更大的延迟和成本预算，d1可以在相同预算下生成更长的推理轨迹，并进一步提高质量。“换句话说，d1风格的dLLMs可以在质量、速度和成本轴上优于自回归LLMs，”格罗弗说。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/d1-tui-li-kuang-jia-jiang-ai-xiang-ying-shi-jian-cong-30

d1推理框架 diffu-GRPO 企业应用强化学习扩散语言模型数学推理监督微调逻辑推理

Like (0)

王浩然作者

0 0

‌AI谄媚现象引发担忧：前OpenAI CEO及资深用户敲响警钟‌

Previous 2025年4月29日

Writer发布Palmyra X5，以75%的更低成本实现接近GPT-4的性能

Next 2025年4月29日

AI前沿

从情报界到企业AI安全：Geordie AI首席AI官揭秘自主AI治理之道

当生成式AI的热潮逐渐褪去，企业开始将目光投向更具实用性的自主AI（Agentic AI）技术。这类能够自主执行任务、跨系统持续运作的智能体，正在成为企业提升运营效率的新引擎，但随…

王浩然
2026年3月5日
000
AI前沿

Adobe 为 AWS 带来生成式 AI 和实时个性化：以下是下一步计划

Adobe正在积极进军亚马逊的云计算领域，将其体验平台扩展到AWS，这一合作标志着企业处理人工智能和客户数据方式的重大转变。 Adobe 领导层表示，该交易于上周在亚马逊网络服务r…

王浩然
2024年12月10日
000
AI前沿

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

在OpenAI的“12 Days of Shipmas”活动的第 10 天，该公司决定采取一些复古的方式，推出一个电话号码，供人们拨打并与 ChatGPT 交谈。美国用户可以在任…

王浩然
2024年12月20日
000
AI前沿

确保医疗保健中自主AI的弹性安全‌

在当今数字化时代，数据泄露的战争愈演愈烈，对全球医疗保健组织构成了日益严峻的挑战。据当前统计，全球数据泄露的平均成本已达到445万美元，而对于在美国境内为患者提供服务的医疗保健提供…

王浩然
2025年5月25日
000
AI前沿

生成式 AI 编码初创公司 Magic 从 Eric Schmidt、Atlassian 等公司获得 3.2 亿美元投资

Magic是一家人工智能初创公司，致力于创建模型来生成代码并自动执行一系列软件开发任务，该公司已从包括前谷歌首席执行官埃里克施密特 (Eric Schmidt) 在内的投资者那…

王浩然
2024年8月30日
000
AI前沿

Han Heloir，MongoDB：可扩展数据库在人工智能应用中的作用

随着数据管理变得越来越复杂，现代应用程序扩展了传统方法的功能，人工智能正在彻底改变应用程序的扩展。除了将操作员从需要仔细监督和额外资源的过时、低效方法中解放出来之外，AI 还可以…

点点
2024年10月1日
000
AI前沿

Discord虚拟奖励系统“Orbs”正式推出‌

在经历了数周的测试与优化后，知名社交平台Discord宣布其创新的虚拟奖励系统“Orbs”正式面向所有用户开放。这一系统旨在通过引入互动广告任务，激励用户积极参与平台活动，同时享受…

王浩然
2025年7月16日
000
AI前沿

以下是 2024 年迄今为止苹果、谷歌、微软等公司最热门的产品发布

如果您喜欢小玩意和小发明，今年的产品会议将非常适合您。我们仔细研究了今年迄今为止各大科技公司和贸易展会发布的众多产品公告，并列出了我们认为最重要的或最有趣的产品。到目前为止，这份…

王浩然
2024年9月21日
000
AI前沿

前谷歌、苹果工程师无条件开源 Oumi AI 平台，或将助力打造下一个 DeepSeek

如果之前还不清楚，那么现在肯定非常清楚：开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。但开源 AI 究竟是什么？对于 Meta 及其L…

王浩然
2025年2月4日
000
AI前沿

重塑AI代理互操作性的新框架‌

随着AI代理的日益普及，如何有效地管理和协调这些智能体之间的交互成为了一个亟待解决的问题。在这个领域，一个新的互操作性协议——LOKA（Layered Orchestration …

王浩然
2025年4月29日
000
AI前沿

代理型AI如何塑造软件交付的未来

一、引言随着技术的不断进步，软件交付领域正经历着前所未有的变革。其中，代理型AI（Agentic AI）作为新兴技术，正逐步成为推动这一变革的关键力量。本文将深入探讨代理型AI如…

王浩然
2025年3月15日
000
AI前沿

为 GPU 成本波动的动荡时代做好准备

图形芯片（GPU）是人工智能革命的引擎，为聊天机器人和其他人工智能应用所依赖的大型语言模型（LLM）提供动力。由于这些芯片的价格在未来几年可能会大幅波动，许多企业将需要首次学习如何…

王浩然
2024年9月9日
000
AI前沿

OpenAI 筹集数十亿美元资金，并承诺与“美国及其盟国政府”合作

OpenAI 周三在网上发布的一份声明称，该公司已筹集 66 亿美元，估值达到 1570 亿美元。据《华尔街日报》报道，此轮融资由 Thrive Capital 领投，投资额为 1…

王浩然
2024年10月3日
000
AI前沿

革命性的人工智能模型无需预定义知识即可预测物理系统

Archetype AI研究人员最近的一项研究揭示了一种能够泛化各种物理信号和现象的开创性 AI 模型，标志着人工智能领域的一次重大飞跃。这篇题为“物理信号的现象学 AI 基础模型…

点点
2024年10月18日
000
AI前沿

大语言模型如何迫使我们重新定义智能‌

“如果它看起来像鸭子，游泳像鸭子，叫声像鸭子，那么它很可能就是鸭子。”这句源自印第安纳诗人詹姆斯·惠特科姆·莱利的朴素推理，数十年来深刻影响着我们对人工智能…

王浩然
2025年9月8日
000
AI前沿

中国优必选发布全球首款自主更换电池人形机器人Walker S2

中国机器人制造商优必选(UBTech)近日发布了一项突破性创新——全球首款能够自主更换电池的人形机器人Walker S2。这款高5英尺3英寸(约160厘米)、重95磅(约43公斤)…

王浩然
2025年7月25日
000
AI前沿

Nvidia的Cosmos-Transfer1：让机器人训练变得异常真实，彻底改变行业格局

在AI与机器人技术的融合日益紧密的今天，Nvidia推出了一项革命性的技术——Cosmos-Transfer1，这款创新的AI模型为开发者提供了一个前所未有的平台，用于创建高度逼真…

王浩然
2025年3月22日
000
AI前沿

CALM：重构 AI 模型设计，破解企业 AI 高成本困局

企业在部署生成式 AI 模型时正面临 “能力与成本失衡” 的核心困境 —— 尽管大语言模型（LLM）等 AI 技术能显著提升业务效率，但模型训练与推理过程中巨大的算力消耗，导致企业…

王浩然
2025年11月10日
000
AI前沿

Web3技术助力增强AI的信任与信心‌

在人工智能（AI）领域，信任始终是一个核心议题。随着技术的不断进步，如何确保AI系统的可靠性、透明度和安全性，成为了业界和公众关注的焦点。近日，Web3技术的兴起为AI领域带来了新…

王浩然
2025年4月9日
000
AI前沿

OpenAI推出Codex Security：AI驱动的代码漏洞检测工具，已在开源项目中发现14个CVE漏洞

在AI与软件开发深度融合的当下，代码安全问题正变得愈发关键。3月6日，OpenAI正式推出Codex Security——一款由AI驱动的应用安全代理工具，为代码漏洞检测领域带来了…

王浩然
2026年3月8日
000

发表回复

Please Login to Comment

d1推理框架：将AI响应时间从30秒缩短至3秒‌

相关推荐

发表回复