diffu-GRPO

AI前沿

d1推理框架：将AI响应时间从30秒缩短至3秒‌

研究人员近日推出了d1，这是一个使用强化学习（RL）的新型框架，旨在显著提升基于扩散的大型语言模型（dLLMs）的推理能力。尽管目前大部分注意力都集中在诸如GPT等自回归模型上，但…

王浩然
2025年4月29日
000