谷歌 DeepMind 展示 GenRM 技术：微调 LLMs 作为奖励模型，提升生成式 AI 推理能力

IT之家 9 月 3 日消息，谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 …