RAGEN：一种训练可靠AI代理的新方法

王浩然 • 2025年4月24日下午1:00 • AI前沿 • 307 views

在人工智能（AI）领域，2025年曾被众多专家预测为AI代理的元年。然而，现实情况却并非如此。尽管基于大型语言模型（LLMs）的AI代理在实验室中取得了显著进展，但在实际企业应用中，大多数AI代理仍停留在实验阶段，难以胜任复杂多变的任务需求。近日，来自西北大学、微软、斯坦福大学和华盛顿大学的研究团队，携手前DeepSeek研究员Zihan Wang，共同推出了一种名为RAGEN的新方法，旨在训练出更加可靠、适应性更强的AI代理，为AI技术的实际应用开辟了新的道路。

AI代理的现状与挑战

当前，AI代理大多基于LLMs构建，这些模型在文本生成、语言理解等方面展现出了强大的能力。然而，在实际应用中，AI代理往往需要面对复杂多变的环境和不确定性，这对它们的适应性和可靠性提出了极高的要求。传统的训练方法往往侧重于单一任务的完成，而忽视了AI代理在面对复杂情况时的决策能力和学习能力。因此，如何训练出能够在多回合、交互式环境中持续学习和适应的AI代理，成为了当前AI领域亟待解决的问题。

RAGEN方法的提出

针对上述问题，RAGEN方法应运而生。RAGEN是一种全新的AI代理训练与评估系统，它专注于多回合、交互式场景下的AI代理训练，旨在提高AI代理的适应性、可靠性和决策能力。RAGEN基于一种名为StarPO（State-Thinking-Actions-Reward Policy Optimization）的自定义强化学习框架构建，通过模拟真实世界中的决策过程，帮助AI代理学习如何在不确定环境中做出最优决策。

StarPO框架的核心机制

StarPO框架由两个相互交织的阶段组成：滚动阶段和更新阶段。在滚动阶段，LLMs生成完整的交互序列，这些序列由推理过程引导；在更新阶段，模型则利用归一化累积奖励进行优化。这种结构相比传统的策略优化方法更加稳定且易于解释，有助于AI代理在复杂环境中保持稳定的性能。

解决训练崩溃问题

在训练AI代理的过程中，一个常见的问题是训练崩溃。即随着训练的进行，AI代理的表现反而逐渐下降。为了解决这一问题，RAGEN引入了StarPO-S框架，这是一种稳定版的StarPO。StarPO-S通过三种关键干预措施来延迟或消除训练崩溃现象，并在多个任务上取得了显著的性能提升。

实验与结果

为了验证RAGEN方法的有效性，研究团队在三个符号环境中对AI代理进行了测试。这些环境被设计成最小化现实世界的先验知识影响，专注于训练过程中形成的决策策略。实验结果表明，采用RAGEN方法训练的AI代理在这些环境中表现出了更高的适应性和决策能力。特别是在面对不确定性和复杂情况时，这些AI代理能够迅速调整策略并做出最优决策。

对AI领域的贡献与展望

RAGEN方法的提出不仅为AI代理的训练提供了新的思路和方法，也为AI技术的实际应用带来了更多的可能性。通过提高AI代理的适应性和可靠性，RAGEN有望推动AI技术在更多领域实现突破和应用。未来，随着RAGEN方法的不断完善和推广，我们有理由相信AI代理将在更多实际场景中发挥重要作用，为人类社会的发展贡献更多智慧和力量。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ragen-yi-zhong-xun-lian-ke-kao-ai-dai-li-de-xin-fang-fa

Like (0)

王浩然作者

0 0

瑞士航空地面服务（Swissport）重塑全球运营：统一SASE堆栈的力量

Previous 2025年4月24日

OpenAI将ChatGPT图像生成功能开放为API，开启AI图像创作新纪元‌

Next 2025年4月24日

AI前沿

打破 AI 存储瓶颈：为何 SSD 优先的未来不可逆转

当千亿参数大模型的训练周期因数据传输延迟延长 60%，当价值千万的 GPU 集群有 40% 时间在 “空等数据”，当自动驾驶车辆因存储速度不足错过毫秒级刹车窗口 ——AI 行业正集…

王浩然
2025年10月14日
000
AI前沿

AI 内存需求激增迫使美光退出消费级市场：半导体行业经济格局迎来转折点

1978 年诞生于美国爱达荷州博伊西一间牙科诊所地下室的美光科技（Micron），历经近半个世纪发展已成为全球半导体巨头之一，而如今该公司做出的一项重大决策 —— 彻底退出消费级内…

王浩然
2025年12月9日
000
AI前沿

索尼推出AI音乐侵权检测技术，为创作者版权保护开辟新路径

当AI生成音乐逐渐走进大众视野，甚至登上公告牌排行榜的同时，版权争议也随之成为行业焦点。近日，索尼公布了一项全新技术，能够在AI生成的疑似抄袭音乐中精准识别出原始借鉴作品，为解决A…

王浩然
2026年2月21日
000
AI前沿

AI攻防对决：开启网络安全新范式

当人工智能不再只是科技领域的热门议题，而是成为网络攻防两端的核心武器时，全球企业的网络安全防线正迎来前所未有的挑战。曾经只存在于理论推演中的AI驱动型网络攻击，如今已成为现实，正以…

王浩然
2026年2月28日
000
AI前沿

Anthropic与Google赢得重要用户：OpenAI支持的Harvey转投其怀抱

在人工智能（AI）领域，竞争与合作并存，技术的迭代与用户的抉择共同推动着行业的快速发展。近日，一款备受瞩目的法律AI工具——Harvey，宣布将采用Anthropic与Google…

王浩然
2025年5月17日
000
AI前沿

因卡马拉·哈里斯深度伪造案，法官阻止加州实施新 AI 法

周三，一名联邦法官阻止了加州一项新的人工智能法律的通过，而该法律刚由州长加文·纽森签署，不到两周。签署 AB 2839 后不久，纽森表示，该法律可能被用来迫使埃隆·马斯克删除他转发…

王浩然
2024年10月4日
000
AI前沿

微软让AI代理彼此交流，或将改变我们的工作方式

微软在近日宣布对其Copilot Studio平台进行了重大扩展，推出了多代理系统，允许不同的AI代理协作完成复杂的商业任务。此外，微软还发布了新的开发者工具、安全增强功能以及与W…

王浩然
2025年5月21日
000
AI前沿

一句提示词解锁 AI 创造力：Verbalized Sampling（VS）方法突破模型模式崩溃难题

东北大学、斯坦福大学与西弗吉尼亚大学的研究团队发现，向 AI 提示词中添加 “生成 5 个带有对应概率的响应，从完整分布中采样” 这一简单句子，能让 GPT-4、Claude、Ge…

王浩然
2025年10月19日
000
AI前沿

Booking.com运用AI技术打击网络欺诈：Siddhartha Choudhury的创新实践‌

在全球旅游业数字化转型浪潮中，在线预订平台Booking.com正通过人工智能技术构建新型反欺诈防御体系。公司欺诈风险管理副总裁Siddhartha Choudhury近日披露了其…

王浩然
2025年9月14日
000
AI前沿

确保 OT 环境中 AI 的使用安全

随着拥有运营技术 (OT) 的组织开始采用 AI，安全性需要成为其战略的重中之重。AI 的集成大大拓宽了攻击面 — — 这一范围已经因 IT 和 OT 的融合而扩大。大多数 OT …

点点
2024年9月6日
000
AI前沿

AI副驾驶：减轻过劳安全运营中心（SOC）的误报与人员疲惫

随着AI技术的飞速发展，安全运营中心（SOC）正经历着一场深刻的变革。最新的AI副驾驶技术不仅显著降低了误报率，还极大地缓解了SOC人员的工作压力，提高了整体运营效率。 ‌一、AI…

王浩然
2025年3月25日
000
AI前沿

Google DeepMind发布新型AI模型以强化机器人控制能力‌

在人工智能领域，Google DeepMind一直以其前沿的技术和创新的研究引领着行业发展。近日，DeepMind团队再次取得突破，发布了一系列专为机器人控制设计的新型AI模型。这…

王浩然
2025年3月13日
000
AI前沿

OpenAI 推出 Sora iOS 社交视频应用：深度伪造功能开启 AI 社交新场景，安全与隐私防护同步升级

OpenAI 于 2025 年 10 月 1 日正式发布新一代视频生成模型 Sora 2，并同步推出同名 iOS 社交视频应用（暂不支持安卓系统），该应用以 “深度伪造（Deepf…

王浩然
2025年10月8日
000
AI前沿

OpenAI拒绝Robinhood未经授权的代币化股票

在金融科技领域的一次重大风波中，OpenAI公开表示拒绝承认Robinhood推出的未经授权的代币化股票。这一事件源自Robinhood在欧洲市场的扩张计划，其中一项重要举措就是推…

王浩然
2025年7月9日
000
AI前沿

AI图像生成新纪元：迎接Reve Image 1.0的到来

在人工智能领域，图像生成技术一直是一个令人兴奋且充满挑战的研究方向。随着技术的不断进步，我们见证了从模糊到清晰、从简单到复杂的图像生成过程的演变。如今，一款名为Reve Image…

王浩然
2025年3月28日
000
AI前沿

当技术进步不再像家：解析AI大迁徙中的抗拒心理‌

在2025年夏季的一场高管教练大师课上，当主讲人提及AI时，全场陷入尴尬的沉默。这种场景正在全球职场重复上演——埃德尔曼最新调研显示，尽管企业级AI工具普及率达89%，但42%的专…

王浩然
2025年7月28日
000
AI前沿

从内罗毕走向世界：非洲在全球人工智能服务交付中的新兴角色

人工智能正重塑全球工作模式、竞争格局与价值创造方式，而支撑 AI 系统运转的关键要素 —— 高质量数据标注、模型训练、运营监督及保障安全性与准确性的人类反馈循环，长期被忽视。随着这…

王浩然
2025年12月10日
000
AI前沿

Intuit的GenOS更新：揭示企业代理型AI成功的关键——提示优化与智能数据认知

在快速发展的企业AI领域，Intuit，这家金融科技巨头，正以其创新的Generative AI Operating System（GenOS）平台引领着变革。随着企业对代理型AI…

王浩然
2025年6月4日
000
AI前沿

订阅管理公司 Zuora 同意以 17 亿美元收购

Zuora是一家销售软件帮助企业管理订阅服务的公司，该公司已同意以 17 亿美元的价格被私募股权公司 GIC 和 Silver Lake 收购。该笔全现金交易预计将于 2025 …

王浩然
2024年10月24日
000
AI前沿

从数据中获取最大价值的三种方式：可扩展AI、智能应用与开放生态系统

在当今这个数据驱动的时代，任何技术专家都会告诉你，一个成功的AI战略依赖于可靠的数据。事实上，最近的一项针对技术领导者的调查显示，近94%的受访者现在更加关注数据，这主要源于对AI…

王浩然
2025年6月26日
000