
在人工智能(AI)领域,2025年曾被众多专家预测为AI代理的元年。然而,现实情况却并非如此。尽管基于大型语言模型(LLMs)的AI代理在实验室中取得了显著进展,但在实际企业应用中,大多数AI代理仍停留在实验阶段,难以胜任复杂多变的任务需求。近日,来自西北大学、微软、斯坦福大学和华盛顿大学的研究团队,携手前DeepSeek研究员Zihan Wang,共同推出了一种名为RAGEN的新方法,旨在训练出更加可靠、适应性更强的AI代理,为AI技术的实际应用开辟了新的道路。
AI代理的现状与挑战
当前,AI代理大多基于LLMs构建,这些模型在文本生成、语言理解等方面展现出了强大的能力。然而,在实际应用中,AI代理往往需要面对复杂多变的环境和不确定性,这对它们的适应性和可靠性提出了极高的要求。传统的训练方法往往侧重于单一任务的完成,而忽视了AI代理在面对复杂情况时的决策能力和学习能力。因此,如何训练出能够在多回合、交互式环境中持续学习和适应的AI代理,成为了当前AI领域亟待解决的问题。
RAGEN方法的提出
针对上述问题,RAGEN方法应运而生。RAGEN是一种全新的AI代理训练与评估系统,它专注于多回合、交互式场景下的AI代理训练,旨在提高AI代理的适应性、可靠性和决策能力。RAGEN基于一种名为StarPO(State-Thinking-Actions-Reward Policy Optimization)的自定义强化学习框架构建,通过模拟真实世界中的决策过程,帮助AI代理学习如何在不确定环境中做出最优决策。
StarPO框架的核心机制
StarPO框架由两个相互交织的阶段组成:滚动阶段和更新阶段。在滚动阶段,LLMs生成完整的交互序列,这些序列由推理过程引导;在更新阶段,模型则利用归一化累积奖励进行优化。这种结构相比传统的策略优化方法更加稳定且易于解释,有助于AI代理在复杂环境中保持稳定的性能。
解决训练崩溃问题
在训练AI代理的过程中,一个常见的问题是训练崩溃。即随着训练的进行,AI代理的表现反而逐渐下降。为了解决这一问题,RAGEN引入了StarPO-S框架,这是一种稳定版的StarPO。StarPO-S通过三种关键干预措施来延迟或消除训练崩溃现象,并在多个任务上取得了显著的性能提升。
实验与结果
为了验证RAGEN方法的有效性,研究团队在三个符号环境中对AI代理进行了测试。这些环境被设计成最小化现实世界的先验知识影响,专注于训练过程中形成的决策策略。实验结果表明,采用RAGEN方法训练的AI代理在这些环境中表现出了更高的适应性和决策能力。特别是在面对不确定性和复杂情况时,这些AI代理能够迅速调整策略并做出最优决策。
对AI领域的贡献与展望
RAGEN方法的提出不仅为AI代理的训练提供了新的思路和方法,也为AI技术的实际应用带来了更多的可能性。通过提高AI代理的适应性和可靠性,RAGEN有望推动AI技术在更多领域实现突破和应用。未来,随着RAGEN方法的不断完善和推广,我们有理由相信AI代理将在更多实际场景中发挥重要作用,为人类社会的发展贡献更多智慧和力量。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ragen-yi-zhong-xun-lian-ke-kao-ai-dai-li-de-xin-fang-fa