阿里巴巴 AgentEvolver 框架:通过自动生成合成任务,使模型工具使用性能提升约 30%

阿里巴巴 AgentEvolver 框架:通过自动生成合成任务,使模型工具使用性能提升约 30%

阿里巴巴通义实验室(Tongyi Lab)的研究人员成功研发出一款用于自进化智能体的全新框架 ——AgentEvolver。该框架借助大语言模型的知识储备与推理能力,让智能体能够通过探索应用环境自主生成训练数据,彻底改变了传统智能体训练依赖人工收集特定任务数据集的模式,有效解决了该过程中成本高昂、耗费大量人力的核心痛点。实验数据显示,与传统基于强化学习的框架相比,AgentEvolver 在环境探索效率、数据利用效率以及对应用环境的适应速度上均表现更优。对于企业而言,这一突破具有里程碑式的意义:它大幅降低了为定制化应用训练智能体的门槛,让更多组织能够便捷地获取功能强大、贴合自身需求的定制化 AI 助手,推动 AI 智能体在各行业的规模化应用。

在当前 AI 智能体训练领域,强化学习已成为主流范式,其核心是让大语言模型能够与数字环境交互并从反馈中学习,进而具备智能体的行动能力。但这一方法在实际应用中面临两大根本性挑战。首先是训练数据集的获取难题,收集所需的训练数据往往成本极高,需要投入大量人力来创建任务示例,尤其是在全新或专有软件环境中,根本不存在现成的数据集可供使用,企业若要开发针对性智能体,需从零开始构建数据集,耗时耗力。其次,大语言模型常用的强化学习技术,要求模型通过海量的试错尝试才能有效学习,这一过程不仅计算成本高昂,而且效率低下。这些问题导致通过强化学习训练高性能大语言模型智能体的过程既繁琐又昂贵,严重限制了其在企业定制化场景中的部署与应用,许多企业因无法承担高昂的训练成本,不得不放弃智能体技术的落地。

AgentEvolver 框架的核心创新在于赋予模型更强的自主学习能力,研究人员将其定义为 “自进化智能体系统”,旨在 “通过与环境的交互实现自主、高效的能力进化”。它充分发挥大语言模型的推理能力,构建起自我训练循环,让智能体无需预设任务或奖励函数,仅通过与目标环境的直接交互就能持续提升自身能力。研究人员在论文中表示:“我们设想构建这样一个智能体系统 —— 大语言模型能够主动引导探索过程、生成任务并优化性能。” 这一理念打破了传统训练模式中 “人类设计流程主导” 的局限,将训练主动权交还给模型本身,为智能体的规模化、低成本发展开辟了新路径。

AgentEvolver 的自进化过程由三大核心机制协同驱动,共同构成了完整的自主学习闭环。第一个机制是自我提问(self-questioning),智能体通过探索所处环境,发现自身功能的边界并识别有用的状态,这就像新用户在应用中随意点击以了解其功能范围一样。基于这种探索,智能体能够生成一系列符合用户普遍偏好的多样化任务,这不仅减少了对人工构建数据集的依赖,还实现了智能体与任务的协同进化 —— 随着智能体能力的提升,它能生成更复杂的任务,而复杂任务的训练又会进一步增强其能力,逐步让智能体具备处理高难度挑战的实力。阿里巴巴研究人员、该论文的合著者翟云鹏(Yunpeng Zhai)在接受采访时表示,自我提问机制有效地将模型从 “数据消费者” 转变为 “数据生产者”,极大地缩短了在专有环境中部署智能体的时间并降低了相关成本,让企业无需再为数据收集难题发愁。

第二个机制是自我导航(self-navigating),该机制通过复用和归纳过往经验来提高探索效率。AgentEvolver 会从成功和失败的尝试中提取关键洞察,并将其应用于指导未来的行动。例如,当智能体尝试使用某个应用中不存在的 API 函数时,它会将这一经历记录下来,在后续行动中,它会先验证函数是否存在,再决定是否尝试使用,避免重复相同的错误。这种对经验的高效利用,让智能体的探索过程不再是盲目试错,而是有策略、有方向的优化,显著提升了学习效率,减少了不必要的计算资源消耗,使训练过程更加高效经济。

第三个机制是自我归因(self-attributing),它通过提供更详细的反馈来增强学习效果。在传统强化学习中,通常只给智能体提供最终的成功或失败信号,这种反馈模式往往导致奖励稀疏,智能体难以明确自身行动的具体优劣。而自我归因机制则利用大语言模型,对多步骤任务中每个独立行动的贡献进行评估,追溯判断每一步行动对最终结果产生了积极还是消极影响,为智能体提供精细化的反馈,从而加速其学习进程。这一机制对于受监管行业尤为重要,在这些行业中,智能体解决问题的过程与结果同等重要。翟云鹏解释道:“这就像不仅奖励学生的最终答案,还会评估他们推理过程中每一步的清晰度和正确性。” 这种方式提高了智能体行动的透明度,促使其采用更稳健、可审计的问题解决模式,满足了监管行业对过程合规性的严格要求。

研究人员强调:“通过将训练主动权从人工设计的流程转移到大语言模型引导的自我提升,AgentEvolver 建立了一种新范式,为构建可扩展、成本效益高且持续改进的智能系统铺平了道路。” 该团队还开发了一个实用的端到端训练框架,将这三大机制有机整合,其中的核心组件是上下文管理器(Context Manager),它负责控制智能体的记忆和交互历史。目前的基准测试通常只涉及有限数量的工具,但实际企业环境中可能包含数千个 API,这对智能体的工具处理能力提出了巨大挑战。翟云鹏承认这是该领域面临的核心问题,但他指出 AgentEvolver 具有良好的可扩展性:“在极其庞大的行动空间中进行检索总会带来计算挑战,但 AgentEvolver 的架构为企业场景中实现可扩展的工具推理提供了清晰的路径。”

为了验证框架的有效性,研究人员在 AppWorld 和 BFCL v3 两个基准测试中对其进行了测试,这两个基准均要求智能体使用外部工具执行冗长的多步骤任务。研究团队采用了阿里巴巴 Qwen2.5 系列模型(分别为 70 亿参数和 140 亿参数),并将其性能与采用 GRPO(一种常用于开发 DeepSeek-R1 等推理模型的流行强化学习技术)训练的基准模型进行对比。测试结果显示,整合了三大核心机制的 AgentEvolver 带来了显著的性能提升:70 亿参数模型的平均得分较基准模型提高了 29.4%,140 亿参数模型的平均得分提升了 27.8%。在两个基准测试中,该框架均持续增强了模型的推理能力和任务执行能力,其中自我提问模块的贡献最为突出,它通过自主生成多样化的训练任务,直接解决了数据稀缺的问题,成为性能提升的关键驱动力。

实验还证明,AgentEvolver 能够高效合成大量高质量的训练数据,即使仅使用少量数据,自我提问模块生成的任务也足够多样化,能够实现良好的训练效率。对于企业而言,这意味着他们在为定制化应用和内部工作流程创建智能体时,无需投入大量人力进行数据标注。企业只需提供高层级的目标,让智能体自主生成训练经验,就能更简单、更具成本效益地开发出定制化 AI 助手,大幅降低了 AI 技术落地的门槛,让中小企业也能享受到智能体技术带来的效率提升。研究人员总结道:“这种算法设计与工程实用性的结合,使 AgentEvolver 既成为一个研究工具,又成为构建自适应、工具增强型智能体的可复用基础。”

展望未来,研究团队有着更宏大的目标。翟云鹏表示:“一个真正的‘单一模型’,能够接入任何软件环境并在一夜之间掌握其用法,无疑是智能体 AI 领域的圣杯。我们认为 AgentEvolver 是朝着这个方向迈出的必要一步。” 尽管这一未来的实现还需要在模型推理能力和基础设施方面取得进一步突破,但以 AgentEvolver 为代表的自进化方法,已经为 AI 智能体的发展指明了新方向,正在逐步推动这一宏伟目标的实现。随着技术的不断迭代,相信未来 AI 智能体将能够更快速、更高效地适配各类复杂环境,为各行各业带来更深远的变革。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-agentevolver-kuang-jia-tong-guo-zi-dong-sheng

Like (0)
王 浩然的头像王 浩然作者
Previous 1天前
Next 12小时前

相关推荐

发表回复

Please Login to Comment