阿里巴巴 AgentEvolver 框架：通过自动生成合成任务，使模型工具使用性能提升约 30%

王浩然 • 2025年12月15日上午10:00 • AI前沿 • 449 views

阿里巴巴通义实验室（Tongyi Lab）的研究人员成功研发出一款用于自进化智能体的全新框架 ——AgentEvolver。该框架借助大语言模型的知识储备与推理能力，让智能体能够通过探索应用环境自主生成训练数据，彻底改变了传统智能体训练依赖人工收集特定任务数据集的模式，有效解决了该过程中成本高昂、耗费大量人力的核心痛点。实验数据显示，与传统基于强化学习的框架相比，AgentEvolver 在环境探索效率、数据利用效率以及对应用环境的适应速度上均表现更优。对于企业而言，这一突破具有里程碑式的意义：它大幅降低了为定制化应用训练智能体的门槛，让更多组织能够便捷地获取功能强大、贴合自身需求的定制化 AI 助手，推动 AI 智能体在各行业的规模化应用。

在当前 AI 智能体训练领域，强化学习已成为主流范式，其核心是让大语言模型能够与数字环境交互并从反馈中学习，进而具备智能体的行动能力。但这一方法在实际应用中面临两大根本性挑战。首先是训练数据集的获取难题，收集所需的训练数据往往成本极高，需要投入大量人力来创建任务示例，尤其是在全新或专有软件环境中，根本不存在现成的数据集可供使用，企业若要开发针对性智能体，需从零开始构建数据集，耗时耗力。其次，大语言模型常用的强化学习技术，要求模型通过海量的试错尝试才能有效学习，这一过程不仅计算成本高昂，而且效率低下。这些问题导致通过强化学习训练高性能大语言模型智能体的过程既繁琐又昂贵，严重限制了其在企业定制化场景中的部署与应用，许多企业因无法承担高昂的训练成本，不得不放弃智能体技术的落地。

AgentEvolver 框架的核心创新在于赋予模型更强的自主学习能力，研究人员将其定义为 “自进化智能体系统”，旨在 “通过与环境的交互实现自主、高效的能力进化”。它充分发挥大语言模型的推理能力，构建起自我训练循环，让智能体无需预设任务或奖励函数，仅通过与目标环境的直接交互就能持续提升自身能力。研究人员在论文中表示：“我们设想构建这样一个智能体系统 —— 大语言模型能够主动引导探索过程、生成任务并优化性能。” 这一理念打破了传统训练模式中 “人类设计流程主导” 的局限，将训练主动权交还给模型本身，为智能体的规模化、低成本发展开辟了新路径。

AgentEvolver 的自进化过程由三大核心机制协同驱动，共同构成了完整的自主学习闭环。第一个机制是自我提问（self-questioning），智能体通过探索所处环境，发现自身功能的边界并识别有用的状态，这就像新用户在应用中随意点击以了解其功能范围一样。基于这种探索，智能体能够生成一系列符合用户普遍偏好的多样化任务，这不仅减少了对人工构建数据集的依赖，还实现了智能体与任务的协同进化 —— 随着智能体能力的提升，它能生成更复杂的任务，而复杂任务的训练又会进一步增强其能力，逐步让智能体具备处理高难度挑战的实力。阿里巴巴研究人员、该论文的合著者翟云鹏（Yunpeng Zhai）在接受采访时表示，自我提问机制有效地将模型从 “数据消费者” 转变为 “数据生产者”，极大地缩短了在专有环境中部署智能体的时间并降低了相关成本，让企业无需再为数据收集难题发愁。

第二个机制是自我导航（self-navigating），该机制通过复用和归纳过往经验来提高探索效率。AgentEvolver 会从成功和失败的尝试中提取关键洞察，并将其应用于指导未来的行动。例如，当智能体尝试使用某个应用中不存在的 API 函数时，它会将这一经历记录下来，在后续行动中，它会先验证函数是否存在，再决定是否尝试使用，避免重复相同的错误。这种对经验的高效利用，让智能体的探索过程不再是盲目试错，而是有策略、有方向的优化，显著提升了学习效率，减少了不必要的计算资源消耗，使训练过程更加高效经济。

第三个机制是自我归因（self-attributing），它通过提供更详细的反馈来增强学习效果。在传统强化学习中，通常只给智能体提供最终的成功或失败信号，这种反馈模式往往导致奖励稀疏，智能体难以明确自身行动的具体优劣。而自我归因机制则利用大语言模型，对多步骤任务中每个独立行动的贡献进行评估，追溯判断每一步行动对最终结果产生了积极还是消极影响，为智能体提供精细化的反馈，从而加速其学习进程。这一机制对于受监管行业尤为重要，在这些行业中，智能体解决问题的过程与结果同等重要。翟云鹏解释道：“这就像不仅奖励学生的最终答案，还会评估他们推理过程中每一步的清晰度和正确性。” 这种方式提高了智能体行动的透明度，促使其采用更稳健、可审计的问题解决模式，满足了监管行业对过程合规性的严格要求。

研究人员强调：“通过将训练主动权从人工设计的流程转移到大语言模型引导的自我提升，AgentEvolver 建立了一种新范式，为构建可扩展、成本效益高且持续改进的智能系统铺平了道路。” 该团队还开发了一个实用的端到端训练框架，将这三大机制有机整合，其中的核心组件是上下文管理器（Context Manager），它负责控制智能体的记忆和交互历史。目前的基准测试通常只涉及有限数量的工具，但实际企业环境中可能包含数千个 API，这对智能体的工具处理能力提出了巨大挑战。翟云鹏承认这是该领域面临的核心问题，但他指出 AgentEvolver 具有良好的可扩展性：“在极其庞大的行动空间中进行检索总会带来计算挑战，但 AgentEvolver 的架构为企业场景中实现可扩展的工具推理提供了清晰的路径。”

为了验证框架的有效性，研究人员在 AppWorld 和 BFCL v3 两个基准测试中对其进行了测试，这两个基准均要求智能体使用外部工具执行冗长的多步骤任务。研究团队采用了阿里巴巴 Qwen2.5 系列模型（分别为 70 亿参数和 140 亿参数），并将其性能与采用 GRPO（一种常用于开发 DeepSeek-R1 等推理模型的流行强化学习技术）训练的基准模型进行对比。测试结果显示，整合了三大核心机制的 AgentEvolver 带来了显著的性能提升：70 亿参数模型的平均得分较基准模型提高了 29.4%，140 亿参数模型的平均得分提升了 27.8%。在两个基准测试中，该框架均持续增强了模型的推理能力和任务执行能力，其中自我提问模块的贡献最为突出，它通过自主生成多样化的训练任务，直接解决了数据稀缺的问题，成为性能提升的关键驱动力。

实验还证明，AgentEvolver 能够高效合成大量高质量的训练数据，即使仅使用少量数据，自我提问模块生成的任务也足够多样化，能够实现良好的训练效率。对于企业而言，这意味着他们在为定制化应用和内部工作流程创建智能体时，无需投入大量人力进行数据标注。企业只需提供高层级的目标，让智能体自主生成训练经验，就能更简单、更具成本效益地开发出定制化 AI 助手，大幅降低了 AI 技术落地的门槛，让中小企业也能享受到智能体技术带来的效率提升。研究人员总结道：“这种算法设计与工程实用性的结合，使 AgentEvolver 既成为一个研究工具，又成为构建自适应、工具增强型智能体的可复用基础。”

展望未来，研究团队有着更宏大的目标。翟云鹏表示：“一个真正的‘单一模型’，能够接入任何软件环境并在一夜之间掌握其用法，无疑是智能体 AI 领域的圣杯。我们认为 AgentEvolver 是朝着这个方向迈出的必要一步。” 尽管这一未来的实现还需要在模型推理能力和基础设施方面取得进一步突破，但以 AgentEvolver 为代表的自进化方法，已经为 AI 智能体的发展指明了新方向，正在逐步推动这一宏伟目标的实现。随着技术的不断迭代，相信未来 AI 智能体将能够更快速、更高效地适配各类复杂环境，为各行各业带来更深远的变革。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/a-li-ba-ba-agentevolver-kuang-jia-tong-guo-zi-dong-sheng

上下文管理器企业定制化 AI 工具使用性能强化学习自动生成训练数据自我导航自我归因自我提问自进化智能体阿里巴巴 AgentEvolver

Like (0)

王浩然作者

0 0

启发式算法与 RAG 技术的博弈：缩水通胀如何影响 AI 决策政策

Previous 2025年12月14日

微软 Promptions 框架：破解 AI 提示失效难题，重塑人机交互效率

Next 2025年12月15日

AI前沿

AI音乐工具的未来：从“一键生成”到“创作副驾驶”

当人们谈论AI与音乐的结合时，脑海中浮现的往往是这样的场景：输入一段文字提示，就能立刻生成一首完整的曲目。这种充满科技感的“魔法按钮”模式，既催生了不少吸睛的新闻标题，也让不少音乐…

王浩然
2026年2月23日
000
AI前沿

报告揭露：Meta明星语音聊天机器人或与未成年人讨论性话题‌

在人工智能日益普及的今天，其带来的伦理与安全问题也日益凸显。近日，一份震撼性的报告指出，Meta（前身为Facebook）所开发的明星语音聊天机器人，在未经严格监管的情况下，可能存…

王浩然
2025年4月27日
000
AI前沿

AWS、微软与谷歌联手支持Linux基金会DocumentDB：打破企业成本桎梏与厂商锁定的新纪元‌

在2025年8月26日这个注定载入数据库发展史的日子，科技界见证了历史性的一幕——AWS、微软和谷歌这三大云服务巨头罕见地站在同一战线，共同将DocumentDB数据库项目移交至L…

王浩然
2025年8月27日
000
AI前沿

AI编程初创公司Codeium据传正以近30亿美元估值进行融资谈判

近日，据知情人士透露，AI编程领域的初创公司Codeium正积极与投资者进行谈判，计划以接近30亿美元的估值筹集新一轮资金。这一消息标志着Codeium在AI编程技术领域的快速发展…

王浩然
2025年2月24日
000
AI前沿

利用人工智能加速运营，更快取得成功

效率不再只是一种竞争优势，而是一种商业必需品。实现卓越运营不仅仅意味着采用新工具，它需要彻底重新思考运营方式。这就是人工智能发挥作用的地方。人工智能不仅仅是自动化日常任务，它还改…

点点
2024年10月23日
000
AI前沿

虚假拜登自动电话呼叫导致无线服务提供商被 FCC 罚款 100 万美元

这些电话使用人工智能模仿拜登的声音，告诉潜在选民在初选期间待在家里。

点点
2024年9月2日
000
AI前沿

Minimax M1：全新开源模型，百万令牌上下文与超高效强化学习‌

在人工智能领域，新的突破和创新总是层出不穷。近日，一款名为Minimax M1的全新开源模型横空出世，以其百万令牌上下文处理能力和创新的超高效强化学习机制，引起了业界的广泛关注。这…

王浩然
2025年6月20日
000
AI前沿

AI能否解决孤独症流行？

在当今社会，孤独感已成为一个日益严重的问题，影响着各个年龄段的人群。随着人工智能（AI）技术的飞速发展，人们开始探讨AI是否有潜力成为解决孤独症流行的关键工具。本文将深入探讨AI在…

王浩然
2025年6月9日
000
AI前沿

开源网络安全应用大规模部署的五大核心安全准则

在网络安全领域，开源AI正成为一股不可忽视的力量，它推动着创新边界，加速了从概念到产品的转化过程。特别是在构建大规模网络安全应用时，开源AI不仅提升了开发效率，还为解决复杂安全挑战…

王浩然
2025年6月13日
000
AI前沿

华为开源AI开发平台技术规格详解‌

在当今快速发展的科技领域，人工智能已成为推动创新的核心驱动力。作为全球领先的信息与通信技术解决方案提供商，华为始终站在技术前沿，致力于通过开源方式推动AI技术的发展。华为最新推出的…

王浩然
2025年9月30日
000
AI前沿

初创公司寻求开发物理人工智能，筹集 4 亿美元

总部位于旧金山的人工智能机器人初创公司 Physical Intelligence 本周宣布已筹集 4 亿美元资金，估值达到 28 亿美元。主要投资者包括亚马逊的杰夫·贝佐斯、O…

王浩然
2024年11月8日
000
AI前沿

Ai2 发布新语言模型，与 Meta 的 Llama 竞争

目前出现了一个新的 AI 模型家族，它是少数可以从头开始复制的模型之一。周二，已故微软联合创始人保罗·艾伦 (Paul Allen) 创立的非营利性 AI 研究机构 Ai2 发布…

王浩然
2024年11月29日
000
AI前沿

Google Gemini：你需要了解的有关生成式 AI 模型的一切

谷歌正试图利用其旗舰级生成式 AI 模型、应用和服务套件 Gemini 引起轰动。但 Gemini 是什么？如何使用它？它与其他生成式 AI 工具（如 OpenAI 的ChatGP…

王浩然
2024年9月12日
000
AI前沿

OpenAI聘请AI推荐系统初创公司Crossing Minds团队，强化推荐引擎能力

全球领先的人工智能研究机构OpenAI宣布，已成功聘请了AI推荐系统初创公司Crossing Minds的核心团队。这一举措标志着OpenAI在提升其推荐引擎能力方面迈出了重要一步…

王浩然
2025年7月2日
000
AI前沿

Bishop Fox推出Cosmos AI：将人工智能融入渗透测试核心，破解攻防安全两难困境

在攻防安全领域，长期以来存在着一个难以调和的矛盾：深度人工渗透测试虽能精准挖掘高风险漏洞，但受限于人力成本，难以实现规模化覆盖；而自动化扫描工具虽能快速完成大面积检测，却往往会生成…

王浩然
2026年2月11日
000
AI前沿

需要研究假设吗？问问人工智能。

麻省理工学院的工程师开发了人工智能框架来识别可以推动生物启发材料发展的证据驱动假设。提出独特且有前景的研究假设是任何科学家的基本技能。这也可能很耗时：新博士生可能会在项目的第一年…

王浩然
2025年1月3日
000
AI前沿

AI 模型局部重训：破解 “全量重训” 困局，开启低成本高效迭代新路径

当企业为适配新业务场景对 AI 模型进行微调时，常面临两难困境：全量重训需投入数百万美元、消耗数周时间，还可能导致模型 “灾难性遗忘”—— 丢失此前习得的关键能力；而完全不更新模型…

王浩然
2025年10月14日
000
AI前沿

Mixup：前谷歌团队推出 “填空式” AI 图像创作应用，主打社交化趣味体验

曾开发 3D 设计应用 Rooms 的 Things, Inc. 团队（核心成员为前谷歌员工），推出全新 AI 照片编辑应用 Mixup。该应用目前仅支持 iOS 系统，以 “填空…

王浩然
2025年11月29日
000
AI前沿

借助 Apple Intelligence，iPhone 用户最终将获得更好的 Siri

Siri 最终会变得有用吗？这是苹果今天在“Glowtime”活动上做出的承诺，该公司在活动中推出了iPhone 16 系列——这是首批搭载人工智能功能的新 iPhone，这要归功…

王浩然
2024年9月10日
000
AI前沿

从试错到预测验证：人工智能对制造业研发的变革性影响

数十年来，制造业研发（R&D）长期依赖 “试错法” 这一传统模式 —— 科学家与工程师凭借直觉、专业经验和渐进式调整，反复测试不同的材料配方、涂层或复合材料。尽管这种方法为…

王浩然
2025年12月9日
000

发表回复

Please Login to Comment

阿里巴巴 AgentEvolver 框架：通过自动生成合成任务，使模型工具使用性能提升约 30%

相关推荐

发表回复