
在 AI 智能体技术飞速发展的 2025 年,OpenAI、谷歌、阿里巴巴等巨头纷纷推出针对特定任务的优化模型,然而,AI 智能体在处理多步骤、长时间跨度的长时任务(longer-horizon tasks)时,仍面临严重的性能瓶颈 —— 第三方基准测试显示,即便最强大的 AI 模型,随着任务步骤增加和耗时延长(超过数小时),失败率也会显著上升。正是在这一背景下,由清华大学、北京大学、DeepLang AI 与美国伊利诺伊大学厄巴纳 – 香槟分校联合研发的 EAGLET 框架应运而生。该框架通过引入 “全局规划器”,在无需人工标注数据或重训智能体的前提下,大幅提升了基于大语言模型(LLM)的智能体在长时任务中的表现,有效减少幻觉生成、优化任务执行效率,为长时任务的智能化处理提供了突破性解决方案。
要理解 EAGLET 的核心价值,首先需直面 AI 智能体处理长时任务时的固有难题。当前主流的 LLM 智能体多采用 “反应式逐步推理” 模式,即根据当前步骤的反馈即时规划下一步行动,这种模式在简单短流程任务中表现尚可,但在长时任务中弊端尽显:一方面,缺乏全局视角导致规划频繁出现 “幻觉”,例如在模拟家庭场景完成家务的 ALFWorld 基准测试中,智能体可能反复尝试无效操作,或偏离核心目标去执行无关任务;另一方面,试错式的行动轨迹效率极低,完成任务所需步骤大幅增加,不仅消耗更多计算资源,还会因步骤累积误差导致最终任务失败。以科学实验模拟场景的 ScienceWorld 基准为例,某主流智能体完成一项多步骤实验的平均失败率超过 50%,其中 70% 的失败源于中途规划偏差。EAGLET 的创新之处在于,它打破了 “规划与执行一体化” 的传统模式,通过独立的全局规划模块,为智能体提供贯穿任务全程的清晰行动框架,从根本上解决规划碎片化问题。
EAGLET 的技术架构围绕 “模块化规划 – 执行分离” 展开,其核心是一个可灵活集成的 “全局规划器”,该规划器本质上是一个经过微调的语言模型,能够解析用户或环境给出的任务指令,并生成高层级的全局行动方案,且在智能体执行任务过程中不进行干预,仅通过前置规划引导行动方向。这种设计的优势在于,规划器可专注于全局策略制定,而执行智能体则聚焦于高效完成单步任务,两者各司其职又紧密协同。例如,在在线购物模拟 WebShop 任务中,EAGLET 规划器会先生成 “确定商品需求→筛选商家→对比价格→完成下单” 的完整流程规划,执行智能体再按照这一框架逐步调用搜索、比价等工具,避免了盲目操作。
EAGLET 的另一大技术突破在于其创新的 “两阶段无人工标注训练流程”,这一流程确保了规划器的高效性与通用性。第一阶段为 “合成规划生成与筛选”:研究团队利用 GPT-5、DeepSeek-V3.1-Think 等高性能 LLM 生成大量合成规划,随后通过独创的 “同源一致性筛选” 策略对这些规划进行过滤 —— 仅保留那些既能提升专家级执行智能体(如 GPT-5)表现,又能帮助新手级执行智能体(如 Llama-3.1-8B)提升任务完成率的规划。这种筛选方式确保了最终保留的规划具备广泛适配性,而非仅针对特定能力的智能体。第二阶段为 “规则式强化学习优化”:通过自定义的奖励函数对规划器进行进一步微调,该奖励函数的核心是 “执行器能力增益奖励(ECGR)”,其独特之处在于不仅衡量规划对智能体任务完成率的提升,还会评估规划是否能减少执行步骤,并引入衰减因子优先选择更简洁的行动轨迹。例如,若两个规划均能帮助智能体完成任务,ECGR 会优先奖励步骤更少的规划,同时避免过度奖励仅对高能力智能体有效的规划,确保规划器的指导具备普适性。
在性能验证环节,EAGLET 在三大主流长时任务基准测试中均展现出卓越表现,全面超越传统无规划智能体及其他规划基线(如 MPO、KnowAgent)。在 ScienceWorld 基准测试中,针对未见过的科学实验场景,配备 EAGLET 的智能体表现从 42.2 分提升至 61.6 分,大幅降低了因场景陌生导致的规划失误;在模拟家庭场景的 ALFWorld 基准中,效果提升更为显著 —— 在已见过场景任务中,智能体表现从 22.9 分跃升至 54.3 分,提升幅度超过 2.3 倍,即便是难度更高的未见过场景,结合 EAGLET 与 ETO 执行方法后,性能提升也高达 11.8 个百分点。值得注意的是,即便对于本身性能已很强大的高端模型,EAGLET 仍能带来明显增益:GPT-4.1 在引入 EAGLET 后,平均得分从 75.5 分提升至 82.2 分;GPT-5 的得分也从 84.5 分提升至 88.1 分。除任务完成率外,EAGLET 还显著优化了执行效率,以 GPT-4.1 为执行智能体时,完成任务的平均步骤从 13.0 步减少至 11.1 步;以 GPT-5 为执行智能体时,平均步骤从 11.4 步降至 9.4 步,步骤减少直接转化为推理时间缩短与计算成本降低,在大规模部署场景中具备极高的实用价值。
EAGLET 的另一大优势在于其出色的兼容性与效率。在兼容性方面,该框架采用 “即插即用” 设计,可无缝集成到现有智能体工作流中,无需对执行智能体进行重训,且适配多种主流基础模型与提示策略 —— 无论是 GPT 系列、Llama-3.1、Qwen2.5 等模型,还是 ReAct、Reflexion 等提示方法,引入 EAGLET 后均能实现性能提升。这种高兼容性意味着企业无需重构现有 AI 系统,即可快速享受到规划优化带来的价值。在效率方面,EAGLET 的训练成本远低于传统强化学习方法,例如与需数百次训练迭代的 GiGPO 相比,EAGLET 仅需约 1/8 的训练工作量,就能实现更优或相当的性能;在执行阶段,步骤减少带来的效率提升进一步放大了成本优势,某测试数据显示,引入 EAGLET 后,智能体处理长时任务的综合计算成本降低了 30% 以上。
尽管 EAGLET 展现出强大的技术潜力,但其当前阶段仍存在一些待解决的问题,这些问题在一定程度上限制了其短期内的企业级应用。首先是代码开源与工具支持的缺失 —— 截至论文提交至 arXiv 平台时,研究团队尚未发布 EAGLET 的开源实现,也未明确代码发布时间、许可类型及维护计划,这使得企业难以直接获取并部署该框架,需自行复现技术细节,增加了应用门槛。其次是企业部署的适配性疑问:虽然框架宣称 “即插即用”,但尚未明确能否与 LangChain、AutoGen 等主流企业级智能体框架兼容,若需定制化技术栈支撑 “规划 – 执行分离”,将大幅增加企业的集成成本;同时,训练过程中依赖多类型执行智能体进行筛选与优化,对于仅能获取单一模型或计算资源有限的中小企业而言,难以完全复现训练流程。此外,EAGLET 的最小可行模型规模、在垂直行业(如客服自动化、IT 运维)的定制化能力,以及实时规划与离线预生成规划的最优部署方式等问题,目前仍缺乏明确答案,需要进一步的技术验证与实践探索。
从应用前景来看,EAGLET 在需要多步骤规划的企业场景中具备广阔潜力。在 IT 自动化领域,可用于指导智能体完成服务器部署、故障排查等长流程任务,减少人工干预;在客户支持场景,能帮助智能体有序处理复杂客户需求,例如引导用户逐步提供问题信息、协调多部门资源解决问题;在电商领域,可优化 AI 购物助手的决策流程,提升商品推荐与下单效率。随着研究团队后续开源代码、完善部署文档,EAGLET 有望在更多实际场景中落地,推动长时任务智能处理的标准化与规模化。
总体而言,EAGLET 框架的推出,不仅为 AI 智能体处理长时任务提供了切实可行的技术方案,更重新定义了 “规划” 在智能体系统中的角色 —— 从依附于执行的辅助环节,转变为决定任务成败的核心模块。尽管当前存在开源与部署适配等挑战,但 EAGLET 展现出的性能提升、效率优势与兼容性,使其成为长时任务 AI 解决方案的重要突破,也为未来智能体技术的发展指明了 “规划 – 执行协同优化” 的关键方向。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/eaglet-kuang-jia-po-jie-ai-zhi-neng-ti-chang-shi-ren-wu-kun