
面向自主 AI 智能体性能评估的基准测试套件 Terminal-Bench 推出 2.0 版本,同时配套发布容器化测试框架 Harbor。这一组合发布旨在解决 AI 智能体(尤其面向开发者终端环境的自主运行智能体)测试与优化中的长期痛点,通过更严谨的任务设计与规模化部署能力,为 AI 智能体的性能评估、迭代优化提供标准化工具,推动行业在智能体测试领域形成统一标准。
Terminal-Bench 作为评估 AI 智能体在真实终端任务中表现的核心基准,2.0 版本在 1.0 基础上实现了 “任务质量升级” 与 “数据可靠性提升” 的双重突破。2025 年 5 月 1.0 版本发布后,因覆盖开发者终端环境下的多样化任务(如命令行交互、代码编译、系统配置等),快速成为行业默认评估工具,但也存在任务定义模糊、受外部服务波动影响大等问题 —— 例如部分任务因依赖不稳定的第三方 API,导致测试结果重复性差。2.0 版本通过 “人工 + LLM 辅助验证” 的方式,对 89 个任务进行数小时逐一校验,确保每个任务 “可解决、贴近真实场景、定义清晰”:移除了依赖第三方不稳定 API 的download-youtube任务,重构了存在歧义的系统配置类任务,既提高了任务难度上限,又强化了测试结果的可复现性。值得注意的是,尽管 2.0 版本任务难度提升,但行业顶尖模型的性能表现与 1.0 版本相近,Terminal-Bench 联合创建者 Alex Shaw 解释,这正是 “任务质量显著提升” 的体现 ——1.0 版本的性能波动更多源于任务缺陷,而 2.0 版本的稳定任务更能真实反映模型能力。
同步推出的 Harbor 框架,是针对 AI 智能体在容器化环境中测试、优化的专用运行时工具,核心价值在于 “实现规模化、跨架构的智能体评估”。作为开发团队 “打造 Terminal-Bench 时渴望拥有的工具”,Harbor 具备三大关键能力:一是多环境兼容与规模化部署,支持 Daytona、Modal 等主流云服务商,可在数千个云容器中同时运行评估任务,满足大规模测试需求;二是全流程支持与架构适配,能评估任何可容器化安装的智能体,兼容开源与商业智能体,同时集成有监督微调(SFT)、强化学习(RL)等训练流程,实现 “测试 – 优化 – 再测试” 的闭环;三是与 Terminal-Bench 深度协同,支持自定义基准创建与部署,开发者可直接调用 Terminal-Bench 2.0 进行标准化测试。在 Terminal-Bench 2.0 的开发过程中,Harbor 已被用于内部数万次任务部署,目前通过harborframework.com公开提供服务,配套文档支持开发者将智能体测试结果提交至公共排行榜,推动行业竞争与协作。
从初期测试结果来看,Terminal-Bench 2.0 的排行榜呈现 “头部模型竞争激烈、无绝对领先者” 的格局。OpenAI 基于 GPT-5 开发的 Codex CLI 以 49.6% 的任务成功率位居榜首,成为目前在终端任务中表现最佳的 AI 智能体;紧随其后的是其他 GPT-5 变体(如 Codex CLI GPT-5-Codex 成功率 44.3%、OpenHands GPT-5 成功率 43.8%)与 Anthropic 的 Claude Sonnet 4.5 系列(Terminus 2 Claude Sonnet 4.5 成功率 42.8%)。这一结果表明,顶尖 AI 模型在终端智能体能力上已形成紧密竞争,且尚无任何一款智能体能解决半数以上任务,凸显出终端环境下 AI 自主执行复杂任务的挑战性,也为后续模型优化提供了明确方向。
在实际使用层面,开发者可通过简单命令行操作完成智能体测试与提交:安装 Harbor 后,执行harbor run -d [email protected] -m "<model>" -a "<agent>" --n-attempts 5 --jobs-dir <path/to/output>命令,即可调用 Terminal-Bench 2.0 对指定模型与智能体进行 5 次基准测试,测试结果与任务目录可提交至开发团队进行验证后纳入排行榜。目前,Terminal-Bench 2.0 已被整合进聚焦智能体推理、代码生成、工具使用的研究工作流,斯坦福大学博士后研究员、联合创建者 Mike Merrill 透露,详细阐述该基准测试验证流程与设计方法的预印本论文正在撰写中,未来将进一步完善测试体系。
此次 Terminal-Bench 2.0 与 Harbor 的联合发布,标志着 AI 智能体评估从 “零散测试” 向 “标准化、规模化” 迈进。随着 LLM 智能体在开发者环境、运维场景中的应用日益广泛,对 “可控、可复现” 测试工具的需求愈发迫切 —— 这两款工具共同构建了 “任务基准 + 运行框架” 的完整评估栈,既为模型改进提供了清晰标尺,也为环境模拟、基准标准化提供了技术支撑。对行业而言,这一组合不仅能推动 AI 智能体在终端任务中的能力迭代,更有望成为跨企业、跨研究机构的统一评估基础,加速 AI 智能体在真实生产场景中的落地进程。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/terminalbench-2-yu-harbor-kuang-jia-tong-bu-fa-bu-gou-jian