
企业正逐步采用模型上下文协议(MCP),主要用于辅助识别和指导智能体工具的使用。然而,Salesforce的研究人员发现了MCP技术的另一项应用——评估AI智能体本身。他们推出了MCPEval,这是一种基于MCP系统架构的新方法和开源工具包,用于测试智能体在使用工具时的性能。
研究人员指出,当前对智能体的评估方法存在局限性,这些方法“通常依赖于静态的、预定义的任务,因此无法捕捉交互式真实世界中的智能体工作流程”。MCPEval通过系统性地收集详细的任务轨迹和协议交互数据,超越了传统的成功/失败指标,为智能体行为提供了前所未有的可见性,并生成了可用于迭代改进的宝贵数据集。
MCPEval的独特之处在于它是一个完全自动化的过程,研究人员声称这可以快速评估新的MCP工具和服务器。它不仅收集智能体在MCP服务器内与工具交互的信息,还生成合成数据并创建用于基准测试的数据库。用户可以选择测试智能体在哪些MCP服务器及其工具上的性能。
Salesforce的高级AI研究经理Shelby Heinecke表示,获取智能体性能的准确数据具有挑战性,尤其是针对特定领域角色的智能体。她提到:“MCP是一个非常新的概念和范式。智能体将能够访问工具,但我们需要评估它们在这些工具上的表现。这正是MCPEval的核心目标。”
MCPEval的框架采用了任务生成、验证和模型评估的设计。通过利用多种大型语言模型(LLM),用户可以选择他们更熟悉的模型来评估智能体。企业可以通过Salesforce发布的开源工具包访问MCPEval。通过仪表板,用户配置服务器并选择模型,系统会自动生成任务供智能体在选定的MCP服务器内执行。用户验证任务后,MCPEval会确定所需的工具调用作为基准,并生成关于智能体和测试模型在访问和使用这些工具方面表现的报告。
Heinecke指出,MCPEval不仅能收集数据以基准测试智能体,还能识别智能体性能中的差距。通过MCPEval评估智能体获得的信息不仅用于测试性能,还可用于训练智能体以供未来使用。她表示:“我们希望MCPEval能发展成为评估和修复智能体的一站式解决方案。”MCPEval的独特之处在于它将测试环境与智能体实际工作环境保持一致,评估智能体在可能部署的MCP服务器内访问工具的能力。
论文中提到,在实验中,GPT-4模型通常提供最佳的评估结果。企业对测试和监控智能体性能的需求催生了多种框架和技术。一些平台提供测试和多种评估短期和长期智能体性能的方法。AI智能体将代表用户执行任务,通常无需人工提示。目前,智能体已被证明是有用的,但它们可能会因可用工具的数量过多而不知所措。
Galileo是一家初创公司,提供了一个框架,帮助企业评估智能体工具选择的质量并识别错误。Salesforce在其Agentforce仪表板上推出了测试智能体的功能。新加坡管理大学的研究人员发布了AgentSpec以实现和监控智能体的可靠性。此外,关于MCP评估的多项学术研究也已发表,包括MCP-Radar和MCPWorld。
MCP-Radar由马萨诸塞大学阿默斯特分校和西安交通大学的研究人员开发,专注于更通用的领域技能,如软件工程或数学。该框架优先考虑效率和参数准确性。而北京邮电大学的MCPWorld则将基准测试扩展到图形用户界面、API和其他计算机使用智能体。
Heinecke表示,最终如何评估智能体取决于公司和具体用例。然而,关键是企业选择最适合其需求的评估框架。对于企业,她建议考虑特定领域的框架,以全面测试智能体在真实场景中的功能。“这些评估框架各有价值,它们是很好的起点,因为它们提供了关于智能体强度的早期信号。但最重要的评估是特定领域的评估,并生成反映智能体运行环境的评估数据。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/kai-yuan-gong-ju-mcpeval-shi-xian-le-xie-yi-ji-zhi-neng-ti