开源工具MCPEval实现了协议级智能体测试的即插即用

王浩然 • 2025年7月23日下午2:00 • AI前沿 • 345 views

企业正逐步采用模型上下文协议（MCP），主要用于辅助识别和指导智能体工具的使用。然而，Salesforce的研究人员发现了MCP技术的另一项应用——评估AI智能体本身。他们推出了MCPEval，这是一种基于MCP系统架构的新方法和开源工具包，用于测试智能体在使用工具时的性能。

研究人员指出，当前对智能体的评估方法存在局限性，这些方法“通常依赖于静态的、预定义的任务，因此无法捕捉交互式真实世界中的智能体工作流程”。MCPEval通过系统性地收集详细的任务轨迹和协议交互数据，超越了传统的成功/失败指标，为智能体行为提供了前所未有的可见性，并生成了可用于迭代改进的宝贵数据集。

MCPEval的独特之处在于它是一个完全自动化的过程，研究人员声称这可以快速评估新的MCP工具和服务器。它不仅收集智能体在MCP服务器内与工具交互的信息，还生成合成数据并创建用于基准测试的数据库。用户可以选择测试智能体在哪些MCP服务器及其工具上的性能。

Salesforce的高级AI研究经理Shelby Heinecke表示，获取智能体性能的准确数据具有挑战性，尤其是针对特定领域角色的智能体。她提到：“MCP是一个非常新的概念和范式。智能体将能够访问工具，但我们需要评估它们在这些工具上的表现。这正是MCPEval的核心目标。”

MCPEval的框架采用了任务生成、验证和模型评估的设计。通过利用多种大型语言模型（LLM），用户可以选择他们更熟悉的模型来评估智能体。企业可以通过Salesforce发布的开源工具包访问MCPEval。通过仪表板，用户配置服务器并选择模型，系统会自动生成任务供智能体在选定的MCP服务器内执行。用户验证任务后，MCPEval会确定所需的工具调用作为基准，并生成关于智能体和测试模型在访问和使用这些工具方面表现的报告。

Heinecke指出，MCPEval不仅能收集数据以基准测试智能体，还能识别智能体性能中的差距。通过MCPEval评估智能体获得的信息不仅用于测试性能，还可用于训练智能体以供未来使用。她表示：“我们希望MCPEval能发展成为评估和修复智能体的一站式解决方案。”MCPEval的独特之处在于它将测试环境与智能体实际工作环境保持一致，评估智能体在可能部署的MCP服务器内访问工具的能力。

论文中提到，在实验中，GPT-4模型通常提供最佳的评估结果。企业对测试和监控智能体性能的需求催生了多种框架和技术。一些平台提供测试和多种评估短期和长期智能体性能的方法。AI智能体将代表用户执行任务，通常无需人工提示。目前，智能体已被证明是有用的，但它们可能会因可用工具的数量过多而不知所措。

Galileo是一家初创公司，提供了一个框架，帮助企业评估智能体工具选择的质量并识别错误。Salesforce在其Agentforce仪表板上推出了测试智能体的功能。新加坡管理大学的研究人员发布了AgentSpec以实现和监控智能体的可靠性。此外，关于MCP评估的多项学术研究也已发表，包括MCP-Radar和MCPWorld。

MCP-Radar由马萨诸塞大学阿默斯特分校和西安交通大学的研究人员开发，专注于更通用的领域技能，如软件工程或数学。该框架优先考虑效率和参数准确性。而北京邮电大学的MCPWorld则将基准测试扩展到图形用户界面、API和其他计算机使用智能体。

Heinecke表示，最终如何评估智能体取决于公司和具体用例。然而，关键是企业选择最适合其需求的评估框架。对于企业，她建议考虑特定领域的框架，以全面测试智能体在真实场景中的功能。“这些评估框架各有价值，它们是很好的起点，因为它们提供了关于智能体强度的早期信号。但最重要的评估是特定领域的评估，并生成反映智能体运行环境的评估数据。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/kai-yuan-gong-ju-mcpeval-shi-xian-le-xie-yi-ji-zhi-neng-ti

Like (0)

王浩然作者

0 0

CrowdStrike全球宕机事件一周年：重塑企业网络安全的78分钟‌

Previous 2025年7月23日

Intuit为中型企业推出智能AI代理每月可节省17-20小时工作时间

Next 2025年7月23日

AI前沿

AI生成广告新框架：精准触达特定人群，个性化营销再进阶

当《少数派报告》中能识别路人并精准喊话的智能广告牌出现在现实讨论中，个性化广告的未来似乎离我们越来越近。尽管为每个用户定制专属广告创意目前仍不现实，但一项全新的AI研究正在打破这一…

王浩然
2026年2月8日
000
AI前沿

科学家构建推动通用人工智能发展的AI模型

一、引言在人工智能领域，通用人工智能（Artificial General Intelligence, AGI）一直是研究者们追求的终极目标。近日，来自澳大利亚悉尼科技大学的研究…

王浩然
2025年3月14日
000
AI前沿

人工智能研究人员如何获得诺贝尔物理学奖和化学奖：未来科学发现的两个关键教训

2024 年的诺贝尔奖让许多人感到意外，因为人工智能研究人员是物理学和化学领域的杰出获奖者之一。杰弗里·辛顿和约翰·霍普菲尔德因其在神经网络方面的奠基性工作而获得诺贝尔物理学奖。相…

点点
2024年10月21日
000
AI前沿

为何 CIO 必须引领 AI 实验，而不仅仅是监管

在当今数字化时代，人工智能（AI）已成为企业发展的核心驱动力之一，深刻改变着企业的运营模式、产品服务以及竞争格局。首席信息官（CIO）作为企业信息技术战略的掌舵者，在 AI 的发展…

王浩然
2026年1月2日
000
AI前沿

ClinCheck Live：AI 赋能隐适美正畸治疗，开启 15 分钟极速方案时代

全球隐形正畸巨头爱齐科技（Align Technology）正式发布隐适美（Invisalign）数字化正畸治疗规划新功能 ——ClinCheck Live Plan，将 AI 技…

王浩然
2025年11月10日
000
AI前沿

Union.ai完成3810万美元A轮融资，AI开发基础设施赛道再添新动力

近日，AI基础设施领域的新锐企业Union.ai宣布完成总额达3810万美元的A轮融资，这一金额远超此前公布的1910万美元，融资规模实现翻倍。本轮融资由现有投资者New Ente…

王浩然
2026年2月28日
000
AI前沿

维基数据推出 AI 友好型数据库：开放知识图谱助力全球开发者打破技术垄断

作为维基媒体旗下与维基百科互补的知识图谱项目，Wikidata 一直以结构化格式存储着海量多元信息 —— 从作家道格拉斯・亚当斯的星座（双鱼座）到其作品在全球图书馆的分类编号（13…

王浩然
2025年10月8日
000
AI前沿

企业软件与采纳代理型AI的迫切性‌

在当今这个日新月异的数字时代，企业软件正经历着前所未有的变革。从最初的软件即服务（SaaS）模式，到后来的垂直SaaS为特定行业提供功能增强，再到现在的人工智能（AI）技术的融合，…

王浩然
2025年6月10日
000
AI前沿

欧洲AI监管框架：不是创新枷锁，而是细分服务新机遇

当欧洲某银行的AI项目研讨会开场一小时，话题始终围绕审计追踪、数据谱系和决策问责，而非模型精度时，一个清晰的信号正在释放：在受监管的欧洲市场，AI的起点已不再是技术性能，而是风险控…

王浩然
2026年2月25日
000
AI前沿

Minimax M1：全新开源模型，百万令牌上下文与超高效强化学习‌

在人工智能领域，新的突破和创新总是层出不穷。近日，一款名为Minimax M1的全新开源模型横空出世，以其百万令牌上下文处理能力和创新的超高效强化学习机制，引起了业界的广泛关注。这…

王浩然
2025年6月20日
000
AI前沿

从数据中获取最大价值的三种方式：可扩展AI、智能应用与开放生态系统

在当今这个数据驱动的时代，任何技术专家都会告诉你，一个成功的AI战略依赖于可靠的数据。事实上，最近的一项针对技术领导者的调查显示，近94%的受访者现在更加关注数据，这主要源于对AI…

王浩然
2025年6月26日
000
AI前沿

OpenAI 制定营利转型计划

OpenAI 表示，其公司结构必须不断发展，以推进其使命，即确保通用人工智能（AGI，可以完成人类大多数任务的人工智能）造福全人类。该公司目前拥有一个由非营利组织控制的营利性组织…

王浩然
2024年12月29日
000
AI前沿

AI 如何革新租赁物业管理：从被动响应到主动高效的维护转型

租赁物业管理中的维护工作长期困扰着独立房东与物业管理者，传统模式存在沟通低效、流程零散、成本高昂等痛点 —— 租户报修需通过电话、短信或邮件反复沟通才能明确问题，房东对接维修承包商…

王浩然
2025年11月17日
000
AI前沿

2026年AI并购新范式：从差异化工具到核心交易基础设施

当时间的指针走向2026年，全球并购市场正在经历一场静悄悄的革命——AI的角色已从过去的“加分项”彻底转变为“入场券”。如果说2025年是AI在交易全流程中证明价值的一年，那么20…

王浩然
2026年1月29日
000
AI前沿

微调大法好！揭秘LLaMA 3.1和Orca 2背后的智能炼金术

在当今快节奏的人工智能 (AI) 世界中，微调大型语言模型 (LLM)已变得至关重要。这个过程不仅仅是简单地增强这些模型并对其进行定制以更精确地满足特定需求。随着人工智能继续融…

点点
2024年9月7日
000
AI前沿

Anthropic为Claude赋予超能力：实时网络搜索，为何这改变了一切？

在人工智能领域，Anthropic公司再次引领潮流，为其旗舰语言模型Claude赋予了实时网络搜索的能力。这一创新不仅标志着AI技术的又一重大突破，更预示着AI在日常生活和工作中应…

王浩然
2025年3月25日
000
AI前沿

如何在不入侵任何东西的情况下窃取人工智能模型

人工智能模型的可窃取性令人惊讶——只要你设法嗅出模型的电磁特征。北卡罗来纳州立大学的研究人员在一篇新论文中描述了这种技术，尽管他们一再强调，事实上他们并不想帮助人们攻击神经网络。他…

王浩然
2024年12月29日
000
AI前沿

苹果利用AI推进芯片设计自动化

在科技巨头苹果公司的创新历程中，人工智能（AI）正逐步成为推动其技术边界拓展的关键力量。近日，苹果在AI领域的新动向引起了业界的广泛关注——该公司正致力于将AI技术深度融入芯片设计…

王浩然
2025年6月25日
000
AI前沿

技能组合新高度：威胁情报与逆向工程的完美融合

在网络安全的世界里，威胁情报就像是我们的“眼睛”和“耳朵”。通过收集、分析和共享有关潜在威胁的信息，威胁情报帮助我们提前发现并应对安全风险。

点点
2024年9月7日
000
AI前沿

为何代理人工智能在现实世界中仍会失效

在人工智能领域，代理人工智能（Agentic AI）被寄予厚望，它旨在创建能够自主感知环境、做出决策并采取行动的智能体，以应对复杂多变的现实场景。然而，尽管在理论和模拟环境中取得了…

王浩然
2026年1月12日
000

发表回复

Please Login to Comment

开源工具MCPEval实现了协议级智能体测试的即插即用

相关推荐

发表回复