Patronus AI推出Percival，助力企业大规模监控故障AI代理‌

王浩然 • 2025年5月15日上午8:00 • AI前沿 • 474 views

Patronus AI近日发布了一款全新的监控平台——Percival，该平台能够自动识别AI代理系统中的故障，针对企业对日益复杂的AI应用可靠性的担忧，提供了有效的解决方案。这款由旧金山AI安全初创公司推出的新产品，自诩为业界首款能够自动检测AI代理系统中多种故障模式，并系统提出修复和优化建议的解决方案。

‌AI代理可靠性危机：企业失去对自主系统的控制‌

近几个月来，企业对AI代理的采用加速，这些软件能够独立规划和执行复杂的多步骤任务，但也带来了新的管理挑战，即确保这些系统在大规模应用时能够可靠运行。与传统机器学习模型不同，这些基于代理的系统通常涉及漫长的操作序列，早期阶段的错误可能会对后续操作产生重大影响。Patronus AI的CEO兼联合创始人Anand Kannappan在接受VentureBeat独家采访时表示：“几周前，我们发布了一个模型，该模型可以量化代理失败的可能性，以及这种失败可能对品牌、客户流失等方面产生的影响。我们发现，代理的错误概率在不断累积。”

这一问题在多代理环境中尤为严重，不同的AI系统相互交互，使得传统的测试方法越来越力不从心。

‌情景记忆创新：Percival的AI代理架构革新错误检测‌

Percival通过其基于代理的架构和所谓的“情景记忆”功能与其他评估工具区别开来——即能够从之前的错误中学习并适应特定工作流程的能力。该软件能够检测四大类中的多种不同故障模式，包括推理错误、系统执行错误、规划和协调错误以及领域特定错误。Patronus AI的研究员Darshan Deshpande解释说：“与作为判断者的大型语言模型不同，Percival本身就是一个代理，因此它可以跟踪在整个轨迹中发生的所有事件。它可以在不同上下文中关联这些事件并发现这些错误。”

对企业而言，最直接的益处是减少了调试时间。据Patronus表示，早期客户将分析代理工作流程的时间从大约一小时缩短到了一至1.5分钟。

‌TRAIL基准测试揭示AI监督能力的关键差距‌

在发布产品的同时，Patronus还推出了一个名为TRAIL（轨迹推理和代理问题定位）的基准测试，以评估系统在检测AI代理工作流程中的问题方面的能力。使用该基准进行的研究发现，即使是最先进的AI模型在有效的轨迹分析方面也存在困难，表现最好的系统在该基准测试中的得分也只有1%。这些发现凸显了监控复杂AI系统的挑战性，并可能解释了为什么大型企业正在投资用于AI监督的专用工具。

‌企业AI领导者采用Percival进行关键代理应用‌

早期采用者包括Emergence AI，该公司已筹集了约亿美元的资金，正在开发AI代理可以创建和管理其他代理的系统。Emergence AI的联合创始人兼CEO Satya Nitta在一份声明中表示：“Emergence最近的突破——代理创建代理——不仅标志着自适应、自我生成系统的进化中的一个关键时刻，也标志着如何负责任地管理和扩展此类系统的一个关键时刻。”另一家早期客户Nova正在使用该技术为一个平台提供支持，该平台可帮助大型企业通过AI驱动的SAP集成迁移遗留代码。这些客户代表了Percival旨在解决的问题的典型案例。据Kannappan称，一些公司现在管理的代理系统“单个代理目录中的步骤超过0个”，创建了远超人类操作员能够有效监控的复杂性。

‌随着自主系统的普及，AI监督市场有望爆发式增长‌

该产品的发布正值企业对AI可靠性和治理的担忧日益加剧之际。随着企业部署越来越多的自主系统，对监督工具的需求也随之增加。Kannappan指出：“具有挑战性的是，系统变得越来越自主。”他补充道，“每天使用AI生成数十亿行代码”，创造了一个手动监督实际上变得不可能的环境。随着企业从实验性部署转向关键AI应用，AI监控和可靠性工具的市场预计将显著扩大。

Percival与多个AI框架集成，包括Hugging Face Smolagents、Pydantic AI、OpenAI Agent SDK和Langchain，使其与各种开发环境兼容。虽然Patronus AI没有披露定价或收入预测，但该公司对企业级监督的关注表明，它正在定位高利润的企业AI安全市场，分析师预测，随着AI采用的加速，该市场将大幅增长。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/patronus-ai-tui-chu-percival-zhu-li-qi-ye-da-gui-mo-jian

Like (0)

王浩然作者

0 0

Previous 2025年5月14日

AlphaEvolve：Google AI能自我编写代码，节省数百万计算成本

Next 2025年5月15日

AI前沿

AI能力增速远超安全管控：当智能代理突破传统安全边界

当我们谈论AI工具时，最先想到的往往是它们带来的效率革命：简化登录流程、自动总结文档、批量处理重复性工作，让职场和生活中的繁琐事务变得轻松。这些工具确实兑现了提升生产力的承诺，成为…

王浩然
2026年3月7日
000
AI前沿

医院成为新型网络战争的目标‌

在当今的数字化时代，网络空间已成为没有硝烟的战场，而医院这一关乎民生的重要机构，正逐渐成为网络攻击者的新目标。这类攻击不仅威胁到医院的正常运营，更对病患的生命安全构成了潜在风险，揭…

王浩然
2025年5月25日
000
AI前沿

情绪分析能有效预测金融市场的趋势吗？

情绪分析通过揭示传统分析经常忽略的见解，改变了金融市场预测。该策略通过处理来自新闻、社交媒体和财务报告的文本数据，捕捉市场对资产和行业的情绪和态度。随着情绪分析的有效性越来越明…

AI News
2024年9月1日
000
AI前沿

为什么黄仁勋和马克·贝尼奥夫认为代理型人工智能有“巨大”机遇

Nvidia创始人兼首席执行官黄仁勋表示，展望未来，人工智能代理的机会将是“巨大的”。黄仁勋本周在 Salesforce 的旗舰活动Dreamforce的炉边谈话中表示，目前…

王浩然
2024年9月22日
000
AI前沿

移动端Shadow AI：企业风险的隐形盲区，正在重塑业务威胁格局

人工智能正在以前所未有的速度渗透到企业运营的各个环节，从文档摘要、合同起草到代码生成和工作流自动化，AI工具已经成为职场人日常工作中不可或缺的一部分。但在企业官方批准的AI应用之外…

王浩然
2026年3月11日
000
AI前沿

MIT报告揭示：企业AI暗流涌动，员工个人使用率远超官方采购‌

麻省理工学院最新发布的《NANDA项目》研究报告引发广泛讨论，这份26页的深度分析揭示了企业AI应用的真实图景：尽管媒体聚焦于”95%的企业AI试点项目失败&#8221…

王浩然
2025年8月25日
000
AI前沿

迪拜AI周亮点： Machines Can See 2025 盛大启幕

2025年4月23日至24日，迪拜未来博物馆将迎来一场别开生面的AI投资与交流盛会——Machines Can See 2025。这场由Polynome Group主办的AI盛会，…

王浩然
2025年5月5日
000
AI前沿

大型推理模型是否真的在“思考”？——苹果研究引发业界热议‌

在人工智能领域，关于大型推理模型（LRMs）是否具备真正“思考”或“推理”能力的讨论一直如火如荼。近期，苹果公司机器学习团队发布的一篇题为《思维的错觉》的研究论文，更是将这一话题推…

王浩然
2025年6月15日
000
AI前沿

OpenAI收购AI个人金融初创公司Hiro，金融领域布局再添新动作

2026年4月13日，人工智能巨头OpenAI宣布完成对AI个人金融初创公司Hiro Finance的收购，这一消息由Hiro创始人伊桑·布洛赫（Ethan Bloch）对外公布，…

王浩然
2026年4月13日
000
AI前沿

谷歌的人工智能系统可能会改变我们的写作方式：InkSight 将手写笔记数字化

纸笔是百年历史的技术，如今正迎来数字化的重大升级。谷歌研究院开发出一种人工智能系统，可以准确地将手写笔记的照片转换成可编辑的数字文本，这可能会改变数百万人捕捉和保存想法的方式。新…

王浩然
2024年11月1日
000
AI前沿

作者呼吁出版商限制AI使用

近日，包括劳伦·格罗夫、列夫·格罗斯曼、R.F.匡、丹尼斯·勒翰和杰弗里·马奎尔在内的一批知名作者，联合发表了一封公开信。这封信矛头直指出版界，呼吁各出版商限制对人工智能（AI）工…

王浩然
2025年7月3日
000
AI前沿

Bishop Fox推出Cosmos AI：将人工智能融入渗透测试核心，破解攻防安全两难困境

在攻防安全领域，长期以来存在着一个难以调和的矛盾：深度人工渗透测试虽能精准挖掘高风险漏洞，但受限于人力成本，难以实现规模化覆盖；而自动化扫描工具虽能快速完成大面积检测，却往往会生成…

王浩然
2026年2月11日
000
AI前沿

新的 LLM 优化技术可将内存成本降低高达 75%

东京初创公司 Sakana AI 的研究人员开发了一种新技术，使语言模型能够更有效地利用内存，帮助企业降低在大型语言模型 (LLM) 和其他基于 Transformer 的模型上构…

王浩然
2024年12月17日
000
AI前沿

加州大学圣地亚哥分校和清华大学的研究人员让人工智能能够更好地了解何时寻求帮助

一个计算机科学家团队开发了一种方法，可以帮助人工智能了解何时使用工具而不是依赖内置知识，模仿人类专家解决复杂问题的方式。加州大学圣地亚哥分校和清华大学的研究表明，当人工智能系统学…

王浩然
2024年11月7日
000
AI前沿

编程平台 Cursor 推出首款自研大语言模型 Composer，承诺四倍速度提升

来自初创公司 Anysphere 的 Vibe 编程工具 Cursor，在其 Cursor 2.0 平台更新中，正式推出了首款自研的专有编程大语言模型（LLM）——Composer…

王浩然
2025年11月3日
000
AI前沿

英伟达研究人员突破 4 位精度 LLM 训练技术，性能媲美 8 位精度

2025 年 10 月 29 日，Ben Dickson 报道，英伟达（Nvidia）研究团队开发出全新 4 位量化格式训练技术 “NVFP4”，成功实现以 4 位浮点（FP4）精…

王浩然
2025年11月2日
000
AI前沿

Anthropic推出托管代理服务，为企业AI工作负载提供全栈托管方案

在企业AI应用加速落地的当下，基础设施管理与运维成本正成为许多企业推进AI项目的重要阻碍。近日，AI公司Anthropic正式推出Claude Managed Agents（Cla…

王浩然
2026年4月10日
000
AI前沿

微软将在德国面临更严格的竞争审查，包括其对人工智能的使用

微软已加入受德国特殊滥用控制制度约束的科技巨头专属俱乐部。德国联邦企业联合办公室 (FCO) 周一证实，如果竞争管理机构认为有必要进行干预，这家软件巨头可能会受到限制。这项为期五…

王浩然
2024年10月1日
000
AI前沿

谷歌 Veo 3.1：AI 视频生成的叙事革命与企业级应用新机遇

在 AI 视频领域竞争白热化的 2025 年，谷歌推出的新一代 AI 视频生成模型 Veo 3.1，以 “强化叙事控制、原生音频融合、精细化编辑” 为核心升级方向，重新定义了 AI…

王浩然
2025年10月16日
000
AI前沿

Grok 4.1 Fast 开发者功能亮眼，却因狂吹马斯克陷入争议

埃隆・马斯克旗下 xAI 公司正式向开发者开放 Grok 4.1 Fast 系列模型的 API 访问权限，并推出全新 Agent Tools API，本应是技术落地的重要里程碑，却…

王浩然
2025年11月23日
000

发表回复

Please Login to Comment

Patronus AI推出Percival，助力企业大规模监控故障AI代理‌

相关推荐

发表回复