
Patronus AI近日发布了一款全新的监控平台——Percival,该平台能够自动识别AI代理系统中的故障,针对企业对日益复杂的AI应用可靠性的担忧,提供了有效的解决方案。这款由旧金山AI安全初创公司推出的新产品,自诩为业界首款能够自动检测AI代理系统中多种故障模式,并系统提出修复和优化建议的解决方案。
AI代理可靠性危机:企业失去对自主系统的控制
近几个月来,企业对AI代理的采用加速,这些软件能够独立规划和执行复杂的多步骤任务,但也带来了新的管理挑战,即确保这些系统在大规模应用时能够可靠运行。与传统机器学习模型不同,这些基于代理的系统通常涉及漫长的操作序列,早期阶段的错误可能会对后续操作产生重大影响。Patronus AI的CEO兼联合创始人Anand Kannappan在接受VentureBeat独家采访时表示:“几周前,我们发布了一个模型,该模型可以量化代理失败的可能性,以及这种失败可能对品牌、客户流失等方面产生的影响。我们发现,代理的错误概率在不断累积。”
这一问题在多代理环境中尤为严重,不同的AI系统相互交互,使得传统的测试方法越来越力不从心。
情景记忆创新:Percival的AI代理架构革新错误检测
Percival通过其基于代理的架构和所谓的“情景记忆”功能与其他评估工具区别开来——即能够从之前的错误中学习并适应特定工作流程的能力。该软件能够检测四大类中的多种不同故障模式,包括推理错误、系统执行错误、规划和协调错误以及领域特定错误。Patronus AI的研究员Darshan Deshpande解释说:“与作为判断者的大型语言模型不同,Percival本身就是一个代理,因此它可以跟踪在整个轨迹中发生的所有事件。它可以在不同上下文中关联这些事件并发现这些错误。”
对企业而言,最直接的益处是减少了调试时间。据Patronus表示,早期客户将分析代理工作流程的时间从大约一小时缩短到了一至1.5分钟。
TRAIL基准测试揭示AI监督能力的关键差距
在发布产品的同时,Patronus还推出了一个名为TRAIL(轨迹推理和代理问题定位)的基准测试,以评估系统在检测AI代理工作流程中的问题方面的能力。使用该基准进行的研究发现,即使是最先进的AI模型在有效的轨迹分析方面也存在困难,表现最好的系统在该基准测试中的得分也只有1%。这些发现凸显了监控复杂AI系统的挑战性,并可能解释了为什么大型企业正在投资用于AI监督的专用工具。
企业AI领导者采用Percival进行关键代理应用
早期采用者包括Emergence AI,该公司已筹集了约亿美元的资金,正在开发AI代理可以创建和管理其他代理的系统。Emergence AI的联合创始人兼CEO Satya Nitta在一份声明中表示:“Emergence最近的突破——代理创建代理——不仅标志着自适应、自我生成系统的进化中的一个关键时刻,也标志着如何负责任地管理和扩展此类系统的一个关键时刻。”另一家早期客户Nova正在使用该技术为一个平台提供支持,该平台可帮助大型企业通过AI驱动的SAP集成迁移遗留代码。这些客户代表了Percival旨在解决的问题的典型案例。据Kannappan称,一些公司现在管理的代理系统“单个代理目录中的步骤超过0个”,创建了远超人类操作员能够有效监控的复杂性。
随着自主系统的普及,AI监督市场有望爆发式增长
该产品的发布正值企业对AI可靠性和治理的担忧日益加剧之际。随着企业部署越来越多的自主系统,对监督工具的需求也随之增加。Kannappan指出:“具有挑战性的是,系统变得越来越自主。”他补充道,“每天使用AI生成数十亿行代码”,创造了一个手动监督实际上变得不可能的环境。随着企业从实验性部署转向关键AI应用,AI监控和可靠性工具的市场预计将显著扩大。
Percival与多个AI框架集成,包括Hugging Face Smolagents、Pydantic AI、OpenAI Agent SDK和Langchain,使其与各种开发环境兼容。虽然Patronus AI没有披露定价或收入预测,但该公司对企业级监督的关注表明,它正在定位高利润的企业AI安全市场,分析师预测,随着AI采用的加速,该市场将大幅增长。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/patronus-ai-tui-chu-percival-zhu-li-qi-ye-da-gui-mo-jian