自动化评估
-
Anthropic推出AI审计代理系统 应对大模型对齐挑战
在AI系统日益复杂的背景下,Anthropic公司近日发布突破性研究成果——三款自动化对齐审计代理,旨在解决大模型部署前的关键安全验证问题。这项创新源于对Claude Opus 4…
-
开源工具MCPEval实现了协议级智能体测试的即插即用
企业正逐步采用模型上下文协议(MCP),主要用于辅助识别和指导智能体工具的使用。然而,Salesforce的研究人员发现了MCP技术的另一项应用——评估AI智能体本身。他们推出了M…
-
腾讯推出全新基准测试工具,助力创意AI模型评估
在人工智能(AI)技术日新月异的今天,如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日,腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具,旨在解…
-
Google的AlphaEvolve:AI代理如何为Google节省0.7.%的计算资源及其启示
在人工智能领域,Google的DeepMind团队再次展现了其创新实力,推出了AlphaEvolve这一革命性的AI代理系统。该系统不仅能够自主重写关键代码,还在Google内部实…
-
RAG性能评估的新纪元:开源框架助力企业科学衡量AI效能
随着企业纷纷投入资源构建检索增强型生成(RAG)系统,一个关键问题逐渐浮现:这些系统是否真的如预期般有效工作?为了填补这一评估盲区,矢量科技(Vectara)携手滑铁卢大学的林吉米…