自动化评估

AI前沿

‌Anthropic推出AI审计代理系统应对大模型对齐挑战‌

在AI系统日益复杂的背景下，Anthropic公司近日发布突破性研究成果——三款自动化对齐审计代理，旨在解决大模型部署前的关键安全验证问题。这项创新源于对Claude Opus 4…

王浩然
2025年7月28日
000
AI前沿

开源工具MCPEval实现了协议级智能体测试的即插即用

企业正逐步采用模型上下文协议（MCP），主要用于辅助识别和指导智能体工具的使用。然而，Salesforce的研究人员发现了MCP技术的另一项应用——评估AI智能体本身。他们推出了M…

王浩然
2025年7月23日
000
AI前沿

腾讯推出全新基准测试工具，助力创意AI模型评估

在人工智能（AI）技术日新月异的今天，如何准确、高效地评估AI模型的性能成为了业界关注的焦点。近日，腾讯公司宣布推出了一款名为ArtifactsBench的全新基准测试工具，旨在解…

王浩然
2025年7月10日
000
AI前沿

Google的AlphaEvolve：AI代理如何为Google节省0.7.%的计算资源及其启示

在人工智能领域，Google的DeepMind团队再次展现了其创新实力，推出了AlphaEvolve这一革命性的AI代理系统。该系统不仅能够自主重写关键代码，还在Google内部实…

王浩然
2025年5月22日
000
AI前沿

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米…

王浩然
2025年4月10日
000