LLM-as-a-judge

AI前沿

Meta推出Gaia2基准测试平台：重新定义AI智能体在真实场景中的评估标准‌

在人工智能技术快速发展的今天，如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…

王浩然
2025年9月28日
000