AI 基准测试
-
Zoom 宣称拿下 AI 最难考试高分,争议却随之而来
2025 年 12 月 16 日,以疫情期间助力远程办公闻名的 Zoom 视频通讯公司宣布,其 AI 系统在被称为 “人类终极考试”(Humanity’s Last E…
-
有缺陷的 AI 基准测试:企业预算面临的隐形风险与破局路径
当前广泛用于评估 AI 模型能力的基准测试存在系统性缺陷,可能导致企业基于 “误导性数据” 做出高风险决策 —— 从数千万甚至数亿美元的生成式 AI 项目采购,到核心业务模型的选型…