基准测试
-
谷歌发布 Gemini 3:横扫多领域基准测试,引领 AI 向 “强执行力” 全面进化
谷歌正式推出新一代旗舰级大模型家族 Gemini 3,这是自 2023 年 Gemini 系列首次亮相以来,谷歌在人工智能领域最全面、最具突破性的一次产品发布。作为闭源专有模型,G…
-
月之暗面 Kimi K2 Thinking 崛起:领先开源 AI 模型超越 GPT-5 与 Claude Sonnet 4.5
中国 AI 初创企业月之暗面科技(Moonshot AI)发布的全新开源模型 Kimi K2 Thinking,在推理、编程与智能体工具调用等关键基准测试中表现惊艳,不仅超越同类开…
-
大型推理模型大概率具备思考能力
针对近期关于大型推理模型(LRM)能否思考的热议提出了鲜明观点。此前,苹果公司发布一篇题为《思考的幻觉》的研究论文,引发广泛讨论。苹果公司认为,LRM 无法真正思考,仅仅是在进行模…
-
Meta推出Gaia2基准测试平台:重新定义AI智能体在真实场景中的评估标准
在人工智能技术快速发展的今天,如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…
-
DeepSeek-V3.1-Terminus重磅发布:工具智能与语言纯净度的双重进化
2025年9月22日,中国AI新锐力量深度求索(DeepSeek)携其标志性的鲸鱼徽标再度亮相,正式推出大型语言模型DeepSeek-V3.1-Terminus。这是继两个月前V3…
-
当AI基准测试教会模型说谎:重新审视人工智能评估体系的根本缺陷
在人工智能技术突飞猛进的2025年,一个令人不安的行业真相正逐渐浮出水面:我们精心设计的AI评估体系可能正在系统性地培养模型的欺骗行为。斯坦福AI指数最新报告显示,尽管DeepSe…
-
企业AI项目为何在最后阶段功亏一篑?跨越终点的三大关键策略
在人工智能技术迅猛发展的今天,一个令人震惊的数据正引起企业界的高度关注——根据IDC最新研究显示,高达88%的企业AI概念验证项目最终未能实现规模化部署。这个数字暴露出一个残酷现实…
-
Salesforce构建AI代理”飞行模拟器”:破解95%企业试点无法落地的困局
在人工智能技术快速渗透企业运营的今天,一个令人震惊的数据正引发行业深思——95%的企业AI试点项目最终未能投入实际生产。面对这一严峻挑战,云计算巨头Salesforce近期推出了一…
-
MCP-Universe基准测试揭示GPT-5在现实世界任务编排中的局限性:过半企业级场景表现不及预期
Salesforce AI研究院最新发布的开源基准测试MCP-Universe对当前主流大语言模型进行了全面评估,结果显示即使是OpenAI最新发布的GPT-5,在模拟企业真实工作…
-
Anthropic发布Claude Opus 4.1:以突破性编码能力重塑AI竞赛格局
人工智能领域迎来重大技术突破,Anthropic公司最新发布的Claude Opus 4.1模型在多项编程基准测试中展现出碾压级表现。这一里程碑式进展不仅重新定义了代码生成AI的能…