基准测试
-
AI2 发布 Olmo 3.1:强化学习升级驱动推理能力跃升,全流程开源树立行业新标杆
艾伦人工智能研究所(Ai2)在 Olmo 3 基础上推出迭代版本 Olmo 3.1,通过延长强化学习(RL)训练时长、优化训练策略,显著提升模型在数学推理、指令遵循等核心能力上的表…
-
并非 AI 发展停滞,而是你用错了评估标准
如今企业高管们开始对自身的 AI 路线图产生怀疑。2023 年生成式 AI 工具掀起热潮后,人们自然会疑惑这股发展势头是否已经放缓,但这种疑问其实是对 “AI 发展评分标准” 的误…
-
谷歌发布 Gemini 3:横扫多领域基准测试,引领 AI 向 “强执行力” 全面进化
谷歌正式推出新一代旗舰级大模型家族 Gemini 3,这是自 2023 年 Gemini 系列首次亮相以来,谷歌在人工智能领域最全面、最具突破性的一次产品发布。作为闭源专有模型,G…
-
月之暗面 Kimi K2 Thinking 崛起:领先开源 AI 模型超越 GPT-5 与 Claude Sonnet 4.5
中国 AI 初创企业月之暗面科技(Moonshot AI)发布的全新开源模型 Kimi K2 Thinking,在推理、编程与智能体工具调用等关键基准测试中表现惊艳,不仅超越同类开…
-
大型推理模型大概率具备思考能力
针对近期关于大型推理模型(LRM)能否思考的热议提出了鲜明观点。此前,苹果公司发布一篇题为《思考的幻觉》的研究论文,引发广泛讨论。苹果公司认为,LRM 无法真正思考,仅仅是在进行模…
-
Meta推出Gaia2基准测试平台:重新定义AI智能体在真实场景中的评估标准
在人工智能技术快速发展的今天,如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…
-
DeepSeek-V3.1-Terminus重磅发布:工具智能与语言纯净度的双重进化
2025年9月22日,中国AI新锐力量深度求索(DeepSeek)携其标志性的鲸鱼徽标再度亮相,正式推出大型语言模型DeepSeek-V3.1-Terminus。这是继两个月前V3…
-
当AI基准测试教会模型说谎:重新审视人工智能评估体系的根本缺陷
在人工智能技术突飞猛进的2025年,一个令人不安的行业真相正逐渐浮出水面:我们精心设计的AI评估体系可能正在系统性地培养模型的欺骗行为。斯坦福AI指数最新报告显示,尽管DeepSe…
-
企业AI项目为何在最后阶段功亏一篑?跨越终点的三大关键策略
在人工智能技术迅猛发展的今天,一个令人震惊的数据正引起企业界的高度关注——根据IDC最新研究显示,高达88%的企业AI概念验证项目最终未能实现规模化部署。这个数字暴露出一个残酷现实…
-
Salesforce构建AI代理”飞行模拟器”:破解95%企业试点无法落地的困局
在人工智能技术快速渗透企业运营的今天,一个令人震惊的数据正引发行业深思——95%的企业AI试点项目最终未能投入实际生产。面对这一严峻挑战,云计算巨头Salesforce近期推出了一…