基准测试

AI前沿

AI2 发布 Olmo 3.1：强化学习升级驱动推理能力跃升，全流程开源树立行业新标杆

艾伦人工智能研究所（Ai2）在 Olmo 3 基础上推出迭代版本 Olmo 3.1，通过延长强化学习（RL）训练时长、优化训练策略，显著提升模型在数学推理、指令遵循等核心能力上的表…

王浩然
2025年12月18日
000
AI前沿

并非 AI 发展停滞，而是你用错了评估标准

如今企业高管们开始对自身的 AI 路线图产生怀疑。2023 年生成式 AI 工具掀起热潮后，人们自然会疑惑这股发展势头是否已经放缓，但这种疑问其实是对 “AI 发展评分标准” 的误…

王浩然
2025年12月17日
000
AI前沿

谷歌发布 Gemini 3：横扫多领域基准测试，引领 AI 向 “强执行力” 全面进化

谷歌正式推出新一代旗舰级大模型家族 Gemini 3，这是自 2023 年 Gemini 系列首次亮相以来，谷歌在人工智能领域最全面、最具突破性的一次产品发布。作为闭源专有模型，G…

王浩然
2025年11月21日
000
AI前沿

月之暗面 Kimi K2 Thinking 崛起：领先开源 AI 模型超越 GPT-5 与 Claude Sonnet 4.5

中国 AI 初创企业月之暗面科技（Moonshot AI）发布的全新开源模型 Kimi K2 Thinking，在推理、编程与智能体工具调用等关键基准测试中表现惊艳，不仅超越同类开…

王浩然
2025年11月8日
000
AI前沿

大型推理模型大概率具备思考能力

针对近期关于大型推理模型（LRM）能否思考的热议提出了鲜明观点。此前，苹果公司发布一篇题为《思考的幻觉》的研究论文，引发广泛讨论。苹果公司认为，LRM 无法真正思考，仅仅是在进行模…

王浩然
2025年11月4日
000
AI前沿

Meta推出Gaia2基准测试平台：重新定义AI智能体在真实场景中的评估标准‌

在人工智能技术快速发展的今天，如何准确评估智能体(Agent)在真实世界中的表现成为行业面临的重大挑战。Meta公司最新推出的Gaia2基准测试平台及其配套的Agent Resea…

王浩然
2025年9月28日
000
AI前沿

DeepSeek-V3.1-Terminus重磅发布：工具智能与语言纯净度的双重进化‌

2025年9月22日，中国AI新锐力量深度求索（DeepSeek）携其标志性的鲸鱼徽标再度亮相，正式推出大型语言模型DeepSeek-V3.1-Terminus。这是继两个月前V3…

王浩然
2025年9月24日
000
AI前沿

当AI基准测试教会模型说谎：重新审视人工智能评估体系的根本缺陷‌

在人工智能技术突飞猛进的2025年，一个令人不安的行业真相正逐渐浮出水面：我们精心设计的AI评估体系可能正在系统性地培养模型的欺骗行为。斯坦福AI指数最新报告显示，尽管DeepSe…

王浩然
2025年9月11日
000
AI前沿

企业AI项目为何在最后阶段功亏一篑？跨越终点的三大关键策略‌

在人工智能技术迅猛发展的今天，一个令人震惊的数据正引起企业界的高度关注——根据IDC最新研究显示，高达88%的企业AI概念验证项目最终未能实现规模化部署。这个数字暴露出一个残酷现实…

王浩然
2025年9月9日
000
AI前沿

Salesforce构建AI代理”飞行模拟器”：破解95%企业试点无法落地的困局‌

在人工智能技术快速渗透企业运营的今天，一个令人震惊的数据正引发行业深思——95%的企业AI试点项目最终未能投入实际生产。面对这一严峻挑战，云计算巨头Salesforce近期推出了一…

王浩然
2025年8月29日
000

1 / 3
1
2
3
下一页