Gemini 3.1 Pro发布:推理性能翻倍,AI基准测试再破纪录

Gemini 3.1 Pro发布:推理性能翻倍,AI基准测试再破纪录

2月19日,谷歌推出旗舰AI模型Gemini 3.1 Pro,这一更新在保持与前代产品相同定价的前提下,将推理性能提升了一倍以上,再次刷新了大语言模型的能力边界。

此次更新最引人瞩目的突破来自推理能力的跨越式提升。在ARC-AGI-2基准测试中,Gemini 3.1 Pro取得了77.1%的成绩,而前代Gemini 3 Pro仅为31.1%,46个百分点的涨幅创下了前沿模型家族单代推理性能提升的最高纪录。与依赖记忆训练数据的传统测试不同,ARC-AGI-2专注于评估模型解决全新逻辑模式的能力,这一结果意味着Gemini 3.1 Pro在处理未知问题时的逻辑推理能力实现了质的飞跃。

在全维度基准测试中,Gemini 3.1 Pro同样表现抢眼。在18项追踪基准测试中,该模型拿下了12项第一。其中,在研究生级科学推理测试GPQA Diamond中,它取得了94.3%的高分;在衡量竞争性编程能力的LiveCodeBench Pro测试中,达到了2887 Elo的最高分,位居所有前沿模型之首。

在被称为“人类终极考试”的跨学科专家基准测试中,Gemini 3.1 Pro的得分从Gemini 3 Pro的37.5%提升至44.4%,超过了GPT-5.2的34.5%。在多语言能力测试MMLU中,它的成绩达到92.6%,同时在12.8万token的长上下文场景下,准确率保持在84.9%。该模型保留了100万token的输入上下文窗口,最多可生成6.4万token的输出,足以满足AI编码工具一次性处理整个代码库并生成大量代码块的需求。

不过,Gemini 3.1 Pro并非在所有领域都占据绝对领先。在测试实际软件工程任务的SWE-Bench Verified中,它以80.6%的成绩略逊于Anthropic Claude Opus 4.6的80.8%,这一微小差距表明Anthropic在驱动企业采用的实用编码任务中仍保持着微弱优势。

动态思维是Gemini 3.1 Pro的核心创新之一。该模型默认采用动态思维模式,能够根据提示的复杂程度自动调整内部推理的深度:对于简单问题,快速给出答案;面对复杂的多步骤问题,则会触发更深层次的处理链。开发者还可以通过API中的thinking_level参数控制这一行为,设置内部推理的最大深度。这种设计巧妙平衡了推理模型的一个核心矛盾:深度思考能提高难题的准确率,但会增加简单查询的延迟和成本。

这一功能反映了AI行业的整体趋势。OpenAI的o系列模型将思维链推理作为可选模式,Anthropic的Claude则提供可选择的扩展思维功能,而谷歌选择将动态思维设为默认模式,并允许调整强度,押注于大多数用户更愿意让模型自主决定思考深度,而非手动管理这一决策。

在竞争日益激烈的AI市场中,Gemini 3.1 Pro的发布进一步收紧了格局。谷歌Gemini 3曾引发OpenAI的“红色警报”,促使其在不到一个月内推出GPT-5.2;Anthropic也在加速推送Claude的更新。随着各模型之间的差距不断缩小,用户选择平台的依据正逐渐从原始能力转向生态系统和定价。

谷歌的优势在于其庞大的分发网络。Gemini 3.1 Pro直接接入了数亿人日常使用的产品,包括Gmail、Docs、Search以及连接用户个人数据的个人智能功能。同时,它还为Gemini Enterprise和Gemini CLI提供支持,让开发者和企业能够通过现有工具访问。

在定价方面,Gemini 3.1 Pro保持了与前代相同的策略:对于20万token以下的提示,输入价格为每百万token2美元,超过20万token的长上下文则为每百万token4美元,输出价格为每百万token12美元。现有Gemini 3 Pro的API用户可免费升级,这一策略不仅比OpenAI和Anthropic的旗舰产品更具价格优势,还消除了现有用户的迁移成本。

推理能力的提升对智能代理类应用尤为关键,这类AI系统需要自主规划、执行多步骤任务并使用工具。ARC-AGI-2测试的正是智能代理在遇到训练数据未覆盖的问题时所需的新型模式识别能力,77.1%的成绩意味着Gemini 3.1 Pro在处理陌生情况时比前代模型可靠得多。

当然,基准测试的优异成绩能否转化为实际应用中的同等提升,还需要时间来验证。基准测试在受控条件下评估特定能力,而实际用户体验取决于模型在处理各种不可预测任务时的表现。不过,ARC-AGI-2测试的巨大飞跃表明,Gemini 3.1 Pro在处理未知问题的能力上已经走在了行业前列,用户将如何利用这一能力,将决定这一技术突破的真正价值。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gemini-3-1-pro-fa-bu-tui-li-xing-neng-fan-bei-ai-ji-zhun-ce

Like (0)
王 浩然的头像王 浩然作者
Previous 1天前
Next 18小时前

相关推荐

发表回复

Please Login to Comment