‌Google AI新飞跃:Gemini 2.5思考更深、表达更智、编码更快‌

‌Google AI新飞跃:Gemini 2.5思考更深、表达更智、编码更快‌

在Google I/O大会上,科技巨头Google宣布了其Gemini .人工智能模型的重大升级,包括FlashPro两个版本。这些升级使得Gemini 2.5在推理代码生成以及长文本语境理解等多个维度上实现了显著提升,进一步向“通用AI助手”的目标迈进。

一、Gemini 2.5 Pro:更智能的思考者

Gemini . Pro被Google视为迄今为止最智能的模型,它拥有一个百万级别的token上下文窗口。此次升级中,Pro版本引入了一个名为“Deep Think”的实验性增强推理模式。该模式允许模型在回应之前考虑多个假设,从而做出更加全面和准确的判断。

Deep Think在多个高难度的数学和编程基准测试中表现出色,包括5年美国数学奥林匹克竞赛(USAMO)和竞争级的编程基准测试LiveCodeBench。此外,它在多模态理解和推理测试MMMU中也获得了.%的高分。

Google DeepMind的首席执行官Demis Hassabis表示:“这是Gemini应用的终极目标:打造一个个性化、主动且强大的AI。”他强调,基于AlphaGo的经验,给予AI模型更多思考时间可以提高其响应质量。因此,DeepMind科学家开发了Deep Think,该模式采用了Google最新的思考和推理研究成果,包括并行处理技术。

二、Gemini 2.5 Flash:速度与效率的典范

与此同时,Gemini . Flash作为工作主力模型,在设计上更注重速度、效率和成本效益。此次升级中,Flash在推理、多模态性、代码生成以及长文本语境理解等多个基准测试中都取得了显著进步。尽管在LMArena基准测试中略逊于Pro版本,但Flash仍然以其高效能和低成本赢得了开发者的青睐。

Hassabis指出,Flash在LMArena基准测试榜上紧随Pro之后,排名第二。此外,该模型还更加高效,使用的token数量减少了%至%。目前,Google正在根据开发者的反馈对Flash进行最后的调整,并计划在月初正式推出生产版本。

三、新增功能:更自然的对话体验

为了进一步提升用户体验,Google为Gemini . Pro和Flash都增加了原生音频输出功能。这一功能使得模型能够创建更加自然的对话体验,支持多说话者,并能够快速切换不同的方言和语言。此外,模型现在还具备情感对话能力,能够检测用户声音中的情感并做出相应回应。

除了音频输出外,Google还为Gemini 2.5增加了思想摘要思考预算等功能。思想摘要功能将模型的原始思考过程组织成清晰的格式,包括标题、关键细节以及模型行动信息。这有助于用户更好地理解模型的思考过程并进行调试。而思考预算功能则允许开发者控制模型在回应之前使用的token数量,或者完全关闭其思考能力。

四、面向未来的布局

Google DeepMind的首席技术官Koray Kavukcuoglu和高级产品经理Tulsee Doshi在博客文章中写道:“我们正处于一个历史性的时刻,AI正在为我们创造一个令人惊叹的新未来。”他们表示,Gemini .的升级是这一进程中的重要一步。

为了支持更复杂的任务处理,Google还在Gemini API和Vertex AI中增加了对Model Context Protocol(MCP)定义的原生SDK支持。这使得模型能够更容易地与开源工具集成,从而扩展其功能和应用场景。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-ai-xin-fei-yue-gemini-2-5-si-kao-geng-shen-biao-da

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年5月22日
Next 2025年5月22日

相关推荐

发表回复

Please Login to Comment