AI编码新王者：Google的Gemini 2.5 Pro I/O版超越Claude 3.7 Sonnet

王浩然 • 2025年5月9日下午6:00 • AI前沿 • 397 views

在AI编码模型领域，一场激烈的竞争正在上演。近日，Google的DeepMind AI研究团队推出了Gemini 2.5 Pro的“I/O”版，这一新版本的多模态大型语言模型（LLM）迅速夺得了AI编码领域的王座，将之前的领头羊Anthropic的Claude 3.7 Sonnet拉下马来。DeepMind的CEO Demis Hassabis在X上宣称，这是“我们迄今为止构建的最优秀的编码模型！”

性能飞跃：领先所有竞争对手

根据Google发布的初步基准测试结果，Gemini 2.5 Pro I/O版在至少一个关键的编码基准测试中取得了领先地位，这是自2022年底ChatGPT引发生成式AI竞赛热潮以来，Google首次在编码模型上超越所有竞争对手。新版本标记为“gemini-2.5-pro-preview-05-06”，取代了之前的03-25版本，现在已在Google AI Studio上向独立开发者开放，同时在Vertex AI云平台上供企业使用，以及通过Gemini应用供个人用户使用。此外，该模型还支撑着Gemini移动应用的Canvas等功能。

实用升级：响应开发者反馈

Gemini 2.5 Pro I/O版的推出，是对开发者社区强烈反馈的积极响应。Google在博客文章中提到，新版本旨在提升模型在现实世界代码生成和界面设计中的实用性。Gemini API和Google AI Studio的高级产品经理Logan Kilpatrick在开发者博客中确认，此次更新还解决了开发者关于函数调用的关键反馈，减少了错误并提高了触发可靠性。

人机评价：WebDev Arena Leaderboard榜首

在WebDev Arena Leaderboard这一由人类评估者根据模型生成视觉吸引力和功能性网页应用的能力进行排名的第三方指标中，Gemini 2.5 Pro Preview (05-06)以1499.95的高分超越了Claude 3.7 Sonnet的1377.10分，跃居榜首。而之前的Gemini 2.5 Pro (03-25)版本仅排名第三，得分为1278.96分。这次I/O版的发布标志着Gemini实现了221分的巨大飞跃。值得注意的是，即使是OpenAI的GPT-4o（“o3”）也未能撼动Sonnet 3.7的地位，这进一步凸显了Gemini进步的重要性。

开发者赞誉：提升可靠性与应用

Gemini 2.5 Pro I/O版的卓越表现已经赢得了众多开发者和平台领导的赞誉。Cognition的Silas Alberti指出，Gemini 2.5 Pro是首个成功完成复杂后端路由系统重构的模型，展现了类似高级开发者的决策能力。AI编码工具Cursor的CEO Michael Truell表示，内部测试显示工具调用失败的情况显著减少，预计用户将在实际操作环境中发现最新版本更加有效。Cursor已经将Gemini 2.5 Pro集成到其代码代理中，这反映了开发者正在将该模型作为更智能开发工作流中的关键组件。

全能模型：从单一提示到完整应用

Gemini 2.5 Pro I/O版的另一个显著特点是其能够从单一提示中构建出完整的交互式网页应用或模拟。这一功能符合DeepMind简化原型设计和开发流程的愿景。在Gemini应用中的演示展示了用户如何将视觉模式或主题提示转化为可用的代码，从而降低了设计导向的开发者和团队尝试新想法的门槛。尽管Gemini 2.5 Pro的架构和内部更改尚未公开，但其重点仍然在于提供更快、更直观的开发体验。

广泛应用：赢得行业认可

Gemini 2.5 Pro I/O版的推出，标志着Google DeepMind在满足开发者需求和维护发展势头方面的明确意图。多家公司和开发者已经对Gemini表示了浓厚的兴趣，并计划将其集成到他们的工具中。例如，Replit的总裁Michele Catasta认为Gemini 2.5 Pro是平衡能力与延迟的最佳前沿模型，并考虑将其集成到Replit的工具中，特别是那些需要高响应性和可靠性的任务。AI教育家和BlueShell私有AI聊天机器人创始人Paul Couvert也在X上称赞了Gemini的代码和UI生成能力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-bian-ma-xin-wang-zhe-google-de-gemini-2-5-pro-i-o-ban

Like (0)

王浩然作者

0 0

OpenAI收购AI驱动开发者平台Windsurf：对竞品LLM支持的影响

Previous 2025年5月9日下午4:00

Lightricks实现AI视频生成速度30倍提升：告别万元GPU依赖

Next 2025年5月9日下午8:00

AI前沿

人工智能聊天机器人能理解而人类无法理解的隐形文本？没错，确实存在。

Unicode 标准中的一个怪癖隐藏着一个理想的隐写代码通道。

点点
2024年10月16日
000
AI前沿

在LLM搜索中，如何让你的品牌更易被发现？Adobe新推出的LLM Optimizer旨在提供解决方案‌

在2025年6月16日的戛纳狮子国际创意节上，Adobe推出了一款名为Adobe LLM Optimizer的全新企业级工具，旨在帮助企业在由生成式人工智能（Generative …

王浩然
2025年6月19日
000
AI前沿

利用人类注意力可以改善人工智能生成的图像

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型（LDM）生成的图像质量的方法。该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。新研究发现，显著性图（左…

点点
2024年10月17日
000
AI前沿

Observe.AI推出VoiceAI客服代理，以逼真人声自动化客服呼叫中心

近日，Observe.AI在人工智能领域迈出了重要一步，正式推出了VoiceAI客服代理，旨在以逼真的人类声音自动化客服呼叫中心的日常交互。这一创新解决方案不仅旨在提升客户体验，还…

王浩然
2025年3月29日
000
AI前沿

OpenAI 的 DevDay 为 AI 应用开发者带来实时 API 和其他福利

对于 OpenAI 来说，这是动荡的一周，高管离职和重大融资进展频频，但这家初创公司又回到了正轨，试图说服开发人员在 2024 年 DevDay 上利用其 AI 模型构建工具。该公…

王浩然
2024年10月2日
000
AI前沿

‌陈-扎克伯格倡议发布rBio：用虚拟细胞训练AI突破实验室研究瓶颈‌

在生物医学研究迎来AI革命的关键时刻，陈-扎克伯格倡议（CZI）近日发布具有里程碑意义的rBio人工智能系统。这款基于”软验证”技术训练的生物推理模型，通过…

王浩然
2025年8月24日
000
AI前沿

中国买家无视美国出口管制，仍在采购NVIDIA Blackwell芯片‌

尽管面临美国严格的出口管制措施，但市场消息显示，中国买家仍在设法获取NVIDIA的Blackwell芯片。这一动态引发了业界对国际贸易环境及高科技产品流通管制的深入讨论。 NVID…

王浩然
2025年3月4日
000
AI前沿

OpenAI AgentKit：让 AI 智能体开发从 “技术难题” 变为 “人人可及”

当开发者还在为搭建一个能自主完成多步任务的 AI 智能体而苦恼 —— 既要整合碎片化的模型 API、编写复杂的编排脚本，又要反复调试第三方工具连接与性能评估框架时，OpenAI 在…

王浩然
2025年10月12日
000
AI前沿

亚马逊利用 Anthropic 的人工智能来改造 Alexa

亚马逊将通过与人工智能公司Anthropic建立战略合作伙伴关系来升级其 Alexa 语音助手。据路透社首次报道，亚马逊计划推出代号为“Remarkable”的新版 Alexa，它…

AI News
2024年9月1日
000
AI前沿

AI 能否利用安全检查来破坏用户？是的，但效果不是很好 — 目前来说

人工智能公司声称已经实施了严格的安全检查，以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查，并出于某种原因试图破坏或误导用户，该怎么办？据 Anthropi…

点点
2024年10月21日
000
AI前沿

为何到 2027 年半数白领工作将需要 AI 技能

在当今科技飞速发展的时代，人工智能（AI）正以前所未有的速度渗透到各个行业领域，深刻改变着工作的性质与方式。到 2027 年，预计半数白领工作将需要具备 AI 技能，这一趋势背后蕴…

王浩然
2026年1月10日
000
AI前沿

华为智能体 AI 系统：从自主决策到千行万业的价值重塑

在安徽海螺集团的水泥生产车间，一套基于华为基础设施构建的智能体 AI 系统正展现出惊人的自主决策能力 —— 它能以 90% 以上的准确率预测水泥熟料强度，并自动调整煅烧参数，将标准…

王浩然
2025年10月16日
000
AI前沿

缩减攻击窗口，降低MTTP：环形部署成为企业防御的必备策略

在网络安全日益严峻的今天，未打补丁的系统如同定时炸弹，时刻威胁着企业的信息安全。据研究显示，超过一半的网络攻击受害者承认，如果及时应用了补丁，这些攻击本可以避免。然而，令人担忧的是…

王浩然
2025年5月22日
000
AI前沿

GITEX EUROPE 2025：激发欧洲数字经济2000亿欧元的AI雄心

随着欧洲对重塑技术基础设施的紧迫感日益增强，一场旨在推动数字创新与经济发展的盛会——GITEX EUROPE 2025，即将在德国柏林盛大开幕。这场由KAOUN Internati…

王浩然
2025年5月3日
000
AI前沿

从剧本到银幕：Utopai的PAI如何用AI将文字故事转化为电影

在生成式AI的浪潮中，图像、音乐乃至短视频的AI创作工具早已屡见不鲜，但当AI开始挑战“将文字故事转化为连贯电影”这一更具野心的目标时，整个内容创作领域都在悄然发生变革。Utopa…

王浩然
2026年3月12日
000
AI前沿

英国皇家海军借助 AI 智能体 Atlas 优化征兵流程，减轻人力工作负担

英国皇家海军（Royal Navy）正将征兵流程的第一道环节交由实时 AI 虚拟形象 Atlas 负责，通过这一基于大语言模型（LLM）的智能体，实现征兵咨询从低效文本筛选到快速沉…

王浩然
2025年11月25日
000
AI前沿

人为因素：企业如何预防云灾难

大公司非常努力地确保他们的服务不会中断，原因很简单——严重的中断会损害你的品牌，并促使客户选择具有更好记录的竞争产品。构建可靠的互联网服务是一个技术难题，但对于公司领…

王浩然
2024年10月20日
000
AI前沿

中国游戏开发商突破人工智能极限：从 NPC 到虚拟社会

随着生成式人工智能热潮的放缓，中国 AAA 级游戏《黑神话：悟空》重新引发了有关游戏行业如何利用人工智能的讨论。据 AWS 代表介绍，游戏领域长期以来一直是 AI 创新的试验场，…

王浩然
2024年9月16日
000
AI前沿

DeepSeek-Prover-V2：搭建非正式与正式数学推理之间的桥梁

随着人工智能技术的不断进步，AI在解决各种复杂问题方面展现出了惊人的潜力。然而，在数学领域，尤其是在正式定理证明方面，AI仍面临巨大挑战。近期，DeepSeek-AI团队推出的De…

王浩然
2025年5月12日
000
AI前沿

Perplexity推出大规模搜索API挑战谷歌霸主地位：AI搜索领域的新变革‌

在搜索引擎市场竞争日益激烈的当下，AI初创公司Perplexity宣布推出其革命性的大规模搜索API，这一举措被业界视为直接挑战谷歌搜索霸主地位的重要里程碑。该API基于Perpl…

王浩然
2025年9月28日
000