阿里巴巴开源Qwen3-Thinking-2507模型：推理性能超越OpenAI与Gemini，领跑AI基准测试

王浩然 • 2025年7月28日下午7:00 • AI前沿 • 392 views

阿里巴巴Qwen团队近期发布了四款开源生成式AI模型，其中Qwen3-235B-A22B-Thinking-2507（简称Qwen3-Thinking-2507）在多项关键基准测试中表现优异，甚至超越了OpenAI和Gemini等领先的专有模型。这款专注于推理的大型语言模型（LLM）通过“思维链”和自我反思机制，能够在复杂任务中提供更准确和全面的回答。

在AIME25基准测试中，Qwen3-Thinking-2507以92.3分的成绩领先所有已报告的模型，略高于OpenAI的o4-mini（92.7分）和Gemini-2.5 Pro（88.0分）。在LiveCodeBench v6测试中，该模型以74.1分的成绩超越Gemini-2.5 Pro（72.5分）和o4-mini（71.8分），并显著优于其早期版本（55.7分）。此外，在GPQA（研究生级多选题测试）中，Qwen3-Thinking-2507取得了81.1分，接近Deepseek-R1-0528（81.0分），略低于Gemini-2.5 Pro的86.4分。在Arena-Hard v2测试中，该模型以79.7分的成绩位居榜首。

Qwen团队的战略调整也值得关注。他们放弃了需要用户手动切换“思考”和“非思考”模式的混合推理模型，转而训练独立的推理和指令模型。这种分离使得每个模型能够针对其特定用途进行优化，从而提升性能和一致性。除了Qwen3-Thinking-2507，团队还发布了Qwen3-Coder-480B-A35B-Instruct（专注于复杂编码任务）、Qwen3-MT（多语言翻译模型）以及Qwen3-235B-A22B-Instruct-2507（非推理模型）。这些模型均采用Apache 2.0许可证，允许企业自由下载、修改和商业化部署。

Qwen3-Thinking-2507目前可通过Hugging Face和ModelScope免费下载，企业也可通过阿里云API、vLLM和SGLang进行托管。其定价为输入每百万令牌0.7美元，输出每百万令牌8.4美元，并提供180天内免费的100万令牌试用。该模型支持长上下文（最高81,920令牌）、代理框架集成以及本地部署，适用于企业级AI系统，尤其是在推理、规划和决策支持场景中。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/a-li-ba-ba-kai-yuan-qwen3thinking2507-mo-xing-tui-li-xing

Apache 2.0 Qwen3-235B-A22B-Thinking-2507 代理框架企业AI 基准测试多语言翻译开源模型推理LLM 长上下文阿里巴巴

Like (0)

王浩然作者

0 0

‌Anthropic推出AI审计代理系统应对大模型对齐挑战‌

Previous 2025年7月28日

Sparrow获3500万美元B轮融资：AI技术破解员工休假管理难题‌

Next 2025年7月29日

AI前沿

AIUTA CEO Maísa Benatti：用生成式AI重构时尚电商的真实体验

当AI与时尚相遇，有人看到的是创意的新玩法，有人看到的是效率的提升，而AIUTA的CEO Maísa Benatti看到的是一场体验的革命。这位深耕时尚科技与生成式AI领域的先锋领…

王浩然
2026年2月27日
000
AI前沿

2025年及以后AI的三大预测‌

近年来，人工智能（AI）的飞速发展令人叹为观止。从协助发现可能拯救生命的药物疗法，到推动自动驾驶汽车技术的革新，AI正深刻影响着我们的日常生活。作为AI的乐观拥趸，我坚信AI将继续…

王浩然
2025年3月14日
000
AI前沿

EliseAI首席体验官Fran Loftus：以人文视角打造垂直领域AI服务新范式

在AI技术深度渗透各行各业的当下，如何让智能系统真正贴合场景需求、服务于人，成为了行业探索的核心命题。纽约AI软件公司EliseAI的首席体验官Fran Loftus，凭借其在社区…

王浩然
2026年3月4日
000
AI前沿

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。微软今天发布了一项服务，名为 Correction，旨在自动…

王浩然
2024年9月25日
000
AI前沿

迪士尼为何将生成式 AI 融入运营模式：IP 管控与创新效率的平衡之道

作为以知识产权（IP）为核心竞争力的娱乐巨头，迪士尼正面临 “规模化内容生产” 与 “IP 严格管控” 的典型矛盾 —— 需为多渠道、多受众输出丰富内容，同时确保版权安全、内容合规…

王浩然
2025年12月27日
000
AI前沿

Grok 4.1 Fast 开发者功能亮眼，却因狂吹马斯克陷入争议

埃隆・马斯克旗下 xAI 公司正式向开发者开放 Grok 4.1 Fast 系列模型的 API 访问权限，并推出全新 Agent Tools API，本应是技术落地的重要里程碑，却…

王浩然
2025年11月23日
000
AI前沿

人工智能与区块链和去中心化数据相遇

区块链可以成为去中心化人工智能系统的基础，成为一股强大的力量，透明而公平——确保每个人不仅可以使用技术，还可以获得它带来的回报。随着 OpenAI、谷歌和 Anthropic 等…

点点
2024年10月21日
000
AI前沿

OpenAI 和 Anthropic 同意将模型送交美国政府进行安全评估

OpenAI和Anthropic与美国国家标准与技术研究所（NIST）下属的人工智能安全研究所签署协议，合作开展人工智能模型安全研究、测试和评估。该协议为人工智能安全…

王浩然
2024年9月2日
000
AI前沿

并行 AI 智能体：开启更智能机器智能的下一代缩放法则

2025 年 10 月 10 日，Unite.AI 发布的《Parallel AI Agents: The Next Scaling Law for Smarter Machine…

王浩然
2025年10月11日
000
AI前沿

xAI 以每月价值 25 美元的 API 积分吸引开发者，并支持 OpenAI、Anthropic SDK

我们已经知道这一点有一段时间了，但现在我们可以确定的是：生成式人工智能竞赛对于开发人员来说就像对于最终用户来说一样是一场竞赛。举个例子：今天，埃隆·马斯克的 xAI（社交网络 X…

王浩然
2024年11月6日
000
AI前沿

Box 继续拓展数据共享以外的业务，推出代理驱动的企业 AI 工作室和无代码应用程序

对于许多企业来说，Box是一个知名的文件共享和数据协作应用程序。尤其是过去一年，Box 凭借其在生成式 AI 方面的努力，取得了长足进步。如今，这些努力正通过技术获得巨大推动，…

王浩然
2024年11月13日
000
AI前沿

阿里Qwen-Image Edit挑战Photoshop：秒级AI图像编辑技术深度解析‌

在AI图像处理领域，阿里巴巴Qwen团队最新发布的Qwen-Image Edit模型正引发行业震动。这款基于200亿参数基础模型的开源工具，通过纯文本指令即可完成专业级图像编辑，将…

王浩然
2025年8月21日
000
AI前沿

特斯拉的“We, Robot”活动：Robovan 透露 Cybercab 的回顾

特斯拉的“We, Robot”活动已经结束，但仍有许多事情需要关注。特斯拉宣称 Cybercab 是自动驾驶交通的未来，据透露，该车是双座车，售价不到 30,000 美元。随后…

王浩然
2024年10月12日
000
AI前沿

AI 编码初创公司 Poolside 从 eBay、Nvidia 等公司筹集 5 亿美元

人工智能软件开发平台Poolside已筹集5 亿美元新资本。这笔资金来自贝恩资本风险投资公司 (Bain Capital Ventures) 牵头的 B 轮融资，参与融资的还有 …

点点
2024年10月3日
000
AI前沿

BBVA 借助 ChatGPT Enterprise 深耕银行 AI 转型：成效、挑战与未来布局

西班牙国际银行（BBVA）宣布与 OpenAI 深化战略合作，将 ChatGPT Enterprise 全面嵌入核心银行业务流程，计划覆盖全球 12 万名员工，较此前部署规模扩大 …

王浩然
2025年12月15日
000
AI前沿

Google发布Gemini 2.5 AI模型，挑战OpenAI企业市场霸主地位

Google在人工智能领域的竞争中迈出了决定性的一步，宣布其最强大的Gemini 2.5模型已准备好投入企业生产使用，并同时推出了一款旨在以成本和速度优势超越竞争对手的超高效变体。…

王浩然
2025年6月22日
000
AI前沿

专家表示，OpenAI 的专利承诺只不过是“美德信号”

本周，OpenAI 在其网站上悄然发布了一份声明，承诺不会以攻击性的方式使用其专利。 OpenAI 坚称其坚持“广泛使用”和“合作”原则，并表示将只以支持创新的方式使用其专利。该公…

点点
2024年10月18日
000
AI前沿

估值超千亿美元，OpenAI还能继续领先吗？

OpenAI重要的三件事

点点
2024年9月6日
000
AI前沿

研究表明：增加智能体数量并非提升企业级 AI 系统性能的可靠路径

针对智能体系统（agentic systems）的全面分析显示，行业内普遍认同的 “智能体数量越多越好” 这一观点并不成立。研究团队通过量化模型揭示，智能体数量、协作结构、模型能力…

王浩然
2025年12月25日
000
AI前沿

Token Monster：智能整合多模型与工具，简化LLM选择‌

在人工智能领域，大型语言模型（LLM）的选择一直是个令人头疼的问题。每个模型都有其独特的优势和应用场景，但对于非专业人士或资源有限的企业来说，如何挑选最适合自己的LLM往往是一项复…

王浩然
2025年6月1日
000

发表回复

Please Login to Comment

阿里巴巴开源Qwen3-Thinking-2507模型：推理性能超越OpenAI与Gemini，领跑AI基准测试

相关推荐

发表回复