
阿里巴巴Qwen团队近期发布了四款开源生成式AI模型,其中Qwen3-235B-A22B-Thinking-2507(简称Qwen3-Thinking-2507)在多项关键基准测试中表现优异,甚至超越了OpenAI和Gemini等领先的专有模型。这款专注于推理的大型语言模型(LLM)通过“思维链”和自我反思机制,能够在复杂任务中提供更准确和全面的回答。
在AIME25基准测试中,Qwen3-Thinking-2507以92.3分的成绩领先所有已报告的模型,略高于OpenAI的o4-mini(92.7分)和Gemini-2.5 Pro(88.0分)。在LiveCodeBench v6测试中,该模型以74.1分的成绩超越Gemini-2.5 Pro(72.5分)和o4-mini(71.8分),并显著优于其早期版本(55.7分)。此外,在GPQA(研究生级多选题测试)中,Qwen3-Thinking-2507取得了81.1分,接近Deepseek-R1-0528(81.0分),略低于Gemini-2.5 Pro的86.4分。在Arena-Hard v2测试中,该模型以79.7分的成绩位居榜首。
Qwen团队的战略调整也值得关注。他们放弃了需要用户手动切换“思考”和“非思考”模式的混合推理模型,转而训练独立的推理和指令模型。这种分离使得每个模型能够针对其特定用途进行优化,从而提升性能和一致性。除了Qwen3-Thinking-2507,团队还发布了Qwen3-Coder-480B-A35B-Instruct(专注于复杂编码任务)、Qwen3-MT(多语言翻译模型)以及Qwen3-235B-A22B-Instruct-2507(非推理模型)。这些模型均采用Apache 2.0许可证,允许企业自由下载、修改和商业化部署。
Qwen3-Thinking-2507目前可通过Hugging Face和ModelScope免费下载,企业也可通过阿里云API、vLLM和SGLang进行托管。其定价为输入每百万令牌0.7美元,输出每百万令牌8.4美元,并提供180天内免费的100万令牌试用。该模型支持长上下文(最高81,920令牌)、代理框架集成以及本地部署,适用于企业级AI系统,尤其是在推理、规划和决策支持场景中。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-kai-yuan-qwen3thinking2507-mo-xing-tui-li-xing