阿里巴巴发布开源Qwen3模型,性能超越OpenAI O1和DeepSeek R1

阿里巴巴发布开源Qwen3模型,性能超越OpenAI O1和DeepSeek R1

中国电子商务和互联网巨头阿里巴巴的Qwen团队正式推出了一系列名为Qwen3开源AI大型语言多模态模型。这些模型在开源模型中处于领先地位,并接近OpenAI和Google等公司的专有模型性能。

Qwen3系列:强大且灵活的模型组合

Qwen3系列包括两个“混合专家”模型和六个密集模型,共八个新模型。混合专家方法结合了多个不同专业的模型类型,只在内部设置中激活与当前任务相关的模型。这种方法由开源法国AI创业公司Mistral推广,并在Qwen3中得到了成功应用。

卓越性能:超越行业标杆

据Qwen团队介绍,Qwen3系列中参数达2350亿的版本(代号A22B)在包括ArenaHard(含500个软件工程和数学问题)在内的关键第三方基准测试中,性能超越了DeepSeek的开源R1模型和OpenAI的专有O1模型,并接近新发布的Google Gemini 2.5-Pro的性能。这些数据将Qwen3-235B-A22B定位为最强大的公开可用模型之一,与主要行业产品相比具有同等或更优越的性能。

动态推理:满足多样化需求

Qwen3模型被训练以提供所谓的“混合推理”或“动态推理”能力,允许用户根据任务复杂度在快速准确响应和更耗时、计算密集的推理步骤之间切换。这种方法类似于OpenAI的“O”系列,为科学、数学、工程和其他专业领域中的复杂查询提供了灵活解决方案。用户可以通过Qwen Chat网站上的按钮或在本地部署或通过API嵌入特定提示(如/think或/no_think)来激活更密集的“思考模式”。

多平台部署与广泛语言支持

用户现在可以在Hugging Face、ModelScope、Kaggle和GitHub等平台访问和部署这些模型,并通过Qwen Chat网页界面和移动应用程序直接与它们交互。Qwen3模型还显著扩展了多语言支持,现在覆盖119种语言和方言,为全球范围内的研究和部署提供了广泛的语言环境。

训练与数据:从Qwen2.5到Qwen3的飞跃

与前代产品Qwen2.5相比,Qwen3在模型训练方面取得了显著进步。预训练数据集规模翻了一番,达到约36万亿标记,包括网页抓取、PDF类文档提取和使用先前Qwen模型生成的数学和编码相关合成内容。训练流程包括三阶段预训练和四阶段后训练优化,以实现混合思考和非思考能力。这些改进使Qwen3的密集基础模型能够匹配甚至超过更大规模的Qwen2.5模型性能。

灵活性与可扩展性:满足多样需求

Qwen3系列提供了不同规模和架构的密集模型(如Qwen3-32B、Qwen3-14B等),以满足用户的不同需求和计算预算。工程团队可以在几小时内将现有OpenAI兼容端点指向新模型,而无需数周时间。此外,官方LoRA和QLoRA钩子允许用户在不向第三方供应商发送专有数据的情况下进行私有微调。

未来展望:迈向AGIASI

Qwen团队将Qwen3视为向未来目标——人工智能通用智能(AGI)和人工智能超级智能(ASI)——迈出的重要一步。他们计划进一步扩大数据和模型规模、延长上下文长度、扩展模态支持和通过环境反馈机制增强强化学习。

结论:开源模型的新里程碑

Qwen3的开源发布标志着大型语言模型研究领域的又一个重要里程碑,降低了研究人员、开发人员和组织使用最先进LLMs进行创新的门槛。对于寻求降低成本并保持灵活性的精明组织来说,评估这些新模型以用于其AI代理和工作流程将是明智之举。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-fa-bu-kai-yuan-qwen3-mo-xing-xing-neng-chao-yue

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月29日
Next 2025年4月30日

相关推荐

发表回复

Please Login to Comment