‌全新DeepSeek R1T2 Chimera模型问世,速度提升200%‌

‌全新DeepSeek R1T2 Chimera模型问世,速度提升200%‌

在人工智能领域,模型的效率与速度一直是研究者们追求的关键指标。近日,来自德国的TNG Technology Consulting GmbH实验室宣布推出了一种全新的DeepSeek R1T2 Chimera模型,该模型在保持高推理能力的同时,速度相比之前的DeepSeek R1-0528版本提升了惊人的200%。

DeepSeek模型的持续进化

DeepSeek,这一源自中国AI初创企业DeepSeek(香港High-Flyer Capital Management旗下)的开源模型,自发布以来就因其低廉的训练成本和出色的推理表现而广受好评。特别是其最新版本R1-0528,更是在全球AI和商业社区中引起了轰动。得益于其Apache 2.0许可证的开放性质,R1-0528迅速被其他AI实验室和开发者采纳、改编和应用。

TNG Technology的创新突破

TNG Technology Consulting GmbH,这家拥有24年历史的德国公司,以其深厚的技术积累和创新精神,在AI领域不断推陈出新。此次推出的DeepSeek-TNG R1T2 Chimera模型,是TNG在大型语言模型(LLM)领域的又一力作。通过采用独特的Assembly-of-Experts(AoE)方法,TNG成功地将DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324三个父模型的优势融合在一起,创造出了R1T2这一高效能的新模型。

AoE方法的独特优势

与传统的Mixture-of-Experts(MoE)架构不同,AoE是一种模型合并技术,它通过选择性地合并多个预训练模型的权重张量来创建新模型。在R1T2的构建过程中,TNG主要合并了负责专门推理的路由专家张量,同时保留了来自更快模型(如V3-0324)的高效共享和注意力层。这种方法使得R1T2在继承父模型推理强度的同时,避免了它们的冗长和延迟问题。

性能与速度的双重飞跃

根据TNG提供的基准测试结果,R1T2在AIME-24、AIME-25和GPQA-Diamond等测试集上的推理性能达到了DeepSeek-R1-0528的90%至92%。然而,与R1-0528倾向于生成长而详细的答案不同,R1T2的设计更加简洁,它能够在保持同样智能响应的同时,使用显著更少的词汇。具体来说,R1T2生成响应所需的输出令牌数仅为R1-0528的约40%,这意味着其推理速度和计算负载都得到了大幅降低。

开源与可用性

R1T2模型在发布时采用了宽松的MIT许可证,并已在Hugging Face平台上公开可用。这意味着任何开发者或企业都可以免费使用、修改和部署该模型,以满足自己的需求。TNG还提醒欧洲用户注意即将于2025年8月2日生效的欧盟AI法案,并建议相关企业评估其合规性。

企业技术决策者的意义

对于CTO、AI平台所有者、工程主管和IT采购团队来说,R1T2的推出带来了诸多实际好处和战略选择。首先,通过减少每个任务所需的输出令牌数,R1T2显著降低了GPU时间和能耗,从而为企业节省了基础设施成本。其次,R1T2在保持高推理质量的同时,避免了冗长的回答,这对于需要结构化答案(如数学、编程和逻辑任务)的场景尤为理想。此外,其开源和可修改性使得企业能够在受监管或隔离的环境中进行私有托管、模型对齐或进一步训练。

未来展望

TNG的Assembly-of-Experts方法预示着未来模型构建的一种可能趋势:模块化。通过重组现有模型的优势,企业可以更容易地创建出专门化的变体,而无需从头开始训练。随着R1T2及其后续版本的推出,我们有理由相信,AI模型的效率、速度和可用性将得到进一步的提升。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/quan-xin-deepseek-r1t2-chimera-mo-xing-wen-shi-su-du-ti

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年7月7日
Next 2025年7月8日

相关推荐

发表回复

Please Login to Comment