
中国搜索引擎巨头百度正式发布开源多模态 AI 模型 ERNIE-4.5-VL-28B-A3B-Thinking,该模型以 “高效轻量化” 与 “跨模态强推理” 为核心优势,在视觉相关基准测试中宣称超越谷歌 Gemini 2.5 Pro 与 OpenAI GPT-5-High,同时仅需单张 80GB GPU 即可运行,大幅降低企业级部署门槛。此次发布不仅是百度在多模态 AI 领域的重要突破,更通过 Apache 2.0 开源协议(允许无限制商业使用),向全球开发者与企业开放能力,试图在国际多模态模型竞争中占据一席之地。
从技术架构来看,ERNIE-4.5-VL-28B-A3B-Thinking 的核心创新在于 “混合专家(Mixture-of-Experts, MoE)路由架构”:模型总参数量达 280 亿,但通过智能参数激活机制,推理时仅调用 30 亿参数,在保证性能的同时将算力消耗与内存占用降至同类模型的 1/10 左右。百度在训练阶段采用多项先进技术强化模型能力:中期训练阶段引入海量高质量视觉 – 语言数据,提升跨模态语义对齐精度;在可验证任务中应用多模态强化学习,结合 GSPO 与 IcePop 策略稳定 MoE 训练,并通过动态难度采样机制提升学习效率。此外,模型还采用 “异构模态结构”,支持跨模态参数共享的同时,为文本、视觉等单一模态保留专属参数,避免传统多模态模型中 “一模态性能提升导致另一模态退化” 的 “跷跷板效应”,在提升视觉任务表现的同时,文本相关任务性能(如 GLUE 基准)反而提升 3.2%。
在核心能力与创新功能上,该模型围绕 “更贴近人类视觉认知” 构建六大核心能力,尤其以 “图像思考(Thinking with Images)” 功能打破传统多模态模型局限。“图像思考” 允许模型像人类一样动态缩放图像、聚焦细节 —— 例如分析工业零件缺陷时,可自主放大局部区域识别 3mm 以下的微小结节;解读复杂电路图时,能聚焦特定电阻、电容元件推导电路参数,这种动态交互能力使其在需要 “全局 – 局部结合” 的任务中表现突出。同时,模型强化了 “视觉定位(Grounding)” 能力,可精准识别图像中目标物体的坐标(如输出 “穿西装戴礼帽人物” 的边界框坐标),指令触发更灵活,适配工业质检、机器人定位等高精度场景;工具调用能力也同步升级,可自主决策是否调用图像搜索等外部工具,例如遇到未知 IP 角色或物体时,自动触发搜索补充长尾知识,完善推理链条。
在性能表现上,百度提供的测试数据显示,该模型在多项多模态基准测试中逼近或超越国际顶尖模型:在图表解析(ChartQA)任务中以 87.1 分远超 Gemini 2.5 Pro 的 76.3 分与 GPT-5-High 的 78.2 分;文档理解(DocVQAval)任务得分超过两款海外模型;数学视觉推理(MathVista)以 82.5 分略胜 Gemini 2.5 Pro(82.3 分),领先 GPT-5-High(81.3 分);在低资源语言视觉任务(VLMs Are Blind)中也以 77.3 分保持优势。此外,模型在 STEM 学科解题、视频理解等场景表现亮眼:可基于拍照的物理电路图计算等效电阻,视频分析中能精准定位不同时间段的内容变化(如广告片关键片段抽取),并提取字幕匹配时间戳,为长视频检索提供支持。不过,目前这些性能宣称尚未经过完全独立验证,行业建议企业在关键场景部署前需结合自身数据进行内部测试。
从部署与生态支持来看,百度为开发者提供了低门槛、多工具兼容的落地方案。模型已在 Hugging Face、GitHub、飞桨星河社区发布预训练权重与推理代码,全面兼容 Hugging Face Transformers、vLLM(高性能推理引擎)、百度 FastDeploy 等开源工具 —— 开发者通过约 30 行 Python 代码即可加载模型,vLLM 集成还支持 “推理解析器”“工具调用解析器” 等专属功能,进一步优化动态图像处理效率;FastDeploy 则提供多硬件部署方案与量化策略,可将内存需求降低 75%,推理速度提升 3.6 倍。硬件要求方面,模型可在单张 80GB GPU(如英伟达 A100)上运行,硬件成本控制在 1 万 – 3 万美元,远低于需多 GPU 集群的大型模型,尤其适配中小企业与初创团队的算力预算。
在应用场景与行业价值上,该模型已展现出对多个垂直领域的适配潜力。在工业领域,可用于制造质检(动态识别零件微小缺陷)、工程图纸解析(推导电路参数、验证设计合理性);医疗领域能辅助 CT 影像微小结节检测,结合电子病历提升早期肺癌检出率,将诊断耗时从 45 分钟压缩至 8 分钟;电商场景中,支持商品图像细节放大、跨模态搜索,某试点平台应用后 API 单位算力成本下降 62%,搜索转化率提升 17%;文化遗产保护领域则可识别古画题跋、解读青铜器铭文,为博物馆数字化提供技术支撑。百度还计划在 11 月 13 日的百度世界 2025 大会上进一步展示 ERNIE 系列模型的生态布局,包括更多行业解决方案与开发者工具。
不过,模型落地仍需关注技术局限性与实际挑战。硬件上,80GB GPU 虽比多 GPU 方案更易获取,但对无现有算力基础设施的企业仍构成一定投入门槛;性能上,在超高清图像细粒度识别、复杂视频跨帧推理速度上仍有优化空间;安全与合规方面,百度暂未详细披露模型在对抗性输入、数据偏见、故障模式等方面的测试情况,企业部署时需额外关注关键场景的稳定性验证。此外,开源模型的长期维护与更新依赖百度战略优先级,开发者需评估后续技术支持的可持续性。
总体而言,ERNIE-4.5-VL-28B-A3B-Thinking 的开源发布,不仅标志着中国多模态模型在 “高效轻量化” 方向的突破,更通过开放生态与低门槛部署,推动多模态 AI 从 “巨头专属” 向 “普惠化” 发展。其 “小参数高性能” 的设计思路,为行业提供了 “不堆参数也能实现强推理” 的新范式,而 Apache 2.0 协议的采用则加速了企业级落地进程。尽管性能需进一步独立验证,但该模型无疑为全球多模态 AI 竞争注入新活力,也为企业在文档处理、工业质检、医疗辅助等场景提供了更具成本效益的技术选择。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/bai-du-kai-yuan-duo-mo-tai-ai-mo-xing-ernie4