百度开源多模态 AI 模型 ERNIE-4.5-VL-28B-A3B-Thinking，宣称性能超越 GPT-5 与 Gemini

王浩然 • 2025年11月15日下午6:00 • AI前沿 • 210 views

中国搜索引擎巨头百度正式发布开源多模态 AI 模型 ERNIE-4.5-VL-28B-A3B-Thinking，该模型以 “高效轻量化” 与 “跨模态强推理” 为核心优势，在视觉相关基准测试中宣称超越谷歌 Gemini 2.5 Pro 与 OpenAI GPT-5-High，同时仅需单张 80GB GPU 即可运行，大幅降低企业级部署门槛。此次发布不仅是百度在多模态 AI 领域的重要突破，更通过 Apache 2.0 开源协议（允许无限制商业使用），向全球开发者与企业开放能力，试图在国际多模态模型竞争中占据一席之地。

从技术架构来看，ERNIE-4.5-VL-28B-A3B-Thinking 的核心创新在于 “混合专家（Mixture-of-Experts, MoE）路由架构”：模型总参数量达 280 亿，但通过智能参数激活机制，推理时仅调用 30 亿参数，在保证性能的同时将算力消耗与内存占用降至同类模型的 1/10 左右。百度在训练阶段采用多项先进技术强化模型能力：中期训练阶段引入海量高质量视觉 – 语言数据，提升跨模态语义对齐精度；在可验证任务中应用多模态强化学习，结合 GSPO 与 IcePop 策略稳定 MoE 训练，并通过动态难度采样机制提升学习效率。此外，模型还采用 “异构模态结构”，支持跨模态参数共享的同时，为文本、视觉等单一模态保留专属参数，避免传统多模态模型中 “一模态性能提升导致另一模态退化” 的 “跷跷板效应”，在提升视觉任务表现的同时，文本相关任务性能（如 GLUE 基准）反而提升 3.2%。

在核心能力与创新功能上，该模型围绕 “更贴近人类视觉认知” 构建六大核心能力，尤其以 “图像思考（Thinking with Images）” 功能打破传统多模态模型局限。“图像思考” 允许模型像人类一样动态缩放图像、聚焦细节 —— 例如分析工业零件缺陷时，可自主放大局部区域识别 3mm 以下的微小结节；解读复杂电路图时，能聚焦特定电阻、电容元件推导电路参数，这种动态交互能力使其在需要 “全局 – 局部结合” 的任务中表现突出。同时，模型强化了 “视觉定位（Grounding）” 能力，可精准识别图像中目标物体的坐标（如输出 “穿西装戴礼帽人物” 的边界框坐标），指令触发更灵活，适配工业质检、机器人定位等高精度场景；工具调用能力也同步升级，可自主决策是否调用图像搜索等外部工具，例如遇到未知 IP 角色或物体时，自动触发搜索补充长尾知识，完善推理链条。

在性能表现上，百度提供的测试数据显示，该模型在多项多模态基准测试中逼近或超越国际顶尖模型：在图表解析（ChartQA）任务中以 87.1 分远超 Gemini 2.5 Pro 的 76.3 分与 GPT-5-High 的 78.2 分；文档理解（DocVQAval）任务得分超过两款海外模型；数学视觉推理（MathVista）以 82.5 分略胜 Gemini 2.5 Pro（82.3 分），领先 GPT-5-High（81.3 分）；在低资源语言视觉任务（VLMs Are Blind）中也以 77.3 分保持优势。此外，模型在 STEM 学科解题、视频理解等场景表现亮眼：可基于拍照的物理电路图计算等效电阻，视频分析中能精准定位不同时间段的内容变化（如广告片关键片段抽取），并提取字幕匹配时间戳，为长视频检索提供支持。不过，目前这些性能宣称尚未经过完全独立验证，行业建议企业在关键场景部署前需结合自身数据进行内部测试。

从部署与生态支持来看，百度为开发者提供了低门槛、多工具兼容的落地方案。模型已在 Hugging Face、GitHub、飞桨星河社区发布预训练权重与推理代码，全面兼容 Hugging Face Transformers、vLLM（高性能推理引擎）、百度 FastDeploy 等开源工具 —— 开发者通过约 30 行 Python 代码即可加载模型，vLLM 集成还支持 “推理解析器”“工具调用解析器” 等专属功能，进一步优化动态图像处理效率；FastDeploy 则提供多硬件部署方案与量化策略，可将内存需求降低 75%，推理速度提升 3.6 倍。硬件要求方面，模型可在单张 80GB GPU（如英伟达 A100）上运行，硬件成本控制在 1 万 – 3 万美元，远低于需多 GPU 集群的大型模型，尤其适配中小企业与初创团队的算力预算。

在应用场景与行业价值上，该模型已展现出对多个垂直领域的适配潜力。在工业领域，可用于制造质检（动态识别零件微小缺陷）、工程图纸解析（推导电路参数、验证设计合理性）；医疗领域能辅助 CT 影像微小结节检测，结合电子病历提升早期肺癌检出率，将诊断耗时从 45 分钟压缩至 8 分钟；电商场景中，支持商品图像细节放大、跨模态搜索，某试点平台应用后 API 单位算力成本下降 62%，搜索转化率提升 17%；文化遗产保护领域则可识别古画题跋、解读青铜器铭文，为博物馆数字化提供技术支撑。百度还计划在 11 月 13 日的百度世界 2025 大会上进一步展示 ERNIE 系列模型的生态布局，包括更多行业解决方案与开发者工具。

不过，模型落地仍需关注技术局限性与实际挑战。硬件上，80GB GPU 虽比多 GPU 方案更易获取，但对无现有算力基础设施的企业仍构成一定投入门槛；性能上，在超高清图像细粒度识别、复杂视频跨帧推理速度上仍有优化空间；安全与合规方面，百度暂未详细披露模型在对抗性输入、数据偏见、故障模式等方面的测试情况，企业部署时需额外关注关键场景的稳定性验证。此外，开源模型的长期维护与更新依赖百度战略优先级，开发者需评估后续技术支持的可持续性。

总体而言，ERNIE-4.5-VL-28B-A3B-Thinking 的开源发布，不仅标志着中国多模态模型在 “高效轻量化” 方向的突破，更通过开放生态与低门槛部署，推动多模态 AI 从 “巨头专属” 向 “普惠化” 发展。其 “小参数高性能” 的设计思路，为行业提供了 “不堆参数也能实现强推理” 的新范式，而 Apache 2.0 协议的采用则加速了企业级落地进程。尽管性能需进一步独立验证，但该模型无疑为全球多模态 AI 竞争注入新活力，也为企业在文档处理、工业质检、医疗辅助等场景提供了更具成本效益的技术选择。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/bai-du-kai-yuan-duo-mo-tai-ai-mo-xing-ernie4

Like (0)

王浩然作者

0 0

Meta 推出 SPICE 框架：让 AI 系统自主习得推理能力，突破传统自博弈局限

Previous 2025年11月15日

Visa 构建亚太区 AI 商业基础设施，2026 年试点开启智能体交易新时代

Next 2025年11月15日

AI前沿

Manus 1.5 AI 智能体：以 “无限上下文处理” 重塑任务自动化体验

中国 AI 初创公司 Monica（又称 “蝴蝶效应”）正式推出 Manus 1.5 AI 智能体，凭借 “无限上下文处理” 能力与四倍速性能提升，重新定义了自主 AI 智能体的应…

王浩然
2025年10月18日
000
AI前沿

‌英伟达加码量子计算赛道：QuEra获2.3亿美元B轮融资背后的战略布局‌

在量子计算技术即将迎来商业化的关键节点，芯片巨头英伟达通过旗下风投机构NVentures对中性原子量子计算公司QuEra Computing追加投资，将后者B轮融资总额推升至2.3…

王浩然
2025年9月12日
000
AI前沿

全球直销（D2C）浪潮：聚焦基础设施而非营销

在全球商业格局不断演变的当下，直销（Direct – to – Consumer，D2C）模式正迅速崛起，成为众多企业竞相追逐的商业模式。然而，许多人往往将…

王浩然
2026年1月9日
000
AI前沿

苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

点点
2024年10月16日
000
AI前沿

新型15亿参数路由器模型实现93%准确率，无需昂贵再训练‌

在人工智能领域，随着大型语言模型（LLM）的广泛应用，如何高效地将用户查询映射到最合适的模型成为了一个关键问题。近期，Katanemo Labs的研究人员推出了一款名为Arch-R…

王浩然
2025年7月8日
000
AI前沿

Zencoder发布AI工具，将数日的QA工作缩短至两小时‌

在人工智能（AI）技术日新月异的今天，Zencoder，这家由连续创业者Andrew Filev创立的人工智能编码初创公司，宣布了其最新产品Zentester的公开测试版发布。Ze…

王浩然
2025年6月11日
000
AI前沿

OpenAI 完成重组并开启与微软合作 “新篇章”，重塑 AI 领域权力格局

2025 年 10 月 28 日，OpenAI 正式宣布完成重大组织重组，并与微软签署全新合作协议，这一系列动作不仅重新定义了 OpenAI 的治理结构与商业化路径，更通过调整双方…

王浩然
2025年10月29日
000
AI前沿

谷歌AI能耗数据揭秘：打破认知的真实数字与行业启示‌

当全球媒体持续渲染”AI耗电量堪比小国”的惊悚标题时，谷歌最新发布的真实生产系统数据犹如一盆冷水，浇灭了这场愈演愈烈的能源恐慌。这份基于数十亿次查询的实测报…

王浩然
2025年9月2日
000
AI前沿

中国科学家突破AI图像幻觉难题：通过放大幻觉来消除幻觉的技术革命‌

在人工智能视觉模型日益普及的今天，一个长期困扰业界的难题正在被中国科研团队以颠覆性的方式破解。由中国科学技术大学和南京大学联合研发的新型”暴露幻觉以抑制幻觉&#8221…

王浩然
2025年10月3日
000
AI前沿

谷歌AI概览功能遭欧盟反垄断投诉

在科技日新月异的今天，人工智能（AI）的应用愈发广泛，为人们的生活带来了诸多便利。然而，随着AI技术的深入发展，其引发的问题也逐渐浮出水面。近日，一家名为“独立出版商联盟”的组织向…

王浩然
2025年7月10日
000
AI前沿

OpenAI推进GPT-4.5在API中的弃用，引发开发者忧虑与困惑

在人工智能（AI）领域，每一次技术的迭代都牵动着无数开发者的心。近日，OpenAI的一项决定在开发者社区中掀起了轩然大波——该公司计划于2025年7月14日从其官方应用程序编程接口…

王浩然
2025年6月23日
000
AI前沿

Discord虚拟奖励系统“Orbs”正式推出‌

在经历了数周的测试与优化后，知名社交平台Discord宣布其创新的虚拟奖励系统“Orbs”正式面向所有用户开放。这一系统旨在通过引入互动广告任务，激励用户积极参与平台活动，同时享受…

王浩然
2025年7月16日
000
AI前沿

初级技术职位消失，企业争夺高级AI人才‌

在人工智能（AI）开发的激烈竞争中，人才已成为最宝贵的资源。近日，社交媒体巨头Meta成功招募了Lucas Beyer、Alexander Kolesnikov和Xiaohua Z…

王浩然
2025年6月29日
000
AI前沿

并非 AI 发展停滞，而是你用错了评估标准

如今企业高管们开始对自身的 AI 路线图产生怀疑。2023 年生成式 AI 工具掀起热潮后，人们自然会疑惑这股发展势头是否已经放缓，但这种疑问其实是对 “AI 发展评分标准” 的误…

王浩然
2025年12月17日
000
AI前沿

2026 年 AI 十大预测：科技浪潮下的变革图景

在科技飞速发展的时代，人工智能（AI）始终处于前沿阵地，不断塑造着我们的生活与未来。对于 2026 年，AI 领域有望迎来一系列激动人心的变革与突破。以下十大 AI 预测，犹如十座…

王浩然
2026年1月6日
000
AI前沿

法国 AI 初创公司 Mistral 推出适用于 iPhone、Android 的 Le Chat 移动应用程序——它能否让企业不再关注 DeepSeek？

虽然最近几天人工智能市场似乎围绕DeepSeek 和 OpenAI而崩溃，但当然还有许多其他由优秀工程师组成的团队开发大型语言模型 (LLM)，这些模型值得关注，因为用户和企业都在…

王浩然
2025年2月7日
000
AI前沿

企业如何评估和选择AI工具

1. **明确问题与需求**：在考虑采用新的AI系统前，企业应先明确自身面临的问题、关键挑战和核心需求。只有当AI技术能解决公司已有的、可衡量的问题时，才值得进一步探索。 2. *…

王浩然
2025年2月11日
000
AI前沿

Devin 1.2：更新后的 AI 工程师通过更智能的上下文推理和语音集成增强了编码能力

去年，Cognition推出了一款名为Devin 的产品，即世界上第一个AI 工程师，掀起了 AI 代理浪潮。该产品保密了几个月，但现在已全面上市，并且正在迅速学习新功能。例如：由…

王浩然
2025年1月19日
000
AI前沿

AI时代的新经济转向：从自动化到“验证经济”的挑战与悖论

当媒体和公众还在为AI自动化将吞噬大量工作岗位而焦虑时，一份由MIT、华盛顿大学圣路易斯分校和UCLA学者联合撰写的论文《Some Simple Economics of AGI》…

王浩然
2026年2月27日
000
AI前沿

Sparrow获3500万美元B轮融资：AI技术破解员工休假管理难题‌

在远程办公成为常态的后疫情时代，一家专注于员工休假管理的人工智能公司Sparrow近日宣布完成3500万美元B轮融资，由Silver Lake Waterman领投。此次融资使该公…

王浩然
2025年7月29日
000

发表回复

Please Login to Comment

百度开源多模态 AI 模型 ERNIE-4.5-VL-28B-A3B-Thinking，宣称性能超越 GPT-5 与 Gemini

相关推荐

发表回复