
在 OpenAI 推出 GPT-5.1 仅数小时后,中国搜索巨头百度于 “百度世界 2025” 大会上正式发布下一代基础模型 ERNIE 5.0,同步推出 AI 产品升级套件与国际化战略布局,旨在全球竞争激烈的企业 AI 市场中确立领先地位。作为一款原生全模态模型,ERNIE 5.0 可联合处理并生成文本、图像、音频、视频等多类型内容,与百度近期开源(采用 Apache 2.0 协议)的 ERNIE-4.5-VL-28B-A3B-Thinking 不同,其定位为专有模型,仅通过百度 ERNIE Bot 官网(需手动从模型选择下拉菜单中选取)及面向企业客户的千帆云平台 API 开放使用,凸显百度在 “开源吸引开发者 + 专有服务企业” 双轨战略上的布局。
在核心性能上,ERNIE 5.0 在多模态任务中展现出与国际顶尖模型抗衡甚至超越的实力。据大会公布的公开基准测试数据,该模型在多模态推理、文档理解、图像问答等任务中,性能超越或持平 OpenAI 的 GPT-5-High 与谷歌的 Gemini 2.5 Pro,同时在语言建模与代码执行能力上表现强劲。其技术差异化优势在于 “原生多模态联合处理”—— 不同于多数模型依赖的 “事后模态融合”,ERNIE 5.0 从架构底层支持跨模态输入输出协同,无需在不同模态间进行格式转换或数据适配,这一特性使其在企业场景中更高效。
具体任务表现上,ERNIE 5.0 在视觉相关基准测试中尤为突出:在测试文档识别的 OCRBench、文档理解的 DocVQA、结构化数据推理的 ChartQA 三大基准中,均取得领先分数,百度宣称其性能超过 GPT-5-High 与 Gemini 2.5 Pro。这些任务恰是企业自动化文档处理、金融数据分析等核心场景的关键能力支撑,例如在银行财报分析中,模型可精准提取表格数据、解读图表趋势,并关联文本说明生成综合分析报告,大幅减少人工处理时间。图像生成领域,基于百度内部 GenEval 评估标准,ERNIE 5.0 在语义对齐、图像质量等维度与谷歌 Veo3 持平或超越,其多模态整合能力使其在生成与解读视觉内容时,具备更强的上下文感知力,避免了模态专用编码器导致的信息割裂。音频与语音任务方面,该模型在 MM-AU、TUT2017 音频理解基准及语音问答任务中展现出竞争力,虽未重点宣传,却为全光谱多模态应用(如智能客服的语音 – 文本 – 图像联动响应)奠定基础。
针对不同场景需求,百度同步推出 ERNIE 5.0 的专项变体 ——Preview 1022,该版本针对文本密集型任务优化,在早期开发者测试中展现出更强的语言专项性能。尽管百度未宣称其在通用语言推理上全面超越顶尖模型,但内部评估显示,Preview 1022 显著缩小了与顶级英文模型的差距,且在中文语言任务中表现更优,这一特性对聚焦中文市场的企业客户极具吸引力,例如在中文法律文档解读、古文数字化处理等场景中,模型能更精准捕捉语言细节与文化语境。
在企业定价策略上,ERNIE 5.0 定位高端,其千帆平台 API 定价与国内竞争对手(如阿里巴巴)的顶级模型持平,同时显著低于国际同类产品。具体来看,ERNIE 5.0 输入成本为每 1000 tokens 0.00085 美元(约 0.006 元人民币),输出成本为每 1000 tokens 0.0034 美元(约 0.024 元人民币),对比之下,GPT-5.1 每 100 万 tokens 输入成本 1.25 美元、输出 10 美元,Anthropic 的 Claude Opus 4.1 每 100 万 tokens 输入 15 美元、输出 75 美元,谷歌 Gemini 2.5 Pro(20 万 tokens 以内)每 100 万 tokens 输入 1.25 美元、输出 10 美元。这种 “高性能 + 中定价” 的组合,既满足企业对顶尖模型的需求,又降低了长期使用成本,尤其适合中小型企业规模化部署。
伴随模型发布,百度加速国际化布局,多款 AI 产品同步推向全球市场:用户超 2000 万的通用 AI 智能体 GenFlow 3.0,新增增强记忆与多模态任务处理能力;可动态解决复杂问题的自进化智能体 Famou,通过邀请制开放商业使用;无代码构建工具 Miaoda 的国际版 MeDo,通过 medo.dev 向全球开放;支持文档、幻灯片、图像、视频、播客的生产力工作空间 Oreate,全球用户已超 120 万。此外,百度数字人平台已在巴西落地,数据显示,中国 “双十一” 购物节期间,83% 的直播从业者使用该平台数字人技术,带动商品交易总额(GMV)增长 91%;自动驾驶出行服务 Apollo Go 累计订单超 1700 万,在 22 个城市运营无人驾驶车队,成为全球最大 Robotaxi 网络,这些产品与服务的国际化,为 ERNIE 5.0 的落地提供了场景支撑。
值得关注的是,在 ERNIE 5.0 发布前两天,百度还推出一款采用 Apache 2.0 协议的开源多模态模型 ERNIE-4.5-VL-28B-A3B-Thinking,该模型通过混合专家(MoE)架构,总参数量 280 亿但仅激活 30 亿参数用于推理,兼顾性能与效率。其核心创新 “图像思考(Thinking with Images)” 功能支持动态缩放图像分析细节,可处理图表解读、文档理解、视觉定位及视频时间感知任务,且仅需单张 80GB GPU 即可运行,兼容 Transformers、vLLM 及百度 FastDeploy 工具集,为中小企业与开发者提供低成本高性能的多模态解决方案,与 ERNIE 5.0 形成 “开源引流 – 专有变现” 的生态互补。
模型发布后,开发者社区反馈呈现两面性。AI 评估者 Lisan al Gaib 在 X 平台反馈,虽认可 ERNIE 5.0 的基准测试表现,但在 SVG 生成任务中发现模型存在 “反复调用工具” 的问题,即便明确指令禁止仍无法避免。对此,百度开发者支持账号 @ErnieforDevs 数小时内回应,称该问题为已知漏洞(特定语法会触发),团队正推进修复,建议用户暂时通过改写提示词规避。这种快速响应体现百度对开发者沟通的重视,尤其在拓展国际用户时,及时解决问题有助于建立信任。
从行业影响来看,ERNIE 5.0 的发布标志着百度在全球基础模型竞赛中的战略升级。通过 “专有模型攻坚企业高价值场景 + 开源模型扩大开发者生态” 的双轨模式,百度既满足企业对高性能、高安全性模型的需求,又通过开源降低技术门槛,吸引全球开发者参与生态建设。尽管目前其性能宣称仍需第三方验证,但在 AI 成本攀升、模型复杂度增加、算力瓶颈凸显的行业背景下,ERNIE 5.0 及其配套生态为百度在下一代 AI 部署中赢得了竞争优势,也为全球企业提供了除欧美模型外的优质选择,推动多模态 AI 技术在金融、医疗、制造等垂直领域的落地应用。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/bai-du-fa-bu-zhuan-you-mo-xing-ernie-5-duo-mo-tai-neng-li