百度文心ERNIE 4.5开源:开启中国多模态大模型开源新时代

China黑客2025-07-03 09:54:344

2025年6月30日,百度正式开源文心大模型4.5系列(ERNIE 4.5),这一举动在人工智能领域激起千层浪,标志着中国多模态大模型开源进程迈出关键一步,为行业发展注入新的活力与方向。

文心大模型4.5系列此次开源的阵容堪称强大,共计10款模型,覆盖了从3亿到470亿激活参数规模。其中包含47B和3B激活参数的混合专家(MoE)模型,最大的模型总参数量更是达到424B,还有0.3B的稠密参数模型 。这些模型实现了预训练权重和推理代码的完全开源,开发者能够在飞桨星河社区、HuggingFace等多个平台便捷下载部署,同时百度智能云千帆大模型平台也贴心提供了开源模型API服务。

从技术创新层面来看,文心大模型4.5系列在多模态异构MoE架构上实现了重大突破。针对MoE架构,百度研究团队创新性地提出了多模态异构模型结构,通过独特的跨模态参数共享机制,有效实现了模态间的知识融合,还为各单一模态保留了专用参数空间。这种架构与从大语言模型向多模态模型的持续预训练范式高度适配,不仅稳固保持甚至进一步提升了文本任务性能,更显著增强了模型的多模态理解能力,让模型能够更加智能地处理文本、图像、音频等多种类型的数据。

在训练与推理效率方面,文心大模型4.5系列依托飞桨深度学习框架,实现了高效训练、推理和部署。在大语言模型的预训练阶段,模型FLOPs利用率(MFU)成功达到47%。实验结果也充分显示,该系列模型在多个文本和多模态基准测试中成绩斐然,处于SOTA(state-of-the-art,当前最优)水平,特别是在指令遵循、世界知识记忆、视觉理解和多模态推理等任务上表现格外亮眼,远超同类模型。比如在文本模型维度,文心大模型4.5开源系列基础能力扎实、事实准确性极高、指令遵循能力出色,推理和编程能力更是可圈可点,在多个主流基准评测中成功超越DeepSeek-V3、Qwen3等模型。在多模态模型领域,其拥有卓越的视觉感知能力,对丰富的视觉常识了如指掌,还实现了思考与非思考的有机统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中,优于闭源的OpenAI o1。即便在轻量模型方面,文心4.5-21B-A3B-Base文本模型效果也与同量级的Qwen3相当,文心4.5-VL-28B-A3B多模态模型更是目前同量级中最为出色的多模态开源模型,甚至能与更大参数模型Qwen2.5-VL-32B相媲美。

为了助力开发者更好地使用文心大模型4.5系列,百度基于多年飞桨开源技术与生态系统的深厚积累,同步升级发布了文心大模型开发套件ERNIEKit和大模型高效部署套件FastDeploy,为开发者提供了开箱即用的工具以及全流程支持,极大降低了模型的后训练和部署门槛。

百度文心ERNIE 4.5开源:开启中国多模态大模型开源新时代

百度此次开源文心ERNIE 4.5,战略意义深远。一方面,这是百度加速AI普惠的关键战略调整。过往百度CEO李彦宏长期倡导闭源,而此次开源无疑释放出积极信号,展现出百度推动AI技术广泛应用的决心。另一方面,这也是对国内AI开源趋势的有力响应。受国产DeepSeek模型等启发,开放生态能够吸引更广泛的行业参与和社区支持,通过全球开发者的智慧融入,实现“分布式研发”,有效降低研发成本。从行业角度而言,百度提供了“标准化基础上的差异化创新”路径,统一的基础模型减少了重复研发的资源浪费,开发者基于此进行的二次创新又能充分满足不同行业的个性化需求,加速大模型在各行业的落地应用,构建起更加完善的AI产业链。从全球视野出发,此次开源也是国产大模型参与国际协作的重要尝试,有助于国产技术融入全球创新网络,提升中国在全球大模型领域的影响力和话语权。

百度文心ERNIE 4.5开源:开启中国多模态大模型开源新时代

百度文心ERNIE 4.5的开源,为中国多模态大模型的发展开辟了新的道路,无论是对学术研究的深入探索,还是产业应用的创新拓展,都提供了坚实有力的支撑。随着越来越多开发者参与到文心大模型4.5系列的应用与优化中,有望催生更多创新成果,推动人工智能技术迈向新的高度,让AI真正造福于社会的各个领域 。