news 2026/2/18 12:29:01

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro
Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。

Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

(图说:Ming-Flash-Omni-2.0 在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现均已达到开源领先水准)

业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/16 13:32:16

python微信小程序的高校自习室在线预约系统

目录高校自习室在线预约系统的摘要开发技术路线结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!高校自习室在线预约系统的摘要 该系统基于Python开发,结合微信小程序前端,旨在解决高校自习室资源分配不均、预约…

作者头像 李华
网站建设 2026/2/16 13:32:18

视频大文件在JAVA网页上传中怎么解决?

我,一个负责过30企业级文件传输项目的上海IT人,想和你聊聊这个100G大文件传输的落地方案 先抛结论:这事儿能成,但得用“定制化研发成熟组件适配”的组合拳。作为公司项目负责人,我刚带着团队啃完类似需求(…

作者头像 李华
网站建设 2026/2/16 1:40:01

计算机毕业设计springboot博客系统的设计与实现 基于SpringBoot框架的个人内容发布平台的设计与实现 基于Java Web的在线日志分享系统的设计与开发

计算机毕业设计springboot博客系统的设计与实现12xosn18 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在信息爆炸的时代,博客作为个人表达和信息分享的重要平台&am…

作者头像 李华
网站建设 2026/2/18 5:02:58

政务CMS如何用TinyMCE实现PDF表单数据到Word的映射?

VUE后台管理中使用富文本编辑器导入word 文档进行编辑 前言 最近因业务需求在项目中嵌入了tinymce这个编辑器,用于满足平台给用户编辑各类新闻内容什么的业务需求,前后也花了不少时间体验和对比了市面上各类开源编辑器,直接将新闻部门的工作…

作者头像 李华
网站建设 2026/2/16 12:52:54

C# 实现与三菱 PLC 以太网通讯:打造功能强大的上位机程序

C#与三菱PLC以太网通讯程序上位机源码 通过3E帧SLMP /MC协议与三菱FX5U/Q系列PLC通讯 1.该程序可以与FX5U/Q系列PLC以太网通讯,根据3E帧报文写了一个类库,可以读写各种类型和区域变量。 2.支持单个变量读写和数组类型批量读写。 3.可以实时检测网络通断…

作者头像 李华
网站建设 2026/2/16 12:52:53

好写作AI:开题答辩前夜,如何用AI把“还行”变成“必过”

导语:当导师说出“题目再想想”时,你的开题进度条就卡在了99%每个研究生都经历过选题的“死亡循环”:第一版题目:宏大如国家社科基金(导师批:太空泛)第二版题目:具体到某个县城案例&…

作者头像 李华