news 2026/4/27 19:12:03

Molmo 2 来了!全球最强开源视频理解模型,支持精准定位、追踪与多图推理,性能超越 Qwen3-VL

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Molmo 2 来了!全球最强开源视频理解模型,支持精准定位、追踪与多图推理,性能超越 Qwen3-VL

如果说 Molmo 让 AI 学会了“在图片里指东西”,那么 Molmo 2 则让 AI 学会了“在视频里追踪事件、定位动作、数清次数”——真正实现时空联合理解。

手机、自动驾驶、工业传感……视频正成为 AI 理解世界的新语言。现在,Molmo 2 让开源模型也能“看懂”视频中的每一帧细节。

2025 年 12 月 11 日,艾伦人工智能研究所(AI2)正式发布Molmo 2—— 一款专为视频理解、空间定位与跨帧追踪而生的下一代开源多模态大模型。它不仅在多项权威评测中超越 Gemini 3 Pro、GPT-5 等闭源系统,更首次将视频级“指哪打哪”能力带入开源社区。

为什么 Molmo 2 值得关注?

Molmo 2 是 2024 年爆火的Molmo 图像理解模型的全面升级版。如果说 Molmo 让 AI 学会了“在图片里指东西”,那么Molmo 2 则让 AI 学会了“在视频里追踪事件、定位动作、数清次数”——真正实现时空联合理解

核心突破:
  • 视频原生理解:支持单图、多图、任意长度视频输入。
  • 精准时空定位:不仅能回答“发生了什么”,还能指出“在哪一帧、哪个位置”。
  • 高效小模型:8B 参数版本性能碾压上一代 72B 模型,训练数据仅为竞品的 1/8。
  • 完全开源:Apache 2.0 许可,提供三种架构选择,含全栈开源的 Olmo 版本。
三大模型变体,满足不同场景需求

模型

基座

特点

适用人群

Molmo 2 (8B)

Qwen 3

综合性能最强,视频 QA 与定位 SOTA

工业界、研究者

Molmo 2 (4B)

Qwen 3

轻量高效,速度更快,性能接近 8B

移动端、边缘部署

Molmo 2-O (7B)

Olmo

全栈开源

(视觉编码器 + 连接器 + LLM)

需要完全可控的研究团队

小模型,大能量:Molmo 2 (8B) 在图像指代、视频追踪等任务上全面超越上一代 72B 的 Molmo,证明“精炼数据 + 精准目标”比盲目堆参数更有效。

性能碾压:开源第一,闭源也难挡

Molmo 2 在多个维度刷新开源模型纪录:

  • 视频追踪:大幅超越 Gemini 3 Pro 及所有开源 VLM(如 Sa2VA、SAM 2 联合方案)。
  • 短视频问答:在 NextQA、PerceptionTest、MVBench 等 7 项基准平均得分开源第一
  • 人类偏好评估:8B 版本领先 Qwen3-VL-8B,甚至超过 GPT-5 和 Claude Sonnet 4.5
  • 视频计数与定位:唯一能通过“返回坐标+时间戳”回答“多少次”问题的开源模型。

举例:

  • 问:“机器人几次抓起红色积木?” → 模型返回每次抓取的帧号 + 积木坐标
  • 问:“杯子什么时候掉的?” → 返回精确时间戳 + 掉落位置框
  • 问:“穿条纹衫的人何时秀肌肉?” → 自动追踪人物 ID,标记所有相关事件时空点
技术亮点:为“接地”而生

Molmo 2 的核心设计理念是Grounding(接地)——让语言与视觉信号在空间和时间上对齐

  • 统一架构:视觉编码器 + 轻量连接器 + 强大 LLM(Qwen 3 / Olmo)。
  • 跨帧注意力:不同帧的视觉 token 可互相 attention,显著提升追踪稳定性。
  • SlowFast 推理策略:关键帧高分辨率 + 非关键帧低分辨率,兼顾精度与效率。
  • 16,384 超长上下文:轻松处理长视频或多图输入。
900 万+ 视频样本,打造高质量开源数据集

为训练 Molmo 2,AI2 构建了史上最大规模的视频接地数据集,包含 9 个全新子集:

  • Molmo2-Cap:10.4 万视频 + 43.1 万片段,每段配数百字密集描述
  • Molmo2-VideoPoint:30 万+ 查询,用于训练“指物+计数”。
  • Molmo2-VideoTrack:支持自然语言查询的物体追踪(如“跟踪穿黄衣的女性”)。
  • Molmo2-MultiImageQA:跨 2–5 张相关图像的复杂问答。

所有数据集将开源发布,助力社区构建更强大的视频理解系统。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 12:06:38

springcloud基于微服务架构的网上人才求职招聘系统的设计与实现

目录 摘要 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 摘要 随着互联网技术的快速发展,传统招聘模式已无法满足企业和求职者的高效匹配需求。基于微服务架构的网上人才求职招聘系统采用Sp…

作者头像 李华
网站建设 2026/4/19 17:09:28

2026 年数据与人工智能的七项预测

本文是我根据与数百位数据领导者的对话、我们在 Sifflet 的工作模式以及整个行业正在发生的巨大变革所看到的趋势。支撑人工智能的基础设施正在被彻底重建。以下是哪些部分会改变,哪些部分不会改变。每年我们都会看到关于 SQL 消亡、Lakehouse 架构崛起,…

作者头像 李华
网站建设 2026/4/23 8:33:03

小白必看:INF文件数字签名入门指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的INF文件签名教学工具,通过交互式教程逐步指导用户:1)什么是INF文件签名 2)为什么需要签名 3)如何检查签名 4)简单修复方法。工具应包含…

作者头像 李华
网站建设 2026/4/26 7:50:29

基于ShuffleNetV2的YOLOv5主干重构指南:模型压缩、加速部署与精度评估

文末含资料链接和视频讲解! 文章目录 一、轻量化网络技术背景 1.1 移动端部署的挑战 1.2 ShuffleNet系列演进 二、ShuffleNetV2模块深度解析 2.1 通道混洗机制 2.2 Shuffle_Block结构 三、YOLOv5集成ShuffleNetV2全流程 3.1 代码修改实战 步骤1:common.py新增模块 步骤2:yo…

作者头像 李华
网站建设 2026/4/18 5:42:40

YOLO11部署实战:基于云平台的一键启动方案

YOLO11部署实战:基于云平台的一键启动方案 YOLO11是目标检测领域中的最新演进成果,延续了YOLO系列“又快又准”的核心优势。相比前代模型,它在架构设计上进一步优化了特征提取与多尺度融合机制,在保持高推理速度的同时显著提升了…

作者头像 李华
网站建设 2026/4/23 2:52:25

小白必看:用GPEN镜像快速实现人脸增强全流程

小白必看:用GPEN镜像快速实现人脸增强全流程 你是不是也遇到过这样的问题?家里老照片模糊不清,想修复却不知道从哪下手;朋友发来的自拍光线太暗,细节全无;或者社交媒体上的头像不够清晰,影响整…

作者头像 李华