【震惊】多模态大模型集体“翻车“！空间智能评测基准揭示AI致命短板，开发者必看-洪萨配资

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

要真正走入现实世界，模型不仅需要看得见，更要看得懂空间：它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理，并基于这些信息做出合理决策，与环境产生有效交互。

为此，上海人工智能实验室 InternRobotics 团队近日推出了一套全面而硬核的空间智能视频基准 —— MMSI-Video-Bench，对当前主流多模态大模型精心打造了一场挑战系数极高的 “空间智能大考”。

本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、复旦大学、加州大学洛杉机分校的研究者们共同完成。

该基准具有以下显著特点：

（1）全面且系统的题型设计

MMSI-Video-Bench 首先从视频本身的时空信息理解出发，对模型的基础空间感知能力进行系统考察，主要包括：

空间构建（Spatial Construction）：聚焦于对全局空间布局的理解，涵盖实体与场景的空间状态属性，以及相机、实体与场景之间的两两空间位置关系。
运动理解（Motion Understanding）：考察模型对长时运动过程的感知与理解能力，包括实体运动、相机运动，以及多实体之间的交互运动。

在此基础上，MMSI-Video-Bench 进一步评测模型基于时空信息进行高层决策的能力，具体包括：

基于视频信息进行推理与行动的规划能力（Planning）；
对未来状态进行推断与想象的预测想象能力（Prediction）。

由于真实世界的观测在时间上不一定是连续的，在空间上单一视角的信息不一定是完备的，MMSI-Video-Bench 进一步扩展了任务范畴，以更真实地覆盖现实场景中的复杂情形，考察模型跨视频的推理能力，这包含了跨时间的记忆更新能力（Memory Update）；多视角信息的整合能力（Multi-View Integration）。

通过上述多层次、多维度的题型设计，MMSI-Video-Bench 构建了一个覆盖感知、推理与决策全过程的空间智能评测体系。

MMSI-Video-Bench 由五大任务类型，13 个子类问题构成

（2）极具挑战性的问题设计

MMSI-Video-Bench 基准的所有问题由 11 位平均研究年限超过 2.5 年的 3D 视觉研究员亲自把关精细设计，严格验收打磨，确保了基准每一个问题清晰准确，具有挑战性。所有模型均表现吃力，即便是最表现最好的 Gemini 3 Pro，也只有 38% 的准确率，相比其它的空间智能基准，具有目前最高的人类–AI 性能差距 (约 60%)。

(3) 丰富多样的视频数据来源

基准的视频数据来源于 25 个公开数据集以及 1 个自建数据集，包含了机器人操作、从单房间到多层楼宇的室内场景、室外建筑与街景、自然风光、体育活动以及电影片段等多种拍摄类型，全面反映了真实世界中复杂多样、多尺度的空间场景

(4) 特定领域针对性的能力测评

此外，受益于场景类型的丰富以及任务类型的全面性，MMSI-Video-Bench 可以划分出室内场景感知 (Indoor Scene Perception)/ 机器人 (Robot) / 定位 (Grounding) 三大子基准，方便针对性测评模型特定能力。

MMSI-Video-Bench 的标注流程和比例 / 视频时长 / 词云分布

空间智能大考：揭示模型能力边界与瓶颈

（1）空间智能大考模型成绩单

研究团队对 25 个主流多模态模型进行了评测，整体得分普遍偏低。即便是表现最优的 Gemini 3 Pro（38.0），与人类水平（96.4）之间仍存在接近 60% 的显著差距。

与已有空间智能基准的结论一致，实验结果再次暴露了当前模型在空间构建能力上的不足。更为关键的是，得益于 MMSI-Video-Bench 在任务设计上的全面性，研究团队进一步发现：模型在运动理解、规划、预测以及跨视频推理等能力上同样存在明显瓶颈。

在所有任务类型中，预测（Prediction）是最具挑战性的主任务，相机–实体之间的空间关系建模是难度最高的细分类别。此外，研究团队发现，即便是经过专门空间任务微调的模型，其能力也未能有效泛化到 MMSI-Video-Bench。

不同模型在 MMSI-Video-Bench 上的表现

（2）错误分析揭示模型瓶颈

为进一步定位模型性能受限的关键原因，研究团队对模型的推理结果进行了系统化复盘，并将错误归纳为五大类型:

细致定位错误 (Detailed Grounding Error)：模型在精细视觉感知层面出现失效，常见表现包括目标遗漏混淆，或 “时间点 - 事件” 对应关系感知错误。
ID 匹配错误 (ID Mapping Error)：模型在跨帧过程中难以保持一致的实体身份跟踪。
潜在逻辑推断错误 (Latent Logical Inference Error)：模型在需要依赖隐含线索或常识知识的推理任务中失败。
提示输入对齐错误 (Prompt Alignment Error)：模型未能将提示信息（如背景假设、新增条件或辅助图像）与视频信息正确结合进行推理。
几何推理错误 (Geometric Reasoning Error)：模型在空间几何关系理解上存在偏差，对于相对位置或距离关系（如前后左右、远近）出现错误推断。

MMSI-Video-Bench 的五种错误类型示例

研究团队选取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四个具有代表性的模型进行了系统的错误分析和统计，结果如图所示。几何推理错误是最为普遍、影响最大的错误类型，而进一步的细分分析表明：

空间构建任务的低表现主要源于几何推理能力不足；
运动理解任务中，模型难以在快速、细微或长时间跨度的运动中保持精确定位；
在规划与预测任务中，除几何推理错误外，模型往往无法有效理解提示输入，并将其与视频信息进行联合推理；
跨视频推理任务的失败主要源于多目标跨视频定位的复杂性，以及模型难以利用潜在线索（如持续锁定同一目标）完成推理。

MMSI-Video-Bench 的五种错误类型分布

（3）空间线索与推理提示难以弥补核心能力不足

研究团队进一步探索了两种提升模型性能的策略：

引入 3D 空间线索以辅助模型理解，如图所示，通过使用高性能的 3D 重建模型从视频帧重建 3D 场景，并多视角渲染生成 2D 全局图像作为额外输入，给予模型 3D 空间线索辅助模型的理解推理；

3D 空间线索辅助方法

采用思维链（Chain-of-Thought）技术，提示引导模型进行更规范的推理过程。上述方法均未能带来显著的性能提升，这些结果进一步揭示了两个关键事实：
如何设计模型真正 “可理解、可利用” 的空间线索，仍是一个开放且极具挑战性的问题；
当前模型的失败并非由于缺乏显式推理步骤，而是受限于底层推理能力本身仍然不足。

3D 空间线索辅助与思维链提示下的模型性能变化

结语

MMSI-Video-Bench 是一个高质量、高挑战性且系统全面的视频空间智能评测基准，系统性地评估了多模态大模型在视频理解中的空间认知、推理与决策能力，评测结果清晰揭示了当前模型在多项核心任务上与人类表现之间仍存在显著差距。基于深入而细致的实验分析，研究进一步明确了现阶段模型的关键能力瓶颈，并为未来空间智能模型的技术演进指明了研究方向。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

AI圈炸锅！DeepSeek-OCR黑科技：压缩10倍长文本，成本直降90%！VTC技术让大模型“过目不忘“，中科院发布权威评测