news 2026/2/3 13:25:57

【论文自动阅读】Motus: A Unified Latent Action World Model

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Motus: A Unified Latent Action World Model

Motus:统一潜在动作世界模型相关信息

快速了解部分

基础信息(英文):

  1. 题目:Motus: A Unified Latent Action World Model
  2. 时间年月:2025.12
  3. 机构名:Tsinghua University(清华大学)、Peking University(北京大学)、Horizon Robotics(地平线机器人)
  4. 3个英文关键词:Unified Latent Action World Model、Mixture-of-Transformer (MoT)、Optical Flow-based Latent Action

1句话通俗总结本文干了什么事情

本文提出Motus这一统一潜在动作世界模型,通过混合Transformer架构整合多种专家模型,借助光流学习潜在动作,结合三阶段训练流程和六层数据金字塔,实现多模态生成能力的统一,在模拟和真实场景的机器人任务中提升性能。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 多模态生成能力统一难题:现有方法将 Embodied AI的多种能力(如VLA、world model等)拆分为独立模型,难以在单一框架中统一建模五种关键分布,且现有Unified World Model要么从头训练,要么仅用有限先验,缺乏VLM的鲁棒理解能力或视频生成模型的物理交互知识。
  2. 异质数据利用难题:Embodied AI需要从互联网视频、人类第一视角演示、多机器人轨迹等大规模异质数据中学习,但不同载体的动作空间差异大,多数视频数据无动作标签,难以对动作专家进行大规模预训练以获取通用运动和交互先验。

核心方法:关键技术、模型或研究设计(简要)

  1. 混合Transformer(MoT)架构:整合理解专家、视频生成专家和动作专家,通过三模型联合注意力实现跨模态知识融合,同时保留各专家的专项功能。
  2. UniDiffuser风格调度器:为视频和动作分配不同时间步和噪声尺度,支持在不同推理模式(如VLA、WM、IDM等)间灵活切换。
  3. 光流基潜在动作:将光流编码为像素级“增量动作”,用深度压缩自编码器(DC-AE)压缩光流,结合少量动作标签监督,构建感知与控制间的桥梁。
  4. 三阶段训练流程与六层数据金字塔:三阶段(视频预训练、潜在动作预训练、特定载体动作微调)在涵盖网络数据、人类视频、模拟数据等的六层数据上训练,提升模型泛化能力。

深入了解部分

相比前人创新在哪里

  1. 全面的能力统一:首次在单一框架中统一五种主流 embodied 基础模型范式(WM、IDM、VLA、VGM、视频-动作联合预测模型),且不损失通用多模态先验,弥补了前人模型能力不完整的缺陷。
  2. 高效利用异质数据:引入光流基潜在动作,解决不同载体动作空间不兼容及视频数据无动作标签的问题,实现从大规模无标签视频和多机器人轨迹中学习通用运动知识,突破前人依赖标注机器人轨迹的局限。
  3. 架构设计优化:采用MoT架构整合预训练专家模型,通过三模型联合注意力实现跨模态融合,避免了前人统一模型中简单拼接 tokens 导致的功能干扰,同时借助UniDiffuser风格调度器灵活切换推理模式,提升模型适用性。
  4. 训练策略创新:设计三阶段训练与六层数据金字塔结合的方案,从通用数据到特定载体数据逐步优化,使模型能有效融合通用先验与领域知识,提升下游任务性能,前人训练策略多缺乏这种分层且全面的数据利用方式。

解决方法/算法的通俗解释,以及具体做法

1. 解决多模态生成能力统一问题
  • 通俗解释:把负责理解场景语言、生成视频、预测动作的三个“专家”模型整合到一个“混合Transformer”架构里,让它们既能各自发挥专长,又能互相交流信息,再通过一个“调度器”灵活控制模型在不同任务模式间切换,比如有时需要预测动作,有时需要生成未来视频。
  • 具体做法
    • 构建MoT架构,包含理解专家(基于预训练VLM,如Qwen3-VL-2B,负责场景和语言理解)、视频生成专家(基于预训练VGM,如Wan 2.2 5B,负责生成未来视频)、动作专家(Transformer块结构,负责动作预测)。
    • 设计三模型联合注意力机制,将三个专家的多头自注意力层拼接,实现跨模态特征融合,同时每个专家保留独立Transformer模块,避免功能干扰。
    • 引入UniDiffuser风格调度器,为视频和动作分配不同的时间步(τ₀、τₐ)和噪声(ε₀、εₐ),通过计算观测和动作的速度场损失(l_actionθ、l_obsθ)联合训练,在推理时通过设定不同起始时间步和固定部分模态噪声,实现VLA、WM等五种模式的切换。
2. 解决异质数据利用问题
  • 通俗解释:用“光流”(反映相邻帧像素运动的信息)作为通用的“动作语言”,把它压缩成低维度的“潜在动作”,让模型能从没有动作标签的视频里学习运动规律,再结合少量有标签的机器人数据微调,让“潜在动作”能对应到真实机器人的动作,最后用分层的数据训练模型,从互联网视频等通用数据逐步过渡到特定机器人数据。
  • 具体做法
    • 计算光流(用DPFlow工具)并转换为RGB图像,使用DC-AE将光流压缩为4个512维token,再通过轻量级编码器投影为14维向量(匹配典型机器人动作空间维度),得到潜在动作。
    • 训练潜在动作时,混合90%无标签数据(用于光流重建)和10%有标签数据(包括任务无关数据和机器人演示数据),总损失包含重建损失(L_recon,最小化光流重建误差)、动作对齐损失(λₐ||a_real - a_pred||²,对齐潜在动作与真实动作)、KL正则化(βL_KL,规范潜在空间)。
    • 实施三阶段训练:阶段1(视频预训练)用多机器人轨迹和人类视频适配VGM,使其能生成合理未来视频;阶段2(潜在动作预训练)冻结VLM,用视频、语言和潜在动作训练整个Motus,初始化动作专家;阶段3(特定载体微调)用目标机器人数据微调,适配特定机器人动力学。同时使用六层数据金字塔(从Level1:网络数据到Level6:目标机器人任务轨迹数据)作为训练数据。
3. 优化模型训练与推理效率
  • 通俗解释:由于预测连续视频帧和动作序列时,视频帧数量远多于动作数量,容易导致模型“偏科”于视频预测,所以对视频帧进行“下采样”,减少视频 token 数量,让视频和动作的 token 数量平衡,提升训练效率和动作预测能力。
  • 具体做法:采用“动作密集-视频稀疏预测”策略,在训练和推理时降低视频帧率,例如将视频帧率设为动作帧率的1/6,使视频 token 与动作 token 数量平衡,解决Tri-model Joint Attention中的模态不平衡问题,减少冗余视频预测,提升训练和推理效率。

基于前人的哪些方法

  1. 统一多模态模型相关方法:借鉴Bagel的MoT架构思路,通过混合专家模型实现多模态能力整合,同时参考UWM(Unified World Models)对五种embodied模型分布的统一建模理念,但改进了UWM中简单拼接 tokens 的方式,引入预训练专家和跨模态联合注意力。
  2. 潜在动作模型相关方法:基于LAOM(Latent Action Models)中使用少量动作标签引导模型关注机器人活动的思路,结合AdaWorld的表示解耦思想,同时采用类似DC-AE(Deep Compression Autoencoder)的压缩架构处理高维度光流数据,还参考了AnyPos中使用任务无关数据进行动作空间对齐的方法。
  3. 预训练模型利用相关方法:延续VLM(如Qwen3-VL-2B)在视觉-语言理解上的优势,以及VGM(如Wan模型)在视频生成上的能力,将预训练模型作为专家整合到统一架构中,避免从头训练,这一思路借鉴了OpenVLA、X-VLA等模型利用预训练基础提升embodied任务性能的做法。
  4. 扩散模型与调度相关方法:参考UniDiffuser中对多模态进行不同噪声和时间步分配的调度策略,结合整流流(Rectified Flow)的思想计算速度场损失,实现多模态联合训练与灵活推理,同时动作分块(Action Chunking)技术借鉴了Zhao等人在机器人控制中对动作序列分块预测的方法。
  5. 数据利用相关方法:分层数据利用思路参考了RoboTwin 2.0、Agibot World等数据集构建中对不同来源数据(模拟、真实、人类、机器人)的分类,同时借鉴了Egodex中利用第一视角视频数据学习操作技能的方法,构建六层数据金字塔。

实验设置、数据、评估方式

1. 实验设置
  • 实验环境:分为模拟环境(RoboTwin 2.0,包含50个代表性操纵任务,场景分为干净场景和随机场景,随机场景包含随机背景、杂乱桌面、高度扰动、光照随机等)和真实环境(两种双臂机器人平台:AC-One、Agilex-Aloha-2,任务涵盖空间理解、可变形物体操作、精密流体控制等,如叠毛巾、煮咖啡、磨咖啡豆)。
  • 基线模型:模拟环境中对比π₀.₅、X-VLA,以及无预训练(w/o Pretrain)、仅阶段1训练(Stage1)的Motus变体;真实环境中对比π₀.₅和无预训练的Motus变体;IDM评估中对比ResNet18+MLP、DINOv2+MLP基线。
  • 训练配置:三阶段训练的批次大小均为256;学习率分别为8×10⁻⁵(阶段1)、5×10⁻⁵(阶段2)、1~5×10⁻⁵(阶段3);优化器均为AdamW,权重衰减0.01;动作分块大小为16,视频下采样后帧率为5Hz,动作帧率为30Hz;推理时流匹配步骤为10,采样策略为Logit Normal。
2. 实验数据
  • 数据类型:涵盖六种类型,对应六层数据金字塔:
    • Level1(网络数据):大规模互联网视频和文本语料,用于预训练VGM和VLM。
    • Level2(人类第一视角视频):包含人类操纵行为的第一视角视频,无动作标签,用于学习人类运动模式。
    • Level3(合成数据):模拟环境生成的视频-动作数据,如RoboTwin 2.0的干净场景数据,用于初步学习操纵规律。
    • Level4(任务无关数据):用Curobo随机采样目标机器人动作空间得到的图像-动作对,用于动作空间对齐。
    • Level5(多机器人任务轨迹数据):不同型号机器人的有标签操纵轨迹数据,用于学习跨机器人通用操纵知识。
    • Level6(目标机器人任务轨迹数据):AC-One和Agilex-Aloha-2的特定任务轨迹,每种任务100条轨迹,用于微调适配目标机器人。
  • 数据利用方式:阶段1使用Level1-Level3数据适配VGM;阶段2使用Level2-Level5数据(含无标签视频和有标签多机器人数据)训练潜在动作和Motus整体;阶段3使用Level6数据微调。
3. 评估方式
  • 模拟环境评估:在RoboTwin 2.0的50个任务上,测量任务成功率(每个任务执行100次,计算成功次数占比),对比不同模型在干净场景和随机场景下的平均成功率,同时评估IDM模式下的动作MSE(均方误差),VGM和WM模式下的生成质量指标(FID、FVD、SSIM、LPIPS、PSNR)。
  • 真实环境评估:在AC-One(9个任务)和Agilex-Aloha-2(5个任务)上,采用部分成功率评估(将任务分解为子任务,完成子任务得对应分数,完全成功得满分,计算平均分数占比),同时对关键任务(如放入面包到烤箱、从饮水机取水)进行子任务分解评估,分析模型在各子步骤的表现。
  • 其他基准评估:在LIBERO-Long基准(10个长视野语言条件操纵任务)上评估平均成功分数;在VLABench基准的“In Distribution”和“Cross Category”两个轨道(共3个任务)上评估成功率,验证模型泛化能力。

提到的同类工作

  1. 视觉-语言-动作模型(VLAs):如π₀.₅、X-VLA、OpenVLA、GR00T-N1、UniVLA等,这类模型从视觉和语言中学习静态策略,专注于动作预测,但缺乏视频生成和世界建模能力,本文将其作为基线对比,并整合其动作预测功能到统一模型中。
  2. 世界模型(World Models, WMs)与视频生成模型(VGMs):如Gen2act、Vidar、RoboDreamer、Video2policy等,这类模型通过预测未来视频或构建世界模型学习物理交互,但缺乏语言理解和动作预测的紧密整合,本文借鉴其视频生成能力,将VGM作为专家整合到MoT架构中。
  3. 逆动力学模型(IDMs):如基于ResNet18+MLP、DINOv2+MLP的IDM基线,以及F₁模型(结合VLA和IDM,但排除WM和VGM),这类模型从观测序列中预测动作,本文在IDM模式下与其对比,同时将IDM功能统一到自身框架中。
  4. 统一世界模型(UWMs):如UWM(Unified World Models),首次尝试统一WM、VLA、IDM、VGM、视频-动作联合预测模型,但存在从头训练或先验有限的问题,缺乏VLM的理解能力和VGM的物理交互知识,本文以此为基础,优化架构并整合预训练专家,提升模型性能。
  5. 潜在动作模型:如LAOM、AdaWorld、Moto、Como等,这类模型通过自编码器、β-VAE等方式学习潜在动作,减少对动作标签的依赖,但多缺乏跨模态整合和大规模预训练策略,本文借鉴其潜在动作思想,结合光流和预训练专家,提升潜在动作的通用性。

和本文相关性最高的3个文献

1.Unified world models: Coupling video and action diffusion for pretraining on large robotic datasets(作者:Chuning Zhu等人,2025)

  • 相关性原因:该文献提出的UWM是首个尝试统一WM、VLA、IDM、VGM、视频-动作联合预测模型的框架,与本文核心目标(统一多模态embodied能力)高度一致。本文在UWM的基础上改进,解决了其从头训练、先验不足的缺陷,通过整合预训练VLM和VGM、设计MoT架构提升性能,二者在统一模型的核心思路上直接承接,是本文最直接的前人工作。
  1. X-vla: Soft-prompted transformer as scalable cross-embodiment vision-language-action model(作者:Jinliang Zheng等人,2025)

    • 相关性原因:X-VLA是当前跨载体视觉-语言-动作模型的代表性工作,专注于通过软提示Transformer实现跨机器人动作预测,与本文的VLA功能模块直接对应。本文在实验中以X-VLA为重要基线,在RoboTwin 2.0模拟环境中实现了比其高15%的性能提升,二者均关注跨载体动作预测与视觉-语言结合,是同领域内直接的性能对比对象,且本文的跨载体能力提升思路部分针对X-VLA的局限(如依赖标注机器人数据)。
  2. Wan: Open and advanced large-scale video generative models(作者:Team Wan等人,2025)

    • 相关性原因:Wan模型是本文视频生成专家的核心预训练基础,本文直接采用Wan 2.2 5B作为VGM模块,用于生成未来视频序列,其视频生成能力是本文统一模型中视频生成功能的关键支撑。该文献的视频生成技术与本文的MoT架构深度整合,是本文实现多模态生成能力统一的重要技术基础,二者在视频生成与多模态融合的结合上紧密相关。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/2 21:28:44

Open-AutoGLM与Parasoft SOAtest集成路径详解,资深架构师20年实战经验分享

第一章:Open-AutoGLM与Parasoft SOAtest集成差异在自动化测试工具的生态系统中,Open-AutoGLM 与 Parasoft SOAtest 的集成方式呈现出显著的技术路径差异。两者虽然均支持 API 测试与持续集成流程嵌入,但在架构设计、协议兼容性及扩展机制方面…

作者头像 李华
网站建设 2026/2/1 0:07:11

为什么顶尖企业都在弃用Perfecto转向Open-AutoGLM?真相在这里

第一章:为什么顶尖企业都在弃用Perfecto转向Open-AutoGLM?真相在这里 性能与灵活性的全面碾压 在自动化测试和智能流程生成领域,Perfecto 曾凭借其云设备矩阵和稳定的执行环境占据市场主导地位。然而,随着AI驱动的自动化框架崛起…

作者头像 李华
网站建设 2026/1/28 21:14:09

【开题答辩全过程】以 基于uniapp的疫苗预约系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华