news 2026/5/2 1:13:25

World Action Model

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
World Action Model

写在前面
从过年一直到现在,World Action Model这个概念很火,学术界有很多工作(Cosmos Policy, DreamZero, Motus, LingBot-VA, FastWAM)。感觉在短期的未来可能也是大家的交流话题,在组内和网上学到了很多,这里记录一下信息,也希望能帮助想要了解World Action Model的朋友们。

什么是World Action Model?
首先,什么是World Action Model,它跟我们常说的World Model有什么区别吗?我们常说的World Model其实准确描述应该叫Action Conditioned World Model (AC-WM),输入当前时刻的状态 s_t 和将要执行的动作 a_t,AC-WM会预测出下一时刻的状态 s_{t+1}。这样的建模方式中,动作 a_t 是 AC-WM 的一个输入(即一个condition)。

对于World Action Model(后文简称为WAM)来说,只需要输入当前状态 s_t ,WAM会同时输出对应的动作 a_t 和执行这个动作之后对应的状态 s_{t+1} 。

所以简单来说,AC-WM和WAM的区别为:动作到底是作为模型的输入,还是输出。

World Action Model和VLA的区别与联系
对于一个模型来说,如果能输出动作,其实就可以算一个policy了。目前作为policy的模型,大多数是VLA架构,这里我们又谈到了WAM也可以做policy,那么这两者有什么区别和联系呢?

VLA:充分利用VLM基础模型的能力 + Action Expert

WAM:充分利用Video Generation Model基础模型的能力 + Action Expert

VLA这条路比较好理解,VLM就类似人的大脑,有了思考能力,现在接个身体 (Action Expert) 让它控制。WAM这边利用Video Generation Model的能力生成动作,其实也有一定的道理,因为WAM在训练的时候,可以用未来帧做密集监督,学习世界演变的知识,可能更有利于控制身体。

可能有的同学就要问了,那能不能同时利用VLM和Video Generation Model的能力,构建一个更好的policy?好问题,感觉之后确实会形成VLA+World Model的统一架构。

WAM的经典工作简介和几种范式
最近有很多WAM的工作,这里选取几篇扫过的大致给大家介绍一下。

Motus: A Unified Latent Action World Model

motus
架构很简单,使用了Mixture-of-Transformer将Video Generation Model、Action Expert以及Understanding Model三个模型进行结合。

训练/推理的时候,Video Gen Model输入一段视频的第一帧和加噪声的之后的帧;Action Expert输入纯噪声;Understanding Model输入第一帧和文本。最终实现Video Generation Model预测未来帧,同时Action Expert输出对应的动作。

Cosmos Policy

Cosmos Policy
cosmos policy最有意思的一点是它没有在co

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 1:12:25

终极指南:如何用抖音下载器轻松获取无水印视频和音乐

终极指南:如何用抖音下载器轻松获取无水印视频和音乐 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…

作者头像 李华
网站建设 2026/5/2 1:12:24

银河麒麟V10 SP1修改MAC地址踩坑记:为什么你的脚本开机不执行?

银河麒麟V10 SP1修改MAC地址的深度实践:从失效脚本到系统级解决方案 在国产操作系统逐步替代传统Linux发行版的浪潮中,银河麒麟V10 SP1以其出色的安全性和稳定性赢得了众多政企用户的青睐。然而,当一位习惯了Ubuntu操作习惯的运维工程师首次尝…

作者头像 李华
网站建设 2026/5/2 1:12:24

如何快速解密游戏音频:acbDecrypter完整实战指南

如何快速解密游戏音频:acbDecrypter完整实战指南 【免费下载链接】acbDecrypter 项目地址: https://gitcode.com/gh_mirrors/ac/acbDecrypter 想要提取游戏中的背景音乐或角色语音,却被加密的音频文件难住了吗?acbDecrypter正是你需要…

作者头像 李华
网站建设 2026/5/2 1:02:22

大数据系列(八) HBase:海量数据的随机读写怎么破?

HBase:海量数据的"随机读写"怎么破?大数据系列第 8 篇:HDFS 适合批量读,但想要像数据库那样随机查一条数据?HBase 来救场。从一个矛盾说起 前面咱们聊了 HDFS,它是个很好的分布式文件系统&#x…

作者头像 李华