news 2026/5/4 5:43:09

【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

快速了解部分

基础信息(英文):

1.题目: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
2.时间: 2025.xx (arXiv预印本)
3.机构: Eastern Institute of Technology, Ningbo; Georgia Institute of Technology; Shanghai Jiao Tong University; Tsinghua University; University of Science and Technology of China; Peking University
4.3个英文关键词: Embodied World Models, Multi-Dimensional Reward, Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

研究痛点:现有研究不足 / 要解决的具体问题

当前基于视频的世界模型主要关注视觉生成质量,忽略了物理保真度、动态一致性和任务逻辑(即“物理恐怖谷”问题)。现有的单维度奖励模型无法同时评估低级物理(如碰撞)和高级语义(如任务完成),且基于流匹配(Flow Matching)的模型难以直接应用标准的强化学习算法(如PPO)进行优化。

核心方法:关键技术、模型或研究设计(简要)

提出了ReWorld框架,包含两部分核心创新:一是HERO(分层奖励模型),通过多头架构分别评估物理真实性、具身合理性、任务完成度和视觉质量;二是HERO-FPO(HERO引导的流策略优化),提出了一种CFM-似然代理方法,使流模型能通过PPO算法进行高效强化学习。

深入了解部分

相比前人创新在哪里

  1. 多维奖励解耦:不同于以往单一的美学或整体评分,ReWorld将奖励分解为四个正交维度(物理、具身、任务、视觉),并映射到视觉主干网络的不同特征层级。
  2. 流模型RLHF算法:首次解决了流匹配(Flow Matching)类生成模型无法直接计算对数似然(log-likelihood)从而难以应用PPO的难题,提出了CFM-Likelihood Proxy,将PPO更新的复杂度从O(d²)降低到O(d)。

解决方法/算法的通俗解释

想象你在教一个只会画画的AI学会“物理常识”。以前的方法是给画打一个总分,AI不知道是画得不像(视觉),还是东西飘在天上(物理)。

  1. HERO模型:相当于给AI配了四个专家评委,一个专门看东西有没有穿模(物理),一个看机器人动作顺不顺(具身),一个看有没有做对事(任务),一个看画得细不细(视觉)。这四个评委打分互不干扰。
  2. HERO-FPO算法:相当于找到了一种捷径,不用去算极其复杂的数学公式,就能用简单的计算告诉AI:“根据你刚才生成视频的‘去噪难度’,这次生成的好坏程度大概是这样”,从而让AI能快速学习改进。

解决方法的具体做法

  1. 构建数据集:利用GPT-4o作为标注员,构建了一个包含约23.5万个样本的4D具身偏好数据集,每个样本都有四个维度的评分。
  2. 训练HERO:基于InternVideo2,设计四个解耦的奖励头,通过特定的损失函数(维度特异性损失+整体偏好正则化)训练模型。
  3. 微调策略:使用Cosmos作为基础世界模型,通过HERO-FPO算法,利用HERO提供的多维奖励信号,通过PPO算法对模型进行后训练优化。

基于前人的哪些方法

  1. 基础生成模型采用了Cosmos(基于流匹配的视频生成模型)。
  2. 奖励模型构建参考了Bradley-Terry偏好学习模型。
  3. 强化学习框架基于PPO(近端策略优化),但对其进行了针对流模型的理论改造。

实验设置、数据、评估方式、结论

  1. 数据:使用RH20T数据集进行偏好数据生成和评估,Bridge V2数据集进行模型微调。
  2. 评估:提出了ReWorldBench基准,包含物理推理、逻辑规划、运动学执行和生成保真度四个维度。同时使用FVD、SSIM等视觉指标。
  3. 结论:ReWorld在ReWorldBench的四个维度上比基线模型(Cosmos-SFT)提升了15-25%,人类偏好评级超过85%。证明了该方法能有效解决“物理恐怖谷”问题,且不牺牲视觉质量。

提到的同类工作

  1. Cosmos:大规模视频生成模型,ReWorld的基础模型和主要对比对象。
  2. CogVideoX / Wan2.1:其他SOTA的文本到视频生成模型,用于对比评估。
  3. RLHF (InstructGPT等):在大语言模型中应用人类反馈强化学习的先驱工作,ReWorld将其思想迁移至视频生成领域。
  4. Direct Preference Optimization (DPO):用于对比说明流模型与扩散模型在优化目标上的不同。

和本文相关性最高的3个文献

  1. **Cosmos **:本文直接基于该模型进行改进,是本文的基础架构。
  2. **InternVideo2 **:本文提出的HERO奖励模型的视觉主干网络,是实现多维特征提取的关键。
  3. **Flow Matching / CFM理论工作 **:本文算法理论推导的基础,特别是HERO-FPO中的CFM-Likelihood Proxy建立在这些工作的数学定义之上。

我的

视频生成工作,用的cosmos-transfer1,flow-based模型。提出了RL算法,可以训这类模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 8:10:31

图吧工具箱最新绿色版,内置上百种硬件检测工具

集成上百种专业硬件检测工具,涵盖CPU、显卡、内存、硬盘等全品类性能测试与诊断。软件绿色免安装、无广告无捆绑,适合电脑用户、DIY玩家及维修人员快速排查硬件问题,是免费高效的一站式硬件检测解决方案。 下载地址: 链接&#xf…

作者头像 李华
网站建设 2026/5/1 4:03:01

十大LLM+RAG项目

纵观当前RAG技术发展,我们正从简单的“检索生成”向更精细化的系统设计迈进。多模态理解、图技术融合、长上下文优化等技术方向将共同推动RAG进入新阶段。 一、从聊天机器人到企业级系统:RAG技术的产业升级 当越来越多的大模型应用走出演示环境&#x…

作者头像 李华
网站建设 2026/4/30 21:49:23

<span class=“js_title_inner“>又被内存泄漏搞了一天</span>

作为一名专业的嵌入式菜鸟,在编写嵌入式软件的时候,无可避免地出现内存泄漏的问题,比如,数组越界,空指针,野指针,等等。在遇到内存泄漏的时候,作为菜鸟应该如何定位排查和分析解决呢…

作者头像 李华
网站建设 2026/5/1 9:20:53

draw_tensor2psd_v4.py

import cv2import numpy as npimport mathimport osimport structfrom tqdm import tqdmfrom glob import globPALETTE np.random.randint(0, 255, [255, 3], dtypenp.uint32)# 模型输入尺寸(W, H),用于把模型坐标缩放回原图MODEL_IN_W 608…

作者头像 李华
网站建设 2026/4/23 14:29:13

<span class=“js_title_inner“>今年运维这工资是认真的吗?</span>

运维人的至暗时刻已经来临?!这真不是危言耸听。最近身边的运维朋友都在说:35岁到了运维天花板、岗位缩减、薪资倒挂……难道运维岗真的没有未来了?其实......不是运维不重要了。而是运维人的技术栈太久没有升级了!&…

作者头像 李华
网站建设 2026/5/2 7:21:19

plc教程系列篇(二),plc教程之5大编程语言类型介绍

Plc教程的好坏直接影响到大家的学习,好的plc教程通常具备逻辑清晰等特点。为节省大家寻求plc教程的时间,本文将对大家带来plc教程之plc编程语言类型详解。如果你正缺少一份好的plc教程,不妨看看本文哦。 PLC的用户程序,是设计人员…

作者头像 李华