news 2026/3/4 17:29:25

【论文自动阅读】Reinforcing Action Policies by Prophesying

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Reinforcing Action Policies by Prophesying

https://arxiv.org/pdf/2511.20633 论文信息整理

快速了解部分

基础信息(英文):

  1. 题目:Reinforcing Action Policies by Prophesying
  2. 时间年月:2025年11月
  3. 机构名:School of Data Science, Fudan University; Shanghai Innovation Institute; Logos Robotics
  4. 3个英文关键词:Vision–Language–Action (VLA)、Reinforcement Learning (RL)、World Model

1句话通俗总结本文干了什么事情

本文提出ProphRL框架,通过预训练的动作条件世界模型Prophet生成动作对应的未来场景视频,再结合适配VLA流动作头的FA-GRPO算法和梯度稳定策略FlowScale,对VLA政策进行强化学习后训练,解决了传统VLA模仿学习过拟合、RL真实交互成本高及模拟器迁移难的问题,提升了VLA在基准测试和真实机器人上的任务成功率。

研究痛点:现有研究不足 / 要解决的具体问题

  1. VLA训练局限:多数VLA依赖纯模仿学习,易过拟合演示数据,在分布偏移(如新机器人、物体、环境)下鲁棒性差,且基于似然的目标无法优化长周期任务奖励,易累积误差。
  2. RL应用瓶颈:强化学习(RL)虽能优化任务奖励,但真实机器人交互成本极高,传统模拟器需大量工程设计且视觉域迁移差距大;离线RL缺乏当前政策的闭环数据,长周期信用分配能力弱。
  3. 世界模型缺陷:现有数据驱动世界模型多局限于单一场景,仅作为数据增强工具而非可适配模拟器,难以泛化到新真实场景;少数用作VLA后训练模拟器的工作,未解决世界模型成为真实机器人实用RL后端的核心问题。

核心方法:关键技术、模型或研究设计(简要)

提出ProphRL框架,由三部分核心组件构成:

  1. Prophet:预训练的动作条件世界模型,基于视频扩散模型,跨大规模异质机器人数据预训练以学习动作-结果动态,可少样本适配新机器人、物体和环境,生成可用于RL的轨迹级场景视频。
  2. FA-GRPO:适配VLA流动作头的RL算法,将Flow-GRPO的比率计算从内部流步骤聚合到VLA动作维度,贴合环境实际动作逻辑。
  3. FlowScale:逐步梯度重加权策略,基于噪声调度调整每步梯度权重,减少流动作头的梯度异方差性,稳定政策更新。

深入了解部分

相比前人创新在哪里

  1. 世界模型设计创新:提出历史感知、双动作条件(标量动作流+动作帧流)的Prophet,直接对接VLA观测空间,能生成动作对齐的长周期操作轨迹,而非仅关注视觉保真度。
  2. 泛化能力突破:通过跨异质数据集(AgiBot、DROID等)大规模预训练+少样本微调,使世界模型快速适配新场景,解决了传统世界模型“单场景依赖”问题,成为“即插即用”的轨迹级模拟器。
  3. 评估体系补充:提出光流引导的评估协议,通过端点误差(EPE)和余弦相似度量化末端执行器轨迹与交互保真度,弥补了传统视频质量指标(PSNR、SSIM)无法衡量动作执行正确性的缺陷。
  4. RL算法适配优化:针对VLA流动作头设计FA-GRPO和FlowScale,前者聚合内部流步骤的对数概率以匹配环境动作,后者通过噪声尺度动态调整梯度权重,解决了流动作头梯度异方差和长周期更新不稳定问题。

解决方法/算法的通俗解释,以及具体做法

1. 核心框架ProphRL的通俗逻辑

先让“世界模型Prophet”学习大量机器人操作数据,掌握“动作→未来场景”的规律(比如“夹爪右移2mm→物体跟着右移”);之后给Prophet新场景的少量数据,它就能快速适配并生成该场景下不同动作对应的未来画面;再让VLA政策在Prophet生成的“虚拟场景”里练习,用FA-GRPO判断动作好坏、FlowScale稳定学习过程,最终提升VLA在真实场景的表现。

2. 各组件具体做法
  • Prophet(世界模型)

    • 基础架构:基于 latent 视频扩散 pipeline,用Wan2.1视频自编码器压缩视频,DiT(Diffusion Transformers)作为去噪器,学习动作条件下的视频生成。
    • 动作表示:每个动作是7维向量(3维平移增量+3维欧拉角旋转增量+1维夹爪开合度),跨数据集统一动作参数化(如补零适配多末端执行器)。
    • 动作条件增强:构建“动作帧”(将末端执行器3D姿态投影到图像平面,用圆盘+轴线可视化位置/姿态,夹爪开合度映射为颜色),与标量动作流共同作为条件输入。
    • 历史感知:用FramePack模块维护60帧历史 latent 缓存,提供长周期时间上下文,保证生成轨迹的物理连续性。
    • 预训练与微调:预训练用31M+异质机器人轨迹(AgiBot、DROID等),微调用LoRA(秩16)适配新场景,仅需100-400个样本。
  • FA-GRPO(RL算法)

    • 核心适配:流动作头将动作对数概率拆分为K个内部步骤,FA-GRPO先聚合K步对数概率得到“动作级对数概率”,再按动作维度(s,c,d)计算PPO比率,而非按内部流步骤(s,c,k),贴合环境实际动作逻辑。
    • 目标函数:结合剪辑比率(clip(r,1-ε_low,1+ε_high))和KL正则化(与冻结的监督VLA政策对比),确保更新稳定。
  • FlowScale(梯度稳定)

    • 权重计算:基于扩散噪声调度的标准差(σ²),构建权重w = α·1 + (1-α)·(σ²+ε)^p / 均值(p=0.5,α控制均匀权重占比),对噪声大的早期步骤加权、噪声小的晚期步骤降权。
    • 梯度调整:权重广播到梯度计算过程,仅重缩放梯度,不改变政策分布,平衡各步骤梯度贡献。
  • 奖励模型:用Qwen2.5-VL系列VLM作为奖励模型,对Prophet生成的轨迹视频打分(如“成功将立方体放入碗中”为1,失败为0),通过组归一化得到优势函数,指导RL更新。

基于前人的哪些方法

  1. 世界模型基础:基于Cosmos-Predict2-2B-Video2World(Agarwal et al., 2025)初始化Prophet架构,借鉴其视频扩散与动作条件思路;参考Enerverse-AC(Jiang et al., 2025)、Genie-envisioner(Liao et al., 2025)的动作帧构建方法。
  2. RL算法基础:FA-GRPO基于Flow-GRPO(Liu et al., 2025)改进,保留其KL正则化和剪辑逻辑,适配VLA流动作头;借鉴PPO(Schulman et al., 2017)的比率剪辑思想,确保政策更新的保守性。
  3. VLA与视频生成:参考π0.5(Black et al., 2025)、OpenVLA(Kim et al., 2025)的VLA流动作头设计;视频扩散部分采用DiT(Zhang et al., 2025)架构,自编码器使用Wan2.1(Wan Team, 2025)。
  4. 评估方法:光流计算借鉴Farnebäck estimator(Farnebäck, 2003),用于量化动作执行的一致性。

实验设置、数据、评估方式

1. 实验设置
  • 硬件:Prophet预训练用64张H200 GPU,微调/RL用8张H200 GPU;优化器用融合Adam,预训练学习率1e-4、权重衰减0.1,VLA SFT学习率2.5e-5。
  • 模型参数:Prophet共2.058B参数,DiT通道数1024,历史缓存长度60帧;VLA模型测试3种规模:VLA-Adapter-0.5B、Pi0.5-3B、OpenVLA-OFT7B,均含7维流动作头。
2. 实验数据
  • Prophet预训练数据:AgiBot、DROID、LIBERO、Open-X子集(含Austin Sailor、CMU Stretch等),共31M+采样轨迹,统一动作参数化与相机坐标系。
  • 微调数据:BRIDGE(桌面操作任务)、LIBERO(机器人终身学习基准)、自定义UR30e机器人数据(4个任务:GraspBottle、PlaceCube、PulloutTissue、PlaceBowl,共800轨迹)。
  • VLA训练数据:SFT阶段用BRIDGE/LIBERO/UR30e数据(200轨迹/任务),RL阶段用Prophet生成的虚拟轨迹。
3. 评估方式
  • 世界模型评估
    • 视觉保真度:PSNR(峰值信噪比)、SSIM(结构相似性)、tSSIM(时间结构相似性);
    • 动作一致性:EPE(端点误差,衡量光流幅度差异)、cos相似度(衡量光流方向一致性),过滤近静态像素以聚焦有效动作。
  • RL性能评估
    • 模拟器测试:SimplerEnv(WidowX机器人任务)、LIBERO(Spatial/Object/Goal/Long四类任务),记录抓取率、任务成功率;
    • 真实机器人测试:UR30e机器人,4个任务各20个初始位置,3次重复实验取均值±标准差。

提到的同类工作

1. 世界模型相关
  • 文本条件视频生成:Genie(Bruce et al., 2024)、WorldGym(Quevedo et al., 2025),但动作条件松散,可控性差;
  • 机器人信号条件世界模型:Ctrl-world(Guo et al., 2025)、Dreamgen(Jang et al., 2025)、Enerverse-AC(Jiang et al., 2025)、World4RL(Jiang et al., 2025)、IRASIM(Zhu et al., 2024),但局限单场景、长周期轨迹差,依赖大量新数据适配。
2. RL for VLA相关
  • Policy-gradient方法:PPO(Schulman et al., 2017)、Flow-GRPO(Liu et al., 2025);
  • VLA后训练RL:VLA-RFT(Li et al., 2025)、SimpleVLA-RL(Li et al., 2025)、VLA-RL(Lu et al., 2025),但未适配流动作头梯度异方差,依赖任务特定模拟器。
3. VLA模型相关
  • π0(Black et al., 2025)、π0.5(Black et al., 2025):早期VLA流模型;
  • OpenVLA(Kim et al., 2025)、VLA-Adapter(Wang et al., 2025):主流VLA基准模型,本文用于对比实验。

和本文相关性最高的3个文献

  1. Agarwal, N. et al. (2025). Cosmos world foundation model platform for physical ai.
    相关性:Prophet直接基于Cosmos-Predict2-2B-Video2World初始化,继承其视频扩散架构与物理场景建模能力,是Prophet世界模型的核心基础。

  2. Liu, J. et al. (2025). Flow-grpo: Training flow matching models via online rl.
    相关性:FA-GRPO算法的直接基础,本文通过聚合流动作头内部步骤的对数概率,将Flow-GRPO适配到VLA动作维度,解决了原算法不适配VLA的关键问题。

  3. Kim, M. J. et al. (2025). Openvla: An open-source vision-language-action model.
    相关性:OpenVLA是当前主流的开源VLA基准模型,本文将其作为测试对象之一,验证ProphRL在该模型上的性能提升,且其动作头设计为本文流动作头适配提供参考。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 1:56:50

智普Open-AutoGLM沉思,如何重构企业级AI自动化新范式?

第一章:智普Open-AutoGLM沉思 在人工智能与自动化深度融合的当下,智普推出的 Open-AutoGLM 项目为大语言模型的自主任务执行开辟了新路径。该项目结合 GLM 大模型的强大语义理解能力与自动化流程控制机制,使模型不仅能回答问题,更…

作者头像 李华
网站建设 2026/3/3 9:49:03

解决tableExport导出Excel中文乱码无响应问题

解决 tableExport 导出 Excel 中文乱码与无响应问题 在开发数据报表类前端项目时,经常会遇到这样一个尴尬场景:用户点击“导出 Excel”按钮后,浏览器毫无反应;或者文件虽然生成了,但打开一看——中文全变成了“寮犲…

作者头像 李华
网站建设 2026/2/25 15:16:54

从实验室到上线:Open-AutoGLM容器化部署实战(Docker+K8s完整流程)

第一章:Open-AutoGLM部署概述Open-AutoGLM 是一个面向自动化自然语言任务的开源大模型推理框架,基于 GLM 架构进行扩展,支持本地化部署与定制化服务集成。该框架适用于文本生成、智能问答、代码辅助等多种场景,具备高性能推理、低…

作者头像 李华
网站建设 2026/3/3 0:32:19

Windows 10下配置Miniconda并部署LabelImg与YOLOv5

Windows 10下配置Miniconda并部署LabelImg与YOLOv5 在计算机视觉项目开发中,一个稳定、高效且可复现的环境是成功的关键。尤其是在目标检测任务中,从数据标注到模型训练,每一步都依赖于多个工具和库的协同工作。许多初学者常遇到“包冲突”、…

作者头像 李华
网站建设 2026/2/19 13:12:18

TensorFlow中使用resize_bilinear进行图像缩放

TensorFlow中使用resize_bilinear进行图像缩放 在深度学习的图像处理流程中,尺寸归一化几乎是每个模型预处理阶段绕不开的一环。无论是将输入统一为网络期望的大小,还是在多尺度训练中动态调整分辨率,高效的图像缩放操作都至关重要。TensorFl…

作者头像 李华
网站建设 2026/2/28 23:25:45

颠覆论文写作:8款AI神器1天万字,全学科覆盖!

你是否还在为论文选题抓耳挠腮?是否因导师的“修改意见”反复重写?是否在降重和AI检测率之间来回挣扎?今天,这份2024年AI论文工具终极排行榜将彻底解决你的所有痛点——8款经过实测的AI神器,覆盖从初稿生成到文献整理的…

作者头像 李华