news 2026/5/10 10:34:58

【论文自动阅读】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】

快速了解部分

基础信息(英文):

1.题目: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
2.时间: 2025.09
3.机构: Shanghai AI Lab
4.3个英文关键词: Vision-Language-Action (VLA), Real-World Reinforcement Learning (RL), Dense Reward

1句话通俗总结本文干了什么事情

本文提出了一种名为VLAC的模型,它能让机器人通过“看”和“理解”任务描述来给自己打分(奖励),从而在真实世界中通过自我尝试和犯错来学习如何完成各种复杂动作,而不需要人类为每个任务单独设计打分规则。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 奖励函数稀疏且手工设计困难:真实世界强化学习通常依赖稀疏的最终成功/失败信号,或者需要为每个特定任务手工设计复杂的奖励函数(Reward Shaping),这既昂贵又缺乏通用性。
  2. 探索效率低与泛化能力弱:现有的VLA模型主要依赖模仿学习,难以处理未见过的任务或环境变化;而现有的奖励模型往往无法很好地泛化到新任务,且难以区分失败或停滞的轨迹。
  3. 缺乏统一架构:现有的方法通常将“策略”(决定怎么做)和“批评家”(评价做得怎么样)分开,导致集成困难。

核心方法:关键技术、模型或研究设计(简要)

提出了VLAC (Vision-Language-Action-Critic)模型:

  1. 统一模型:基于InternVL构建,同一个模型既负责生成动作(Actor),也负责评估任务进度给出奖励(Critic)。
  2. 成对进度理解(Pair-wise Progress Understanding):模型接收两张图片(前后状态)和语言指令,输出一个进度差值(Delta)作为密集奖励信号。
  3. 真实世界RL框架:结合PPO算法,利用VLAC提供的密集奖励进行策略优化,并引入分级的人机交互机制(如离线演示回放)来加速学习。

深入了解部分

相比前人创新在哪里

  1. 一体化设计:首次在一个自回归架构中统一了VLA策略和进度批评家,无需针对不同任务设计特定的奖励模型。
  2. 强大的泛化能力:通过大规模异构数据(包含人类视频和机器人数据)训练,实现了零样本(Zero-shot)和上下文学习(In-context learning)能力,能直接迁移到未见过的任务和环境中。
  3. 密集内在奖励:利用成对图像对比生成密集的进度奖励,解决了真实世界中缺乏传感器反馈和奖励稀疏的问题。

解决方法/算法的通俗解释

想象一个学开车的机器人,通常需要教练(奖励函数)时刻打分。VLAC模型相当于给机器人装了一个“懂任务的AI教练”。

  • 怎么看:AI教练同时看两张照片,一张是机器人操作前的样子,一张是操作后的样子。
  • 怎么评:AI教练结合“把碗拿起来”这个指令,判断第二张照片是不是比第一张更接近目标。如果是,就给正分(奖励);如果是乱动,就给负分(惩罚)。
  • 怎么做:机器人根据这个分数不断调整动作,分数越高动作越好,直到学会任务。

解决方法的具体做法

  1. 数据构建
    • 将视频切分为成对的图像帧(Pair-wise),计算时间差作为进度标签。
    • 混合了大规模人类视频数据(Ego4D等)、公开机器人数据(Bridge, Droid等)和VQA数据。
    • 构造了负样本(如倒退的动作、语义不匹配的描述)来增强模型对失败的识别。
  2. 模型训练
    • Critic部分:训练模型预测两帧图像间的进度差值(Delta Progress)和任务完成标志(Done Signal)。
    • Actor部分:训练模型输出具体的机械臂控制指令(Delta Pose)。
  3. RL部署
    • 在真实环境中,VLAC模型交替生成奖励和动作。
    • 使用PPO算法更新策略。
    • 引入“人机回路”:包括离线演示回放、人工重置到难点位置探索(Return and Explore)、人工引导探索(Human Guided Explore)。

基于前人的哪些方法

  1. 基础模型:基于InternVL(一个先进的视觉语言模型)进行构建。
  2. RL算法:采用了PPO (Proximal Policy Optimization)算法进行策略优化。
  3. 奖励机制:借鉴了时间对比学习(Time-Contrastive)的思想,通过成对样本学习进度。

实验设置、数据、评估方式、结论

  • 数据:混合了4000+小时的人类数据、1200小时的公开机器人数据和自采数据。
  • 设置:在4个真实世界的操作任务中测试(舀米转移、铺 mats、端碗放置、桌面清扫),使用AGILE PiPER机械臂。
  • 评估
    • Critic:使用VOC(Value-Order Correlation)评估预测进度与实际时间顺序的相关性。
    • Actor:使用任务成功率(Success Rate)。
  • 结论
    • VLAC在未见过的任务上表现出强泛化能力(One-shot)。
    • 在真实世界RL中,成功率从基线的约30%提升至90%(200个回合内)。
    • 引入人工干预后,样本效率提高50%,最终可达到100%成功率。

提到的同类工作

  • RT-1 / RT-2(Brohan et al.): 谷歌的机器人Transformer模型,通常依赖模仿学习。
  • OpenVLA(Kim et al.): 开源的VLA模型。
  • VIP / GVL(Ma et al.): 基于视觉表示学习的奖励方法(如对比学习)。
  • ReBoot / SERL(Hu et al., Luo et al.): 强调样本效率和人机回路的机器人RL框架。

和本文相关性最高的3个文献

  1. InternVL(被作为基础模型架构,是本文模型的根基)。
  2. VIP (Value-Implicit Pre-training)(Ma et al.): 本文在评估部分多次对比了此类基于视觉表示学习的奖励模型,作为主要的竞争或参考基准。
  3. SERL / ReBoot(Luo et al., Hu et al.): 本文在“人机回路”和“真实世界RL框架”设计上参考了这些工作,特别是关于如何利用人类干预加速学习的部分。

我的

主要核心点是把critic集成到一个模型,而且GT label是自动的,Reward不是人工打标签。是按照任务进度来,给2帧,如果正向进展那就是Reward,如果反向了,那就是惩罚。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 4:15:13

大数据毕设项目推荐-基于django的直播带货商品数据分析可视化系统基于django大数据在直播带货商品选品中的应用【附源码+文档,调试定制服务】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

作者头像 李华
网站建设 2026/5/10 11:33:08

大数据领域内存计算:构建实时数据处理的高效平台

大数据领域内存计算:构建实时数据处理的高效平台 关键词:内存计算、实时数据处理、分布式存储、低延迟、大数据平台 摘要:在电商大促的实时销量看板、金融交易的毫秒级反欺诈、物联网设备的实时监控中,“实时"二字正成为大数据价值的核心。传统依赖磁盘的计算方式因高…

作者头像 李华
网站建设 2026/5/9 18:46:18

一文看透:提示工程架构师如何玩转智能教育提示工程

一文看透:提示工程架构师如何用「语言魔法」重构智能教育? 关键词 提示工程、智能教育、大语言模型(LLM)、个性化学习、认知负荷、反馈循环、教育Prompt设计 摘要 当你打开某款AI辅导APP,问「为什么月亮会跟着我走&…

作者头像 李华
网站建设 2026/5/10 3:39:07

C++课后习题训练记录Day71

1.练习项目: 题目描述 小蓝正在学习一门神奇的语言,这门语言中的单词都是由小写英文字母组 成,有些单词很长,远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词,他准备不再完全记忆这些单词&#xff0c…

作者头像 李华