序号 | 属性 | 值 |
|---|---|---|
| 1 | 论文名称 | HumanVLA |
| 2 | 发表时间/位置 | NeruiPS/2024 |
| 3 | Code | AllenXuuu/HumanVLA |
| 4 | 创新点 | 1:基于特权信息蒸馏的 VLA 学习框架 直接使用高维视觉输入训练人形机器人的全身控制极其困难(样本效率低、收敛难)。 本文提出了一种两阶段(Two-Stage)学习范式: Teacher Phase (Oracle):先在全知状态(State-based)下利用 RL 训练一个“完美教师”。Student Phase (VLA):通过行为克隆(Behavior Cloning)和 DAgger 算法,将教师的策略蒸馏给仅有视觉和语言输入的学生模型。 验证了从状态空间(State Space)到像素空间(Pixel Space)在复杂人形控制任务中迁移的可行性,是 Sim-to-Real 的关键一步。 2:增强的通用物体操作策略 传统的 RL + AMP(对抗性运动先验)难以处理多种几何形状的物体,且容易在困难任务中陷入局部最优(只模仿动作不干活)。 1.几何感知编码 (Geometry-aware Encoding):引入BPS (Basis Point Set)对物体几何进行编码,替代简单的 6D 姿态,使策略能泛化到未见过的物体形状。 2.搬运课程学习 (Carry Curriculum):将复杂的重排任务分解(先学抓取,再学放置),加速收敛。 3.风格奖励截断 (Style Reward Clipping):动态调整奖励机制,强制模型在任务完成(Task Reward)*优先的前提下追求*动作自然(Style Reward),防止“无效模仿”。 3:主动感知/渲染机制 在学生模型(Student Policy)中,如果仅被动接收视觉输入,头部相机的视角往往无法对准目标物体(Feature collapse),导致视觉特征丢失。因此本文提出了Active Rendering技术。 在训练中引入一个辅助任务:利用逆运动学(IK)计算并强制颈部关节“注视”目标物体。 通过混合监督信号(Mixed Supervision),让身体动作模仿教师,而头部动作主动优化视觉观测质量。 解决了具身智能中感知(Perception)与控制(Control)解耦导致的观测质量下降问题,强调了“为了感知而行动(Action for Perception)”的重要性。 4:Human-in-the-Room (HITR) 数据集 现有数据集多针对轮式机器人或抓手(Gripper),缺乏适用于全身人形机器人(Humanoid)的复杂物理交互场景。 构建了 HITR 数据集。专注于Loco-manipulation(移动+操作),即长距离行走与全身物体重排的结合。 |
| 5 | 引用量 |
一:提出问题
物理人-场景交互(Physical Human-Scene Interaction, 简称 HSI)在众多应用中发挥着至关重要的作用。现有的技术依赖“特定的物体动力学”和“特权信息”。
特定的物体动力学:以前的方法可能只能处理特定的物体(比如只能拿方形盒子,换个圆球就不行),或者只能在设定好的物理参数下工作。
特权信息 (Privileged Information):这是机器人领域的一个关键概念。在模拟器里训练时,我们可以直接告诉机器人“杯子的坐标是(x, y, z)”或者“这个物体的摩擦力是多少”。这叫特权信息(上帝视角)。但在现实世界中,机器人只有摄像头(眼睛),它无法直接获得坐标数据。
作者提出了HumanVLA,一个 VLA 模型(Vision-Language-Action)。训练采用教师-学生框架,因为直接教机器人“看图做事”太难了。流程如下:
第一步(教师):先训练一个“作弊”的老师。这个老师可以使用“特权信息”(直接读取物体状态),利用强化学习(RL)*来学会如何完美地完成任务。同时,为了让动作像人(而不是像抽搐的机器),加入了一个*对抗性运动先验,强制机器人的动作风格接近人类数据。
环境:在模拟器里,允许作弊(使用特权信息)。
RL (强化学习) + AMP (对抗性运动先验)。AMP的作用:强迫机器人不仅要把任务做对,动作还得像人。如果没有AMP,机器人可能会以一种非常诡异、反人类关节逻辑的方式去移动物体(比如手臂反关节扭曲),虽然任务完成了,但不可用。
原始的 AMP 处理不了复杂多样的物体,作者加了一些改进技术(Context navigation, Prioritized task completion),让老师变得更强。
第二步(学生):训练最终的 HumanVLA 模型(学生)。学生不许作弊,只能看图像(Vision)和读指令(Language)。让学生去模仿老师的动作(这叫行为克隆 Behavior Cloning)。
环境:模拟现实,不许作弊,只能看图、听指令。
Behavior Cloning (行为克隆/模仿学习)。学生看着老师在各种情况下的反应,死记硬背,学会由图像直接映射到动作。
Active Rendering (主动渲染)。当机器人只是被动地接收图像时,如果摄像头晃动或者没对准物体,效果会很差。作者教机器人“主动”去调整视角(Gaze intention),就像人想看清东西时会转头或聚焦一样。
老师拥有所有数据所以学得快,学生虽然信息有限,但只要死记硬背老师在特定情况下的反应,最后也能学会。此外,作者还贡献了一个数据集Human-in-the-Room 数据集。作者发现现有的数据集要么是纯视觉的(没有物理属性),要么没有针对人形机器人的全身控制。所以自己造了一个数据集。这个数据集专门包含了人形机器人在房间里进行各种“物体重排”(就是搬东西、整理东西)的任务。
二:解决方案
1.RL + AMP (怎么让机器人动起来?)
强化学习 (RL)是一个试错的过程。机器人做一个动作,环境给个分数(Reward)。Task Reward (rG):任务分。搬起来了吗?放对地方了吗?做到了给高分。Style Reward (rS):风格分。动作像人吗?
AMP (Adversarial Motion Prior):如果只给任务分,机器人可能会像僵尸或者蜘蛛一样,以一种诡异但有效的方式把东西搬过去。于是引入一个判别器 (Discriminator),就像验钞机。它看过成千上万段真人的动作视频。机器人的动作生成出来后,判别器打分:“这是真人的动作”还是“这是机器生成的假动作”。机器人被迫在完成任务的同时,欺骗判别器说自己是人,从而学会自然的走路和搬运动作。
2.四个改进方案
1:Geometry Encoding (BPS) —— 让机器人“摸”到形状。以前的方法只告诉机器人坐标和旋转(XYZ, Rotation)。但搬一个球和搬一个椅子的抓法完全不同。机器人如果不知道形状,就会瞎抓。采用Basis Point Set (BPS)策略。想象在物体周围撒了一圈固定的点(像一个隐形的笼子)。测量这些点到物体表面的距离。这些距离数据就形成了一个向量,独特地描述了物体的形状。这样做计算极快,且能让神经网络直接理解“哦,这是个长条形的物体,我得抓两头”。
2:Carry Curriculum —— 婴儿学步法。完整的任务是:走过去 -> 拿起来 -> 走到终点 -> 放下。这太长了,机器人很容易在第一步就放弃,或者一直学不会。采用课程学习 (Curriculum Learning)的方案。先不学最后一步。现在的任务只是:走过去 -> 拿起来。 只要学会了稳稳地拿住东西(Carry),后面走到终点放下就容易多了。这大大加速了训练收敛。
3:Style Reward Clipping —— 任务优先,颜值靠后。AMP 有个副作用。当任务太难(比如物体太重拿不起来)时,机器人会发现:“既然拿不到分,那我就站在原地模仿人类摆手、晃动身体,至少能骗点风格分(Style Reward)。” 于是它就开始“摆烂”,只表演不干活。采用Reward Clipping (奖励截断)的方法。也就是你的风格分(颜值分)不能超过你的任务分(实干分)。如果你没干活(任务分低),你的风格分上限就被锁死了,再像人也没用。从而逼着机器人必须先去尝试搬东西,只有干了活,动作做得漂亮才有用。
4:In-context Path Planning —— 脑子里有地图。房间里全是家具。单纯的端到端 RL 很难学会长距离避障,容易撞墙或者卡在桌子角。采用A* 算法。这不是神经网络,这是经典的路径规划算法。先生成一张 2D 的障碍物地图。用 A* 算好一条路(Waypoints)。告诉策略网络:“别管太远,你先走到前面那个红点(Waypoint)就行。”把“去哪里”这种高层规划交给经典算法,把“怎么迈腿”交给神经网络。
3.蒸馏
教师模型(Teacher):就像开了挂的玩家,直接读取内存数据(物体坐标 XYZ)。老师不需要“看”,闭着眼都知道东西在哪。学生 模型(HumanVLA)是一个vla模型(EfficientNetB0(处理图像)、Bert 处理文本指令、MLP/Decoder(输出关节动作)):就像真实玩家,屏幕上只有画面(Pixels)。学生必须通过画面去判断物体在哪。
如果学生只是离线看老师的录像学习(Behavior Cloning),一旦学生自己操作时犯了一点小错(比如脚滑了一下),画面就会变,学生从未见过这种画面,就会导致错误越来越大,最后摔倒。因此采用DAgger (Dataset Aggregation)框架。这是一种在线学习算法。简单说就是让学生去试着操作,当学生走偏的时候,随时把老师叫出来,“这时候你应该这么做”。把这个新数据加入训练集。
1.在线学习
老师(RL模型)只关心做动作和像人。在训练老师时,因为老师有上帝视角(知道坐标),它不需要看物体。所以,老师可能一边走路一边看天花板,也能完美把东西搬走。学生(VLA模型)全靠眼睛看。如果学生模仿老师“看天花板”,那摄像头里就没有物体,学生就瞎了,任务失败。作者强行修改了颈部关节的动作逻辑,使身体和四肢跟随老师学习自然的搬运动作,但是头强行被按着盯着物体。这样摄像头的画面里始终有物体,学生模型就能学得会了。
4.数据集
现有数据集的缺陷:以前的数据集大多是给 Fetch 或 Stretch 这种带轮子的底盘+机械臂设计的。人形机器人不同:它会走路(身体会晃),它力气大(能搬桌子),手是球形的(不像夹爪那样精准)。
HITR 的构建流程:
3D 资产:用 HSSD 高质量模型。
场景生成:程序化随机摆放家具(保证多样性)。
任务生成:随机把一个东西挪个位置(比如把书从桌子扔地上)。
指令生成:GPT-4-Vision。
给 GPT-4V 看两张图:图A(书在地上),图B(书在桌上)。
问 GPT-4V:“请给我一句指令,让人把图A变成图B。”
GPT-4V 回答:“把地上的书捡起来放到桌子上。”
人工清洗:修正 AI 的左右不分等低级错误。
三:实验
四:总结
在这项工作中,研究了由物理人形机器人进行的视觉-语言引导的物体重排,这是人-场景交互(HSI)合成和现实世界人形机器人的基础技术。我们的系统是使用教师-学生蒸馏框架开发的。我们提出了关键见解,以促进利用特权状态进行的教师策略学习,并引入了一种新颖的主动感知技术(active perception technique)来支持视觉-语言-动作模型的学习。本文提出了一个新的HITR 数据集来支持我们的任务。在广泛的实验中,我们的 HumanVLA 模型在定量和定性评估中都展示了优越的结果。未来的工作包括物理人形机器人的灵巧操作(dexterous manipulation)和长时程多物体交互(long-horizon multi-object interaction)。