HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid-洪萨配资

序号	属性	值
1	论文名称	HumanVLA
2	发表时间/位置	NeruiPS/2024
3	Code	AllenXuuu/HumanVLA
4	创新点	1：基于特权信息蒸馏的 VLA 学习框架直接使用高维视觉输入训练人形机器人的全身控制极其困难（样本效率低、收敛难）。本文提出了一种两阶段（Two-Stage）学习范式： Teacher Phase (Oracle):先在全知状态（State-based）下利用 RL 训练一个“完美教师”。Student Phase (VLA):通过行为克隆（Behavior Cloning）和 DAgger 算法，将教师的策略蒸馏给仅有视觉和语言输入的学生模型。验证了从状态空间（State Space）到像素空间（Pixel Space）在复杂人形控制任务中迁移的可行性，是 Sim-to-Real 的关键一步。 2：增强的通用物体操作策略传统的 RL + AMP（对抗性运动先验）难以处理多种几何形状的物体，且容易在困难任务中陷入局部最优（只模仿动作不干活）。 1.几何感知编码 (Geometry-aware Encoding):引入BPS (Basis Point Set)对物体几何进行编码，替代简单的 6D 姿态，使策略能泛化到未见过的物体形状。 2.搬运课程学习 (Carry Curriculum):将复杂的重排任务分解（先学抓取，再学放置），加速收敛。 3.风格奖励截断 (Style Reward Clipping):动态调整奖励机制，强制模型在*任务完成（Task Reward）优先的前提下追求动作自然（Style Reward），防止“无效模仿”。 3：主动感知/渲染机制在学生模型（Student Policy）中，如果仅被动接收视觉输入，头部相机的视角往往无法对准目标物体（Feature collapse），导致视觉特征丢失。因此本文提出了Active Rendering技术。在训练中引入一个辅助任务：利用逆运动学（IK）计算并强制颈部关节“注视”目标物体。通过混合监督信号（Mixed Supervision），让身体动作模仿教师，而头部动作主动优化视觉观测质量。解决了具身智能中感知（Perception）与控制（Control）解耦导致的观测质量下降问题，强调了“为了感知而行动（Action for Perception）”的重要性。 4：Human-in-the-Room (HITR) 数据集现有数据集多针对轮式机器人或抓手（Gripper），缺乏适用于全身人形机器人（Humanoid）的复杂物理交互场景。构建了 HITR 数据集。专注于Loco-manipulation*（移动+操作），即长距离行走与全身物体重排的结合。
5	引用量

一：提出问题

物理人-场景交互（Physical Human-Scene Interaction, 简称 HSI）在众多应用中发挥着至关重要的作用。现有的技术依赖“特定的物体动力学”和“特权信息”。

特定的物体动力学：以前的方法可能只能处理特定的物体（比如只能拿方形盒子，换个圆球就不行），或者只能在设定好的物理参数下工作。
特权信息 (Privileged Information)：这是机器人领域的一个关键概念。在模拟器里训练时，我们可以直接告诉机器人“杯子的坐标是(x, y, z)”或者“这个物体的摩擦力是多少”。这叫特权信息（上帝视角）。但在现实世界中，机器人只有摄像头（眼睛），它无法直接获得坐标数据。

作者提出了HumanVLA，一个 VLA 模型（Vision-Language-Action）。训练采用教师-学生框架，因为直接教机器人“看图做事”太难了。流程如下：

第一步（教师）：先训练一个“作弊”的老师。这个老师可以使用“特权信息”（直接读取物体状态），利用强化学习（RL）*来学会如何完美地完成任务。同时，为了让动作像人（而不是像抽搐的机器），加入了一个*对抗性运动先验，强制机器人的动作风格接近人类数据。
环境：在模拟器里，允许作弊（使用特权信息）。
RL (强化学习) + AMP (对抗性运动先验)。AMP的作用：强迫机器人不仅要把任务做对，动作还得像人。如果没有AMP，机器人可能会以一种非常诡异、反人类关节逻辑的方式去移动物体（比如手臂反关节扭曲），虽然任务完成了，但不可用。
原始的 AMP 处理不了复杂多样的物体，作者加了一些改进技术（Context navigation, Prioritized task completion），让老师变得更强。
第二步（学生）：训练最终的 HumanVLA 模型（学生）。学生不许作弊，只能看图像（Vision）和读指令（Language）。让学生去模仿老师的动作（这叫行为克隆 Behavior Cloning）。
环境：模拟现实，不许作弊，只能看图、听指令。
Behavior Cloning (行为克隆/模仿学习)。学生看着老师在各种情况下的反应，死记硬背，学会由图像直接映射到动作。
Active Rendering (主动渲染)。当机器人只是被动地接收图像时，如果摄像头晃动或者没对准物体，效果会很差。作者教机器人“主动”去调整视角（Gaze intention），就像人想看清东西时会转头或聚焦一样。

老师拥有所有数据所以学得快，学生虽然信息有限，但只要死记硬背老师在特定情况下的反应，最后也能学会。此外，作者还贡献了一个数据集Human-in-the-Room 数据集。作者发现现有的数据集要么是纯视觉的（没有物理属性），要么没有针对人形机器人的全身控制。所以自己造了一个数据集。这个数据集专门包含了人形机器人在房间里进行各种“物体重排”（就是搬东西、整理东西）的任务。

二：解决方案

1.RL + AMP (怎么让机器人动起来？)

强化学习 (RL)是一个试错的过程。机器人做一个动作，环境给个分数（Reward）。Task Reward (rG):任务分。搬起来了吗？放对地方了吗？做到了给高分。Style Reward (rS):风格分。动作像人吗？

AMP (Adversarial Motion Prior):如果只给任务分，机器人可能会像僵尸或者蜘蛛一样，以一种诡异但有效的方式把东西搬过去。于是引入一个判别器 (Discriminator)，就像验钞机。它看过成千上万段真人的动作视频。机器人的动作生成出来后，判别器打分：“这是真人的动作”还是“这是机器生成的假动作”。机器人被迫在完成任务的同时，欺骗判别器说自己是人，从而学会自然的走路和搬运动作。

2.四个改进方案

1：Geometry Encoding (BPS) —— 让机器人“摸”到形状。以前的方法只告诉机器人坐标和旋转（XYZ, Rotation）。但搬一个球和搬一个椅子的抓法完全不同。机器人如果不知道形状，就会瞎抓。采用Basis Point Set (BPS)策略。想象在物体周围撒了一圈固定的点（像一个隐形的笼子）。测量这些点到物体表面的距离。这些距离数据就形成了一个向量，独特地描述了物体的形状。这样做计算极快，且能让神经网络直接理解“哦，这是个长条形的物体，我得抓两头”。

2：Carry Curriculum —— 婴儿学步法。完整的任务是：走过去 -> 拿起来 -> 走到终点 -> 放下。这太长了，机器人很容易在第一步就放弃，或者一直学不会。采用课程学习 (Curriculum Learning)的方案。先不学最后一步。现在的任务只是：走过去 -> 拿起来。只要学会了稳稳地拿住东西（Carry），后面走到终点放下就容易多了。这大大加速了训练收敛。

3：Style Reward Clipping —— 任务优先，颜值靠后。AMP 有个副作用。当任务太难（比如物体太重拿不起来）时，机器人会发现：“既然拿不到分，那我就站在原地模仿人类摆手、晃动身体，至少能骗点风格分（Style Reward）。” 于是它就开始“摆烂”，只表演不干活。采用Reward Clipping (奖励截断)的方法。也就是你的风格分（颜值分）不能超过你的任务分（实干分）。如果你没干活（任务分低），你的风格分上限就被锁死了，再像人也没用。从而逼着机器人必须先去尝试搬东西，只有干了活，动作做得漂亮才有用。

4：In-context Path Planning —— 脑子里有地图。房间里全是家具。单纯的端到端 RL 很难学会长距离避障，容易撞墙或者卡在桌子角。采用A* 算法。这不是神经网络，这是经典的路径规划算法。先生成一张 2D 的障碍物地图。用 A* 算好一条路（Waypoints）。告诉策略网络：“别管太远，你先走到前面那个红点（Waypoint）就行。”把“去哪里”这种高层规划交给经典算法，把“怎么迈腿”交给神经网络。

3.蒸馏

教师模型(Teacher):就像开了挂的玩家，直接读取内存数据（物体坐标 XYZ）。老师不需要“看”，闭着眼都知道东西在哪。学生模型(HumanVLA)是一个vla模型（EfficientNetB0（处理图像）、Bert 处理文本指令、MLP/Decoder（输出关节动作））:就像真实玩家，屏幕上只有画面（Pixels）。学生必须通过画面去判断物体在哪。

如果学生只是离线看老师的录像学习（Behavior Cloning），一旦学生自己操作时犯了一点小错（比如脚滑了一下），画面就会变，学生从未见过这种画面，就会导致错误越来越大，最后摔倒。因此采用DAgger (Dataset Aggregation)框架。这是一种在线学习算法。简单说就是让学生去试着操作，当学生走偏的时候，随时把老师叫出来，“这时候你应该这么做”。把这个新数据加入训练集。

1.在线学习

老师（RL模型）只关心做动作和像人。在训练老师时，因为老师有上帝视角（知道坐标），它不需要看物体。所以，老师可能一边走路一边看天花板，也能完美把东西搬走。学生（VLA模型）全靠眼睛看。如果学生模仿老师“看天花板”，那摄像头里就没有物体，学生就瞎了，任务失败。作者强行修改了颈部关节的动作逻辑，使身体和四肢跟随老师学习自然的搬运动作，但是头强行被按着盯着物体。这样摄像头的画面里始终有物体，学生模型就能学得会了。

4.数据集

现有数据集的缺陷：以前的数据集大多是给 Fetch 或 Stretch 这种带轮子的底盘+机械臂设计的。人形机器人不同：它会走路（身体会晃），它力气大（能搬桌子），手是球形的（不像夹爪那样精准）。

HITR 的构建流程：

3D 资产：用 HSSD 高质量模型。
场景生成：程序化随机摆放家具（保证多样性）。
任务生成：随机把一个东西挪个位置（比如把书从桌子扔地上）。
指令生成：GPT-4-Vision。
- 给 GPT-4V 看两张图：图A（书在地上），图B（书在桌上）。
- 问 GPT-4V：“请给我一句指令，让人把图A变成图B。”
- GPT-4V 回答：“把地上的书捡起来放到桌子上。”
人工清洗：修正 AI 的左右不分等低级错误。

三：实验

四：总结

在这项工作中，研究了由物理人形机器人进行的视觉-语言引导的物体重排，这是人-场景交互（HSI）合成和现实世界人形机器人的基础技术。我们的系统是使用教师-学生蒸馏框架开发的。我们提出了关键见解，以促进利用特权状态进行的教师策略学习，并引入了一种新颖的主动感知技术（active perception technique）来支持视觉-语言-动作模型的学习。本文提出了一个新的HITR 数据集来支持我们的任务。在广泛的实验中，我们的 HumanVLA 模型在定量和定性评估中都展示了优越的结果。未来的工作包括物理人形机器人的灵巧操作（dexterous manipulation）和长时程多物体交互（long-horizon multi-object interaction）。