AME—基于注意力的地图编码用于学习通用步态运动【文献解读】
论文标题:Attention-Based Map Encoding for Learning Generalized Legged Locomotion
作者:Junzhe He¹, Chong Zhang¹, Fabian Jenelten¹, Ruben Grandia², Moritz Bächer², Marco Hutter¹
机构:¹Robotic Systems Lab, ETH Zurich, ²Disney Research Zurich
发表信息:arXiv:2506.09588v1, Last Revision: Dec 16, 2024
数据链接:https://zenodo.org/records/14499786
一、关键科学问题与技术挑战
1.1 核心问题
如何在多样化的稀疏地形上实现腿足机器人的精确、鲁棒且泛化的动态运动?本文从神经网络编码角度出发,解决端到端强化学习在稀疏地形上面临的“精确落脚点规划”与“泛化能力”之间的根本矛盾。
1.2 技术挑战
稀疏地形上的精度-泛化困境:纯学习方法(DRL)对不确定性鲁棒,但在踏脚石、窄梁等稀疏地形上难以发现有效落脚点,容易过拟合特定地形;纯模型方法(MPC)规划精确,但对建模假设敏感,真实世界表现易受状态估计误差、模型失配等影响。
端到端学习方法在稀疏地形上的失败:现有DRL控制器依赖大规模随机探索,而稀疏地形上的有效接触极少,策略难以从稀疏奖励中学习精确落脚行为;即使采用课程学习,也难以泛化到训练分布之外的地形。
混合方法的计算与复杂性瓶颈:如DTC等方法虽结合模型与学习优势,但需同时运行模型规划器与学习策略,训练时间长(14天)、部署计算负担重,且依赖模型规划器的性能——当感知退化时,模型规划可能产生不可行引导。
可解释性缺失:传统端到端神经网络是“黑箱”,无法解释其地形感知与决策依据,限制了研究者对失败模式的分析与调试。
二、研究方法与算法原理
2.1 整体技术路线
算法pipeline:
输入:机器人本体感知 + 2.5D高度图 ↓ ┌────────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ├─ CNN提取局部地形特征(kernel=5) │ │ ├─ 拼接3D坐标 → 点云局部特征 │ │ └─ 多头注意力(以本体感知为Query) │ │ → 受状态调制的地形编码 │ └────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────┐ │ 两层训练策略 │ │ ├─ 第一阶段:基础地形 + 理想感知 │ │ │ → 初始化地图编码,获得基础技能 │ │ └─ 第二阶段:增加困难地形+感知噪声/漂移 │ │ → 增强鲁棒性与泛化能力 │ └────────────────────────────────────────┘ ↓ MLP策略网络 → 关节级动作 ↓ ANYmal-D(四足) / GR-1(人形)真实部署2.2 注意力机制原理
2.2.1 多头注意力(Multi-Head Attention)公式
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V
- Q (Query):来自本体感知信息的嵌入向量(机器人当前状态 + 速度指令)
- K (Key):来自地形图各点的局部特征向量
- V (Value):与K相同的地形点特征
- 多头机制:并行运行h = 16 h=16h=16个注意力头,每个头处理d / h = 4 d/h=4d/h=4维,增强表示能力
2.2.2 网络架构细节
| 组件 | 配置 |
|---|---|
| 高度图尺寸(ANYmal) | 26 × 16 × 3 26 \times 16 \times 326×16×3(L×W×3) |
| 高度图尺寸(GR-1) | 17 × 11 × 3 17 \times 11 \times 317×11×3 |
| CNN编码层 | 2层,kernel=5,padding=0,stride=1;第1层16维,第2层d − 3 = 61 d-3=61d−3=61维 |
| MHA维度d dd | 64 |
| 注意力头数h hh | 16 |
| 本体感知维度d obs d_{\text{obs}}dobs | 78(ANYmal)/ 99(GR-1) |
| 策略MLP | 2层隐藏层,每层256维 |
2.2.3 两阶段训练策略
| 阶段 | 地形类型 | 感知条件 | 目标 |
|---|---|---|---|
| 第一阶段 | 基础地形:楼梯、坑、粗糙地、托盘、间隙、网格石 | 理想感知(无噪声) | 初始化地图编码,学习基本落脚能力 |
| 第二阶段 | 增加:五边形石、单列石、窄托盘、连续间隙、窄梁、环形台阶等 | 感知噪声 + 随机漂移 + 人工推力 + 质量/摩擦随机化 | 增强鲁棒性与泛化能力 |
2.3 奖励函数设计
奖励函数分为三类(共14-16项):
| 类别 | 代表性项 | 权重示例 |
|---|---|---|
| 任务奖励 | 线速度跟踪、角速度跟踪 | 5.0, 3.0 |
| 规范奖励 | 动作速率、关节加速度、力矩、位置/速度/力矩限制 | 10 − 7 10^{-7}10−7~10 − 3 10^{-3}10−3 |
| 风格奖励 | 足部滑移、跳跃惩罚、站立稳定性(第二阶段) | 0.5~5.0 |
第二阶段增加的特殊奖励:站立时关节运动惩罚(抑制抖动,改善sim-to-real)。
奖励函数列表:
2.4 训练环境与参数
- 并行环境数:4096
- PPO超参数:batch size 98304,mini-batch 32768,5轮更新
- 训练时间:
- ANYmal-D:第一阶段18000 epochs(6天),第二阶段3600 epochs;硬件:Nvidia Tesla A100-40GB
- GR-1:第一阶段15000 epochs(3.5天),第二阶段3200 epochs;硬件:Nvidia RTX 4090
- 域随机化:观测噪声、地图漂移、随机推力、质量变化(±20%)、摩擦系数变化(±50%)
2.5 实验设计
2.5.1 仿真实验
- 基准对比:DTC(混合方法)、baseline RL([13] 基于课程学习的纯RL)
- 评估指标:速度跟踪误差、成功率、失败率、卡住率
- 地形集:基础地形 + 微调地形(部分为训练未见过)
2.5.2 真实实验
| 机器人 | 测试地形 |
|---|---|
| ANYmal-D | 踏脚石、不等高踏脚石、随机分布踏脚石(前/侧向)、箱子+间隙、19cm宽梁、碎石堆 |
| GR-1 | 单列不等高踏脚石、光束+间隙、平衡木(19cm宽、不固定) |
实验:
2.5.3 消融实验
- 两阶段训练必要性:对比从零训练所有地形 vs. 仅基础地形+噪声
- 网络结构对比:Transformer编码器、CNN下采样、ViT编码器
三、主要创新点与学术贡献
3.1 创新点总结
创新点一:注意力地图编码实现隐式接触规划
核心思想:以本体感知为查询(Query),地形点特征为键值(Key-Value),通过多头注意力自动计算各地形点的重要性权重。
创新价值:
- 可视化证明:网络学会自动将高注意力权重分配给下一个可行落脚点,无需任何监督学习
- 实现了端到端的隐式接触规划,可与模型方法中的独立接触规划器媲美
创新点二:统一框架实现四足与人形跨形态泛化
核心思想:同一网络架构、相同超参数,直接适用于12-DoF四足机器人(ANYmal-D)和23-DoF人形机器人(GR-1)。
创新价值:
- 首次在端到端DRL框架中实现人形机器人在混合稀疏地形上的动态运动
- 证明了注意力地图编码的通用性,不受具体形态限制
创新点三:两阶段训练平衡精度与鲁棒性
核心思想:先训练精确的感知-动作映射(理想感知),再引入真实世界不确定性进行微调。
创新价值:
- 解决了端到端RL在稀疏地形上“一上来就学习鲁棒性”导致的探索困难
- 成功实现零样本(zero-shot)sim-to-real迁移
创新点四:可解释的神经地形感知
核心思想:通过可视化注意力权重,揭示神经网络“关注”的环境区域。
创新价值:
- 首次为腿足机器人DRL控制器提供了可解释的感知注意力图
- 帮助调试失败模式、理解策略决策依据
3.2 主要学术贡献
填补空白:首个在端到端DRL框架中实现腿足机器人在混合稀疏地形上的泛化运动,同时达到模型方法的精确性和学习方法的鲁棒性。
性能突破:在ANYmal-D上,综合成功率比DTC高26.5%,比baseline RL高77.3%;在网格石和窄梁等DTC和baseline RL失败率高的地形上,本文方法成功率超过80%。
涌现行为:控制器自主学习出复杂恢复反射:
- 单腿跳跃换脚(GR-1在空间不足时空中切换接触脚)
- 膝部支撑爬升(ANYmal-D)
- 地形依赖的手臂摆动(GR-1)
- 滑移恢复
社区资源:开源训练代码、评估数据集(Zenodo),推动可解释腿足运动学习的研究。
3.3 性能对比结果
| 评估指标 | 本文方法 | DTC [1] | Baseline RL [13] |
|---|---|---|---|
| 综合成功率(所有地形) | 最高 | +26.5% (相对低) | +77.3% (相对低) |
| 网格石 (20cm) 成功率 | >80% | <20% | 高(但过拟合) |
| 窄梁 (15cm) 成功率 | >80% | <20% | 低 |
| 速度跟踪误差 | 最低 | 高频步态下误差大 | 不适用(目标到达) |
| 训练时间 | 6天 | 14天 | 数天 |
四、技术路线总结
┌─────────────────────────────────────────────────────────────────┐ │ 输入层 │ │ 本体感知 (速度/重力/关节状态/历史动作) + 2.5D高度图 │ └────────────────────────────┬────────────────────────────────────┘ │ ┌────────────────────────────┼────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ┌──────────────┐ ┌──────────────────────────────────────┐ │ │ │ 本体感知嵌入 │ │ 地形处理 │ │ │ │ (Linear → d) │ │ CNN (2层, kernel=5) → 局部特征(d-3) │ │ │ └──────┬───────┘ │ + 拼接3D坐标 → 点特征(L×W×d) │ │ │ │ └───────────────┬──────────────────────┘ │ │ │ │ │ │ │ ┌──────────────────────┼──────────────────────┐ │ │ └───→│ Multi-Head Attention (h=16, d=64) │←──┘ │ │ │ Q=本体嵌入, K=V=点特征 │ │ │ └──────────────────────┬──────────────────────┘ │ │ ↓ │ │ map encoding (1×d) │ └─────────────────────────────────────┼──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 策略MLP (256-256) → 关节动作 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 两阶段训练流程 │ │ Stage 1: 基础地形 + 理想感知 → Stage 2: 困难地形 + 不确定性 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 真实部署 │ │ ANYmal-D (四足) :踏脚石、窄梁、碎石堆 │ │ GR-1 (人形) :平衡木、单列踏脚石、混合障碍赛道 │ └─────────────────────────────────────────────────────────────────┘五、局限性与未来方向
训练效率仍待提高:虽然比DTC快(6天 vs 14天),但单次训练仍需数天,超参数调优成本高。未来可探索更高效的RL算法或课程设计。
感知表示限制:使用2.5D高度图,无法处理悬空障碍(如倒挂的树枝)、复杂3D结构(如台阶下方空间)。未来可引入3D体素表示或基于图像的端到端感知。
操纵能力缺失:当前工作聚焦于纯运动,未涉及腿部与手臂同时执行操纵任务(如开门、搬运)。注意力机制可扩展至loco-manipulation场景。
脚轮偏移与回驱性:文中虽未直接讨论(该问题属于TidyBot++文献),但类似地,复杂机械设计限制在真实部署中可能存在。本工作的ANYmal-D和GR-1均为现成硬件,无此问题。
未来方向:
- 将注意力机制扩展到3D环境表示(如体素网格、NeRF)
- 结合大语言模型实现高层任务规划与底层运动控制的协同
- 利用注意力权重进行故障检测与自适应恢复
- 探索更高效的训练方法,如预训练地图编码器再微调