news 2026/6/17 22:25:22

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

AME—基于注意力的地图编码用于学习通用步态运动【文献解读】

论文标题:Attention-Based Map Encoding for Learning Generalized Legged Locomotion

作者:Junzhe He¹, Chong Zhang¹, Fabian Jenelten¹, Ruben Grandia², Moritz Bächer², Marco Hutter¹

机构:¹Robotic Systems Lab, ETH Zurich, ²Disney Research Zurich

发表信息:arXiv:2506.09588v1, Last Revision: Dec 16, 2024

数据链接:https://zenodo.org/records/14499786


一、关键科学问题与技术挑战

1.1 核心问题

如何在多样化的稀疏地形上实现腿足机器人的精确、鲁棒且泛化的动态运动?本文从神经网络编码角度出发,解决端到端强化学习在稀疏地形上面临的“精确落脚点规划”与“泛化能力”之间的根本矛盾。

1.2 技术挑战

  1. 稀疏地形上的精度-泛化困境:纯学习方法(DRL)对不确定性鲁棒,但在踏脚石、窄梁等稀疏地形上难以发现有效落脚点,容易过拟合特定地形;纯模型方法(MPC)规划精确,但对建模假设敏感,真实世界表现易受状态估计误差、模型失配等影响。

  2. 端到端学习方法在稀疏地形上的失败:现有DRL控制器依赖大规模随机探索,而稀疏地形上的有效接触极少,策略难以从稀疏奖励中学习精确落脚行为;即使采用课程学习,也难以泛化到训练分布之外的地形。

  3. 混合方法的计算与复杂性瓶颈:如DTC等方法虽结合模型与学习优势,但需同时运行模型规划器与学习策略,训练时间长(14天)、部署计算负担重,且依赖模型规划器的性能——当感知退化时,模型规划可能产生不可行引导。

  4. 可解释性缺失:传统端到端神经网络是“黑箱”,无法解释其地形感知与决策依据,限制了研究者对失败模式的分析与调试。


二、研究方法与算法原理

2.1 整体技术路线

算法pipeline:

输入:机器人本体感知 + 2.5D高度图 ↓ ┌────────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ├─ CNN提取局部地形特征(kernel=5) │ │ ├─ 拼接3D坐标 → 点云局部特征 │ │ └─ 多头注意力(以本体感知为Query) │ │ → 受状态调制的地形编码 │ └────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────┐ │ 两层训练策略 │ │ ├─ 第一阶段:基础地形 + 理想感知 │ │ │ → 初始化地图编码,获得基础技能 │ │ └─ 第二阶段:增加困难地形+感知噪声/漂移 │ │ → 增强鲁棒性与泛化能力 │ └────────────────────────────────────────┘ ↓ MLP策略网络 → 关节级动作 ↓ ANYmal-D(四足) / GR-1(人形)真实部署

2.2 注意力机制原理

2.2.1 多头注意力(Multi-Head Attention)公式

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQKT)V

  • Q (Query):来自本体感知信息的嵌入向量(机器人当前状态 + 速度指令)
  • K (Key):来自地形图各点的局部特征向量
  • V (Value):与K相同的地形点特征
  • 多头机制:并行运行h = 16 h=16h=16个注意力头,每个头处理d / h = 4 d/h=4d/h=4维,增强表示能力
2.2.2 网络架构细节
组件配置
高度图尺寸(ANYmal)26 × 16 × 3 26 \times 16 \times 326×16×3(L×W×3)
高度图尺寸(GR-1)17 × 11 × 3 17 \times 11 \times 317×11×3
CNN编码层2层,kernel=5,padding=0,stride=1;第1层16维,第2层d − 3 = 61 d-3=61d3=61
MHA维度d dd64
注意力头数h hh16
本体感知维度d obs d_{\text{obs}}dobs78(ANYmal)/ 99(GR-1)
策略MLP2层隐藏层,每层256维
2.2.3 两阶段训练策略
阶段地形类型感知条件目标
第一阶段基础地形:楼梯、坑、粗糙地、托盘、间隙、网格石理想感知(无噪声)初始化地图编码,学习基本落脚能力
第二阶段增加:五边形石、单列石、窄托盘、连续间隙、窄梁、环形台阶等感知噪声 + 随机漂移 + 人工推力 + 质量/摩擦随机化增强鲁棒性与泛化能力

2.3 奖励函数设计

奖励函数分为三类(共14-16项):

类别代表性项权重示例
任务奖励线速度跟踪、角速度跟踪5.0, 3.0
规范奖励动作速率、关节加速度、力矩、位置/速度/力矩限制10 − 7 10^{-7}107~10 − 3 10^{-3}103
风格奖励足部滑移、跳跃惩罚、站立稳定性(第二阶段)0.5~5.0

第二阶段增加的特殊奖励:站立时关节运动惩罚(抑制抖动,改善sim-to-real)。

奖励函数列表:

2.4 训练环境与参数

  • 并行环境数:4096
  • PPO超参数:batch size 98304,mini-batch 32768,5轮更新
  • 训练时间
    • ANYmal-D:第一阶段18000 epochs(6天),第二阶段3600 epochs;硬件:Nvidia Tesla A100-40GB
    • GR-1:第一阶段15000 epochs(3.5天),第二阶段3200 epochs;硬件:Nvidia RTX 4090
  • 域随机化:观测噪声、地图漂移、随机推力、质量变化(±20%)、摩擦系数变化(±50%)

2.5 实验设计

2.5.1 仿真实验
  • 基准对比:DTC(混合方法)、baseline RL([13] 基于课程学习的纯RL)
  • 评估指标:速度跟踪误差、成功率、失败率、卡住率
  • 地形集:基础地形 + 微调地形(部分为训练未见过)
2.5.2 真实实验
机器人测试地形
ANYmal-D踏脚石、不等高踏脚石、随机分布踏脚石(前/侧向)、箱子+间隙、19cm宽梁、碎石堆
GR-1单列不等高踏脚石、光束+间隙、平衡木(19cm宽、不固定)

实验:

2.5.3 消融实验
  • 两阶段训练必要性:对比从零训练所有地形 vs. 仅基础地形+噪声
  • 网络结构对比:Transformer编码器、CNN下采样、ViT编码器

三、主要创新点与学术贡献

3.1 创新点总结

创新点一:注意力地图编码实现隐式接触规划

核心思想:以本体感知为查询(Query),地形点特征为键值(Key-Value),通过多头注意力自动计算各地形点的重要性权重。

创新价值

  • 可视化证明:网络学会自动将高注意力权重分配给下一个可行落脚点,无需任何监督学习
  • 实现了端到端的隐式接触规划,可与模型方法中的独立接触规划器媲美
创新点二:统一框架实现四足与人形跨形态泛化

核心思想:同一网络架构、相同超参数,直接适用于12-DoF四足机器人(ANYmal-D)和23-DoF人形机器人(GR-1)。

创新价值

  • 首次在端到端DRL框架中实现人形机器人在混合稀疏地形上的动态运动
  • 证明了注意力地图编码的通用性,不受具体形态限制
创新点三:两阶段训练平衡精度与鲁棒性

核心思想:先训练精确的感知-动作映射(理想感知),再引入真实世界不确定性进行微调。

创新价值

  • 解决了端到端RL在稀疏地形上“一上来就学习鲁棒性”导致的探索困难
  • 成功实现零样本(zero-shot)sim-to-real迁移
创新点四:可解释的神经地形感知

核心思想:通过可视化注意力权重,揭示神经网络“关注”的环境区域。

创新价值

  • 首次为腿足机器人DRL控制器提供了可解释的感知注意力图
  • 帮助调试失败模式、理解策略决策依据

3.2 主要学术贡献

  1. 填补空白:首个在端到端DRL框架中实现腿足机器人在混合稀疏地形上的泛化运动,同时达到模型方法的精确性和学习方法的鲁棒性。

  2. 性能突破:在ANYmal-D上,综合成功率比DTC高26.5%,比baseline RL高77.3%;在网格石和窄梁等DTC和baseline RL失败率高的地形上,本文方法成功率超过80%。

  3. 涌现行为:控制器自主学习出复杂恢复反射:

    • 单腿跳跃换脚(GR-1在空间不足时空中切换接触脚)
    • 膝部支撑爬升(ANYmal-D)
    • 地形依赖的手臂摆动(GR-1)
    • 滑移恢复
  4. 社区资源:开源训练代码、评估数据集(Zenodo),推动可解释腿足运动学习的研究。

3.3 性能对比结果

评估指标本文方法DTC [1]Baseline RL [13]
综合成功率(所有地形)最高+26.5% (相对低)+77.3% (相对低)
网格石 (20cm) 成功率>80%<20%高(但过拟合)
窄梁 (15cm) 成功率>80%<20%
速度跟踪误差最低高频步态下误差大不适用(目标到达)
训练时间6天14天数天

四、技术路线总结

┌─────────────────────────────────────────────────────────────────┐ │ 输入层 │ │ 本体感知 (速度/重力/关节状态/历史动作) + 2.5D高度图 │ └────────────────────────────┬────────────────────────────────────┘ │ ┌────────────────────────────┼────────────────────────────────────┐ │ 注意力地图编码模块 │ │ ┌──────────────┐ ┌──────────────────────────────────────┐ │ │ │ 本体感知嵌入 │ │ 地形处理 │ │ │ │ (Linear → d) │ │ CNN (2层, kernel=5) → 局部特征(d-3) │ │ │ └──────┬───────┘ │ + 拼接3D坐标 → 点特征(L×W×d) │ │ │ │ └───────────────┬──────────────────────┘ │ │ │ │ │ │ │ ┌──────────────────────┼──────────────────────┐ │ │ └───→│ Multi-Head Attention (h=16, d=64) │←──┘ │ │ │ Q=本体嵌入, K=V=点特征 │ │ │ └──────────────────────┬──────────────────────┘ │ │ ↓ │ │ map encoding (1×d) │ └─────────────────────────────────────┼──────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 策略MLP (256-256) → 关节动作 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 两阶段训练流程 │ │ Stage 1: 基础地形 + 理想感知 → Stage 2: 困难地形 + 不确定性 │ └─────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────┐ │ 真实部署 │ │ ANYmal-D (四足) :踏脚石、窄梁、碎石堆 │ │ GR-1 (人形) :平衡木、单列踏脚石、混合障碍赛道 │ └─────────────────────────────────────────────────────────────────┘

五、局限性与未来方向

  1. 训练效率仍待提高:虽然比DTC快(6天 vs 14天),但单次训练仍需数天,超参数调优成本高。未来可探索更高效的RL算法或课程设计。

  2. 感知表示限制:使用2.5D高度图,无法处理悬空障碍(如倒挂的树枝)、复杂3D结构(如台阶下方空间)。未来可引入3D体素表示或基于图像的端到端感知。

  3. 操纵能力缺失:当前工作聚焦于纯运动,未涉及腿部与手臂同时执行操纵任务(如开门、搬运)。注意力机制可扩展至loco-manipulation场景。

  4. 脚轮偏移与回驱性:文中虽未直接讨论(该问题属于TidyBot++文献),但类似地,复杂机械设计限制在真实部署中可能存在。本工作的ANYmal-D和GR-1均为现成硬件,无此问题。

  5. 未来方向

    • 将注意力机制扩展到3D环境表示(如体素网格、NeRF)
    • 结合大语言模型实现高层任务规划与底层运动控制的协同
    • 利用注意力权重进行故障检测与自适应恢复
    • 探索更高效的训练方法,如预训练地图编码器再微调
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 22:19:38

豆包搜不到你的品牌?GEO服务商能帮你解决

本文旨在为大家提供GEO服务商的选型方法&#xff0c;不做具体的产品推荐。在选择GEO服务商时&#xff0c;我们可以参考以下通用选型标准。通用选型标准技术实力&#xff1a;依据行业权威报告&#xff0c;先进的技术是GEO服务的核心。拥有自主研发的模型和多项相关技术专利的服务…

作者头像 李华
网站建设 2026/6/17 22:19:06

准周期信号分析:三间隙定理与拓扑数据处理

1. 准周期信号分析中的三间隙定理方法在信号处理领域&#xff0c;准周期信号的分析一直是个具有挑战性的课题。这类信号既不像周期信号那样具有严格的周期性&#xff0c;也不像随机信号那样完全无规律可循。传统傅里叶分析方法在处理这类信号时往往效果不佳&#xff0c;而近年来…

作者头像 李华
网站建设 2026/6/17 22:17:21

终极编码转换方案:ConvertToUTF8 彻底解决 Sublime Text 乱码难题

终极编码转换方案&#xff1a;ConvertToUTF8 彻底解决 Sublime Text 乱码难题 【免费下载链接】ConvertToUTF8 A Sublime Text 2 & 3 plugin for editing and saving files encoded in GBK, BIG5, EUC-KR, EUC-JP, Shift_JIS, etc. 项目地址: https://gitcode.com/gh_mir…

作者头像 李华
网站建设 2026/6/17 22:00:29

指令泛化退化机理

一、意图坍缩核心定义&#xff1a;区别于幻觉与对齐过拟合在大模型迭代优化过程中&#xff0c;幻觉、过拟合、意图坍缩是三类完全不同的能力缺陷&#xff0c;业内极易混淆&#xff0c;也是模型优化长期踩坑的核心原因。相较于常见问题&#xff0c;意图坍缩更隐蔽、危害更大&…

作者头像 李华
网站建设 2026/6/17 21:56:29

2026网络安全薪资大揭秘:这些岗位正在“闷声发财”,你选对了吗?

收藏&#xff01;2026网络安全岗位薪资与职业发展全攻略 核心岗位薪资参考表岗位方向具体职位经验级别月薪范围备注说明渗透测试渗透测试工程师初级10K-18K一线城市资深红队专家年薪可达百万级中级20K-35K高级50K-80K安全运维与管理安全运维工程师初级7K-12K新一线城市约12K-20…

作者头像 李华