人形机器人要走进千家万户,面临的核心挑战之一就是如何安全、自然地与人类及复杂环境进行物理交互。传统的模仿学习(Imitation Learning)方法虽然能让机器人做出流畅的动作,但往往表现出极高的“刚性”——即机器人会不计代价地修正偏离参考轨迹的误差。一旦遇到碰撞或意外阻力,这种僵硬的控制逻辑轻则导致任务失败,重则损坏机器人或伤及他人。具身智能与空间感知为公众号视频号|欢迎关注来自麻省理工学院(MIT)Improbable AI 实验室的研究团队提出了 SoftMimic。这是一种全新的学习框架,旨在让机器人不仅能追踪参考动作,还能根据外部力量表现出可控的“合规性(Compliance)”。通过引入用户指定的“刚度(Stiffness)”参数,机器人学会了在受到干扰时优雅地偏离原始路径,实现“以柔克刚”。该研究在 Unitree G1 人形机器人上成功实现了实机部署。
图 1:SoftMimic 合规运动追踪演示该图展示了 SoftMimic 在多种现实场景中的优异表现。无论是吸收猛烈的碰撞、轻柔地与人交互、在外界干扰下维持平衡,还是在搬运不同重量的载荷时自动调整姿态,SoftMimic 都能表现出极强的鲁棒性。图中蓝色表示参考动作,红色箭头表示作用在机器人上的外部推力。核心挑战目前的强化学习(RL)模仿算法(如经典的 DeepMimic)通常将所有偏离参考动作的行为视为“错误”。当机器人撞到桌子或被人推搡时,控制器会施加巨大的补偿力试图回到原位,这在充满不确定性的环境中是非常危险的。直接通过 RL 学习合规性非常困难,因为“硬性追踪”往往是算法的一个强大局部最优解。为了打破这一局限,SoftMimic 提出了一套基于数据增强的策略。SoftMimic 框架研究的核心思路不再是盲目地最小化追踪误差,而是让机器人学习“如何根据力来改变动作”。
图 2:基于合规运动增强的全身控制流程该图展示了 SoftMimic 的两阶段训练过程:线下合规运动增强(CMA):利用逆运动学(IK)求解器,生成一组在不同外部扳手(Wrench)和刚度参数下的可行运动轨迹数据集()。线上强化学习训练:策略 观察机器人的本体感受状态和原始参考动作(),但其奖励函数是基于追踪增强后的合规目标()。持续动作的逻辑闭环为了精确定义机器人应该如何“妥协”,研究者给出了合规目标位姿的形式化表达:公式解读: 和 分别是链接 的理想合规位置和旋转。 和 是原始参考动作的位姿。 和 是作用在链接上的外部力和力矩。 和 是用户指定的平动和转动刚度。 这个公式本质上将机器人的肢体建模成了一个虚拟弹簧:受力越大,偏离参考位置就越远;刚度越小,偏离程度也越大。核心技术研究者使用微分逆运动学(Differential IK)来生成增强数据集。为了保证动作既合规又不失去平衡,IK 求解器遵循一套严谨的任务优先级权重方案。
图 6:SoftMimic 的泛化能力与抗干扰表现该图(结合文中 Section III-C)展示了 IK 优化目标的权重分配:合规交互(权重 5.0):最高优先级,确保交互点(如手部)遵循弹簧行为公式。足部放置(权重 2.5):确保支撑脚保持稳定,不发生漂移。质心(CoM)稳定(权重 0.1):允许身体进行必要的偏移以维持平衡。关键帧姿态(权重 0.01):保持原始动作的基本风格(如肘部、肩膀的相对位置)。通过这种层级优化,机器人即使在手部受到剧烈拉扯时,也能通过全身关节的协调(如弯腰、屈膝)来吸收能量,而不是僵硬地对抗。强化学习在训练阶段,策略 并不直接知道外部力 的大小。它必须通过观察历史 3 帧的本体感受数据(关节位置 、速度 、加速度等)来隐式推断外部力的存在,并做出反应。图 3:刚度依从性曲线该图显示了 SoftMimic 在不同刚度指令下的表现。横轴是用户给定的刚度命令,纵轴是实际测量出的等效刚度。可以看到,SoftMimic 在很宽的量程内( 到 )都能完美贴合“理想依从线”(绿色实线),而传统的 DeepMimic(蓝色点线)则始终保持在高刚度水平,无法调节。奖励函数定义SoftMimic 的奖励函数 由追踪奖励和合规奖励组成,其中合规奖励项 定义为:该奖励机制强制策略学习在感知到外部力时,主动偏向 CMA 生成的合规轨迹。实验结果研究人员对比了 SoftMimic 与硬性追踪基线(Stiff Baseline)在多种任务下的表现。图 4:在未知环境中的碰撞力对比该柱状图展示了机器人在三种意外碰撞场景(放置箱子出错、伸手碰墙、走过障碍物)下的最大接触力。结果显示,在低刚度模式下,SoftMimic 产生的交互力远低于基线模型,极大地降低了损坏机器人或环境的风险。图 5:刚度调节对碰撞力的实时控制该曲线图显示了当机器人手部撞击一叠木块时,接触力随时间的变化。低刚度指令(蓝色曲线)产生的力平稳且受控;而高刚度指令(红色曲线)则会产生巨大的冲击力,导致木块塔瞬间倒塌。这直观展示了“安全性”与“追踪精度”之间的权衡。表 1:无干扰情况下的动作追踪质量对比表格解读:在没有外部干扰的理想情况下,SoftMimic 的追踪误差仅比纯硬性基线稍高一点点。这证明了该方法在获得合规性的同时,并没有牺牲基本的动作还原能力。结论与未来展望SoftMimic 为人形机器人的全身控制提供了一套“刚柔并济”的方案。它不仅让机器人学会了追踪动作,更赋予了机器人感知和适应物理干扰的智能。通过 CMA 数据增强,RL策略能够轻松掌握原本难以搜索到的合规行为。展望未来,研究团队计划将固定刚度提升为动态调整刚度,例如在搬运重物时自动调高刚度,在与人握手时自动调低刚度。此外,将合规性扩展到机器人全身(如躯干、背部)而非仅限于手部,将使人形机器人在复杂、拥挤的人类环境中运行得更加得心应手。
SoftMimic:具身智能新突破,让人形机器人学会“以柔克刚”的全身控制
张小明
前端开发工程师
STM32F10X固件库完整开发指南:V3.5.0标准外设库快速上手
STM32F10X固件库完整开发指南:V3.5.0标准外设库快速上手 【免费下载链接】STM32F10X固件库STM32F10x_StdPeriph_Lib_V3.5.0 本仓库提供STM32F10X固件库STM32F10x_StdPeriph_Lib_V3.5.0的资源文件下载。该固件库是针对STM32F10X系列微控制器的标准外设库,…
DBeaver标签页管理终极指南:简单高效的查询窗口组织技巧
DBeaver标签页管理终极指南:简单高效的查询窗口组织技巧 【免费下载链接】dbeaver 项目地址: https://gitcode.com/gh_mirrors/dbe/dbeaver 你是否曾经在编写复杂SQL查询时,发现自己被十几个打开的标签页搞得晕头转向?想要快速找到某…
三分钟了解:国家安全部发布《智能生活安全说明书》
在人工智能、物联网技术深度融入日常生活的今天,智能音箱、智能家居、AI助手等设备正重塑我们的生活方式——一句指令就能控制家电、一键唤醒就能生成文案、一个APP就能管理全屋设备。但便利背后,潜藏着数据泄露、隐私窃取、AI误导等多重安全风险。国家安…
对比测试:手动安装PyTorch vs 使用CUDA-v2.6镜像的效率差异
对比测试:手动安装PyTorch vs 使用CUDA-v2.6镜像的效率差异 在深度学习项目启动阶段,你是否经历过这样的场景?——刚拿到一台新的GPU服务器,满心期待地准备训练模型,结果却被卡在环境配置环节:pip install …
视觉叙事新纪元:AI导演思维如何重塑分镜创作流程
视觉叙事新纪元:AI导演思维如何重塑分镜创作流程 【免费下载链接】next-scene-qwen-image-lora-2509 项目地址: https://ai.gitcode.com/hf_mirrors/lovis93/next-scene-qwen-image-lora-2509 引言:从静态画面到动态叙事的跨越 在数字内容创作快…
DB2 V11.5 完整安装包获取指南
还在为寻找DB2 V11.5安装包而烦恼吗?本资源库为您提供了完整的DB2 V11.5安装包获取解决方案,让您能够快速获取并安装这款强大的企业级数据库。 【免费下载链接】DB2V11.5安装包下载分享 DB2 V11.5 安装包下载本仓库提供了一个资源文件,用于下…