会走会聊还会求抱抱！迪士尼造出“真”雪宝，把热力学公式写进强化学习-洪萨配资

迪士尼“真·活”雪宝机器人来了！不仅会走会聊，还能卖萌求抱抱。

在机器人领域，我们习惯了波士顿动力的 Spot，它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人，为了实用长成了圆盘。

但在迪士尼的世界里，规则是反过来的。雪宝必须是雪宝，哪怕它的身体结构完全违背了物理直觉。

迪士尼研究院刚刚在 arXiv 上公开了他们如何制造一台完全无线、自由行走、且 1:1 还原动画的雪宝机器人。

〓图1. 真实世界中的雪宝

这篇论文展示了他们如何利用非对称机械设计与热感知强化学习，在物理约束与角色可信度之间找到完美的平衡点。

论文标题：

Olaf: Bringing an Animated Character to Life in the Physical World

论文链接：

https://arxiv.org/pdf/2512.16705

这不仅是一个有趣的玩具，更是一个关于如何在极端受限的硬件条件下，利用算法把硬件性能榨干的经典案例。

极限空间内的非对称美学

雪宝的原始设定给工程师出了个大难题，硕大的头部意味着极高的重心，纤细的树枝手臂无法容纳电机，分离式的双脚雪球更是把腿部机构的活动空间压缩到了极致。

为了在这些白球里塞进 25 个自由度（DoF），团队不得不打破常规，搞出了一套非对称的 6-DoF 腿部设计。

〓图2. 机电内部结构，注意腿部非对称的电机布局以及隐藏在躯干内的肩部连杆

为了防止双腿在紧凑的球体内部打架，左腿的髋关节 Roll 轴电机被置于后方，右腿则置于前方。这种非对称设计虽然最大化了空间利用率，但也让动力学建模变得更加复杂。

至于雪宝标志性的树枝手，为了保持纤细，工程师采用了球形五杆连杆机构（Spherical 5-bar Linkage），将驱动电机远程放置在躯干内部。

这不仅解决了空间问题，还把重量集中到了身体核心，稍微缓解了头重脚轻的尴尬。

算法架构

硬件只是基础，要让雪宝动起来且不翻车，才是真正的难点。

整个控制架构采用了明智的动静分离策略：

身体与腿部（Backbone）：这是动力学的核心，采用强化学习进行端到端的全身控制，负责平衡和行走。

表情与手臂（Show Functions）：为了保证表演的确定性和精度，眼部、嘴部等低惯量部件并未通过 RL 学习，而是采用了经典控制方法（如 PD 控制与正运动学映射），因为它们对整体动力学影响较小。

〓图3. 系统架构概览，左侧为硬件模块，右侧为包含热模型与各类奖励函数的 RL 训练闭环

为了把这些复杂的动作串联起来，团队还必须解决一个特殊的定位问题，雪宝的脚在动画里是浮动的。为此，他们引入了 Path Frame 的概念。

〓图4. Path Frame 示意图，用于对齐漂浮脚设定的虚拟坐标系

如上图所示，Path Frame 是一个随行进方向移动的虚拟坐标系，它让机器人能够将动画师制作的那些非物理的 Reference Motion（参考动作）映射到物理世界中。

如何防止机器人“中暑”？

雪宝头大脖子细，为了支撑这个巨大的脑袋，颈部电机承受着巨大的静态力矩。更糟糕的是，它还穿着厚厚的保暖戏服，散热条件基本为零。

如果简单粗暴地设置温度阈值（比如 >80°C 停机），那雪宝可能会在跟小朋友互动到一半时突然瘫痪。团队的解法非常硬核，把热力学公式直接写进强化学习的状态空间里。

不同于常规足式机器人仅关注本体感知，Olaf 的策略网络接收的状态向量中，包含了一个温度项：

为了让 Agent 学会处理温度，他们首先基于焦耳热效应建立了一个一阶热动力学模型：

这个公式告诉 AI 一个物理真理：力矩 τ 越大，发热是呈平方级增长的。经过验证，该模型与真机的误差极小（见下图）。

〓图5. 热模型验证曲线，仿真预测温度与真机实测高度吻合

接着，利用控制障碍函数（Control Barrier Function, CBF），他们设计了一个“软约束” ：

这个约束并不强制机器人在低温时省力，但当温度逼近上限时，它会强迫策略网络限制升温速率。

这意味着，机器人必须学会主动调整姿态。比如稍微低头，或者改变重力支撑方式，以减少高力矩输出。

〓图6. 热策略效果对比，开启热奖励后策略主动限制力矩输出以防止过热

上图对比堪称智能的完美体现：

蓝线（无热感知）：策略傻乎乎地维持昂头姿势，40秒内温度飙升至 100°C，直接过热保护停机。

紫线（有热感知）：当温度接近 80°C 时，Agent 主动选择了“偷懒”。虽然关节追踪误差（Joint error）略微上升，但力矩（Torque）显著下降，成功将温度控制在安全线内。

既要静音，又要走得像

如果雪宝走起路来像铁甲钢拳一样哐哐作响，观众的沉浸感会瞬间消失。为了解决这个问题，团队在奖励函数中加入了一个特殊的冲击减少项（Impact Reduction Reward）：

这项奖励专门惩罚脚部落地时的垂直速度突变。

〓图7. 冲击抑制效果，开启奖励后脚部落地速度更加平滑

实验数据显示，这一策略让行走的平均噪声降低了 13.5 dB。但光安静还不够，还得“像”。动画里的雪宝走路时有一种独特的脚跟-脚尖（Heel-Toe）滚动步态。

论文的对比实验表明，如果去掉这个步态约束，虽然机器人也能走稳，但看起来就会变得生硬、机械，失去了角色的灵魂。

结语

迪士尼的这项工作，本质上是在探究角色可信度的工程边界。为了让雪宝真的像那个动画角色，工程师们没有追求 SOTA 的运动速度或地形适应性，而是把算力用在了“怎么在过热前优雅地偷懒”和“怎么走路没声音”这些看似琐碎的细节上。

这种将物理约束（如热力学）深度融合进强化学习状态空间的方法，让机器人展现出了一种类似生物本能的自我保护机制。对于未来的服务机器人而言，这种能够感知自身生理极限并动态调整策略的能力，或许比单纯的“强壮”更具普适价值。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

会走会聊还会求抱抱！迪士尼造出“真”雪宝，把热力学公式写进强化学习

Excalidraw多语言支持现状与中文优化建议

堆与优先队列：从直觉到模板的完整指南

Excalidraw AI功能支持批量导入文本生成多图

Excalidraw时序图生成：从文本描述自动创建

Excalidraw镜像每日自动备份，数据安全无忧

17、软件开发测试与团队改进实践解析