news 2026/3/31 3:10:29

会走会聊还会求抱抱!迪士尼造出“真”雪宝,把热力学公式写进强化学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
会走会聊还会求抱抱!迪士尼造出“真”雪宝,把热力学公式写进强化学习

迪士尼“真·活”雪宝机器人来了!不仅会走会聊,还能卖萌求抱抱。

在机器人领域,我们习惯了波士顿动力的 Spot,它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人,为了实用长成了圆盘。

但在迪士尼的世界里,规则是反过来的。雪宝必须是雪宝,哪怕它的身体结构完全违背了物理直觉。

迪士尼研究院刚刚在 arXiv 上公开了他们如何制造一台完全无线、自由行走、且 1:1 还原动画的雪宝机器人。

〓 图1. 真实世界中的雪宝

这篇论文展示了他们如何利用非对称机械设计与热感知强化学习,在物理约束与角色可信度之间找到完美的平衡点。

论文标题:

Olaf: Bringing an Animated Character to Life in the Physical World

论文链接:

https://arxiv.org/pdf/2512.16705

这不仅是一个有趣的玩具,更是一个关于如何在极端受限的硬件条件下,利用算法把硬件性能榨干的经典案例。

极限空间内的非对称美学

雪宝的原始设定给工程师出了个大难题,硕大的头部意味着极高的重心,纤细的树枝手臂无法容纳电机,分离式的双脚雪球更是把腿部机构的活动空间压缩到了极致。

为了在这些白球里塞进 25 个自由度(DoF),团队不得不打破常规,搞出了一套非对称的 6-DoF 腿部设计。

〓 图2. 机电内部结构,注意腿部非对称的电机布局以及隐藏在躯干内的肩部连杆

为了防止双腿在紧凑的球体内部打架,左腿的髋关节 Roll 轴电机被置于后方,右腿则置于前方。这种非对称设计虽然最大化了空间利用率,但也让动力学建模变得更加复杂。

至于雪宝标志性的树枝手,为了保持纤细,工程师采用了球形五杆连杆机构(Spherical 5-bar Linkage),将驱动电机远程放置在躯干内部。

这不仅解决了空间问题,还把重量集中到了身体核心,稍微缓解了头重脚轻的尴尬。

算法架构

硬件只是基础,要让雪宝动起来且不翻车,才是真正的难点。

整个控制架构采用了明智的动静分离策略:

身体与腿部(Backbone):这是动力学的核心,采用强化学习进行端到端的全身控制,负责平衡和行走。

表情与手臂(Show Functions):为了保证表演的确定性和精度,眼部、嘴部等低惯量部件并未通过 RL 学习,而是采用了经典控制方法(如 PD 控制与正运动学映射),因为它们对整体动力学影响较小 。

〓 图3. 系统架构概览,左侧为硬件模块,右侧为包含热模型与各类奖励函数的 RL 训练闭环

为了把这些复杂的动作串联起来,团队还必须解决一个特殊的定位问题,雪宝的脚在动画里是浮动的。为此,他们引入了 Path Frame 的概念。

〓 图4. Path Frame 示意图,用于对齐漂浮脚设定的虚拟坐标系

如上图所示,Path Frame 是一个随行进方向移动的虚拟坐标系,它让机器人能够将动画师制作的那些非物理的 Reference Motion(参考动作)映射到物理世界中。

如何防止机器人“中暑”?

雪宝头大脖子细,为了支撑这个巨大的脑袋,颈部电机承受着巨大的静态力矩。更糟糕的是,它还穿着厚厚的保暖戏服,散热条件基本为零。

如果简单粗暴地设置温度阈值(比如 >80°C 停机),那雪宝可能会在跟小朋友互动到一半时突然瘫痪。团队的解法非常硬核,把热力学公式直接写进强化学习的状态空间里。

不同于常规足式机器人仅关注本体感知,Olaf 的策略网络接收的状态向量中,包含了一个温度项

为了让 Agent 学会处理温度,他们首先基于焦耳热效应建立了一个一阶热动力学模型:

这个公式告诉 AI 一个物理真理:力矩 τ 越大,发热是呈平方级增长的。经过验证,该模型与真机的误差极小(见下图)。

〓 图5. 热模型验证曲线,仿真预测温度与真机实测高度吻合

接着,利用控制障碍函数(Control Barrier Function, CBF),他们设计了一个“软约束” :

这个约束并不强制机器人在低温时省力,但当温度逼近上限时,它会强迫策略网络限制升温速率

这意味着,机器人必须学会主动调整姿态。比如稍微低头,或者改变重力支撑方式,以减少高力矩输出。

〓 图6. 热策略效果对比,开启热奖励后策略主动限制力矩输出以防止过热

上图对比堪称智能的完美体现:

蓝线(无热感知):策略傻乎乎地维持昂头姿势,40秒内温度飙升至 100°C,直接过热保护停机。

紫线(有热感知):当温度接近 80°C 时,Agent 主动选择了“偷懒”。虽然关节追踪误差(Joint error)略微上升,但力矩(Torque)显著下降,成功将温度控制在安全线内。

既要静音,又要走得像

如果雪宝走起路来像铁甲钢拳一样哐哐作响,观众的沉浸感会瞬间消失。为了解决这个问题,团队在奖励函数中加入了一个特殊的冲击减少项(Impact Reduction Reward):

这项奖励专门惩罚脚部落地时的垂直速度突变

〓 图7. 冲击抑制效果,开启奖励后脚部落地速度更加平滑

实验数据显示,这一策略让行走的平均噪声降低了 13.5 dB。但光安静还不够,还得“像”。动画里的雪宝走路时有一种独特的脚跟-脚尖(Heel-Toe)滚动步态。

论文的对比实验表明,如果去掉这个步态约束,虽然机器人也能走稳,但看起来就会变得生硬、机械,失去了角色的灵魂。

结语

迪士尼的这项工作,本质上是在探究角色可信度的工程边界。为了让雪宝真的像那个动画角色,工程师们没有追求 SOTA 的运动速度或地形适应性,而是把算力用在了“怎么在过热前优雅地偷懒”和“怎么走路没声音”这些看似琐碎的细节上。

这种将物理约束(如热力学)深度融合进强化学习状态空间的方法,让机器人展现出了一种类似生物本能的自我保护机制。对于未来的服务机器人而言,这种能够感知自身生理极限并动态调整策略的能力,或许比单纯的“强壮”更具普适价值。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 4:50:05

Excalidraw多语言支持现状与中文优化建议

Excalidraw多语言支持现状与中文优化建议 在远程协作成为常态的今天,可视化工具早已不再是设计师的专属。像 Excalidraw 这样的开源手绘风格白板,正被越来越多的技术团队用于架构设计、流程梳理和头脑风暴。它的魅力在于“不完美”——线条轻微抖动、图形…

作者头像 李华
网站建设 2026/3/26 12:51:32

堆与优先队列:从直觉到模板的完整指南

一、堆与优先队列的直觉 1.1 堆是什么 堆(Heap)是一种完全二叉树形状的特殊树结构,通常用数组实现,满足两个条件:[1][2] 形状:是一棵完全二叉树 除最后一层外,每一层都要尽量填满;最…

作者头像 李华
网站建设 2026/3/19 21:39:25

Excalidraw AI功能支持批量导入文本生成多图

Excalidraw AI功能支持批量导入文本生成多图 在技术团队频繁进行架构评审、产品原型讨论和系统设计的今天,一个常见的痛点浮出水面:如何快速把脑海中的想法或文档里的描述变成清晰可共享的图表?很多人依然依赖手动绘图工具,花大量…

作者头像 李华
网站建设 2026/3/28 8:45:21

Excalidraw时序图生成:从文本描述自动创建

Excalidraw时序图生成:从文本描述自动创建 在一次深夜的技术评审会上,产品经理拿着手机念着一段用户登录流程:“客户端发请求,服务器验证密码,成功就返回Token……”开发同事打断道:“能不能画个图&#x…

作者头像 李华
网站建设 2026/3/29 10:01:51

Excalidraw镜像每日自动备份,数据安全无忧

Excalidraw镜像每日自动备份,数据安全无忧 在远程协作成为常态的今天,可视化工具早已不只是“画图”那么简单。从系统架构设计到产品原型推演,一张白板可能承载着整个团队的核心创意与决策路径。Excalidraw 作为一款开源、轻量且风格独特的手…

作者头像 李华
网站建设 2026/3/29 15:33:44

17、软件开发测试与团队改进实践解析

软件开发测试与团队改进实践解析 软件测试方法与策略 在软件测试中,有多种方法和策略可以确保软件的质量和性能。 性能分析与调优 除了性能监视器计数器提供的信息外,还可以通过性能分析重新运行测试。具体操作是:可以重新运行带有分析功能的测试(或者将测试结果附加到…

作者头像 李华