news 2026/6/12 18:45:37

Nature Communications 具身强化学习智能体探寻最优奖励函数

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Nature Communications 具身强化学习智能体探寻最优奖励函数

创新点:• 首次把“最优奖励函数”显式定义为使策略遗憾最小的函数,并将其形式化为一个双层优化问题:下层做常规策略优化,上层用近似元梯度迭代更新奖励函数,实现奖励-策略协同进化。• 在稀疏奖励、高维连续控制以及数据中心能耗调度、无人机自主飞行等真实任务上,统一框架下学到的奖励函数均优于人工设计奖励与 LIRBO、Tomax、SASR 等最新基线,首次展示“零先验奖励”的具身智能体可直接部署于现实系统。方法:本文提出一种双层-元学习框架,把“最优奖励函数”显式定义为使策略遗憾最小化的函数,并在线求解:下层让具身智能体在由上层给出的奖励信号驱动下进行常规强化学习,将交互轨迹存入缓存;上层随机采样小批量轨迹,利用策略分布和优势函数近似奖励的元梯度,沿遗憾最小方向更新奖励函数参数,如此交替迭代直至收敛。该方法无需专家演示或人类偏好标注,仅依赖智能体自身与环境的交互回放,即可同步优化奖励与策略,并在稀疏奖励、高维连续控制及真实数据中心节能、无人机飞行等任务上验证其有效性与跨域泛化能力。从自然智能到具身智能:创造力与学习效率的殊途同归本图用上下两条并行的彩色箭头,把“自然智能”与“具身智能”在核心目标与实现途径上做了一次直观对照:自然生物以“最大化创造力”为终极驱动,通过感知、模仿与适应环境来不断提升生存与演化效率;而具身人工智能则以“最大化学习效率”为宗旨,借助通用化策略与持续学习,在真实世界中快速迁移与成长。两条箭头最终交汇到同一终点——“Generalization”,暗示不论是碳基生命还是硅基智能体,其本质都是把经验提炼成可泛化的能力,以应对未知场景。
双层元梯度框架:从人工试错到奖励函数自我进化本图完整呈现了论文“奖励函数自主发现”思路的演进与实现闭环:左侧先指出传统人工设计奖励在任务复杂化时迅速失效,而依赖专家演示或人类偏好标注又代价高昂,由此引出“让智能体自己发现奖励”的需求;中间给出双层优化框架——下层是常规的强化学习策略优化,上层把轨迹缓存、小批量采样、策略分布与优势函数估计串联起来,用近似元梯度不断修正奖励函数,使奖励信号与策略同步进化;右侧通过对比“人为设计好坏参半”与“随机初始化后自动收敛”的奖励曲面,展示该方法最终能精准地把高奖励赋予真正有助于任务的最优动作,从而摆脱人工调参与奖励黑客困扰。
从稀疏到稠密:自动塑形奖励让学习曲线一飞冲天本图可视化直击“奖励稀疏”这一强化学习顽疾:在 CartPole、Acrobot、FourRoom、LunarLander 四个经典稀疏任务上,论文把“原始环境只给终端稀疏信号”与“同一状态下双层框架自动发现的稠密奖励”并排展示——左侧学习曲线显示,稀疏奖励几乎全程平坦,智能体得不到有效反馈而迟迟不进步;右侧则因奖励函数被实时塑形,回报曲线迅速抬升并更早收敛。
更关键的是图 e–h 的 Acrobot 奖励曲面:对同一对关节角,论文方法为三个离散动作分别生成精细的奖励地形,高值恰好落在能利用重力加速摆起的转矩区,低值对应“无为”或“反方向”动作,说明框架无需人类经验就自动把动力学“常识”编码进奖励,从而把稀疏任务转化为可高效爬坡的稠密问题。高维状态奖励热力图:机器自主发现的“隐形专家”与人工设计殊途同归本图把 MuJoCo 四套高维连续控制任务的状态空间经 t-SNE 压到二维,用颜色深浅展示奖励大小:上一排是人工精心设计的“专家奖励”,下一排是同一状态下双层框架自动发现的奖励。
直观可见,两者在“碰撞、摔倒、超时”等关键区均呈现相似的极低值暗斑,在“平衡、前进、目标接近”区域则同时出现高亮宽带;差别在于机器生成的奖励分布更连续、过渡更平滑,没有出现人为设计常见的离散跳变或异常高值孤岛。这说明框架无需领域知识就能让奖励曲面“对齐”专家意图,却比人工调参更细腻、更稳定,从而直接提升高维关节控制的学习速度与收敛可靠性。
题目: Discovery of the reward function for embodied reinforcement learning agents论文地址:https://doi.org/10.1038/s41467-025-66009-y代码地址:https://github.com/RenzhiLu/Discovery-of-Reward-Function

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 17:46:58

FanFicFare:从网页到电子书的智能转换专家

FanFicFare:从网页到电子书的智能转换专家 【免费下载链接】FanFicFare FanFicFare is a tool for making eBooks from stories on fanfiction and other web sites. 项目地址: https://gitcode.com/gh_mirrors/fa/FanFicFare 还在为收藏喜爱的同人小说而烦恼…

作者头像 李华
网站建设 2026/6/9 17:47:06

终极指南:如何用DeepLabCut实现AI姿势识别与动物行为分析

终极指南:如何用DeepLabCut实现AI姿势识别与动物行为分析 【免费下载链接】DeepLabCut Official implementation of DeepLabCut: Markerless pose estimation of user-defined features with deep learning for all animals incl. humans 项目地址: https://gitco…

作者头像 李华
网站建设 2026/6/8 22:23:21

你以为的职业危机是 35 岁?

点击关注公众号,Java 干货及时推送↓推荐阅读:今年后端行情真不错。。大家好,我是R哥。2025 年都快过完咯,今天咱不讲技术,讲点人话。你以为的职业危机是 35 岁?事实上很多人 25 岁就开始躺平了……应一些正…

作者头像 李华
网站建设 2026/6/9 17:44:51

AD16终极元件封装合集:5分钟提升PCB设计效率

AD16终极元件封装合集:5分钟提升PCB设计效率 【免费下载链接】AD16最全封装库自用 本仓库提供了一个名为“AD16最全封装库(自用).rar”的资源文件下载。该文件包含了各种CPU、存储器、电源芯片、几乎所有接口(如DB9、DB15、RJ45、…

作者头像 李华
网站建设 2026/6/9 17:45:48

Anaconda和Miniconda对比:为何选择轻量级开发环境?

Anaconda与Miniconda:为什么轻量才是现代AI开发的正确打开方式? 在数据科学实验室、AI研发团队和高校研究组中,一个看似微小但影响深远的技术决策正在悄然改变工作流——越来越多的人开始放弃“开箱即用”的Anaconda,转而拥抱只有…

作者头像 李华
网站建设 2026/6/12 18:22:50

远程调试Miniconda异步任务执行状态

远程调试 Miniconda 异步任务执行状态 在深度学习和数据科学项目中,一个常见的场景是:你在本地写好了训练脚本,准备在远程服务器上启动长达数小时甚至数天的模型训练任务。你提交了任务,打开浏览器想看看进展——结果发现日志停滞…

作者头像 李华