Nature:让Agent自己发现最优奖励函数-洪萨配资

Nature:让Agent自己发现最优奖励函数

沉迷AI的科研姬2025年12月27日 20:30新疆

论文标题：Discovery of the reward function forembodied reinforcement learningagents

论文地址：https://www.nature.com/articles/s41467-025-66009-y

创新点

本文引入了一种双层优化框架，通过遗憾最小化（regret minimization）机制自动发现最优奖励函数。该框架将奖励函数发现过程无缝集成到强化学习（RL）过程中，上层优化负责发现最优奖励函数，下层优化负责基于该奖励函数优化智能体策略。
本文提出了一个直观且易于应用的最优奖励函数定义，即最优奖励函数应使智能体在执行任务时产生的遗憾（regret）最小化。

方法

本文主要研究方法围绕具身强化学习（ERL）中奖励函数的自动发现展开，核心创新在于提出了一种基于遗憾最小化的双层优化框架。该方法通过定义最优奖励函数为使智能体执行任务时产生的遗憾最小化，将奖励函数发现过程无缝集成到强化学习过程中。具体而言，上层优化通过元梯度算法迭代更新奖励函数参数，以最小化智能体在任务执行中的遗憾；下层优化则基于当前奖励函数，利用标准强化学习算法（如DQN、PPO、SAC等）优化智能体策略。该框架通过交替优化奖励函数和策略参数，实现了奖励函数的自动发现和策略的同步优化。

自然智能与具身智能的奖励最大化行为驱动机制示意图

本图通过示意图直观阐释了自然智能与具身智能（Embodied Intelligence）的奖励最大化原则及其在行为决策中的核心作用。图中以猴子伸手获取香蕉的经典案例类比机器人执行任务的场景，揭示了两者在行为驱动机制上的共性：无论是生物体还是具身智能体，其决策过程均遵循“累积奖励最大化”原则。具体而言，猴子通过感知环境（如香蕉的位置）、模仿学习（观察同类行为）或试错学习（反复尝试伸手动作）不断优化其策略，最终实现奖励（香蕉）的最大化获取；类似地，具身智能体通过传感器感知环境状态，基于强化学习算法迭代更新控制策略，在交互过程中持续调整行为以最大化预期奖励。这一过程不仅体现了奖励信号对复杂认知能力（如感知、模仿、学习）的驱动作用，更揭示了奖励函数设计在具身强化学习中的关键性——优质奖励函数能够引导智能体高效探索状态空间，避免陷入局部最优或产生意外行为（如奖励黑客攻击），从而提升任务适应性和泛化能力。

基于遗憾最小化的具身强化学习双层优化框架及奖励函数发现机制示意图

本图系统展示了本文提出的基于遗憾最小化的双层优化框架，用于自动发现具身强化学习（ERL）智能体的最优奖励函数。该框架通过分层优化机制将奖励函数发现与策略优化无缝集成：上层优化以最小化策略遗憾（regret）为目标，通过元梯度算法动态更新奖励函数参数，确保奖励信号能有效引导智能体接近最优策略；下层优化则基于当前奖励函数，利用标准强化学习算法（如DQN、PPO）迭代优化智能体策略，最大化累积奖励。图中通过流程图形式清晰呈现了上下层优化的交替迭代过程：智能体与世界模型交互生成轨迹数据，存储于轨迹缓冲区后，上层从缓冲区随机采样小批量轨迹并分解为交互步骤，估计策略分布和优势函数，进而通过元梯度近似更新奖励函数参数；下层则基于更新后的奖励函数重新优化策略，直至收敛。

稀疏奖励任务中不同奖励函数设置下的智能体学习性能对比实验结果图

本图通过实验结果直观展示了本文提出的基于遗憾最小化的最优奖励函数发现方法在稀疏奖励任务中的显著优势。图中选取了四个经典OpenAI控制任务（CartPole-v1、Acrobot-v1、FourRoom-v0、LunarLander-v2）作为测试场景，这些任务因外部奖励信号稀疏导致传统强化学习方法收敛缓慢甚至失败。实验对比了三种奖励函数设置下的智能体学习性能：稀疏原始奖励（仅在任务成功或失败时给予反馈）、手动设计奖励函数（基于领域知识设计的密集奖励）以及本文发现的最优奖励函数（通过双层优化框架自动生成）。

稀疏奖励任务中智能体交互轨迹及最优奖励函数信号分布可视化图

本图通过可视化分析与实验对比，深入揭示了本文提出的最优奖励函数发现方法在稀疏奖励任务中的奖励信号分布特性及其对智能体学习行为的引导作用。图中以Acrobot-v1任务为例，展示了智能体在单次交互回合中接收到的奖励信号随时间的变化，并对比了稀疏奖励函数与本文发现的最优奖励函数在关键状态下的奖励分配模式。实验结果表明：1）稀疏奖励函数仅在任务成功（如达到目标高度）或失败时提供反馈，导致智能体在大部分交互步骤中无法获得有效信号，这种极端稀疏性严重限制了样本利用率和学习效率；2）最优奖励函数则通过双层优化框架自动生成密集奖励信号，在智能体接近目标、施加有效扭矩或保持系统稳定时分配更高奖励值，这种精细化的奖励分配不仅加速了策略收敛，还引导智能体探索任务相关的关键状态；3）通过对比不同动作（如施加-1/0/1扭矩）的奖励表面，进一步验证了最优奖励函数能根据系统动态调整奖励值：当关节角度偏离平衡位置时，施加非零扭矩的动作获得更高奖励（鼓励动能生成）；而当系统接近稳定状态时，零扭矩动作被赋予更高奖励（鼓励能量保守）。