news 2026/4/18 7:28:54

大模型学习基础(六) 强化学习(Reinforcement Learning,RL)初步1.3

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型学习基础(六) 强化学习(Reinforcement Learning,RL)初步1.3

前篇文章提到,为了评估actor结合s所做的action是否为好的动作(有利于reward积累)而引入了优势函数A,在不同情况下优势函数的定义不同。优势函数可以由人为来进行设定,然后评估action的好坏,但如果每一笔数据都需要人类来评定分数,效率显然太低,所以需要引入critic(评估)模型,来进行对action的评价。critic模型的一种主要形式是价值函数V(s)。

下面的图片直接用总得分G和优势函数相等,而G的得分需要完成所有的a之后才能累计得出,在这种情况下训练critic就需要做完全部的动作aciton;另一种情况,critic模型要做的是在看到第一个action a1之后,就能推断出之后所有的action所累积的分数是多少,也即推断出总得分A,A实际上是G的一个估计量。

训练critic的方式有两种

一、蒙特卡洛算法

actor执行一个action,将后续所有action的reward累计,得到G。以(s,G)对作为数据集来训练critic,如果是on-policy的方法来训练,那么只有当actor执行完一组action后才能得到一组训练critic的数据。

二、时序差分算法

如果critic只能在actor执行完所有的action后才能得到数据G用于训练,效率是十分低下的,我们希望actor在做完当前action之后就可以得到critic的训练数据。actor在s1下进行a1得到r1,并且产生了新的s2;而V(s1)近似于G1,V(s2)近似于G2;由于actor并没有进行完所有的action,所以G1和G2的具体值都是不知道的,但我们知道G1和G2之间是有关系的,G1=nG2+r1,所以G1-nG2=r1,所以V(s1)-nV(s2)应该近似于r1。我们可以用(s1,a1,r1,s2)来训练critic。

下面给出一个例子来分别通过两种方法进行V的预测。

设定,进行八轮训练。得到的V(Sb)的平均值是3/4,试计算V(Sa)的值。

如果使用蒙特卡洛思想,那么V(Sa)的值应该等于G(Sa),即在环境Sa下采取动作后,后续所有reward的累计,即0+0=0。此时我们希望critic的输出V(Sa)是0。

如果使用时序查分思想,那么V(Sa)的值不仅取决于G(Sa),还取决于G(Sb),G(Sa)-G(Sb)应该等于r=0,所以V(Sa)的值也应该是0。

现在我们得到了用于评估状态价值函数的critic模型,接下来要将其运用在actor的训练中。

给定环境s1,actor做出动作a1,得到回报r1,产生新的环境s2,然后继续进行a2……循环此过程,最后累积的汇报为G1’,而用于评估该动作a的优势函数A定义为G1’-b;b为偏置,b的值就是我们通过critic模型在评估环境s1以后得到的价值函数V(s1)。可以看出,V(s1)代表的是在s1状态下,执行一系列动作以后得到的reward的累计的平均值;而G1’表示的是在状态s1采取动作a1之后再执行一系列动作以后得到的reward的累计值,G1’的值是有随机性的,因为actor在执行a1后的动作并不一定是固定的,所以用G1’-V(s1)实际上是用动作的平均优势值对单个动作的优势值进行了标准化,从而衡量单个动作的好坏。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 13:25:52

一看就懂:如何快速判断三坐标轴方向(PowerDMIS)

在制造业、机械加工和三坐标测量领域,坐标系的定义基于机床的主要运动方向 ,这与标准笛卡尔坐标系有所不同,但同样遵循右手定则。Z轴 :首先确定 。Z轴始终与主轴(即安装刀具或测头的轴)的运动方向一致。对于…

作者头像 李华
网站建设 2026/4/18 19:13:47

国内这5款好玩又有趣的桌球游戏玩法,你玩过几个?

在快节奏的现代生活中,桌球游戏凭借其趣味性和竞技性,成为了众多玩家休闲娱乐的热门选择。国内市场上有不少优秀的桌球游戏,今天就为大家介绍《天天台球》中五款好玩又有趣的桌球玩法。1V1 8球对战:博弈乐趣十足1V1 8球对战是天天…

作者头像 李华
网站建设 2026/4/17 13:20:51

基于大数据及机器学习的文山天气预测及可视化系统设计与实现开题报告

附件3文山学院本科生毕业论文(设计)开题报告姓名性别学号学院专业年级论文题目□教师推荐题目 □自拟题目题目来源题目类别指导教师选题的目的、意义(理论意义、现实意义):本选题旨在设计并实现一个基于大数据及机器学习的文山天气预测及可视化系统。该…

作者头像 李华
网站建设 2026/4/17 19:43:05

基于springboot + vue医院急诊管理系统(源码+数据库+文档)

医院急诊 目录 基于springboot vue医院急诊系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue医院急诊系统 一、前言 博主介绍:✌️大…

作者头像 李华
网站建设 2026/4/19 1:31:57

基于springboot + vue建筑材料管理系统(源码+数据库+文档)

建筑材料管理 目录 基于springboot vue建筑材料管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue建筑材料管理系统 一、前言 博主介绍&…

作者头像 李华