大模型学习基础（六）强化学习（Reinforcement Learning，RL）初步1.2-洪萨配资

我们已经知晓强化学习的基本要素有actor、environment、reward。强化学习的基本模型如下：

environment交给actor一个observation，即s；actor得到s向量以后给出动作action，即a；a、s输入reward模型，得到分数r，通过分数来衡量优势函数A的取值（上述例子直接用奖励r定义优势函数）；损失函数通过交叉熵和A共同定义，通过减小损失函数，优化actor的参数

而实际上，每一个动作a会直接影响到后续的s和a，因此a之间并不是相互独立的。另外一个问题是，如果简单的用r来作为A的数值，会有一个问题，就是只有在做固定的action时A才会增加，这会导致actor只会选择固定的action，实际上的RL对A的定义有多种方法。

一种定义优势函数的方法是把动作a之后所有动作获得的r累计起来，作为该动作的优势函数。

优势函数，使用此优势函数将会使actor的action选择更加多样化，而不是只采用reward为正的动作，从而更可能从全局视角考虑问题的最优解。

但是上述定义优势函数的方法有一个问题，那就是奖励的值似乎并不直接受到动作的影响，或者说受到其影响较小，更合适的一种优势函数设定的方法是

可能存在一种情况，即所有的action对应的A都是大于零的，这样actor将会认为所有的action都是好的，这显然不对；所以还需要对A进行标准化。最简单的标准化方法是直接减去一个baseline，即,就是baseline，人为设定。

接下来介绍上述思想的程序逻辑：
1.actor是一个神经网络模型，首先需要初始化actor的参数

2.actor初始化之后，用其跟environment进行互动，得到一系列的对

3.计算优势函数，用于评价对的得分

4.定义损失函数，如交叉熵

5.用优化器结合损失函数更新actor参数

这里有一个重要问题，actor在训练过程中所使用的训练集使它自己和环境交互产生的，这是RL显著区别于传统的监督学习的地方。

上述例子中，actor每和environment互动一次，产生一组{s，a}，然后再计算价值函数A，接着计算出损失函数，更新actor的参数；在下一个循环中，actor已经是新的actor了，其和environment互动将产生新的{s，a}，然后循环此过程。这意味着actor每次用来的训练的数据都是它自己产生的。这种训练用自己产生的数据训练自己的方法叫做on-policy。这种方法的局限在于收集资料的过程太过于漫长，而不能像监督学习一样直接使用现成的数据集。

对应的，自然有actor依赖别的actor所产生的数据进行训练的方法，叫做off-policy。一种经典的off-policy算法就是之前提到过的PPO(近端策略优化)。

在训练过程中，为了使得模型泛化能力更强，需要给actor增加一定的随机性，如在actor的参数上加一些noise或者扩大actor输出的交叉熵

项目实战05—XXX火力发电厂工业蒸汽量预测

火力发电是一种很常用的发电技术，但是火力发电的转换效率并不高。其中蒸汽压力的高低直接关系到火力发电的效率，火力发电的效率与蒸汽的压力之间的关系并不是正相关关系。火力发电过程要尽量使水处在蒸发的临界状态，这时火力发电的效率最高。因此，火力发电厂需要及…

李华

在职备战法考，先择校还是先备考？

许多在职考生都听过一个建议：“别想太多，先学起来。”于是，你匆忙找来资料，埋头苦学两月，却越发感到方向模糊、效率低下、坚持困难……这时你可能才意识到：在错误的道路上“先出发”，往往意味着…

李华

AgentScope x RocketMQ：打造企业级高可靠 A2A 智能体通信基座

作者：琛琪、稚柳引言 Agentic AI 时代已至，在智能客服、代码生成、流程自动化等场景中，多智能体（Multi-Agent）协作正从构想走向落地。然而，当多个 Agent 需要像一个团队那样高效协作时，脆弱的…

李华

2025年夸克网盘新用户送1T 空间,免费领取!

一、活动时间 2025年01月01日 ～ 2025年12月31日二、面向用户夸克 App 新用户，即在手机端和 PC 端从未使用手机号注册过夸克账号的用户只安装过夸克客户端但从未注册夸克账号的用户，也可获得本次新用户活动奖励； 如果用户使…

李华

PDF24 Creator PDF 工具箱 v11.29.0

可将大部分文件转成pdf格式的免费软件，安装好后会在你的打印机里看到一个叫PDF24的虚拟打印机，你可将要转成pdf格式的文件打印时选虚拟打印机PDF24，也可以直接将文件以拖拉方式拉进这软件的主视窗编辑区里，它会自动转成pdf格式&…

李华

网络安全必备工具收藏指南：20款神器助你快速入门

工欲善其事必先利其器，在新入门网络安全的小伙伴而言。这些工具你必须要有所了解。本文我们简单说说这些网络安全工具吧！ Web安全类 Web类工具主要是通过各种扫描工具，发现web站点存在的各种漏洞如sql注入、xss等。从而获取系统权限&#xf…

李华