13、深度强化学习与无监督神经网络模型解析-洪萨配资

深度强化学习与无监督神经网络模型解析

深度强化学习

在深度强化学习领域，Q - learning和REINFORCE是两种重要的方法。它们在收集环境信息以指导神经网络（NN）方面存在差异。Q - learning每走一步，就会检查NN对结果的预测是否接近实际发生的情况。从Q - learning的损失函数来看，如果预测和结果相同，就无需更新。而REINFORCE则是在完成一整局游戏（从初始状态到游戏结束）后才改变NN的参数。不过，我们也可以采用类似Q - learning的方式，但按照REINFORCE的参数修改时间表进行操作。这样虽然学习速度会变慢，因为参数更改的频率降低了，但由于计算的是实际的折扣奖励，所以参数的更改会更优。

Actor - Critic方法

在探讨了Q - learning和REINFORCE的差异后，我们来关注它们的相似之处。在这两种方法中，NN要么计算一个策略，要么在Q - learning中计算一个可以轻松用于创建策略的函数。因此，这两种情况下的NN都在近似一个单一的函数，该函数告诉我们如何行动，这类强化学习（RL）程序被称为actor方法。

接下来介绍Actor - Critic方法，这类程序包含两个NN子组件，每个子组件都有自己的损失函数：一个是actor程序，另一个是critic程序。这里重点介绍优势Actor - Critic方法（a2c），它是一个不错的选择，因为它效果良好，并且可以从REINFORCE逐步改进得到。我们先介绍第一个版本（增量版）a2c–，并将其应用于推车杆游戏。

a2c被称为优势Actor - Critic方法是因为它使用了“优势”的概念。状态 - 动作对的优势是状态 - 动作Q值

TTPLA数据集：输电塔和电力线路检测与分割的航空影像开源项目

TTPLA数据集：输电塔和电力线路检测与分割的航空影像开源项目【免费下载链接】ttpla_dataset aerial images dataset on transmission towers and power lines 项目地址: https://gitcode.com/gh_mirrors/tt/ttpla_dataset 一、项目基础介绍 TTPLA&#xf…