news 2026/5/9 2:09:07

大白话讲强化学习的核心概念

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大白话讲强化学习的核心概念

强化学习就是:做一件事 →立刻有好坏感受→ 把所有将来的好坏折算成现在的分数

强化学习过程

参考阅读:An Introduction to Deep Reinforcement Learning

强化学习过程:状态、动作、奖励和下一个状态的循环

想象一个智能体正在学习玩平台游戏:

  • 我们的 Agent 从环境中接收状态S 0 S_0S0—— 我们收到游戏的第一帧(环境)。
  • 基于状态S 0 S_0S0,Agent 采取动作A 0 A_0A0—— 我们的 Agent 将向右移动。
  • 环境进入新的状态S 1 S_1S1—— 新的帧。
  • 环境向智能体给予一些奖励R 1 R_1R1—— 我们没有死亡(正奖励+ 1 +1+1

这个强化学习循环输出状态、动作、奖励和下一个状态的序列。

智能体的目标是最大化其累计奖励,称为期望回报。

什么是 奖励函数R ( s , a , a ′ ) R(s,a,a')R(s,a,a)

奖励函数 =环境对你“这一步行为”的打分规则。奖励不是你自己决定的,而是环境给你的反馈。

用生活例子理解,你在玩一个闯关游戏:

  • 状态s ss:你现在在第 3 步
  • 动作a aa:你选择“向右走”
  • 下一状态s ′ s's:你走到了第 4 步

这时游戏系统给你一个提示:

  • “+10 分”(过关)
  • 或 “-1 分”(撞墙)
  • 或 “0 分”(啥也没发生)

这个打分规则就是奖励函数

为什么写成R ( s , a , s ′ ) R(s,a,s')R(s,a,s)三个变量?
因为奖励可能取决于这三件事

什么是 状态价值函数?

  • 即时奖励r t + 1 r_{t+1}rt+1你在第t tt步做完动作后,立刻得到的奖励

    比如:

    时间步你做的事得到的奖励
    t = 0 t=0t=0向右走− 1 -11
    t = 1 t=1t=1向右走− 1 -11
    t = 2 t=2t=2到终点+ 10 +10+10
  • 折扣因子γ \gammaγ:为什么未来的奖励不如现在的值钱

    想象两个选择:

    • 现在给你100 100100
    • 一年后给你100 100100

    你更想要哪个?现在的更值钱,这就是折扣因子γ \gammaγ的直觉。

  • γ t r t + 1 \gamma^t r_{t+1}γtrt+1把“将来得到的奖励”按时间远近打折


    举个具体数值,设γ = 0.9 \gamma = 0.9γ=0.9

    时间奖励折扣后价值
    现在t = 0 t=0t=0− 1 -11− 1 -11
    下一步t = 1 t=1t=1− 1 -11− 0.9 -0.90.9
    再下一步t = 2 t=2t=2+ 10 +10+100. 9 2 × 10 = 8.1 0.9^2 × 10 = 8.10.92×10=8.1

    离现在越远,权重越小

  • 状态价值函数从当前状态开始,一直玩下去,未来所有奖励的“折算总分”
    V ( s ) = E [ ∑ t = 0 ∞ γ t r t + 1 ] V(s) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r_{t+1} \right]V(s)=E[t=0γtrt+1]

什么是 Bellman 最优方程?

核心思想:现在值多少钱 = 现在这一步的奖励 + 未来状态的价值

你在状态s ss

  1. 你选一个动作a aa
  2. 立刻得到奖励r rr
  3. 进入新状态s ′ s's
  4. 未来还能拿V ( s ′ ) V(s')V(s)这么多分

那:你现在的总价值 = 现在得分 + 未来能得的分

V ( s ) = max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V ( s ′ ) ] V(s) = \max_a \sum_{s'} P(s'|s,a) \Big[ R(s,a,s') + \gamma V(s') \Big]V(s)=amaxsP(ss,a)[R(s,a,s)+γV(s)]

逐项翻译:

数学符号人话
max ⁡ a \max_amaxa选最好的动作
P ( s ′ ∣ s , a ) P(s' | s,a)P(ss,a)做了这事后,可能会去哪
R ( s , a , s ′ ) R(s,a,s')R(s,a,s)立刻得多少分
γ V ( s ′ ) \gamma V(s')γV(s)未来还能得多少分

策略π \piπ:代理的大脑

策略π \piπ是智能体的大脑,它是一个函数,告诉在给定当前状态时应采取什么动作。因此它定义了智能体在特定时刻的行为。

这个策略是我们希望学习的函数,我们的目标是找到最优策略π \piπ,即在智能体按该策略行动时能够最大化期望回报的策略。我们通过训练来找到该π ∗ \pi^*π

有两种方法来训练我们的智能体寻找这个最优策略π ∗ \pi^*π

  • 直接地,通过让智能体学习在给定状态下应采取的动作基于策略的方法

    在基于策略的方法中,直接学习策略函数。此函数将把每个状态映射到该状态下的最佳对应动作,或者映射到该状态下所有可能动作的概率分布。

    • 确定性:在给定状态下的策略始终返回相同的动作
    • 随机:输出动作的概率分布
  • 间接地,让智能体学习哪些状态更有价值,然后采取能够引向更有价值状态的行动:基于价值的方法

    在基于价值的方法中,我们不是训练策略函数,而是训练一个价值函数,将状态映射到该状态的期望价值。

    “按照我们的策略行动”仅意味着我们的策略是“前往价值最高的状态”。

    由于我们的价值函数,在每一步中,我们的策略会选择由价值函数定义的最大值状态:− 7 -77,然后是− 6 -66,再是− 5 -55(依此类推),以实现目标。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 2:09:05

深度揭秘.NET中Stream的异步读取机制:高效I/O操作与性能优化

深度揭秘.NET中Stream的异步读取机制:高效I/O操作与性能优化 在.NET应用开发中,处理I/O操作是常见任务,如文件读取、网络通信等。Stream 类作为基础的I/O抽象,提供了同步和异步两种读取方式。而异步读取机制在处理大量数据或高并发…

作者头像 李华
网站建设 2026/5/9 2:44:59

人工智能之数字生命---绘画能力的生成2

现在这套“存在→裁剪→mask→子存在→多级还原”的链路,本质上就是一个**分层绘画/分层合成(layered rendering)**系统。 要把“绘画”做得更精细,关键不是存更多“图”,而是存能让你在重建时补细节、抗抖动、抗遮挡、可缩放的那些特征。可以按“你想达到的精细度”分三…

作者头像 李华
网站建设 2026/5/9 2:09:15

LobeChat教育辅导应用前景分析

LobeChat教育辅导应用前景分析 在传统课堂之外,学生对即时学习支持的需求正以前所未有的速度增长。放学后遇到难题怎么办?作业写到一半卡壳了谁来帮忙?这些问题长期以来依赖家长或课外辅导班解决,但成本高、资源不均、响应不及时等…

作者头像 李华
网站建设 2026/5/9 2:47:33

Axolotl推理加速:从重复计算到智能缓存的技术演进

Axolotl推理加速:从重复计算到智能缓存的技术演进 【免费下载链接】axolotl 项目地址: https://gitcode.com/GitHub_Trending/ax/axolotl 在大语言模型的实际部署中,高频重复的提示词处理往往成为性能瓶颈。Axolotl作为开源的LLM微调框架&#x…

作者头像 李华
网站建设 2026/5/9 2:47:30

软件升级全流程优化:打造高效安全的版本更新体验

软件升级全流程优化:打造高效安全的版本更新体验 【免费下载链接】SillyTavern LLM Frontend for Power Users. 项目地址: https://gitcode.com/GitHub_Trending/si/SillyTavern 在当今快速迭代的技术环境中,软件升级已成为每个技术项目维护的必修…

作者头像 李华