news 2026/4/12 8:44:39

强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

你的核心困惑就一个:“单个回合到底是多长的路径?是不是走一步就是一个回合?”
答案直接给你:不是走一步!单个回合是“从任意起始状态出发,一直走到终止状态(比如目标/失败)的完整路径”——和“所有回合”的“回合”是同一个定义!

两者的区别根本不在“回合的长度/定义”,而在“用多少个回合的回报来算动作值Q(s,a)”——我用最极端的对比(只看一个动作值Q(S1,A右)),让你秒懂:

前提设定(极简版,避免复杂)

  • 环境:1×5网格(S1→S2→S3→S4→S5),S5是目标(r=10),其他状态无即时奖励(r=0),γ=1(无折扣);
  • 只关注一个动作值:Q(S1,A右)(从S1走“右”动作的动作值);
  • 回合定义:从任意状态出发,走到S5(终止),就是一个完整回合。

一、所有回合的回报平均值(MC Basic)

核心逻辑:用「多个回合」中S1→A右的回报,求平均算Q(S1,A右)
  1. 先跑3个完整回合(每个回合都是走到S5才结束):
    • 回合1:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G1=10(因为只有S5给10);
    • 回合2:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G2=10;
    • 回合3:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G3=10;
  2. 算Q(S1,A右):用这3个回合的回报求平均
    Q(S1,A右) = (G1 + G2 + G3) / 3 = (10+10+10)/3 = 10;
  3. 关键:必须攒够“所有要用到的回合”,再一次性算平均——这里用了3个回合的回报。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 16:47:35

大数据可视化项目实战:从数据采集到展示

大数据可视化项目实战:从数据采集到展示 关键词:数据采集、数据清洗、数据存储、数据可视化、项目实战 摘要:本文以「小明的奶茶店数据运营」为故事主线,带您一步步走完大数据可视化项目的全流程——从采集销售数据到清洗整理&…

作者头像 李华
网站建设 2026/3/28 8:28:24

OoderAgent 企业版 2.0 发布的意义:一次生态战略的全面升级

本次 ooderAgent 企业版 2.0 的发布,远非一次简单的版本迭代,而是标志着整个 ooderAgent 生态在战略定位、技术治理和社区共建上迈入了全新的阶段。其发布意义可以从以下几个层面进行综合分析: ‌一、 对生态本身:从“内部工具”…

作者头像 李华
网站建设 2026/3/28 8:16:54

PostgreSQL UPDATE 语句详解

PostgreSQL UPDATE 语句详解 引言 PostgreSQL 是一款功能强大的开源关系型数据库管理系统,它广泛应用于各种规模的数据存储和查询场景。在数据库操作中,UPDATE 语句是用于修改表中记录的重要命令。本文将详细介绍 PostgreSQL 的 UPDATE 语句,包括其语法、使用方法以及注意…

作者头像 李华
网站建设 2026/4/3 4:23:09

小程序毕设选题推荐:基于springboot+小程序的家教兼职系统小程序基于微信小程序的家教兼职系统家教预约【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/10 16:47:52

从平台工程视角“封装 Kubernetes”

从平台工程视角“封装 Kubernetes” ——从基础设施管理到自服务应用交付的工程化跃迁 在云原生时代,Kubernetes 已成为事实上的基础设施操作系统。但其原生 API 的复杂性,使得开发者被迫理解大量与业务无关的概念(Pod、Deployment、Ingress、HPA、RBAC……),严重拖慢了…

作者头像 李华