news 2026/6/22 16:45:55

60、强化学习中的Q值迭代、Q学习及深度Q学习算法详解

张小明

前端开发工程师

1.2k 24

强化学习中的Q值迭代、Q学习及深度Q学习算法详解

1. Q值迭代算法

在强化学习中，Q值迭代算法是一种重要的方法。首先，我们会初始化Q值，对于不可能执行的动作，Q值设为负无穷：

import numpy as np Q_values = np.full((3, 3), -np.inf) # -np.inf for impossible actions for state, actions in enumerate(possible_actions): Q_values[state, actions] = 0.0 # for all possible actions

接下来，运行Q值迭代算法，它会重复应用特定公式更新所有状态和可能动作的Q值：

gamma = 0.90 # the discount factor for iteration in range(50): Q_prev = Q_values.copy() for s in range(3): for a in possible_actions[s]: Q_values[s, a] = np.sum([ transition_probabilities[s][a][sp] * (rewards[s][a][sp] + gamma * np.max(Q_prev[sp])) for sp in ra

网站建设 2026/6/15 4:52:28

5分钟搞定Adobe Illustrator自动化：一键安装脚本让设计效率翻倍 [特殊字符]

5分钟搞定Adobe Illustrator自动化：一键安装脚本让设计效率翻倍 🚀 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 想要告别重复枯燥的设计操作吗&#xff1…

李华

网站建设 2026/6/13 20:06:37

Univer 2025：重新定义企业级文档协作的技术范式

Univer 2025：重新定义企业级文档协作的技术范式【免费下载链接】univer Univer is a set of enterprise document and data collaboration solutions, including spreadsheets, documents, and slides. The highly extensible design allows developers to customi…

李华

网站建设 2026/6/17 22:08:26

TEdit地图编辑器终极指南：从零打造专属Terraria世界

TEdit地图编辑器终极指南：从零打造专属Terraria世界【免费下载链接】Terraria-Map-Editor TEdit - Terraria Map Editor - TEdit is a stand alone, open source map editor for Terraria. It lets you edit maps just like (almost) paint! It also lets you chan…

李华

网站建设 2026/6/19 23:47:36

电商领域Dify智能推荐引擎构建路径

电商领域 Dify 智能推荐引擎构建路径在今天的电商平台中，用户早已不再满足于“猜你喜欢”这种粗粒度的推荐。他们希望系统能听懂自己那句模糊的“想给女朋友买个特别点的礼物”，并给出既贴心又不失惊喜的选择。而传统推荐系统面对这类开放性需求时&…

李华

网站建设 2026/6/21 0:12:58

Keil中添加汇编文件的方法完整示例

如何在 Keil 中正确添加并使用汇编文件：从入门到实战你有没有遇到过这种情况？项目跑得差不多了，突然发现某个延时函数不准、中断响应慢了一拍，或者需要手动操作堆栈指针来切换任务上下文。这时候，C 语言的“黑箱”优化…

李华

网站建设 2026/6/21 11:25:18

ReadCat：打造个人专属数字图书馆的终极方案

ReadCat：打造个人专属数字图书馆的终极方案【免费下载链接】read-cat 一款免费、开源、简洁、纯净、无广告的小说阅读器项目地址: https://gitcode.com/gh_mirrors/re/read-cat 你是否曾在深夜追读小说时，被烦人的广告打断思绪？是否…

李华