news 2026/1/25 1:37:36

Q学习(Q-learning)路径规划算法实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Q学习(Q-learning)路径规划算法实战

Q学习(Q-learning)路径规划算法。 matlab代码。 智能体与环境交互来更新Q值表。 可以通过窗口界面方便观察交互过程 非4栅格拓展!智能体可以在一个栅格向8个方向拓展。 代码注释详尽,可以方便替换自己的地图。 #路径规划 #强化学习 #Q学习

在强化学习的领域中,Q学习是一种强大的无模型算法,常用于解决路径规划等问题。今天咱就聊聊基于Q学习的路径规划算法,并用Matlab实现它,而且这个实现还有一些独特之处哦。

一、算法核心概念

Q学习的核心是通过智能体与环境的不断交互,学习到一个Q值表。智能体在每个状态下,依据Q值表选择动作,执行动作后获得奖励,并根据奖励和新状态更新Q值表。经过多次迭代,智能体就能找到最优策略,也就是最优路径。

这里的智能体与传统4栅格拓展不同,它可以在一个栅格向8个方向拓展,这大大增加了路径搜索的灵活性。

二、Matlab代码实现

初始化部分

% 定义地图尺寸 map_size = [10, 10]; % 初始化地图,0表示可通行,1表示障碍物 map = zeros(map_size); % 设置障碍物位置,这里只是示例,可根据需求随意修改 map(3, 3) = 1; map(4, 4) = 1; % 初始化Q值表,状态数为地图尺寸乘积,动作数为8(8个方向) Q = zeros(prod(map_size), 8); % 学习率 alpha = 0.1; % 折扣因子 gamma = 0.9; % 最大迭代次数 max_episodes = 1000;

这部分代码主要是对地图和Q值表进行初始化。首先定义了地图的尺寸,然后创建一个全零的地图矩阵,通过手动设置某些位置为1来表示障碍物。接着根据地图尺寸计算状态数,创建Q值表。同时设置了学习率、折扣因子和最大迭代次数,这些参数对算法的收敛和性能有重要影响。

方向定义与函数实现

% 定义8个方向的偏移量 directions = [-1, -1; -1, 0; -1, 1; 0, -1; 0, 1; 1, -1; 1, 0; 1, 1]; % 计算状态索引函数 function state_index = get_state_index(state, map_size) state_index = sub2ind(map_size, state(1), state(2)); end % 检查位置是否合法函数 function valid = is_valid(state, map) valid = state(1) >= 1 && state(1) <= size(map, 1) &&... state(2) >= 1 && state(2) <= size(map, 2) &&... map(state(1), state(2)) == 0; end

这里定义了智能体可以移动的8个方向的偏移量。getstateindex函数用于将状态的行列坐标转换为Q值表中的索引。is_valid函数则用来检查智能体移动到的新位置是否在地图范围内且没有障碍物,确保移动的合法性。

训练过程

for episode = 1:max_episodes % 随机初始化智能体位置 state = [randi(map_size(1)), randi(map_size(2))]; % 确保初始位置合法 while ~is_valid(state, map) state = [randi(map_size(1)), randi(map_size(2))]; end state_index = get_state_index(state, map_size); while true % 选择动作,这里采用epsilon - greedy策略,简单示例可随机选择动作 action = randi(8); new_state = state + directions(action, :); if is_valid(new_state, map) new_state_index = get_state_index(new_state, map_size); % 奖励设置,到达目标位置设为100,其他为 -1 if new_state(1) == map_size(1) && new_state(2) == map_size(2) reward = 100; else reward = -1; end % Q值更新公式 Q(state_index, action) = Q(state_index, action) + alpha * (reward + gamma * max(Q(new_state_index, :)) - Q(state_index, action)); state = new_state; state_index = new_state_index; else % 如果新位置不合法,给予惩罚 reward = -10; Q(state_index, action) = Q(state_index, action) + alpha * (reward - Q(state_index, action)); end % 检查是否到达目标位置 if state(1) == map_size(1) && state(2) == map_size(2) break; end end end

训练过程就是智能体不断探索环境的过程。每次迭代开始时随机初始化智能体位置,并确保其合法。在每个状态下,通过某种策略(这里简单随机选择动作)选择一个动作,尝试移动到新位置。如果新位置合法,根据到达的状态给予相应奖励,并依据Q学习的更新公式更新Q值表;如果不合法,则给予惩罚并更新Q值。直到智能体到达目标位置,完成一次训练。

窗口界面展示

要实现通过窗口界面方便观察交互过程,可以使用Matlab的图形用户界面(GUI)相关工具。这里简单说下思路,在训练过程中,每执行一个动作,更新地图上智能体的位置并在窗口中绘制出来。

% 创建一个简单的图形窗口 figure; hold on; % 绘制地图障碍物 for i = 1:size(map, 1) for j = 1:size(map, 2) if map(i, j) == 1 rectangle('Position',[j - 0.5, i - 0.5, 1, 1], 'FaceColor', 'k'); end end end % 在训练过程中,每当智能体移动到新位置,绘制智能体位置 for episode = 1:max_episodes % 训练过程代码... % 假设智能体移动到新位置new_state plot(new_state(2), new_state(1), 'ro', 'MarkerFaceColor', 'r'); drawnow; end

这段代码创建了一个图形窗口,先绘制出地图中的障碍物。在训练过程中,每当智能体移动到新位置,就在窗口中用红色圆圈标记出来,通过drawnow函数实时更新显示,这样就能直观地看到智能体与环境的交互过程。

通过上述代码和实现过程,我们就完成了一个基于Q学习的路径规划算法,并且可以很方便地替换自己的地图来进行不同场景下的路径规划。这种方法在机器人导航、游戏角色寻路等领域都有广泛的应用前景。#路径规划 #强化学习 #Q学习

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/24 0:13:26

Python的yield

yield带有 yield 的函数在 Python 中被称之为 generator&#xff08;生成器&#xff09;def simple_generator():print("开始执行")yield 1print("继续执行")yield 2print("结束")# 创建生成器对象 gen simple_generator() print(type(gen)) #…

作者头像 李华
网站建设 2025/12/28 10:58:22

Comsol 模拟变压器 5%匝间短路的电磁场瞬态分析

comsol模型&#xff0c;变压器匝间短路5%&#xff0c;电磁场&#xff0c;二维模型&#xff0c;瞬态 包括电流变化曲线&#xff0c;正常与匝短后的绕组上的轴向磁密和辐向磁密波形与分布&#xff0c;铁心的磁密变化在电力系统中&#xff0c;变压器的可靠性至关重要。匝间短路是变…

作者头像 李华
网站建设 2025/12/28 12:53:47

多区域综合能源系统热网建模及系统运行优化探索

多区域综合能源系统热网建模及系统运行优化 有参考文献&#xff0c;有数据在能源领域不断追求高效与可持续发展的当下&#xff0c;多区域综合能源系统热网建模及系统运行优化成为了热门话题。今天就和大家唠唠这其中的门道。 一、多区域综合能源系统热网建模 多区域综合能源系统…

作者头像 李华
网站建设 2026/1/17 17:34:11

49、Linux系统管理中的Shell脚本与备份策略

Linux系统管理中的Shell脚本与备份策略 在Linux系统管理中,无论是商业环境还是家庭环境,数据丢失都可能带来灾难性后果。因此,定期备份数据至关重要。同时,使用Shell脚本可以自动化许多管理任务,提高效率。本文将详细介绍如何使用Shell脚本进行数据备份,以及一些常用的b…

作者头像 李华
网站建设 2026/1/18 10:08:14

【第十三天】13c#今日小结

1.静态成员类成员和方法分为静态和非静态俩大类 静态成员或方法 找类名.进行使用&#xff0c;存储类中&#xff0c;是类共有&#xff0c; 非静态的成员或方法 找对象.进行使用 存储在每一个对象里面静态方法 :不能访问非静态成员或方法&#xff0c;可以访问静态的成员或方法非静…

作者头像 李华
网站建设 2025/12/28 12:53:40

北大突破AI绘画难题:让机器像人一样精准识别和创作多主体图像

这项由北京大学张文涛教授团队牵头&#xff0c;联合快手科技凌团队共同完成的研究发表于2025年12月的计算机视觉顶级会议论文集中。研究团队包括王雨然、曾博涵、童成卓等多位研究者&#xff0c;论文编号为arXiv:2512.12675v1。有兴趣深入了解技术细节的读者可以通过该编号查询…

作者头像 李华