news 2026/6/9 23:20:39

用MATLAB实现安全强化学习(Safe RL)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用MATLAB实现安全强化学习(Safe RL)

MATLAB代码:安全 强化学习 关键词:safe RL 仿真平台:MATLAB 主要内容:此代码展示了如何使用 Constraint Enforcement 块来训练强化学习 (RL) 代理。 此块计算最接近受约束和动作边界的代理输出的动作的修改控制动作。 训练强化学习代理需要 Reinforcement Learning Toolbox 。 在此示例中,代理的目标是使绿球尽可能靠近红球不断变化的目标位置。 具体步骤为创建用于收集数据的环境和代理,学习约束函数,使用约束强制训练代理,在没有约束执行的情况下训练代理。

在这篇博文中,咱们来聊聊如何用MATLAB实现安全强化学习(Safe RL)。安全强化学习在如今的很多领域都非常重要,它能确保在学习过程中系统始终保持在安全范围内。

主要代码展示及分析

咱们先来看核心代码,这段代码展示了如何使用Constraint Enforcement块来训练强化学习 (RL) 代理。

% 假设这里已经加载了Reinforcement Learning Toolbox % 创建用于收集数据的环境和代理 env = rlPredefinedEnv('CartPole-Discrete'); agent = rlQAgent(env.ObservationInfo, env.ActionInfo);

在这段代码里,我们首先利用rlPredefinedEnv创建了一个预定义的环境,这里用的是'CartPole-Discrete'环境,就好比是搭建了一个舞台。然后通过rlQAgent创建了一个Q学习代理,这个代理就像是舞台上要表演的演员,它会根据环境的反馈来学习怎么做是最好的。

% 学习约束函数 constraintFunction = @(state,action) state(2) <= 0.5;

这个constraintFunction就是我们的约束函数啦。在这里它表示当状态的第二个元素小于等于0.5时,才满足约束条件。这就像是给演员(代理)设定了一些规则,不能随便乱来。

% 使用约束强制训练代理 trainOpts = rlTrainingOptions(... 'MaxEpisodes',500,... 'MaxStepsPerEpisode',100,... 'ScoreAveragingWindowLength',10); trainResults = train(agent, env, trainOpts,... 'ConstraintFunction', constraintFunction);

在这部分,我们定义了训练选项trainOpts,设定了最大episode数为500,每个episode最大步数为100,分数平均窗口长度为10。然后调用train函数来训练代理,并且传入了我们之前定义的约束函数constraintFunction。这就好比告诉演员(代理),按照这些规则和训练方式去学习,不断提升自己的“演技”。

% 在没有约束执行的情况下训练代理 trainResultsWithoutConstraint = train(agent, env, trainOpts);

最后这部分代码,我们又在没有约束的情况下训练了代理,这样可以对比有约束和无约束时代理的学习效果。就好比看看演员(代理)没了规则的束缚,会有怎样不同的表现。

应用场景说明

在此示例中,代理的目标是使绿球尽可能靠近红球不断变化的目标位置。通过这些步骤,我们就能很好地控制代理的行为,在满足安全约束(这里的约束函数)的前提下,让绿球完成靠近红球的任务。

MATLAB代码:安全 强化学习 关键词:safe RL 仿真平台:MATLAB 主要内容:此代码展示了如何使用 Constraint Enforcement 块来训练强化学习 (RL) 代理。 此块计算最接近受约束和动作边界的代理输出的动作的修改控制动作。 训练强化学习代理需要 Reinforcement Learning Toolbox 。 在此示例中,代理的目标是使绿球尽可能靠近红球不断变化的目标位置。 具体步骤为创建用于收集数据的环境和代理,学习约束函数,使用约束强制训练代理,在没有约束执行的情况下训练代理。

整个过程里,那个Constraint Enforcement块起到了关键作用,它计算最接近受约束和动作边界的代理输出的动作的修改控制动作,就像一个裁判,时刻看着代理的动作,确保不违规。而训练强化学习代理当然是需要Reinforcement Learning Toolbox 啦,这就像是一个必备的工具包,没它可玩不转。

希望通过这篇博文,大家对用MATLAB实现安全强化学习有更清晰的认识。可以自己动手试试,调整调整参数,看看代理的表现会有什么不同哦。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 8:26:22

Wi-Fi 7 走向轻量化应用:智能家居与物联网迎来真正的“可落地时代”

长期以来&#xff0c;Wi-Fi 技术的演进往往围绕高吞吐、高带宽展开&#xff0c;服务对象主要集中在手机、PC、路由器等高性能终端。然而&#xff0c;随着智能家居与物联网设备数量持续增长&#xff0c;这一路径正逐渐暴露出局限性——大量低功耗、小体积设备&#xff0c;并不需…

作者头像 李华
网站建设 2026/6/6 8:20:30

下拉菜单操作流程测试:全面指南

在Web应用开发中&#xff0c;下拉菜单&#xff08;Dropdown Menu&#xff09;是常见的交互元素&#xff0c;用于简化用户选择&#xff08;如筛选选项或导航&#xff09;。作为软件测试从业者&#xff0c;确保其功能正确性至关重要。本文提供一套标准化的测试流程&#xff0c;涵…

作者头像 李华
网站建设 2026/6/6 7:50:07

Kioxia推出适用于大容量移动存储的QLC UFS 4.1嵌入式闪存器件

第8 代BiCS FLASH™技术实现强大的性能和效率提升 Kioxia Corporation&#xff08;铠侠&#xff09;是全球领先的内存解决方案提供商&#xff0c;今天宣布该公司采用每单元4位的四层单元&#xff08;QLC&#xff09;技术的新款通用闪存1&#xff08;UFS&#xff09;版本4.1嵌入…

作者头像 李华