用MATLAB实现安全强化学习（Safe RL）-洪萨配资

MATLAB代码：安全强化学习关键词：safe RL 仿真平台：MATLAB 主要内容：此代码展示了如何使用 Constraint Enforcement 块来训练强化学习 (RL) 代理。此块计算最接近受约束和动作边界的代理输出的动作的修改控制动作。训练强化学习代理需要 Reinforcement Learning Toolbox 。在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。具体步骤为创建用于收集数据的环境和代理，学习约束函数，使用约束强制训练代理，在没有约束执行的情况下训练代理。

在这篇博文中，咱们来聊聊如何用MATLAB实现安全强化学习（Safe RL）。安全强化学习在如今的很多领域都非常重要，它能确保在学习过程中系统始终保持在安全范围内。

主要代码展示及分析

咱们先来看核心代码，这段代码展示了如何使用Constraint Enforcement块来训练强化学习 (RL) 代理。

% 假设这里已经加载了Reinforcement Learning Toolbox % 创建用于收集数据的环境和代理 env = rlPredefinedEnv('CartPole-Discrete'); agent = rlQAgent(env.ObservationInfo, env.ActionInfo);

在这段代码里，我们首先利用rlPredefinedEnv创建了一个预定义的环境，这里用的是'CartPole-Discrete'环境，就好比是搭建了一个舞台。然后通过rlQAgent创建了一个Q学习代理，这个代理就像是舞台上要表演的演员，它会根据环境的反馈来学习怎么做是最好的。

% 学习约束函数 constraintFunction = @(state,action) state(2) <= 0.5;

这个constraintFunction就是我们的约束函数啦。在这里它表示当状态的第二个元素小于等于0.5时，才满足约束条件。这就像是给演员（代理）设定了一些规则，不能随便乱来。

% 使用约束强制训练代理 trainOpts = rlTrainingOptions(... 'MaxEpisodes',500,... 'MaxStepsPerEpisode',100,... 'ScoreAveragingWindowLength',10); trainResults = train(agent, env, trainOpts,... 'ConstraintFunction', constraintFunction);

在这部分，我们定义了训练选项trainOpts，设定了最大episode数为500，每个episode最大步数为100，分数平均窗口长度为10。然后调用train函数来训练代理，并且传入了我们之前定义的约束函数constraintFunction。这就好比告诉演员（代理），按照这些规则和训练方式去学习，不断提升自己的“演技”。

% 在没有约束执行的情况下训练代理 trainResultsWithoutConstraint = train(agent, env, trainOpts);

最后这部分代码，我们又在没有约束的情况下训练了代理，这样可以对比有约束和无约束时代理的学习效果。就好比看看演员（代理）没了规则的束缚，会有怎样不同的表现。

应用场景说明

在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。通过这些步骤，我们就能很好地控制代理的行为，在满足安全约束（这里的约束函数）的前提下，让绿球完成靠近红球的任务。

整个过程里，那个Constraint Enforcement块起到了关键作用，它计算最接近受约束和动作边界的代理输出的动作的修改控制动作，就像一个裁判，时刻看着代理的动作，确保不违规。而训练强化学习代理当然是需要Reinforcement Learning Toolbox 啦，这就像是一个必备的工具包，没它可玩不转。

希望通过这篇博文，大家对用MATLAB实现安全强化学习有更清晰的认识。可以自己动手试试，调整调整参数，看看代理的表现会有什么不同哦。

元空AI+Clawdbot：7×24 AI办公智能体新形态详解（长期上下文/自动化任务/工具粘合）

Clawdbot（最近改名叫 Maltbot），目前最热门的 AI 项目，不光是在 X 上「一夜成名」，在谷歌上的搜索量更是直接超过了 Claude Code、Codex。Clawdbot，无数海外 AI 博主将其称为：「迄今为止最伟大的…

李华

Wi-Fi 7 走向轻量化应用：智能家居与物联网迎来真正的“可落地时代”

长期以来，Wi-Fi 技术的演进往往围绕高吞吐、高带宽展开，服务对象主要集中在手机、PC、路由器等高性能终端。然而，随着智能家居与物联网设备数量持续增长，这一路径正逐渐暴露出局限性——大量低功耗、小体积设备，并不需…

李华

下拉菜单操作流程测试：全面指南

在Web应用开发中，下拉菜单（Dropdown Menu）是常见的交互元素，用于简化用户选择（如筛选选项或导航）。作为软件测试从业者，确保其功能正确性至关重要。本文提供一套标准化的测试流程，涵…

李华

第三方软件课题验收测试【使用Docker容器部署LoadRunner负载生成器以实现弹性压测】

Docker容器化部署LoadRunner负载生成器，是实现按需创建、快速扩展、资源隔离和动态回收的现代化弹性压测体系的重要方案。能彻底改变传统根据物理机/虚拟机的笨重、静态的压测方式。一、架构设计和优势传统LoadRunner部署中，负载生成器（Lo…

李华

Kioxia推出适用于大容量移动存储的QLC UFS 4.1嵌入式闪存器件

第8 代BiCS FLASH™技术实现强大的性能和效率提升 Kioxia Corporation（铠侠）是全球领先的内存解决方案提供商，今天宣布该公司采用每单元4位的四层单元（QLC）技术的新款通用闪存1（UFS）版本4.1嵌入…

李华

数据分析卡 3 天？虎贲等考 AI：零代码搞定期刊级实证，结果直接写进论文

“用 Python 跑回归改了 5 遍代码，结果还是不显著”“SPSS 操作半天，不知道怎么加稳健性检验”“数据分析报告逻辑混乱，审稿人让补充 3 类检验”—— 实证研究中，数据分析是无数科研人的 “卡脖子” 环节。传统工具要么门槛高&…

李华