news 2026/4/15 19:45:19

ppo 找出口模型 训练 笔记 26/1/13

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ppo 找出口模型 训练 笔记 26/1/13

cnn模型大小我给他控制在训练耗时30s左右(4060ti)

动作空间6个:4个移动2个转头,因为一开始都要跑一遍,动作太多需要跑更多步才能吃到正反馈

我现在设置是60步一episode,5 episode训练一次

转头70度左右,前后移动控制在4s,时间模型可以调,给了模型位移程度的控制,时间设置这么长也是为了能像无头苍蝇一样先把环境用脚完全跑一遍

第3个episode就已经跑出来正反馈了(距离门很近)

这个模型我没想到的是,它训练出来,是用屁股走路的,后退当前进走到门旁边

奖励是门的面积/10000,门越大奖励越高,面积大于30w就给大奖励

早上用小碎步是能收敛的这种奖励,越训练得分越多,早上哪个架构大一点训练2分钟

yolo我还得重新训练一下近距离的情况,遇到了贴着门太大yolo没识别出来的情况

可能就是因为这样模型收敛不了

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 19:25:32

51单片机相关

一、GPIOGPIO:(通用输入输出)功能:与外界交互的最基本的形式,可以独立的将引脚配置为输入\输出模式。输入模式:检测引脚的电平(接收外部信号)上拉输入下拉输入浮空输入模拟输入输出模…

作者头像 李华