news 2026/6/9 23:38:48

【第二十八周】机器学习笔记二十九

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【第二十八周】机器学习笔记二十九

摘要

本周继续学习了强化学习的相关知识,了解和强化学习的核心思想蒙特卡洛方法与策略梯度算法的原理

abstract

This week, I continued studying reinforcement learning, gaining an understanding of its core concepts, including the principles of the Monte Carlo method and the policy gradient algorithm.

基于优势函数的策略梯度方法用于训练智能体的策略网络

其核心思想是利用一系列状态-动作对 {st,at}{st​,a^​} 及其对应的优势值 AtAt​(正数表示动作优于平均水平,负数则相反)来引导策略更新。通过构建损失函数 L​,其中 en 通常为动作的负对数概率,将优势值作为权重,使得智能体在优化参数 θ 以最小化 L 的过程中,更多地学习优势高的动作,抑制优势低的动作。最终,训练好的策略网络能够根据输入状态 s输出更优的动作 a,从而提高累积奖励。这种方法结合了监督学习(给定目标动作)和强化学习(优势加权)的特点,以实现更稳定高效的学习。

蒙特卡洛方法

蒙特卡洛方法是一种基于完整回合经验评估动作价值的直观方法。它的核心思想是通过实际游戏结果来衡量动作的优劣,而不是依赖预测或估计。具体来说,当智能体在某个状态执行某个动作后,我们会等待整个游戏或任务回合结束,记录从该时刻起获得的所有奖励总和(称为回报),然后将这个实际回报与当前状态下预期的平均回报进行比较,其差值即为优势值。

Policy Gradient

策略梯度(Policy Gradient)算法的核心训练流程及其关键限制。它首先通过当前策略网络(Actor)与环境交互收集一批状态-动作对数据,并为每个动作计算优势值 AnAn​ 以衡量其相对优劣。随后使用这些数据构建损失函数 L,并通过梯度下降对策略参数 θθ进行一次更新,每次参数更新后,必须丢弃当前数据并重新收集完整的训练集

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 4:02:53

translategemma-12b-it体验:轻量级翻译模型实测效果惊艳

translategemma-12b-it体验:轻量级翻译模型实测效果惊艳 你有没有试过在本地电脑上跑一个真正能用的多语言翻译模型?不是那种动辄几十GB显存、需要A100才能喘口气的庞然大物,而是——插上电源就能开干,MacBook Air也能稳稳扛住的…

作者头像 李华
网站建设 2026/6/7 12:16:26

零基础玩转Qwen-Image-2512:Web界面图片生成保姆级教程

零基础玩转Qwen-Image-2512:Web界面图片生成保姆级教程 摘要 你不需要会写代码,也不用折腾CUDA环境,更不用理解什么是SDNQ或SVD——只要会打字、会点鼠标,就能用上Qwen-Image-2512这个高性能图像生成模型。本文是一份真正面向零…

作者头像 李华
网站建设 2026/6/9 21:25:53

ChatTTS拟真语音实测:自动生成笑声和换气声的AI

ChatTTS拟真语音实测:自动生成笑声和换气声的AI “它不仅是在读稿,它是在表演。” 当语音合成不再只是把文字念出来,而是开始呼吸、停顿、笑出声——我们离“像真人一样说话”就真的只差一个模型的距离。ChatTTS 正是这样一款打破常规的开源语…

作者头像 李华
网站建设 2026/6/9 21:05:47

动手试了IndexTTS 2.0:AI语音自然度远超想象

动手试了IndexTTS 2.0:AI语音自然度远超想象 你有没有听过一段AI配音,愣神三秒才反应过来——这居然不是真人?不是那种“字正腔圆但像念稿”的播音腔,而是带着呼吸停顿、语气起伏、甚至一丝不易察觉的喉音震颤,像朋友…

作者头像 李华
网站建设 2026/6/9 1:55:21

阿里达摩院GTE模型实测:中文语义检索效果惊艳展示

阿里达摩院GTE模型实测:中文语义检索效果惊艳展示 你有没有遇到过这样的问题: 在几百份产品文档里找一句技术说明,翻了半小时没找到; 客服知识库更新了200条新问答,但用户问“怎么重置密码”还是匹配到三年前的旧流程…

作者头像 李华