news 2026/6/23 7:44:52

每天一个大模型相关知识点系列--GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型相关知识点系列--GRPO

GRPO(Group Relative Policy Optimization)是一种用于大语言模型第三阶段训练的强化学习方法,最早由 DeepSeek-Math 提出。

在 GRPO 中,模型被视为一个策略 π,直接对其输出分布进行优化。在强化学习建模中,prompt 对应状态 s,模型生成的完整响应对应动作 a,奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。

基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。与此同时,为防止策略更新过大、导致模型偏离原始分布,GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束,从而在探索与稳定性之间取得平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/18 9:18:58

Chrome批量文本替换插件:告别手动修改,提升网页编辑效率

Chrome批量文本替换插件:告别手动修改,提升网页编辑效率 【免费下载链接】chrome-extensions-searchReplace 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-extensions-searchReplace 在日常网页浏览和内容编辑工作中,你是否遇…

作者头像 李华
网站建设 2026/6/15 20:47:20

在React Native中鸿蒙跨平台开发,如果你想实现一个类似于高级标签(tags)组件,允许用户选择多个标签,你可以使用一些现有的库,比如`react-native-tags`

在React Native中,如果你想实现一个类似于高级标签(tags)组件,允许用户选择多个标签,你可以使用一些现有的库,比如react-native-tags或react-native-tag-view,也可以自己从头开始构建。以下是一…

作者头像 李华
网站建设 2026/6/20 2:48:01

BetterNCM插件管理器完整配置与深度优化实战手册

BetterNCM插件管理器完整配置与深度优化实战手册 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 想要彻底释放网易云音乐播放器的全部潜能吗?BetterNCM插件管理器正是你需要…

作者头像 李华
网站建设 2026/6/13 16:58:18

基于图像识别技术的FGO自动化辅助工具实战指南

基于图像识别技术的FGO自动化辅助工具实战指南 【免费下载链接】FGA FGA - Fate/Grand Automata,一个为F/GO游戏设计的自动战斗应用程序,使用图像识别和自动化点击来辅助游戏,适合对游戏辅助开发和自动化脚本感兴趣的程序员。 项目地址: ht…

作者头像 李华
网站建设 2026/6/22 10:26:08

鸣潮自动化工具:新手也能轻松掌握的3大核心功能详解

鸣潮自动化工具:新手也能轻松掌握的3大核心功能详解 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸上锁合成 自动肉鸽 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮自动化…

作者头像 李华
网站建设 2026/6/20 21:29:52

在一个事务里面死循环select一条数据,当我开启事务时,数据是1,每过5秒我就select一次,这个时候mybatis的一级缓存起作用了,所以不会去数据库查数据,等别的线程更新了数据表的数据,会使m

这个问题涉及到 MyBatis 一级缓存、事务隔离级别和数据库的并发控制。让我详细分析一下:1. MyBatis 一级缓存的行为MyBatis 一级缓存(Local Cache)是 SqlSession 级别​ 的缓存:在同一个 SqlSession 中执行相同的查询,…

作者头像 李华