RL算法推导！PPO -＞ GRPO -＞ DAPO -＞ GSPO -＞ SAPO-洪萨配资

RL算法推导！PPO -> GRPO -> DAPO -> GSPO -> SAPO

在小说阅读器中沉浸阅读

原文：https://zhuanlan.zhihu.com/p/1986141224588027138

在DPO(Direct Policy Optimizatio)之后，后续的典型工作发展路线为：GRPO -> DAPO -> GSPO -> SAPO，在有PPO的理论推导基础后，这些论文的理论推导过程就会容易很多。

1. GRPO 相比PPO的改进有哪些？

首先PPO的优化目标为：

GRPO的优化目标：

其中

其采用组采样的方式和基于规则的reward函数，也能够像DPO仅加载两份模型，即Actor和参考文献 Model，从而在训练参数量比较大的模型时，有效降低显存的占用，好坏样本的覆盖程度则依赖于Rollout过程，当Rollout采样的过程足够多时，可以假设它能够覆盖大部分情况。

从上述角度来讲，想要覆盖大部分case的数据组织成本，要比DPO小很多，个人猜测是目前GRPO系列方法比较流行的一个原因，该方法的核心在于组采样。但在实际训练时，比较耗费时间的为Rollout阶段。

2. DAPO 相比GRPO的改进有哪些？

其优化目标如下：

其中和前面保持一致，其不同地方则用红色显示，如下为DAPO的具体改进点：

归一化系数（对应论文中的Token-Level Policy Gradient Loss）: 这里采用全局token系数进行归一化，使得在处理组内长度回复差异较大时，梯度会更稳定点。

非对称裁剪（对应论文中的Clip-Higher): 更精细地控制策略的更新程度。

Dynamic Sampling: 直接丢弃掉采样后奖励值为0或1的样本，当组内所有采样结果相同时，此时按照上式计算得到的优势为0，即不能带来有效梯度更新。刚开始训练时，会有较大可能出现组内奖励值全0的情况，训练阶段后期，则会有较大可能出现组内奖励值全1的情况，为了提升Rollout阶段的采样效率，直接选择丢弃奖励值为0或1的样本。

Overlong Reward Shaping: 该改进并没有在DAPO的优化目标中体现，在GRPO训练时可能会出现当Rollout输出达到预先设置的最大长度时，仍没有输出有效结果，此时计算的奖励值为0。为了降低模型输出时的思考长度，则在输出长度方面，增加一个对应软惩罚：

3. GSPO 相比GRPO有哪些改进？

优化目标如下：

其中

该优化目标相比GRPO，仅改变了重要性采样的系数，其相比GRPO采样系数用的是整条句子的概率情况，而不是单token概率，这点对于MoE模型RL训练十分有帮助。

对于单token概率，可能存在Rollout Engine和 Model Engine选择的专家路由差异，因此往往需要通过Routing Reply机制来确保两种Engine在同样的样本选择的路由保持一致。

一个稍微有意思的点，在LLM进行预训练时，需要观察模型在训练预料的PPL(文本困惑度)是否呈现出下降趋势，PPL的公式与上述公式极为相似，对于一个序列

其困惑度的定义如下：

将PPL的定义带入则有，对于正样本，希望较大，即对应到减小，增大。

4. SAPO 相比GRPO和GSPO有哪些改进？

其优化目标如下：

其中

其相比GRPO将clip操作替换为上述软控制，其具有如下特点：

• token级别的软信任区域，token级别具有更细的控制力度。
• 非对称温度设计，对于正负token则采取不同的操作。

Reference

1. DeepSeekMath(GRPO): https://arxiv.org/pdf/2402.03300 2. DAPO: https://arxiv.org/pdf/2503.14476 3. GSPO: https://arxiv.org/abs/2507.18071 4. SAPO: http://arxiv.org/pdf/2511.20347

CCF推荐计算机科学理论国际学术会议2026时间表

CCF推荐计算机科学理论国际学术会议2026时间表原创计算机科学实验室计算机科学实验室 2026年1月26日 09:01 陕西中国计算机学会推荐国际学术会议(计算机科学理论) https://www.ccf.org.cn/Academic_Evaluation/TCS/ 1、ACM Symposium on Theory of Computing &#xff0…

李华

NX6802，4路音频DAC芯片，具备90dB 动态范围 -90 dB THD+N

NX6802是一款立体声数模转换芯片，内含插值滤波器、multi-bit数模转换器、差分输出模拟滤波。NX6802支持大部分的音频数据格式。NX6802基于一个带线性模拟低通滤波器的四阶multi-bit Δ-Σ调制器，而且本芯片可以通过检测信号频率和主时钟频率，…

李华

超详细 CLIP 入门指南：图文对齐原理 + 实战项目，快速上手多模态模型

文章目录从0到1掌握CLIP：多模态图文理解入门到实战超详细教程一、先搞懂CLIP到底是什么 1. CLIP的核心能力：图文“双向奔赴” 2. CLIP为什么重要？二、CLIP的技术逻辑：从架构到训练 1. 核心架构：“图像编码器+文本编码器”双引擎 2. 训练逻辑：对比学习让图文“牵手” 3…

李华

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

英国留学机构推荐：UKEC的全流程服务体系

服务体系概述UKEC提供“申请规划签证辅导行前准备”全流程服务，帮助学生解决留学申请过程中的各种问题。此外，UKEC还提供英国本土后续服务，包括住宿安排、接机服务、转学升学支持和生活服务。各环节详解1. 申请规划UKEC为学生提供申请规划服务…

李华

国内卫浴十大品牌华艺卫浴：以创新材质与美学设计，定义国产洁具新高度

国内卫浴十大品牌华艺卫浴打破 “国货性价比” 的刻板印象,以 “国产洁具卫浴十大品牌” 的严苛标准,将创新材质、精密工艺与国际美学深度融合,推出多款兼具健康属性、耐用品质与颜值质感的产品,让国货卫浴在高端市场实现突围。从核心材质到细节设计,华艺卫浴始终践行 “好看…

李华