news 2026/3/10 17:49:03

告别 Router Replay:利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别 Router Replay:利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性

作者:作者:初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练(Post-training)阶段,MoE(Mixture-of-Experts)模型凭借其稀疏激活的特性,在推理效率和模型容量之间取得了极佳的平衡。然而,在进行 PPO 等强化学习训练时,MoE 架构却带来了一个棘手的稳定性难题

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练,还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定?在 PPO(Proximal Policy Optimization)这类 Off-policy(或者说近似 On-policy)算法中,我们通常依赖 重要性采样(Importance Sampling, IS) 来修正旧策略(Behavior Policy)与当前策略(Target Policy)之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(atst)πnew(atst)

对于 Dense 模型,策略的变化通常是平滑的。但对于 MoE 模型,情况截然不同:

  • Router Logits 的微小扰动:训练过程中,Router 的输出 Logits 只要发生微小变化,就可能导致选中的 Experts 发生离散的跳变。
  • 概率剧变:一旦 Expert 选择发生变化,πnew\pi_{\text{new}}πnew4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值,进而导致梯度更新方差过大,模型训练发散。

为了解决这个问题,业界之前往往不得不采用 Router Replay(在更新时重新计算旧数据的 Router 路径)等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题,蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样(Truncated Importance Sampling)用于校正 vLLM (推理引擎) 和 FSDP (训练引擎)之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作:

核心机制:当 Importance Sampling Weight 超出预设的阈值范围时,IcePop 不仅仅是将其截断,而是直接将其 Mask 掉(视为无效样本或零贡献)。

这种做法看似激进,实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本,极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够,如果不从源头上减少策略偏差,训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论:发现:对于 MoE 类模型,使用纯 Online Policy Gradient(即去掉 PPO 的 Mini-batch 多次迭代,采用类似 A2C 的单次更新模式)对于提升稳定性至关重要

当我们将 Buffer 中的数据反复训练(Replay)时,MoE 的 Router 分布往往已经漂移,导致 Off-policy 的 gap 越来越大。采用纯 Online 模式,确保了πold\pi_{\text{old}}πoldπnew\pi_{\text{new}}πnew几乎一致,从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作,我们总结出了一套针对 MoE RL 训练的“黄金组合”:Online IcePop。

具体做法:

  • 移除 PPO 的 Mini-batch 循环:放弃传统的 Epochs 迭代,采用纯 Online 模式,数据采样后立即更新,更新完即丢弃。
  • 应用 IcePop Masking:在计算 Loss 时,应用 IcePop 的逻辑,对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益:

  • 极佳的稳定性:Online 模式保证了策略偏差最小化,IcePop 兜底处理了极端情况下的方差爆炸。
  • 工程极简(No Router Replay):由于我们采用了 Online 模式且有 IcePop 保护,我们不再需要耗费显存和算力去进行 Router Replay(即重新过一遍 Router 计算 Logits)。这大大简化了训练代码的复杂度,并提升了吞吐效率。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/5 20:58:36

25、Unix 系统超级用户操作指南

Unix 系统超级用户操作指南 1. 超级用户概述 在 Unix 系统中,普通用户权限有限,只能对自己的文件进行操作,不会对整个系统造成损害。但存在一类特殊用户——超级用户(root),他们拥有系统的完全控制权,负责处理系统配置、软件安装和故障排除等重要任务。不过,超级用户…

作者头像 李华
网站建设 2026/3/9 22:27:15

28、Unix系统:文件、目录与命令全解析

Unix系统:文件、目录与命令全解析 1. Unix系统关键文件与目录概述 在使用Unix系统时,我们常常会遇到一些看起来很重要的文件和有趣的目录,但却难以知晓这些文件属于哪个程序,也不清楚某些目录的用途。下面为大家详细介绍一些关键的Unix文件和常见目录及其内容。 1.1 关键…

作者头像 李华
网站建设 2026/3/9 20:09:56

揭秘Android截屏限制:FLAG_SECURE深度解析与实战解决方案

揭秘Android截屏限制:FLAG_SECURE深度解析与实战解决方案 【免费下载链接】DisableFlagSecure 项目地址: https://gitcode.com/gh_mirrors/dis/DisableFlagSecure 在Android生态系统中,FLAG_SECURE安全标志如同无形的屏障,影响着用户…

作者头像 李华
网站建设 2026/3/8 13:23:00

27、趣味Shell脚本与云服务实用指南

趣味Shell脚本与云服务实用指南 1. Acey Deucey纸牌游戏脚本解析 在这个Acey Deucey纸牌游戏脚本中,核心功能在于模拟洗牌和让玩家猜测第三张牌是否介于前两张牌的点数之间。以下为部分关键代码: if [ $splitValue -eq 0 ] ; thenecho "No point in betting when th…

作者头像 李华
网站建设 2026/3/2 6:20:48

28、云端与图像处理脚本实用指南

云端与图像处理脚本实用指南 幻灯片展示脚本 幻灯片展示脚本用于从指定目录中显示照片幻灯片,使用了 ImageMagick 的 display 实用程序。以下是脚本代码: #!/bin/bash # slideshow--Displays a slide show of photos from the specified directory. # Uses ImageMag…

作者头像 李华
网站建设 2026/3/9 10:11:15

29、ImageMagick:强大的图形文件处理工具

ImageMagick:强大的图形文件处理工具 在图形文件处理领域,ImageMagick 是一款功能强大但使用起来颇具挑战的工具。它能完成诸如添加水印、给图像添加边框或框架、创建缩略图以及解析 GPS 地理定位信息等复杂任务。下面将详细介绍如何利用 ImageMagick 实现这些功能。 1. 给…

作者头像 李华