news 2026/4/18 14:47:30

2025小结:从RL到Agentic RL

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025小结:从RL到Agentic RL

如果说训练大模型的目标是稳定且高效地scale up,那Agentic RL给人的印象往往是既不稳定,也不高效,对于资源有限的团队来说,也很难scale。

上半年发生过很多变故耽误了不少时间,中间有几个月完全断层,基本没有跟进任何AI相关的东西。之后笔者去了一家Startup玩了三个多月的Agentic RL,总算把近期落下的一些功课补上了。虽说标题写的是从RL到Agentic RL,但我准备反着来,先说说Agentic RL。

作者:林正
链接:https://zhuanlan.zhihu.com/p/1989735723948073690

关于Agent

一、它太慢了

这里的慢,并不是发生参数更新的训练侧,而是Rollout阶段。一般来说,Agent Rollout需要在多个独立的Docker容器里面去交互,有些任务难免会包含一些耗时的操作,比如apt、pip装几个包,wget下载一些东西,网络请求虽然可以尽可能的优化,比如挂代理或者caching,但还有一些由LLM写的复杂算法,在运行时也避免不了几十秒的环境交互时间。即便利用asyncio把所有的trajectory都写成异步,还是偶尔能看到显卡在那里空转。在环境带来的超高cost下,fully async和low precision rollout都不太能起作用,因为瓶颈不在GPU计算,它们也不能加速环境的交互反馈。最终导致训练侧消费数据太快,而生产侧生产数据的速度太慢。之前有看见过Meta用LLM去simulate真实的环境(arXiv:2511.03773),但总感觉怪怪的,面对复杂的环境逻辑(例如一个涉及到庞大系统理解的bug),很难相信 LLM 能推理出完全正确的Observation。

在做Agentic RL的过程中,我们想了很多办法去优化Rollout的时间,除了提升推理引擎的推理速度,也花了很多功夫去优化环境的交互速度。我时常幻想:如果存在一个交互极快、任务海量且 Diversity极高的环境,那该多好。

二、它不稳定

不稳定的因素非常多,来自环境的噪声,算法的问题,训推不一致等等。有时候,训练的环境本身就不完美:docker镜像的问题,依赖冲突,timeout等等,导致LLM做出了正确的决定但是拿不到reward。有时候是算法的问题:对于负奖励样本的处理,rollout trajectory的过滤,尤其是决定将哪些数据送进训练侧会极大程度地左右训练成效。至于训推不一致,这个可太有意思了。最开始注意到推理引擎和训练引擎的不一致,出现了TIS,后来训MoE的时候因为expert选择可能不一样又出现了R2,R3,GSPO等等,我们在训练中实验模型对off-policy的容忍度,也成了工程的一部分。这部分内容,年底通义的那篇文章总结得非常到位(arXiv:2512.01374)。 此外还有一些玄学bug:rollout 出来的token,decode 成文本后再 rncode 回 token,竟然可能与原始 token 不一致。总之,如何稳定地把 Agentic RL 训得更久,是一个核心难题。

三、它很难scale

其实很难scale的原因也就是由上面两个问题导致的,rollout慢会导致训练step很难scale up,不稳定则会导致reward崩溃。但除此之外,还有一个重要因素:工程上的 Scale 难度。

随着Agentic RL和RL infrastructure的发展,训练的工程复杂度正变得越来越高,在这个阶段,我觉得算法和system的耦合正变得越来越紧密。想要高效率的实验新的想法,需要理解RL整个框架的设计,有时候算法的idea比较复杂,可能需要在训练侧和推理侧两边下功夫。推理上面,怎么写异步代码让docker起停、环境交互、GPU时间全部overlap起来打满GPU利用率是非常重要的,此外,也要考虑哪些东西会阻塞event loop,哪些东西会造成死锁,写agent loop的时候需要多想一下,这些工程能力是我以前做监督学习的时候不具备的。(话说时序pipeline调度啥的是不是操作系统里面上演过很多次了)

Debug一个RL系统也是比较费力的,由于很多东西存在随机性,有时候连bug都复现不了,这一次训练存在的bug,再启动一次就没了,好在SLIME提供了rollout debug功能,可以把上次rollout的数据存下来,下一次训练时直接复用送给训练侧,这省去了再次rollout的时间,也可以用同样的数据帮助复现之前出现的bug。

Agentic RL时代,工程能力的要求会越来越高,可维护的代码、模块化解耦的设计、并行和异步的考量以及训推框架(Megatron、FSDP、SGLang和vLLM)的掌握,都应该是必备的技能。

关于RL和Reasoning

年初DeepSeek-R1的发布彻底点燃了整个社区对推理和强化学习的热情,那根持续上涨不会饱和的思维链长度曲线最让人激动,暗示着模型通过RL能够不断提升自己,从而解决更难的问题。但后来的事情我们都知道了,(简单的配置下)RL并不能让模型的能力无限提升下去。

当时我说,RL实际上是在抽签+筛选,这就是后来被称为Amplifier派的思想,即RL并不能提升base模型的上限,只是在放大模型某一方面能力。arXiv:2504.13837这篇文章里有个图非常形象的说明了这一点

图源Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

训练开始的时候,模型其实有非常多的路径可走,但RL会筛选掉那些拿不到奖励的轨迹,导致RL训练后的模型展现出很高的Pass@1,但实际上在Pass@K上还比不了base模型。这篇论文据说一开始被质疑了很多次,但后来在NeurIPS25拿到了满分。关于这个问题,社区反复争论了几轮,这篇知乎文章梳理得很不错:

RL 能否拓展 LLM 的能力边界?——yet another reading list (2512)
https://zhuanlan.zhihu.com/p/1982385220817807141

其实到现在,我的看法也有了一些改变。这要从RL的一个重要的副产物:Chain of Thought (CoT) 说起,它扮演了至关重要的角色。

一、CoT是在搜寻一个压缩的概率空间

如果把 LLM 的输出比作“打字机前的猴子”,虽然理论上猴子能在无数次试错中写出莎士比亚全集,我们也总能在无数次采样中找到正确答案,但关键在于 LLM 输出的概率空间极其巨大,如何高效采样到正确答案?如果我们把 CoT 看作一个条件,那么我们实际上是希望能提供一个比更优的分布,从而让采样到正确答案变得更容易。

二、CoT是自然语言形式的latent space

ML的核心在于 feature。我们都知道,feature 是数据的有效表达,backbone 生成的 feature 越强,head 就越容易 probe 出任务结果。CoT 就是一种自然语言形式的 Latent Feature。 它作为媒介,让模型调用一套对各种任务都通用的meta-ability来解题。也就是说,任务虽千变万化,但解决任务的能力也许是一个有限且通用的集合。如果说传统的 feature extractor 是在提取数据的有用表达,那么 RL 训练出的 CoT 就是在提取“解决任务的能力”的通用表示。而最 fascinating 的是,这个 latent feature 是以人类可读的自然语言呈现的。

那么RL能提升base模型的能力吗?可以,只是我们还不能稳定做到。RL incentivizes, but how to incentivize is the key.

RL的泛化能力

当时除了那根思维链曲线,最让我兴奋的是 RL 模型展现出的优异泛化能力。SFT 的一个大问题是灾难性遗忘,而 RL 不仅保留了模型原有的大部分能力,甚至在任务 A 上训练后,还能在任务 B 上展现出能力提升。当时我和朋友讨论:如果仔细对比 RL 和 SFT 的公式,它们长得很像,那 RL 到底强在哪?一个很大的差别在于:RL 的数据是模型自己合成的(On-policy),采样自模型内在的分布;而 SFT 的数据分布往往与模型当前的分布偏差较大。 后来 arXiv:2509.04259 也专门探讨了这一点。 至于为什么能展现 OOD能力,正如前文所言:CoT 正在作为一个高效的 Latent Feature,让模型调用通用的任务解决能力来应对未见过的难题。

图源RL’S RAZOR: WHY ONLINE REINFORCEMENT LEARNING FORGETS LESS

这一年来,RL4LLM 的 Bug 修了不少,算法更迭了数轮,各种 XXPO 层出不穷。虽然 System 层面已进化多次,让 Off-policy 更少、效率更高,但目前仍有一些问题待解。RL 的基建在易用性和效率上总要做些取舍。总的来说,还是非常期待明年社区在 Agentic RL 上的研究,早日让 LLM 真正代理人类完成现实世界的复杂任务。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 20:04:25

51单片机核心外设知识点总结:GPIO、按键、中断、定时器与PWM

一、GPIO:单片机与外界交互的基础接口GPIO,全称General Purpose Input Output,即通用输入输出,是单片机与外界进行数据交互的最基本形式。每个GPIO引脚都可以独立配置为输入模式或输出模式,满足不同场景的使用需求。1.…

作者头像 李华
网站建设 2026/4/12 4:44:14

延吉必吃烤肉哪家正宗

延吉必吃烤肉哪家正宗:延炭乳酸菌烤肉的独特魅力在延吉,烤肉是当地美食文化的重要组成部分,很多游客都想知道哪家烤肉正宗。延炭乳酸菌烤肉凭借其独特的健康理念和美味菜品,成为了当地和游客都喜爱的热门之选。健康腌制&#xff0…

作者头像 李华
网站建设 2026/4/18 7:51:56

项目应用中AUTOSAR网络管理常见问题汇总

AUTOSAR网络管理实战避坑指南:从状态机到“乒乓唤醒”的深度解析一场由胎压传感器引发的深夜“心跳”凌晨两点,某车型在停泊测试中被监控系统捕捉到异常——整车电流每隔3秒就突然跃升至80mA,持续5秒后回落,如此循环长达20分钟。售…

作者头像 李华
网站建设 2026/4/17 16:02:23

紧急Bug处理:流程、四阶段控制法及工具方法

一、核心原则与分级标准紧急Bug处理的第一要务是控制影响,而非追求完美。必须建立明确的优先级判断标准,避免在压力下做出错误决策。四级分类法提供快速定级依据:P0致命级:核心业务中断,需立即停下手头一切工作处理&am…

作者头像 李华
网站建设 2026/4/17 22:13:07

[特殊字符]_可扩展性架构设计:从单体到微服务的性能演进[20260113164432]

作为一名经历过多次系统架构演进的老兵,我深知可扩展性对Web应用的重要性。从单体架构到微服务,我见证了无数系统在扩展性上的成败。今天我要分享的是基于真实项目经验的Web框架可扩展性设计实战。 💡 可扩展性的核心挑战 在系统架构演进过…

作者头像 李华
网站建设 2026/4/17 17:21:19

字节 2025 绩效考评开始,新调整来了!

大家好,我是鸭鸭! 字节一年两度的绩效考核要开始了。在字节的同学,应该上周四就收到了全员信:2026 年 1 月 15 日将启动全年绩效评估。 又到了发钱的时候!虽然不能进鸭鸭兜里,但想想还是有点小激动呢&…

作者头像 李华