news 2026/4/9 14:31:15

RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

概述

本文报告了 rStar2-Agent 的开发和成果,这是一个专门用于数学推理的大规模语言模型。

尽管该模型的参数规模高达 140 亿个,但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。

这背后的原因是依赖冗长的思维链(CoT)的传统方法的局限性。

换句话说,仅仅通过 “保持足够长的思考时间”,很难发现中间错误和灵活的政策变化。

为了克服这一难题,作者引入了代理强化学习(Agentic Reinforcement Learning),旨在 “让思考更聪明”。
具体来说,强化学习用于学习一种机制,使模型能够恰当地生成和执行 Python 代码,并在反思结果的同时改进其推理能力。

在此基础上,设计了能同时处理 45,000 次工具调用的高效代码执行环境、减少环境噪音的新 GRPO-RoC 算法以及高效的多阶段学习配方。
结果表明,只需 510 个步骤和一周的培训就能达到最先进的水平,而且推理能力可以推广到非数学领域。

建议的方法

我们提出的方法由三个部分组成,用于高效地大规模部署代理强化学习。

首先,构建支持大规模代码执行的基础设施。

作者设计了一个专用执行环境,可在平均 0.3 秒内处理多达 45 000 次并行工具调用。

此外,还实施了动态分配 GPU 计算资源的调度程序,以消除负载偏差。

第二,一种名为 GRPO-RoC(Group Relative Policy Optimisation with Resampling on Correct)的新算法。

这是一种优先强化积极答案轨迹的方法,积极答案轨迹很少出现工具错误或格式违规,而失败轨迹则通过保持其多样性用于训练。

这使得学习既能抵御环境噪声,又能防止奖励黑客。

第三,高效的学习方法。
与传统的以推理为导向的 SFT(监督微调)不同,该系统首先只学习简单指令遵循和工具使用的基础知识,然后通过多阶段 RL 逐步加强推理能力。

这三者使我们能够用比以前更少的计算资源建立实用而强大的推理代理。

实验

在实验中,我们使用 rStar2-Agent-14B 评估了它在数学竞赛问题 AIME24 和 AIME25 以及 HMMT25 等高难度基准上的性能。
结果显示,rStar2-Agent-14B 在 AIME24 和 AIME25 中的正确率分别为 80.6% 和 69.8%,高于 DeepSeek-R1 (671B) 和 Claude-Opus-4.0。

平均响应长度也更短,表明推理精简高效。

在训练过程中,每个阶段的性能提高都很明显。

第一阶段,在 8K 响应长度令牌限制下获得了基本的推理能力,第二阶段将限制扩展到 12K,进一步提高了准确性。

在最后阶段,训练集中在难度更大的问题上,并达到了最先进的标准。

此外,在数学以外的其他领域,通用化性能也得到了证实,在科学推理基准 GPQA-Diamond 和代理工具使用任务 BFCL v3 上都取得了优异成绩。

此外,对错误轨迹和自我反思行为的分析表明,模型学会了 "反思标记 "行为,即积极利用来自环境的反馈,通过试错改进推理。

这证明该方法不仅能提高性能,还能模仿更像人类的思维过程。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 17:43:14

纪念币预约黑科技:告别手忙脚乱的智能抢购指南

还在为抢不到心仪的纪念币而烦恼吗?这款纪念币预约自动化工具将彻底改变你的预约体验!想象一下,只需简单配置,就能让电脑自动完成所有繁琐操作,而你只需坐等成功通知。🎯 【免费下载链接】auto_commemorati…

作者头像 李华
网站建设 2026/4/7 6:20:32

5分钟极速部署:HsMod炉石传说增强工具完整使用手册

5分钟极速部署:HsMod炉石传说增强工具完整使用手册 【免费下载链接】HsMod Hearthstone Modify Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是基于BepInEx框架开发的炉石传说专业增强工具,为玩家提供超过55项…

作者头像 李华
网站建设 2026/4/3 4:41:16

NVIDIA Profile Inspector:解锁显卡隐藏性能的终极配置指南

你是否曾经疑惑,为什么同样的显卡在不同游戏中表现差异巨大?或者觉得官方控制面板提供的选项太过有限?NVIDIA Profile Inspector正是为这些问题而生的专业工具,它能让你深入显卡驱动的底层配置,释放那些被默认设置所限…

作者头像 李华
网站建设 2026/4/1 14:55:53

【端侧智能爆发前夜】:3大趋势看懂Open-AutoGLM与大模型协同进化

第一章:端侧智能爆发前夜的产业图景随着5G通信、边缘计算与专用AI芯片的快速演进,端侧智能正从技术构想迈向规模化落地的关键拐点。越来越多的设备开始在本地完成推理任务,而非依赖云端处理,这一转变不仅降低了延迟与带宽压力&…

作者头像 李华
网站建设 2026/3/13 10:03:20

NVIDIA显卡隐藏设置调优全攻略:从入门到精通

NVIDIA显卡隐藏设置调优全攻略:从入门到精通 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏画面卡顿、帧率不稳而困扰?想要挖掘显卡的全部性能潜力却无从下手&#x…

作者头像 李华
网站建设 2026/4/8 21:06:19

哔哩下载姬去水印实战教程:轻松获取纯净视频资源

哔哩下载姬去水印实战教程:轻松获取纯净视频资源 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等&#xff09…

作者头像 李华