本文提出Agent-Reasoning Reward Model (Agent-RRM),通过生成结构化多维反馈(推理轨迹、批判和评分)解决Agentic RL中的奖励稀疏性问题。研究团队设计了三种集成策略(Reagent-C、Reagent-R和Reagent-U)和四个高质量数据集,在数学推理、知识密集型任务和通用智能体基准测试上均取得显著性能提升,有效增强了智能体的多步推理和工具调用能力,为复杂任务提供了细粒度指导。
Agent-RRM:用推理奖励模型打破智能体训练的奖励稀疏困境
在 Agentic Reinforcement Learning(Agentic RL)领域,一个长期存在的瓶颈是奖励信号的稀疏性。传统方法仅依赖基于最终结果的奖励,无法区分高质量的中间推理过程和完全错误的尝试。这种粗粒度的二元监督会掩盖成功中间步骤的价值,导致训练效果次优。本文提出的 Agent Reasoning Reward Model(Agent-RRM)通过生成结构化的多维反馈——包括显式推理轨迹、针对性批判和整体质量评分——为智能体轨迹提供了密集、多层次的监督信号,有效缓解了奖励稀疏问题。
论文标题: Exploring Reasoning Reward Model for Agents
来源: arXiv:2601.22154v1 + https://arxiv.org/abs/2601.22154v1
文章核心
研究背景
Agentic Reinforcement Learning 已在使能智能体执行复杂推理和工具使用方面取得了显著成功。然而,大多数方法仍然依赖基于稀疏结果的奖励进行训练。这种反馈无法区分中间推理质量,导致训练结果次优。在需要多步工具利用的长视野智能体任务中,基于结果的监督无法将高质量的中间推理与完全错误的尝试区分开来,例如将仅在最后一步失败的轨迹视为完全失败。这种粗粒度的二元监督掩盖了成功中间步骤的价值,导致性能次优。
研究问题
- 奖励稀疏性:现有 Agentic RL 方法依赖基于最终结果的稀疏奖励,无法为智能体提供细粒度的反馈来指导中间推理过程。
- 奖励模型瓶颈:现有推理奖励模型专注于成对偏好,经常引入固有偏差,无法捕获轨迹之间的细粒度质量梯度,也无法为改进提供可操作的指导。
- 文本反馈未被充分利用:大多数现有方法仅依赖数值奖励反馈进行训练,而自然语言批判在很大程度上未被探索,这可以为智能体策略提供更细粒度的指导。
主要贡献
- 提出 Agent-RRM:引入一个多维评估器,生成结构化反馈,包括显式推理基本原理、可操作的批判和整体质量评分,提供透明且细粒度的评估。
- 系统探索三种集成策略:提出文本增强精炼(Reagent-C)、奖励增强指导(Reagent-R)和统一反馈集成(Reagent-U),为利用推理奖励增强智能体性能提供了路线图。
- 构建高质量数据集:策划并发布了四个专门用于训练推理智能体和奖励模型的高质量数据集,为研究多粒度反馈的智能体强化学习提供了宝贵资源。
方法论精要
Agent-RRM 的核心创新在于其结构化反馈机制和三种集成策略的系统性探索。首先,该方法建立在 GRPO(Group Relative Policy Optimization)框架之上,为每个查询生成一组输出,通过组内归一化计算优势值。为了使智能体能够与多样化环境有效交互,研究团队设计了六种专业化工具:Search(使用 Bing 搜索引擎检索相关信息)、WebBrowse(获取网页内容并生成响应)、Python Code Interpreter(执行 Python 代码片段)、File Reader(访问和提取文件内容)、Image Descriptor(基于视觉特征生成文本响应)和 AudioConverter(将音频文件转录为文本)。
在数据集构建方面,研究团队精心策划了四个专业数据集。对于智能体训练数据,采用严格的三阶段流程:(1)过滤真值模糊的样本;(2)跨来源去重;(3)难度感知采样,最终生成了 Reagent-RL-709K(包含 709k 问题-答案对的全面语料库)和 Reagent-SFT-55.6K(使用 DeepSeek-V3.1 生成并保留仅导致正确最终答案的高质量轨迹),如图 1 所示。对于奖励模型数据集,构建了 Reagent-RRM-SFT-28K 和 Reagent-RRM-RL-90K,通过采样来自 Qwen3-8B/14B、Qwen3-ARPO-DeepSearch(8B/14B)、Qwen2.5-7B-ARPO、Qwen2.5-WebDancer(7B/32B)和 DeepSeekV3.1 等模型集成生成的推理轨迹,由 GPT-OSS-120B 注释生成结构化的三部分判断。
Agent-RRM 的训练采用两阶段程序。首先在 Reagent-RRM-SFT-28K 上进行 SFT,以灌输结构化输出格式和基础评估能力。随后在 Reagent-RRM-RL-90K 上应用 GRPO,以精炼模型的评估基本原理并确保其标量奖励的校准。这种训练范式确保 Agent-RRM 即使在没有真值答案的情况下也能生成高保真、自一致的反馈,使其在复杂、开放式的智能体任务中非常有效。
基于这些信息信号,研究团队提出了三种集成策略来探索 Agent-RRM 与 Agentic RL 的协同作用,如图 2 所示。Reagent-C(文本增强精炼)利用 Agent-RRM 的文本批判进行训练自由的精炼,通过上下文提示直接应用于 Qwen3-8B。对于每个查询,智能体首先生成初始响应,随后 Agent-RRM 分析该响应以通过其<critique>组件生成针对性批判,智能体然后在反馈的条件下执行精炼传递。关键的是,此变体中的策略保持冻结,允许隔离和评估智能体的上下文精炼能力。
Reagent-R(奖励增强指导)利用 Agent-RRM 的标量分数为智能体轨迹提供细粒度的质量评估。按照标准 GRPO 采样程序,智能体生成一组输出,奖励定义为基于规则的正确性和基于模型的质量评估的组合:,其中 验证最终答案正确性, 从 Agent-RRM 的<score>中提取, 是平衡它们贡献的缩放因子。此变体通过提供推理感知反馈缓解了基于规则奖励的稀疏性。
Reagent-U(统一反馈集成)在统一的 RL 循环中协调标量奖励和文本批判驱动的精炼。对于每个查询,智能体执行两阶段采样:,,其中 是初始尝试, 是由 Agent-RRM 生成的批判 指导的精炼响应。将两个阶段的所有轨迹合并到池中,并通过公式计算组合奖励,优势通过所有初始和精炼轨迹的归一化计算,统一目标公式为:
其中重要性比率 和 KL 惩罚 相对于它们各自的上下文计算。通过在所有初始和精炼轨迹中归一化优势,Reagent-U 鼓励智能体优化整体轨迹质量,有效增强智能体的核心推理和工具调用性能。值得注意的是,文本批判仅在训练阶段用于内化推理能力;在推理时,Reagent-U 作为标准智能体运行,无需额外的批判精炼或外部指导。
实验洞察
研究团队在 12 个多样化基准测试上进行了全面评估,涵盖数学推理(AIME24、AIME25、GSM8K、MATH500)、知识密集型推理(HotpotQA、2Wiki、Bamboogle、MuSiQue)和通用智能体与搜索推理(GAIA、WebWalkerQA、Humanity’s Last Exam、xbench)三个领域。实验采用两阶段训练流程:监督微调后跟强化学习,使用 Qwen3-8B 作为基础模型,在 8 个 NVIDIA A800-80G GPU 上训练,超参数设置如表 4 所示。
在文本批判的直接影响评估中,Reagent-C(训练自由变体)在所有基准测试上实现了一致的性能提升,且无需任何参数更新。改进在数学推理中尤为突出,在通用智能体和知识密集型任务中也观察到可靠的进展。这归因于 Agent-RRM 的诊断能力,它有效地指出复杂轨迹中的逻辑谬误和工具执行错误。结果确认第二次响应始终比初始响应实现更好的性能。关键的是,第一次和第二次响应之间差距的扩大强调了许多初始失败源于短暂的执行错误或逻辑疏忽。
在模型奖励提升学习效果的评估中,Reagent-R 通过 Agent-RRM 的整体推理级别评分增强基于规则的结果奖励,在所有基准测试上始终优于基于规则奖励基线。具体而言,Reagent-R 在 Bamboogle 上达到 72.8%,在 xbench 上达到 41.0%,分别超过 Reagent w/o Agent-RRM 11.2 和 9.0 个百分点。这些结果表明整体模型奖励为复杂、多步推理场景提供了更多信息反馈,而稀疏二元结果通常提供过于粗粒度和有限的指导。
在统一反馈的协同效应评估中,表 1 和表 2 中的评估揭示 Reagent-U 中的统一反馈机制在多样化和推理智能体基准测试谱系中始终优于所有基线。具体而言,Reagent-U 在 GAIA(文本)上达到 43.7%,在 WebWalkerQA 上达到 46.2%,超过所有比较方法。除了在通用智能体和搜索任务中的卓越表现外,Reagent-U 在知识密集型和数学推理中保持鲁棒性,在 Bamboogle 上确保 76.8%,在 AIME24 上确保 60.0%。这种平衡的熟练度表明 Reagent-U 增强了多工具、多轮推理能力,而不仅仅是针对网络搜索进行优化。
在跨模态推理和复杂工具使用的评估中,通过在完整的 GAIA 基准测试上分析,挑战智能体处理需要集成开放域搜索、多模态解释、Python 编码和基于文件推理的任务。如表 3 所示,Reagent-U 不仅在文本子集上保持竞争性能,而且在完整集上显著优于基线。这些结果确认 Reagent-U 培养了一种通用的智能体智能,可以在广泛的任务谱系中泛化,而不是过度拟合特定的基于文本的要求。
在 Agent-RRM 奖励权重 的参数分析中,图 3 显示智能体性能最初随着 值的增加而增加,表明推理奖励的集成相比基线()增强了智能体的决策制定。具体而言,性能在 之间达到平台期,随后在 时略有下降。这一趋势表明虽然适度的推理反馈提供必要的监督信号,但不成比例的高权重可能会以最终任务完成为代价过度强调中间步骤。因此,平衡 Agent-RRM 奖励与基于规则的结果奖励对于维持推理和结果监督之间的最佳权衡至关重要。
最后
我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**