今天为大家分享来自香港城市大学与华为诺亚方舟实验室的最新工作ReasonRAG。该工作提出一种过程监督的Agentic RAG训练框架,通过为模型推理的每一步提供细粒度的“过程奖励”,显著提升了复杂推理任务的性能与效率。作者还为此构建了首个过程监督偏好数据集RAG-ProGuide。该方法仅用 5k 数据就在多个权威评测集上超越了需 90k 数据训练的 SOTA 模型,展现出极高的数据效率。相关代码与数据已开源。
论文链接: https://arxiv.org/abs/2505.14069
代码链接: https://github.com/Applied-Machine-Learning-Lab/ReasonRAG
随着大语言模型(LLMs)不断在开放域问答与复杂推理任务中取得突破,检索增强生成(Retrieval-Augmented Generation, RAG)成为连接语言模型与外部知识的重要桥梁。然而,传统RAG系统多采用静态、线性工作流,无法胜任需要多轮检索、多步思考的复杂任务。
为突破这一限制,“Agentic RAG”应运而生——它让模型能够自主决策是否检索、生成查询、抽取证据、合成答案,在复杂推理中表现出更强的灵活性。近期如Search-R1等方法将强化学习引入Agentic RAG训练流程,通过最终答案的正确与否作为唯一奖励信号,取得了一定进展。
但这类结果级奖励(Outcome Reward)方法依然存在三大痛点:
- 探索效率低:奖励仅在完整推理结束后才反馈,训练不充分;
- 梯度冲突严重:后续错误会误伤前序正确推理步骤;
- 奖励稀疏且单一:缺乏细粒度信号,导致模型难以有效学习复杂策略。
为此,团队首次将过程监督强化学习方法系统性引入Agentic RAG训练流程,构建出全新框架——ReasonRAG。该方法通过细粒度奖励机制、基于搜索的路径构建和偏好优化训练策略,显著提升了模型在多跳问答、多轮推理场景下的能力。在多个权威评测集上,ReasonRAG在仅使用5k训练数据的情况下,就超越了使用90k数据训练的Search-R1。
技术难点
实现Agentic RAG过程监督优化面临两大核心挑战:
- **如何定义高质量过程奖励?**奖励不仅要判断模型推理是否正确,更要引导其走出最短、最有效的路径。路径太长即使正确,也不应被鼓励。
- **如何自动标注过程监督数据?**高质量的中间步骤通常需要人工标注,但这种方式耗时耗力、难以扩展。如何让模型自动生成有监督的中间推理步骤,成为关键。
方法
ReasonRAG 由五个核心组件构成,形成了从数据自动生成到策略训练、推理部署的闭环体系:
Figure 2a 展示了过程监督数据的构建流程,包括SPRE奖励设计与MCTS路径探索;
Figure 2b 展示了ReasonRAG在Agentic RAG推理任务中的动态推理流程。
整个框架可分为以下步骤:
- 使用**Shortest Path Reward Estimation(SPRE)**设计过程级奖励;
- 借助MCTS搜索算法在Agentic推理空间中探索高质量中间步骤;
- 自动生成过程偏好数据集RAG-ProGuide;
- 基于该数据集进行偏好策略优化(DPO);
- 模型在推理时根据任务复杂度动态决定检索与回答流程。
1. SPRE:定义“最短路径奖励函数”
传统的强化学习中,reward通常只针对最终结果。但在Agentic RAG中,每一步推理决策(如生成查询或提取证据)都会影响整体推理质量。因此,ReasonRAG提出Shortest Path Reward Estimation(SPRE),为每一步决策分配一个过程奖励。
该方法会对当前推理路径进行多次模拟(Monte Carlo rollout),模拟完整推理过程,并评估其最终正确性与路径长度。SPRE通过惩罚冗长路径,引导模型学会以更短、更精准的方式完成任务,从而实现效率与准确性兼顾的学习目标。这种奖励机制为训练过程提供了高频、结构化、动态的反馈信号。
2. MCTS:在庞大推理空间中自动探索
为了从海量可能的推理路径中找到优质策略,ReasonRAG引入了经典的 Monte Carlo Tree Search(MCTS),将整个Agentic RAG推理过程形式化为状态-动作树(state-action tree),并在该树上进行探索。
在这一框架中,模型的推理行为被抽象为三个主要阶段,构成状态空间的核心:
Reasoning阶段:模型判断当前是否应该生成新的查询进行检索,还是直接生成最终答案。若生成查询,则执行一次文档检索操作,返回结果将追加至当前状态;若直接生成答案,则跳转至终止阶段。
Grounding阶段:从检索结果中抽取关键信息片段,为接下来的回答或进一步推理提供支撑。完成后返回Reasoning阶段。
Terminal阶段:模型生成最终答案并结束推理流程,整个推理轨迹完成。
在每个推理步骤中,模型根据当前状态依赖策略选择下一步动作。其策略定义如下:
在不同推理阶段,模型依据不同的上下文信息决定行为生成方式。这种条件化动作生成方式为MCTS提供了稳定、灵活的搜索基础,进而通过UCB策略平衡“探索新路径”和“利用高分路径”,高效构建出覆盖多策略空间的推理轨迹。
3. RAG-ProGuide:过程监督数据集构建
基于SPRE和MCTS,作者构建了首个专为过程级奖励设计的Agentic RAG数据集:RAG-ProGuide。
该数据集从三个常见QA数据集中(PopQA、HotpotQA、2WikiMultiHopQA)采样4603个问题,通过MCTS+SPRE生成13,289对高质量过程偏好样本。这些样本覆盖三类关键行为:
- 查询生成(Query Generation)
- 证据提取(Evidence Extraction)
- 答案生成(Answer Generation)
如上图所示,RAG-ProGuide覆盖了单跳与多跳任务场景、多轮推理过程、多种类型的行为偏好对,并反映了Agentic RAG系统在动态决策过程中的各个关键子任务。
4. 偏好策略优化
在拥有RAG-ProGuide数据集之后,ReasonRAG使用Direct Preference Optimization(DPO)进行过程级别的策略优化。
5. Agentic RAG 推理流程
ReasonRAG通过设计合理的**推理控制流(Inference Pipeline)**实现了模型的自主决策。整个流程以模块化方式进行,模型可动态在多个状态之间跳转,并在必要时调用外部检索器以辅助生成答案。
模型从初始状态开始,最多进行𝑁轮推理。在每一轮中,模型依据当前状态调用策略函数决定接下来的动作:
- 如果处于 Reasoning 状态,模型需判断是否继续生成查询或答案,通过或进行标识。如果生成答案则进入Terminal状态,生成query则调用检索器并进入Grounding状态;
- 如果处于 Grounding 状态,模型需要根据Query从文档中提取以标识的相关证据,并进入Reasoning状态;
实验结果
性能对比
论文在五个权威问答数据集上与12个SOTA方法进行了系统对比,结果展示了ReasonRAG在数据效率、多跳推理和泛化能力上的显著优势:
- 数据效率高:仅用5k训练样本,ReasonRAG即在平均EM(34.4%)和F1(42.3%)上超越Search-R1(训练数据90k,EM 32.8%,F1 40.7%)。过程奖励显著优于传统的结果奖励。
- 多跳推理更强:在HotpotQA上,ReasonRAG以48.9%的F1分数超越AutoRAG(43.7%)和Search-R1(47.0%),展现出强大的复杂推理整合能力。
- 跨领域泛化能力好:在Bamboogle和MuSiQue等挑战性测试集上,ReasonRAG表现稳定领先,显示其推理策略具备良好的迁移性与鲁棒性。
训练效率
ReasonRAG在PopQA、HotpotQA和2WikiMultiHopQA上的EM表现随GPU小时数增长,始终快于Search-R1,表明其更高的训练效率。
优化策略
实验进一步对比了不同优化策略的效果:包括基础模型(Base)、监督微调(SFT)、结果监督(ORL)和过程监督(PRL)。结果显示,ReasonRAG在所有数据集上均取得最佳性能,表明过程奖励所带来的精细化反馈机制更有助于学习复杂的推理策略。
搜索适应性
ReasonRAG展示出出色的搜索控制能力:对于简单任务自动快速终止,对于复杂问题则执行多轮搜索推理。在不同的Top-k检索设定下,模型表现出如下规律:
- Top-1 时上下文信息不足,性能受限;
- Top-3 显著提升各任务表现;
- Top-5 对PopQA和HotpotQA无进一步增益,但对2WikiMultiHopQA这类多跳任务继续有效。
这一结果表明,ReasonRAG不仅能灵活适应任务复杂度,还能高效利用额外检索信息,尤其适合处理多源、多轮、多跳问题。
总结与未来方向
ReasonRAG 提出了一种基于过程奖励的 Agentic RAG 强化学习训练范式,展现出在训练效率、复杂推理能力与泛化性能上的潜力。相比传统结果监督方法,过程级监督提供了更细粒度、更稳定的优化信号,尤其适用于多轮、复杂任务的学习。
未来可进一步探索:
- 构建更丰富的过程奖励体系,引入信息冗余惩罚等多维反馈信号;
- 推广至更多任务场景,如多模态问答、代码推理、复杂工具调用等 agentic 应用;
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!