文章:REWARDMAP: TACKLING SPARSE REWARDS IN FINE-GRAINED VISUAL REASONING VIA MULTI-STAGE REINFORCEMENT LEARNING
代码:暂无
单位:西湖大学、同济大学、浙江大学、新加坡国立大学
一、问题背景
多模态大语言模型(MLLMs)在处理精细视觉推理任务时仍面临核心挑战——比如面对地铁线路图这类结构化视觉输入,要完成路线规划、站点关系判断等任务,模型往往表现不佳。
关键问题在于两方面:一是任务本身需要融合精准视觉理解(识别站点、线路)和空间推理(规划路径、判断方位),对模型细节捕捉能力要求极高;二是传统强化学习(RL)训练中存在“奖励稀疏”问题——只有最终答对才给奖励,中间推理步骤的对错没有反馈,导致模型训练不稳定、收敛慢。而传统的监督微调(SFT)虽能提供密集反馈,却难以让模型掌握复杂的长链推理逻辑,无法满足精细视觉推理的需求。
二、方法创新
为解决上述问题,研究团队提出了“数据集+框架”的双重创新方案:
1. 构建REASONMAP-PLUS扩展数据集
在原有REASONMAP基准数据集基础上,扩展出包含4018道题的新数据集,覆盖13个国家30个城市的地铁图。题目分为5类(全局计数、局部计数、两类判断题+原有的路线规划题),难度从易到难梯度分布——简单题侧重基础视觉感知(如“数两条线之间的中间站数量”),难题聚焦复杂推理(如多换乘路线规划),为模型提供密集的训练反馈信号,助力“冷启动”训练。
2. 设计REWARDMAP多阶段强化学习框架
核心包含两大关键设计:
难度感知的奖励机制:除了基础的格式奖励(答案符合规范)和正确性奖励(最终答案对错),新增“细节奖励”——比如路线规划题中,起点站、路线名称、换乘站等每个正确环节都能获得部分奖励,避免“全对才给分”的稀疏问题;同时根据地图难度和题目换乘次数调整奖励权重,难题答对得更多分,激励模型攻克复杂任务。
多阶段训练策略:训练按“简单感知→复杂推理”的顺序推进,先让模型学好计数、判断题等基础任务,再过渡到路线规划等推理任务;每个阶段内部随机打乱题目,避免模型死记硬背,提升泛化能力。
三、实验结果
研究团队在多个数据集上开展了全面实验,结果显著:
1. 核心任务性能领先
在REASONMAP(路线规划为主)和REASONMAP-PLUS(多题型)数据集上,REWARDMAP训练的模型表现远超各类基线模型——不仅超过Qwen2.5-VL-72B等顶级开源模型,还在REASONMAP-PLUS上超越了闭源模型Seed1.5-VL,短题和长题的加权准确率均达到最优。
2. 泛化能力大幅提升
在空间推理、精细视觉推理、通用任务等6个跨领域基准测试中,模型平均准确率提升3.47%,其中在SpatialEval空间推理数据集上的提升高达13.51%,证明该方法培养的能力可迁移到地铁图之外的更多场景。
3. 减少低级错误
定性实验显示,传统模型常出现“认错路线”“重复规划”“编造站点”等问题,而REWARDMAP训练的模型能稳定输出正确路线,视觉混淆和幻觉现象显著减少。
四、优势与局限
优势
针对性解决奖励稀疏痛点:细节奖励+难度加权的设计,让模型在训练中获得持续反馈,收敛更稳定;
训练逻辑贴合学习规律:从易到难的多阶段策略,帮助模型循序渐进掌握“感知→推理”能力,基础更扎实;
泛化能力强:不仅优化了地铁图相关任务,还提升了模型在各类视觉推理场景的通用性能;
数据集实用性高:REASONMAP-PLUS覆盖多城市、多题型,为精细视觉推理研究提供了优质数据支撑。
局限
训练成本较高:多阶段强化学习需基于大量数据逐步推进,且实验依赖8块NVIDIA H800 GPU,普通研究环境难以复现;
场景聚焦性强:核心实验基于地铁图任务,虽已验证泛化能力,但在更复杂的非结构化视觉场景(如医疗影像、工业检测)中的表现仍需进一步验证;
奖励机制可优化:细节奖励的权重(如α=0.5)是固定设置,未针对不同任务类型动态调整,可能影响部分场景的训练效果。
五、一句话总结
该研究通过“梯度化数据集+多阶段强化学习框架”,有效解决了精细视觉推理中的奖励稀疏问题,让多模态大语言模型在地铁图推理等任务中实现性能突破,同时提升了通用视觉理解与推理能力,为结构化视觉任务的模型优化提供了新范式。