news 2026/5/15 5:48:30

【ICLR26-王欢-西湖大学】RewardMap:通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-王欢-西湖大学】RewardMap:通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题

文章:REWARDMAP: TACKLING SPARSE REWARDS IN FINE-GRAINED VISUAL REASONING VIA MULTI-STAGE REINFORCEMENT LEARNING

代码:暂无

单位:西湖大学、同济大学、浙江大学、新加坡国立大学


一、问题背景

多模态大语言模型(MLLMs)在处理精细视觉推理任务时仍面临核心挑战——比如面对地铁线路图这类结构化视觉输入,要完成路线规划、站点关系判断等任务,模型往往表现不佳。

关键问题在于两方面:一是任务本身需要融合精准视觉理解(识别站点、线路)和空间推理(规划路径、判断方位),对模型细节捕捉能力要求极高;二是传统强化学习(RL)训练中存在“奖励稀疏”问题——只有最终答对才给奖励,中间推理步骤的对错没有反馈,导致模型训练不稳定、收敛慢。而传统的监督微调(SFT)虽能提供密集反馈,却难以让模型掌握复杂的长链推理逻辑,无法满足精细视觉推理的需求。

二、方法创新

为解决上述问题,研究团队提出了“数据集+框架”的双重创新方案:

1. 构建REASONMAP-PLUS扩展数据集

在原有REASONMAP基准数据集基础上,扩展出包含4018道题的新数据集,覆盖13个国家30个城市的地铁图。题目分为5类(全局计数、局部计数、两类判断题+原有的路线规划题),难度从易到难梯度分布——简单题侧重基础视觉感知(如“数两条线之间的中间站数量”),难题聚焦复杂推理(如多换乘路线规划),为模型提供密集的训练反馈信号,助力“冷启动”训练。

2. 设计REWARDMAP多阶段强化学习框架

核心包含两大关键设计:

  • 难度感知的奖励机制:除了基础的格式奖励(答案符合规范)和正确性奖励(最终答案对错),新增“细节奖励”——比如路线规划题中,起点站、路线名称、换乘站等每个正确环节都能获得部分奖励,避免“全对才给分”的稀疏问题;同时根据地图难度和题目换乘次数调整奖励权重,难题答对得更多分,激励模型攻克复杂任务。

  • 多阶段训练策略:训练按“简单感知→复杂推理”的顺序推进,先让模型学好计数、判断题等基础任务,再过渡到路线规划等推理任务;每个阶段内部随机打乱题目,避免模型死记硬背,提升泛化能力。

三、实验结果

研究团队在多个数据集上开展了全面实验,结果显著:

1. 核心任务性能领先

在REASONMAP(路线规划为主)和REASONMAP-PLUS(多题型)数据集上,REWARDMAP训练的模型表现远超各类基线模型——不仅超过Qwen2.5-VL-72B等顶级开源模型,还在REASONMAP-PLUS上超越了闭源模型Seed1.5-VL,短题和长题的加权准确率均达到最优。

2. 泛化能力大幅提升

在空间推理、精细视觉推理、通用任务等6个跨领域基准测试中,模型平均准确率提升3.47%,其中在SpatialEval空间推理数据集上的提升高达13.51%,证明该方法培养的能力可迁移到地铁图之外的更多场景。

3. 减少低级错误

定性实验显示,传统模型常出现“认错路线”“重复规划”“编造站点”等问题,而REWARDMAP训练的模型能稳定输出正确路线,视觉混淆和幻觉现象显著减少。

四、优势与局限

优势
  1. 针对性解决奖励稀疏痛点:细节奖励+难度加权的设计,让模型在训练中获得持续反馈,收敛更稳定;

  2. 训练逻辑贴合学习规律:从易到难的多阶段策略,帮助模型循序渐进掌握“感知→推理”能力,基础更扎实;

  3. 泛化能力强:不仅优化了地铁图相关任务,还提升了模型在各类视觉推理场景的通用性能;

  4. 数据集实用性高:REASONMAP-PLUS覆盖多城市、多题型,为精细视觉推理研究提供了优质数据支撑。

局限
  1. 训练成本较高:多阶段强化学习需基于大量数据逐步推进,且实验依赖8块NVIDIA H800 GPU,普通研究环境难以复现;

  2. 场景聚焦性强:核心实验基于地铁图任务,虽已验证泛化能力,但在更复杂的非结构化视觉场景(如医疗影像、工业检测)中的表现仍需进一步验证;

  3. 奖励机制可优化:细节奖励的权重(如α=0.5)是固定设置,未针对不同任务类型动态调整,可能影响部分场景的训练效果。

五、一句话总结

该研究通过“梯度化数据集+多阶段强化学习框架”,有效解决了精细视觉推理中的奖励稀疏问题,让多模态大语言模型在地铁图推理等任务中实现性能突破,同时提升了通用视觉理解与推理能力,为结构化视觉任务的模型优化提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 1:18:02

OpenGL 2.0环境搭建教程,配置开发库与显卡驱动

OpenGL 2.0是一套跨平台的图形应用程序接口,它允许开发者直接调用硬件加速的3D渲染功能。安装它通常不是指单独安装一个软件,而是确保你的开发环境和显卡驱动程序支持这个标准。对于开发者来说,核心工作是在你的编程项目中正确配置开发库和链…

作者头像 李华
网站建设 2026/5/10 0:35:01

制药企业AI快速落地的关键策略

明确业务场景与需求聚焦制药CDMO企业的核心痛点(如工艺优化、质量控制、供应链管理),优先选择高价值、可量化的场景。例如,利用AI加速药物制剂配方设计,或通过预测性维护减少生产设备停机时间。构建数据基础整合生产过…

作者头像 李华
网站建设 2026/5/15 3:06:35

《你真的了解C++吗》No.033:SFINAE原则——替换失败不是错误

《你真的了解C吗》No.033:SFINAE原则——替换失败不是错误 导言:编译器的“温柔” 在正常的 C 逻辑中,如果编译器尝试编译一段错误的代码,它会立即报错并罢工。但在模板参数推导的过程中,为了找到最合适的匹配&#xf…

作者头像 李华
网站建设 2026/5/14 19:18:57

LangGraph 实战:用 Python 打造有状态智能体

LangGraph 实战:用 Python 打造有状态智能体 LangGraph 是一个专为构建有状态、多节点执行流程的 AI 智能体系统设计的 Python 框架,它将状态机(State Machine)与图结构(Graph)相结合,使得开发…

作者头像 李华
网站建设 2026/5/13 23:05:31

学长亲荐8个降AI率平台,千笔AI帮你彻底解决降AIGC难题

AI降重工具:让论文更自然,更安全 在当前学术写作中,AI生成内容(AIGC)的广泛应用带来了新的挑战。许多学生在使用AI辅助写作时,往往忽视了AI痕迹的残留问题,导致论文被检测出高AIGC率&#xff0…

作者头像 李华