news 2026/5/15 5:48:30

【ICLR26-王欢-西湖大学】RewardMap：通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题

张小明

前端开发工程师

1.2k 24

文章封面图 — 【ICLR26-王欢-西湖大学】RewardMap：通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题

文章：REWARDMAP: TACKLING SPARSE REWARDS IN FINE-GRAINED VISUAL REASONING VIA MULTI-STAGE REINFORCEMENT LEARNING

代码：暂无

单位：西湖大学、同济大学、浙江大学、新加坡国立大学

一、问题背景

多模态大语言模型（MLLMs）在处理精细视觉推理任务时仍面临核心挑战——比如面对地铁线路图这类结构化视觉输入，要完成路线规划、站点关系判断等任务，模型往往表现不佳。

关键问题在于两方面：一是任务本身需要融合精准视觉理解（识别站点、线路）和空间推理（规划路径、判断方位），对模型细节捕捉能力要求极高；二是传统强化学习（RL）训练中存在“奖励稀疏”问题——只有最终答对才给奖励，中间推理步骤的对错没有反馈，导致模型训练不稳定、收敛慢。而传统的监督微调（SFT）虽能提供密集反馈，却难以让模型掌握复杂的长链推理逻辑，无法满足精细视觉推理的需求。

二、方法创新

为解决上述问题，研究团队提出了“数据集+框架”的双重创新方案：

1. 构建REASONMAP-PLUS扩展数据集

在原有REASONMAP基准数据集基础上，扩展出包含4018道题的新数据集，覆盖13个国家30个城市的地铁图。题目分为5类（全局计数、局部计数、两类判断题+原有的路线规划题），难度从易到难梯度分布——简单题侧重基础视觉感知（如“数两条线之间的中间站数量”），难题聚焦复杂推理（如多换乘路线规划），为模型提供密集的训练反馈信号，助力“冷启动”训练。

2. 设计REWARDMAP多阶段强化学习框架

核心包含两大关键设计：

难度感知的奖励机制：除了基础的格式奖励（答案符合规范）和正确性奖励（最终答案对错），新增“细节奖励”——比如路线规划题中，起点站、路线名称、换乘站等每个正确环节都能获得部分奖励，避免“全对才给分”的稀疏问题；同时根据地图难度和题目换乘次数调整奖励权重，难题答对得更多分，激励模型攻克复杂任务。
多阶段训练策略：训练按“简单感知→复杂推理”的顺序推进，先让模型学好计数、判断题等基础任务，再过渡到路线规划等推理任务；每个阶段内部随机打乱题目，避免模型死记硬背，提升泛化能力。

三、实验结果

研究团队在多个数据集上开展了全面实验，结果显著：

1. 核心任务性能领先

在REASONMAP（路线规划为主）和REASONMAP-PLUS（多题型）数据集上，REWARDMAP训练的模型表现远超各类基线模型——不仅超过Qwen2.5-VL-72B等顶级开源模型，还在REASONMAP-PLUS上超越了闭源模型Seed1.5-VL，短题和长题的加权准确率均达到最优。

2. 泛化能力大幅提升

在空间推理、精细视觉推理、通用任务等6个跨领域基准测试中，模型平均准确率提升3.47%，其中在SpatialEval空间推理数据集上的提升高达13.51%，证明该方法培养的能力可迁移到地铁图之外的更多场景。

3. 减少低级错误

定性实验显示，传统模型常出现“认错路线”“重复规划”“编造站点”等问题，而REWARDMAP训练的模型能稳定输出正确路线，视觉混淆和幻觉现象显著减少。

四、优势与局限

优势

针对性解决奖励稀疏痛点：细节奖励+难度加权的设计，让模型在训练中获得持续反馈，收敛更稳定；
训练逻辑贴合学习规律：从易到难的多阶段策略，帮助模型循序渐进掌握“感知→推理”能力，基础更扎实；
泛化能力强：不仅优化了地铁图相关任务，还提升了模型在各类视觉推理场景的通用性能；
数据集实用性高：REASONMAP-PLUS覆盖多城市、多题型，为精细视觉推理研究提供了优质数据支撑。

局限

训练成本较高：多阶段强化学习需基于大量数据逐步推进，且实验依赖8块NVIDIA H800 GPU，普通研究环境难以复现；
场景聚焦性强：核心实验基于地铁图任务，虽已验证泛化能力，但在更复杂的非结构化视觉场景（如医疗影像、工业检测）中的表现仍需进一步验证；
奖励机制可优化：细节奖励的权重（如α=0.5）是固定设置，未针对不同任务类型动态调整，可能影响部分场景的训练效果。

五、一句话总结

该研究通过“梯度化数据集+多阶段强化学习框架”，有效解决了精细视觉推理中的奖励稀疏问题，让多模态大语言模型在地铁图推理等任务中实现性能突破，同时提升了通用视觉理解与推理能力，为结构化视觉任务的模型优化提供了新范式。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/5/15 1:18:02

OpenGL 2.0环境搭建教程，配置开发库与显卡驱动

OpenGL 2.0是一套跨平台的图形应用程序接口，它允许开发者直接调用硬件加速的3D渲染功能。安装它通常不是指单独安装一个软件，而是确保你的开发环境和显卡驱动程序支持这个标准。对于开发者来说，核心工作是在你的编程项目中正确配置开发库和链…

作者头像

李华

网站建设 2026/5/14 12:48:56

告别繁琐部署！Docsify 让技术文档秒变可访问网站，使用cpolar内网穿透更省心

Docsify 作为一款轻量级的文档网站生成工具，核心功能是直接将 Markdown 文件渲染成带目录、搜索、代码高亮的网页，无需安装复杂环境、无需构建静态文件，修改内容保存后页面实时刷新，适配 Windows、macOS、Linux 全平台&#xff0c…

作者头像

李华

网站建设 2026/5/10 0:35:01

制药企业AI快速落地的关键策略

明确业务场景与需求聚焦制药CDMO企业的核心痛点（如工艺优化、质量控制、供应链管理），优先选择高价值、可量化的场景。例如，利用AI加速药物制剂配方设计，或通过预测性维护减少生产设备停机时间。构建数据基础整合生产过…

作者头像

李华

网站建设 2026/5/15 3:06:35

《你真的了解C++吗》No.033：SFINAE原则——替换失败不是错误

《你真的了解C吗》No.033：SFINAE原则——替换失败不是错误导言：编译器的“温柔” 在正常的 C 逻辑中，如果编译器尝试编译一段错误的代码，它会立即报错并罢工。但在模板参数推导的过程中，为了找到最合适的匹配&#xf…

作者头像

李华

网站建设 2026/5/14 19:18:57

LangGraph 实战：用 Python 打造有状态智能体

LangGraph 实战：用 Python 打造有状态智能体 LangGraph 是一个专为构建有状态、多节点执行流程的 AI 智能体系统设计的 Python 框架，它将状态机（State Machine）与图结构（Graph）相结合，使得开发…

作者头像

李华

网站建设 2026/5/13 23:05:31

学长亲荐8个降AI率平台，千笔AI帮你彻底解决降AIGC难题

AI降重工具：让论文更自然，更安全在当前学术写作中，AI生成内容（AIGC）的广泛应用带来了新的挑战。许多学生在使用AI辅助写作时，往往忽视了AI痕迹的残留问题，导致论文被检测出高AIGC率&#xff0…

作者头像

李华