news 2026/4/23 6:12:48

【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

文章:SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS

代码:https://github.com/Ruiyang-061X/SketchThinker-R1

单位:澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室


一、问题背景

当前大型多模态模型(LMMs)在视觉识别、逻辑推理等任务中,通过冗长的逐步推理(如链思推理CoT)实现了性能提升,但随之而来的是两大核心痛点:一是推理效率低下,冗长的推理过程导致token消耗剧增、响应时间延长,难以适配实时交互场景;二是推理有效性受损,过度思考可能引入冗余信息或累积微小错误,最终影响答案准确性,同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式,往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤,在保证正确性的前提下实现高效决策。受此启发,如何让多模态模型具备类似的简洁推理能力,在不牺牲答案准确性的前提下降低推理成本,成为当前领域亟待解决的问题。

二、方法创新

SketchThinker-R1提出了一套三阶段强化学习框架,核心是为模型注入“草图式推理”能力,让推理过程既精简又精准:

1. 草图模式冷启动(Sketch-Mode Cold Start)

基于现有多模态推理数据集(如LLaVA-CoT-100K、Vision-R1-cold),利用强大的LLM(如GPT-5)将冗长的推理过程(T_Long)转化为草图式推理(T_Sketch)。转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则,最终构建含20K样本的SketchColdStart-20K数据集。通过在该数据集上微调基础多模态模型,为后续强化学习奠定初始的草图推理能力。

2. 草图评估奖励模型(SketchJudge Reward Model)

为了精准引导模型的推理风格,专门训练了一个奖励模型:利用冷启动阶段的“长推理”和“草图推理”双模式数据,将长推理标注为0分、草图推理标注为1分,微调开源LLM使其具备区分推理风格的能力。该模型能为推理过程打分,对简洁聚焦的草图式推理给予高奖励,对冗长冗余的推理予以惩罚,为后续强化学习提供可靠的监督信号。

3. 草图推理强化学习(Sketch-Thinking Reinforcement Learning)

基于冷启动后的模型,采用GRPO(Group Reward Proximal Optimization)算法进行强化学习。奖励设计融合了三部分:答案准确性(权重0.5)、响应格式规范性(权重0.4)、草图推理风格得分(权重0.1),通过多领域数据集(MMStar、MathVista等)训练,让模型在保持准确性的同时,进一步泛化草图式推理能力。

三、实验结果

研究团队在4个跨领域基准数据集(MMMU、MathVision、VisuLogic、PhyX)上进行了全面评估,结果表现亮眼:

1. 核心性能指标

  • 推理成本大幅降低:相比传统R1风格训练的Vanilla-R1模型,SketchThinker-R1的推理token消耗减少超过64%,部分场景(如VisuLogic)甚至减少76.5%;

  • 准确性保持或提升:在所有基准测试中,SketchThinker-R1的答案准确率均不低于基线模型,部分数据集(如MMMU)准确率提升1.8-2.8个百分点;

  • 推理效率碾压基线:提出的“思维效率(EoT)”指标(准确率/推理token数)显示,SketchThinker-R1的EoT值是Vanilla-R1的2-3倍,远超Prompt-based、SFT-based等其他高效推理方法。

2. 模型泛化性验证

  • 无论是7B还是3B规模的模型,SketchThinker-R1均能稳定实现“降本增效”,3B模型的推理token消耗减少超50%,验证了框架在不同模型尺度下的鲁棒性;

  • 消融实验表明:冷启动阶段与强化学习的结合是关键,仅靠冷启动泛化能力有限,仅靠强化学习则探索效率低下;而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。

四、优势与局限

优势

  1. 效率与准确性兼得:突破“长推理=高性能”的固有认知,通过草图式推理实现“少token+高准确率”,响应时间缩短约20%,训练成本降低19%;

  2. 可解释性更强:草图式推理聚焦关键逻辑步骤,以结构化列表呈现,无论是人类评估还是LVLM自动评估,其推理轨迹的可解释性均优于传统冗长推理;

  3. 通用性广:适用于数学计算、物理推理、视觉逻辑等多个领域,且能适配不同规模的多模态模型,落地场景灵活。

局限

  1. 草图式推理的质量高度依赖初始转化工具(如GPT-5)的能力,开源LLM生成的转化数据可能导致准确性损失;

  2. 对于极复杂的推理任务,模型仍可能需要一定长度的推理链,过度追求简洁可能影响复杂场景的性能;

  3. 目前的奖励机制中,准确性与草图风格的权重平衡依赖人工调参,尚未实现动态自适应调整。

五、一句话总结

SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架,让大型多模态模型具备人类式的草图推理能力,在降低64%以上推理成本的同时保持甚至提升答案准确性,为高效多模态推理提供了全新解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 14:34:44

先正达集团在中国加速布局全球级研发中心和制造工厂 | 美通社头条

、美通社消息:全球领先的农业科技企业先正达集团将全球领先的植保研发中心落地上海,并在江苏南通同步建设高标准制剂与工程化平台。一个旨在贯通研发到应用的植保领域"中国地标"正日益清晰。今年1月,先正达集团全球植保中国创新中心…

作者头像 李华
网站建设 2026/4/21 21:14:48

新手做自媒体,如何在30天内建立正反馈避免放弃

当你第一次踏入自媒体的世界,满心憧憬地按下“发布”按钮,却只等来寥寥几个阅读量时,那种失落感足以浇灭大部分人的热情。这几乎是每位新手创作者的必经之路——在最初的30天黄金期内,如何建立起持续的正反馈循环,避免…

作者头像 李华
网站建设 2026/4/19 19:22:54

开源的自动驾驶框架

目前主流的开源自动驾驶框架,这类框架覆盖了从入门学习、算法研发到工程落地、实车部署的全场景,核心分为全栈式框架(覆盖感知/预测/决策/规划/控制全流程,可直接对接实车)和模块化框架(聚焦单一环节&#…

作者头像 李华
网站建设 2026/4/22 20:52:14

STM32F407通过UART读取JY-901加速度数据方案

一、硬件连接与配置 1. 引脚连接 JY-901与STM32F407的UART接口连接如下(以USART2为例):JY-901引脚STM32引脚功能TXPA3JY-901发送端RXPA2JY-901接收端VCC3.3V电源供电GNDGND共地2. 波特率设置 JY-901默认波特率为9600bps,需在STM32…

作者头像 李华
网站建设 2026/4/19 23:24:34

转行网络安全,学历到底重不重要?

转行网络安全,学历到底重不重要? 之前在网上看到一个话题,说的是网络安全从业者里有多少是“科班出生”的话题评论区那叫一个壮观,全是吐槽。 有兄弟说:“技术牛逼的大佬,很多都是高中毕业的。” 也有兄弟…

作者头像 李华
网站建设 2026/4/21 9:14:03

再也不用手动配环境了,这个镜像全包了

再也不用手动配环境了,这个镜像全包了 你有没有经历过这样的深夜: 装CUDA版本不对,报错; pip install ms-swift卡在编译,等了40分钟没反应; 下载Qwen2.5-7B模型时断线重连三次,最后发现磁盘空间…

作者头像 李华