news 2026/3/14 2:17:30

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型 DiffThinker。

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

尽管近期的「Thinking with Image」范式可以通过工具等对图像进行操作,但它们难以扩展到更复杂的长程任务,且在多轮交互中本身开销巨大。

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型DiffThinker

DiffThinker 彻底打破了「多模态输入 -> 文本输出」的传统定式,将推理过程重构为图像到图像(Image-to-Image)的生成任务。通过扩散模型(Diffusion Models),DiffThinker 能够在视觉空间中直接生成推理路径。

实验结果令人惊讶:在包含长程规划、组合优化、约束满足、空间推理等 7 项视觉中心的复杂任务中,DiffThinker 的表现显著优于包括 GPT-5 (+314.2%) 和 Gemini-3-Flash (+111.6%) 在内的顶尖闭源模型,以及经过相同数据微调的 Qwen3-VL-32B 基线 (+39.0%)。

  • 论文标题:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
  • 论文地址:https://arxiv.org/abs/2512.24165
  • 项目主页:https://diffthinker-project.github.io
  • 代码仓库:https://github.com/lcqysl/DiffThinker

1. 从「以文思考」到「以图思考」

现有的多模态大模型在处理视觉推理任务时,难以追踪视觉信息的变化。比如在空间导航任务(VSP、Maze 等)中,模型仅靠语言分析路径,但输入图像不变,路径一长就很容易「看走眼」,不知道自己已经走到了哪。又比如拼图任务,模型如果不能直接对拼图操作,很难凭空想象出答案。即便是最新的「Thinking with Image」范式,也往往依赖于多轮对话和工具调用,导致推理链路极长,难以扩展到复杂场景。

研究团队还在项目主页提供了几个小游戏,以直观理解人与 MLLM 的思维范式差异。

那么,为什么不能让模型直接「看」着问题,把答案「画」出来?

DiffThinker 提出的核心理念正是如此。研究团队认为,多模态推理不应局限于符号空间,而应回归视觉空间,利用扩散模型直接生成答案。具体来说,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 训练直接用图像生产答案。

2.DiffThinker 的四大核心特性

作为全新的生成式推理范式,DiffThinker 展现出了传统 MLLM 难以企及的四大特性:

  • 高效推理(Efficient Reasoning)相比于 MLLM 动辄生成数千个 Token 的长思维链,DiffThinker 在训练和推理效率上均表现出色,且准确率更高。

  • 可控推理(Controllable Reasoning)MLLM 的输出长度不可预测,常出现过长思维链甚至输出崩溃导致死循环。而 DiffThinker 通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,不受任务逻辑复杂度的干扰。
  • 原生并行推理(Native Parallel Reasoning)这是扩散模型独有的优势。在推理时,DiffThinker 能够在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解。这使得模型可以「边画边推理」,更直观。

  • 协同推理(Collaborative Reasoning)DiffThinker 还可以与 MLLM 合作。它生成多个候选视觉解,再由 MLLM 进行逻辑验证。实验显示,这种「DiffThinker 生成 + MLLM 验证」的组合,性能实现「1+1>2」,超越了任何单一模型。

3.实验结果:碾压级的性能

研究团队在四个领域的七大任务上进行了系统评测,包括:

  • 序列规划:VSP,VSP-Super,Maze(迷宫)
  • 组合优化:TSP(旅行商问题)
  • 约束满足:Sudoku(数独)
  • 空间配置:Jigsaw(拼图),VisPuzzle

主要结果如下:

DiffThinker 在所有任务上的平均得分高达 87.4,而 GPT-5 仅为 21.1,Gemini-3-Flash 为 41.3。同数据训练的 Qwen3-VL-32B 也只有 62.9。

4.视频生成 vs 图像生成

既然是视觉推理,用视频模型(Video Generation)会不会更好?

团队基于 Wan2.2-TI2V-5B 开发了 DiffThinker-Video 版本。结果发现,虽然视频能展示动态过程,但在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(1.1s vs 2.0s)。这表明,在当前的算力与模型架构下,「以图思考」仍是比「以视频思考」更高效的路径。

5.结语

DiffThinker 的出现,标志着生成式多模态推理(Generative Multimodal Reasoning)时代的开启。它证明了扩散模型不仅能画画,还能进行严密的逻辑推理。

对于长程、视觉中心的复杂任务,将推理过程从「文本流」转变为「视觉流」,或许正是通往下一代通用人工智能的关键一步。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/14 0:01:47

M2FP在智能交通中的应用:行人检测系统

M2FP在智能交通中的应用:行人检测系统 随着城市化进程的加速,智能交通系统(ITS)对行人行为理解的需求日益增长。传统的行人检测多集中于目标框定位与分类,难以满足精细化场景分析需求,如姿态估计、行为识别…

作者头像 李华
网站建设 2026/3/13 22:53:12

智能摄影辅助:M2FP人像优化技术

智能摄影辅助:M2FP人像优化技术 在数字影像日益普及的今天,人像图像处理已成为智能摄影、虚拟试衣、美颜系统乃至元宇宙内容生成的核心环节。传统的人像分割技术多聚焦于“前景-背景”二值化处理,难以满足精细化编辑需求。而随着深度学习的发…

作者头像 李华
网站建设 2026/3/13 11:59:31

效率坊解析工具对比:M2FP在准确性和速度间取得最佳平衡

效率坊解析工具对比:M2FP在准确性和速度间取得最佳平衡 📊 人体解析技术的现实挑战与选型困境 在智能视觉应用日益普及的今天,多人人体解析(Human Parsing)已成为虚拟试衣、动作分析、人像编辑和安防监控等场景的核心支…

作者头像 李华
网站建设 2026/3/13 2:42:47

从理论到实践:M2FP模型训练与部署全攻略

从理论到实践:M2FP模型训练与部署全攻略 🧩 M2FP 多人人体解析服务简介 在计算机视觉领域,人体解析(Human Parsing) 是一项细粒度的语义分割任务,目标是将人体图像中的每个像素精确分类到预定义的身体部位类…

作者头像 李华
网站建设 2026/3/13 13:31:04

CAP定理在分布式系统中的理论基础与实践应用

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

作者头像 李华
网站建设 2026/3/13 8:42:00

如何避免翻译格式错乱?增强型结果解析器详解

如何避免翻译格式错乱?增强型结果解析器详解 📌 引言:AI 智能中英翻译服务的现实挑战 在跨语言交流日益频繁的今天,高质量的中英智能翻译服务已成为开发者、内容创作者和企业出海团队的核心工具。然而,尽管现代神经网络…

作者头像 李华