news 2026/6/16 20:59:10

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

来源:新智元

编辑:定慧 好困

【导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

DeepSeek又双叒叕更新了!

这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。

还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。

这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。

当然,按照DeepSeek的惯例,Paper、Code、Model全开源!

项目地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2

模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。

这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。

DeepSeek-OCR2

视觉因果流

DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。

这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。

这显然与人类的视觉习惯背道而驰。

人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。

为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。

它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。

DeepEncoder V2架构详解

DeepEncoder V2主要由两部分组成:

1. 视觉分词器(Vision Tokenizer)

沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。

2. 作为视觉编码器的LLM

这里DeepSeek使用了一个Qwen2-0.5B模型。

它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。

关键的创新点在于注意力掩码(Attention Mask)的设计:

视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。

而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。

通过这种设计,DeepEncoder V2实现了两级级联的因果推理:

编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。

这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。

Token更少,精度更高

实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。

在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。

特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。

这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。

在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。

在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。

不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。

DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。

这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。

迈向真正的多模态统一

DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。

这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。

未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。

DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。

DeepSeek将继续探索,向着更通用的多模态智能进发。

参考资料:

https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 17:58:27

小白也能玩转AI聊天:Qwen3-VL-8B一键部署教程

小白也能玩转AI聊天:Qwen3-VL-8B一键部署教程 你是不是也试过—— 在浏览器里打开一个AI聊天页面,输入“帮我写一封辞职信”,等了三秒,页面卡住,控制台报错404? 或者好不容易跑通模型,结果发现…

作者头像 李华
网站建设 2026/6/13 19:27:06

掌握AI图像控制:从入门到精通的精准生成策略

掌握AI图像控制:从入门到精通的精准生成策略 【免费下载链接】comfyui_controlnet_aux 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 在AI图像生成领域,创作者常面临创意与结果脱节的困境——明明描述了具体场景&#x…

作者头像 李华
网站建设 2026/6/13 18:33:32

QwQ-32B推理能力实测:ollama环境下解决LeetCode Hard题案例

QwQ-32B推理能力实测:ollama环境下解决LeetCode Hard题案例 1. 为什么是QwQ-32B?它真能解Hard题吗? 很多人看到“32B”参数量,第一反应是:这不就是个大点的聊天模型?但QwQ-32B不是普通的大语言模型——它…

作者头像 李华
网站建设 2026/6/14 0:24:23

实测智谱Glyph模型,视觉压缩长文本真实体验分享

实测智谱Glyph模型,视觉压缩长文本真实体验分享 1. 为什么需要“把文字变成图”来读? 你有没有遇到过这样的场景:一份50页的PDF技术文档,里面密密麻麻全是代码注释、接口说明和参数表格;或者一段长达8000字的产品需求…

作者头像 李华
网站建设 2026/6/13 6:27:45

黑科技效率工具:3分钟解锁抖音无水印下载的秘密武器

黑科技效率工具:3分钟解锁抖音无水印下载的秘密武器 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 你是否曾刷到精彩视频想保存却找不到下载按钮?是否因直播回放过期而遗憾错过&…

作者头像 李华
网站建设 2026/6/12 22:10:35

医疗从业者必备:WeKnora医学知识库快速搭建

医疗从业者必备:WeKnora医学知识库快速搭建 在临床一线,你是否经历过这些时刻: 查房前临时翻找最新版《中国2型糖尿病防治指南》却找不到关键页; 患者拿着外院影像报告提问时,手边没有对应解读规范; 参加学…

作者头像 李华