news 2026/2/2 11:47:41

不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2

与上一代产品相比,DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠,而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成,核心突破在于引入了DeepEncoder V2,将视觉信息的处理方式从传统的“固定栅格扫描”转变为“基于语义的因果推理”。

以下是对该模型架构、核心机制及评估结果的某些技术层面的解析。

1. 核心架构演进:从固定扫描到因果流

传统的视觉语言模型(VLM)通常采用光栅扫描顺序(raster-scan order),即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版(如多栏文档、报表、公式混排)时,往往难以捕捉内容之间真实的逻辑关系。

DeepSeek-OCR 2 延续了前代的 Encoder-Decoder 整体框架(如图 3 所示),但对 Encoder 进行了关键性的替换。

模型保留了 3B 参数量的 Mixture-of-Experts (MoE) 解码器,但在编码端,DeepEncoder V2 放弃了前代基于 CLIP 的编码器方案,转而采用了一个轻量级的语言模型(Qwen2-500M)作为视觉编码的主干。

这一设计的核心逻辑在于构建一个两级级联的因果推理结构(Two-cascaded 1D causal reasoning structure):

  1. 第一级(Encoder):通过可学习的查询(Query)对视觉 Token 进行语义层面的重排;
  2. 第二级(Decoder):基于重排后的有序序列执行自回归文本生成。

2. DeepEncoder V2 的技术细节

DeepEncoder V2 的设计是为了在视觉编码阶段引入因果推理能力。其工作流包含三个关键组件:

2.1 视觉分词器 (Vision Tokenizer)

继承自 DeepEncoder,该组件由一个 80M 参数的 SAM-base 和两层卷积层组成。它负责将图像离散化,但在 V2 版本中,最终输出维度被调整为 896,以匹配后续架构。

2.2 类 LLM 视觉编码器与双流注意力

这是本次更新的核心。DeepSeek 将原有的 CLIP ViT 替换为 Qwen2-0.5B-base。在这个架构中,视觉 Token 和新增的「因果流查询」(Causal Flow Queries)被拼接处理,并应用了独特的双流注意力机制

为了控制信息流向,DeepSeek 设计了专门的注意力掩码(Attention Mask),如图 5 所示:

该注意力掩码矩阵M MM的数学定义如下(公式 1):

M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}_{m \times m} & \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = mM=[1m×m1n×m0m×nLowerTri(n)],wheren=m

  • 左侧区域 (1 m × m \mathbf{1}_{m \times m}1m×m):原始视觉 Token 采用双向注意力(Bidirectional),保留了类似 ViT 的全局建模能力,确保视觉特征的完整性。
  • 右侧区域 (LowerTri ( n ) \text{LowerTri}(n)LowerTri(n)):因果流查询 Token 采用下三角掩码(Causal/Triangular),即每个 Query 只能关注其之前的 Query 和所有的视觉 Token。

这种设计使得 Encoder 能够根据图像内容的语义逻辑动态地“重排”视觉信息,而非受限于空间位置。最终,只有经过语义重排的因果查询 Token 会被输入到解码器中。

整个模型的前向传播过程可形式化为(公式 2):

O = D ( Π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) O = D \left( \Pi_Q \left( T_L (E(I) \oplus Q_0; M) \right) \right)O=D(ΠQ(TL(E(I)Q0;M)))

其中,E ( I ) E(I)E(I)为视觉分词输出,Q 0 Q_0Q0为可学习查询,T L T_LTL为 Encoder 的 Transformer 层,M MM为上述掩码,Π Q \Pi_QΠQ表示仅提取后n nn个查询 Token,D DD为最终的语言解码器。

3. 数据效率与性能评估

DeepSeek-OCR 2 在保持极高压缩率的同时实现了性能突破。模型仅需256 到 1120 个视觉 Token即可覆盖复杂的文档页面。这一区间下限对应 1024x1024 分辨率的 Global View,上限对应 Gemini-3 Pro 的视觉 Token 预算,极大地降低了下游 LLM 的计算开销。

OmniDocBench v1.5评测中,DeepSeek-OCR 2 表现如下(表 1):

  • 综合得分:达到 91.09%,较基于 CLIP 的前代模型提升了 3.73%。
  • 阅读顺序(R-order):编辑距离(Edit Distance, ED)从 0.085 显著降至 0.057。

R-order 指标的显著优化,直接验证了 DeepEncoder V2 在视觉逻辑重排方面的有效性:模型不再是死板的复印机,而是具备了类似人类阅读的自然扫描逻辑。

4. 生产环境表现与局限

在实际应用场景中(在线 OCR 服务与 PDF 数据清洗),由于缺乏标准答案,团队采用“重复率”(Repetition Rate)作为质量代理指标。数据显示,DeepSeek-OCR 2 将在线用户日志图像的重复率从 6.25% 降低到了 4.17%,证明了其在长文本和复杂版面下的稳定性。

改进空间:
尽管整体性能优异,但在报纸类(Newspaper)文档上,DeepSeek-OCR 2 的文本识别编辑距离仍超过 0.13。团队分析认为,这是由于视觉 Token 上限(1120)对于极高密度的报纸文本仍显不足,且训练数据中报纸类样本相对匮乏(仅约 25万条)所致。

5. 总结

DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制,DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务,也为未来构建处理音频、视频等全模态(Omni-modal)数据的统一编码器提供了验证。

  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 论文全文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/1 20:53:29

跨域问题解决方案:Proxy配置与CORS详解

跨域问题解决方案:Proxy配置与CORS详解 一、跨域问题本质与常见场景 跨域问题源于浏览器的同源策略(Same-Origin Policy),该策略要求协议、域名、端口三者完全一致才能进行资源交互。例如: 前端运行在 http://local…

作者头像 李华
网站建设 2026/1/31 21:23:10

同城创业新赛道!Uni+TP6 圈子源码,轻松搭建本地社交平台

一、UniTP6 黄金技术栈,技术兜底,搭建运营零门槛 作为同城创业的核心技术支撑,UniTP6 组合兼顾「开发效率、运行稳定、拓展灵活」三大核心需求,为创业者省去高额技术开发成本,实现平台快速上线、轻松运营!…

作者头像 李华
网站建设 2026/1/30 7:17:16

网安毕设2026开题集合

0 选题推荐 - 人工智能篇 毕业设计是大家学习生涯的最重要的里程碑,它不仅是对四年所学知识的综合运用,更是展示个人技术能力和创新思维的重要过程。选择一个合适的毕业设计题目至关重要,它应该既能体现你的专业能力,又能满足实际…

作者头像 李华
网站建设 2026/2/2 9:09:10

什么是SLA、DLP和LCD?一文读懂光固化3D打印三大技术

光固化3D打印技术凭借其在精度与表面质量上的优势,已成为模型制作、齿科、珠宝等领域的重要工艺。目前主流技术包括立体光刻(SLA)、数字光处理(DLP) 与液晶显示掩模(LCD) 三种,它们在…

作者头像 李华
网站建设 2026/2/1 3:03:40

告别“救火队”,迈向高效终端管理:现代与传统模式的差异思考

你是否经历过这样的工作场景?每当软件需要更新时,IT人员带着U盘在办公室间穿梭;安全漏洞出现后,不得不逐台手动打补丁;资产盘点时依赖手工表格和记忆;员工遇到电脑问题,远程协助却卡顿不堪……如…

作者头像 李华
网站建设 2026/2/1 16:42:15

Instagram漏洞曝光:未授权访问私密帖文风险解析

网络安全研究员 Jatin Banga 本周披露,Instagram 基础设施存在一个严重的服务器端漏洞,攻击者无需登录或关注关系即可访问私密照片和文字说明。Meta 公司已于 2025 年 10 月静默修复该漏洞,其利用方式涉及通过特定 HTTP 标头配置绕过移动网页…

作者头像 李华