DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2。
与上一代产品相比,DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠,而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成,核心突破在于引入了DeepEncoder V2,将视觉信息的处理方式从传统的“固定栅格扫描”转变为“基于语义的因果推理”。
以下是对该模型架构、核心机制及评估结果的某些技术层面的解析。
1. 核心架构演进:从固定扫描到因果流
传统的视觉语言模型(VLM)通常采用光栅扫描顺序(raster-scan order),即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版(如多栏文档、报表、公式混排)时,往往难以捕捉内容之间真实的逻辑关系。
DeepSeek-OCR 2 延续了前代的 Encoder-Decoder 整体框架(如图 3 所示),但对 Encoder 进行了关键性的替换。
模型保留了 3B 参数量的 Mixture-of-Experts (MoE) 解码器,但在编码端,DeepEncoder V2 放弃了前代基于 CLIP 的编码器方案,转而采用了一个轻量级的语言模型(Qwen2-500M)作为视觉编码的主干。
这一设计的核心逻辑在于构建一个两级级联的因果推理结构(Two-cascaded 1D causal reasoning structure):
- 第一级(Encoder):通过可学习的查询(Query)对视觉 Token 进行语义层面的重排;
- 第二级(Decoder):基于重排后的有序序列执行自回归文本生成。
2. DeepEncoder V2 的技术细节
DeepEncoder V2 的设计是为了在视觉编码阶段引入因果推理能力。其工作流包含三个关键组件:
2.1 视觉分词器 (Vision Tokenizer)
继承自 DeepEncoder,该组件由一个 80M 参数的 SAM-base 和两层卷积层组成。它负责将图像离散化,但在 V2 版本中,最终输出维度被调整为 896,以匹配后续架构。
2.2 类 LLM 视觉编码器与双流注意力
这是本次更新的核心。DeepSeek 将原有的 CLIP ViT 替换为 Qwen2-0.5B-base。在这个架构中,视觉 Token 和新增的「因果流查询」(Causal Flow Queries)被拼接处理,并应用了独特的双流注意力机制。
为了控制信息流向,DeepSeek 设计了专门的注意力掩码(Attention Mask),如图 5 所示:
该注意力掩码矩阵M MM的数学定义如下(公式 1):
M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}_{m \times m} & \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = mM=[1m×m1n×m0m×nLowerTri(n)],wheren=m
- 左侧区域 (1 m × m \mathbf{1}_{m \times m}1m×m):原始视觉 Token 采用双向注意力(Bidirectional),保留了类似 ViT 的全局建模能力,确保视觉特征的完整性。
- 右侧区域 (LowerTri ( n ) \text{LowerTri}(n)LowerTri(n)):因果流查询 Token 采用下三角掩码(Causal/Triangular),即每个 Query 只能关注其之前的 Query 和所有的视觉 Token。
这种设计使得 Encoder 能够根据图像内容的语义逻辑动态地“重排”视觉信息,而非受限于空间位置。最终,只有经过语义重排的因果查询 Token 会被输入到解码器中。
整个模型的前向传播过程可形式化为(公式 2):
O = D ( Π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) O = D \left( \Pi_Q \left( T_L (E(I) \oplus Q_0; M) \right) \right)O=D(ΠQ(TL(E(I)⊕Q0;M)))
其中,E ( I ) E(I)E(I)为视觉分词输出,Q 0 Q_0Q0为可学习查询,T L T_LTL为 Encoder 的 Transformer 层,M MM为上述掩码,Π Q \Pi_QΠQ表示仅提取后n nn个查询 Token,D DD为最终的语言解码器。
3. 数据效率与性能评估
DeepSeek-OCR 2 在保持极高压缩率的同时实现了性能突破。模型仅需256 到 1120 个视觉 Token即可覆盖复杂的文档页面。这一区间下限对应 1024x1024 分辨率的 Global View,上限对应 Gemini-3 Pro 的视觉 Token 预算,极大地降低了下游 LLM 的计算开销。
在OmniDocBench v1.5评测中,DeepSeek-OCR 2 表现如下(表 1):
- 综合得分:达到 91.09%,较基于 CLIP 的前代模型提升了 3.73%。
- 阅读顺序(R-order):编辑距离(Edit Distance, ED)从 0.085 显著降至 0.057。
R-order 指标的显著优化,直接验证了 DeepEncoder V2 在视觉逻辑重排方面的有效性:模型不再是死板的复印机,而是具备了类似人类阅读的自然扫描逻辑。
4. 生产环境表现与局限
在实际应用场景中(在线 OCR 服务与 PDF 数据清洗),由于缺乏标准答案,团队采用“重复率”(Repetition Rate)作为质量代理指标。数据显示,DeepSeek-OCR 2 将在线用户日志图像的重复率从 6.25% 降低到了 4.17%,证明了其在长文本和复杂版面下的稳定性。
改进空间:
尽管整体性能优异,但在报纸类(Newspaper)文档上,DeepSeek-OCR 2 的文本识别编辑距离仍超过 0.13。团队分析认为,这是由于视觉 Token 上限(1120)对于极高密度的报纸文本仍显不足,且训练数据中报纸类样本相对匮乏(仅约 25万条)所致。
5. 总结
DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制,DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务,也为未来构建处理音频、视频等全模态(Omni-modal)数据的统一编码器提供了验证。
- 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
- 论文全文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- 模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2