魔乐上新 | PaddleOCR-VL-1.5发布问鼎双榜，0.9B小钢炮攻克“曲面”文档！-洪萨配资

1月29日，百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构，在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能SOTA，整体精度达到94.5%，不仅超过Gemini-3-Pro、Qwen3-VL-235B-A22B、GPT-5.2等模型，也超过了1月27日DeepSeek刚刚发布和开源的DeepSeek-OCR2模型。该模型创新性地支持了异形框定位，在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外，模型还新增了印章识别与文本检测识别能力，关键指标持续领跑。

该模型已上线魔乐社区，欢迎开发者下载体验！

👉 地址：

魔乐社区modelers.cn/models/PaddlePaddle/PaddleOCR-VL-1.5

2025年，PaddleOCR发布了多个文字识别和文档解析模型工具，已经被业界广泛用于大模型训练数据和应用数据构建。其中仅0.9B的多模态文档解析模型PaddleOCR-VL凭借优异的产业级效果，至今稳居OmniDocBench官方榜首。与此同时，我们也收集到各行业对于PaddleOCR-VL的大量使用反馈，秉承快速响应、持续进化的理念，我们对用户关心的效果问题做了重要升级，正式推出PaddleOCR-VL-1.5。

PaddleOCR-VL-1.5不仅以94.5%精度大幅刷新了评测集OmniDocBench v1.5，更创新性地支持了异形框定位，在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实场景中均表现优异。此外，模型还新增了印章识别与文本检测识别能力，关键指标持续领跑。

PaddleOCR-VL-1.5已上线PaddleOCR官网（http://paddleocr.com)，用户可通过网页或API方式快速使用。同时PaddleOCR-VL-1.5代码和模型已开源，欢迎下载使用，并可通过飞桨训练推理套件PaddleFormers与FastDeploy实现高效微调与全场景部署。

此外，PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光‌、昇腾、此芯科技、Intel、ARM、AMD等核心硬件厂商，以及百度智能云、国家超算互联网平台、硅基流动、九章智算云、魔搭社区、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet等平台伙伴持续集成，方便用户在不同硬件环境与平台应用中使用。

01 效果速览

1. 扫描场景

2.倾斜场景

3. 光线变化场景

4. 屏幕拍照场景

5. 弯折场景

02 核心指标

1. OmniDocBench v1.5指标

总指标94.5%，领跑全球顶尖开源闭源模型。

2. Real5-OmniDocBench指标

Real5-OmniDocBench是我们基于OmniDocBench v1.5自建的多场景文档解析评估集合，涵盖了扫描、弯折、屏幕拍照、光线变化、倾斜5大场景，PaddleOCR-VL-1.5总指标92.05%，全面领先，总指标领先第二名Gemini3 Pro近3个百分点。

03 核心升级点

1. 关键技术创新：创新性地支持异形框定位，多场景精度SOTA

技术的实用性往往在复杂环境下见真章。面对现实中因拍摄角度、纸张弯折或倾斜而形成的非矩形布局，传统的矩形框输出难以实现精准映射。为此，PaddleOCR-VL-1.5引入了多边形异型框定位技术。针对扫描、倾斜、光线变化、屏幕拍照、弯折五大典型挑战场景，模型能够更加细腻地贴合文本、表格与公式的实际轮廓，提供更高质量的位置输出，能够稳定服务于多样化的实际业务环境。这项能力助力了PaddleOCR-VL在多种真实场景的的精度实现SOTA性能。

2. 落地关键能力升级：新增文本行定位/识别与印章识别能力

在基础能力的持续打磨下，PaddleOCR-VL-1.5进一步新增了文本行定位与识别及印章识别两项核心能力。文档的结构化解析往往始于对文本行逻辑的精准捕捉，其坐标精度与内容质量是诸多行业下游应用链路中不可或缺的底层支撑。而针对业界普遍面临的印章识别难题，新版本通过专项优化，有效缓解了复杂干扰下的解析瓶颈，旨在为各领域文档处理的规模化落地扫清关键障碍。

文本行定位、识别能力

印章识别能力

3. 特殊场景及多语种识别能力精进

文档解析的广度则体现于对长尾场景的支持。针对特殊符号、古籍、多语种表格及带有下划线、复选框的复杂版面，PaddleOCR-VL-1.5进行了针对性的算法精进，使细微长尾元素的识别更具鲁棒性。同时，模型进一步扩展了语种支持边界，实现了对藏语与孟加拉语的解析。

特殊字符

特殊场景

多语种表格

4. 跨页表格自动合并与跨页段落标题识别支持

长文档的逻辑重构，核心在于消除物理分页带来的信息割裂。PaddleOCR-VL-1.5引入了跨页表格自动合并与跨页段落标题识别能力，旨在重建文档在空间跨度上的语义连贯性。通过精准识别并关联因分页而截断的表格与标题，模型有效解决了长篇幅解析中的断层现象。这种对文档全局结构的深度感知，不仅提升了信息的完整度，也为后续的语义理解与检索提供了更具逻辑一致性的数据支撑。

跨页表格合并

5. 推理速度持续提升

推理速度是企业部署模型时尤为关注的关键指标。依托于飞桨框架与FastDeploy端到端的深度优化，PaddleOCR-VL-1.5推理速度显著提升。在A100上以PDF文件进行测试时，模型每秒可处理1.43个文档页，较上一代PaddleOCR-VL提速17%，也明显优于业界同类文档解析模型。

（内容来源：飞桨PaddlePaddle）