news 2026/4/27 12:18:22

字节开源Dolphin-v2: 基于异构锚点提示的文档图像解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
字节开源Dolphin-v2: 基于异构锚点提示的文档图像解析

Dolphin-v2是一款增强型通用文档解析模型,在原始Dolphin基础上实现显著提升。该模型通过采用具备文档类型感知能力的双阶段架构及可扩展锚点提示技术,能够无缝处理任何类型的文档——无论是数字原生文件还是拍摄图像。

📑 概述

由于文档类型多样且包含文本段落、图表、公式、表格和代码块等复杂交织的元素,文档图像解析具有挑战性。Dolphin-v2通过文档类型感知的两阶段方法应对这些挑战:

  1. 🔍 第一阶段:文档类型分类(数字化文档 vs 拍摄文档)+ 带阅读顺序预测的版面分析
  2. 🧩 第二阶段:混合解析策略 - 对拍摄文档采用整体解析,对数字化文档采用并行元素级解析


海豚模型在各类页面级和元素级解析任务中展现出优异性能,其轻量化架构与并行解析机制确保了卓越的运行效率。

📅 更新日志

  • 🔥2025.12.12发布Dolphin-v2模型。升级至30亿参数,支持21元素检测、属性字段提取、专用公式/代码解析,以及稳健的拍摄文档解析。(Dolphin-1.5版本移至v1.5分支)
  • 🔥2025.10.16发布Dolphin-1.5模型。在保持轻量级3亿参数架构的同时,该版本实现了显著的解析改进。(Dolphin 1.0版本移至v1.0分支)
  • 🔥2025.07.10发布Fox-Page基准测试,这是对原始Fox数据集进行人工精炼的子集。下载地址:百度云 | Google Drive
  • 🔥2025.06.30新增TensorRT-LLM支持以加速推理!
  • 🔥2025.06.27新增vLLM支持以加速推理!
  • 🔥2025.06.13新增多页PDF文档解析能力
  • 🔥2025.05.21我们的演示版已发布,访问地址:链接
  • 🔥2025.05.20发布Dolphin预训练模型及推理代码
  • 🔥2025.05.16我们的论文被ACL 2025接收。论文链接:arXiv

📈 性能

在OmniDocBench(v1.5)上进行的文档解析综合评估
ModelSizeOverall↑TextEditFormulaCDMTableTEDSTableTEDS-SRead OrderEdit
Dolphin0.3B74.670.12567.8568.7077.770.124
Dolphin-1.50.3B85.060.08579.4484.2588.060.071
Dolphin-v23B89.780.05487.6387.0290.480.054

🛠️ 安装

  1. 克隆仓库:

    gitclone https://github.com/ByteDance/Dolphin.gitcdDolphin
  2. 安装依赖项:

    pipinstall-r requirements.txt
  3. 下载Dolphin-v2的预训练模型:

访问我们的Huggingface 模型卡片,或通过以下方式下载模型:

# Download the model from Hugging Face Hubgitlfsinstallgitclone https://huggingface.co/ByteDance/Dolphin-v2 ./hf_model# Or use the Hugging Face CLIpipinstallhuggingface_hub huggingface-cli download ByteDance/Dolphin-v2 --local-dir ./hf_model

⚡ 推理

Dolphin 提供两种推理框架,支持两种解析粒度:

  • 页面级解析:将整个文档页面解析为结构化的 JSON 和 Markdown 格式
  • 元素级解析:解析单个文档元素(文本、表格、公式)

📄 页面级解析

# Process a single document imagepython demo_page.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs/page_1.png# Process a single document pdfpython demo_page.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs/page_6.pdf# Process all documents in a directorypython demo_page.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs# Process with custom batch size for parallel element decodingpython demo_page.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs\--max_batch_size8

🧩 元素级解析

# Process element images (specify element_type: table, formula, text, or code)python demo_element.py --model_path ./hf_model --save_dir ./results\--input_path\--element_type[table|formula|text|code]

🎨 布局解析

# Process a single document imagepython demo_layout.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs/page_1.png\# Process a single PDF documentpython demo_layout.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs/page_6.pdf\# Process all documents in a directorypython demo_layout.py --model_path ./hf_model --save_dir ./results\--input_path ./demo/page_imgs

🌟 核心特性

  • 🔄 基于单一视觉语言模型的两阶段分析-解析方法
  • 📊 在文档解析任务中展现优异性能
  • 🔍 自然阅读顺序的元素序列生成
  • 🧩 针对不同文档元素的异构锚点提示机制
  • ⏱️ 高效的并行解析机制
  • 🤗 支持Hugging Face Transformers以便集成

📮 公告

征集错误案例:如果您遇到模型表现不佳的案例,我们将非常感激您能在issue中分享。我们正在持续优化改进模型。

💖 致谢

我们要感谢以下为本工作提供灵感和参考的开源项目:

  • OmniDocBench
  • Donut
  • Nougat
  • GOT
  • MinerU
  • Swin
  • Hugging Face Transformers

📝 引用

如果您认为本代码对您的研究有所帮助,请使用以下BibTeX条目。

@article{feng2025dolphin, title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting}, author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and others}, journal={arXiv preprint arXiv:2505.14059}, year={2025} }
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 8:05:27

TikZJax终极指南:浏览器中运行TikZ绘图的完整教程

TikZJax终极指南:浏览器中运行TikZ绘图的完整教程 【免费下载链接】tikzjax TikZJax is TikZ running under WebAssembly in the browser 项目地址: https://gitcode.com/gh_mirrors/ti/tikzjax 还在为复杂的数学图形绘制而烦恼吗?想要在网页中直…

作者头像 李华
网站建设 2026/4/23 17:36:35

R Shiny交互逻辑进阶指南(多模态集成实战)

第一章:R Shiny交互逻辑进阶指南(多模态集成实战)在构建复杂的Shiny应用时,掌握多模态输入输出的协同机制是实现高效交互的关键。通过整合文本、图像、音频与实时数据流,开发者可以创建高度响应式的仪表板与分析工具。…

作者头像 李华
网站建设 2026/4/18 20:19:46

Pintr图像艺术化工具:一键将照片转化为专业线条画的终极指南

Pintr图像艺术化工具:一键将照片转化为专业线条画的终极指南 【免费下载链接】pintr Create single line illustrations from your pictures. Get a drawing, SVG or coordinates for a CNC. 项目地址: https://gitcode.com/gh_mirrors/pi/pintr 在数字艺术创…

作者头像 李华
网站建设 2026/4/18 8:23:44

最终幻想16优化工具FFXVIFix完全指南

还在为《最终幻想16》的画面限制而烦恼吗?FFXVIFix是一款专门为《最终幻想16》设计的全方位优化工具,能够解决超宽屏黑边、帧率锁死、截图卡顿等常见问题。这款免费的开源项目通过简单的安装就能彻底改善你的游戏体验,让每一帧都更加流畅震撼…

作者头像 李华
网站建设 2026/4/27 21:21:18

JS伪装+隐形登录:2025新型WordPress后门深度剖析与防御指南

作为全球市场占有率超43%的CMS(内容管理系统),WordPress凭借易用性和扩展性成为个人站长、中小企业搭建网站的首选,但也因此成为黑客攻击的“重灾区”。2025年12月,Sucuri安全团队披露的一款新型WordPress后门&#xf…

作者头像 李华
网站建设 2026/4/24 6:47:19

终极指南:FlutterToast跨平台通知组件完全掌握

终极指南:FlutterToast跨平台通知组件完全掌握 【免费下载链接】FlutterToast fluttertoast是一个Flutter插件,旨在帮助开发者在Flutter应用中显示自定义的Toast消息。 该仓库为fluttertoast库适配OpenHarmony的仓库。 项目地址: https://gitcode.com/…

作者头像 李华