news 2026/6/17 13:16:13

AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR

AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR

💡 PDF 转 Markdown 有多难?AI2 说:7B 模型就够了。olmOCR 基于 Qwen2.5-VL 微调,支持 PDF/PNG/JPEG 一键转干净 Markdown;数学公式、表格、手写体、多栏排版、复杂嵌套全搞定;自动去除页眉页脚;自然阅读顺序还原;v0.4.0 引入 RL 训练,olmOCR-Bench 82.4 分;百万页转换不到 $200;12GB 显存即可本地运行;vLLM 推理引擎;AWS S3 多节点并行;Docker 一键部署;Cirrascale/DeepInfra/Parasail 云端 API 按需调用;两篇 arXiv 论文;AI2 出品,Apache 2.0 开源。

📌 目录

  • 1. olmOCR 是什么?
  • 2. 核心特性
  • 3. olmOCR-Bench:7000+ 测试用例横评
  • 4. 版本演进与 RL 训练
  • 5. 安装指南
  • 6. 使用实战
  • 7. 云端推理:无需 GPU
  • 8. 多节点集群:百万 PDF 并行
  • 9. Docker 部署
  • 10. 可复用代码模块
  • 11. 竞品深度对比
  • 12. 成本分析
  • 13. 优缺点与使用建议
  • 14. 总结

1. olmOCR 是什么?

olmOCR是 Allen Institute for AI (AI2) 开源的 PDF 线性化工具包,将 PDF 和图像文档转换为干净、可读的纯文本/Markdown 格式。

  • 🔗 项目地址:https://github.com/allenai/olmocr
  • 🌐 在线体验:https://olmocr.allenai.org/
  • 📄 论文 v1:arXiv 2502.18443
  • 📄 论文 v2:arXiv 2510.19817(RL 训练 + Unit Test Rewards)
  • 📜 许可证:Apache 2.0
  • 🏢 维护方:AI2 AllenNLP 团队
  • 📌 当前版本:v0.4.0(olmOCR-2-7B-1025-FP8)

一句话总结

olmOCR = AI2 出品的 PDF→Markdown 转换器 = 7B 视觉语言模型驱动 = 数学公式/表格/手写/多栏全支持 = 百万页 < $200 = 12GB 显存本地运行 = vLLM + S3 多节点并行 = 两篇 arXiv 论文

2. 核心特性

特性说明
📄多格式输入PDF / PNG / JPEG 全支持
📝干净 Markdown 输出数学公式、表格、手写体、复杂排版精准转换
🧹自动去除页眉页脚无需手动清理
📖自然阅读顺序多栏排版、插图、嵌套内容正确还原
💰超低成本< $200 / 百万页
vLLM 推理引擎高吞吐批量推理
🌐云端 APICirrascale / DeepInfra / Parasail 三家验证
📦Docker 部署含模型镜像一键运行
🔀S3 多节点AWS S3 工作队列 + 多 Worker 并行
🎯olmOCR-Bench7000+ 测试用例,1400 文档综合评测
🔬RL 训练v0.4.0 引入 GRPO 强化学习,Unit Test Rewards
🛠️训练代码开源SFT + GRPO 训练器,可自己训练 OCR 模型

3. olmOCR-Bench:7000+ 测试用例横评

olmOCR 自带olmOCR-Bench基准测试,覆盖 7,000+ 测试用例、1,400+ 文档,8 大维度全面评测。

综合得分排行

排名工具ArXiv旧扫描数学表格旧扫描页眉页脚多栏长文本基础综合
1Chandra OCR 0.1.0*82.280.388.050.490.881.292.399.983.1±0.9
2Infinity-Parser 7B*84.483.885.047.988.784.286.499.882.5±?
3olmOCR v0.4.083.082.384.947.796.183.781.999.782.4±1.1
4PaddleOCR-VL*85.771.084.137.897.079.985.798.580.0±1.0
5Marker 1.10.183.866.872.933.586.680.085.799.376.1±1.1
6DeepSeek-OCR77.273.680.233.396.166.479.499.875.7±1.0
7MinerU 2.5.4*76.654.684.933.796.678.283.593.775.2±1.1
8Mistral OCR API77.267.560.629.393.671.377.199.472.0±1.1
9Nanonets-OCR2-3B75.446.186.840.932.181.993.099.669.5±1.1

⚠️ 标 * 号的工具可能使用了 olmOCR-Bench 训练数据,结果仅供参考。

olmOCR 优势维度

维度olmOCR 得分亮点
页眉页脚96.1🔥 第二高,自动去除能力极强
基础 OCR99.7🔥 几乎满分
多栏83.7🔥 复杂排版还原优秀
旧扫描数学82.3🔥 手写/模糊公式识别强
ArXiv83.0论文转换出色

4. 版本演进与 RL 训练

版本时间线

时间版本关键更新
2025.02.25v0.1.58🎉 初始公开发布 + Demo
2025.03.17v0.1.60采样温度优化,性能提升
2025.05.19v0.1.68olmOCR-Bench 发布,得分 77.4
2025.05.23v0.1.70Docker 官方支持
2025.06.17v0.1.75SGLang →vLLM推理引擎切换
2025.07.23v0.2.0训练代码开源(SFT+GRPO)
2025.07.24v0.2.1新模型 FP8,Bench +3 分,更快更稳
2025.08.13v0.3.0修复自动旋转 + 空白页幻觉
2025.10.21v0.4.0olmOCR-2-7B-1025-FP8,RL 训练,Bench +4 分

v0.4.0 核心突破:RL 训练 + Unit Test Rewards

olmOCR v1 → 纯 SFT 监督微调 olmOCR v2 → SFT + GRPO 强化学习 创新点:Unit Test Rewards 传统 RLHF:人类标注偏好 → 训练奖励模型 → PPO olmOCR v2:编写"单元测试"作为奖励信号 → GRPO 训练 优势: ✅ 无需人工标注偏好数据 ✅ 奖励信号精确可控 ✅ 可针对特定错误类型(如表格错位、公式乱码)定向优化 ✅ Bench 得分从 78.x → 82.4,提升约 4 分

5. 安装指南

系统依赖(Ubuntu/Debian)

sudoapt-getupdatesudoapt-getinstallpoppler-utils ttf-mscorefonts-installer msttcorefonts\fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

创建独立环境

conda create-nolmocrpython=3.11conda activate olmocr

⚠️ olmocr 依赖较复杂,务必使用全新环境!

四种安装方式

方式命令适用场景
轻量安装pip install olmocr仅用远程推理,无 GPU
本地 GPUpip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128本地 12GB+ 显存
Beaker 集群pip install olmocr[beaker]AI2 Beaker 集群
评测套件pip install olmocr[bench]运行 olmOCR-Bench

GPU 加速推荐

# 安装 FlashInfer 加速推理(强烈推荐)pipinstallhttps://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl

故障排除

# "too many open files" 错误ulimit-n65536

硬件需求

配置最低要求
GPUNVIDIA 12GB+ VRAM(RTX 4090 / L40S / A100 / H100 已测试)
磁盘30GB 可用空间
模型olmOCR-2-7B-1025-FP8(FP8 量化,7B 参数)

6. 使用实战

单个 PDF 转换

# 下载样例 PDFcurl-oolmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf# 转换为 Markdownolmocr ./localworkspace--markdown--pdfsolmocr-sample.pdf# 查看结果catlocalworkspace/markdown/olmocr-sample.md

图像文件转换

olmocr ./localworkspace--markdown--pdfsrandom_page.png

批量 PDF 转换

olmocr ./localworkspace--markdown--pdfstests/gnarly_pdfs/*.pdf

使用远程推理服务器

olmocr ./localworkspace\--serverhttp://remote-server:8000/v1\--modelallenai/olmOCR-2-7B-1025-FP8\--markdown\--pdfs*.pdf

输出说明

./localworkspace/ ├── markdown/ # Markdown 输出(--markdown 时生成) │ ├── doc1.md │ ├── doc2.md │ └── ... └── dolma/ # Dolma 格式输出(训练数据格式) └── ...

常用参数

参数说明默认值
--markdown同时输出 Markdown 文件
--workers并行 Worker 数1
--pages_per_group每组页数
--apply_filter过滤英文非表单/SEO 垃圾
--guided_decoding启用引导解码
--max_page_retries单页最大重试次数
--stats查看工作区统计

7. 云端推理:无需 GPU

轻量安装

# 无需 GPU 依赖!pipinstallolmocr

自建 vLLM 服务

vllm serve allenai/olmOCR-2-7B-1025-FP8 --max-model-len16384

已验证云端提供商

提供商输入价格/1M token输出价格/1M token
Cirrascale$0.07$0.15
DeepInfra$0.09$0.19
Parasail$0.10$0.20

Cirrascale 示例

olmocr ./workspace\--serverhttps://ai2endpoints.cirrascale.ai/api\--api_keysk-XXXXXXX\--workers1\--max_concurrent_requests20\--modelolmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf

DeepInfra 示例

olmocr ./workspace\--serverhttps://api.deepinfra.com/v1/openai\--api_keyDfXXXXXXX\--workers1\--max_concurrent_requests20\--modelallenai/olmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf

8. 多节点集群:百万 PDF 并行

AWS S3 多节点方案

# 节点 1:启动 + 添加 PDFolmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf# 节点 2-N:自动加入工作队列olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace
工作流程: S3 Bucket (pdfworkspaces/exampleworkspace) ├── work_queue/ ← 待处理 PDF 列表 ├── results/ ← 已完成结果 └── checkpoints/ ← 进度检查点 Worker 1 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker 2 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker N ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 自动负载均衡,Worker 随时增减!

Beaker 集群(AI2 内部)

pipinstallolmocr[gpu,beaker]--extra-index-url https://download.pytorch.org/whl/cu128 olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf\--beaker--beaker_gpus4

9. Docker 部署

拉取镜像

# 含模型镜像(~30GB,开箱即用)dockerpull alleninstituteforai/olmocr:latest-with-model# 基础镜像(自行管理模型下载)dockerpull alleninstituteforai/olmocr:latest

处理单个 PDF

dockerrun--gpusall\-v$(pwd):/workspace\alleninstituteforai/olmocr:latest-with-model\-c"olmocr /workspace/output --markdown --pdfs /workspace/sample.pdf"

批量处理

dockerrun--gpusall\-v/path/to/pdfs:/input\-v/path/to/output:/output\alleninstituteforai/olmocr:latest-with-model\-c"olmocr /output --markdown --pdfs /input/*.pdf"

交互式调试

dockerrun-it--gpusall alleninstituteforai/olmocr:latest-with-model

10. 可复用代码模块

olmOCR 提供多个可独立使用的模块,适合二次开发:

模块路径功能
GPT-4o 银标数据生成olmocr/data/buildsilver.py用 ChatGPT 4o 生成高质量 OCR 训练数据
语言过滤 + SEO 去噪olmocr/filter/filter.py过滤英文文档 + 去除 SEO 垃圾
SFT 微调代码olmocr/train/train.pyQwen2.5-VL 的 SFT 微调器
GRPO RL 训练器olmocr/train/grpo_train.py强化学习训练(v0.4.0 核心)
合成数据生成olmocr/synth/mine_html_templates.py从 HTML 模板挖掘生成合成训练数据
批量推理流水线olmocr/pipeline.py百万级 PDF vLLM 批量处理
Dolma 文档查看器olmocr/viewer/dolmaviewer.py查看 Dolma 格式的 PDF 转换结果

11. 竞品深度对比

OCR 工具全方位对比

对比维度olmOCR v0.4.0Mistral OCRMarkerMinerUPaddleOCR-VL
综合得分82.472.076.175.280.0
驱动方式7B VLM闭源 API传统管线传统管线VLM
本地运行
数学公式82.367.566.854.671.0
表格识别84.960.672.984.984.1
页眉页脚去除96.193.686.696.697.0
多栏还原83.771.380.078.279.9
Markdown 输出
开源Apache 2.0
训练代码SFT+GRPO
批量处理S3+多节点API有限有限有限
百万页成本<$200昂贵
论文2篇 arXiv

关键差异化

olmOCR vs Mistral OCR API: ✅ 开源可本地部署 vs 闭源仅 API ✅ 82.4 vs 72.0 综合得分(+10.4) ✅ 数学公式 82.3 vs 67.5 ✅ 表格 84.9 vs 60.6 ✅ 百万页 < $200 vs API 按量计费 olmOCR vs Marker/MinerU: ✅ VLM 驱动 vs 传统管线 ✅ 数学公式和复杂排版更强 ✅ 批量处理 S3 多节点 ✅ 训练代码完全开源 ✅ 2篇学术论文支撑 olmOCR vs PaddleOCR-VL: ✅ 综合得分 82.4 vs 80.0 ✅ 数学公式 82.3 vs 71.0 ✅ 多栏 83.7 vs 79.9 ⚠️ PaddleOCR-VL 旧扫描得分更高(37.8 vs 47.7...等一下,实际是旧扫描得分 PaddleOCR 低)

12. 成本分析

本地 GPU 运行

项目成本
一次性投入GPU(12GB+,如 RTX 4090)
每页成本~$0.0002(电费)
百万页成本< $200

云端 API 运行

提供商输入/1M token输出/1M token百万页估算
Cirrascale$0.07$0.15~$50-150
DeepInfra$0.09$0.19~$60-180
Parasail$0.10$0.20~$70-200

与 Mistral OCR API 对比

方案百万页成本
olmOCR 本地< $200
olmOCR + Cirrascale~$50-150
Mistral OCR API显著更高

13. 优缺点与使用建议

✅ 优点

维度评分说明
转换质量⭐⭐⭐⭐⭐olmOCR-Bench 82.4,数学/表格/多栏全优
开源程度⭐⭐⭐⭐⭐Apache 2.0 + 模型权重 + 训练代码全开源
成本⭐⭐⭐⭐⭐< $200/百万页,本地运行近乎免费
易用性⭐⭐⭐⭐一行命令转换,但需 GPU + 环境配置
扩展性⭐⭐⭐⭐⭐S3 多节点 + Beaker 集群 + Docker
学术背书⭐⭐⭐⭐⭐AI2 出品 + 2 篇 arXiv 论文
云端支持⭐⭐⭐⭐三家 API 验证,轻量安装无 GPU 也可用

⚠️ 注意事项

事项说明
需要 GPU12GB+ VRAM,消费级 RTX 4090 可用
环境依赖必须用全新 conda 环境
仅 Linux系统依赖(poppler等)面向 Ubuntu/Debian
Docker 体积含模型镜像 ~30GB
旧扫描文档旧扫描得分 47.7,仍有提升空间
Windows需 WSL2 运行

💡 使用建议

  1. 先试在线 Demo:olmocr.allenai.org,快速体验效果
  2. 轻量安装 + 云端 API:无 GPU 时用 DeepInfra/Cirrascale,pip install olmocr即可
  3. 本地 GPU 用 FP8 模型:olmOCR-2-7B-1025-FP8,12GB 显存即可
  4. 批量处理用 S3 模式:多 Worker 并行,百万级 PDF 无压力
  5. Docker 快速部署latest-with-model镜像开箱即用
  6. 自己训练用 GRPO:训练代码完全开源,Unit Test Rewards 方法可复用
  7. 关注版本更新:从 v0.1.58 到 v0.4.0,每个版本都有显著提升

14. 总结

olmOCR 是当前开源 PDF→Markdown 领域的顶尖项目

  • 📝82.4 分olmOCR-Bench 综合得分,数学公式/表格/多栏全面领先
  • 🧠7B VLM驱动,FP8 量化 12GB 显存可用
  • 💰< $200 / 百万页,本地运行近乎免费
  • 🔬RL 训练创新:Unit Test Rewards + GRPO,arXiv 两篇论文
  • 📦全开源:模型权重 + SFT/GRPO 训练代码 + 推理流水线
  • 🌐灵活部署:本地 GPU / 云端 API / Docker / S3 多节点
  • 🏢AI2 出品:AllenNLP 团队维护,学术 + 工程双保障

推荐指数:⭐⭐⭐⭐⭐

无论你是要把论文 PDF 转成训练数据,还是要批量处理企业文档,olmOCR 都是当前最好的开源选择。7B 模型 + RL 训练 + 全开源 + 超低成本,PDF 转 Markdown 就该这么简单。

📢 项目地址:https://github.com/allenai/olmocr
🌐 在线体验:https://olmocr.allenai.org/
📄 论文 v1:arXiv 2502.18443
📄 论文 v2:arXiv 2510.19817
🐳 Docker:Docker Hub


标签:#olmOCR #AI2 #PDF转Markdown #OCR #VLM #RL训练 #GRPO #文档处理

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 13:01:22

洛谷P1161开灯:从暴力模拟到异或优化的算法跃迁

1. 从开关灯问题看算法思维进化 第一次看到洛谷P1161这道开灯题目时&#xff0c;我下意识地搓了搓手——这不就是个简单的模拟题吗&#xff1f;题目描述很简单&#xff1a;有无限多盏灯初始都关闭&#xff0c;进行n次操作&#xff0c;每次给出实数a和整数t&#xff0c;对编号为…

作者头像 李华
网站建设 2026/6/17 12:51:59

AI应用构建全流程:从数据准备到模型部署的工程实践指南

1. 从零到一&#xff1a;理解AI制作的核心脉络 “怎么制作AI&#xff1f;” 这个问题听起来宏大得让人无从下手&#xff0c;就像问“怎么造一辆车”一样。但别担心&#xff0c;我们不是要从零开始冶炼钢铁、设计发动机。今天&#xff0c;我们谈论的“制作AI”&#xff0c;更准确…

作者头像 李华
网站建设 2026/6/17 12:35:58

企业级私有化CodeBuddy的五大核心模块与合规落地实践

1. 项目概述&#xff1a;为什么“私有化CodeBuddy”不是换个模型地址那么简单&#xff1f;“自研一套企业级私有化CodeBuddy到底难在哪儿&#xff1f;”——这个问题我去年在给三家金融客户做AI编码辅助平台选型时&#xff0c;被反复问了至少二十七次。每次我都得先放下手头的架…

作者头像 李华
网站建设 2026/6/17 12:26:22

DDrawCompat:让经典游戏在现代Windows上完美运行的兼容层

DDrawCompat&#xff1a;让经典游戏在现代Windows上完美运行的兼容层 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDr…

作者头像 李华
网站建设 2026/6/17 12:20:45

IDE菜单命令深度解析:从CodeWarrior看高效开发工具的核心机制

1. 项目概述&#xff1a;深入理解IDE菜单命令的骨架与脉络对于任何一位软件开发者而言&#xff0c;集成开发环境&#xff08;IDE&#xff09;就是我们每天打交道的“数字工坊”。它远不止是一个花哨的文本编辑器&#xff0c;而是一个将代码编辑、项目管理、构建编译、调试分析等…

作者头像 李华
网站建设 2026/6/17 12:16:58

WeChatExporter终极指南:免费永久保存微信聊天记录的完整解决方案

WeChatExporter终极指南&#xff1a;免费永久保存微信聊天记录的完整解决方案 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否担心珍贵的微信聊天记录会随着手机更…

作者头像 李华