news 2026/6/9 22:25:20

从零搭建中文OCR系统|DeepSeek-OCR-WEBUI 快速上手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从零搭建中文OCR系统|DeepSeek-OCR-WEBUI 快速上手

从零搭建中文OCR系统|DeepSeek-OCR-WEBUI 快速上手

1. 背景与目标

在数字化转型加速的今天,文档自动化处理已成为企业提升效率的关键环节。光学字符识别(OCR)技术作为连接纸质信息与数字世界的桥梁,广泛应用于票据识别、合同解析、档案电子化等场景。然而,传统OCR工具在复杂版式、低质量图像或中文长文本识别中表现不佳,亟需更强大的解决方案。

DeepSeek-OCR-WEBUI 正是在这一背景下诞生的一款开源中文OCR系统。它基于 DeepSeek 开源的大模型架构,结合现代化 WebUI 设计,提供高精度、多语言、易部署的一站式 OCR 服务。本文将带你从零开始,在 Ubuntu 系统上完成 DeepSeek-OCR-WEBUI 的完整部署流程,涵盖环境准备、Docker 配置、GPU 支持设置及服务启动验证,助你快速构建属于自己的高性能中文OCR引擎。

2. 环境准备与依赖安装

2.1 操作系统与基础环境

本文以Ubuntu 24.04.4 Server为操作环境,确保系统已联网并具备 sudo 权限。首先更新软件包索引并安装必要工具:

sudo apt-get update sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common

2.2 安装 Docker 引擎

Docker 是运行 DeepSeek-OCR-WEBUI 的核心容器平台。添加官方 GPG 密钥和稳定仓库后进行安装:

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add - sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" sudo apt-get update sudo apt-get install -y docker-ce

验证安装结果:

sudo systemctl status docker sudo docker --version

为便于非 root 用户使用 Docker,执行以下命令并重新登录 SSH:

sudo usermod -aG docker ${USER}

2.3 配置 Docker 数据目录与日志策略

建议将镜像存储路径设为独立磁盘分区(如/data/docker),避免根目录空间不足:

sudo tee /etc/docker/daemon.json <<-'EOF' { "data-root": "/data/docker", "exec-opts":["native.cgroupdriver=systemd"], "log-driver":"json-file", "log-opts": {"max-size":"100m", "max-file":"3"} } EOF sudo systemctl daemon-reload sudo systemctl restart docker sudo systemctl enable docker

3. GPU 支持配置(NVIDIA 显卡)

DeepSeek-OCR 模型推理依赖 GPU 加速,需正确配置 NVIDIA 驱动与容器工具链。

3.1 检查并关闭开源驱动 nouveau

部分 Linux 发行版默认启用开源显卡驱动nouveau,会与 NVIDIA 专有驱动冲突。检查是否存在:

lsmod | grep nouveau

若输出内容,则需禁用该驱动:

sudo tee /etc/modprobe.d/blacklist-nouveau.conf <<EOF blacklist nouveau options nouveau modeset=0 EOF sudo update-initramfs -u sudo reboot

重启后再次执行lsmod | grep nouveau,无输出即表示已成功关闭。

3.2 安装 NVIDIA 驱动

前往 NVIDIA 驱动下载页面 根据显卡型号获取对应.run文件。假设文件位于/data/soft/NVIDIA-Linux-x86_64-580.105.08.run

cd /data/soft chmod +x NVIDIA-Linux-x86_64-580.105.08.run sudo ./NVIDIA-Linux-x86_64-580.105.08.run

安装过程中选择NVIDIA Proprietary许可证,并跳过 X.Org 相关警告(适用于纯计算场景)。安装完成后验证:

nvidia-smi

应显示 GPU 型号、驱动版本及 CUDA 支持版本(如 CUDA Version: 13.0)。

3.3 安装 NVIDIA Container Toolkit

使 Docker 容器能够访问 GPU 资源:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.18.0-1 sudo apt-get install -y \ nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} \ libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}

配置 Docker 默认使用nvidia运行时:

sudo nvidia-ctk runtime configure --runtime=docker sudo cat /etc/docker/daemon.json

确认输出包含"runtimes": { "nvidia": { ... } }配置项,然后重启 Docker:

sudo systemctl restart docker

测试 GPU 容器是否可用:

docker run --rm --gpus all nvidia/cuda:13.0.1-runtime-ubuntu22.04 nvidia-smi

若能正常输出 GPU 信息,则说明配置成功。

4. 部署 DeepSeek-OCR-WEBUI 服务

4.1 克隆项目代码

git clone https://github.com/neosun100/DeepSeek-OCR-WebUI.git cd DeepSeek-OCR-WebUI

项目自带docker-compose.yml文件,支持一键部署。

4.2 优化 Dockerfile(可选)

为加快构建速度并解决国内网络问题,可在Dockerfile中添加依赖和镜像加速:

RUN apt-get update && apt-get install -y \ libgl1 \ libglib2.0-0 \ pkg-config \ python3-dev \ build-essential \ && rm -rf /var/lib/apt/lists/* # 使用华为云 PyPI 镜像加速 RUN pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple/

4.3 启动服务

使用 Docker Compose 构建并后台运行服务:

docker compose up -d

查看服务状态:

docker compose ps --format "table {{.Name}}\t{{.Status}}\t{{.Ports}}"

预期输出:

NAME STATUS PORTS deepseek-ocr-webui Up 2 minutes (health: starting) 6006/tcp, 8888/tcp, 0.0.0.0:8001->8001/tcp

首次启动耗时较长,因需自动下载模型文件至~/DeepSeek-OCR-WebUI/models/目录。

4.4 查看日志与监控资源

实时查看启动日志:

docker logs -f deepseek-ocr-webui

监控 GPU 使用情况:

watch -n 1 nvidia-smi

查看容器资源占用:

docker stats deepseek-ocr-webui

5. 访问 WebUI 与功能验证

服务启动成功后,可通过浏览器访问以下地址:

  • WebUI 界面:http://<服务器IP>:8001/
  • API 文档:http://<服务器IP>:8001/docs
  • 健康检查接口:http://<服务器IP>:8001/health

5.1 核心功能概览

DeepSeek-OCR-WEBUI 提供七种识别模式,满足多样化需求:

模式说明适用场景
文档转Markdown保留原始格式布局合同、论文、报告
通用OCR提取所有可见文字图片文字提取
纯文本提取不保留格式的纯文本简单文本识别
图表解析识别图表与数学公式数据报表、科研文献
图像描述生成图片语义描述无障碍阅读、内容理解
查找定位 ⭐关键词搜索并标注位置发票字段提取
自定义提示 ⭐自定义指令控制输出结构化数据抽取

PDF 支持(v3.2+):支持直接上传 PDF 文件,系统自动逐页转换为图像并进行 OCR 处理。

5.2 技术架构说明

  • 推理引擎: Hugging Face Transformers(稳定可靠)
  • 模型名称:deepseek-ai/DeepSeek-OCR
  • GPU 支持: 自动检测 NVIDIA L40S/L40/L4 等设备
  • 计算精度: bfloat16 混合精度推理
  • 批处理方式: 顺序逐一处理(保证稳定性)

6. 总结

本文详细介绍了如何在 Ubuntu 24.04 系统上从零部署 DeepSeek-OCR-WEBUI 中文OCR服务。通过 Docker 容器化方案,结合 NVIDIA GPU 加速,实现了开箱即用的高性能OCR能力。整个流程覆盖了操作系统配置、Docker环境搭建、GPU驱动安装、容器工具链配置以及服务启动验证等关键步骤,特别针对国内用户优化了镜像源和依赖管理策略。

DeepSeek-OCR-WEBUI 凭借其高精度中文识别、丰富的功能模式和现代化交互界面,非常适合用于金融票据处理、教育资料数字化、档案管理等实际业务场景。其支持 API 调用和批量处理的能力,也便于集成到企业级自动化工作流中。

下一步你可以尝试:

  • 将服务暴露到公网并通过 Nginx 反向代理;
  • 集成到 Python/RPA 脚本中实现自动文档处理;
  • 使用自定义提示词(Custom Prompt)提取结构化数据。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 16:06:35

从预设到自定义:Voice Sculptor实现精细化音色控制

从预设到自定义&#xff1a;Voice Sculptor实现精细化音色控制 1. 引言&#xff1a;语音合成的个性化需求演进 随着深度学习技术在语音合成领域的深入应用&#xff0c;传统TTS&#xff08;Text-to-Speech&#xff09;系统已逐步从“能说”向“说得像人”转变。然而&#xff0…

作者头像 李华
网站建设 2026/6/6 1:26:13

135M小模型推理大进步:trlm-135m三阶段训练解析

135M小模型推理大进步&#xff1a;trlm-135m三阶段训练解析 【免费下载链接】trlm-135m 项目地址: https://ai.gitcode.com/hf_mirrors/Shekswess/trlm-135m 导语&#xff1a;参数规模仅1.35亿的trlm-135m模型通过创新的三阶段训练流程&#xff0c;在推理能力上实现显著…

作者头像 李华
网站建设 2026/6/9 21:08:24

智能AI视频总结:高效处理B站海量内容的终极利器

智能AI视频总结&#xff1a;高效处理B站海量内容的终极利器 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱&#xff0c;支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

作者头像 李华
网站建设 2026/6/9 17:23:28

BERTopic与GPT-4终极指南:用大语言模型彻底革新主题建模

BERTopic与GPT-4终极指南&#xff1a;用大语言模型彻底革新主题建模 【免费下载链接】BERTopic Leveraging BERT and c-TF-IDF to create easily interpretable topics. 项目地址: https://gitcode.com/gh_mirrors/be/BERTopic 在当今信息爆炸的时代&#xff0c;如何从…

作者头像 李华
网站建设 2026/6/9 17:23:28

Ring-1T开源:万亿参数AI推理引擎震撼发布

Ring-1T开源&#xff1a;万亿参数AI推理引擎震撼发布 【免费下载链接】Ring-1T 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-1T 导语&#xff1a;人工智能领域再添重磅突破——万亿参数级推理模型Ring-1T正式开源&#xff0c;凭借其卓越的数学推理、…

作者头像 李华
网站建设 2026/6/9 17:20:22

一键启动bert-base-chinese:中文NLP任务效率提升秘籍

一键启动bert-base-chinese&#xff1a;中文NLP任务效率提升秘籍 1. 引言&#xff1a;为什么选择 bert-base-chinese&#xff1f; 在中文自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;预训练语言模型的出现极大提升了文本理解与生成任务的性能。其中&#xff0c;…

作者头像 李华