news 2026/7/4 0:54:56

【锦图简历】程序对简历扫描件的识别流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【锦图简历】程序对简历扫描件的识别流程

在做简历上传功能时,我低估了一个场景:扫描件 PDF——用户从 scanner 或微信保存的 PDF,肉眼看正常,文本层却是空的。此时pdf-parse一类库几乎抽不出字,用户却认为「我上传没问题」。

下面是我们在线上用的分层提取 + OCR 回退思路,供同类文档上传场景参考。

1. 先判断:有没有可提取的文本层?

流程第一步不是 OCR,而是尽量便宜地拿文本

  1. 优先Poppler pdftotext(结构化参数:行阈值、单元格分隔)
  2. 回退pdf-parse多种提取模式
  3. 统计「有效字符数」(去空白后),低于阈值(如 80 字)→ 判定为扫描件

这样能避免对可复制 PDF 做昂贵的 OCR。

2. 扫描件:渲染 → OCR → 规整

判定为扫描件后:

PDF Buffer → pdftoppm / pdf-to-img(按页渲染,DPI 建议 300 左右) → 图像预处理(灰度、对比度、锐化、小图放大) → Tesseract(chi_sim+eng,PSM 3/11/6 择优) → 文本后处理(去乱码行、拆粘连章节) → 简历规整(章节换行、列表符、经历行) → 规则诊断 / AI 分析

PSM 说明(简版):

  • 3:全自动分页,适合整页简历
  • 11:稀疏文本,适合 bullet 列表
  • 6:单块文本,部分模板反而更好

可对同一页跑多种 PSM,用质量评分(有效字符比 + 章节词命中)选最优,而不是写死一种。

3. 工程踩坑(真实遇到过)
现象处理
Docker 缺语言包OCR 全乱码镜像预装chi_simeng
多页 OCR 超时用户以为卡死限最大页数 + 流式进度
Nginx 60s 断连上传到一半失败proxy_read_timeout;OCR 阶段发 keepalive
双栏 Word 模板左栏技能与右栏经历串行宽图分列 OCR + 后处理去噪(另文详述)
DPI 过低小字号中文漏字150 → 300,小图再放大
4. 进度与体验

OCR 单页可能 20~40 秒,整份 90 秒不罕见。不要只给一个 spinner

我们采用NDJSON 流式响应,步骤例如:extract → ocr → normalize → done,每步推送进度百分比与人话文案(「正在识别扫描版文字…」)。OCR 阶段长时间无业务输出时,额外发心跳行,避免代理认为连接空闲而断开。

5. 代码结构(示意)

不必照搬,关键是阶段可观测

// 伪代码:上传解析入口asyncfunctionparseResumeDocument(buffer,fileName){onStep("extract");consttextLayer=awaittryExtractText(buffer);if(hasEnoughText(textLayer)){onStep("normalize");returnformat(textLayer);}onStep("ocr");constocrText=awaitocrPdfPages(buffer);// poppler render + tesseractonStep("normalize");returnformat(cleanupOcr(ocrText));}
6. 结论
  • 扫描 PDF 在中文求职场景里不是边缘 case,是常态之一
  • 后端要能自动回退 OCR,并在 UI 上让用户等得明白
  • OCR 之后还要规整 + 人工校对,尤其双栏模板

我们在产品锦图简历里按上述链路实现简历上传(Word / 可复制 PDF / 扫描 PDF / 图片)。若你也在做文档类 ToC 工具,欢迎评论区交流 Poppler 与 Tesseract 在容器里的打包方式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 3:29:16

机器人顶刊T-RO收录!同济大学:扔掉标定板,实现全自动在线对齐

端到端在线标定并非天然缺乏泛化能力,真正的瓶颈在于训练数据构造与网络设计 ——自监督、在线、免目标 目录 01 无需依赖标定板、自监督的激光雷达–相机在线外参标定框架 02 深入剖析:端到端 LiDAR-Camera 在线标定网络的泛化瓶颈 双分支网络…

作者头像 李华
网站建设 2026/7/4 1:33:51

(4)类和对象

这个章节咱们主要谈一谈Java中的权限问题。 一、包 在正式谈权限问题之前,先谈一谈什么是包?包是Java组织类的方式,说白了就是代码结构中的一个文件夹,里面存放着类文件。这里框着的就是包!里面存放着类文件。 二、权限…

作者头像 李华
网站建设 2026/7/3 11:08:59

CodeX安装教程

文章为个人辛苦整理,已加入原创侵权保护,禁止私自转载。 文章所在专栏:《黑猫的AI工具箱》 1 windows codex应用安装 ★ 准备工作: codex没法编辑代码,所以提前下载安装好vscode;网上有人说需要提前安装n…

作者头像 李华