news 2026/7/4 3:09:06

PDF 提取表格到 Excel(含扫描版),断网批量可用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PDF 提取表格到 Excel(含扫描版),断网批量可用

大家好,这里是办公智能体广场。最近过分的研究了下PDF提取表格到Excel里面的技术,无论是扫描版(图片)PDF 还是 文字可编辑版PDF 。

今天就总结下方案与教程:可以在断网环境将一批PDF里面的表格数据提取到Excel。

一、需求分析

我准备了几个PDF ,其中一个PDF 有63页, 然后在第61页处,有一个表格,如图所示:

然后还准备了另外一个扫描类型(图片)的PDF , 素材来自于公开网络。打开如图:

需要将上面的PDF 提取所有的表格,得到xlsx,我直接先放上面两个图的提取结果示意图:

二、实现方案一:小白上手

打开鲸闲办公智能体广场,找到 “PDF 提取表格到Excel”,如图:

注意,可断网使用!!!

获取: 宫中&浩气: “老罗软件”。然后将所有的PDF 进行输入,如图:

这里,我需要说明一些设置参数的意义。

识别页范围

如果不填,就是会识别PDF所有的页,如果页比较多就会消耗时间较长,尽量设置表格所在的页。

合并跨页表格

有的表格可能跨了PDF的页了, 勾选这个就会智能去合并成一个表格到Excel的一个表单里面。

二次加工设置参数

这个就是已经OCR扫描完成后,对Excel表格进行一些处理,相当于清理脏数据等,比如下面设置:

输出结果

输出结果一个PDF对于一个Excel文件,PDF的每一页都是一个表单Sheet,没有表格的页不会提取出来,如图所示:

三、实现方案二:Python脚本

用 Python 做 PDF / 图片批量抽表入 Excel,对经常要整理发票、对账单、扫描报表、截图表格的人来说,是个很实用的路子。

优势:

  • 可批量处理大量文件,适合成百上千份材料
  • 对扫描件、截图、拍照表格比纯文本抽取更友好
  • 支持 PDF 和常见图片格式,走同一套流程
  • 本地运行,文件不出本机,适合内部资料
  • 不修改原文件,只在输出目录生成 Excel

劣势:

  • 需要一定 Python 基础,首次要装依赖并下载模型
  • 复杂版式、无边框表格、模糊扫描件可能需要人工核对
  • 合并单元格、嵌套表头等结构导出后往往还要再整理
  • 大批量高清 PDF 耗时较长,CPU/GPU 压力较大

下面是一个简单的脚本示例:批量读取目录下的 PDF / 图片,识别表格并导出 Excel。

import os from pathlib import Path from paddlex import create_pipeline # 总目录,可放多个子文件夹 input_root = r"path\to\your\files" # 输出目录 output_root = r"path\to\your\output" Path(output_root).mkdir(parents=True, exist_ok=True) # 支持的输入格式 SUPPORTED_EXT = {".pdf", ".png", ".jpg", ".jpeg", ".bmp", ".webp", ".tif", ".tiff"} # 创建 PaddleX 表格识别流水线(首次运行会自动下载模型) pipeline = create_pipeline(pipeline="table_recognition") def process_file(file_path: Path): ext = file_path.suffix.lower() if ext not in SUPPORTED_EXT: print(f"跳过不支持的文件:{file_path}") return print(f"识别中:{file_path}") # predict 支持单张图片;PDF 会按页识别 results = pipeline.predict(str(file_path)) out_dir = Path(output_root) / file_path.stem out_dir.mkdir(parents=True, exist_ok=True) for i, res in enumerate(results): # 每个识别结果保存为一个 Excel(具体 API 以当前 PaddleX 版本为准) xlsx_path = out_dir / f"table_{i + 1}.xlsx" res.save_to_excel(str(xlsx_path)) print(f" -> {xlsx_path}") def walk_files(root: Path): for path in root.rglob("*"): if path.is_file(): process_file(path) if __name__ == "__main__": walk_files(Path(input_root)) print("所有文件处理完成!")

四、总结

两份 PDF 都测过了:63 页可编辑版(表格在第 61 页)和扫描版,都能批量抽成 xlsx。不想折腾环境,用智能体就行,记得填页码范围、跨页表格按需勾选,导出后不满意再用二次加工清理。材料多、要自定义规则,再上 Python 脚本。两种都本地跑,原文件不动。复杂版式别全信,抽完抽检几份就够。日常发票、对账单、报表归档,这套流程基本够用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 1:06:53

电源工程师避坑指南5:从CS80N08+OC5801L实战谈MOS选型、驱动与调试

目录 第一章:破除迷信——MOS管的“电压驱动”假象 栅极充电的“四部曲” 第二章:四大门派——功率MOS分类与选型决策树 一、功率MOS四大分类(按材料 & 结构) 二、关键参数横向对比(650V耐压级参考&#xff0…

作者头像 李华
网站建设 2026/7/3 1:05:54

FIRRTL宽度推断:形式化建模与高效求解算法

1. FIRRTL宽度推断问题概述FIRRTL(Flexible Intermediate Representation for RTL)是一种用于硬件设计的中间表示语言,在芯片设计流程中扮演着关键角色。作为连接高级硬件描述语言(如Chisel)和底层实现(如V…

作者头像 李华
网站建设 2026/7/3 1:04:16

美国最高法院限制警方获取个人位置历史记录的权限!守护数字隐私的重大胜利:最高法院为警方调取个人位置信息戴上“紧箍咒”

在数字化无孔不入的今天,我们的智能手机就像一个形影不离的“数字分身”,默默记录着我们去过的每一个地方、停留的每一分钟。近日,美国最高法院做出了一项具有里程碑意义的重大裁决:执法部门如果企图通过所谓的“地理围栏搜查令”…

作者头像 李华
网站建设 2026/7/3 0:59:13

5.7万 Star!GitHub 爆火的 AI 求职神器

大家好,我是Java1234_小锋老师。 一、为什么它能火? 最近 GitHub 上有一个项目格外引人注目——Career-Ops,Star 数已经突破 5.7 万。 说实话,求职类工具并不少见。但 Career-Ops 能在一众项目中脱颖而出,原因其实挺…

作者头像 李华
网站建设 2026/7/3 0:54:09

HoRain云--C++预处理器核心机制与最佳实践

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …

作者头像 李华
网站建设 2026/7/3 0:50:33

如何用AI控制Figma:5大智能设计协作功能详解

如何用AI控制Figma:5大智能设计协作功能详解 【免费下载链接】cursor-talk-to-figma-mcp TalkToFigma: MCP integration between AI Agent (Cursor, Claude Code, Codex) and Figma, allowing Agentic AI to communicate with Figma for reading designs and modify…

作者头像 李华