news 2026/4/12 1:00:19

从PDF中提取Excel,这个工具真的好用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从PDF中提取Excel,这个工具真的好用

因为工作原因,我每天都要接触大量的数据报表,PDF转Excel这种格式转换场景也非常多。

目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。

这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。

python中有很多库可以处理pdf,比如PyPDF2、pdfminer等,那pdfplumber的优势在哪呢?

首先,pdfplumber能轻松访问有关PDF对象的所有详细信息,且用于提取文本和表格的方法高级可定制,使用者可根据表格的具体形式来调整参数。

最关键的是pdfplumber作者持续在维护该库,而同样受欢迎的PyPDF2已经不再维护了。

同其他python库一样,pdfplumber支持使用pip安装,在命令行输入

pip install pdfplumber

如果遇到安装慢的问题,可以替换镜像源,会快很多。

pdfplumber安装后,用import导入即可使用。

再看下如何用pdfplumber提取pdf表格?

以NBA 2020-2021 常规赛数据作为范例,pdf表格如下:

第一步:使用pdfplumber提取表格文本

# 导入pdfplumber import pdfplumber # 读取pdf文件,保存为pdf实例 pdf = pdfplumber.open("E:\\nba.pdf") # 访问第二页 first_page = pdf.pages[1] # 自动读取表格信息,返回列表 table = first_page.extract_table()

输出:

第二步:整理成dataframe格式,保存为excel

import pandas as pd # 将列表转为df table_df = pd.DataFrame(table_2[1:],columns=table_2[0]) # 保存excel table_df.to_excel('test.xlsx') table_df

一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。

可见pdfplumber处理PDF表格数据还是蛮方便的,而且比较准确。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 18:42:50

9 款 AI 写论文哪个好?实测封神!宏智树 AI 凭硬核实力成学术人首选

毕业季的论文战场,“9 款 AI 写论文哪个好” 的灵魂拷问,每天都在各大高校学术交流群刷屏。作为深耕论文写作科普的测评博主,我耗时两周,以计算机、教育学、临床医学、工商管理 4 个跨专业论文为测试样本,对宏智树 AI、…

作者头像 李华
网站建设 2026/3/24 10:17:14

【毕业设计】基于微信小程序的博物馆文创系统的设计与实现基于springboot+微信小程序的多平台的博物馆预约系统的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/9 19:52:30

假如你从2026年1月份开始学习AI大模型,零基础需要多久?AI大模型2026最新学习路线!从零基础到进阶

本文系统梳理了大模型技术学习框架,从人工智能分支定位、神经网络基础到预训练方式,详细介绍了RAG检索增强、微调与提示词工程、智能体Agent等关键技术,帮助读者构建完整知识体系。文章强调大模型学习是一个从宏观到微观的系统过程&#xff0…

作者头像 李华
网站建设 2026/4/7 12:34:25

springboot的校园二手交易平台系统设计实现

校园二手交易平台的背景意义校园二手交易平台在当今高校环境中具有重要的现实意义,能够有效解决资源浪费、促进环保、提升学生实践能力等多方面问题。资源优化与循环利用 高校学生每年产生大量闲置物品,如教材、电子产品、生活用品等。传统处理方式往往导…

作者头像 李华