python第三方库PyMuPDF：如何提取pdf中表格数据

admin

2025年8月28日 1:48 本文热度 1083

从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库，提取出来的表格都会变成纯文本，效果并不好。公司之前有很多的研报pdf解析，都是通过买的第三方服务来解析的，偶然间发现

python第三方库PyMuPDF1.23.8版本已经支持提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。让我们赶紧安装使用下吧；

PyMuPDF的使用非常简单，首先我们来安装：

pip install pymupdf==1.23.0 pandas openpyxl

首先我们从网址上海清算所_研究与统计 (shclearing.com.cn)，

https://www.shclearing.com.cn/sjtj/tjyb/ 下载债券期末托管的pdf，pdf中表格如下：

确定好解析文件后，让我们开始编写代码

import fitz

root_path = "./表四债券期末托管情况2023-07-31.pdf"

doc = fitz.open(root_path)

page = doc[0] # 下标从0开始,第五页对应4

tables = page.find_tables()

df = tables[0].to_pandas()

print(df)

df.to_excel('table.xlsx', index=False)

保存table.xlsx 效果如下

下面我们将解析过程中的df数据转换成json列表，截个图吧，公众号的代码粘贴太丑：

阅读原文：原文链接

该文章在 2025/8/28 16:33:05 编辑过

关键字查询

正在查询...