一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。 有个初步认知后,接下来详细讲讲pdfplumber的安装、导入、api接口等信息。 pdfplumber简介 前面已经介绍过pdfplumber的用途,也用一个小案例展示了如何提取表格,我觉得对于pdfplumber只需要了解三点就可以。 1、它是一个纯python第三...
data.to_excel("/Users/wangwangyuqing/Desktop/data/{}".format(file_name), index=False) return'保存成功!' 四、小结 Python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择 pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活...
file = r"pdfplumber-stable\examples\pdfs\san-jose-pd-firearm-sample.pdf"text_pdf = pdfplumber.open(file)text_info = text_pdf.pages[0]text = text_info.extract_text()print(text) 1. 结果为: 对比pdf可知,文本信息已全部提出。这里我们就可以使用正则表达式对提取信息进行筛选。代码如下: core_part ...
当然,其他你需要解析的PDF文件也可以。 static.cninfo.com.cn/fi, 2、代码实现:比较简单,几句代码就可以实现 import pdfplumber from openpyxl import Workbook #打开excel,统计表格使用 with pdfplumber.open("/Users/***/Downloads/万科半年报2020H1.pdf") as p: #打开文档,注意存放的位置 page_count = len...
1)读取pdf文档信息 2)打印pdf文档总页码 4、pdfplumber.page类 1)读取pdf的数据(第一页) 2)读取第一页数据 3)将数据写入到Excel表中 4)读取完整pdf文档写入到Excel中 5)多pdf文本写入到Excel表中 一、Python操作PDF的库有很多 几大库对比图 二、pdflumber作为案例讲解使用 ...
简单文本类型表格就是一页PDF中只有一个表格,并且表格内容完整可复制,例如我们选定内容为PDF中的第四页,内容如下: 可以看到,该页只有一个表格,下面我们将这个表写入Excel中,先上代码 import pdfplumber as pr import pandas as pd pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF') ps = pdf...
python 实现 pdf表格转excel pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple pip install tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple importpdfplumberfromopenpyxlimportWorkbookfromtqdmimporttqdm#file_name = data_folder+'医保药品分类与代码数据库更新202110.pdf'file_name ='C...
# pdf 文件路径pdf_file ='/usr/load/data.pdf'# 读取pdf数据pdf_data = pdfplumber.open(pdf_file)# 遍历PDF数据forpageinpdf_data.pages:# 每一页的Tbale表格数据table = page.extract_table()# 将每一页的数据写入一个DataFrame对象data_frame_page = pd.DataFrame(table[1:], columns=table[0])# ...
import pdfplumberimport pandas as pdclass Extract_PDF_Invoice():"""This class is used to extract pdf invoice info and save into excel file"""def __init__(self):"""This function is used to initial parameters"""self.pdf_folder_path=fr'C:\Users\{getpass.getuser()}\Documents\PDF ...