df = pd.DataFrame(pdf_files, columns=['File Name'])# 将DataFrame保存为Excel文件 output_path = 'pdf_file_names.xlsx'df.to_excel(output_path, index=False)print(f'文件名已成功保存到 {output_path}')在这段代码中:os.listdir(folder_path) 用于获取指定目录中的所有文件。pdf_files 列表中存储了...
# df = pd.DataFrame([os.path.basename(f) for f in pdf_files], columns=['PDF文件名'])# 将DataFrame导出到Excel文件 excel_file = 'pdf_filenames.xlsx' # 指定输出的Excel文件名 df.to_excel(excel_file, index=False) # 不包含DataFrame的索引列 print(f'PDF文件名已成功导出到 {excel_file}'...
我们先导出自动转换结果为 CSV ,然后用 Excel 打开。 这里以第一列为例。显然,这里三列数据被挤在了一起。 好在因为这些数据都是用空格分割,因此拆分并不困难。 我们新建两个空列,好容纳新拆出来的数据。 然后选中第一列中需要拆分的数据。 进入Data 选单,选择 Text to Columns (文本到列)按钮。 第一屏直...
df = pd.DataFrame(pdf_files, columns=['File Name']) #将DataFrame保存为Excel文件 output_path = 'pdf_file_names.xlsx' df.to_excel(output_path, index=False) print(f'文件名已成功保存到 {output_path}') 在这段代码中: os.listdir(folder_path) 用于获取指定目录中的所有文件。 pdf_files 列表...
最后df1 = pd.DataFrame(table[1:],columns = table[0])这段代码的作用就是创建一个数据框,将内容放到对应的行列中。本代码只是简单将数据存入到Excel,如果你需要进一步对样式进行调整,可以使用openpyxl等模块进行修改,具体可以看之前文章Python操作Excel详解 二、复杂型表格提取 复杂型表格即表格样式不统一或一页...
第二步:整理成dataframe格式,保存为excel importpandasaspd# 将列表转为dftable_df=pd.DataFrame(table_2[1:],columns=table_2[0])# 保存exceltable_df.to_excel('test.xlsx')table_df 输出: 一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。
最后df1 = pd.DataFrame(table[1:],columns = table[0])这段代码的作用就是创建一个数据框,将内容放到对应的行列中。 本代码只是简单将数据存入到Excel,如果你需要进一步对样式进行调整,可以使用openpyxl等模块进行修改。 二、复杂型表格提取 复杂型表格即表格样式不统一或一页中有多个表格,以PDF中的第五页为例...
第二步:整理成dataframe格式,保存为excel 代码语言:javascript 复制 importpandasaspd # 将列表转为df table_df=pd.DataFrame(table_2[1:],columns=table_2[0])# 保存excel table_df.to_excel('test.xlsx')table_df 输出: 一个小小的脚本,不到十行代码,便将PDF表格提取并转化为dataframe格式,最终保存到excel...
df1 = pd.DataFrame(table[1:],columns = table[0]) df1.to_excel('page2.xlsx') 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 得到的结果如下: 通过与PDF上原表格对比,在内容上是完全一致的,唯一不同的是由于主营业务内容较多,导致显示的不全面,现在来说说这段代码。
df2.to_excel(i,sheet_name='营业',index=False, header=True)#放入营业数据 这段代码在简单型表格提取的基础上进行了修改,第十四行代码的作用就是提取另外一个表头的信息,并将他赋值给df2,而后对df2进行重命名操作(用到 rename 函数)。 打印df2可以看出 columns 列名和第一行信息重复了,因此我们需要重复刚刚...