每一张发票 PDF 是纯图片类型,里面的文字信息无法手动复制(事实上大多数发票可以复制部分文字,但我们仍以图片形式来讲解),大致如下图所示: 需要满足的需求是:获取总金额、纳税人识别号、开票人,即如下三个方框位置: 最后结合批量操作,在获取上述信息后将其存储入 Excel 中! 思路与代码实现 需求本质是一个图片识别...
需要确认识别的内容是否正确,如果识别正确率欠佳可以考虑通过图片处理技术消除噪声,也可以去官网下载更高精度的训练包提高识别的正确性 至此,我们成功的识别了总金额、纳税人识别号、开票人三个消息,接下来就通过非常熟悉的 openpyxl 写入Excel,并使用 os 模块实现批量操作即可 workbook...