这是因为PDF文件中的文本编码方式和Python默认的编码方式不一致,导致中文字符无法正确显示,出现乱码现象。 问题原因 PDF文件中的文本编码方式通常是Unicode编码,而Python默认的编码方式是UTF-8。当PdfFileReader读取PDF文件时,会将Unicode编码的文本转换为UTF-8编码,这个转换过程中可能会出现编码不匹配导致中文乱码的问题。
(4)、读取pdf过程:首先创建一个分析器pdfparser和文档对象pdfdocument,并通过两个方法相互关联,然后调用文档对象的初始化方法(可以传参数),此时资源内容被加载到文档对象中。 创建资源管理器和参数分析器,然后创建聚合器(整合资源管理器和参数分析器),通过聚合器创建解释器(对pdf文档进行编码,解释成python能识别的格式)...