set_layer_ui_config(number, action=0) authenticate(password) get_page_numbers(label, only_one=False) get_page_labels() set_page_labels(labels) make_bookmark(loc) find_bookmark(bookmark) convert_to_pdf(from_page=-1, to_page=-1, rotate=0) get_toc(simple=True) xref_get_keys(xref) ...
1)设置旋转角度(Page.set_rotation())后,某些方法返回的坐标不会改变,例如 Page.get_image_bbox()、Page.get_text()、批注的边界框等。2)但 Page.rect 和Page.bound() 会受旋转影响,它们始终反映当前页面的旋转情况。3)如果你想计算旋转后的坐标,可以用 Page.rotation_matrix 进行转换,或者使用 Page.de...
有效的交叉引用号由Document.get_page_images()或Document.get_page_xobjects()返回。对于无效的号码,会引发异常。返回类型:int返回:可选内容对象的交叉引用号,如果没有则为零。set_oc(xref, ocxref)v1.18.4 版新功能 如果xref代表图像或表单 X 对象,则设置或删除可选内容对象的交叉引用号ocxref。
if spage.number % 4 == 0: # 每4页创建一个新的输出页面 page = doc.new_page(-1, width=width, height=height) # 将输入页面插入到正确的矩形区域 page.show_pdf_page(r_tab[spage.number % 4], # 选择输出矩形 src, # 输入文档 spage.number) # 输入页面编号 # 使用垃圾回收和压缩保存新文...
page = doc.load_page(pno)# loads page number 'pno' of the document (0-based)page = doc[pno]# the short form 这里可以使用任何整数-inf<pno<page_count。负数从末尾开始倒数,所以doc[-1]是最后一页,就像Python序列一样。 更高级的方法是将文档用作页面的迭代器: ...
as doc: for page in doc: print("page %i" % page.number) page 0 page 1 page 2 page 3 >>> doc.is_closed True >>> get_oc(xref) v1.18.4 中的新内容 返回图像或表单 X 对象附加的OCG或OCMD的交叉引用号。参数:xref (int)– 图像或表单 X 对象的xref号。有效的交叉引用号由Document.get...
footer % (page.number + 1, doc.page_count), ) 以这种方式修改过的页面提取出的文本将如下所示: 原始文本 页眉行 页脚行 PyMuPDF提供了多种方法来重新建立某些阅读顺序,甚至重新生成接近原始文档的布局: 使用Page.get_text()的sort参数。它会按从左上到右下的顺序对输出进行排序(XHTML、HTML和XML输出时会...
pages = pdf.getNumPages()print(info)print("number of pages: %i"% pages) page1 = pdf.getPage(0)print(page1)print(page1.extractText()) 如上面的图1所示,提取的文本是连续打印的。没有段落或句子分隔。如PyPDF2文档中所述,所有文本数据都按照在页面内容流中提供的顺序返回,并且依靠它可能会导致一些...
page = doc.load_page(pno) # loads page number 'pno' of the document (0-based) page = doc[pno] # the short form 这里可以使用任何整数-inf<pno<page_count。负数从末尾开始倒数,所以doc[-1]是最后一页,就像Python序列一样。 更高级的方法是将文档用作页面的迭代器: ...
还可以使用page.get_svg_image()创建页面的矢量图像。 c. 将页面图像保存到文件中 我们可以简单地将图像存储在PNG文件中: pix.save("page-%i.png" % page.number) d. 提取文本和图像 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息: ...