Document.get_page_numbers():仅限PDF:获取具有指定标签的页面编号 Document.get_page_pixmap():根据页面编号创建页面图像 Document.get_page_text():提取指定页面的文本 Document.get_page_xobjects():仅限PDF:列出页面引用的XObject Document.get_sigflags():仅限
Document.get_toc() 获取目录(list) Document.load_page() 读取某一页(Page 对象) 访问元数据 PyMuPDF 完全支持标准元数据。Document.metadata 是一个 Python 字典,包含以下键值对: 键值 producer 生产软件 format 格式,如 'PDF-1.4'、'EPUB' encryption 使用的加密方法(如果有) author 作者 modDate 最后修改日...
|方法/属性|描述|---|Document.page_count|页数 (int)|Document.metadata|元数据 (dict)|Document.get_toc()|获取目录 (list)|Document.load_page()|读取页面 示例: >>> doc.count_page 1 >>> doc.metadata {<!-- -->'format':'PDF 1.7', 'title':'', 'author':'', 'subject':'', 'keywor...
get_toc(simple=True) 创建目录(TOC),以文档的大纲链为基础。参数:simple(bool)– 指示是否需要简单或详细的 TOC。如果为False,则列表的每个项目还包含用于每个大纲条目的 linkDest 详细信息的字典。返回类型:list返回:一个列表的列表。每个条目的形式为[lvl, title, page, dest]。其条目具有以下含义:...
1 toc = doc.get_toc() 3.6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。 首先,必须创建一个页面Page。
Please provide all mandatory information! Describe the bug (mandatory) get_toc returns wrong information in pymupdf 1.23.6 To Reproduce (mandatory) pdf = fitz.open("outputs/dossiers/91dc9eb5-a34e-4241-89b7-28188421b534/PJ49_EDD_compDREAL...
参数int idx:列表Document.get_toc()中项目的索引。 返回: xref。 del_toc_item(idx) 从v1.17.7 开始新增 从v1.18.14 开始更改:不再删除项目的文本,而是显示为灰色。 仅PDF:删除此 TOC 项。这是一种高速方法,禁用了相应的项目,但保留了整体的 TOC 结构。在物理上,项目仍然存在于 TOC 树中,但以灰色显示...
toc = doc.get_toc() 6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。
print(pdf_document.get_toc()) # 获取目录大纲 print(pdf_document.page_count) # 获取页数 文档信息如下: {'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '7e1d6144af9e0ffb0HJ_0924E1RQy4S3U_uCQ-ernv_VMhNm', 'creator': 'Microsoft® Word 2021',...
toc= doc.get_toc 6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。