Document.get_toc() 获取目录(list) Document.load_page() 读取某一页(Page 对象) 访问元数据 PyMuPDF 完全支持标准元数据。Document.metadata 是一个 Python 字典,包含以下键值对: 键值 producer 生产软件 format 格式,如 'PDF-1.4'、'EPUB' encryption 使用的加密
Document.get_page_numbers():仅限PDF:获取具有指定标签的页面编号 Document.get_page_pixmap():根据页面编号创建页面图像 Document.get_page_text():提取指定页面的文本 Document.get_page_xobjects():仅限PDF:列出页面引用的XObject Document.get_sigflags():仅限PDF:确定签名状态 Document.get_toc():提取目录...
|方法/属性|描述|---|Document.page_count|页数 (int)|Document.metadata|元数据 (dict)|Document.get_toc()|获取目录 (list)|Document.load_page()|读取页面 示例: >>> doc.count_page 1 >>> doc.metadata {<!-- -->'format':'PDF 1.7', 'title':'', 'author':'', 'subject':'', 'keywor...
1 toc = doc.get_toc() 3.6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。 首先,必须创建一个页面Page。
get_toc(simple=True) 创建目录(TOC),以文档的大纲链为基础。参数:simple(bool)– 指示是否需要简单或详细的 TOC。如果为False,则列表的每个项目还包含用于每个大纲条目的 linkDest 详细信息的字典。返回类型:list返回:一个列表的列表。每个条目的形式为[lvl, title, page, dest]。其条目具有以下含义:...
toc= doc.get_toc 6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。
toc = doc.get_toc() 6. 页面(Page) 页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。
print(pdf_document.get_toc()) # 获取目录大纲 print(pdf_document.page_count) # 获取页数 文档信息如下: {'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '7e1d6144af9e0ffb0HJ_0924E1RQy4S3U_uCQ-ernv_VMhNm', 'creator': 'Microsoft® Word 2021',...
# 提取目录toc=pdf.get_toc() 1. 2. 代码解释: 我们使用pdf.get_toc()方法来提取PDF文档的目录信息,并将其赋值给变量toc。 5. 处理目录信息 在这一步中,我们将处理提取到的目录信息,以便我们可以按照我们的需求进行进一步的操作。下面是相关代码: ...
get_toc(simple=True)创建目录(TOC),以文档的大纲链为基础。PyMuPDF 1.24.4 中文文档(七)(3)https://developer.aliyun.com/article/1559546文章标签: 数据安全/隐私保护 Python 索引 测试技术 存储 布客飞龙 +关注 4294文章 0 0 0 0 相关文章 布客飞龙 | 10月前 | XML 数据安全/隐私保护 数据格式 ...