使用metadata属性获取PDF文件的元数据: metadata=doc.metadataprint(metadata) 修改元数据: 使用set_metadata方法修改元数据: new_metadata={"title":"New Title","author":"New Author","subject":"New Subject","keywords":"New Keywords","creator":"New Creator","producer":"New Producer","creationDate":...
如下面的例子所示,可以从中提取大量信息,包括文档的创建日期、文件路径、图像坐标以及目录(TOC),所有这些都可以丰富应用的上下文信息。 md文本 = pymupdf4llm.转换为Markdown(doc="/content/document.pdf", # 文件路径,指向PDF文档 pages = [0, 1, 2], # 指定要转换的页面 page_chunks = True) # 指定是否...
) # 输出或检查Markdown表格结果 md_text_tables 2. 图像提取:让图像生动起来 Pymupdf4llm可以从PDF文件中提取图片,你可以用你的LLM来分析这些图片,或在你的AI项目中使用它们。你甚至可以指定所需的图片格式,例如PNG、JPG或GIF。 md_text_images = pymupdf4llm.to_markdown( doc="input_images.pdf", pages=...
pymupdf4llm作为结合PyMuPDF与大型语言模型的工具库,主要服务于从PDF文档中高效提取结构化数据,供后续自然语言处理任务使用。以下从环境配置、核心功能、数据预处理、高级应用四个维度展开,提供超过四十项具体操作指南。 环境搭建需注意操作系统适配性差异。Linux系统推荐使用Ubuntu22.04LTS版本,通过apt-get安装libfreetype6-...