这是一个开源免费的PDF解析神器,MinerU。它可以把PDF转换成可以编辑的Markdown格式,其中的图片、表格、数学公式等都可以精确提取。它还可以转化提取扫描类的PDF文档。MinerU可以把PDF图片等转换成AI大模型容易理解的数据,所以它跟AI知识库(RAG)是绝配。我们先来简单看一下MinerU的技术原理,还有如何免费在官网使用。...
示例:解析本地PDF文件importos frommagic_pdf.data.data_reader_writerimportFileBasedDataWriter, FileBasedDataReader frommagic_pdf.data.datasetimportPymuDocDataset frommagic_pdf.model.doc_analyze_by_custom_modelimportdoc_analyze frommagic_pdf.config.enumsimportSupportedPdfParseMethod # 输入PDF文件路径 pdf_...
如果前面已经在PDF-Extract-Kit项目中下载过模型,可以在magic_pdf/model文件下通过软链接的方式指向PDF-Extract-Kit项目中的模型。 拷贝配置文件并进行配置 在仓库根目录下 cp magic-pdf.template.json ~/magic-pdf.json 在magic-pdf.json中配置"models-dir"为模型权重文件所在目录 { "models-dir": "/tmp/models...
样例文件地址:https://github.com/opendatalab/MinerU/blob/master/magic-pdf.template.json 6. 输出结果 打开输出目录,可以看到输出了多个文件。提取的图表在`images`文件夹内。 一般用户关注"xx_layout.pdf"和"xx.md"两个文件即可,将两个文件并排排列(win+←/→),对照识别框进行校对。 可以看到MinerU已经自...
它是一款开源的高质量PDF数据提取工具,能够将PDF文档智能地转换为结构化的数据格式,如Markdown、JSON等,极大地提升了数据处理的效率和质量。Github网址链接:https://github.com/opendatalab/MinerU 一、MinerU的主要功能 1.智能清理与结构保持 MinerU能够自动移除PDF文档中的页眉、页脚、脚注、页码等干扰内容,...
PDF转markdown,AI知识库绝配,科研文献整理必备,MinerU将PDF转化为机器可读格式的工具 6.0万 5 00:27 App 再复杂的PDF也能轻松读取,开源且免费,GitHub即可部署 772 0 14:34 App AI知识库搭建+模型微调必备!MinerU本地部署批量PDF转 AI 易读 Markdown 1.8万 0 01:24 App MinerU 更新啦!易用性拉满,最新...
MinerU是一款开源的智能文档解析工具,专注于将PDF等文档高效转换为Markdown和JSON等结构化格式。在当前大语言模型(LLM)蓬勃发展的时代,高质量的结构化数据对于训练和微调LLM至关重要。MinerU通过其强大的智能文档解析能力,不仅可以为LLM提供清晰的训练语料,还能作为AI应用的重要数据预处理工具。与传统PDF处理工具不同,Mi...
MinerU PDF文档提取流程 由于PDF文档通常包含比网页和电子书更复杂的元素,处理起来更具挑战性和代表性,本文将重点介绍MinerU如何实现高质量的文档数据提取。MinerU的PDF文档提取主要由以下四个环节构成:1. 文档分类预处理 分类识别:MinerU支持对输入的PDF文档进行分类,判断其类型(如文本型PDF、图层型PDF、扫描版...
MinerU:PDF神器,一键处理! MinerU是一款由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。以下是MinerU的一些核心特性和功能: 📚 一站式、高质量的开源文档提取工具:MinerU能够将PDF转化为机器可读格式,如markdown、json,方便地抽取为任意格式。 🔍 项目起源:Mi...
1 文件格式 插件 Marker MinerU Markitdown magic-pdf magic-doc 支持的文件格式 PDF、EPUB 和 MOBI PDF PPT、PPTX、DOC、DOCX、PDF PDF, PowerPoint, Word, Excel Images (EXIF met