GoogleDocsReader = download_loader('GoogleDocsReader') loader = GoogleDocsReader() documents = loader.load_data(document_ids=[...]) LlamaIndex提供了的各种数据连接器包括: SimpleDirectoryReader:支持本地文件目录中的多种文件类型(.pdf, .jpg, .png, .docx等)。 NotionPageReader:从Notion获取数据。 la...
GoogleDocsReader=download_loader('GoogleDocsReader') loader=GoogleDocsReader() documents=loader.load_data(document_ids=[...]) LlamaIndex提供了的各种数据连接器包括: SimpleDirectoryReader:支持本地文件目录中的多种文件类型(.pdf, .jpg, .png, .docx等)。 NotionPageReader:从Notion获取数据。 lackReader:...
4.1 数据连接器(Data Connectors)支持从本地文件、数据库、APIs等获取数据:代码示例:加载PDF文件 from llama_index.core import SimpleDirectoryReader # 加载目录下所有PDF reader = SimpleDirectoryReader(input_dir="data", file_extractor={".pdf": "PDFReader"}) documents = reader.load_data() pri...
from llama_indeximportdownload_loader GoogleDocsReader=download_loader('GoogleDocsReader')loader=GoogleDocsReader()documents=loader.load_data(document_ids=[...]) LlamaIndex提供了的各种数据连接器包括: SimpleDirectoryReader:支持本地文件目录中的多种文件类型(.pdf, .jpg, .png, .docx等)。 NotionPageRead...
对于包含大量表格的 PDF 文件,建议使用 LlamaIndex 推荐的 RecursiveRetriever。这种递归检索技术的精髓在于,它不仅深入挖掘与信息直接相关的节点,还会追溯这些节点与其它检索器或查询引擎之间的关联,进而执行相应的检索操作。 例如,某个节点精炼地总结了某个结构化表格的关键信息,并链接到该表格的 SQL 或 Pandas 查询引...
lackReader:从Slack导入数据。 ApifyActor:能够抓取网页,抓取,文本提取和文件下载。 如何找到正确的数据连接器? 首先查找并检查Llamaindex文档中是否列出了相关的数据连接器,如果没有,可以访问Llamahub,看看是否有现成的连接器 例如: PDF文件:可以使用SimpleDirectoryReader数据连接器。下面的示例加载BCG年度可持续发展报告。
│ ├── report.pdf │ └── manual.docx ├── models/ # 本地模型目录 └── index_storage/ # 索引持久化路径 三、数据加载与处理 3.1 多格式文档加载 使用SimpleDirectoryReader实现批量导入: fromllama_index.coreimportSimpleDirectoryReader# 加载本地文件夹documents=SimpleDirectoryReader(input_dir="da...
lackReader:从Slack导入数据。 ApifyActor:能够抓取网页,抓取,文本提取和文件下载。 如何找到正确的数据连接器? 首先查找并检查Llamaindex文档中是否列出了相关的数据连接器,如果没有,可以访问Llamahub,看看是否有现成的连接器 例如: PDF文件:可以使用SimpleDirectoryReader数据连接器。下面的示例加载BCG年度可持续发展报告。
文档(Document)是任何数据源的容器 —— 例如一个PDF文件、一个API输出或者从数据库检索的数据。 节点(Node)是LlamaIndex中数据的原子单位,代表来源文档的一个“chunk”。节点具有元数据,这些元数据将它们与所在的文档以及其他节点相关联。 2、Connectors
知識圖檢索器 (KG Table Retriever)知識圖檢索器從節點的分層樹中檢索節點。支持 keywords、embeddings、和hybrid模式。1. 關鍵字模式(keywords): 使用查詢中提取的關鍵字來尋找相關的節點。2. 嵌入模式(embeddings): 使用嵌入向量來尋找相關的節點。3. 混合模式(hybrid): 同時使用關鍵字和嵌入向量來尋找相關的三元組...