LangChain 中的 Document 对象包含一些数据的信息, 两个属性 page_content: str:本文档的内容。目前仅为字符串。 metadata: dict:与此文档相关的任意元数据。可以跟踪文档 ID、文件名等。 Document loaders 加载Document 对象,可从以下数据源加载数据Slack, Notion, Google Drive, etc. 每个DocumentLoader 都有自己...
Document 里面主要包含两个元素,page_content 和 metadata。 metadata 是字典类型,这里包含 source 键,表示数据源位置。metadata内容和 Loader 对象有关,不同的对象,生成的 metadata 内容不同。 既然最终的 Document 中包含 page_content 和 metadata,我们想办法把这些数据给到 LLM,然后让 LLM 根据这些数据做总结、做...
lookup_str='', metadata={'source': 'Nationals', 'row': 0}, lookup_index=0), Document(page_content='Team: Reds\n"Payroll (millions)": 82.20\n"Wins": 97', lookup_str='', metadata={'source': 'Reds', 'row': 1}, lookup_index=0), Document(page_content='Team: Yankees\n"Payroll...
然后,在你的Python脚本中导入document_loaders模块: python from langchain.document_loaders import DocxLoader 使用DocxLoader类: DocxLoader类提供了加载.docx文件的方法。你需要指定要加载的.docx文件的路径。 指定要加载的.docx文件路径: 这是一个字符串,表示你想要加载的.docx文件的路径。例如,如果你的文件名...
简介: LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索 背景描述 LangChain 提供了多种文档加载器,包括但不限于以下几种: TextLoader:用于从各种来源加载文本数据。 CSVLoader:用于加载 CSV 文件并将其转换为 LangChain 可以处理的文档...
JSONLoader:用于加载和处理 JSON 文件。 PyPDFLoader:用于加载 PDF 文件。 ArxivLoader:专门用于加载来自 Arxiv 的文档。 安装依赖 pip install -qU langchain-core langchain-openai 加载Text 编写代码 from langchain_community.document_loaders import TextLoader loader = TextLoader("./index.md") data = lo...
PyPDFLoader:用于加载 PDF 文件。 ArxivLoader:专门用于加载来自 Arxiv 的文档。 安装依赖 pip install -qU langchain-core langchain-openai 1. 加载Text 编写代码 from langchain_community.document_loaders import TextLoader loader = TextLoader("./index.md") ...
fromlangchain.document_loadersimportBSHTMLLoader loader=BSHTMLLoader("loader.html")data=loader.load()data 只加载去除标签后的关键内容: 4 加载JSON 先装jq 包: ! pip install jq fromlangchain.document_loadersimportJSONLoader loader=JSONLoader(file_path="simple_prompt.json",jq_schema=".template",text...
在这个例子中,我们从 Notion 数据库导出数据,并将加载的内容存储在对象列表中,我们可以通过打印来访问第一个文档的文本内容。NotionDirectoryLoaderDocumentdocs0.page_content。 通过使用LangChain的文档加载器,您可以充分利用您的Notion数据库并与他们聊天,从而获得见解并做出更明智的决策。
docs = loader.load() 结构化数据加载器:虽然 LangChain 通常与非结构化数据相关联,但它也为 Airbyte、Stripe 和 Airtable 等结构化数据源提供加载器,允许您对这些结构化格式中包含的文本数据执行问答和语义搜索。 # Loading data from Airtablefromlangchain_community.document_loadersimportAirtableLoader# Your airta...