Langchain-ChatGLM相信大家都不陌生,近几周计划出一个源码解读,先解锁langchain的一些基础用法。 文档问答过程大概分为以下5部分,在Langchain中都有体现。 上传解析文档 文档向量化、存储 文档召回 query向量化 文档问答 今天主要讲langchain在文档embedding以及构建faiss过程时是怎么实现的。
我们首先介绍 LangChain 中内置的 TokenTextSplitter 实现和 TokenTextSplitter 中可以调用的 tokenizer 方法。 classTokenTextSplitter(TextSplitter):"""Implementation of splitting text that looks at tokens."""def__init__(self,encoding_name:str="gpt2",model_name:Optional[str]=None,allowed_special:Union[...
LangChain-GLM( https://github.com/imClumsyPanda/langchain-ChatGLM)是一种利用langchain思想实现的基于本地知识库的问答应用,目标建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。 本…
from langchain.agents import Tool # 导入工具模块from langchain.tools import BaseTool # 导入基础工具类from langchain import PromptTemplate, LLMChain # 导入提示模板和语言模型链from agent.custom_search import DeepSearch # 导入自定义搜索模块 # 导入基础单动作代理,输出解析器,语言模型单动作代理和代理执行...
一、简介 Langchain-ChatGLM 相信大家都不陌生,近几周计划出一个源码解读,先解锁langchain的一些基础用法。 文档问答过程大概分为以下5部分,在Langchain中都有体现。 上传解析文档 文档向量化、存储 文档召回 query向量化 文档问答 今天主要讲langch
Langchain-ChatGLM 相信大家都不陌生,近几周计划出一个源码解读,先解锁langchain的一些基础用法。 文档问答过程大概分为以下5部分,在Langchain中都有体现。 上传解析文档 文档向量化、存储 文档召回 query向量化 文档问答 今天主要讲langchain在上传解析文档时是怎么实现的。 二、文档解析逻辑,以txt类型的文件解析为例子...
一、分词(Text Splitting)in LangChain 分词是将长文本分解为以字词句等更小粒度分析单元的方法。本文主要涉及LangChain内置的几种分词方法。LangChain 的 TextSplitter 接口有两个主要参数: chunk_size : 文本分割的滑窗长度 chunk_overlap:重叠滑窗长度