启动web demo 执行python web_demo.py,得到微调后的效果: 也可以使用命令行启动 添加新的文件pt_terminal_demo.py import os import torch from transformers import AutoConfig, AutoModel, AutoTokenizer MODEL_PATH = "/mnt/workspace/ChatGLM2-6B/module" CHECKPOINT_PATH = "/mnt/workspace/ChatGLM2-6B/ptu...
git clone https://huggingface.co/THUDM/chatglm2-6b 执行完成后进入chatglm2-6b文件夹,需要把红框文件删除,通过wget命令重新下载。获取地址:wget批量下载:#1. 新建url.txt文件 2. 编辑url.txt,写入8个地址。 3. 执行wget -i url.txt 3.(可忽略)使用web demo访问模型:#可以通过web demo访问,如果与FAST...
(1)该版本是启动基于 Streamlit 的网页版 demo,项目README.md中介绍该版本的网页版demo更流畅。 (2)修改web_demo2.py中模型路径为本地int4模型路径THUDM\chatglm2-6b-int4。 (3)启动demo:streamlit run web_demo2.py,在浏览器中出现如下,进行试用对话,成功 ;但好像智商一般,看来int4的模型精度还是不太行,...
python cli_demo.py 运行起来的截图如下所示: 3、方法2,通过基于Gradio的网页版运行模型加载测试Demo。 和方法1类似,这里也主要是修改web_demo.py配置文件,将“THUDM/chatglm2-6b”修改成自己的模型文件路径。然后执行以下命令,直接就可以启动该脚本了。 代码语言:javascript 复制 python web_demo.py 另外,如果要...
运行ChatGLM2-6B web demo 首先我们需要 kill 掉系统开启自启的 ChatGLM2-6B API 服务,Jupyterlab 里新建一个 Terminal,然后输入下面指令查看api服务器进程id。 ps aux | grep api.py kill 掉相关进程,从上面运行结果可以看出,api.py进程id是5869,执行下面指令即可 kill 相关进程: ...
1、首先,将chatglm-web,拷贝到:/home/work/chatglm2/下面。如下图所示 2、方法1:命令行模型Demo测试:进入到chatglm-web文件夹中,修改cli_demo.py文件中的模型路径地址,如下图所示 具体地,将上面的“THUDM/chatglm2-6b”修改成自己的模型文件路径,我们这里模型路径是在:/home/work/chatglm2/chatglm2-model...
model = AutoModel.from_pretrained("F:\ChatGLM2-6B-main",trust_remote_code=True).float() 第十三步:运行web_demo.py代码 第十四步:等待 第十五步:看到这个界面,就说明成功了 完 视频操作过程:https://www.bilibili.com/video/BV1az4y137sC/
下载下来的源代码,在web_demo.py文件中的第6-7行:tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device='cuda')修改后:tokenizer = AutoTokenizer.from_pretrained("E:\ChatGLM...
2.3.2 选择web_demo.py运行 初步看,可以简单的聊天,并能写程序。 三. 简单聊聊场景 3.1 结合LangChain实现本地知识库 实现过程:包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到prompt中 ...
bash web_demo.sh 结果对比 原始模型 微调后模型 LangChain + ChatGLM2-6B 构建知识库 LangChain 知识库技术原理 目前市面上绝大部分知识库都是 LangChain + LLM + embedding 这一套,实现原理如下图所示,过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出...