先跟着代码,安装Exllamav2! 下载模型+校准数据集! 如果本地的朋友,一定要进入工作文件夹,然后运行以下指令! mkdir quant python python exllamav2/convert.py \ -i base_model \ -o quant \ -c wikitext-test.parquet \ -b 5.0 -i:要以 HF 格式 (FP16) 转换的基本模型的路径 -o:包含临时文件和最终...
比如上面的内容,ExLlamaV2使用了5%的3位精度和95%的2位精度,平均值为2.188 bpw,组大小为32。这导致了一个明显的误差,所以在选择最佳参数时要考虑到这个误差,通过查看json文件的结果,我们可以判断出这次量化是否符合我们的要求,并且进行调整。 使用ExLlamaV2进行推理 模型已经量子化了,下面就是使用模型进行推理了。...
最直接的方法是使用ExLlamaV2 repo中的test_inference.py脚本(注意,我在这里没有使用聊天模板): python exllamav2/test_inference.py-m quant/ -p"Ihaveadream" 与GGUF/llama.cpp或GPTQ等其他量化技术和工具相比,生成速度也非常快(在T4 GPU上每秒56.44个令牌)。 也可以使用chatcode.py脚本的聊天版本来获得更大...
ExLlamaV2使用的量化算法与GPTQ类似。但ExLlamaV2不是选择一种精度类型,而是在测量量化误差的同时为每层尝试不同的精度类型。所有的尝试和相关的错误率都会被保存。用户提供的目标精度,ExLlamaV2算法将通过为每层模块选择平均最低错误率的目标精度的量化精度来量化模型。 在量化过程中,ExLlamaV2会输出测试的结果: -...
准备工作完成后,就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了,主要的参数是: -i:以HF格式(FP16)转换的基模型路径。 -o:存放临时文件和最终输出的工作目录路径。 -c:校准数据集的路径(Parquet格式)。 -b:目标平均加权位数(bpw)。例如,4.0 bpw将给出4...
准备工作完成后,就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了,主要的参数是: -i:以HF格式(FP16)转换的基模型路径。 -o:存放临时文件和最终输出的工作目录路径。 -c:校准数据集的路径(Parquet格式)。 -b:目标平均加权位数(bpw)。例如,4.0 bpw将给出4位精度的存储权重。
A fast inference library for running LLMs locally on modern consumer-class GPUs - son-koku/exllamav2
使用ExLlamaV2量化并运行EXL2模型,ExLlamaV2已经被集成到几个常见的后端中,比如oobabooga的文本生成webUI。但是它需要FlashAttention2和CUDA12.1(这在win
使用ExLlamaV2进行量化就像运行convert.py脚本一样简单: pythonconvert.py -i ./Llama-2-13b-hf/ -o ./Llama-2-13b-hf/temp/ -c test.parquet -cf ./Llama-2-13b-hf/3.0bpw/ -b 3.0 脚本的主要参数如下: 需要注意的是: ExLlamaV2不支持Hugging Face的线上模型,因为它期望模型和校准数据集存储在本地...
准备工作完成后,就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了,主要的参数是: -i:以HF格式(FP16)转换的基模型路径。 -o:存放临时文件和最终输出的工作目录路径。 -c:校准数据集的路径(Parquet格式)。 -b:目标平均加权位数(bpw)。例如,4.0 bpw将给出4位精度的存储权重。