在VM 中本地运行 TheBloke/Llama-2-7B-Chat-GPTQ 模型 您需要至少 8GB 配置的 GPU。为此,我使用了 paperspace RTX 4000。 检查机器上安装的CUDA版本。例如11.7 从这里安装对应CUDA版本的torch:https://pytorch.org/get-started/locally/ 从源安装 AutoGPTQ。 从这里运行代码https://gist.github.com/rajendrac3...
它支持多种量化方法,以适应不同的硬件和性能需求,并兼容llama.cpp及多个第三方UI和库。该模型基于Mistral 7B架构,通过Evil tuned方法进行微调,旨在提供实验性的文本生成能力。用户可以根据自身需求选择不同量化级别的模型文件,并在相应的客户端和库中使用。
vllm [Bug]: 当使用chunked-prefill托管TheBloke/Llama-2-7B-Chat-GPTQ时出现服务器错误你好,@rkooo...