large-language-model llama 1个回答 0投票 在VM 中本地运行 TheBloke/Llama-2-7B-Chat-GPTQ 模型 您需要至少 8GB 配置的 GPU。为此,我使用了 paperspace RTX 4000。 检查机器上安装的CUDA版本。例如11.7 从这里安装对应CUDA版本的torch:https://pytorch.org/get-started/locally/ 从源安装 AutoGPTQ。 从...
vllm [Bug]: 当使用chunked-prefill托管TheBloke/Llama-2-7B-Chat-GPTQ时出现服务器错误你好,@rkooo...