首先将HF_ENDPOINT环境变量修改为 hf-mirror.com: export HF_ENDPOINT=https://hf-mirror.com 然后进行下载: huggingface-cli download --resume-download Qwen/Qwen2-72B-Instruct-GPTQ-Int4 --local-dir Qwen2-72B-Instruct-GPTQ-Int4 这会在当前目录中创建一个Qwen2-72B-Instruct-GPTQ-Int4目录用于保存模...
首次执行命令,会从hf/modelscope下载模型,需要一定时间。 exportCUDA_VISIBLE_DEVICES=0vllm serve Qwen/Qwen2-VL-72B-Instruct-GPTQ-Int4 --dtype auto --api-key token-abc123 --max_model_len=8000--gpu_memory_utilization=0.98 --cpu-offload-gb64 参数:--cpu-offload-gb 64,使用内存量G 部署成功后...
想问下我们目前是否支持部署,如果不能部署的话预计什么时候可以支持一下~Collaborator Jintao-Huang commented Aug 5, 2024 已经支持了 文档有写~ Jintao-Huang closed this as completed Aug 8, 2024 Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment ...