近期,我们利用AutoDL服务器,通过两个NVIDIA 3090显卡并行运算,成功运行了Yi-34B-Chat-int4模型,并通过vllm优化技术实现了推理速度的显著提升。 硬件环境介绍 我们使用的AutoDL服务器搭载了两个NVIDIA 3090显卡,拥有24GB的显存,这使得我们能够处理像Yi-34B-Chat-int4这样显存占用高达42G的模型。此外,3090显卡的Tensor ...
在A40显卡上运行Yi-34B-Chat-int4模型,可以充分利用其计算能力,提升模型训练和推理的速度。 然后,我们需要使用VLLM优化技术来加速模型运行。VLLM是一种针对大型语言模型的优化技术,它通过向量化计算、内存优化等手段,降低模型运行时的显存占用,提升运行速度。在运行Yi-34B-Chat-int4模型时,我们可以利用VLLM优化技术,...
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s fly-iot 【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行