近期,我们利用AutoDL服务器,通过两个NVIDIA 3090显卡并行运算,成功运行了Yi-34B-Chat-int4模型,并通过vllm优化技术实现了推理速度的显著提升。 硬件环境介绍 我们使用的AutoDL服务器搭载了两个NVIDIA 3090显卡,拥有24GB的显存,这使得我们能够处理像Yi-34B-Chat-int4这样显存占用高达42G的模型。此外,3090显卡的Tensor ...
使用int4量化之后的34B模型可以运行在24G显存的GPU上。参考《Understanding INT4 Quantization for Language...
Yi-34B-Chat-4bits模型: modelscope.cn/models/01 Yi-34B-Chat-8bits模型: modelscope.cn/models/01 社区支持直接下载模型的repo: from modelscope import snapshot_download model_dir = snapshot_download("01ai/Yi-34B-Chat", revision = "master") model_dir_int4 = snapshot_download("01ai/Yi-34B...
在A40显卡上运行Yi-34B-Chat-int4模型,可以充分利用其计算能力,提升模型训练和推理的速度。 然后,我们需要使用VLLM优化技术来加速模型运行。VLLM是一种针对大型语言模型的优化技术,它通过向量化计算、内存优化等手段,降低模型运行时的显存占用,提升运行速度。在运行Yi-34B-Chat-int4模型时,我们可以利用VLLM优化技术,...
Yi-34B-Chat-8bits模型: https://modelscope.cn/models/01ai/Yi-34B-Chat-8bits/summary 社区支持直接下载模型的repo: from modelscope import snapshot_download model_dir = snapshot_download("01ai/Yi-34B-Chat", revision = "master") model_dir_int4 = snapshot_download("01ai/Yi-34B-Chat-4bits...
65G 01-ai/Yi-34B-200K 运行环境 在上一篇文章中,我使用的是一台能打游戏的台式机:13900KF + 4090。 在实际测试过程中,如果你按照我提供的方法来运行。并不需要 4090 24G的显卡,我们将显存需求卸载到 CPU 和内存上,显卡只要能装载,最少 13G,最多 21 GB 的程序即可。(虽然不推荐魔改显卡,但是如果你恰好...
使用autodl服务器,在A40显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18 words/s fly-iot 【大模型研究】(1):从零开始部署书生·浦语2-20B大模型,使用fastchat和webui部署测试,autodl申请2张显卡,占用显存40G可以运行
65G01-ai/Yi-34B 65G01-ai/Yi-34B-200K 运行环境 在上一篇文章中,我使用的是一台能打游戏的台式机:13900KF + 4090。 在实际测试过程中,如果你按照我提供的方法来运行。并不需要 4090 24G的显卡,我们将显存需求卸载到 CPU 和内存上,显卡只要能装载,最少 13G,最多 21 GB 的程序即可。(虽然不推荐魔改显...
目前最具公信力的 HuggingFace 榜单中,包括 Yi-34B 在内,排在它前面的模型只有 26 个,但是其中 48% (14个)都是 Yi-34B 和 Yi-34B 200K 的变体模型,其中第一名是来自社区用户 fblgit 的“LLaMa Yi 34B” ,比之前因为数据污染而被取消榜单资格的 TigerBot 的 70B 的效果还要好一些,千问憋出的大招 QWen...
Video 只需24G 显存,用 vllm 跑起来 Yi-34B 中英双语大模型 2023-12-28 漆妮妮 Video Yi-VL-34B 多模态大模型 - 用两张 A40 显卡跑起来 2023-01-28 漆妮妮 Why Yi? Ecosystem Upstream Downstream Serving Quantization Fine-tuning API Benchmarks Chat model performance Base model performance Yi-...