LORA 微调: 1张显卡,占用 14082MiB 显存。 实机配置 目前我有三个方案: 方案1:MacBookProM1 16GB(平常用的机器,可以支撑起 LoRA…勉强跑 不推荐) 方案2:找算法组借的 2070 Super 8GB * 2 一共16GB显存(但是不能微调,后续说) 方案3:租的 3090 24GB * 1(完美,ChatGLM3-6B的微调任务都在该机器上完成...
因为 ChatGLM3-6B 模型载入后会占用大约 13GB 左右显卡显存。(3090,4090都可以)
chatglm3-6b 有三个版本,base,chat微调后的,以及32k版本。 首先,三个消耗的显存都在13GB左右,8bit量化会占用更少,但在half的情况下,至少需要rtx 3090的24GB来部署推理,推理速度和rtx4090的速度差不多,基本上跟回复的token长度有关,日常使用基本上在10s以内。 其中,generate型生成会更遵循指令,也能更方便的得...
1.GPU显存占用:12.2G,估计RTX3080够呛。 |---+---+---+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===+===+===| | 0 NVIDIA...
最终大约占用14GB的显存。 项目地址 至于模型的下载,可以查看 上一章节LLM-01 大模型 ChatGLM2-6b(4GB)的教程 # Github 项目地址https://github.com/THUDM/ChatGLM3 # 下载模型git clone https://huggingface.co/THUDM/chatglm3-6b• 1• 2 ...
【大模型研究】(5):在AutoDL上部署,一键部署DeepSeek-MOE-16B大模型,可以使用FastChat成功部署,显存占用38G,运行效果不错。 5601 -- 24:43 App 【chatglm3】(10):使用fastchat本地部署chatlgm3-6b模型,并配合chatgpt-web的漂亮界面做展示,调用成功,vue的开源项目 815 -- 11:59 App 【xinference】(4):在...
使用量化模型的另外一个好处是,你可以单独使用CPU运行这些模型,而不再需要显卡,并且占用更小的内存。因为量化过程将浮点数据(更适合显卡运算)转换成了整形数据(更适合CPU运行)。ChatGLM-6B未量化之前需要占用13G的显存或者32G的内存才能运行;而进行量化之后,可以在8G内存的主机上运行。
注意:腾讯云安全组需要放开TCP:7860端口。 总结 整个过程,相对于我的想象,要简单很多,在界面执行上,相对比较迅速,值得试用。不过,ChatGLM3-6B对显存的占用上有12GB。下面是nvidia-smi的输出: 因此,如果对话过长,会有OutOfMemory的问题。小伙伴们有解决方案,欢迎评论区留言哦!
训练过程中,我们利用腾讯云GPU进阶型硬件资源,该配置提供32GB显存、10核CPU和40GB内存,确保高效训练。数据集以单轮对话形式提供,涵盖了"平安格勒战役"和" Ichiban"的解释,包含31条记录作为训练集,以及9条记录作为测试集。在参数设置方面,训练过程中GPU显存占用大约13GB,推理阶段则根据需要灵活调整。