为了让大家更好的掌握MemVP,研梦非凡于12月11日晚(周三),邀请了多模态专家王导师,为大家独家详解《视觉语言融合新范式MemVP:基于记忆空间的多模态大模型高效微调方法》,从构建视觉-语言模型的发展和弊端到大型视觉语言模型的详细介绍,重点...
这里用到的模型是LaVIN(语言模型是LLaMA,视觉模型是ViT-L)。LaVIN通过参数高效的训练能将LLaMA拓展到多模态来完成图文问答、对话以及文本对话等等任务。 目前的结果:7B的多模态大模型训练(LaVIN-7B)大约需要8~9G的显存,13B的多模态大模型训练(LaVIN-13B)大约需要13~14G显存。目前的模型在单张消费级显卡上已经完全...