论文地址:https://arxiv.org/abs/2312.16862 TinyGPT-V主要架构 TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过...
多模态能力,作为一款多模态模型,TinyGPT-V有效地结合了语言与视觉处理能力。基于Phi-2模型和来自BLIP-2或CLIP的视觉模块,它在处理图像描述、视觉问答等任务上表现出色。参数效率,尽管仅拥有2.8B参数,TinyGPT-V通过其独特的量化过程,能够在各类设备上实现高效的局部部署和推理任务,展现了与更大模型相匹敌的性能。
多模态能力,作为一款多模态模型,TinyGPT-V有效地结合了语言与视觉处理能力。基于Phi-2模型和来自BLIP-2或CLIP的视觉模块,它在处理图像描述、视觉问答等任务上表现出色。 参数效率,尽管仅拥有2.8B参数,TinyGPT-V通过其独特的量化过程,能够在各类设备上实现高效的局部部署和推理任务,展现了与更大模型相匹敌的性能。 ...
参数效率,尽管仅拥有2.8B参数,TinyGPT-V通过其独特的量化过程,能够在各类设备上实现高效的局部部署和推理任务,展现了与更大模型相匹敌的性能。 模型训练与评估 TinyGPT-V的训练遵循了与MiniGPT-v2相似的方法,使用LAION,Conceptual Captions,SBU等数据集进行多阶段训练。这种训练方法确保了模型在视觉语言任务中的有效性...
参数小,性能强!开源多模态模型 —TinyGPT-V 安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V,其性能可以媲美上百亿参数的模型,训练只需要24G GPU就能完成。TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。研究人员对TinyGPT-V的性能进行了多角度评估,显示...
TinyGPT-V主要架构 TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。 开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。
TinyGPT-V主要架构 TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。 开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。
TinyGPT-V主要架构 TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。 开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。