blip2_opt pretrain_opt2.7b, pretrain_opt6.7b, caption_coco_opt2.7b, caption_coco_opt6.7b blip2_t5 pretrain_flant5xl, pretrain_flant5xl_vitL, pretrain_flant5xxl, caption_coco_flant5xl blip2_feature_extractor pretrain, pretrain_vitL, coco blip2 pretrain, pretrain_vitL, coco blip2_image...
LLM模型:选择了OPT和FlanT5的一些不同规模的模型。 训练时,CV模型和LLM都是冻结的状态,并且参数都转为了FP16。这使得模型的计算量大幅度降低。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。 最大的模型,ViT-G/14和FlanT5-XXL,只需要16卡A100 40G,训练6+3天就可以完成。 所有的图片都被缩放到...
LLM模型:选择了OPT和FlanT5的一些不同规模的模型。 训练时,CV模型和LLM都是冻结的状态,并且参数都转为了FP16。这使得模型的计算量大幅度降低。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。 最大的模型,ViT-G/14和FlanT5-XXL,只需要16卡A100 40G,训练6+3天就可以完成。 所有的图片都被缩放到...
16卡A100训练9天即可完成训练(ViT-g + FlanT5-XXL) 两阶段训练,先训练表征能力, 再训练生成能力 提出了Q-Former来解决视觉和语言的模态对齐问题,由共享self-attention层的两个transformer组成 第一个transformer输入是可训练的learned queries,中间和image embedding做CA 第二个transformer输入是text embedding,中间只有...
また、最大サイズのモデル(ViT-gとFlanT5-XXL)計算時間は、16-A100(40G)のマシンを1台使用した場合、第一段階で6日未満、第二段階で3日未満でした。 ハイパーパラメータについては、すべてのモデルで同じ値です。AdamW をβ1 = 0.9、β1 = 0.98、weight_decay=0.05を使用します。ピーク学...
LLM模型:选择了OPT和FlanT5的一些不同规模的模型。 训练时,CV模型和LLM都是冻结的状态,并且参数都转为了FP16。这使得模型的计算量大幅度降低。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。 最大的模型,ViT-G/14和FlanT5-XXL,只需要16卡A100 40G,训练6+3天就可以完成。
LLM模型:选择了OPT和FlanT5的一些不同规模的模型。 训练时,CV模型和LLM都是冻结的状态,并且参数都转为了FP16。这使得模型的计算量大幅度降低。主要训练的基于BERT-base初始化的Q-Former只有188M的参数量。 最大的模型,ViT-G/14和FlanT5-XXL,只需要16卡A100 40G,训练6+3天就可以完成。
在 VQAv2 上,它的性能比 Flamingo80B 高出8.7%,尽管它的可训练参数少了54倍。在 OK-VQA 数据集上,BLIP-2 仅次于 Flamingo80B。我们假设这是因为 OK-VQA 更关注开放世界的知识,而不是视觉理解,而来自 Flamingo80B 的 70B Chinchilla 语言模型比11B FlanT5XXL 拥有更多的知识。
图4. 使用BLIP-2模型w/ ViT-G和FlanT5XXL的 表明性zero-shot图像-文本生成的部分例子,它显示了广泛的能力,包括视觉对话、视觉知识推理、视觉常识推理、讲故事、个性化的图像-文本生成等。 - 由于使用了冻结的单模态模型和轻量级的Q-Former,BLIP-2比现有的先进技术更具计算效率。例如,BLIP-2比Flamingo(Alayrac等...
ViT-g and FlanT5 xxl版本模型的效果 相关工作 之前的VLM模型大多基于image-text pair datasets进行end to end训练 冻结图像encoder:UNITER、Oscar等(冻结Object Detector),LiT(冻结Image encoder) 冻结LLM:Frozen、Flamingo、Visualgpt、MAPL、Plug-and-play VQA等 模型结构 :Query Transformer(Q-Former) ...