InstructBLIP 一共微调 60K steps,3B, 7B, 11/13B 模型的 Batch Size 分别是 192,128,64,优化器使用 AdamW,weight decay 设为 0.05,在前 1000 steps 使用线性的学习率 warm-up,从10^{-8}到10^{-5},随后余弦衰减到0,使用 16 A100 GPU 训练 1.5 天。 1.5 实验结果:Zero-Shot 评估 Zero-Shot 推理...
例如 InstructBLIP FlanT5xl 比 BLIP-2 FlanT5xl 平均提高了 15%。此外,指令微调在没见过的任务类别上,比如视频问答(Video QA),提高了零样本泛化能力。InstructBLIP 在 MSRVTT-QA 比先前的 SOTA 提高了47.1%。最后,我们最小的 4B 参数的 InstructBLIP FlanT5xl,在6个评测数据集上打败了 Flamingo-80B,平均提高...