本文主要介绍 prompt engineering 和adapter 两类 CLIP 微调方式。 Prompt Engineering 不同于常规的视觉预训练-微调范式(如在 ImageNet 1K 分类数据集上进行有监督预训练),文本塔的存在赋予了 CLIP 进行 prompt engineering 的能力,从而有极强的灵活性。首先,像原文中的做法一样,CLIP 可以直接通过手工构造 prompt ...
Context Optimization,上下文优化,仅微调文本嵌入后的一部分向量 CLIP Adapter,CLIP适配器,仅微调两对(或一对)线性分类器 我们先从最简单的开始 Linear Probe linear probe,图像经图像编码器后得到了特征,虽然此时特征隐含语义,但人类无法基于这种特征做分类。因此,需要一种方法来对这些类别拟合。如果不使用任何学习,则...
CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层;相反,原始适配器模块插入到语言主干的所有层中; 此外,CLIP Adapter通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。 通过这种“残差样式混合”,CLIP Adapter可以同时利用原始CLIP中存储的知识和来自Few-Shot训练样本的新学习的...
CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层;相反,原始适配器模块插入到语言主干的所有层中; 此外,CLIP Adapter通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。 通过这种“残差样式混合”,...
https://github.com/gaopengcuhk/clip-adapter 3.1 模型 最下面就是 adapter 的结构,在小样本学习时,在两个分支上各加入一个可学习的层。小样本训练时,其他部分冻结参数(如果更新整个大模型,由于数据太少很容易过拟合)。并且为了更好地结合微调的知识和原始的知识,又加入一个残差连接结构,见图。
微调得到新的CLIP视觉编码器(VEimo)后,利用它创建一个改进的缓存模型,类似于Tip-Adapter。使用校正了IMO的编码N个类别各K张的训练图像Gtrain∈RNK×dGtrain∈RNK×d,将这些编码作为键,它们对应的one-hot编码标签Lk,k∈{1,NK}Lk,k∈{1,NK}作为值,以形成键值缓存模型,目的是增强CLIP模型的先验知识。
2. CLIP Adapter 只在CLIP的语言和图像分支上附加少量可学习的瓶颈线性层,在few-shot , fine-tuning期间,保持原始clip主干冻结。 然而,使用附加层进行简单的微调在few-shot中仍然可能会陷入过度拟合。为了解决过拟合问题,提高CLIP-Adapter的鲁棒性,进一步采用残差连接,将微调后的知识与CLIP主干中的原始知识动态融合。
Cross-modal adaptation先进的实验结果证明了CLIP这一类的多模态模型的最优微调范式一定要利用跨模态的信息,这一点和单模态微调(例如prompting和adapter之于大语言模型)有显著的区别。我们认为文本模态对于小样本泛化任务有非常明显的帮助,因此后续工作应当着重研究如何利用更多的文本信息来提升图像分类的效果。
上半部分为微调的结构,该结构基于预训练的视频特征,来生成caption,由于预训练中生成的video encoder能够生成和文本高度对齐的视频特征,因此,在进行caption的时候会更加容易。 2.5. CLIP-Adapter: Better Vision-Language Models with Feature Adapters 2.5.1. 论文信息 ...