本文主要介绍 prompt engineering 和adapter 两类 CLIP 微调方式。 Prompt Engineering 不同于常规的视觉预训练-微调范式(如在 ImageNet 1K 分类数据集上进行有监督预训练),文本塔的存在赋予了 CLIP 进行 prompt engineering 的能力,从而有极强的灵活性。首先,像原文中的做法一样,CLIP 可以直接通过手工构造 prompt ...
3.1 CLIP-Adapter key idea overview method experiment 4.1 Tip-Adapter key idea overview method experiment CLIP 展示出了非常强大的zero-shot能力,那么如何在CLIP的基础上进行微调又不伤害原有的zero-shot能力哪,本文对这个研究方向进行调研。这里有两大类研究方向。 prompt learning:在text encoder的前端学习 adapt...
与提示调整主要针对文本输入不同,CLIP-Adapter在视觉或语言分支上使用功能适配器进行微调。具体来说,CLIP-Adapter通过引入额外的瓶颈层来学习新特征,并与原始预训练特征进行residual style特征混合。这种方法能够在保持简单设计的同时,优于上下文优化。通过在各种视觉分类任务上进行实验和广泛的消融研究,证明了CLIP-Adapter的...
CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层;相反,原始适配器模块插入到语言主干的所有层中; 此外,CLIP Adapter通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。 通过这种“残差样式混合”,...
作者将CLIP Adapter作为基于prompt的方法的一种替代方法,用于few-shot图像分类。CLIP Adapter仅通过微调少量额外的瓶颈层,就恢复了“预训练-微调”范式。为了进一步提高泛化能力,作者采用了由残差比率参数化的残差连接,将zero-shot知识与新的自适应特征动态融合。
作者将CLIP Adapter作为基于prompt的方法的一种替代方法,用于few-shot图像分类。CLIP Adapter仅通过微调少量额外的瓶颈层,就恢复了“预训练-微调”范式。为了进一步提高泛化能力,作者采用了由残差比率参数化的残差连接,将zero-shot知识与新的自适应特征动态融合。
目录 收起 CLIP-adapter 概括 Tip-adapter 概括 两篇将clip应用到下游任务微调的文章,方法都比较简单,就是在clip的backbone基础上,添加少量可训练的参数,实现高效微调,其中tip-adapter提出了一种不需训练的微调方式,比较有意思。 CLIP-adapter 论文标题:CLIP-Adapter: Better Vision-Language Models with Feature...
3.3 Variants of CLIP-Adapter 本文的CLIP适配器有三种结构变体:1)仅微调图像分支的特征适配器,而保持文本分支冻结;2)仅微调文本分支的特征适配器,同时保持图像分支冻结;3)同时微调CLIP主干的图像和文本分支。在超参数α和β方面,作者观察到不同的数据集具有不同的最优α和β值。手动选择超参数既耗时又费力。因此...
其同样可以看作是CLIP-Adapter的一种初始化,只需要做以下的代入即可,因此TIP-Adapter和CLIP-Adapter可以得到统一。 考虑将模型修改为可调模型,那么对于 W_1 进行微调即可。 实验部分 其中Tip-Adapter和Tip-Adapter-F分别表示training-free和fine-tuning的Tip-Adapter方法,可以看到其取得了SoTA效果。 还在不同的网络结构...