代码:GitHub - gaopengcuhk/Tip-Adapter 关键字 multi-modality (多模态) 摘要 CLIP模型通过学习大规模的图像文本对学习视觉表示,可以通过zero-shot知识迁移到下游任务,不需要训练 现有一些方法在CLIP的基础上提出了微调的额外的可学习模块,能提高模型性能,但是增加了训练时间和成本 Tip-Adapter: 基于CLIP进行few-shot...
本文提出了 Tip-Adapter,一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。 论文链接:https://arxiv.org/pdf/2207.09519.pdf 代码链接:https://github.com/gaopengcuhk/Tip-Adapter 一.研究背景 对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进...
代码:https://github.com/yangyangyang127/APE 导读 TL;DR: 本文基于CLIP提出了一种特征提纯的方法为下游图像分类任务选择最具有判别性的特征,以此来提高下游任务的性能并同时提高计算效率。相比于其他方法,我们提出的两种模型,APE和APE-T,前者在0参数量的方法中达到了最好的性能,后者可以达到 SOTA,并且参数量比Tip...