本文提出了一种简单而有效的基于多模态预训练模型 CLIP 的小样本微调算法——cross-modal adaptation,通过将跨模态信息(例如文字标签)作为训练样本加入交叉熵损失(Cross-Entropy Loss, CE Loss)进行微调,即可实现用一个简单的线性分类器在十一个图像识别训练集中取得SOTA效果。 不仅如此,所提方法的训练速度和性能均大幅...
为了证明我们的方法能扩展到更多模态,我们利用AudioCLIP提出了第一个小样本视觉音频识别任务ImageNet-ESC,并证明了我们的方法也能够利用音频来提升图像识别的性能(或者用图像来提升音频识别的性能): 理论分析 我们将cross-modal adaptation方法和现阶段流行的classifier ensembling方法(WiSE-FT)进行了对比。WiSE-FT方法指出...
论文工作亮点:我们提出了一种简单而有效的基于多模态预训练模型CLIP的小样本微调算法,通过将跨模态信息(例如文字标签)作为训练样本加入cross-entropy loss进行微调,即可用一个简单的线性分类器在十一个图像识别训练集中取得SOTA效果。我们的方法(cross-modal adaptation)的训练速度和性能均大幅优于先前基于prompting、adapter...
• 我们设计了一个基于 CLIP 的统一库,用于对多任务图像识别的各种参数高效调谐方法进行基准测试。据我们所知,我们是第一个开展这项工作的人。 • 在两个常用的可视化多任务数据集上的实验结果表明,与仅利用 ∼ 0.09% 的 CLIP 参数的多任务全微调相比,我们的方法具有竞争力,如图 1 所示。 2相关工作 Multi...