论文的核心内容是提出了一种名为WiSE-FT(Weight-space ensembling for Fine-tuning)的方法,用于在保持零样本(zero-shot)模型的鲁棒性的同时,对其进行微调(fine-tuning)以提高在特定目标分布上的准确性。零样本模型,如CLIP或ALIGN,在没有针对特定数据集进行微调的情况下,能够在一系列数据分布上保持一致的准确性。然而...
* Finetuning Pretrained Vision-Language Models with Correlation Information Bottleneck for Robust Visual Question Answering * 链接:https://arxiv.org/abs/2209.06954 * 作者: Jingjing Jiang,Ziyi Liu,Nanning Zheng * 其他: 20 pages, 4 figures, 13 tables * 摘要: 受益于大规模预处理的视觉语言模型(VL-...