ICLR Spotlight | 卷积网络上的首个BERT/MAE预训练,ResNet也能用mp.weixin.qq.com/s/ivssumUmpEa4dO2zizdxlQ “删除-再恢复” 形式的自监督预训练可追溯到 2016 年,早于 18 年的 BERT 与 21 年的 MAE。然而在长久的探索中,这种 BERT/MAE 式的预训练算法仍未在卷积模型上成功(即大幅超过有监督学习...
22年的 ConvMAE [3] 则主要在 Conv+Transformer 的混合模型上验证了 BERT,并未在 ResNet 这样的纯 CNN 上验证。最后,SparK 作者们也实际尝试了直接将 MAE [4] 的 ViT 粗暴替换为 CNN,然而结果得到了无效的预训练(性能基本与随机初始化齐平)。
然而在长久的探索中,这种 BERT/MAE 式的预训练算法仍未在卷积模型上成功(即大幅超过有监督学习)。本篇 ICLR Spotlight 工作 “Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling” 则首次见证了 BERT/MAE 预训练在 CNN 上的成功,无论是经典 ResNet 还是新兴 ConvNeXt均可从中受益...
本篇ICLR Spotlight 工作做了初步尝试 (由北大、字节、牛津合作),于去年10月公开,提出了 SparK,这是自 2016 inpainting-based 自监督工作出现以来,首次在卷积模型上做成功的BERT/MAE形式的自监督预训练。SparK 适用于包括 ResNet 在内的任何 CNN 模型,无需对模型进行任何改动即可直接预训练。在下游分类、检测、分...
具体来说,使用 ResNet-50,仅应用 MRA 即可实现 78.35% 的 ImageNet Top-1 准确度,比baseline提高 2.04%。在细粒度、长尾、半监督和少样本分类上取得了一致的改进,显示了本文方法的强大泛化能力。此外,在对遮挡样本测试模型时,与 CutMix、Cutout 和 Mixup相比,MRA 还显示出很强的鲁棒性,这表明掩蔽自动...
作者采用了Faster-RCNN模型进行候选区域的选择。使用了冻结的Resnet50特征金字塔作为主干网络。输入尺寸为 800×1333×3 。作者使用了SGD优化器,学习率(LR)= 0.005,动量= 0.9,权重衰减= 0.0005。作者设置了批次大小为16,并在GBCU数据集上训练了60个周期。
SparK 适用于包括 ResNet 在内的任何 CNN 模型,无需对模型进行任何改动即可直接预训练。在下游分类、检测、分割任务上,SparK 让 CNN 的性能实现跨模型尺寸级别的提升,并显著超过对比学习、超过 Swin-Transformer,初步展现了 BERT/MAE 在卷积网络上的巨大潜力。
具体来说,使用 ResNet-50,仅应用 MRA 即可实现 78.35% 的 ImageNet Top-1 准确度,比baseline提高 2.04%。在细粒度、长尾、半监督和少样本分类上取得了一致的改进,显示了本文方法的强大泛化能力。此外,在对遮挡样本测试模型时,与 CutM...
此外,在计算量一样的情况下, Adan在多个场景(涉及CV、NLP、RL)、多种训练方式(有监督与自监督)和多种网络结构/算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法)上,均获得了性能提升。 代码、配置文件、训练log均已开源。 深度模型的训练范式与优化器 随着ViT的提出,深度模型的训练...
CLIP由两个编码器组成,一个是图像编码器(VIT和ResNet,都用了),另一个是文本编码器(Transformer) 采用对比学习的方法,对图片嵌入特征和文本嵌入特征进行矩阵相乘,对角线上都是配对的正样本对打分,而矩阵的其他元素,则是由同个batch内的图片和不配对的文本(相反亦然)组成的负样本,如下图。