ICLR Spotlight | 卷积网络上的首个BERT/MAE预训练,ResNet也能用mp.weixin.qq.com/s/ivssumUmpEa4dO2zizdxlQ “删除-再恢复” 形式的自监督预训练可追溯到 2016 年,早于 18 年的 BERT 与 21 年的 MAE。然而在长久的探索中,这种 BERT/MAE 式的预训练算法仍未在卷积模型上成功(即大幅超过有监督学习...
22年的 ConvMAE [3] 则主要在 Conv+Transformer 的混合模型上验证了 BERT,并未在 ResNet 这样的纯 CNN 上验证。最后,SparK 作者们也实际尝试了直接将 MAE [4] 的 ViT 粗暴替换为 CNN,然而结果得到了无效的预训练(性能基本与随机初始化齐平)。
然而在长久的探索中,这种 BERT/MAE 式的预训练算法仍未在卷积模型上成功(即大幅超过有监督学习)。本篇 ICLR Spotlight 工作 “Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling” 则首次见证了 BERT/MAE 预训练在 CNN 上的成功,无论是经典 ResNet 还是新兴 ConvNeXt均可从中受益...
作者采用了Faster-RCNN模型进行候选区域的选择。使用了冻结的Resnet50特征金字塔作为主干网络。输入尺寸为 800×1333×3 。作者使用了SGD优化器,学习率(LR)= 0.005,动量= 0.9,权重衰减= 0.0005。作者设置了批次大小为16,并在GBCU数据集上训练了60个周期。 Appendix C Visualization 图S2和图S3展示了所提出的Focus...
CLIP由两个编码器组成,一个是图像编码器(VIT和ResNet,都用了),另一个是文本编码器(Transformer) 采用对比学习的方法,对图片嵌入特征和文本嵌入特征进行矩阵相乘,对角线上都是配对的正样本对打分,而矩阵的其他元素,则是由同个batch内的图片和不配对的文本(相反亦然)组成的负样本,如下图。
具体来说,使用 ResNet-50,仅应用 MRA 即可实现 78.35% 的 ImageNet Top-1 准确度,比baseline提高 2.04%。在细粒度、长尾、半监督和少样本分类上取得了一致的改进,显示了本文方法的强大泛化能力。此外,在对遮挡样本测试模型时,与 CutM...
在ImageNet 1k上,训练epoch数从ResNet刚提出的90已经增长到了训练ViT常用的300。甚至针对一些自监督学习的模型,例如MAE、ViT,预训练的epoch数已经达到了1.6k。训练epoch增加意味着训练时间极大的延长,急剧增加了学术研究或工业落地的成本。目...
SparK 适用于包括 ResNet 在内的任何 CNN 模型,无需对模型进行任何改动即可直接预训练。在下游分类、检测、分割任务上,SparK 让 CNN 的性能实现跨模型尺寸级别的提升,并显著超过对比学习、超过 Swin-Transformer,初步展现了 BERT/MAE 在卷积网络上的巨大潜力。
在ImageNet 1k上,训练epoch数从ResNet刚提出的90已经增长到了训练ViT常用的300。甚至针对一些自监督学习的模型,例如MAE、ViT,预训练的epoch数已经达到了1.6k。训练epoch增加意味着训练时间极大的延长,急剧增加了学术研究或工业落地的成本。目前一个普遍的解决方案是增大训练的batch size并辅助并行训练以减少训练时间,但...
2D Visual Features. 我们利用预训练的二维模型,例如预训练的ResNet或ViT,提取具有C通道的点云特征,这种二维特征包含了从大规模图像数据中学习到的足够高层次语义。2D Saliency Maps. 我们还通过二维预训练模型获取每个视图的语义突出图。单通道突出图表示不同图像区域的语义重要性。