为什么其它领域的transformer都不惊艳? Transformers 在 NLP 中取得成功的主要因素之一是使用自监督的预训练,其形式是 BERT [18] 中的MLM或 GPT [55] 中的LM任务。这些自监督的预训练目标使用句子中的token来创建pretext task,这些任务提供比预测每个句子单个标签的监督目标更丰富的学习信号。 然而,在图像中,图像级...
前段时间分享的MoCov3就是Self-Supervised和Transformer相结合的,但是DINO的结果更为惊艳。DINO主要有两点惊艳的新特性: self-supervised ViT的features包含关于图像语义分割的明确信息。 这些features使用kNN分类器可以在ImageNet上达到78.3%的top-1精度。 先看一下DINO的特征可视化效果,orz 上图显示的是指定类别的响应图。
先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。 1.Transformer 自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和ViT,另一个是不同task迁移算法。 魔改DETR和ViT...
Transformer、Self-Supervised、Zero-Shot和多模态 先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。 1.Transformer 自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和V...
作为backbone来进行实验,并提出一个颠覆性的观点:类Autoencoder方法在针对Vision Transformer的自监督学习...
这篇论文主要是在作者之前的工作,自监督预测卷积注意块(SSPCAB),基础上进行改进,使用一个3D掩码卷积层,以及一个用于通道级注意的transformer将其扩展为自监督掩码卷积transformer块(SSMCTB),提升了适用性与性能。 2.主要贡献 这里的贡献是相对于SSPCAB来看,包括5点: ...
ViT纯粹基于Transformer,而不是与非退化(即非1×1)卷积交织。2这在很大程度上缩小了NLP和视觉之间的架构差距。ViT在监督学习中实现了令人信服的准确性,尤其是在大规模数据和高容量模型的情况下。鉴于这些特性,我们认为ViT是计算机视觉中自我监督学习的一个必须研究的基线。
如上图所示,更残暴的是,作者直接让三个模态共享同一个骨干网络。实验证明,与模态无关的骨干网络可以取得与不同模态的骨干网络,相似的结果。另外,本文提到的另外一个创新之处在于,DeepToken,随机的将输入的 tokens 进行丢弃,降低了Transformer 的训练复杂度。但是有些许的精度损失,这个类似常见的对抗学习机制。
自监督学习(Self-supervised Learning,SSL)本质上是深度学习中的一种重要方法,它在无监督学习中具有...
transformer attention saliency-detection unsupervised-object-detection cvpr2022 Resources Readme License MIT license Activity Stars 304 stars Watchers 7 watching Forks 36 forks Report repository Releases No releases published Packages No packages published Contributors 6 Languages Jupyter Notebo...