PVTv2:arxiv.org/abs/2106.1379 代码:github.com/whai362/PVT PVTv1 架构 密集预测任务的目标是对特征图进行像素级分类或回归。目标检测和语义分割是两种典型的密集预测任务。我们的目标是在Transformer中引入金字塔结构,以便为密集的预测任务生成多尺度特征图。与CNN backbones类似,PVTv1 有四个阶段,用于生成不同...
计算机视觉中的Transformer最近取得了令人鼓舞的进展。在这项工作中,作者通过添加3个改进设计来改进原始金字塔视觉Transformer(PVTv1),其中包括:
在表中可以看到PVT-v2是ImageNet-1K分类中最先进的方法。与PVT相比,PVT-v2具有相似的FLOPs和参数,但图像分类精度有了很大的提高。例如,PVTv2-B1比PVTv1-Tiny高3.6%,并且PVTv2-B4比PVT-Large高1.9%。 与最近的同类模型相比,PVT-v2系列在精度和模型尺寸方面也有很大的优势。例如,PVTv2-B5的ImageNet top-1准确...
与ViT类似,PVT-v1将图像看作是一系列不重叠的patch,在一定程度上失去了图像的局部连续性。此外,PVT-v1中的位置编码是固定大小的,对于处理任意大小的图像是不灵活的。这些问题限制了PVT-v1在视觉任务中的表现。 为了解决这些问题,本文提出了PVT-v2,它通过以下设计改进了PVT-v1的性能: 3.1 Overlapping Patch Embe...