OrientedRCNN使用SwinTransformer作为backbone 一、什么是transformer transformer是目前最流行的特征抽取器 transformer是采用encoder-decoder架构。论文Attention Is All You Need中给出encoder层是6层encoder堆叠在一起的,deco样是6层decoder堆叠在一起。 分解成一个encoder和一个decoder的话如下: RNN缺点: 1. RNN不能并...
swin transformer 块应用到patch的token上,保持tokens的数量(H/4xW/4),与线性嵌入一起称之为stage 1. 为产生具有层次的表征,随着网络加深,token的数量通过patch合并层 缩减,第一个patch合并层将相邻2 × 2的每一组patch的特征拼接起来,并在4c维的拼接特征上应用一个线性层 这将token的数量缩减了4倍(分辨率2倍...