以BackBone为Resnet50为例,在mask2former/modeling/pixel_decoder/msdeformattn.py中,Pixel Decoder的输入是Resnet50四个阶段所有的特征(['res2', 'res3', 'res4', 'res5']),而不是仅拿最后一层特征作为输入。 BackBone输出的特征 以BackBone为Resnet50为例,在mask2for