确实效果较好,从语义分割角度来看,Swin不仅在ADE20K取得了sota的效果,在各个其他场景数据集下都有极为优秀的表现,精度相比PSPnet和deeplabv3+等基于CNN的分割算法都有较大提升(优点:精度高,缺点:实时性较差,极度依赖预训练模型,由于tf较新,在嵌入式端部署可能会存在问题,目前嵌入式端推理框架还都是基于常规卷积做加
实验发现更小的 patch 能够带来更好的性能,对于不同的模型架构和任务都适用(但 1x1 就到头了且后面提升不大?),例如 16 x 16 改到 1x1 之后 ImageNet1k 82.6 到 84.6;另外一个比较有意思的是,当 patch 足够小之后,做 low-level 的语义分割类任务就不再需要一个 heavy 的 decoder 了。 另外作者也对比了...