ViTモデルはCNNモデル(カーネルサイズの範囲の特徴抽出)と比較して機能的バイアス(近い画素は関係が深い)が小さい.そのため,性能を向上させるために大量の学習データと膨大な計算量が必要がある.ViTの派生モデルとしてSwin Transformerがあり,Swinはself-attentionの処理の範囲を制限するWindowを採用...