在SWA的基础上,还可以进行空洞滑窗(dilated sliding window),在不增加计算量的情况下,提升感受野。这也是从空洞卷积(下图)来的灵感了。 还可以更进一步优化attention。无论是SWA还是dilated sliding window,每个位置都只能看到局部的信息。 但是实际上有些位置就是对全局信息有很高的需求。 在Bert中,[CLS] token就常...
右边的三种模式是Longformer提出来的Self-Attention模式,分别是Sliding Window Attention(滑窗机制)、Dilated Sliding Window(空洞滑窗机制)和Global+Sliding Window(融合全局信息的滑窗机制)。 2.2.1 Sliding Window Attention 如图1b所示,对于某个token,经典的Self-Attention能够看到并融合所有其他的token,但Sliding windo...
Keywords: gaze estimation;swin transformer;convolutional neural networks (CNN);deep learning;self-attention mechanism