sliding+window+dilated+attention

2025-01-09 13:59:14

拼音 [ 拼音 ]

稀疏注意力计算:sliding window attention - 知乎

在SWA的基础上,还可以进行空洞滑窗(dilated sliding window),在不增加计算量的情况下,提升感受野。这也是从空洞卷积(下图)来的灵感了。还可以更进一步优化attention。无论是SWA还是dilated sliding window,每个位置都只能看到局部的信息。但是实际上有些位置就是对全局信息有很高的需求。在Bert中,[CLS] token就常...
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、G...

右边的三种模式是Longformer提出来的Self-Attention模式,分别是Sliding Window Attention(滑窗机制)、Dilated Sliding Window(空洞滑窗机制)和Global+Sliding Window(融合全局信息的滑窗机制)。 2.2.1 Sliding Window Attention 如图1b所示,对于某个token,经典的Self-Attention能够看到并融合所有其他的token,但Sliding windo...
...Structure and Sliding Window-Based Attention Mechanism

Keywords: gaze estimation;swin transformer;convolutional neural networks (CNN);deep learning;self-attention mechanism