SANX中的X是self-attention blocks的数量。 Blockbone:SAN的主干有五个阶段,每一个阶段都有不同的空间分辨率,SAN的分辨率降低因子为32。每个阶段都包含多个self-attention blocks。最后一个阶段是通过一个分类层处理的,包含全局平均池化,一个线性层和一个softmax函数。 Transition:Transition layers可以减少空间分辨率,因...
基于以上的观察,作者提出了将整张图片分为多个Block,并对每个Block进行SA(Blocked Local Self-Attention)。 如上图所示,如果每次只考虑block内的信息,必然会导致信息的损失,因此在计算Local Self-Attention之前,作者先对每个block进行的haloing操作。 也就是在每个block外,再用原始图片的信息padding一圈(这个操作叫做Ha...
我们认知中transformer最重要的部分莫过于多头的self-attention机制了,该机制发掘不同token之间的空间信息联系。这篇论文<Pay Attention to MLPs>提出了一个更简单的架构,gMLP,使用gating机制,达到和transformer在nlp或者计算机视觉一样的效果。 MLP也是L层block堆积而成(如下图所示),输入为X(n*d),n的长度,维度是d...
我们认知中transformer最重要的部分莫过于多头的self-attention机制了,该机制发掘不同token之间的空间信息联系。这篇论文<Pay Attention to MLPs>提出了一个更简单的架构,gMLP,使用gating机制,达到和transformer在nlp或者计算机视觉一样的效果。 gMLP gMLP也是L层block堆积而成(如下图所示),输入为X(n*d),n的长度,维...
这文章扯了很多 Multi-scale 特征融合,讲了一堆 story,然并卵;直接说重点贡献,就是在 non-local block 的协方差矩阵基础上,设计了基于 PCA 的新loss,更好地进行特征交互。作者认为,这个过程,特征会在channel维度进行更好的 non-local interact,故...
另一种研究侧重于将Self-Attention和卷积结合在单个Block中,如 AA-ResNet、Container,而该体系结构限于为每个模块设计独立的路径。因此,现有的方法仍然将Self-Attention和卷积作为不同的部分,并没有充分利用它们之间的内在关系。 在这篇论文中,作者试图揭示Self-Attention和卷积之间更为密切的关系。通过分解这两个模块...
2.3.4 a prediction layer:在堆叠了self-attention block之后,我们得到了物品,位置和时间间隔的组合表示,prediction层用潜因子模型计算用户对物品i的偏好分数。 研究方法 核心的方法应该集中在论文3.1 Problem Formulation 和 3.2 Personalized Time Intervals。
另一种研究侧重于将Self-Attention和卷积结合在单个Block中,如 AA-ResNet、Container,而该体系结构限于为每个模块设计独立的路径。因此,现有的方法仍然将Self-Attention和卷积作为不同的部分,并没有充分利用它们之间的内在关系。 在这篇论文中,作者试图揭示Self-Attention和卷积之间更为密切的关系。通过分解这两个模块...
动作识别的主网络就与non-local中直接使用 I3D 不同,这里是使用类似 TSN 的采样Segment形式输入,然后使用2D网络提特征,再统一在Attention block进行时空聚合。 动作识别网络框架[3] CBAM: Convolutional Block Attention Module, ECCV2018 这货就是基于 SE-Net [5]中的 Squeeze-and-Excitation module 来进行进一步拓...
我们目前有了self-attention block,然而这并不是transformer的全部。 Transformer Encoder 在我们前面所讲述的self-attention block的基础上,一个Transformer Encoder Block还应有以下几部分: 1.Key-Query-Value Attention。 当我们有输入序列x_1,..., x_T时,keys,queries, values为: ...