具体来说,它们都是将时间序列分成若干个时间段(Preformer 里用的术语是 segment,本文用的是 patch,实际上是差不多的),每一个时间段视为一个 token(这不同于很多 Transformer-based 模型将每一个时间点视为一个token)。 Preformer 的论文和详细解析如下: ...
随着计算机视觉领域的不断发展,基础视觉任务研究中受自然语言处理(NLP)的模型结构设计(Transformer-based model)的启发,视觉任务与Transformer网络模型结构相结合,通过引入自注意力机制等结构来探索和优化Transformer网络在视觉任务当中的应用,在目标检测、分割和跟踪等多项视觉任务中获得比较有竞争力的优势。同时,针对基础视...
很多Transformer-based 模型采用了 channel-mixing 的方式,指的是,对于多元时间序列(相当于多通道信号),直接将时间序列的所有维度形成的向量投影到嵌入空间以混合多个通道的信息。Channel-independence 意味着每个输入 token 只包含来自单个通道的信息。本文就采用了 Channel-independence,DLinear 中也采用了这种方式。 如上...
随着计算机视觉领域的不断发展,基础视觉任务研究中受自然语言处理(NLP)的模型结构设计(Transformer-based model)的启发,视觉任务与Transformer网络模型结构相结合,通过引入自注意力机制等结构来探索和优化Transformer网络在视觉任务当中的应用,在目标检测、分割和跟踪等多项视觉任务中获得比较有竞争力的优势。同时,针对基础视...
DPT: Deformable Patch-based Transformer for Visual Recognitionarxiv.org/pdf/2107.14467.pdf 代码:github.com/CASIA-IVA-La Abstract: 作者提出了一种新的Deformable Patch(DePatch)模块,可以自适应地将图像分割成不同位置和大小的patch,而不是原先ViT中固定大小的patch。这样一来,可以避免对语义信息的破坏。同...
此外这是一个轻量级的即插即用模块,能够被用于各种Transformer结构中。在本文,作者将DePatch模块嵌入到了Pyramid Vision Transformer (PVT)中,形成Deformable Patch-based Transformer(DPT)。通过自适应调整的可变形patch,DPT能够基于局部的上下文信息为每个patch生成完整、鲁棒、有辨别性的特征。
DePatch模块可以作为一个即插即用的模块,嵌入到不同的Transformer结构中,以实现端到端训练。作者将DePatch模块嵌入到Pyramid Vision Transformer (PVT)中,得到一个新的Transformer结构,Deformable Patch-based Transformer (DPT) 。 最后作者在...
To address these issues, we propose a novel patch-based transformer (PatchFormer). The proposed architecture incorporates a Dual Patch-wise Attention Network (DPAN), which effectively captures global correlations between patches via inter-patch attention while also addressing local dependencies within ...
可以看到 PatchTST 的效果超过了 DLinear 以及其它的 Transformer-based 模型。 Comments 论文最核心的两点,分 patch、通道独立、以及自监督 mask 重建的做法在之前的时间序列相关论文中都已经存在了,所以我认为创新性并不是很强,但是效果不错。 更多阅读
Transformer是第一个用纯attention搭建的模型,不仅计算速度更快,在翻译任务上也获得了更好的结果。Google现在的翻译应该是在此基础上做的,但是请教了一两个朋友,得到的答案是主要看数据量,数据量大可能用transformer好一些,小的话还是继续用rnn-based model ...