为了给 T2T-ViT 找到一个有效的骨架,我们探索借用 CNN 的一些架构设计来建立 Transformer Layer,以提高特征的丰富性,我们发现 ViT 中通道较少但层数较多的 "深-窄 "架构设计在比较模型大小和 MAC(Multi-Adds)时带来更好的性能 通过精心设计的 Transformer 架构(T2T模块和高效骨干),T2T-ViT 可以在 ImageNet 上的...
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型。Transformer 模型使用了 Self-Attention 机制,不采用RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。 ViT 但是,视觉Transformer相比于传统CNN有两个缺点: 1)ViT 处理图片的方式不够好,无法建模一张图片的局部信息 在探究patch内部信息...
取代ViT 的 tokenization,提出 Tokens-to-Token module,将相邻的 Tokens 聚合为一个Token(命名为Tokens-to-Token模块),它可以模拟周围 Tokens 的局部结构信息,迭代地减少 Tokens 的长度。具体来说,在每个Token-to-Token(T2T)步骤中,由 Transformer 输出的 Tokens 被重建为一个图像(re- structurization),然后通过软...
例如,T2T-ViT-14的主干网络中有14个Transofmer层,中间特征维度为384,而ViT-B/16有12个Transformer层,中间特征维度为768,参数量和MACs是T2T-ViT-14的3倍。 为了方便与ResNet进行比较,论文设计了三个的T2T-ViT模型:T2T-ViT-14、T2T-ViT-19 和 T2T-ViT-24,参数量分别与ResNet50、ResNet101和ResNet152...
取代ViT 的 tokenization,提出 Tokens-to-Token module,将相邻的 Tokens 聚合为一个Token(命名为Tokens-to-Token模块),它可以模拟周围 Tokens 的局部结构信息,迭代地减少 Tokens 的长度。具体来说,在每个Token-to-Token(T2T)步骤中,由 Transformer 输出的 Tokens 被重建为一个图像(re- structurization),然后通过软...
论文提出了T2T-ViT模型,引入tokens-to-token(T2T)模块有效地融合图像的结构信息,同时借鉴CNN结果设计了deep-narrow的ViT主干网络,增强特征的丰富性。在ImageNet上从零训练时,T2T-ViT取得了优于ResNets的性能MobileNets性能相当 来源:晓飞的算法工程笔记 公众号 ...
Ghost可以进一步压缩T2T-ViT的模型大小、降低MACs,但会造成性能的下降。 最后的最后,本文还对所提T2T模块与Deep-Narrow结构设计进行了消融分析,结果见上表。从中可以看到:(1)T2T模块比卷积更优,这是因为它可以同时建模全局相关性与结构信息;(2)相比Shallow-Wide结构,Deep-Narrow结构可以带来2.9%的性能提升。
Ghost可以进一步压缩T2T-ViT的模型大小、降低MACs,但会造成性能的下降。 最后的最后,本文还对所提T2T模块与Deep-Narrow结构设计进行了消融分析,结果见上表。从中可以看到:(1)T2T模块比卷积更优,这是因为它可以同时建模全局相关性与结构信息;(2)相比Shallow-Wide结构,Deep-Narrow结构可以带来2.9%的性能提升。
T2T-ViT Architecture 上图给出了T2T-ViT的网络结构示意图,它包含T2T模块与T2T骨干两部分。上图给出了n=2的结构示意图(即n+1=3个soft split,n个Re-structurization)。每个Soft Split的块大小分别为[7,3,3],重叠为[3,1,1]。 为更好的与常见手动设计CNN进行对比,作者设计了不同复杂度的T2T-ViT模型,见...
T2T-ViT通过重构图像的结构性信息,克服了ViT的短板,真正意义上击败了CNN。通过提出tokens-to-token的process,逐渐聚合周围的token,增强局部性信息。这篇论文中不仅探索了Transformer-based的网络结构的设计,证明了在Transformer-based模型中deep-narrow要好于shallow-wide,还取得了很好的性能表现。 Reference ...