总结 作为来自 FAI 的工作,CaiT 具有一定的 insight。目前在视觉 Transformer 中很多人提高模型精度是通过减小 patch size 尽可能将图像分成更多的patches,这无疑会给模型带来二次方增长的计算量,CaiT 证明了我们其实还可以突破层数的瓶颈,构造模型的深窄结构来进一步增强模型的表征能力。关于...