Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Searchdoi:10.18653/V1/2021.ACL-LONG.508Gyuwan KimKyunghyun ChoAssociation for Computational LinguisticsMeeting of the Association for Computational Linguistics
受这个观察的启发,文章提出了一种动态的Vision Transformer来为每个输入图像以自适应方式顺序激活。它通过多个级联的具有越来越多Token的Transformer来实现;从粗粒度预测开始,至产生足够可信的预测终止推理。同时进一步设计了级联Transformer之间的有效特征重用和关系重用机制,以减少冗余计算。 ImageNet、CIFAR-10和CIFAR-100上...