本文提出一种新的用于视觉跟踪的序列到序列学习框架,称为SeqTrack。它将视觉跟踪问题转换为序列生成问题,以自回归的方式预测目标边界框。这与之前的孪生追踪器和transformer追踪器不同,后者依赖于设计复杂的头网络,如分类和回归头。SeqTrack仅采用简单的编码器-解码器transformer架构。编码器用双向transformer提取视觉特征,...