然后,将双嵌入层的所有输出级联为一个整体作为 ViT 主干网的输入,通过其中的自注意力层,来同时执行输入图像的特征提取,特征融合以及目标模板融合特征与搜索区域融合特征之间的关联建模操作,从而实现联合特征提取 & 融合 & 关联建模,统一 RGB-T 跟踪的三个功能阶段,为 RGB-T 跟踪提供一个高效的单阶段跟踪范式。 图...
重磅开源! CVPR 2024 多模态跟踪新数据集!MTMMC:大规模现实世界多模态多相机跟踪数据集,包括由 16 个多模态相机在两种不同环境(校园和工厂)中、不同时间、天气和季节条件下捕获的长视频序列,有利于行人检测、重识别和多目标跟踪等任务,数据集已开源!单位:纽约大学, ETRI, KAIST论文标题《MTMMC: A Large-...