1 摘要我们提出了CLIP2Video网络,将端到端的图像语言预训练模型转移到视频文本检索。视频和语言学习领域的领先方法试图从大规模视频文本数据集中提取时空视频特征和视频和语言之间的多模态交互。与之不同的是,我…