OpenClip的ViT模型结构采用标准的Transformer结构,替代了传统的卷积操作。这种模型首先将图像拆分为多个patch,然后再将这些patch输入到Transformer中。对于一张3x224x224大小的输出图片,首先会被分成14x14个patch,每个patch的大小为3x16x16。每个patch都使用一个768x3x16x16的卷积核进行特征提取,生成1x1x768的特征图。