与此前的文本数据类似,gpt-4-vision-preview也是按照输入和输出的tokens计算。如下所示: 但是由于多了图像的输入,因此需要先将图像转换成tokens计算。而图像的转换官方提供了一个计算逻辑,是按照图像区域计算,在官方的文档中一个图像的512*512像素区域(tile)算作170个tokens。每个图片需要额外增加一个固定的85个tokens。