由于TextMonkey 与其他大语言模型一样被训练来预测下一个标记,因此它只需要在训练时最大化损失的可能性。 \mathcal{L} =\text{max}\sum\limits_{i=1}^{L}\text{log}P(\hat{s}_i|\text{I},\text{Q},\text{s}_{1:i}), \tag{2} 其中\text{I} 是输入图像, \text{Q} 是问题序列, \hat...