更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。