总而言之,具有中间步骤结果(例如文本、边界框、分割掩模、生成的图像等)的执行程序链接在一起以描述信息流,作为预测的视觉原理。 为了展示其灵活性,我们使用 VISPROG 执行 4 个不同的任务,这些任务共享一些通用技能(例如图像解析),同时还需要一定程度的专业推理和视觉操作能力。这些任务是: (i) 组合视觉问答; (...