为了展示其灵活性,我们使用 VISPROG 执行 4 个不同的任务,这些任务共享一些通用技能(例如图像解析),同时还需要一定程度的专业推理和视觉操作能力。这些任务是: (i) 组合视觉问答; (ii) 对图像对进行零样本自然语言视觉推理(NL VR); (iii)来自自然语言指令的事实知识对象标记; (iv) 语言引导的图像编辑。 我们...