为了解决上述的数据限制,本研究提出了Multi-modalSituatedQuestionAnswering (MSQA),这是一个高质量的,大规模的多模态情境数据集,用于3D情境推理。具体来说,作者开发了一个自动化的数据收集 Pipeline 。首先,作者从ScanNet [17],3RScan [60]和ArKitScenes [7]等复杂真实世界场景中源生出多样化的情境(即,空间位置和...