为了解决上述的数据限制,本研究提出了Multi-modalSituatedQuestionAnswering (MSQA),这是一个高质量的,大规模的多模态情境数据集,用于3D情境推理。具体来说,作者开发了一个自动化的数据收集 Pipeline 。首先,作者从ScanNet [17],3RScan [60]和ArKitScenes [7]等复杂真实世界场景中源生出多样化的情境(即,空间位置和...
几篇论文实现代码:《SQA3D: Situated Question Answering in 3D Scenes》(ICLR 2023) GitHub: github.com/SilongYong/SQA3D [fig2] 《Deep invariant networks with differentiable augmentation layers》(Neur...