答案是肯定的,在本工作中,我们提出了 Structured Sparse R-CNN,一种基于查询的、端到端稀疏三元组检测器。该检测器结合一组三元组查询,直接预测图像中的三元组分布。 在实验过程中,我们发现,在场景图生成领域中,直接套用目标检测的那一套范式会导致训练有一定难度。因此,我们提出了针对三元组检测的 3 点改进: 1...