然而,现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述(referfal expression)上的泛化性,不能对 OVD 模型的能力给出系统的细粒度评估。 由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足,设计了名为 OVDEval 的全新 benchmark,以全面地重新审视 OVD 模型的泛化能力
由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足,设计了名为 OVDEval 的全新 benchmark,以全面地重新审视 OVD 模型的泛化能力。主要贡献与亮点如下: 数据资源方面,贡献了全面而有挑战性的细粒度测试数据:OVDEval 包含 9 个子集、6 类细粒度属性,首次在 OVD 模型的评估中引入了常识、属性理解、位置...
浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP 视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。 为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量...
然而,现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述(referfal expression)上的泛化性,不能对 OVD 模型的能力给出系统的细粒度评估。 由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足,设计了名为 OVDEval 的全新 benchmark,以全面地重新审视 OVD 模型的泛化能力。主要...
浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP 视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。 为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在...
然而,现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述(referfal expression)上的泛化性,不能对 OVD 模型的能力给出系统的细粒度评估。 由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足,设计了名为 OVDEval 的全新 benchmark,以全面地重新审视 OVD 模型的泛化能力。主要...
浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP 视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。 为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在...