从下表可以看出,基于图神经网络的 ViG 表现能够媲美甚至超越其他的基于 CNN、transformer、MLP 的 Isotropic 模型。ViG-S 达到 80.4% 的 top-1 精度,这表明使用图结构表示有利于更灵活地提取图像主体结构信息构建强有力的特征表示。 Pyramid 架...
首先,作者开发了一种卷积神经网络(CNN)架构,它在不同语义层次上聚合feature map,用于图像表示。使用更密集的feature map,作者的方法可以产生更多的关键点特征,提高图像检索精度。其次,作者的模型是在没有像素级标注的情况下进行端到端训练的,除了正负GPS标记的图像对。作者使用弱监督的三重排序损失来学习判别性特征,...
在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network,深度残差网络)一直被视为经典架构,它解决了深度 CNN 模型难训练的问题,是 CNN 图像史上的一个里程碑之作。 自提出以来,ResNet 系列模型一直被用作研究中的默认架构,或者新模型提出时用来对比的基线。然而,在过去的几年 ...