首先,使用 SAM 的图像编码器作为老师,训练 EfficientViT-SAM 的图像编码器。其次,使用整个 SA-1B 数据集对 EfficientViT-SAM 进行端到端的训练。 作者在一系列零样本基准测试中对 EfficientViT-SAM 进行了全面评估。EfficientViT-SAM 在所有以前的 SAM 模型上提供了显著的性能/效率提升。特别是,在 COCO 数据集上...
EfficientViT-SAM,利用EfficientViT 加速SAM。具体来说,我们的方法保留了SAM的提示编码器和mask解码器架构,同时将图像编码器替换为EfficientViT。设计了两个系列的模型,EfficientViT-SAM-L 和 EfficientViT-SAM-XL,提供了速度和性能之间的平衡。随后,使用SA-1B数据集对EfficientViT-SAM进行端到端训练。 EfficientViT E...
首先,使用 SAM 的图像编码器作为老师,训练 EfficientViT-SAM 的图像编码器。其次,使用整个 SA-1B 数据集对 EfficientViT-SAM 进行端到端的训练。 作者在一系列零样本基准测试中对 EfficientViT-SAM 进行了全面评估。EfficientViT-SAM 在所有以前的 SAM 模型上提供了显著的性能/效率提升。特别是,在 COCO 数据集上...
将EfficientViT - SAM的模型参数、MAC和吞吐量与SAM和其他加速工作进行了比较。与SAM相比,EfficientViT - SAM实现了17到69倍的令人印象深刻的加速。此外,EfficientViT - SAM虽然拥有比其他加速工作更多的参数,但由于其有效地利用了硬件友好的操作符,表现出了显著更高的吞吐量。 零样本提示分割结果。根据点提示来评估...
EfficientViT-SAM 模型架构。EfficientViT-SAM-XL的宏观架构如图2所示。其主干包含五个阶段。类似于EfficientViT,作者在早期阶段使用卷积块,而在最后两个阶段使用efficientViT模块。作者通过上采样和加法融合最后三个阶段的特征。融合后的特征被送入由几个融合的MBConv块组成的 Neck ,然后送入SAM Head 。
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。 作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首...
自然环境分割基准包括25个zero-shot自然环境分割数据集。我们将Grounding-DINO作为框提示,为EfficientViT-SAM提供了zero-shot分割。每个数据集的全面性能结果见下表3。SAM的mAP为48.7,而EfficientViT-SAM的得分更高,为48.9。 定性结果 下图3展示了EfficientViT-SAM在提供点提示、框提示和全分割模式下的定性分割结果。结...
Use saved searches to filter your results more quickly Cancel Create saved search Sign in Sign up Reseting focus {{ message }} marenan / EfficientViT-SAM Public forked from mit-han-lab/efficientvit Notifications You must be signed in to change notification settings Fork 0 Star ...
[2024/02/08] Tech report of EfficientViT-SAM is available:arxiv. [2024/02/07] We released EfficientViT-SAM, the first accelerated SAM model that matches/outperforms SAM-ViT-H's zero-shot performance, delivering the SOTA performance-efficiency trade-off. ...
EfficientViT-SAM 模型架构 EfficientViT-SAM-XL的宏观架构如图2所示。其主干包含五个阶段。类似于EfficientViT,作者在早期阶段使用卷积块,而在最后两个阶段使用efficientViT模块。作者通过上采样和加法融合最后三个阶段的特征。融合后的特征被送入由几个融合的MBConv块组成的 Neck ,然后送入SAM Head 。