密集预测任务可以相互补充信息,例如,法线和深度可以直接从彼此派生出来,这可以被建模为彼此的正则化。密集预测任务之间的相关性值得利用以提高模型的整体性能,例如在深度学习时代之前,一些开创性的工作利用带有深度信息的RGB-D图像来预测场景语义以改进预测质量。在深度学习时代,最近引起关注的基于注意力机制的多任务学习方法
密集预测任务不是极限 除了密集预测任务之外,我们也尝试了ViT-CoMer在分类任务上的效果。我们在Imagenet数据集上对比了ViT和ViT-CoMer的结果,实验显示我们的算法依旧有很强的竞争力。 2、动机 当前Tranformer骨干网络处理密集预测任务存在以下问题: a. ViT骨干网络处理密集预测任务(检测、分割等)效果不佳; b. 特制骨...
当我们freeze住ViT部分,只训练CoMer部分参数,可以看出CoMer效果要优于LoRA(ViT-CoMer-L(freeze ViT) > ViT-L(full-tune) > ViT-L(freeze ViT + LoRA))。 密集预测任务不是极限 除了密集预测任务之外,我们也尝试了ViT-CoMer在分类任务上的效果。我们在Imagenet数据集上对比了ViT和ViT-CoMer的结果,实验显示我们...
在多个密集预测任务中验证了 FreqFusion 的有效性,包括语义分割、目标检测和实例分割。 使用segformer-B1为主干网络时Freqfusion与不同的上采样模块在数据集ADE20K上进行比较,实验结果如下: Freqfusion 结合当前最先进的方法。如上图所示,当使用Mask2Former作为分割模型时,FreqFusion在Cityscapes数据集上取得了显著的 ...
本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。 论文链接:https://arxiv.org/pdf/2403.07392.pdf ...
论文提出二值化多任务密集预测器Bi-MTDP,通过二值神经网络(BNNs)显著加速多任务密集预测模型,同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降,论文引入了深度信息瓶颈层,在前向传播时强制要求下游任务表示满足高斯分布;此外,还引入知识蒸馏机制来纠正反向传播中信息流方向 ...
从网络二值化的角度来看,通过将二值化与多任务密集预测框架相结合,Bi-MTDP的成功证明了它可以有效地补充信息,从而提高了各个二值模型的性能。 从多任务密集预测任务的角度来看,加速这些繁琐的模型有利于在其中设计更有效和高效的交叉模块,如图1所示。由于现有的密集预测模型在建模交叉模块方面存在严重限制,因为它们过度...
因此,微软亚洲研究院的研究员们设计并实现了小样本学习器视觉令牌匹配 VTM(Visual Token Matching),其可用于任意的密集预测任务。这是首个适配所有密集预测任务的小样本学习器,VTM 为计算机视觉中密集预测任务的处理以及小样本学习方法打开了全新的思路。该工作获得了 ICLR 2023 杰出论文奖。
近期,研究者们将Transformer引入计算机视觉领域,并提出了DPT这一新架构。DPT使用视觉Transformer(ViT)作为主干架构,并通过卷积解码器将特征表征逐步组合到最终的密集预测中。实验表明,DPT在单目深度估计和语义分割等密集预测任务中取得了显著的提升,展现了Transformer在视觉任务中的潜力。
密集预测任务 (如检测,分割等) 往往需要高分辨率的输入图片。 因此,作者希望在使用大规模视觉 Transformer 模型时,把输入图片的分辨率从大变小再变大,借此减小高分辨率的输入图片带来的计算代价过高的问题。而且还能够加速视觉 Transformer 模...