Aiming at the problem of low accuracy in monocular vision image depth estimation, a monocular image depth estimation method based on Transformer and convolutional neural network is proposed. First, ResNet-50 is used as the backbone network of the encoder-decoder network to extract image fe...
我们提出的CSA模块由两部分组成:一个线性层,用于将每个特征映射到相同数量的通道;一个基于注意力的融合模块,用于根据语义相似性从相邻尺度融合特征图。将输入特征图表示为 对于传统的基于CNN的方法,全局上下文信息只存在于编码器bottleneck附近,在解码器的分层上...
据我们所知,这是首次证明基于Transformer的网络可以在单图像深度估计领域实现实时SOTA性能。 2 相关工作 SIDE是一项用于3D场景理解的视觉任务。由于单视图中3D映射的模糊性,SIDE是非正定的。然而,在深入学习的帮助下,SIDE取得了显著的进展。 基于CNN的方法。Eigen等人首先将CNN引入SIDE任务,随后的研究人员引入了更强大的...
Learned Image Compression with Mixed Transformer-CNN Architectures 方法:论文提出了一种高效的并行Transformer-CNN混合(TCM)块,将CNN的局部建模能力和Transformer的非局部建模能力相结合,进而设计了一种新的基于TCM块的图像压缩架构,并提出了一种基于Swin-Transformer的注意力模块来改进通道熵模型的性能。 创新点: 提出...
摘要 针对单目视觉图像深度估计时存在精度低的问题,提出一种Transformer和CNN融合的单目图像深度估计方法.首先,采用ResNet-50作为编码器-解码器网络的主干网络对图像特征进行提取,同时在编码器-解码器网络中采用层级融合的方法... 关键词卷积神经网络...
利用Depth CNN对当前图像进行深度估计,得到当前图像的深度图 将相邻帧(包括当前帧、上一帧、下一帧)输入Pose CNN,得到旋转矩阵R和平移矩阵T,预测相机的位姿变化 将1、2得到的当前深度图和相邻帧对的R、T矩阵,计算出当前帧和下一帧的映射关系,然后将当前帧warp到下一帧 ...
LEFORMER: A HYBRID CNN-TRANSFORMER ARCHITECTURE FOR ACCURATE LAKE EXTRACTION FROM REMOTE SENSING IMAGERY 方法:论文提出了一种名为LEFormer的混合CNN-Transformer架构,用于从遥感图像中准确地提取湖泊。LEFormer包含三个主要模块:CNN编码器、Transformer编码器和交叉编码器融合。
大家好,今天为大家带来的文章:Lite-Mono:A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation 自监督单目深度估计不需要地面实况训练,近年来受到广泛关注。 设计轻量级但有效的模型非常有意义,这样它们就可以部署在边缘设备上。许多现有的体系结构受益于以模型大小为代价使用更重...
本发明将Swin‑Transformer和CNN同时用于特征提取,并将提取的特征进行融合,可以使网络在建立长程相关性和保留空间结构信息之间进行平衡,强化网络学习特征的能力,并且结合本发明提出的逐尺度自蒸馏损失,进行网络的自监督训练,进而提升自监督单目深度估计精度。权利要求书2页 说明书6页 附图3页CN 115731280 A2023.03.03...
作者的目标是训练两个CNN网络同时估计相机的姿态和场景的结构,分别如下: 自我监督的深度预测将学习任务重新定义为一种新颖的视图合成问题。具体来说,在训练过程中,作者让耦合网络从源帧的另一视点合成目标帧的光照一致性外观。作者将深度图视为一个中间变量,以约束网络完成图像合成任务。