首先,可以给出一个简单的分析,CVA-MVSNet就是一个输入是关键帧,输出是对应长宽的深度图(注意,这里输出是一维的),中间使用到具体的模型为U-Net和3DU-Net,这样一说的话,就很好理解这一块的架构。 那么,我们给出输入关键帧的定义--- ,这里 表示的是尺度为的图像,而 就是由前端的视觉里程计计算出来的全局位姿。