深度估计其实是一个非常早的问题,早期方法主要是Structure from Motion(SfM)和Multi View Stereo(MVS)这两种。SfM算法输入是一系列无序照片,两两照片通过特征点建立匹配关系,利用三角化方法获得稀疏点云,之后使用BA进行联合优化,输出是整个模型是三维点云和相机位姿。但此类方法获得的是稀疏点云,就是说深度图也是稀疏...
一、研究背景 无监督单目深度估计算法【1】仅使用无需标注的单目视频作为训练数据就能在测试时提供较为准确的场景深度信息,因此这类算法自提出以来就广泛受到学术界和工业界的关注。然而目前大部分方法仅在自动驾驶场景(开车视频上)证明了良好的性能,将其用于室内VR/AR场景则表现一般或可能失败【2】。虽然低纹理等...
本次Talk中,他介绍了他们团队如何从大规模预训练过的模型来提取有效信息来帮助自监督算法在动态视频上进行有效训练的一系列研究成果。 Talk·介绍 自监督单目深度估计算法可以利用海量无标注的视频数据来训练深度估计网络,实现从二维到三维的迁移。然而视频中的动态物体不符合刚性变换导致训练信号充满噪音,在这次talk中我们...
我们提出了一个单目深度估计器SCDepth,它只需要无标记的视频进行训练,并能在推断时进行尺度一致的预测。我们的贡献包括:(i)我们提出了几何一致性损失,这将惩罚相邻视图之间的预测深度不一致;(ii)我们提出了一个自我发现的掩码来自动定位那些在训练过程中违反静态场景假设并引起噪声信号的运动目标;(iii)我们通过详细的...
无监督单目深度估计算法【1】仅使用无需标注的单目视频作为训练数据就能在测试时提供较为准确的场景深度信息,因此这类算法自提出以来就广泛受到学术界和工业界的关注。然而目前大部分方法仅在自动驾驶场景(开车视频上)证明了良好的性能,将其用于室内VR/AR场景则表现一般或可能失败【2】。虽然低纹理等因素会使得算法更...
在本文中,我们介绍了一种新颖的具有辐射场的细粒度交互式 3D 分割和编辑算法,我们将其称为 SERF。 我们的方法需要通过将多视图算法与预训练的 2D 模型集成来创建神经网格表示。 在此表示的基础上,我们引入了一种新颖的表面渲染技术,该技术可以保留局部信息并且对变形具有鲁棒性。 此外,这种表示形式构成了无需 3D...