研究者进一步研究了 Depth Anything 模型,将其作为下游度量深度估计的一种有潜力的权重初始化方法。两种有代表性的情况如下:1) 域内度量深度估计,即在同一域内对模型进行训练和评估。如 NYUv2 表 3 所示,Depth Anything 模型明显优于之前的最佳方法 VPD,δ_1 (↑) 从 0.964 → 0.984,AbsRel (↓) 从...
在图2中,我们分别比较了两类中的两个代表性工作:Depth Anything作为判别模型,Marigold作为生成模型。可以很容易地观察到,Marigold在建模细节方面更优秀,而Depth Anything对于复杂场景则产生更鲁棒的预测。此外,如表1所示,Depth Anything比Marigold更高效且轻量级,同时提供不同尺度的选择。然而,Depth Anything对透明物体和反...
研究者进一步研究了 Depth Anything 模型,将其作为下游度量深度估计的一种有潜力的权重初始化方法。 两种有代表性的情况如下: 1) 域内度量深度估计,即在同一域内对模型进行训练和评估。如 NYUv2 表 3 所示,Depth Anything 模型明显优于之前的最佳方法 VPD,δ_1 (↑) 从 0.964 → 0.984,AbsRel (↓) 从 0.0...
研究者在六个具有代表性的不可见数据集 KITTI、NYUv2、Sintel、DDAD、ETH3D 和 DIODE 上全面验证了 Depth Anything 模型的零样本深度估计能力 ,并将其与最新 MiDaS v3.1 中的最佳 DPT-BEiT_L-512 模型进行了比较,后者使用的标注图像比前者多。 如表2 所示,在均使用 ViT-L 编码器的前提下,在广泛的场景中,...
本研究引入了Depth Anything模型,该模型在稳健的单目深度估计方面展现了高度实用性。通过强调廉价且多样化的未标记图像的价值,并采用两种有效策略,即在学习未标记图像时设定更具挑战性的优化目标以及保留预训练模型的丰富语义先验,使得该模型在零样本深度估计方面表现出色。此外,该模型还可作为有望初始化下游度量深度估计和...
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。
直接将Depth Anything应用于立方体投影的未标注数据并不会带来改进,因为忽略了跨立方面的关系,从而导致立方体伪影(图4)。这个问题是由于对透视立方体面进行了单独估计,其中单目深度是基于语义信息进行估计的,可能缺乏对整个场景的全面理解。为了解决这个问题,我们提出了在透视基础模型之前进行随机旋转预处理的步骤。如图2所...
Depth Anything 是一个高度实用的单目深度估计模型,由香港大学、TikTok 和浙江实验室联合开发。该模型特别适用于利用大规模无标注图像进行深度估计,在性能和实用性方面表现出色。它通过设计数据引擎收集和自动标注大规模无标注数据,显着扩大了数据集的规模,并减少了泛化误差。Depth Anything 展示了强大的零样本能力,并在...
Depth Anything是一种用于鲁棒单目深度估计的高度实用解决方案。它旨在通过大规模无标签数据来扩展数据集,提高模型的泛化能力。在Depth Anything中,研究人员设计了一个数据引擎,用于收集和自动注释未标记数据。这个数据引擎可以自动从互联网和其他来源收集图像,并使用深度学习模型对它们进行自动注释。通过这种方式,研究人员能...
重新审视Depth Anything V1的标记数据设计 在MiDaS在无监督单目深度估计方面的开创性工作基础上,近期研究倾向于构建更大规模的训练数据集,以努力提升估计性能。值得注意的是,Depth Anything V1、Metric3D V1和V2,以及ZeroDepth,分别从不同来源收集了150万、800万、1600万和1500万张标记图像用于训练。然而,很少有研究...