研究者进一步研究了 Depth Anything 模型,将其作为下游度量深度估计的一种有潜力的权重初始化方法。两种有代表性的情况如下:1) 域内度量深度估计,即在同一域内对模型进行训练和评估。如 NYUv2 表 3 所示,Depth Anything 模型明显优于之前的最佳方法 VPD,δ_1 (↑) 从 0.964 → 0.984,AbsRel (↓) 从...
研究者在六个具有代表性的不可见数据集 KITTI、NYUv2、Sintel、DDAD、ETH3D 和 DIODE 上全面验证了 Depth Anything 模型的零样本深度估计能力 ,并将其与最新 MiDaS v3.1 中的最佳 DPT-BEiT_L-512 模型进行了比较,后者使用的标注图像比前者多。 如表2 所示,在均使用 ViT-L 编码器的前提下,在广泛的场景中,...
ControlNet 预处理模型 depth_anything 5 depth_anything_vitl14.pth 旭_1994 6枚 GPL 2 计算机视觉 0 22 2024-08-31 详情 相关项目 评论(0) 创建项目 数据集介绍 原始链接:https://hf-mirror.com/LiheYoung/depth_anything_vitl14/resolve/main/pytorch_model.bin 文件列表 depth_anything_vitl14.pth ...
研究者在六个具有代表性的不可见数据集 KITTI、NYUv2、Sintel、DDAD、ETH3D 和 DIODE 上全面验证了 Depth Anything 模型的零样本深度估计能力 ,并将其与最新 MiDaS v3.1 中的最佳 DPT-BEiT_L-512 模型进行了比较,后者使用的标注图像比前者多。 如表2 所示,在均使用 ViT-L 编码器的前提下,在广泛的场景中,...
广泛评估了模型的零样本能力,并在多个数据集上展示了令人印象深刻的泛化能力。通过与NYUv2和KITTI的度量深度信息进行微调,取得了新的SOTAs。这一优越的深度模型还改善了深度条件下的ControlNet。 读者理解: 本文提出的Depth Anything模型在单目深度估计方面采用了创新的方法。特别是,强调利用廉价而多样的未标记图像,设计...
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。
我们使用来自NYUv2或KITTI的度量深度信息对我们的Depth Anything模型进行微调。它具有在域内和零样本情况下进行强大的度量深度估计能力。详情请参阅此处。 更好的深度条件控制网络 我们重新训练了一个基于Depth Anything的更好的深度条件控制网络。它比之前基于MiDaS 的ControlNet 提供了更精确的合成效果。详情请参阅此处...
作者在六个公开数据集与随机拍摄图片上评估了模型的zero-shot能力;通过度量深度信息微调达成新的SOTA;更优的深度模型进而引申出更优的深度引导ControlNet。更多Demo示例建议前往该项目主页:https://depth-anything.github.io 本文方案 上图给出了所提方案架构图,本文采用有标签与无标签图像训练更优的单目深度估计。假设...
更好的深度模型也得到了效果更好的 ControlNet,可用于图像生成和视频编辑。生成的内容质量得到了显著增强: 论文标题:Depth Anything Unleashing the Power of Large-Scale Unlabeled Data 论文地址:https://arxiv.org/pdf/2401.10891.pdf 项目主页:https://depth-anything.github.io/ ...
刷新NYUv2 和 KITTI等数据集的SOTA!Depth Anything:一种非常实用的鲁棒单目深度估计解决方案,充分利用各种未标记的图像和预训练模型中丰富的语义先验,具有优异的零样本深度估计能力,代码刚刚开源! 点击关注 …