Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

发表于2024-12-28|更新于2024-12-28|深度估计

|总字数:641|阅读时长:2分钟|浏览量:

ABSTRACT

提出目前存在的问题

单目深度估计任务本身是模糊的，具有很多不确定性

本文方法和创新点

两个深度网络stacks

一个从整个图像得到粗糙全局预测
另一个将预测进行局部细化

采用尺度不变误差测量深度关系

实验效果提升

在NYU和KITTI上达到了先进水平，在不需要超像素化的情况下，能够匹配详细的深度边界

INTRODUCTION

问题：

进行单目深度估计需要很多单目深度线索，而不想立体深度估计能够利用对应同名点

单目深度估计是一个不适定的问题，一幅图像可能对应无穷多可能的场景

尽管在数据集中不存在极端的例子，但房间和家具的尺寸还是有适度的变化

本文提出(创新点)

① 采用尺度不变误差，聚焦于空间关系而不是整体尺寸

② 利用神经网络直接对深度回归，包含两个部分

一个首先估计场景的全局结构
另一个用局部信息对估计的深度进行细化

PROPOSED METHOD

模型结构

eigen

输入图像同时经过两个部分，coarse网络的输出传输到fine网络中作为第一层额外的图像特征，使得局部网络能够对全局预测进行编辑，获得更细化的细节。

模型分解—1：Global Coarse-Scale Network

网络最上层采用全连接，感受野是整幅图像

在中下层通过最大池化操作将图像不同部分的信息结合为小的空间维度

模型分解—2：Local Fine-Scale Network

只包含卷积层，最终的输出的尺寸为输入的1/4

在第一层池化之后，加入粗略的预测，后续采用0填充的卷积

尺度不变误差

尺度不变均方误差（对数空间）

$D ( y, y^{*} ) \; \;=\; \; \frac{1} {2 n} \sum_{i=1}^{n} ( \operatorname{l o g} y_{i}-\operatorname{l o g} y_{i}^{*}+\alpha( y, y^{*} ) )^{2}, \tag{1}$ $D ( y, y^{*} ) = \frac{1} {2 n^{2}} \sum_{i, j} \left( ( \operatorname{l o g} y_{i}-\operatorname{l o g} y_{j} )-( \operatorname{l o g} y_{i}^{*}-\operatorname{l o g} y_{j}^{*} ) \right)^{2} \\ = \frac{1} {n} \sum_{i} d_{i}^{2}-\frac{1} {n^{2}} \sum_{i, j} d_{i} d_{j} = \frac{1} {n} \sum_{i} d_{i}^{2}-\frac{1} {n^{2}} \left( \sum_{i} d_{i} \right)^{2} \\$

训练损失函数

$L ( y, y^{*} ) \ \ =\ \ \frac{1} {n} \sum_{i} d_{i}^{2}-\frac{\lambda} {n^{2}} \left( \sum_{i} d_{i} \right)^{2} \tag{4}$

确定性模型单目深度估计

赞助

微信
支付宝

相关推荐

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

方法数据清洗及合理数据掩码生成为了消除不合理像素对训练的影响，使用GroundingSAM将不合理的区域滤除。对于有效像素占比低于20%的图像也进行溢出。教师模型对无标签图像使用立方体投影，然后用Depth Anything对投影后的patch进行预测，将360度模型的预测结果投影到立方体视图，再和Depth Anything的输出计算Loss。随机旋转处理由于Depth Anything在立方体的每一个面上进行估计，缺乏对场景的综合理解，所以会出现伪影。在等矩形坐标系下应用旋转矩阵： ( \hat{\theta}, \hat{\phi} )=\mathcal{R} \cdot( \theta, \phi). \tag{1}从等矩形到立方体投影，立方体每一个面的视场角等于90度，每一个面都能够看作一个焦距为$w/2$的透视相机，所有的面共用世界坐标系中的中心点。因此每一个相机的外参矩阵能够用一个旋转矩阵定义，则每个面上的像素表示为： p=K \cdot R_{i}^{T} \cdot q, \tag{2} q=\left[ \begin{matrix} q_{x}...

Depth Anything v2

三个关键方法：1）将所有有标签的真实图像更换为合成图像 2）增强了教师模型的capacity 3）通过大规模伪标签真实图像对学生模型进行训练真实标签数据的缺点：1）标签噪声：传感器固有的缺点、透明等场景 2）忽略的细节：边缘、洞导致错误的估计，过度平滑的估计合成数据的局限性：1）合成图像与真实图像之间的分布偏移真实图像包含更多随机性，合成图像场景的布置较为有序。 2）所覆盖的场景有限，难以与真实世界的场景相匹敌大规模无标签真实图像的作用：1）缩小合成图像与真实场景之间的领域差异 2）增大所覆盖的场景范围 3）知识迁移 sparse的gt在评估的时候真的会影响指标的可靠性么？能否直接训练或者使用一个强大的metric depth网络来生成metric的伪标签，从而使得学生模型能够具备metric depth预测能力？

Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution

ABSTRACT提出目前存在的问题神经网络方法得到的深度图远低于1兆像素的分辨率，缺少细粒度的细节，限制了其实用性本文方法和创新点证明了一致的场景结构和高频细节之间存在一种权衡，并利用一个简单的深度融合网络来融合低分辨率和高分辨率的估计，来利用这种二元性采用双重估计方法提高整幅图像的深度估计，采用patch选择方法，为最终的结果添加局部细节通过合并不同分辨率的估计以及不断变化的context，可以用预训练好的模型生成高水平细节的数百万像素深度图。 INTRODUCTION问题：单目深度估计网络的输出特性随着输入图像的分辨率改变，高分辨率的图像输入网络，能够更好地捕捉高频细节，但估计的结构一致性会降低，这种二元性源于给定模型的容量和感受野大小限制当深度线索相比于感受野间隔太大时，模型会生成结构不一致地结果，不同区域的正确分辨率发生局部改变本文提出(创新点)①...

DEPTH PRO: SHARP MONOCULAR METRIC DEPTH IN LESS THAN A SECOND

思路：在不同的尺度提取patches，对patches应用ViT encoders，将patches 的预测结果融合成一个单独的高分辨率的稠密估计。方法 1.相对于可变分辨率的方法，将输入分辨率固定为了1536×1536，保证了足够大的感受野，防止了out-of-memory的问题。使用普通的ViT encoder，能够利用多种预训练ViT的主干网络。 2.将输入图像分成5×5个分辨率为384×384的重叠patch，下采样至786×786后分成3×3个重叠的patch。将patch链接后输入patch encoder，每一个patch得到分辨率为24×24的feature。在精细的尺度上，进一步提取中间特征。得到特征之后将特征patches融合成maps输入decoder。 Sharp 单目深度估计训练目标网络预测的输出为canonical inverse depth，然后通过视场角转换为metric depth D_m=\frac{f_{px}}{wC}对于metric datasets，使用MAE...

Vision Transformers for Dense Prediction

ABSTRACT本文方法和创新点提出使用稠密vision transformers在卷积网络中作为backbone进行稠密估计任务将vision...

The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth

ABSTRACT提出目前存在的问题对于许多应用来说，视频帧的序列信息在测试阶段也可以获得，但大多数单目网络没有使用这个额外的信号，忽略了重要的信息；这些方法要么在测试阶段使用计算量大的细化技术，要么采用非循环网络，间接使用那些本就可获得的几何信息。本文方法和创新点提出了ManyDepth，一种自适应的稠密深度估计方法，能够在测试阶段利用序列信息。提出了一个端到端的cost volume，基于只用自监督训练的方法采用了一个新的一致性损失，当cost volume不可靠时忽略它实验效果提升在KITTI和Cityscape上的实验表明我们的方法比所有已发布的自监督baseline都要好，包括那些在测试阶段使用单帧或多帧的方法。 INTRODUCTION问题：在测试阶段，实际情况下可以得到不止一帧，而现有的单目方法没有使用这些额外的帧将子监督训练直接应用于多视角平面扫描立体结构会产生较差的结果本文提出(创新点)① 在训练和测试阶段都使用这些额外的帧来对多帧的深度估计系统进行自监督 ②...