Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
ABSTRACT
提出目前存在的问题
单目深度估计任务本身是模糊的,具有很多不确定性
本文方法和创新点
两个深度网络stacks
- 一个从整个图像得到粗糙全局预测
- 另一个将预测进行局部细化
采用尺度不变误差测量深度关系
实验效果提升
在NYU和KITTI上达到了先进水平,在不需要超像素化的情况下,能够匹配详细的深度边界
INTRODUCTION
问题:
进行单目深度估计需要很多单目深度线索,而不想立体深度估计能够利用对应同名点
单目深度估计是一个不适定的问题,一幅图像可能对应无穷多可能的场景
尽管在数据集中不存在极端的例子,但房间和家具的尺寸还是有适度的变化
本文提出(创新点)
① 采用尺度不变误差,聚焦于空间关系而不是整体尺寸
② 利用神经网络直接对深度回归,包含两个部分
- 一个首先估计场景的全局结构
- 另一个用局部信息对估计的深度进行细化
PROPOSED METHOD
模型结构
输入图像同时经过两个部分,coarse网络的输出传输到fine网络中作为第一层额外的图像特征,使得局部网络能够对全局预测进行编辑,获得更细化的细节。
模型分解—1:Global Coarse-Scale Network
网络最上层采用全连接,感受野是整幅图像
在中下层通过最大池化操作将图像不同部分的信息结合为小的空间维度
模型分解—2:Local Fine-Scale Network
只包含卷积层,最终的输出的尺寸为输入的1/4
在第一层池化之后,加入粗略的预测,后续采用0填充的卷积
尺度不变误差
尺度不变均方误差(对数空间)