The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth

ABSTRACT

提出目前存在的问题

对于许多应用来说，视频帧的序列信息在测试阶段也可以获得，但大多数单目网络没有使用这个额外的信号，忽略了重要的信息；这些方法要么在测试阶段使用计算量大的细化技术，要么采用非循环网络，间接使用那些本就可获得的几何信息。

本文方法和创新点

提出了ManyDepth，一种自适应的稠密深度估计方法，能够在测试阶段利用序列信息。

提出了一个端到端的cost volume，基于只用自监督训练的方法

采用了一个新的一致性损失，当cost volume不可靠时忽略它

实验效果提升

在KITTI和Cityscape上的实验表明我们的方法比所有已发布的自监督baseline都要好，包括那些在测试阶段使用单帧或多帧的方法。

INTRODUCTION

问题：

在测试阶段，实际情况下可以得到不止一帧，而现有的单目方法没有使用这些额外的帧

将子监督训练直接应用于多视角平面扫描立体结构会产生较差的结果

本文提出(创新点)

① 在训练和测试阶段都使用这些额外的帧来对多帧的深度估计系统进行自监督

② 使用了一些新方法来处理由移动物体，尺寸模糊和静态相机引起的问题

一个新的自监督多帧深度估计模型

引入了有效的损失和训练解决方法来解决运动物体和静态场景的影响

提出了一个自适应cost volume解决尺度模糊问题

PROPOSED METHOD

$D_{t}=\theta_{\mathrm{d e p t h}} ( I_{t}, I_{t-1}, \ldots, I_{t-N} ). \tag{2}$

模型结构

manydepth

使用前后帧作为监督信号

在训练和测试阶段用一个可微的位姿网络预测位姿

不需要对运动的物体进行mask

假设已知固定地相机内参

模型分解—1：自监督单目深度估计

$I_{t+n \to t}=I_{t+n} \Big\langle\mathrm{p r o j} ( D_{t}, T_{t \to t+n}, K ) \Big\rangle, \tag{3}$ $L_{p}=\operatorname* {m i n}_{n} p e ( I_{t}, I_{t+n \to t} ). \tag{4}$

模型分解—2：构建cost volume

衡量目标图像中像素和附近源图像中像素的在不同深度值的几何兼容性

最终的cost volume是扭曲后的特征图与It的特征图之间的绝对差异，描述了对于某一像素，P中每一个d，其是正确深度的可能性有多少

能够使网络利用不同视角的输入

模型分解—3：自适应cost volume

问题：需要已知的深度范围

解决方法：让深度范围从数据中学习得到

在一个训练batch内，计算预测的深度图的平均最小与最大值，并用此数据来更新dmin和dmax的指数移动平均估计。

处理cost volume过拟合

cost volume中的信息旨在特定的环境下可靠，如具有纹理表面的静态区域

使用单独的网络进行规范,对每一个训练图像生成一个深度图，用一个二值的mask来定义可能有问题的像素

$L_{\mathrm{c o n s i s t e n c y}}=\sum M | D_{t}-\hat{D}_{t} |. \tag{5}$ $M=\operatorname* {m a x} \Big( \frac{D_{\mathrm{c v}}-\hat{D}_{t}} {\hat{D}_{t}}, \frac{\hat{D}_{t}-D_{\mathrm{c v}}} {D_{\mathrm{c v}}} \Big) > 1. \tag{6}$