Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

Input: $n-1$ 个源图像 ${I_i}^{n-1}_{i=1}$、参考图像 $I_0$、相机内参和相机姿态

Output:depth $d$

Part:single-view depth module, multi-v iew depth module, adaptive fusion module and pose correction module

AFNet1

Single-view and Multi-view Depth Module

使用ConvNeXt-T作为backbone提取四个尺度上的特,征$F_{ i,l} (l = 1, 2, 3, 4)$,特征维度分别为$C=96,192,384,768$

Single-view branch

采用多尺度的decoder聚合特征获得深度特征$D_s ∈ R^{H/4×W/4×257}$

对$D_s$的前256个通道使用softmax得到depth probability volume $P_s ∈ R^{H/4×W/4×256}$,最后一个通道作为置信度图$M_s ∈ R^{H/4×W/4}$

采用soft-weighted sum计算单目的深度：

$\boldsymbol{d}_{s}=\sum_{d \in\mathbb{B}} d \cdot p_{d}, \tag{1}$

where $\Bbb{B}$ denotes the bins uniformly sampled in the log space from $d_{min}$ to $d_{max}$

Multi-view branch

使用同样的backbone获取特征

采用去卷积将低分辨率特征变换为四分之一分辨率，并与 $F_{i,1}$ 结合构建cost volume，通过将源图像的特征warp到参考图像的相机平面构建feature volume，the initial cost volume $C_{init} ∈ R^{H/4×W/4×128}$

使用2D hourglass network进行正则化获得最终的多视角cost volume $C_{m} ∈ R^{H/4×W/4×256}$

将单目深度特征 $D_s$ 与 cost volume融合获得融合深度特征 $F_{fuse}$ :

$F_{f u s e}=\mathrm{C o n v} \left\{\mathrm{C o n c a t} \left\{C_{m}, D_{s} \right\} \right\}+C_{m}. \tag{2}$

再通过2D hourglass network以及后续操作得到多视角置信度图和深度预测

Adaptive Fusion Module

采用$M_s$，$M_m$和$M_w$三个置信度图进行融合，前两个是由前面两个分支获得的，第三个是由前向warping获得的。

使用相机位姿和多视角深度图 $d_m$ 作为输入，将源图像warp到参考相机空间，得到 ${ I^{‘}_i }^{n-1}_{i=1}$ 与 $I_0$ 连接:

$M_{w}=\mathrm{C o n v} \left\{\mathrm{C o n c a t} \left\{I_{0}, I_{1}^{'}, I_{2}^{'} \cdots I_{n-1}^{'} \right\} \right\}. \tag{3}$

将三个置信度图作为引导，通过两个卷积层获得融合深度

Loss Funcion

depth loss

$L_{d}=\left\| \boldsymbol{d}_{s}-\boldsymbol{d}_{g t} \right\|_{1}+\left\| \boldsymbol{d}_{m}-\boldsymbol{d}_{g t} \right\|_{1}+\left\| \boldsymbol{d}_{f u s e}-\boldsymbol{d}_{g t} \right\|_{1}.$

confidence loss vaild mask：

$\boldsymbol{\Omega}_{s}=| \boldsymbol{d}_{s}-\boldsymbol{d}_{g t} | < \boldsymbol{d}_{g t}\\ \boldsymbol{\Omega}_{m}=| \boldsymbol{d}_{m}-\boldsymbol{d}_{g t} | < \boldsymbol{d}_{g t}\tag{5}$ $L_{c}=\frac{1} {N_{s}} \sum_{p \in\mathbf{\Omega}_{s}} | \mathbf{M}_{s} ( p )-( 1-| \boldsymbol{d}_{s} ( p )-\boldsymbol{d}_{g t} ( p ) | / \boldsymbol{d}_{g t} ( p ) ) | \\+\frac{1} {N_{m}} \sum_{q \in\mathbf{\Omega}_{m}} | \mathbf{M}_{m} ( q )-( 1-| \boldsymbol{d}_{m} ( q )-\boldsymbol{d}_{g t} ( q ) | / \boldsymbol{d}_{g t} ( q ) ) | \tag{6}$

对noise pose 的鲁棒性

AFNet2