Input: $n-1$ 个源图像 ${I_i}^{n-1}_{i=1}$、参考图像 $I_0$、相机内参和相机姿态

Output:depth $d$

Part:single-view depth module, multi-v iew depth module, adaptive fusion module and pose correction module

AFNet1

Single-view and Multi-view Depth Module

使用ConvNeXt-T作为backbone提取四个尺度上的特,征$F_{ i,l} (l = 1, 2, 3, 4)$,特征维度分别为$C=96,192,384,768$

Single-view branch

采用多尺度的decoder聚合特征获得深度特征$D_s ∈ R^{H/4×W/4×257}$

对$D_s$的前256个通道使用softmax得到depth probability volume $P_s ∈ R^{H/4×W/4×256}$,最后一个通道作为置信度图$M_s ∈ R^{H/4×W/4}$

采用soft-weighted sum计算单目的深度:

where $\Bbb{B}$ denotes the bins uniformly sampled in the log space from $d_{min}$ to $d_{max}$

Multi-view branch

使用同样的backbone获取特征

采用去卷积将低分辨率特征变换为四分之一分辨率,并与 $F_{i,1}$ 结合构建cost volume,通过将源图像的特征warp到参考图像的相机平面构建feature volume,the initial cost volume $C_{init} ∈ R^{H/4×W/4×128}$

使用2D hourglass network进行正则化获得最终的多视角cost volume $C_{m} ∈ R^{H/4×W/4×256}$

将单目深度特征 $D_s$ 与 cost volume融合获得融合深度特征 $F_{fuse}$ :

再通过2D hourglass network以及后续操作得到多视角置信度图和深度预测

Adaptive Fusion Module

采用$M_s$,$M_m$和$M_w$三个置信度图进行融合,前两个是由前面两个分支获得的,第三个是由前向warping获得的。

使用相机位姿和多视角深度图 $d_m$ 作为输入,将源图像warp到参考相机空间,得到 ${ I^{‘}_i }^{n-1}_{i=1}$ 与 $I_0$ 连接:

将三个置信度图作为引导,通过两个卷积层获得融合深度

Loss Funcion

depth loss

confidence loss vaild mask:

对noise pose 的鲁棒性

AFNet2