NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

NVDS+1

整体网络结构与NVDS保持一致

稳定网络

深度感知特征编码

对于一个滑动窗口中的一组初始深度图 $F^{norm}_i={F_1,F_2,F_3,F_4}$ ，其归一化的方式为：

$F_{i}^{n o r m}=\frac{F_{i}-\operatorname* {m i n} \left( \mathbf{F} \right)} {\operatorname* {m a x} \left( \mathbf{F} \right)-\operatorname* {m i n} \left( \mathbf{F} \right)} \,, i \in\left\{1, 2, 3, 4 \right\}. \tag{1}$

将归一化后的深度图与RGB图像连接形成RGBD序列，通过transformer backbone编码成深度感知的特征图

交叉注意力模块

目标帧的特征图中的像素作为query，keys和values是从参考帧中生成的。

采用了patch merging的方法，并将交叉注意力机制限制在局部窗口内，减小计算开销。

用 $T$ 表示目标帧的深度感知特征，$R_1,R_2,R_3$ 分别表示三个参考帧的特征。则将 $T$ 分为没有重叠的7×7的patch，每一个patch都融合成一个token $t$ ，对于每一个token，对$R_1,R_2,R_3$ 进行局部窗口的池化，并将池化的结果堆叠为 $R_p$ ，则交叉注意力的计算方法为：

$\mathbf{t}^{\prime}=\mathrm{s o f t m a x} \frac{W_{q} \mathbf{t} \left( W_{k} R_{p} \right)^{T}} {\sqrt{c}} W_{v} R_{p} \,, \tag{2}$

最后用特征融合模块，将深度感知特征与交叉注意力优化特征相融合，经过深度解码器得到最终预测结果。

稳定网络的训练(the same as NVDS)

训练损失函数：

${\cal L}=\sum_{n=2}^{N} \left[ {\cal L}_{s} ( n-1 )+{\cal L}_{s} ( n )+\lambda{\cal L}_{t} ( n, n-1 ) \right] \,, \tag{3}$

采用基于光流的warping损失监督时序一致性：

$\mathcal{L}_{t} ( n, n-1 )=\frac{1} {M} \sum_{j=1}^{M} O_{n \Rightarrow n-1}^{( j )} | D_{n}^{( j )}-\hat{D}_{n-1}^{( j )} | \tag{4}$

双向推理（the same as NVDS）

采用后三帧与前三帧作为参考帧的稳定过程分别表示为：

$D_{n}^{p o s t}=\mathcal{S} ( V_{n}, \{V_{n+1}, V_{n+2}, V_{n+3} \} ) \,, \tag{5}$ $D_{n}^{p r e}=\mathcal{S} ( V_{n}, \{V_{n-1}, V_{n-2}, V_{n-3} \} ) \,. \tag{6}$

双向的预测结果表示为：

$D_{n}^{b i}=\frac{( D_{n}^{p r e}+D_{n}^{p o s t} )} {2} \tag{7}$

双向推理的策略仍会造成一定的延迟，所以这是一个可选项，仅采用前向的预测也能够得到较好的结果。