Neural Window Fully-connected CRFs for Monocular Depth Estimation

ABSTRACT

提出目前存在的问题

由于较大的计算成本，CRF通常只在邻域间使用，这就不能够充分利用全连接CRF的能力。

本文方法和创新点

将输入分为多个窗，并对每个窗应用FC-CRF优化，减小了计算的复杂度，使得FC-CRF可行。

为了更好的得到节点之间的关系，应用多头机制计算多头势函数，并将此势函数用于网络，输出优化的深度图。

整体为自下而上，自上而下的结构，神经窗FC-CRF模块在其中作为解码器，同时vision transformer作为编码器。

实验效果提升

在KITTI和NYU数据集上，相较于之前的方法，在所有指标上都提高了性能。

同时能够直接应用在全景图上，在MatterPort3D数据集上取得了很好的性能。

INTRODUCTION

问题：

从单幅彩色图像估计深度图是一个不适定的问题，具有挑战性。

传统的方法通常局限于低维和稀疏距离或者已知和固定的对象。

传统方法由于计算量太大，局限于邻域CRF，而全连接CRF则能够获得任意节点之间的关系，能加强大。

目前解决方法：

传统的方法从马尔可夫随机场或条件随机场构建能量函数，使用可观察到的线索，如问题和位置信息以及最后的预测来构建能量函数，然后对能量优化得到深度估计。

目前许多工作使用深度网络直接回归深度图，但由于缺少多视角的几何约束，大多数工作都聚焦于设计更强大更复杂的网络，使该任务变成了一个困难的拟合问题。

本文提出(创新点)

① 将输入分割为多个窗，对每个窗构建全连接CRF能量

②采用多头机制计算CRF中的成对的势能，并构建了一个新的神经CRF模块。

③构建了一个自下而上自上而下的网络来估计深度

④利用一个窗口偏移操作补偿各个窗口的隔离，通过从全局平均池化层中聚合全局特征，来处理窗FC-CRF。

PROPOSED METHOD

模型结构

newcrf

编码器采用swim-transformer进行特征提取

PPM:pyramid pooling module,融合整幅图像的信息

优化网络包括两个全连接层

其他细节

Upscale Module

Training Loss

$\Delta d_{i}=\operatorname{l o g} \hat{d}_{i}-\operatorname{l o g} d_{i}^{*}, \tag{10}$ $\mathcal{L}=\alpha\sqrt{\frac{1} {K} \sum_{i} \Delta d_{i}^{2}-\frac{\lambda} {K^{2}} ( \sum_{i} \Delta d_{i} )^{2}}, \tag{11}$

模型分解—1：Fully-connected Conditional Random Fields

newcrf1

MRF和CRF的优点

能够基于当前或相邻节点的信息对错误的预测进行有效纠正

对在空间和颜色近似的节点更倾向于相似的标签安排

全连接CRF的能量函数

newcrf2

$\psi_{p}=\mu( x_{i}, x_{j} ) f ( x_{i}, x_{j} ) g ( I_{i}, I_{j} ) h ( p_{i}, p_{j} ), \tag{2}$

模型分解—2：Window Fully-connected CRFs

newcrf3

全连接CRF存在的问题

成对势函数计算量太大
像素的深度仅取决于一定距离内的其他像素

将图像分为多个N×N的patch，每个patch包含n×n个像素，一个patch 视为一个节点，一个窗内的patch全连接，不与其他窗的patch进行连接

计算量比较

$\begin{aligned} \Omega( \mathrm{F C-C R F s} ) & =h w \times\Omega( \psi_{u} )+h w ( h w-1 ) \times\Omega( \psi_{p} ) \\ \Omega( \mathrm{W i n d o w} \, \mathrm{F C} ) & =h w \times\Omega( \psi_{u} )+h w ( N^{2}-1 ) \times\Omega( \psi_{p} ), \\ \end{aligned}\tag{3}$

解决各窗独立的问题

将窗偏移(N2,N2)(\frac{N}{2},\frac{N}{2})(2N,2N)个patch后计算能量函数，相当于每次都需要对原窗和偏移后的窗计算两个能量函数。

模型分解—3：Neural Window FC-CRFs

传统CRF的一元势函数及成对势函数

$\psi_{u} ( x_{i} )=-\operatorname{l o g} P ( x_{i} | I ), \tag{4}$ $\psi_{p} ( x_{i}, x_{j} )=\mu( x_{i}, x_{j} ) | | x_{i}-x_{j} | | e^{-\frac{| | I_{i}-I_{j} | |} {2 \sigma^{2}}} e^{-\frac{| | p_{i}-p_{j} | |} {2 \sigma^{2}}}.\tag{5}$

鼓励不同颜色和相距较远的像素有不同的值预测

但是很难表示高维信息，描述复杂的联系

采用神经网络得到势函数

$\psi_{u} ( x_{i} )=\theta_{u} ( I, x_{i} ), \tag{6}$ $\psi_{p} ( x_{i}, x_{j} )=w ( \mathcal{F}_{i}, \mathcal{F}_{j}, p_{i}, p_{j} ) | | x_{i}-x_{j} | |, \tag{7}$

某一节点的成对势函数为

$\psi_{p_{i}}=\alpha( \mathcal{F}_{i}, \mathcal{F}_{j}, p_{i}, p_{j} ) x_{i}+\sum_{j \neq i} \beta( \mathcal{F}_{i}, \mathcal{F}_{j}, p_{i}, p_{j} ) x_{j}, \tag{8}$

采用transformer的思想，计算所有patch的Q，K矩阵，得到任意patch对之间的势能权重，最后乘以预测值X矩阵得到最终的成对势能，同时添加P表达位置信息，softmax的输出就是式（8）中的α和β

$\begin{aligned} \psi_{p_{i}} & =\mathrm{S o f t M a x} ( q \cdot K^{T}+P ) \cdot X\\ \sum_{i} \psi_{p_{i}} & =\mathrm{S o f t M a x} ( Q \cdot K^{T}+P ) \cdot X, \\ \end{aligned} \tag{9}$