Neural Window Fully-connected CRFs for Monocular Depth Estimation
ABSTRACT
提出目前存在的问题
由于较大的计算成本,CRF通常只在邻域间使用,这就不能够充分利用全连接CRF的能力。
本文方法和创新点
将输入分为多个窗,并对每个窗应用FC-CRF优化,减小了计算的复杂度,使得FC-CRF可行。
为了更好的得到节点之间的关系,应用多头机制计算多头势函数,并将此势函数用于网络,输出优化的深度图。
整体为自下而上,自上而下的结构,神经窗FC-CRF模块在其中作为解码器,同时vision transformer作为编码器。
实验效果提升
在KITTI和NYU数据集上,相较于之前的方法,在所有指标上都提高了性能。
同时能够直接应用在全景图上,在MatterPort3D数据集上取得了很好的性能。
INTRODUCTION
问题:
从单幅彩色图像估计深度图是一个不适定的问题,具有挑战性。
传统的方法通常局限于低维和稀疏距离或者已知和固定的对象。
传统方法由于计算量太大,局限于邻域CRF,而全连接CRF则能够获得任意节点之间的关系,能加强大。
目前解决方法:
传统的方法从马尔可夫随机场或条件随机场构建能量函数,使用可观察到的线索,如问题和位置信息以及最后的预测来构建能量函数,然后对能量优化得到深度估计。
目前许多工作使用深度网络直接回归深度图,但由于缺少多视角的几何约束,大多数工作都聚焦于设计更强大更复杂的网络,使该任务变成了一个困难的拟合问题。
本文提出(创新点)
① 将输入分割为多个窗,对每个窗构建全连接CRF能量
②采用多头机制计算CRF中的成对的势能,并构建了一个新的神经CRF模块。
③构建了一个自下而上自上而下的网络来估计深度
④利用一个窗口偏移操作补偿各个窗口的隔离,通过从全局平均池化层中聚合全局特征,来处理窗FC-CRF。
PROPOSED METHOD
模型结构
编码器采用swim-transformer进行特征提取
PPM:pyramid pooling module,融合整幅图像的信息
优化网络包括两个全连接层
其他细节
Upscale Module
Training Loss
模型分解—1:Fully-connected Conditional Random Fields
MRF和CRF的优点
能够基于当前或相邻节点的信息对错误的预测进行有效纠正
对在空间和颜色近似的节点更倾向于相似的标签安排
全连接CRF的能量函数
模型分解—2:Window Fully-connected CRFs
全连接CRF存在的问题
- 成对势函数计算量太大
- 像素的深度仅取决于一定距离内的其他像素
将图像分为多个N×N的patch,每个patch包含n×n个像素,一个patch 视为一个节点,一个窗内的patch全连接,不与其他窗的patch进行连接
计算量比较
解决各窗独立的问题
将窗偏移(N2,N2)(\frac{N}{2},\frac{N}{2})(2N,2N)个patch后计算能量函数,相当于每次都需要对原窗和偏移后的窗计算两个能量函数。
模型分解—3:Neural Window FC-CRFs
传统CRF的一元势函数及成对势函数
鼓励不同颜色和相距较远的像素有不同的值预测
但是很难表示高维信息,描述复杂的联系
采用神经网络得到势函数
某一节点的成对势函数为
采用transformer的思想,计算所有patch的Q,K矩阵,得到任意patch对之间的势能权重,最后乘以预测值X矩阵得到最终的成对势能,同时添加P表达位置信息,softmax的输出就是式(8)中的α和β