ABSTRACT

提出目前存在的问题

由于较大的计算成本,CRF通常只在邻域间使用,这就不能够充分利用全连接CRF的能力。

本文方法和创新点

将输入分为多个窗,并对每个窗应用FC-CRF优化,减小了计算的复杂度,使得FC-CRF可行。

为了更好的得到节点之间的关系,应用多头机制计算多头势函数,并将此势函数用于网络,输出优化的深度图。

整体为自下而上,自上而下的结构,神经窗FC-CRF模块在其中作为解码器,同时vision transformer作为编码器。

实验效果提升

在KITTI和NYU数据集上,相较于之前的方法,在所有指标上都提高了性能。

同时能够直接应用在全景图上,在MatterPort3D数据集上取得了很好的性能。

INTRODUCTION

问题:

从单幅彩色图像估计深度图是一个不适定的问题,具有挑战性。

传统的方法通常局限于低维和稀疏距离或者已知和固定的对象。

传统方法由于计算量太大,局限于邻域CRF,而全连接CRF则能够获得任意节点之间的关系,能加强大。

目前解决方法:

传统的方法从马尔可夫随机场或条件随机场构建能量函数,使用可观察到的线索,如问题和位置信息以及最后的预测来构建能量函数,然后对能量优化得到深度估计。

目前许多工作使用深度网络直接回归深度图,但由于缺少多视角的几何约束,大多数工作都聚焦于设计更强大更复杂的网络,使该任务变成了一个困难的拟合问题。

本文提出(创新点)

① 将输入分割为多个窗,对每个窗构建全连接CRF能量

②采用多头机制计算CRF中的成对的势能,并构建了一个新的神经CRF模块。

③构建了一个自下而上自上而下的网络来估计深度

④利用一个窗口偏移操作补偿各个窗口的隔离,通过从全局平均池化层中聚合全局特征,来处理窗FC-CRF。

PROPOSED METHOD

模型结构

newcrf

编码器采用swim-transformer进行特征提取

PPM:pyramid pooling module,融合整幅图像的信息

优化网络包括两个全连接层

其他细节

Upscale Module

Training Loss

模型分解—1:Fully-connected Conditional Random Fields

newcrf1

MRF和CRF的优点

能够基于当前或相邻节点的信息对错误的预测进行有效纠正

对在空间和颜色近似的节点更倾向于相似的标签安排

全连接CRF的能量函数

newcrf2

模型分解—2:Window Fully-connected CRFs

newcrf3

全连接CRF存在的问题

  • 成对势函数计算量太大
  • 像素的深度仅取决于一定距离内的其他像素

将图像分为多个N×N的patch,每个patch包含n×n个像素,一个patch 视为一个节点,一个窗内的patch全连接,不与其他窗的patch进行连接

计算量比较

解决各窗独立的问题

将窗偏移(N2,N2)(\frac{N}{2},\frac{N}{2})(2N,2N)个patch后计算能量函数,相当于每次都需要对原窗和偏移后的窗计算两个能量函数。

模型分解—3:Neural Window FC-CRFs

传统CRF的一元势函数及成对势函数

鼓励不同颜色和相距较远的像素有不同的值预测

但是很难表示高维信息,描述复杂的联系

采用神经网络得到势函数

某一节点的成对势函数为

采用transformer的思想,计算所有patch的Q,K矩阵,得到任意patch对之间的势能权重,最后乘以预测值X矩阵得到最终的成对势能,同时添加P表达位置信息,softmax的输出就是式(8)中的α和β