Vision Transformers for Dense Prediction

ABSTRACT

本文方法和创新点

提出使用稠密vision transformers在卷积网络中作为backbone进行稠密估计任务

将vision transformer不同阶段的token组合为不同分辨率的类图像表示，并在过程中利用卷积解码器将他们组合为全像素的预测。

实验效果提升

在每一个阶段都有全局感受野，相较于全卷积网络能提供更细粒度以及全局更有条理的预测结果。

在单目深度估计任务，相比于先进的全卷积网络，相对性能上提高了28%

对于语义分割任务，在ADE20K上达到了新的先进水平，49.02%mIoU。

也能够在更小的数据集上进行细化，达到先进水平。

INTRODUCTION

问题：

backbone的选择很重要，在encoder中损失的信息不可能在decoder中恢复

在稠密预测任务中，下采样具有显著的缺点：在模型的更深的阶段，特征分辨率和粒度会丢失，很难在decoder中恢复

目前解决方法：

在更高的输入分辨率上训练

膨胀卷积

在encoder和decoder之间设置跳接

练剑多分辨率的表示通过网络

本文提出(创新点)

①提出稠密估计transformer，使用transformer作为encoder的基本计算构建块，使用ViT作为backbone结构

② 将vision transformer不同阶段的token组合为不同分辨率的类图像表示，并在过程中利用卷积解码器将他们组合为全像素的预测。

③在计算图像embedding之后抛弃了下采样操作，而在整个处理阶段都报纸了同样维度的表示

PROPOSED METHOD

模型结构

dpt1

模型分解—1：Transformer encoder

在所有的计算中保持了token的数量不变，能够在所有transformer阶段保持初始embedding的空间分辨率

用一个ResNet50对图像提取embedding，并将得到的特征图的特征作为token

采用一个readout token用于分类

三种变体:ViT-Base ViT-Large ViT-Hybrid

模型分解—2：Convolutional decoder

Reassemble operation

$\mathrm{R e a s s e m b l e}_{s}^{\hat{D}} ( t )=( \mathrm{R e s a m p l e}_{s} \circ\mathrm{C o n c a t e n a t e} \circ\mathrm{R e a d} ) ( t ),$ $\mathrm{R e a d} : \mathbb{R}^{N_{p}+1 \times D} \to\mathbb{R}^{N_{p} \times D}.$ $\mathrm{R e a d}_{i g n o r e} ( t )=\{t_{1}, \ldots, t_{N_{p}} \} \tag{2}$ $\mathrm{R e a d}_{a d d} ( t )=\{t_{1}+t_{0}, \ldots, t_{N_{p}}+t_{0} \} \tag{3}$ $\mathrm{R e a d}_{p r o j} ( t )=\{\mathrm{m l p} ( \mathrm{c a t} ( t_{1}, t_{0} ) ), \ldots,\mathrm{m l p} ( \mathrm{c a t} ( t_{N_p}, t_{0} ) ) \}\tag{4}$ $\mathrm{C o n c a t e n a t e :} \mathbb{R}^{N_{p} \times D} \to\mathbb{R}^{\frac{H} {p} \times\frac{W} {p} \times D}. \tag{5}$ $\mathrm{R e s a m p l e}_{s} : \mathbb{R}^{\frac{H} {p} \times\frac{W} {p} \times D} \to\mathbb{R}^{\frac{H} {s} \times\frac{W} {s} \times\hat{D}}.$

dpt2