BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
Problem Formulation
feed-forward model:
Diffusion model:
Framework
Global Pre-Alignment
给定预训练仿射不变深度模型$\bf{M}_{FFD}$ 和数据对$\bf{(x, d)} ∈ \bf{D}_{syn}$ ,先预测粗糙的深度图$\bf{\widetilde{d}}=\bf{M}_{FFD}(x)$,估计尺度$s$和偏移量$b$对$\bf{\widetilde{d}}$进行对齐:
VAE Encoder将$\bf{x, \widetilde{d}^{‘}, d}$转换到潜在空间,然后对$\bf{d}$加噪声得到$\bf{z}^{d}_t$和$\bf{z^x,z^{\widetilde{d}^{‘}}}$连接输入UNet训练。
Local Patch Masking
将$\bf{\widetilde{d}^{‘}, d}$分为多个patch,然后计算对应patch的欧氏距离比较patch之间的相似性:
mask:
Inference Strategies
精细的细节是diffusion model 带来的么,如果不是的话,diffusion 的部分是不是也可以更换为传统的回归模型