DVD: Deterministic Video Depth Estimation with Generative Priors

作者：Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen

单位：HKUST(GZ), HKUST, UCSD, Princeton University, MBZUAI, SZU, Knowin, UniTrento

会议：2026 Arxiv

链接：https://arxiv.org/abs/2603.12250

研究动机

1.生成式方法具有强大的视频先验和零样本泛化能力，但容易出现随机采样带来的几何幻觉和尺度漂移

2.判别式方法虽然稳定高效，但又高度依赖大规模标注数据来消除语义歧义

3.打破这种 trade-off，将预训练视频扩散模型中的丰富生成先验，以确定性回归的方式迁移到视频深度估计中，从而实现兼具稳定性、泛化性、数据效率和长视频可扩展性的统一框架

[!IMPORTANT]

能否设计一种视频深度估计框架，既能有效兼顾判别式模型的结构稳定性与生成式方法的丰富时空先验，又能在推理和部署上保持高效与可扩展

核心方法

DVD-0

1.将时间步作为结构锚点

DVD-1

越大的t，模型会预测低频的全局结构，信噪比越低；越小的t，模型会预测高频的局部细节，信噪比越高

在DVD中，具体的时间步t首先被展开为正余弦编码：

$e_{\sin}(t) = [\cos(\omega_1 t), \ldots, \cos(\omega_{d/2} t), \sin(\omega_1 t), \ldots, \sin(\omega_{d/2} t)]$

然后通过一个MLP投影注入模型。处于中间区域的时间步整体上与其他时间步的相似性更高，因此能够更好地平衡高频以及低频的内容。

DVD-2

2.潜在流形修正

使用像素级的训练目标，会导致mean collapse问题，抹去高频细节。

DVD-3

通过时序和空间上的一阶一致性进行对齐

空间：

$L_{sp} = \frac{1}{F \cdot \Omega} \sum_{f=1}^{F} \sum_{\partial \in \{\nabla_h, \nabla_w\}} \left\|\partial \hat{z}_d^f - \partial z_d^f\right\|_1$

时间：

$L_{temp} = \frac{1}{(F - 1) \cdot \Omega} \sum_{f=2}^{F} \left\|\nabla_t \hat{z}_d^f - \nabla_t z_d^f\right\|_1$

3.全局仿射一致性

由于模型是确定性的，所以不会出现尺度的不稳定性，而相邻窗口之间的尺度不一致主要是由VAE Decoder带来的，而这种不一致性是一种全局的仿射不变性，可以通过重叠部分进行对齐。

$\arg\min_{s,t} \left\|s d_B^{\mathrm{overlap}} + t\mathbf{1} - d_A^{\mathrm{overlap}}\right\|_2^2$ $s = \frac{\operatorname{Cov}(d_A^{\mathrm{overlap}}, d_B^{\mathrm{overlap}})}{\operatorname{Var}(d_B^{\mathrm{overlap}})}, \quad t = \mu_A - s\mu_B$

4.图像-视频联合训练

使用视频数据训练会损失空间细节，因为模型会更关注时序的一致性以及运动，忽略边缘等细节的平滑性。

采用顺序的图像到视频的训练策略，可能会导致灾难性遗忘问题，在第二阶段忘掉第一阶段的预测细节。