DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
作者:Ziyang Song, Zerong Wang, Bo Li , Hao Zhang , Ruijie Zhu , Li Liu , Peng-Tao Jiang , Tianzhu Zhang
单位:University of Science and Technology of China, VIVO
会议:2025 Arxiv
链接:https://indu1ge.github.io/DepthMaster_page/
研究动机
- 现有的生成式深度估计模型,生成模型的中间特征会对纹理进行过度表达,导致错误的纹理预测
- 为了提高推理速度,采用单步去噪推理,但会丢失细节
核心方法

1.通过特征对齐模块,引入额外的视觉特征增强生成模型特征
2.通过傅立叶增强模块提高模型的细节表达能力
数据集
Train:
- Hypersim
- Virtual KITTI
Eval:
- NYUv2
- ScanNet
- KITTI
- ETH3D
- DIODE
算力
1张H800
实验结果





优势与不足
优势
- 率先采用了Feature Alignment的方式来增强生成模型的特征表达
- 通过频域增强的方式增强模型输出的细节,从而解决单步推理带来的平滑问题
- 两阶段学习兼顾了全局结构以及局部细节的表达能力
不足
- 模型性能依旧与data-driven的方法具有较大差距
- 相较于discriminative的方法推理速度还是比较慢,且无法采用更小型的模型进行硬件部署
记忆点
Multi-directional Gradient Loss
Square-root Disparity
在中间层进行对齐,使用KL Loss












