作者:Ziyang Song, Zerong Wang, Bo Li , Hao Zhang , Ruijie Zhu , Li Liu , Peng-Tao Jiang , Tianzhu Zhang

单位:University of Science and Technology of China, VIVO

会议:2025 Arxiv

链接:https://indu1ge.github.io/DepthMaster_page/

研究动机

  1. 现有的生成式深度估计模型,生成模型的中间特征会对纹理进行过度表达,导致错误的纹理预测
  2. 为了提高推理速度,采用单步去噪推理,但会丢失细节

核心方法

dm-0

1.通过特征对齐模块,引入额外的视觉特征增强生成模型特征

2.通过傅立叶增强模块提高模型的细节表达能力

数据集

Train:

  • Hypersim
  • Virtual KITTI

Eval:

  • NYUv2
  • ScanNet
  • KITTI
  • ETH3D
  • DIODE

算力

1张H800

实验结果

dm-1

dm-2

dm-3

dm-4

dm-5

优势与不足

优势

  1. 率先采用了Feature Alignment的方式来增强生成模型的特征表达
  2. 通过频域增强的方式增强模型输出的细节,从而解决单步推理带来的平滑问题
  3. 两阶段学习兼顾了全局结构以及局部细节的表达能力

不足

  1. 模型性能依旧与data-driven的方法具有较大差距
  2. 相较于discriminative的方法推理速度还是比较慢,且无法采用更小型的模型进行硬件部署

记忆点

  1. Multi-directional Gradient Loss

  2. Square-root Disparity

  3. 在中间层进行对齐,使用KL Loss