背景

现有的MDE方法在标准的环境下(例如晴天)表现的很好,但是在一些具有挑战性的条件下效果会变得很差,这主要是由于一些关键的假设失效了,例如光度一致性假设,同时也没有可靠的ground truth包含这些场景。

现有的一些鲁棒的解决方案

  • 基于模型的方法

    这一方法通过修改网络结构来增强模型处理各种条件的能力

    缺点:网络模型过于复杂,不能够适应各种环境

  • 基于数据的方法

​ 利用域自适应或其他模态的数据来增强图像信号

​ 缺点:缺乏高质量的数据,需要后处理

方法

Generative Diffusion Model-based Translation

生成在深度方面与白天清晰图像非常相似的训练样本

SSD1

  • BILP2:获取场景描述符,保留图像内容信息
  • ControlNet d2i:保持近似深度一致性
  • MiDas:获取初始深度图
  • PatchFusion:获得高分辨率的深度图
  • text prompt=BILP2 场景描述符+challenging condition text prompt
  • image prompt:用于风格转换
  • IPAdapter:合并text prompts和image prompts

Stealing Stable Diffusion Prior

SSD2

DINOv2作为encoder用于提取鲁棒的图像特征

  • 自训练策略

    在白天清晰的样本上训练教师网络,随后训练学生网络

    训练学生网络时,P %的概率使用day-clear image,1-P%的概率使用challenging condition image

  • 损失函数

    教师Loss:在计算蒸馏损失的时候mask掉教师模型预测的不合理的深度值

    利用PoseNet估计相机位姿,使用相邻帧重建当前帧

    mask:对比教师模型和学生模型的光度误差

    语义对齐Loss