D4D: An RGBD diffusion model to boost monocular depth estimation

发表于2024-12-06|更新于2024-12-06|深度估计

|总字数:286|阅读时长:1分钟|浏览量:

D4D

方法

阶段一

对NYU和KITTI中的RGBD样本进行预处理，进行归一化以及rescale，分辨率跟第三阶段所采用的model有关

阶段二

第二阶段对输入的RGBD进行前向和后向操作训练网络，同时通过S1和S2两种不同的训练配置，得到不同的生成数据，其中$S1$使用$L1$ loss，$β$策略采用线性策略，$S2$使用$L2$ loss，$β$采用余弦策略

$S 1 : L 1=\frac{1} {| \mathcal{P} |} \sum_{p \in\mathcal{P}} | | x_{p}-y_{p} | |_{1}, \; \; \beta=l i n e a r \tag{3}$ $S 2 : L 2=\frac{1} {| \mathcal{P} |} \sum_{p \in\mathcal{P}} | | x_{p}-y_{p} | |_{2}^{2}, \; \; \beta=c o s i n e \tag{4}$

最终得到的$S3$就是$S1$和$S2$的并集

$S 3=( s 1 \cup s 2 ) \; w h e r e \begin{cases} S 1 : \{l o s s : L 1, & \beta: l i n e a r \} \\ S 2 : \{l o s s : L 2, & \beta: c o s i n e \} \\ \end{cases} . \tag{5}$

最终用于后续训练的增强训练数据集由$S3$和原始的训练数据组成

阶段三

用构建的增强训练数据集对多个model进行训练

单目深度估计数据集生成模型

赞助

微信
支付宝

相关推荐

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

作者：Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen 单位：HKUST(GZ), UC San Diego, HKUST 会议：2025 Arxiv 链接：https://arxiv.org/abs/2512.01030 研究动机这篇文章讨论的是一个很尖锐的矛盾：单目几何密集预测本质上是病态问题，但现在最强的两类路线各有明显短板。大规模判别式深度模型依赖海量监督数据，性能上限很大程度由训练集规模、真实性和标注质量决定，一旦遇到稀有场景或开放域图像，泛化就容易掉下来。扩散/rectified-flow 这类生成模型确实在海量图文数据里学到了强 world prior，但它们原生的随机采样、多步生成和高保真图像目标，并不天然适合“同一张图稳定输出一张几何图”这种确定性任务。如果直接把生成模型的随机生成范式搬过来，模型会出现结构方差、几何幻觉和推理开销过高的问题；但如果完全退回普通回归模型，又拿不到生成模型里蕴含的大规模几何先验。所以 Lotus-2...

SSD:Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation

背景现有的MDE方法在标准的环境下（例如晴天）表现的很好，但是在一些具有挑战性的条件下效果会变得很差，这主要是由于一些关键的假设失效了，例如光度一致性假设，同时也没有可靠的ground truth包含这些场景。现有的一些鲁棒的解决方案基于模型的方法这一方法通过修改网络结构来增强模型处理各种条件的能力缺点：网络模型过于复杂，不能够适应各种环境基于数据的方法利用域自适应或其他模态的数据来增强图像信号缺点：缺乏高质量的数据，需要后处理方法Generative Diffusion Model-based Translation生成在深度方面与白天清晰图像非常相似的训练样本 I_{g}=S D ( I P ( T_{p}, I_{p} ), C N ( D_{h} ), z ) BILP2：获取场景描述符，保留图像内容信息 ControlNet d2i：保持近似深度一致性 MiDas：获取初始深度图 PatchFusion：获得高分辨率的深度图 text prompt=BILP2 场景描述符+challenging condition...

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Problem Formulationfeed-forward model： {\cal L}_{\mathrm{M D E}} ( {\bf d}_{i}, {\bf M}_{\mathrm{F F D}} ( {\bf x}_{i} ) ), \tag{1}Diffusion model： {\cal L}_{\mathrm{D M}} \left( \epsilon, {\bf M}_{\mathrm{D M}} \left( {\bf x}_{i}, \mathrm{A d d N o i s e} ( {\bf d}_{i}, \epsilon, t ) \right) \right), \tag{2}Framework Global Pre-Alignment给定预训练仿射不变深度模型$\bf{M}_{FFD}$ 和数据对$\bf{(x, d)} ∈ \bf{D}_{syn}$...

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

方法数据清洗及合理数据掩码生成为了消除不合理像素对训练的影响，使用GroundingSAM将不合理的区域滤除。对于有效像素占比低于20%的图像也进行溢出。教师模型对无标签图像使用立方体投影，然后用Depth Anything对投影后的patch进行预测，将360度模型的预测结果投影到立方体视图，再和Depth Anything的输出计算Loss。随机旋转处理由于Depth Anything在立方体的每一个面上进行估计，缺乏对场景的综合理解，所以会出现伪影。在等矩形坐标系下应用旋转矩阵： ( \hat{\theta}, \hat{\phi} )=\mathcal{R} \cdot( \theta, \phi). \tag{1}从等矩形到立方体投影，立方体每一个面的视场角等于90度，每一个面都能够看作一个焦距为$w/2$的透视相机，所有的面共用世界坐标系中的中心点。因此每一个相机的外参矩阵能够用一个旋转矩阵定义，则每个面上的像素表示为： p=K \cdot R_{i}^{T} \cdot q, \tag{2} q=\left[ \begin{matrix} q_{x}...

DepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection

作者：Jie Zhu, Girish Chandar Ganesan, Xiaoming Liu 单位：Michigan State University, University of North Carolina at Chapel Hill 会议：2026 Arxiv 链接：https://arxiv.org/abs/2605.23281 研究动机这篇文章的出发点很实际：现在单目 metric depth 模型已经很多，而且每个模型都很强，但真实部署时输入并不总是同一种相机。普通透视图、鱼眼图、ERP 全景图在成像几何上差别很大，一个模型即使在平均指标上很强，也不一定能稳定覆盖所有相机域。已有“通用深度估计”通常试图训练一个统一模型，或者对多个模型做固定规则融合。但本文先指出一个更细的现象：不同 depth expert 的强弱不是随机的，而是和相机几何、场景类型、样本难度强相关。 Table 1 说明了这个现象。透视数据里，Perspective 系模型作为 best single 的比例达到 80.1%；Native ERP 数据里，ERP 系模型作为 best...

Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth

作者：Viktor Kocur, Sithu Aung, Gabrielle Flood, Yaqing Ding, Lukas Bujnak, Torsten Sattler, Zuzana Kukelova 单位：Comenius University in Bratislava, Czech Technical University in Prague 会议：2026 Arxiv 链接：https://arxiv.org/abs/2605.19797 研究动机评估标准存在局限性：尽管单目深度估计（MDE）近年来取得了显著进展，并且预测的深度图在 Structure-from-Motion (SfM)、视觉定位和 SLAM 等下游几何任务中扮演着关键输入角色，但现有的 MDE 方法主要仍以深度绝对精度进行评估。通用的评估指标（如 Abs.Rel 或 RMSE）是在整张图像上全局聚合误差的，这并不能直接反映深度在具体的下游三维几何任务中的实用价值。几何重要性非均匀分布：在下游几何任务（如 SfM 或...

评论