DepthCrafter

发表于2024-12-06|更新于2024-12-06|深度估计

|总字数:759|阅读时长:2分钟|浏览量:

方法

DepthCrafter1

将视频深度估计定义为一个条件扩散生成问题，对条件分布 $p({d}|v)$ 进行建模

采用成对的真实与合成数据集对网络进行三阶段的训练

对长序列进行分段估计并无缝拼接

Stable video diffusion model

$\mathbf{x}_t = \mathbf{x}_0+\sigma_t^2\epsilon,\quad \epsilon\sim \mathcal{N}(0, \mathbf{I})\tag{1}$ $\mathbb{E}_{\mathbf{x}_t \sim p(\mathbf{x};\sigma_t),\sigma_t \sim p(\sigma)} \left[ \lambda_{\sigma_t} \left\|D_{\theta}(\mathbf{x}_t; \sigma_t; c) - \mathbf{x}_0 \right\|^2_2 \right] \quad \tag{2}$ $D_\theta (\mathbf{x}_t; \sigma_t; \mathbf{c}) =c_{\text{skip}}(\sigma_t)\mathbf{x}_t + c_{\text{out}}(\sigma_t)F_\theta\left(c_{\text{in}}\mathbf{x}_t; c_{\text{noise}}(\sigma_t); \mathbf{c}\right),\tag{3}$

Diffusion model的具体实施

潜在空间变换

使用VAE转换到潜在空间

对深度视频序列复制为三通道

预测仿射不变相对深度，但是预测的深度序列共享相同的尺度和偏移，保证时间一致性。

条件生成

图像潜在表示与加噪的深度序列潜在表示链接输入UNet

用CLIP将视频帧以帧对帧的方式通过交叉注意力嵌入去噪器

训练

数据集构建

真实数据集从大规模双目视频中进行构建，应用先进的视频立体匹配方法生成时序一致的深度序列。获得了约200K个视频深度序列，序列长度为50-200帧。

合成数据集从DynamicReplica与MatrixCity数据集构建，包含约3K精细的深度图，序列长度为150帧。

长视频序列的预测挑战

长视频序列难以保证时间一致性

Stable video diffusion只能生成25帧的视频，对齐进行微调内存开销太大。

三阶段训练

第一阶段：用大规模真实数据集进行训练，使模型学习视频到深度的估计生成能力，序列的长度在[1,25]之间随机采样，使模型学习到不同视频长度生成深度的能力

第二阶段：只用大规模真实数据对时间层进行微调，同时序列长度在[1,110]之间采样。因为时间层对序列长度较为敏感。

第三阶段：对空间层使用合成数据集进行微调，固定序列长度为45帧。提高网络细节的预测能力

对极长视频进行推理

DepthCrafter2

首先将极长序列分割为重叠的子序列，对每个子序列进行深度的推理

对于重叠部分，用前一个子序列去噪后的潜在表示与噪声相加，对后一个子序列的重叠部分进行初始化，从而保证深度分布的尺度和偏移

然后将两个子序列进行无缝的拼接。在重叠的部分分别采用插值权重$w_i$和$1-w_i$ 对重叠帧的潜在表示进行插值，$w_i$ 从1到0线性减小。

最后通过解码器对序列进行解码。

视频深度估计生成模型

赞助

微信
支付宝

相关推荐

DEPTH ANY VIDEO WITH SCALABLE SYNTHETIC DATA

构建合成视频数据集在不同的虚拟环境中，利用synthetic engines获取深度信息，构建了一个包含40000个视频切片的数据集，涵盖室内外场景。在部分的图像和深度图之间可能存在不对齐的现象，首先采用 scene cut 方法，根据显著颜色变化检测场景的转变，然后用深度模型去滤除掉那些指标低的视频序列。直接过滤指标低的视频序列可能会对导致过滤到一些网络没有见过的数据，因此，进一步使用 CLIP 来计算真实深度和预测深度之间的语义相似性。最终方法是对每个视频序列均匀采样10帧，如果语义和深度的指标都低于预先定义的阈值，就滤除该片段生成视频深度模型模型设计训练和推理的过程与其他基于diffusion 的model保持一致。采用和Marigold一样的归一化方法。 \tilde{x}_{d}=\left( \frac{x_{d}-d_{2}} {d_{9 8}-d_{2}}-0. 5 \right) \times2, \tag{1}由于在时间维度上进行压缩会导致运动模糊伪影，所以只在空间维度上进行压缩。将latent video和latent...

NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

整体网络结构与NVDS保持一致稳定网络深度感知特征编码对于一个滑动窗口中的一组初始深度图 $F^{norm}_i={F_1,F_2,F_3,F_4}$ ，其归一化的方式为： F_{i}^{n o r m}=\frac{F_{i}-\operatorname* {m i n} \left( \mathbf{F} \right)} {\operatorname* {m a x} \left( \mathbf{F} \right)-\operatorname* {m i n} \left( \mathbf{F} \right)} \,, i \in\left\{1, 2, 3, 4 \right\}. \tag{1}将归一化后的深度图与RGB图像连接形成RGBD序列，通过transformer backbone编码成深度感知的特征图交叉注意力模块目标帧的特征图中的像素作为query，keys和values是从参考帧中生成的。采用了patch merging的方法，并将交叉注意力机制限制在局部窗口内，减小计算开销。用 $T$...

D4D: An RGBD diffusion model to boost monocular depth estimation

方法阶段一对NYU和KITTI中的RGBD样本进行预处理，进行归一化以及rescale，分辨率跟第三阶段所采用的model有关阶段二第二阶段对输入的RGBD进行前向和后向操作训练网络，同时通过S1和S2两种不同的训练配置，得到不同的生成数据，其中$S1$使用$L1$ loss，$β$策略采用线性策略，$S2$使用$L2$ loss，$β$采用余弦策略 S 1 : L 1=\frac{1} {| \mathcal{P} |} \sum_{p \in\mathcal{P}} | | x_{p}-y_{p} | |_{1}, \; \; \beta=l i n e a r \tag{3} S 2 : L 2=\frac{1} {| \mathcal{P} |} \sum_{p \in\mathcal{P}} | | x_{p}-y_{p} | |_{2}^{2}, \; \; \beta=c o s i n e \tag{4}最终得到的$S3$就是$S1$和$S2$的并集 S 3=( s 1 \cup s 2 ) \; w h e r e \begin{cases} S 1...

Scalable Diffusion Models with Transformers

摘要基于transformer结构构建了一类新的扩散模型，DiT。即使增加transformer的深度/宽度或者增加输入tokens的数量，依旧能够保持更低的FID。最大的DiT-XL/2模型在ImageNet 512×512和256×256基准上性能优于所有先前的扩散模型，在后者上实现了2.27的FID。方法预备知识1.扩散模型前向加噪过程：对真实数据逐步添加噪声： x_{0}: q(x_t|x_0)={\cal N} ( x_{t} ; \sqrt{\bar{\alpha}_{t}} x_{0}, ( 1-\bar{\alpha}_{t} ) {\bf I} ) x_{t}=\sqrt{\bar{\alpha}_{t}} x_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon_{t}, \quad where\quad\epsilon_{t} \sim{\mathcal{N}} ( 0, \mathbf{I} )对扩散模型进行训练，学习正向加噪过程的反向过程： p_{\theta}\left(x_{t-1} \mid...

SSD:Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation

背景现有的MDE方法在标准的环境下（例如晴天）表现的很好，但是在一些具有挑战性的条件下效果会变得很差，这主要是由于一些关键的假设失效了，例如光度一致性假设，同时也没有可靠的ground truth包含这些场景。现有的一些鲁棒的解决方案基于模型的方法这一方法通过修改网络结构来增强模型处理各种条件的能力缺点：网络模型过于复杂，不能够适应各种环境基于数据的方法利用域自适应或其他模态的数据来增强图像信号缺点：缺乏高质量的数据，需要后处理方法Generative Diffusion Model-based Translation生成在深度方面与白天清晰图像非常相似的训练样本 I_{g}=S D ( I P ( T_{p}, I_{p} ), C N ( D_{h} ), z ) BILP2：获取场景描述符，保留图像内容信息 ControlNet d2i：保持近似深度一致性 MiDas：获取初始深度图 PatchFusion：获得高分辨率的深度图 text prompt=BILP2 场景描述符+challenging condition...

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Problem Formulationfeed-forward model： {\cal L}_{\mathrm{M D E}} ( {\bf d}_{i}, {\bf M}_{\mathrm{F F D}} ( {\bf x}_{i} ) ), \tag{1}Diffusion model： {\cal L}_{\mathrm{D M}} \left( \epsilon, {\bf M}_{\mathrm{D M}} \left( {\bf x}_{i}, \mathrm{A d d N o i s e} ( {\bf d}_{i}, \epsilon, t ) \right) \right), \tag{2}Framework Global Pre-Alignment给定预训练仿射不变深度模型$\bf{M}_{FFD}$ 和数据对$\bf{(x, d)} ∈ \bf{D}_{syn}$...