MTD: The Midas Touch for Metric Depth

作者：Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan

单位：College of Electronic and Information Engineering, Tongji University; Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University; National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University

会议：2026 Arxiv

链接：https://arxiv.org/abs/2605.11578

研究动机

MTD-0

相对深度基础模型已经有很强的跨场景泛化能力，例如 MiDaS、DepthAnythingV2、Marigold 等模型可以在新场景里给出结构很好的相对深度。但是这类输出天然缺少米制尺度，直接落到机器人、自动驾驶、SLAM 或 RGB-D 设备增强时，会遇到三个问题。

全局尺度对齐不够。用少量 3D 点做一次全局 least-squares 可以把相对深度拉到米制尺度，但不同物体、不同区域往往有不同的 scale ratio 和 shift bias，一个全局仿射变换很难同时照顾远处道路、近处物体和细薄结构。
训练式深度补全泛化成本高。BP-Net、DMD$^3$C、Marigold-DC 等方法通过网络融合 RGB 和稀疏深度，但通常依赖特定训练域或大规模深度补全数据，换场景、换传感器、换稀疏模式时未必稳。
真实系统还需要速度。高质量扩散式深度模型和大 backbone 往往推理慢，嵌入式设备或手持 RGB-D 系统更需要一个轻量、可插拔、数学上可解释的后端。

这篇论文的核心问题可以概括为：

能否只用极稀疏的 3D seed，把任意相对深度基础模型的输出稳定地转换为米制深度，同时保持跨场景泛化、边界质量和实时部署能力？

核心方法

MTD-1

MTD 的输入包括一张 RGB 图像、一个深度基础模型输出的相对深度、极稀疏 3D seed，以及由图像得到的 superpixel segment set。输出是 dense metric depth。整个方法是一个 coarse-to-fine pipeline：先做分段尺度恢复，再做像素级细化。

1. 3D seed 的统一视角

论文把可提供尺度信息的稀疏输入都称为 3D seeds。它可以来自 LiDAR sparse depth、低成本 RGB-D 相机的粗深度、stereo 或 MVS 中的 correspondence matches。关键不是输入来源，而是这些点能给相对深度提供少量已知尺度锚点。

相对深度模型给出每个 seed 投影位置的相对深度 $d_i^j$，3D seed 给出可与真实深度单调对应的 scalar proxy $\xi_i^j$。MTD 的任务就是学习从 $d$ 到 $\xi$，再到 metric depth $z$ 的局部映射。

2. Segment-wise recovery：先把局部尺度找回来

如果直接对整张图做全局 least-squares，只能得到一个统一尺度。MTD 先把图像切成 superpixels，每个 segment 都允许有自己的标定函数 $g_i:d\mapsto\xi$。对于含有 seed 的 segment，论文用 least-squares 或 median matching 得到局部标定参数，并把这些参数存在 lookup table 里。

问题在于 seed 很稀疏，很多 segment 没有任何投影点。论文因此构建一个 segment graph $\mathcal{G}=(\mathcal{V},\mathcal{E})$，每个节点对应一个 segment，边权由 segment centroid 的距离衰减核决定，并保留近邻边来稀疏化图。然后求解图正则化目标：

$\min_{\{\boldsymbol{\theta}_i\}} \sum_{i\in\mathcal{Q}}\|\boldsymbol{\theta}_i-\hat{\boldsymbol{\theta}}_i\|^2 + \sum_{(i,j)\in\mathcal{E}} w_{ij}\|\boldsymbol{\theta}_i-\boldsymbol{\theta}_j\|^2$

第一项让有 seed 的 segment 保持自己的尺度锚点，第二项让邻近 segment 的标定参数平滑传播。这样就能把少量 seed 的尺度信息扩散到整张图，同时避免跨物体边界的过度混合。

分段标定之后仍然会有像素级误差，尤其是 segment 内部深度变化、边界附近和细结构区域。MTD 把这个问题改写成 discontinuity-aware geodesic propagation。

论文从 coarse metric depth $z(u,v)$ 出发，定义二阶变化相关的局部不连续密度：

$\phi(u,v)=\sqrt{z_{uu}^2(u,v)+z_{vv}^2(u,v)}$

若一条路径穿过物体边界，$\phi$ 会变大，路径代价也会变大。于是从可靠 seed 像素向其他像素传播时，最短测地路径会倾向于沿同一物理表面传播，而不是跨越深度断裂。连续形式的测地代价为：

$d_\phi(\boldsymbol p,\boldsymbol q)= \inf_{\mathcal L\in\mathscr L_{\boldsymbol p\to\boldsymbol q}} \int_{\mathcal L}\phi(u,v)\,ds$

离散实现里，论文把路径积分写成单像素移动的 Riemann sum，并用 dynamic programming 求解。每次更新把旧估计和当前局部预测做凸组合：

$z^{(k+1)}(\boldsymbol p) = \left(1-\frac{1}{k+1}\right)z^{(k)}(\boldsymbol p) + \frac{1}{k+1}\hat z^{(k)}(\boldsymbol p\mid\boldsymbol q,\Delta\boldsymbol p)$

这个设计的好处是，传播不是普通的局部滤波，而是带有几何意义的路径优化。它既能补 seed 周围的局部误差，又能避免把前景物体的深度错误传播到背景。

4. 轻量化 front-end

MTD 的后端是非参数的，主要耗时来自前端相对深度模型。论文进一步用 DepthAnythingV2 作为 teacher，通过 feature distillation 和 logit distillation 蒸馏 TinyViT、EfficientViT 等轻量 backbone。这样 MTD 不必依赖大模型，也能在 Jetson AGX Orin 这类平台上接近实时运行。

数据集

训练或蒸馏数据主要包括：

VKITTI2
Hypersim
TartanAir
SA-1B

深度估计评测使用 KITTI、NYU-Depth V2、ScanNet、ETH3D、DIODE 等数据集，采用 prior works 的 split。

深度补全评测覆盖 nuScenes、DDAD、Make3D、DIODE、ETH3D、ScanNet、VOID、SUN-RGBD、IBims-1、HAMMER 等数据集。nuScenes、DDAD、VOID 本身提供 sparse depth；其他数据集通过随机保留 $0.01\%-0.1\%$ 的深度点来模拟极稀疏输入，并加入 $10\%-20\%$ 的噪声扰动。

下游应用还包括 RealSense D455 深度修正、VGGT 多视角重建、KITTI Odometry 上的 SLAM，以及 KITTI-360 上的 occupancy prediction。

算力

论文没有明确给出训练用 GPU 数量和完整训练时长，但给了较详细的推理设置。

VOID1500 上的速度和精度对比使用 RTX 3090，输入分辨率为 $480\times640$。
MTD 后端开销很小。在 $480\times640$ 输入上，segment-wise recovery 加 pixel-wise refinement 的总后端时间为 1.9 ms，显存低于 1.8 GB，GPU utilization 低于 4%。
嵌入式实验使用 NVIDIA Jetson AGX Orin Platform，并经过 TensorRT 与多线程加速。论文强调后端是非参数轻量算法，主要瓶颈是前端 depth foundation model。

MTD-4

实验结果

MTD-2

在深度补全 zero-shot 评测中，MTD 在多数数据集上超过现有方法。相对于 Marigold-DC，论文特别指出在 nuScenes 上 MAE 降低 0.418，RMSE 降低 0.537。表格里的整体趋势是：室外数据集更难，因为点云更稀疏、深度范围更大，但 MTD 的分段尺度恢复能明显缓解全局对齐失效。

在单目深度估计评测中，MTD 被作为 plug-and-play 后端接到不同相对深度模型后面。MiDaS、LeReS、DPT、Depth Pro、DepthAnythingV2、Marigold、GeoWizard、Lotus、DepthMaster 等模型接入 MTD 后，AbsRel 普遍下降，$\delta_1$ 普遍上升。与 DepthAnythingV2 搭配时整体效果最好，因此论文后续硬件和应用实验主要采用 DepthAnythingV2。

MTD-3

消融实验验证了几个关键设计：

Per-segment calibration 中，least-squares 优于 median，对 inverse depth $z^{-1}$ 做 proxy 效果更好。
Sparse graph optimization 比 global-based propagation 更稳，在 KITTI 和 VOID 上都降低 RMSE/MAE。
Pixel-wise refinement 中，去掉 $d_\phi$ 后效果下降，说明普通边缘或无测地约束的传播不足以处理跨边界错误。多项式 basis 优于 B-spline，较大的迭代 receptive field 在 KITTI 上继续带来收益。
当 3D seed 数量很少时，MTD 会退化接近全局 least-squares，相当于有一个保守下限；当 seed 增多时，MTD 能继续利用更细的 segment scale，而全局 least-squares 的提升有限。

MTD-5

MTD-6

下游应用的结论也比较强。对于低成本 range camera，Raw + MTD 在室内和室外都显著降低 RMSE/MAE，并改善边界和缺失区域。对于 VGGT 多视角重建，MTD 用 correspondence triangulation 得到的 3D seeds 做尺度恢复，比简单 Align 更准，也超过 MVSAnywhere 的整体 RMSE/MAE。SLAM 实验中，Droid + MTD 在 KITTI Odometry 多个序列上明显降低 ATE-RMSE，说明这个后端不只是表格分数好，对几何下游也有帮助。

MTD-7

MTD-8

补充材料里的定性图说明了两个直观现象：一是 MTD 能在多数据集上比学习式深度补全保留更稳定的结构，二是对常见 range camera 的粗糙深度，它能补全空洞、锐化边界，并把 raw depth 中的大片噪声或模糊结构变得更接近真实几何。

优势与不足

优势

思路非常工程化。它不试图重新训练一个万能深度补全网络，而是把已有相对深度基础模型的泛化能力保留下来，用少量 3D seed 解决尺度问题。
数学解释比较清楚。Segment graph 负责局部尺度传播，geodesic cost 负责像素级边界感知传播，两部分都能说清楚为什么有效。
输入形式灵活。LiDAR sparse depth、range camera、stereo disparity、multi-view correspondences 都可以被统一成 3D seeds。
后端非常轻。1.9 ms 的后端开销使它更像一个几何校准模块，而不是一个额外大网络。
消融完整。论文不仅比较 SoTA，还分析了 seed 数量、segment scale、foundation model capacity、proxy domain、graph optimization 和 dynamic programming。

不足

MTD 仍然需要外部 3D seed。它不是纯单目 metric depth，若完全没有尺度输入，就无法凭空解决 absolute scale。
分段质量会影响局部尺度恢复。论文显示不同 superpixel 方法的最优结果接近，但真实复杂场景里，segment 与物体边界不一致时仍可能传播错误尺度。
前端相对深度模型仍是主要瓶颈。后端很快，但系统端实时性取决于 chosen backbone，轻量 backbone 会牺牲一定精度。
对传感器错位和噪声有鲁棒性实验，但极端遮挡、动态物体、多传感器时间不同步等情况仍可能影响 seed 的可靠性。
训练或蒸馏细节没有完整量化算力成本，复现实验时还需要代码和 checkpoint 进一步确认。

记忆点

MTD 的本质不是深度补全网络，而是“相对深度基础模型 + 极稀疏 3D seed”的米制尺度转换器。
全局 least-squares 只能解决整体尺度，真正的问题是 local scale inconsistency，所以 segment-wise calibration 是核心。
Discontinuity-aware geodesic cost 把像素级修正写成路径积分问题，传播会自然避开深度断裂。
当 3D seed 变稀疏时，算法退化到全局对齐附近；当 seed 变多时，它能自动转向更细的局部尺度恢复。
这类方法很适合做 depth foundation model 的几何后处理层：不破坏模型泛化能力，却补上 metric scale 和真实系统所需的稳定性。