Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth

作者：Viktor Kocur, Sithu Aung, Gabrielle Flood, Yaqing Ding, Lukas Bujnak, Torsten Sattler, Zuzana Kukelova

单位：Comenius University in Bratislava, Czech Technical University in Prague

会议：2026 Arxiv

链接：https://arxiv.org/abs/2605.19797

研究动机

评估标准存在局限性： 尽管单目深度估计（MDE）近年来取得了显著进展，并且预测的深度图在 Structure-from-Motion (SfM)、视觉定位和 SLAM 等下游几何任务中扮演着关键输入角色，但现有的 MDE 方法主要仍以深度绝对精度进行评估。通用的评估指标（如 Abs.Rel 或 RMSE）是在整张图像上全局聚合误差的，这并不能直接反映深度在具体的下游三维几何任务中的实用价值。
几何重要性非均匀分布： 在下游几何任务（如 SfM 或 SLAM）中，并不需要深度图在每个像素上都完全准确。相反，只需要在几何信息丰富的区域（如纹理丰富、能够稳定匹配特征点、或具有良好观测视角的区域）保持高精度即可。无纹理区域（例如白墙、天花板）的深度误差对最终位姿估计的影响非常小。现有的全局精度指标忽略了这种区域几何重要性的差异，导致即使两个深度估计器在全局误差上表现相似，在具体下游任务中的表现却可能有天壤之别。
获取密集深度真值（Ground-Truth Depth）代价高昂： 传统的深度评估基准严重依赖密集的逐像素深度真值。获取此类数据通常需要昂贵的专用硬件（如 RGB-D 相机或 LiDAR），或者利用多视角立体（MVS）算法重建伪真值，或完全依赖虚拟合成场景。这限制了评估场景的范围，使很多具有挑战性的真实场景（如大尺度户外环境、强反光/透明表面、植被茂密环境等）在现有评估中代表性不足。
提出任务驱动且无需深度真值的评估框架： 为打破上述局限，作者提出了 Depth2Pose，这是一个通过深度辅助的相对位姿估计任务来间接、任务驱动地评估单目深度图质量的框架。该方法使用位姿估计精度作为深度的代理指标，且仅需相机的相对位姿真值（这很容易通过 COLMAP 等 SfM 流程自动获取），从而实现了在大尺度、高复杂度户外场景下的低成本、高扩展性评估。

核心方法

Depth2Pose-0

Depth2Pose 的评估管线包含以下三个核心步骤：

输入与预测（Inputs & Predictions）： Given 包含重叠视角的图像对 $I_1$ 和 $I_2$，使用待评估的 MDE 预测出相应的深度图 $D_1$ 和 $D_2$。同时使用 SuperPoint+LightGlue (SP+LG) 或 LoMa 等特征提取与匹配器获得两张图像间的 2D-2D 点对对应关系（Correspondences $x_1 \longleftrightarrow x_2$）。
几何求解器（Geometry Solver）： 将 2D 匹配点坐标与对应位置上的深度预测值传入深度感知的相对位姿求解器。本文主要采用 RePoseD 框架中的位姿求解器（已集成在 PoseLib 库中）。根据对深度的假设不同，求解器提供了几种变体：
- 位姿估计器 H（Hybrid）： 尺度不变的已标定求解器，使用 Sampson 误差进行 LO-RANSAC 过滤，并结合 Sampson 误差与对称重投影误差进行局部优化。这是主流 MDE（提供绝对尺度深度）评估的默认首选配置。
- 位姿估计器 R（Reprojection）： 仅使用对称重投影误差进行 RANSAC 过滤与局部优化。由于 Sampson 误差仅依赖 2D 点匹配而不需要深度参与，求解器 H 可能会被 Sampson 误差“带飞”而掩盖深度估计的错误。求解器 R 则直接强制求解器依赖深度预测的准确性，能更直接地衡量深度的几何质量。
- 基线 B（Baseline）： 经典的 5 点法求解器（5-point solver），仅利用 2D 点对匹配关系，完全不使用深度信息。
误差评估（Evaluation）： 将估计出的相对位姿（旋转 $R{est}$ 和平移 $t{est}$）与 COLMAP 估计的参考位姿（Reference Pose $R{gt}$ 和 $t{gt}$）进行对比，计算旋转误差 $e_R$ 与平移误差 $e_t$：
$e_R = \arccos \left( \frac{\operatorname{Tr}(R_{est}^\top R_{gt}) - 1}{2} \right)$ $e_t = \arccos \left( \frac{t_{est} \cdot t_{gt}}{\|t_{est}\| \|t_{gt}\|} \right)$
综合位姿误差定义为 $e_p = \max(e_R, e_t)$。最终性能通过 mAA(10°)（在误差 10° 范围内的累积分布曲线下面积，mean Average Accuracy）进行汇总。

数据集

为了评估单目深度估计在多样化、极具挑战性的真实场景下的泛化能力，作者推出了 D2P 数据集。该数据集不提供密集的深度真值，而是使用 COLMAP 重建的相机位姿作为伪真值（pGT）。

Depth2Pose-1

D2P 数据集包含 24 个场景，共 1,942 张图像，并细分为以下两个子集：

D2P-Statues（雕塑子集，12个场景）： 包含公共空间中的各种独特雕像，通常以接近 360° 环绕的形式进行捕捉。这些雕像形状奇特、比例夸张，甚至位于水面上或悬挂于楼宇之间，在常见的深度训练集中从未出现过。这可以很好地评估 MDE 模型对未知尺度和几何结构的推理能力。
D2P-Vegetation（植被子集，12个场景）： 包含公园环境、树木、灌木等，涵盖有叶和无叶场景。植被精细的几何结构（如细小的树枝和树叶）会带来频繁的深度不连续和局部遮挡，是 MDE 极易失效的“重灾区”。同时，植被由于其稀疏性和半透明效果，很难使用传统 LiDAR 等主动式传感器进行采集。

数据采集与处理： 使用 Google Pixel 9、iPhone 14/15 Pro/16 Pro 以及 GoPro 等消费级设备，在固定焦距下以平缓的手持移动拍摄视频并抽帧（1 FPS），利用 easy-anno 自动擦除人脸等隐私信息，最后使用 COLMAP（SIFT + 暴力匹配用于雕塑，ALIKED + LightGlue 用于植被）求解出高精度的相机相对位姿作为伪真值。

算力

论文对各种模型在标准基准和 D2P 数据集上进行了零样本（zero-shot）推理和位姿求解实验。研究所耗费的计算资源情况如下：

D2P 数据集实验： 累计消耗了 13 GPU hours（主要在 A100 40GB GPU 集群上运行，用于 MDE 模型推理与特征点匹配）和 200 CPU hours（采用 Intel Xeon Gold 6338 2.00GHz 处理器）。
标准基准数据集实验： 累计消耗了 30 GPU hours 和 600 CPU hours。

实验结果

论文首先在标准数据集（ETH3D、ScanNet++、Sintel、LaMAR）上验证了位姿指标与深度指标的关联性，接着在 D2P 数据集上展现了当前 SOTA 模型在面对复杂真实场景时的性能退化。

Depth2Pose-2

1. 深度精度与位姿精度之间的强关联

在全局层面，常规的深度阈值精度 $\delta_1$（预测值与真值之比在 1.25 内的比例）与相对位姿的 mAA(10°) 之间呈现出极强的线性相关。如图 3 所示，在使用 LoMa 匹配时，位姿估计器 H 的 Pearson 相关系数 $r = 0.9512$，位姿估计器 R 的相关系数 $r = 0.9710$。这有力地证明了在没有深度真值时，使用位姿误差作为评估深度的代理指标是极其可靠的。

2. 局部误差对位姿影响的非均匀性

如图 4 所示，尽管不同 MDE 预测结果的 $\delta_1$ 指标和 Abs.Rel 指标差异明显，但它们的最终位姿误差却可能非常接近。例如，一些在非几何关键区域（如平整的天花板）产生的深度错误虽然拉低了传统的全局深度指标，但由于没有特征点匹配，对下游的相对位姿求解几乎毫无负面影响。这进一步凸显了传统评估指标无法衡量深度“空间实用性”的缺陷。

Depth2Pose-4

3. SOTA MDE 在未知场景中的泛化差距

当从标准基准跨越到 D2P 挑战基准时，模型表现出了极大的性能动荡与排名逆转。

Depth2Pose-3

Depth2Pose-5

性能严重退化与排名动荡： 在标准基准上表现最好的前馈单目深度模型 MoGeV2-L，在 D2P-Vegetation 子集上配合求解器 H 的表现甚至落后于在标准基准上排名靠后的 DAv3-Mono-L。
与无深度基线的对比： 令人惊讶的是，即使是目前最优秀的 MDE 预测深度图，配合深度感知位姿求解器（H 或 R）后，其最终的相对位姿精度依然未能超越完全不使用深度的经典 5 点法基线（NoDepth+B）。例如，NoDepth+B 在 D2P-Mean 上的 mAA 为 82.34，而最好的 MoGeV2-L 也仅为 75.02。
潜在提升空间巨大： 尽管目前的深度预测对位姿求解带来了负向优化，但通过真值深度三角化点云的 GT 深度基线（GT）在 D2P-Mean 上取得了 93.73 的极佳成绩，这暗示了如果单目深度图的局部边界与微小几何精度能得到实质性提高，下游相对位姿估算将获得巨大的增益。

优势与不足

优势

无需密集深度真值： 避开了极难采集的密集深度真值，仅利用容易求解的相机位姿作为评估基准。这极大地拓展了可用于评估单目深度的现实场景边界。
任务驱动的评估逻辑： 关注深度对下游相对位姿估计的实际贡献，自然地赋予了几何信息丰富区域更高的评价权重，相比于简单平均每个像素的常规深度误差更加符合工程实际。
极佳的场景覆盖面： 针对性引入了“雕塑”与“植被”两大难点子集，极好地挑战了当前单目深度模型对复杂三维物理世界、非均匀表面和精细断续边缘的表征能力。

不足

绝对尺度衡量受限： 由于相对位姿估计中天然存在尺度等价性（Scale Ambiguity），Depth2Pose 无法直接用于评估单目深度的绝对尺度精度（Metric Scale Accuracy）。
场景可重建性前提： 评估框架依然强依赖于能否使用 SfM 成功建立相机轨迹并获取参考位姿，对于极度缺乏特征匹配点或运动模糊严重的极端场景依然无法展开评测。
可能低估 SLAM 等大型系统的容错能力： SLAM 和多帧 SfM 系统中包含大量的时空多帧冗余，能部分抵消单个图像帧深度的严重预测误差。因此，对于这些大型系统来说，Depth2Pose 所基于的“两帧相对位姿求解”可能在指标上对某些 MDE 模型过于苛刻。
纹理缺失区域盲区： 框架只能计算特征匹配点处的深度品质。如果在无纹理的光滑镜面、玻璃等不产生特征点的区域深度预测极差，本框架将无法检出。

记忆点

位姿精度可作为深度的代理： 验证了相对位姿评估精度（mAA）与传统深度度量（$\delta_1$）之间的超高线性相关性（$r \approx 0.97$），从而确立了在无真值深度场景下以位姿测深度的可行性。
揭示单目深度的 Generalization Gap： 在雕像和植被茂密的场景下，最先进的单目深度算法的表现会发生崩塌和排名倒挂。
MDE 对位姿暂无正向增益： 目前主流单目深度模型预测的深度在融合到位姿求解器中时，其表现普遍劣于完全不用深度信息的纯 2D-RANSAC 基准（NoDepth+B），但 GT 辅助的表现（~93% mAA）表明一旦深度准确，将能带来极大增益。
评估求解器 R 的设计： 使用纯重投影误差的求解器 R 能够杜绝 Sampson 误差对坏深度预测的“兜底”作用，比求解器 H 更加直接、灵敏地反馈深度图像边缘与形状的不准确性。