MTD: 图优化视角下的 Metric Depth 公式推导笔记
作者:Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan
单位:College of Electronic and Information Engineering, Tongji University; Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University; National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University
会议:CVPR 2026
链接:https://arxiv.org/abs/2605.11578

面向读者:做深度估计,但几乎没有图论基础、数学推导读起来比较吃力的同学。
本文目标不是把论文翻译一遍,而是把这篇文章真正想做的事情拆开讲清楚:
- 先补最少必要的图论、优化、泰勒余项、路径积分基础。
- 再重新组织论文方法:它到底是在做深度估计,还是在做尺度传播。
- 将正文公式和附录推导串起来,补齐省略的中间步骤。
- 最后给出这类图优化方法可能失效的情况。
0. 先给结论:这篇文章的本质是什么
这篇论文表面上是在做:
也就是把相对深度变成有真实尺度的绝对深度。
但它的核心并不是重新训练一个深度估计网络,而是:
换句话说,它真正关心的是:
只给少量真实 3D 点,如何把这些点携带的 metric scale 信息可靠地传播到整张图上?
这个问题天然会变成图优化问题。
可以把它粗略理解成:
| 论文模块 | 直觉任务 | 数学本质 |
|---|---|---|
| relative depth model | 给出 dense shape | 深度形状先验 |
| sparse 3D seeds | 给出少量真实尺度 | metric anchors |
| segment-wise recovery | 给每个超像素估计局部尺度映射 | superpixel graph 上的参数传播 |
| sparse graph optimization | 没有 seeds 的区域也获得尺度参数 | 图拉普拉斯平滑/正则化 |
| pixel-wise refinement | 修正像素级细节 | 加权图上的路径传播/动态规划 |
| Taylor remainder 推导 | 解释为什么边界代价合理 | 用二阶变化控制一阶近似误差 |
所以你读这篇论文时,最好不要把它当成常规的 depth network 论文,而要把它当成:
sparse metric scale propagation for relative depth calibration.
1. 图论最小基础
1.1 什么是图
图 graph 是由节点和边组成的结构:
其中:
- $V$:vertices,节点集合;
- $E$:edges,边集合。
比如有 4 个超像素:
如果 $S_1$ 和 $S_2$ 相邻,就连一条边:
在这篇论文里,至少可以看到两层图:
superpixel graph
节点是超像素,每个节点代表图像中的一块区域。pixel graph / path graph
节点是像素,边表示从一个像素走到相邻像素的传播关系。
1.2 边权是什么
图上的边可以有权重:
表示节点 $i$ 和节点 $j$ 之间的关系强弱。
在图像问题里,常见含义是:
- 权重大:两个节点相似,信息可以多传播;
- 权重小:两个节点不相似,信息少传播;
- 代价大:这条边不适合走;
- 代价小:这条边适合走。
要注意,“权重”在不同公式里可能有两种语义:
| 语义 | 大表示什么 | 小表示什么 |
|---|---|---|
| similarity weight | 更相似,更应该平滑 | 不相似,不该强行一致 |
| cost weight | 更贵,不该走 | 更便宜,适合传播 |
这篇文章里的 superpixel graph 更偏向 similarity weight;pixel-wise geodesic cost 更偏向 cost weight。
1.3 图优化在做什么
最常见的图优化形式是:
这个式子看起来可怕,但它只有两句话:
第一项:
表示:
对有观测的节点,估计值 $\theta_i$ 要接近观测值 $\hat{\theta}_i$。
第二项:
表示:
相邻节点的参数不要差太多,尤其是边权 $w_{ij}$ 大的时候。
所以整体是在平衡:
1.4 图拉普拉斯直觉
图拉普拉斯 Laplacian 本质上是在惩罚图上相邻节点之间的差异。
如果有两个相邻节点 $i,j$,惩罚项是:
如果它们差异很大,这一项就大。
优化会倾向于让:
但只有当 $w_{ij}$ 大时,这种拉近才明显。
所以图拉普拉斯可以理解为:
在图结构上做平滑。
2. 深度估计背景:relative depth 和 metric depth
2.1 relative depth 是什么
很多 foundation depth model,比如 MiDaS、Depth Anything,输出的是 relative depth。
它通常能表达:
但是它不保证:
也就是说,相对深度有 shape,但没有真实单位。
2.2 metric depth 是什么
metric depth 是有真实尺度的深度:
它不仅知道远近关系,还知道真实物理距离。
2.3 尺度恢复到底在恢复什么
给定 relative depth:
我们想得到 metric depth:
最简单的做法是全局仿射变换:
但真实情况中,一个全局 $a,b$ 往往不够。
比如室内、室外、前景物体、远处背景,不同区域可能存在不同误差。
所以这篇论文更倾向于局部变换:
其中 $p$ 属于第 $i$ 个 superpixel $S_i$。
常见形式是:
这里每个区域都有自己的:
于是问题变成:
如何给每个 superpixel 都估计一个合适的 $\theta_i$?
如果这个 superpixel 里有 sparse 3D seed,可以直接拟合。
如果没有,就需要从邻居传播。
这就是图优化进入的地方。
3. 第一阶段:segment-wise recovery
3.1 输入和目标
输入:
- RGB 图像 $I$;
- depth foundation model 输出的 relative depth $d(p)$;
- 极稀疏的 3D seeds;
- 图像分割得到的 superpixels:
目标:
对每个 superpixel $S_i$,找到一个从 relative depth 到 metric proxy 的映射 $g_i$。
这里需要明确一点:论文实际采用的是 inverse-depth-like proxy,而不是直接在 metric depth $z$ 上做拟合。
论文主文 3.1.1 先把 3D seed 转换成一个 scalar proxy,记作:
补充材料 B.1 进一步说明,这个 proxy 与 inverse depth 等价。也就是说,它不是直接拟合:
而是先拟合:
再由 $\xi$ 和真实深度 $z$ 之间的单调双射恢复 metric depth。
当 seed 本身已经提供 metric depth,例如 LiDAR depth 或某个 metric depth estimator 的输出时,补充材料中使用:
其中:
- $z_s(x)$:seed 在像素 $x$ 处提供的真实 metric depth;
- $\kappa$:一个固定常数,论文说可以设成任意常数,只要恢复时使用同一个 $\kappa$;
- $\epsilon$:数值稳定项,避免分母过小。
如果已知 $\xi$,那么对应的 metric depth 可以反解为:
所以这个 proxy 的本质就是:
也就是 inverse depth / disparity-like representation。
如果 seed 来自 rectified stereo,那么 disparity 本身就与 inverse depth 成正比:
更具体地,在标准双目中:
其中 $b$ 是 baseline,$f$ 是 focal length。
如果 seed 来自 generic multi-view stereo 或未校正双目,论文的做法是先用相机位姿和匹配点三角化得到 metric depth,再按照上面的 inverse-depth proxy 公式转换成 $\xi$。
这解释了为什么实验表里会有 “Domain: $z^{-1}$” 这一项:论文不是偶然用了 inverse depth,而是把它作为更稳定的 proxy domain。直觉上,inverse depth 对近处物体更敏感,也更接近很多 monocular relative depth model 的输出形式。
3.1.1 为什么用 inverse depth proxy
对单目深度估计来说,直接预测或拟合 $z$ 往往会遇到一个问题:远处深度值变化范围很大,但视觉差异很小。例如:
在 metric depth 里差了 $10m$,但图像上可能只是一点点视差变化。
而 inverse depth 是:
它把深度变化压缩到一个更稳定的数值范围里。对于 sparse seeds 很少的情况,这种数值稳定性很重要,因为少数 anchor 的拟合很容易被远处大深度值主导。
所以这一阶段更准确的目标应该写成:
3.2 对有 seeds 的 superpixel 做局部标定
假设 superpixel $S_i$ 中有若干 sparse seeds。
第 $j$ 个 seed 上:
- relative depth 是:
- metric proxy 是:
我们希望拟合:
也就是:
更严格地说,补充材料中将 per-segment calibration function 写成一个带下界裁剪的仿射函数:
你可以先把 $\max{\cdot,d_{\min}}$ 理解成数值安全保护:它防止拟合出来的 proxy 落到过小或非法范围。为了讲清楚最小二乘推导,下面先忽略这个裁剪项,只看核心的 affine mapping:
令:
对每个 seed,有:
把所有 seed 写成矩阵形式:
其中:
最小二乘目标是:
正规方程推导如下。
展开目标:
展开乘法:
对 $\theta_i$ 求导:
令导数为 0:
两边除以 2:
移项:
如果 $X_i^TX_i$ 可逆,则:
这就是有 seeds 的 superpixel 的局部映射参数。
记作:
3.3 没有 seeds 的 superpixel 怎么办
如果某个 superpixel 没有 3D seed,就不能直接拟合 $\hat{\theta}_i$。
论文的做法是构建 superpixel graph。
每个 superpixel 是一个节点:
如果两个 superpixel 空间上接近,就连边:
边权 $w_{ij}$ 表示它们之间传播参数的可信程度。
论文里这个边权不是由神经网络学出来的,而是由 superpixel 的中心距离直接计算出来的。令:
表示第 $i$ 个 superpixel 的中心。两个节点之间的距离为:
补充材料 B.2 给出的边权形式是:
其中:
- $|c_i-c_j|_2$:两个 superpixel 中心之间的欧氏距离;
- $\tau$:adaptive, median-based scale parameter,用来把不同图像、不同分割尺度下的距离范围归一化,避免数值范围过大或过小。
这个式子的直觉非常简单:
也就是空间上越近的 superpixel,越倾向于共享相似的 calibration parameters。
反过来:
距离很远的 superpixel 即使都在图像里,也不应该强行传播尺度参数。
为了节省计算,论文还会对图做稀疏化。具体说,对每个节点只保留距离最近的 $N$ 个邻居。可以写成:
然后只保留:
等价地说,只保留 $w_{ij}$ 最大的一小部分边。
这里要注意一个细节:论文补充材料的 Table 4 还比较了 graph distance 使用 2D centroid 和 3D centroid 的效果。也就是说,$c_i$ 可以理解成图像平面中的 2D superpixel center,也可以理解成由粗深度提升后的 3D center。实验上没有一个绝对永远最优的选择:KITTI 上 graph-based 2D 略好,VOID 上 graph-based 3D 略好,而加入 bilateral filtering 后整体进一步改善。这说明边权设计本身就是这个方法的一个敏感点。
然后求:
其中:
- $Q$:有 seeds 的 superpixel 集合;
- $\hat{\theta}_i$:由 seeds 拟合出来的参数;
- $\theta_i$:最终想要求的每个 superpixel 的参数;
- 第二项让相邻 superpixel 的参数相似。
这就是 segment-wise recovery 的核心。
3.4 这个图优化的直觉
如果 $S_i$ 有 seeds,那么 $\theta_i$ 应该接近 $\hat{\theta}_i$。
如果 $Si$ 和 $S_j$ 很相似,边权 $w{ij}$ 大,那么:
如果 $S_j$ 没有 seeds,但它邻近有 seeds 的 $S_i$,那么 $\theta_j$ 会被 $\theta_i$ 拉过去。
所以 metric scale 信息就从有 anchors 的区域传播到没有 anchors 的区域。
4. 第二阶段:pixel-wise refinement 的基本想法
segment-wise recovery 得到的深度仍然可能比较粗。
因为一个 superpixel 内所有像素可能共享同一个 $g_i$,这会带来:
- 边界不够锐利;
- 局部细节不足;
- superpixel 切错时容易污染;
- sparse seeds 噪声可能传播。
所以论文继续做 pixel-wise refinement。
它的核心问题是:
像素级深度信息应该沿哪些路径传播?
如果两个像素在同一个平滑表面上,可以传播。
如果中间隔着物体边界,不应该直接传播。
于是作者引入:
- Taylor remainder;
- discontinuity density $\phi$;
- geodesic cost;
- dynamic programming。
下面从基础讲。
5. 泰勒展开和一阶余项
5.1 一维一阶泰勒展开
给一个一维函数 $f(x)$,在点 $a$ 附近展开:
其中:
这就是一阶余项。
它表示:
真实函数值减去一阶线性预测后剩下的误差。
如果函数几乎是直线,余项小。
如果函数弯曲强,余项大。
5.2 一维余项的积分形式
令 $b=x$,$h=b-a$。
我们想证明:
从微积分基本定理开始:
又因为:
所以:
代回:
拆开两个积分:
第一项中 $f’(a)$ 对 $s$ 是常数:
也就是:
所以:
移项:
现在处理二重积分:
它对应的积分区域满足:
并且:
合并为:
如果交换积分顺序,先固定 $t$,则:
在固定 $t$ 后,$s$ 必须满足:
所以:
由于 $f’’(t)$ 不依赖 $s$,内层积分为:
因此:
最终得到:
5.3 右端点版本
还有一个右端点版本:
推导如下。
从:
所以:
代入:
得到:
拆开:
第一项:
所以:
看二重积分区域:
合并:
交换顺序,先固定 $t$:
固定 $t$ 后:
所以:
由于 $f’’(t)$ 不依赖 $s$:
因此:
6. 正文公式 2:二维一阶余项
论文定义像素点:
深度图:
位移:
梯度:
正文公式 2 定义的余项是:
将内积展开:
矩阵乘法得到:
所以:
直觉:
它衡量从 $p$ 到 $q$ 的真实深度差,能不能被两端平均梯度解释。
如果 $p,q$ 在同一平滑表面上,$R(p,q)$ 小。
如果它们之间隔着深度边界,$R(p,q)$ 大。
7. 附录推导:将二维余项拆成四条边的一维余项
这是很多人读起来最痛苦的地方。下面不跳步。
定义两个辅助点:
几何关系是:
可以想象成矩形四个角:
定义四个一维余项:
解释:
- $H_0$:底边 $p\to r$ 的水平一阶余项;
- $H_1$:顶边 $s\to q$ 的水平一阶余项;
- $V_0$:左边 $p\to s$ 的垂直一阶余项;
- $V_1$:右边 $r\to q$ 的垂直一阶余项。
现在把四个相加:
代入定义:
先把深度值项放在一起:
再把导数项放在一起:
因此:
看第一组:
重新排列:
抵消:
所以剩下:
即:
第二组:
提取同类项:
所以:
两边乘以 $\frac{1}{2}$:
右边正是公式 2 的 $R(p,q)$。
因此:
这一步的本质:
把一个二维余项,拆成矩形四条边上的四个一维余项的平均。
8. 附录推导:将四个一维余项写成二阶导积分
8.1 推导 $H_0$
展开点:
所以:
固定 $v=v_0$,定义一维函数:
则:
令:
由一维左端点余项公式:
代入:
8.2 推导 $H_1$
展开点:
所以:
固定 $v=v_1$,定义:
则:
这里用右端点余项公式:
代入:
8.3 推导 $V_0$
展开点:
所以:
固定 $u=u_0$,定义:
则:
使用左端点余项公式:
8.4 推导 $V_1$
展开点:
所以:
固定 $u=u_1$,定义:
使用右端点余项公式:
9. 从二阶导积分到 $\phi$
论文定义一个局部不连续性密度:
因为:
两边开方:
所以:
同理:
这意味着:
$\phi$ 同时上界了两个方向上的二阶变化。
10. 从 $R(p,q)$ 到路径积分上界
前面已经得到:
取绝对值:
常数 $\frac{1}{2}$ 提出来:
用三角不等式:
所以:
下面分别控制四项。
以 $H_0$ 为例:
取绝对值:
积分的绝对值不超过绝对值的积分:
所以:
乘积绝对值等于绝对值乘积:
所以:
如果考虑的是单步像素邻域,或者局部归一化步长满足:
那么:
因此:
由于:
得到:
这就是底边路径上的 $\phi$ 积分。
同理:
代回:
11. 两条轴对齐路径
定义路径 1:
先水平,再垂直。
它的代价:
定义路径 2:
先垂直,再水平。
它的代价:
将 $C_1+C_2$ 展开:
这正好等于前面四条边积分之和。
所以:
因为两个数的平均值不超过它们的最大值:
于是:
这说明至少存在一条轴对齐路径,它的代价能够控制余项。
更直观地说:
一阶预测失败的程度,可以由某条路径上累计的不连续性代价解释。
论文进一步将这种路径代价组织成 geodesic cost:
其中:
- $L$:从 $p$ 到 $q$ 的路径;
- $\mathcal{L}_{p\to q}$:所有可行路径集合;
- $\inf$:所有路径代价中的下确界,可以先理解成最小值;
- $ds$:路径上的微小长度;
- $\phi(u,v)$:这个位置的通行代价。
12. conformal Riemannian metric 只需要这样理解
论文提到:
这是 conformal Riemannian metric。
你不需要深入学黎曼几何。这里它只是说:
普通图像平面上的每一步距离,都乘上了一个位置相关权重 $\phi$。
普通欧氏小距离:
在度量:
下:
因为:
所以:
矩阵乘法:
所以:
如果 $\phi\geq 0$,则:
也就是:
沿路径积分:
这正是论文里的路径代价。
所以所谓 conformal Riemannian metric,在这里可以理解为:
一张阻力地图。阻力大的地方,空间被拉长;阻力小的地方,空间正常或更近。
13. 正文公式 6:动态规划递推
你截图里的公式 6 是:
这个式子本质上是最短路递推。
先解释符号。
表示从起点 $p_0$ 到当前点 $p_K$ 的最小 geodesic cost。
表示从起点 $p0$ 到前一个点 $p{K-1}$ 的最小 geodesic cost。
表示最后一步从 $p_{K-1}$ 走到 $p_K$ 的代价。
右边表示一条具体路线:
它的总代价是:
因为 $d_\phi(p_0,p_K)$ 是所有路线里的最小代价,所以它不可能比某条具体路线还大。
因此:
如果最后一步有多个可能的前驱或走法,就取最小:
在离散像素图上,更常见的写法是:
其中 $\mathcal{N}(p)$ 是 $p$ 的邻居集合。
这就是 Dijkstra 或动态规划的思想:
到当前点的最小代价 = 从所有前驱点过来的候选代价里选最小。
14. 公式 6 为什么和深度传播有关
前面已经定义:
如果两个点之间要穿过深度边界,则 $\phi$ 大,路径代价高。
如果两个点在同一个平滑表面上,则 $\phi$ 小,路径代价低。
公式 6 就是在离散图上计算这个代价。
它告诉算法:
信息从哪里传播到哪里比较便宜。
因此,它不是直接估深度,而是在估计:
这件事对于 pixel-wise refinement 很关键。
15. 公式 7:局部预测和更新的直觉
论文在公式 6 后面通常会进入 pixel-wise 更新。
其核心形式可以抽象为:
其中:
- $q$:用来预测的邻居点;
- $p$:被预测的目标点;
- $\Delta p=p-q$:从 $q$ 到 $p$ 的相对位移;
- $\Psi(\Delta p)$:位移的基函数;
- $\alpha(q)$:以 $q$ 为中心的局部模型系数;
- $\hat z(p\mid q,\Delta p)$:从 $q$ 的局部模型预测出来的 $p$ 的深度。
如果用简单多项式基函数:
那么:
于是:
矩阵乘法展开:
这就是一个局部多项式模型。
直觉:
如果 $p$ 和 $q$ 在同一个局部表面上,那么 $q$ 附近的局部模型可以预测 $p$ 的深度。
16. 深度更新:为什么要逐步融合
一种常见更新形式是:
等价于:
当 $k=1$:
当 $k=9$:
所以越往后,新预测的权重越小,更新越稳定。
它不是一次性把 $z(p)$ 替换成邻居预测,而是逐步调整。
这能减少错误传播。
17. 将 3.2 的方法串起来
现在可以把 3.2 重组为一条清楚的流程。
Step 1:已有一个 coarse metric depth
segment-wise recovery 给出:
Step 2:计算深度图的二阶变化
计算:
然后得到:
$\phi(p)$ 越大,说明这里越可能是深度不连续或强曲率区域。
Step 3:用 $\phi$ 构造路径代价
连续形式:
离散形式:
其中:
$\ell(q,p)$ 是从 $q$ 到 $p$ 的步长。
如果是四邻域:
如果是八邻域的对角移动:
Step 4:选择低代价传播路径
如果路径穿过边界,$\phi$ 大:
就大。
如果路径在平滑表面内,$\phi$ 小:
就小。
所以算法自然倾向于在同一平滑区域内传播。
Step 5:用邻居局部模型预测目标像素深度
从邻居 $q$ 预测目标点 $p$:
Step 6:融合预测,更新 depth
最终得到 refined metric depth。
18. 一张总流程图
1 | flowchart TD |
19. 为什么这些公式服务于尺度恢复
论文不是为了纯数学证明而证明。
它想说明:
- 如果两个像素之间的深度变化能被一阶模型解释,则它们可能属于同一平滑表面。
- 一阶模型解释不了的误差 $R(p,q)$,可以由路径上的二阶变化累计控制。
- 二阶变化大的地方通常是深度边界或不连续区域。
- 所以可以用 $\phi$ 作为传播代价。
- 用最小路径代价传播深度,可以减少跨边界错误。
主线是:
20. 它和真正的深度估计有什么关系
常规深度估计关心:
也就是模型如何从图像预测深度。
这篇文章更关心:
所以它的核心不是视觉表征学习,而是:
如何把稀疏真实尺度信息传播到 dense relative depth 上。
可以这样理解:
| 组件 | 负责什么 |
|---|---|
| depth foundation model | 给 dense relative geometry |
| sparse 3D seeds | 给少量 metric scale |
| graph optimization | 传播局部 scale/shift |
| geodesic refinement | 避免跨边界传播 |
21. 这种图优化方法什么时候会失效
21.1 sparse seeds 太少或分布不均
如果 3D seeds 只落在地面或某些局部区域,尺度传播可能覆盖不了其他物体。
例如:
- seeds 主要在地面;
- 行人、车辆、杆子上没有 seeds;
- 图优化把地面尺度传播到前景物体。
结果可能是前景物体 metric depth 错误。
21.2 sparse seeds 有外点
如果 3D seed 本身来自错误匹配、错误投影或噪声 LiDAR 点,那么错误 anchor 会污染图优化。
由于图优化会传播信息,一个错误 seed 可能影响一片区域,而不是只错一个点。
21.3 relative depth 本身错了
MTD 假设 relative depth 已经有比较可靠的几何形状。
如果 relative depth 已经把前后关系估错:
- 透明物体;
- 反光表面;
- 水面;
- 镜子;
- 天空;
- 极暗场景;
- 细小结构;
那么后面的尺度恢复只能在错误形状上做校准,不能从根本上修复 depth ordering。
21.4 superpixel 切错
如果一个 superpixel 同时包含前景和背景,却共享同一个局部映射:
就会把不该共享尺度的像素强行绑定在一起。
这会造成:
- 边界模糊;
- 前景被背景拉偏;
- 背景被前景拉偏;
- 局部尺度错误。
21.5 图边权不等于真实 3D 关系
图像上相邻不等于 3D 中相邻。
例如:
- 人贴着远处墙面;
- 树枝遮挡天空;
- 车辆边缘接触道路;
- 电线杆和建筑边缘重合。
如果图边把这些区域连得太强,尺度会跨真实深度边界传播。
21.6 $\phi$ 本身不可靠
依赖 coarse depth。
如果 coarse depth 边界已经错了,$\phi$ 也会错。
典型问题:
- 噪声导致二阶导乱跳;
- 深度边界被模型平滑掉;
- 高曲率表面被误判成不连续;
- 纹理边缘和深度边缘混淆;
- 小物体结构被平滑。
21.7 局部仿射假设不成立
如果 relative depth 到 metric depth 的误差不是局部 affine,而是复杂非线性:
那么再好的图优化也只能传播一个不够准确的模型。
21.8 图优化会不会引入更多不确定性
会,但要说准确一点:它不是单纯“更多”或“更少”,而是把不确定性的来源从网络预测转移到显式几何传播过程里。
纯前馈式数据驱动方法的不确定性主要来自:
例如一个 metric depth network 在训练集里学到了室内相机高度、道路结构、物体尺寸等隐式先验。它推理时很快,只需要一次 forward pass,但当场景分布变了,模型可能会给出很自信但错误的 metric scale。
MTD 这种图优化方法的不确定性主要来自:
也就是说,它减少了一部分“学习式模型的 domain uncertainty”,因为它不要求重新训练,也不需要模型从 RGB 里凭空猜真实尺度;但它增加了“优化式传播的不确定性”,因为尺度要沿着你构造的图传播。
可以把两类方法对比如下:
| 维度 | 纯前馈式 metric depth / depth completion | MTD 这类图优化尺度恢复 |
|---|---|---|
| 输入依赖 | RGB 或 RGB+sparse depth | relative depth + sparse 3D seeds + superpixels |
| 推理方式 | 一次网络前向 | 显式标定、图传播、路径优化 |
| 优势 | 快、端到端、表达能力强 | training-free、可解释、可插拔、跨域依赖较少 |
| 风险 | domain shift 后可能整体尺度错 | seed/边权/superpixel 错会传播错误 |
| 不确定性来源 | learned prior 是否可靠 | graph construction 是否符合真实几何 |
| 错误形态 | 网络幻觉、尺度偏差、边界 fattening | 跨边界传播、局部过平滑、anchor 污染 |
| 可解释性 | 较弱,除非额外做 uncertainty/attention 分析 | 较强,每条边和路径代价都能检查 |
所以我的判断是:
图优化方法不是消除了不确定性,而是把不确定性显式化了。
这反而有一个好处:你可以分析它错在哪里。比如:
- 是 seed 错了?
- 是 superpixel 跨边界了?
- 是边权把不该连的区域连强了?
- 是 $\phi$ 没检测到真实深度不连续?
- 是 local affine mapping 表达不了 relative depth 的非线性误差?
这些问题在前馈网络里往往被隐藏在参数中,而在图优化框架里更容易被可视化、诊断和替换。
但是这也意味着,在实际使用中不能只报告最终 RMSE/MAE。更严谨的评估应该额外看:
- seed 数量变化下的稳定性;
- seed 噪声和外点下的鲁棒性;
- seed 空间分布不均时的退化情况;
- superpixel 参数变化是否影响很大;
- 2D/3D centroid edge weight 的敏感性;
- $\phi$ 边界图和真实 depth discontinuity 是否一致;
- 错误是否会沿图扩散。
从研究角度看,这里还有一个值得追问的问题:
能不能把 graph optimization 的不确定性显式建模出来?
例如可以给每个 seed 一个置信度 $\sigma_i$,把 anchor fidelity term 改成加权形式:
seed 越可靠,$\sigma_i$ 越小,权重越大;seed 越不可靠,$\sigma_i$ 越大,权重越小。
也可以给边权加入不确定性:
而不是只用 centroid distance。这样就能把 RGB 边缘、relative depth discontinuity、normal consistency、semantic boundary、seed residual 等信息都融合进来。
所以,MTD 的图优化设计有很强的可解释性,但它的可靠性依赖于一个核心条件:
一旦这个近似不成立,图优化就可能引入额外不确定性,甚至把局部错误传播成区域性错误。
22. 图优化方法和纯前馈数据驱动方法的关系
这篇论文的定位可以更准确地写成:
也就是说,它并不是完全反对数据驱动。它仍然依赖 depth foundation model 给出 dense relative depth:
这个 $F_{\text{depth}}$ 本身就是典型的数据驱动前馈网络。MTD 真正替换掉的是:
这部分被改成了:
所以它不是“图优化 vs 深度网络”的二选一,而是一个混合结构:
这种混合结构的优点是:
- relative depth foundation model 负责强泛化的几何排序;
- sparse seeds 负责提供真实单位;
- graph optimization 负责把单位传播到整张图;
- pixel geodesic refinement 负责避免跨边界传播。
它的代价是:
- pipeline 更复杂;
- 多了 superpixel、edge weight、seed filtering、$\phi$ 等超参数或设计选择;
- 输入质量变得更关键;
- 错误模式从“网络预测错”变成“网络预测错 + 图传播错”。
对于你的深度估计研究视角,我建议这样评价它:
MTD 的贡献不是提出一个更强的 depth representation learner,而是提出了一个 training-free 的 metric scale propagation backend。它利用已有 relative depth model 的泛化能力,同时用 sparse 3D anchors 解决 metric scale。它的优势在于可解释和跨域灵活性,风险在于图结构、边权和 anchors 的正确性会直接决定尺度传播是否可靠。
这也是为什么你会觉得它不像一篇传统深度估计论文:它研究的不是“如何从 RGB 学深度”,而是“如何在已有相对深度上做带约束的 metric calibration”。
23. 读这篇文章时可以抓住的主线
不要从公式开始读,而是从这几个问题开始:
它在传播什么?
局部 relative-to-metric 映射参数,或者 refined depth。在哪里传播?
superpixel graph 和 pixel graph。从哪里获得真实尺度?
sparse 3D seeds。如何避免乱传播?
superpixel 边权和 pixel-level geodesic cost。Taylor remainder 有什么用?
用来解释为什么二阶变化可以作为传播代价。conformal metric 有什么用?
把 $\int_L\phi ds$ 解释成加权空间里的最短路距离。
24. 可以用于论文笔记的精简总结
MTD is better understood as a graph-based metric scale propagation framework rather than a conventional depth estimation network. It assumes that a relative depth foundation model already provides reliable dense geometric ordering, while sparse 3D seeds provide metric anchors. The method first estimates local relative-to-metric calibration parameters on seed-supported superpixels, then propagates these parameters over a superpixel graph. To refine pixel-level details, it defines a first-order Taylor remainder and shows that this remainder can be bounded by a path integral of a second-derivative-based discontinuity density. This motivates a discontinuity-aware geodesic cost, which guides depth propagation along low-cost paths and discourages propagation across depth boundaries.
中文版本:
MTD 与其说是一个传统深度估计方法,不如说是一个基于图优化的 metric scale 传播框架。它假设 relative depth foundation model 已经提供了较可靠的 dense 几何形状,而稀疏 3D seeds 提供少量真实尺度锚点。方法首先在有 seeds 的 superpixel 上估计局部 relative-to-metric 映射,再通过 superpixel graph 将这些参数传播到无 seeds 区域。随后,在像素级细化阶段,论文用一阶 Taylor 余项刻画局部线性深度预测误差,并证明该误差可由基于二阶导数的不连续性密度的路径积分控制,从而引出 discontinuity-aware geodesic cost,用于指导深度信息沿低代价路径传播并避免跨越深度边界。












