作者:Baorui Ma,Jiahui Yang,Donglin Di,Xuancheng Zhang, Jianxun Cui, Hao Li, Xie Yan, Wei Chen

单位:Li Auto Inc

会议:2026 Arxiv

链接:https://metric-anything.github.io/metric-anything-io/

研究动机

由于数据来源复杂,暂无工作将Scaling原则应用于绝对深度估计,实现一个通用的模型

核心方法

1.构造20M数据

ma-1

2.Deep-to-Deep DPT

典型的带有DPT头解码器的ViT编码器使用U-Net风格的跳跃连接,将浅层特征注入更深层,并将深层特征向上传播。虽然这能在噪声监督下稳定训练,因为ViT编码器中的低层提示(如纹理和颜色)更一致且易于学习。低维特征通过跳接连接到靠近输出的DPT头,这减少了输出与噪声监督之间的冲突,从而平滑梯度波动。然而,它未能充分利用对精确深度至关重要的高层语义线索。因此,减少对浅层到深度特征注入的依赖,探索更激进的网络设计,充分发挥ViT编码器深度块所提供的丰富语义线索。

ma-2

数据集

Train:

  • 自建数据集

Eval:

  • Booster
  • Middlebury
  • Sun-RGBD
  • ETH3D
  • NuScenes
  • Sintel
  • NYUv2
  • KITTI
  • ScanNet
  • iBims-1
  • Spring

算力

144张H200

实验结果

ma-3

ma-4

ma-5

ma-6

ma-7

ma-8

ma-9

ma-10

ma-11

ma-12

ma-13

ma-14

ma-15

ma-16

ma-17

ma-18

ma-19

ma-20

ma-21

ma-22

ma-23

ma-24

ma-25

ma-26

ma-27

优势与不足

优势

  1. 强大的泛化能力,多任务应用能力
  2. Scaling Law
  3. 极简的模型设计

不足

  1. 依旧局限于透视相机假设,对畸变相机的深度估计好看但不可用,且通过了mask的方式取巧把预测的不好的都滤除了
  2. 未对模型的Capacity进行实验
  3. 计算成本过高

记忆点

  1. Deep-to-Deep的DPT设计

  2. Scaling Law

  3. Distance-aware inverse depth transform