Unlocking Dense Metric Depth Estimation in VLMs

作者：Hanxun Yu, Xuan Qu, Yuxin Wang, Jianke Zhu, Lei Ke

单位：Zhejiang University, Tencent Hunyuan LLM, HKUST, Shenzhen Loop Area Institute

会议：2026 Arxiv

链接：https://arxiv.org/abs/2605.15876

研究动机

DepthVLM-0

这篇文章要解决的问题很直接：现在的 VLM 已经能做视觉问答、定位、图文理解，但对 3D 几何的掌握仍然偏弱，尤其是不能原生输出像素级 metric depth。

已有路线大致有三类问题：

纯文本监督的 VLM 只把图像作为输入，输出仍然是自回归文本，因此视觉信号没有被密集几何目标约束，很难学到细粒度 3D 结构。
一些空间增强 VLM 依赖外部深度模型或点云模型蒸馏几何知识，容易把外部模型误差带进 VLM，并且不是 VLM 自身的原生能力。
DepthLM 这类方法证明了 VLM 可以预测 metric depth，但它用单像素 query 的方式逐点推理，生成一张密集深度图需要大量 forward；Youtu-VL 虽然能一次输出图像级深度，但 token 级输出较粗，还需要后处理插值。

DepthVLM-1

因此本文的问题可以概括为：

能否只对已有 VLM 做很小的结构改动，让它在保留通用多模态能力的同时，原生输出全分辨率 metric depth，并且推理时只需要一次前向传播？

核心方法

DepthVLM-2

DepthVLM 的核心设计很克制：保留标准 VLM 的视觉编码器、projector 和 LLM 主干，只在 LLM/ViT 特征之上加一个轻量 DPT-style depth head。这样模型仍然可以走原来的文本生成路径，同时并行输出 dense metric depth map。

多层视觉特征作为深度头输入

作者没有只取最后一层特征，而是抽取三个中间 ViT layer 加上 LLM 最后一层 image-token hidden states：

$F_k = \begin{cases} \phi(h^{(\ell_k)}) & k = 1,2,3 \\ H^{LLM}_{M_v} & k = 4 \end{cases}$

浅层 ViT 特征保留边缘和局部纹理，深层特征更偏语义，LLM 最终 hidden states 则带有视觉-语言上下文。DPT head 将这些多尺度特征 reassemble 到不同空间尺度，再通过 RefineNet block 融合，最终回归输入分辨率下的深度图。

两阶段训练，避免破坏 VLM 原能力

第一阶段冻结整个 VLM，只训练随机初始化的 depth head，让它先学会稳定的深度输出。监督使用 SILog loss：

$\mathcal{L}_{depth} = \sqrt{ \frac{1}{|\Omega|}\sum_{i \in \Omega} d_i^2 - \lambda \left(\frac{1}{|\Omega|}\sum_{i \in \Omega} d_i\right)^2 }, \quad d_i = \log \hat{D}_i - \log D_i^*$

第二阶段解冻 LLM backbone，端到端联合训练语言建模和深度预测：

$\mathcal{L}_{joint} = \mathcal{L}_{text} + \alpha \mathcal{L}_{depth}$

这个训练顺序是本文比较关键的地方：如果一开始就全模型微调，随机 depth head 的噪声梯度容易扰动原有 VLM；如果只训练 depth head，又无法把几何能力和语言推理更深地耦合起来。

统一焦距，处理跨数据集 metric ambiguity

混合多个 indoor/outdoor depth 数据集时，同一场景在不同焦距下会对应不同像素尺度，直接训练会造成 metric depth 监督冲突。DepthVLM 采用 focal-length normalization，把图像和深度按共享虚拟焦距重采样：

$s = f_c / f, \quad \tilde{I} = R_s(I), \quad \tilde{D} = R_s(D)$

实验中作者 sweep 了 $f_c \in {800, 1000, 1200}$，最终 $f_c=1000$ 效果最好。

输出形式上的关键差异

DepthLM 的成本是 $H \times W$ 次 forward，因为每个像素都要单独问；Youtu-VL 是一次 forward，但输出是 sparse patch-level grid。DepthVLM 直接从多尺度特征解码 dense pixel-level depth map，因此在 256×192 输入下端到端延迟只有 0.42s。

数据集

本文构建了 DepthVLM-Bench，用统一 VLM-compatible 格式组织训练和评测。

DepthVLM-13

训练集来自 8 个公开数据集：

Outdoor：Argoverse2、Waymo、DDAD、NuScenes
Indoor：ScanNet++、Taskonomy、HM3D、Matterport3D

大多数数据集均匀采样约 800K 图像，小数据集保留原始规模，最终训练集约 4.4M images。

DepthVLM-14

评测集覆盖 9 个数据集，且与训练 split 不重合：

Outdoor：Argoverse2、Waymo、DDAD、NuScenes
Indoor：ScanNet++、sunRGBD、IBims-1、NYUv2
Mixed：ETH3D

每个数据集尽量采样约 1K images，并在 VLM depth evaluation 中每张图采样 10 个像素点。

DepthVLM-15

为了公平评估普通 VLM 的 metric depth 能力，作者用红色箭头标记待估计像素，并要求模型只输出米制距离数值。由于 5px marker 对普通 VLM 太小，本文把 marker 增大到 20px，避免评测测到的只是 marker detection 能力。

算力

论文给出了比较明确的训练配置：

默认 backbone 为 Qwen3-VL 4B/8B。
Depth head 约 34M 参数，小于 LLM 参数量的 1%。
训练样本约 4.4M，训练 1 个 epoch。
8B 版本在 80 张 NVIDIA H20 GPU 上训练 4 天；4B 版本使用相同计算资源训练 2 天。
Stage-1 和 Stage-2 的学习率分别为 $3.5 \times 10^{-4}$ 和 $2 \times 10^{-5}$，warmup ratio 分别为 0.04 和 0.05，$\lambda=0.5$，$\alpha=1.0$。

实验结果

DepthVLM-3

第一组结果比较现有 VLM。普通通用 VLM 在 metric depth 上明显不可靠，例如 GPT-5.5 的平均 $\delta_1$ 只有 0.407，Qwen3-VL-32B 也只有 0.210。即使是空间增强 VLM，表现也没有明显接近深度专用模型。DepthVLM-4B 达到 0.868，DepthVLM-8B 达到 0.876，显著超过 Youtu-VL 和 DepthLM。

DepthVLM-4

第二组结果比较纯视觉深度模型。DepthVLM-4B 平均 $\delta_1$ 为 0.884，DepthVLM-8B 为 0.890，超过 DepthAnythingV3、UniDepthV2、Metric3Dv2 等强基线。这个结果是本文最重要的主张之一：dense geometry 能够在一个统一 VLM 中原生涌现，而不一定要牺牲给纯视觉 specialist。

DepthVLM-5

第三组结果验证通用多模态能力是否受损。DepthVLM 在 MMBench、MMStar、ScienceQA、OCRBench、CountBench、POPE 等任务上基本保持 Qwen3-VL backbone 的能力，有些指标还略有提升。相比之下，DepthLM 因为 text-heavy 的单像素深度监督，不适合标准 VQA 协议。

DepthVLM-6

作者还展示了更复杂的 3D spatial reasoning。DepthVLM 不只是输出深度图，还能回答点深度、两物体距离、深度顺序、3D 物体尺寸等问题。这里的核心解释是：原生 dense geometry prediction 给 VLM 提供了更稳的空间中间表征。

DepthVLM-7

定性结果显示，Youtu-VL 的 patch-level 输出在点云和深度图上会有块状噪声，DepthLM 保持了较好的语义一致性但细节不足；DepthVLM 的边缘结构和语义一致性更好。

DepthVLM-8

Depth head 消融说明，简单 two-layer MLP 最差；原始 DPT 由于会进一步下采样 LLM final visual feature，效果也不是最优。本文的 lightweight DPT 通过多尺度融合更适配 VLM 的 token 特征。

DepthVLM-9

特征来源消融说明，只用 ViT 中间特征或只用 LLM final feature 都不够理想。最佳方案是结合多层 ViT 特征和 LLM final hidden states，也就是同时利用局部几何细节和高层语义上下文。

DepthVLM-10

训练策略消融体现了两阶段设计的 trade-off：只训练 Stage-1 会保留 VLM 能力但深度效果有限；只做 Stage-2 深度更好但多模态能力下降；Stage-1 + Stage-2 并冻结 ViT 能在深度和通用视觉 benchmark 之间取得更好的平衡。

DepthVLM-11

焦距归一化消融说明，直接混合 raw multi-source 数据会受到相机差异影响；统一到 $f_c=1000$ 在 Waymo、sunRGBD、IBims-1 上最优，整体上也最稳。

DepthVLM-12

效率上，DepthLM 需要逐像素 query，256×192 输入下要 13 小时；Youtu-VL 一次 forward 但还需要插值后处理，耗时 2.48s；DepthVLM 输出 dense pixel-level depth，不需要后处理，延迟为 0.42s。

优势与不足

优势

结构改动小，只增加 34M 参数级别的 depth head，就让 VLM 获得了 dense metric depth 输出能力。
两阶段训练设计比较合理，解决了“学深度”和“保留 VQA/多模态能力”之间的冲突。
不是只赢普通 VLM，而是在多个 benchmark 上超过了强纯视觉深度模型，说明统一 VLM + dense geometry supervision 这条路线有潜力。
推理效率相比 DepthLM 这样的逐点 query 方法是数量级提升，输出也比 sparse patch-level depth 更适合直接用于下游 3D 任务。

不足

论文主要聚焦 dense metric depth，还没有扩展到 object detection、pose estimation、normal、scene flow 等更完整的 3D perception。
训练成本仍然较高，4B/8B 版本都依赖 80 张 H20 GPU，只是新增 depth head 很轻，并不代表整体训练轻量。
metric depth 的评估协议仍然需要把普通 VLM 改造成“红箭头 + 数值回答”的形式，这能比较 VLM 的空间估计能力，但和真正密集预测模型的输入输出形式并不完全对齐。
数据仍然依赖多源公开深度数据集，跨传感器、跨焦距、跨场景的 metric ambiguity 通过归一化缓解，但不一定完全解决真实开放世界中的尺度不确定性。