Unlocking Dense Metric Depth Estimation in VLMs
作者:Hanxun Yu, Xuan Qu, Yuxin Wang, Jianke Zhu, Lei Ke
单位:Zhejiang University, Tencent Hunyuan LLM, HKUST, Shenzhen Loop Area Institute
会议:2026 Arxiv
链接:https://arxiv.org/abs/2605.15876
研究动机

这篇文章要解决的问题很直接:现在的 VLM 已经能做视觉问答、定位、图文理解,但对 3D 几何的掌握仍然偏弱,尤其是不能原生输出像素级 metric depth。
已有路线大致有三类问题:
纯文本监督的 VLM 只把图像作为输入,输出仍然是自回归文本,因此视觉信号没有被密集几何目标约束,很难学到细粒度 3D 结构。
一些空间增强 VLM 依赖外部深度模型或点云模型蒸馏几何知识,容易把外部模型误差带进 VLM,并且不是 VLM 自身的原生能力。
DepthLM 这类方法证明了 VLM 可以预测 metric depth,但它用单像素 query 的方式逐点推理,生成一张密集深度图需要大量 forward;Youtu-VL 虽然能一次输出图像级深度,但 token 级输出较粗,还需要后处理插值。

因此本文的问题可以概括为:
能否只对已有 VLM 做很小的结构改动,让它在保留通用多模态能力的同时,原生输出全分辨率 metric depth,并且推理时只需要一次前向传播?
核心方法

DepthVLM 的核心设计很克制:保留标准 VLM 的视觉编码器、projector 和 LLM 主干,只在 LLM/ViT 特征之上加一个轻量 DPT-style depth head。这样模型仍然可以走原来的文本生成路径,同时并行输出 dense metric depth map。
- 多层视觉特征作为深度头输入
作者没有只取最后一层特征,而是抽取三个中间 ViT layer 加上 LLM 最后一层 image-token hidden states:
浅层 ViT 特征保留边缘和局部纹理,深层特征更偏语义,LLM 最终 hidden states 则带有视觉-语言上下文。DPT head 将这些多尺度特征 reassemble 到不同空间尺度,再通过 RefineNet block 融合,最终回归输入分辨率下的深度图。
- 两阶段训练,避免破坏 VLM 原能力
第一阶段冻结整个 VLM,只训练随机初始化的 depth head,让它先学会稳定的深度输出。监督使用 SILog loss:
第二阶段解冻 LLM backbone,端到端联合训练语言建模和深度预测:
这个训练顺序是本文比较关键的地方:如果一开始就全模型微调,随机 depth head 的噪声梯度容易扰动原有 VLM;如果只训练 depth head,又无法把几何能力和语言推理更深地耦合起来。
- 统一焦距,处理跨数据集 metric ambiguity
混合多个 indoor/outdoor depth 数据集时,同一场景在不同焦距下会对应不同像素尺度,直接训练会造成 metric depth 监督冲突。DepthVLM 采用 focal-length normalization,把图像和深度按共享虚拟焦距重采样:
实验中作者 sweep 了 $f_c \in {800, 1000, 1200}$,最终 $f_c=1000$ 效果最好。
- 输出形式上的关键差异
DepthLM 的成本是 $H \times W$ 次 forward,因为每个像素都要单独问;Youtu-VL 是一次 forward,但输出是 sparse patch-level grid。DepthVLM 直接从多尺度特征解码 dense pixel-level depth map,因此在 256×192 输入下端到端延迟只有 0.42s。
数据集
本文构建了 DepthVLM-Bench,用统一 VLM-compatible 格式组织训练和评测。

训练集来自 8 个公开数据集:
- Outdoor:Argoverse2、Waymo、DDAD、NuScenes
- Indoor:ScanNet++、Taskonomy、HM3D、Matterport3D
大多数数据集均匀采样约 800K 图像,小数据集保留原始规模,最终训练集约 4.4M images。

评测集覆盖 9 个数据集,且与训练 split 不重合:
- Outdoor:Argoverse2、Waymo、DDAD、NuScenes
- Indoor:ScanNet++、sunRGBD、IBims-1、NYUv2
- Mixed:ETH3D
每个数据集尽量采样约 1K images,并在 VLM depth evaluation 中每张图采样 10 个像素点。

为了公平评估普通 VLM 的 metric depth 能力,作者用红色箭头标记待估计像素,并要求模型只输出米制距离数值。由于 5px marker 对普通 VLM 太小,本文把 marker 增大到 20px,避免评测测到的只是 marker detection 能力。
算力
论文给出了比较明确的训练配置:
默认 backbone 为 Qwen3-VL 4B/8B。
Depth head 约 34M 参数,小于 LLM 参数量的 1%。
训练样本约 4.4M,训练 1 个 epoch。
8B 版本在 80 张 NVIDIA H20 GPU 上训练 4 天;4B 版本使用相同计算资源训练 2 天。
Stage-1 和 Stage-2 的学习率分别为 $3.5 \times 10^{-4}$ 和 $2 \times 10^{-5}$,warmup ratio 分别为 0.04 和 0.05,$\lambda=0.5$,$\alpha=1.0$。
实验结果

第一组结果比较现有 VLM。普通通用 VLM 在 metric depth 上明显不可靠,例如 GPT-5.5 的平均 $\delta_1$ 只有 0.407,Qwen3-VL-32B 也只有 0.210。即使是空间增强 VLM,表现也没有明显接近深度专用模型。DepthVLM-4B 达到 0.868,DepthVLM-8B 达到 0.876,显著超过 Youtu-VL 和 DepthLM。

第二组结果比较纯视觉深度模型。DepthVLM-4B 平均 $\delta_1$ 为 0.884,DepthVLM-8B 为 0.890,超过 DepthAnythingV3、UniDepthV2、Metric3Dv2 等强基线。这个结果是本文最重要的主张之一:dense geometry 能够在一个统一 VLM 中原生涌现,而不一定要牺牲给纯视觉 specialist。

第三组结果验证通用多模态能力是否受损。DepthVLM 在 MMBench、MMStar、ScienceQA、OCRBench、CountBench、POPE 等任务上基本保持 Qwen3-VL backbone 的能力,有些指标还略有提升。相比之下,DepthLM 因为 text-heavy 的单像素深度监督,不适合标准 VQA 协议。

作者还展示了更复杂的 3D spatial reasoning。DepthVLM 不只是输出深度图,还能回答点深度、两物体距离、深度顺序、3D 物体尺寸等问题。这里的核心解释是:原生 dense geometry prediction 给 VLM 提供了更稳的空间中间表征。

定性结果显示,Youtu-VL 的 patch-level 输出在点云和深度图上会有块状噪声,DepthLM 保持了较好的语义一致性但细节不足;DepthVLM 的边缘结构和语义一致性更好。

Depth head 消融说明,简单 two-layer MLP 最差;原始 DPT 由于会进一步下采样 LLM final visual feature,效果也不是最优。本文的 lightweight DPT 通过多尺度融合更适配 VLM 的 token 特征。

特征来源消融说明,只用 ViT 中间特征或只用 LLM final feature 都不够理想。最佳方案是结合多层 ViT 特征和 LLM final hidden states,也就是同时利用局部几何细节和高层语义上下文。

训练策略消融体现了两阶段设计的 trade-off:只训练 Stage-1 会保留 VLM 能力但深度效果有限;只做 Stage-2 深度更好但多模态能力下降;Stage-1 + Stage-2 并冻结 ViT 能在深度和通用视觉 benchmark 之间取得更好的平衡。

焦距归一化消融说明,直接混合 raw multi-source 数据会受到相机差异影响;统一到 $f_c=1000$ 在 Waymo、sunRGBD、IBims-1 上最优,整体上也最稳。

效率上,DepthLM 需要逐像素 query,256×192 输入下要 13 小时;Youtu-VL 一次 forward 但还需要插值后处理,耗时 2.48s;DepthVLM 输出 dense pixel-level depth,不需要后处理,延迟为 0.42s。
优势与不足
优势
结构改动小,只增加 34M 参数级别的 depth head,就让 VLM 获得了 dense metric depth 输出能力。
两阶段训练设计比较合理,解决了“学深度”和“保留 VQA/多模态能力”之间的冲突。
不是只赢普通 VLM,而是在多个 benchmark 上超过了强纯视觉深度模型,说明统一 VLM + dense geometry supervision 这条路线有潜力。
推理效率相比 DepthLM 这样的逐点 query 方法是数量级提升,输出也比 sparse patch-level depth 更适合直接用于下游 3D 任务。
不足
论文主要聚焦 dense metric depth,还没有扩展到 object detection、pose estimation、normal、scene flow 等更完整的 3D perception。
训练成本仍然较高,4B/8B 版本都依赖 80 张 H20 GPU,只是新增 depth head 很轻,并不代表整体训练轻量。
metric depth 的评估协议仍然需要把普通 VLM 改造成“红箭头 + 数值回答”的形式,这能比较 VLM 的空间估计能力,但和真正密集预测模型的输入输出形式并不完全对齐。
数据仍然依赖多源公开深度数据集,跨传感器、跨焦距、跨场景的 metric ambiguity 通过归一化缓解,但不一定完全解决真实开放世界中的尺度不确定性。
记忆点
给 VLM 加 dense head,比让 VLM 用文本逐点回答深度更自然,也更高效。
多层 ViT 特征负责细节,LLM final hidden states 负责语义上下文,两者结合才是最佳深度输入。
两阶段训练是关键:先只训 depth head 稳定几何,再联合微调整合语言和几何能力。
focal-length normalization 对跨数据集 metric depth 很重要,本质是在统一像素到米制深度的投影关系。
Dense geometry supervision 不一定削弱 VLM,反而可能提升 3D spatial reasoning。












