IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
作者:Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang, Haowen Sun, Jie Zhou, Jiwen Lu
单位:Intelligent Vision Group, Tsinghua University
会议:2026 Arxiv
链接:https://arxiv.org/abs/2605.16258
研究动机

这篇文章的核心问题是:现有 VGGT/DUSt3R 系列视觉几何基础模型大多输出显式几何,例如每个输入视角上的 depth map 或 pixel-aligned pointmap。这种表示非常适合快速估计相机和粗几何,但它有两个天然限制:
几何只定义在像素采样点上,是离散的、视角绑定的,同一个物理表面可能在多个视角中被重复预测。
如果要得到连续 mesh、任意视角渲染、surface normal 或 SDF 等下游结果,往往还需要额外建模或后处理。
传统 NeRF/SDF 方法能提供连续神经场,但通常依赖已知相机位姿,并且需要每个场景单独优化。IVGT 想把这两条路线接起来:像 VGGT 一样从未标定多视图图像前馈推理,又像神经隐式场一样得到可连续查询的 3D scene representation。

所以本文的问题可以概括为:
能否让一个视觉几何 Transformer 不再只输出离散 pointmap,而是直接预测一个 pose-free、feed-forward、可连续查询的隐式神经场?
核心方法

IVGT 的输入是未标定位姿的多视图 RGB 图像,输出不是一组固定点,而是一个全局 canonical coordinate system 下的 neural scene representation。这个表示可以接受任意 3D query point,预测该点的 SDF 和颜色,从而进一步做 volume rendering、surface extraction、depth/normal/RGB 渲染。
- 多视图特征聚合
模型用 transformer backbone 处理所有输入视角的 token,并通过 frame-wise attention 与 global feature attention 交替聚合视角内和跨视角信息。它还会辅助预测每个输入视角的相机参数和深度图,这些几何量用于后续投影、采样和构造场景边界。
最终得到的全局表示可以写成:
其中每个 $F_i$ 是已经隐式对齐到共享 canonical system 的 view-specific feature。
- 连续 3D query 与 ray-depth embedding
给定 canonical coordinate system 中任意一点 $\mathbf{x}$,模型会把它投影到所有可见输入视角,并聚合对应像素特征:
仅用投影像素特征是不够的,因为同一条射线上的多个 3D 点会投影到同一个像素,但它们的真实几何和外观不同。直接对绝对 3D 坐标做 positional encoding 也有问题:坐标值依赖参考帧选择,同一物理点换一个 reference frame 就会得到不同编码。
IVGT 的做法是编码 query point 相对每个视角的 ray depth:
然后把图像特征 $z_f$ 和 ray-depth feature $z_d$ 拼接,得到局部空间特征 $z$。这个设计的直觉是:ray depth 是相对视角的几何量,比绝对 XYZ 更适合 pose-free 多视图场景。
- 级联 SDF 与颜色解码器
IVGT 先用 8-layer MLP 从 $z$ 解码 SDF 值和中间外观特征:
再把外观特征、SDF 梯度对应的 surface normal、以及 viewing direction positional encoding 送入 2-layer MLP,预测 view-dependent color:
这就把几何和外观放进了同一个连续隐式场里。
- 渲染与 surface extraction
渲染时沿每条相机射线采样 3D 点,预测每个采样点的 SDF 和颜色,再将 SDF 转换为 density 进行体渲染,得到 RGB、depth 和 normal。
提取 mesh 时,先用输入视角预测深度和相机位姿构造粗点云,估计场景 bounding volume;再在体素网格上查询 SDF,筛选有效区域并上采样到更高分辨率,最后用 Marching Cubes 提取连续 surface。
- 两阶段训练
第一阶段只用 2D 渲染监督和相机监督,损失包含:
第二阶段加入 SDF 几何正则,包括 Eikonal loss、smoothness loss,以及 VGGT 风格的 depth loss:
这样设计的原因是:太早加入 3D 约束会妨碍模型先学到基本几何分布,而只靠 2D supervision 又会得到粗糙、不规则的 surface。先学粗几何,再加 SDF 正则,是本文稳定 surface quality 的关键。
数据集
训练数据覆盖 object-level 和 scene-level,包含真实数据与合成数据:
- ARKitScenes
- CO3Dv2
- HyperSim
- MegaDepth
- OmniObject3D
- ScanNet
- ScanNet++
- Unreal4K
- WildRGBD
监督信号主要需要 camera poses 和 RGB-D 数据;surface normal 不是人工标注,而是用 DSine 从 RGB 预测得到。
评测覆盖多个任务和数据集:
- Mesh reconstruction:ScanNet
- Pointmap reconstruction:7-Scenes、NRGBD、DTU
- Camera pose estimation:ScanNet、Sintel、TUM-dynamics
- Novel view synthesis:RealEstate10K、DL3DV、ScanNet qualitative visualization
- Depth estimation:NYUv2、Sintel
- Surface normal estimation:NYUv2、iBims-1
算力
论文给出的实现细节如下:
Image encoder 和 global feature extraction module 初始化自 VGGT 预训练权重。
优化器为 AdamW,学习率 warmup 到 $2 \times 10^{-4}$,随后 cosine decay。
每次迭代从 8 个视角渲染,其中 4 个 context views,4 个 novel views。
每个视角采样 1024 条 rays,并使用 error-bounded sampling 采样射线上的点。
使用 4 张 A800 NVIDIA GPU 训练 4 天。
实验结果

在 ScanNet mesh reconstruction 上,IVGT 是 generalizable 方法,不需要每个场景单独优化。它的 F-score 为 0.647,低于 MonoSDF 的 0.733,但优于 COLMAP、UNISURF、NeuS、VolSDF 和 Manhattan-SDF。考虑到 MonoSDF 需要每个场景优化数小时,IVGT 的优势在于一次前馈推理就能得到连续 mesh。

定性 mesh reconstruction 说明 IVGT 的 surface 更完整,也比部分 per-scene 优化方法更平滑稳定。它不是简单输出点云,而是从隐式 SDF 场中提取 surface,因此天然更适合生成连续 mesh。

作者还展示了跨场景、跨对象尺度的 colored mesh reconstruction。这里的意义在于:IVGT 不只适用于单一室内场景,也能处理 object-level 数据,并在没有 test-time optimization 的情况下输出带颜色的 mesh。

Pointmap reconstruction 上,直接从 per-view features 解码的 IVGT pointmap 在 7-Scenes、NRGBD、DTU 上多数指标优于 Fast3R、CUT3R、Point3R、StreamVGGT 和 VGGT。值得注意的是,IVGT 同时报告了 IVGT 和 IVGT (from render):前者来自显式 per-view depth 解码,后者来自隐式场渲染得到的 depth。

Figure 6 直观展示了 pointmap 和 mesh 表示的差别:pixel-aligned pointmap 在物体边界处容易稀疏、不连续,而从 IVGT 隐式场提取的 mesh 在表面连续性和完整性上更好。

相机位姿估计方面,IVGT 在 ScanNet、Sintel、TUM-dynamics 上和 VGGT、WorldMirror 等前馈方法接近或更优。由于 IVGT 的主目标不是 pose-only,而是连续场景表示,这组结果说明隐式表示没有破坏原有视觉几何基础模型的 pose estimation 能力。

Novel view synthesis 上,IVGT 的 PSNR/SSIM 有竞争力,但 LPIPS 明显落后于 WorldMirror 和部分 3DGS 风格方法。例如 RealEstate10K 2-view 下,IVGT 的 PSNR 为 18.97,低于 WorldMirror 的 20.62;LPIPS 为 0.449,也不如 WorldMirror 的 0.187。这与作者在 limitation 中的说法一致:SDF-based rendering 几何连贯,但高频外观细节不如专门的 NVS 方法。

ScanNet novel view synthesis 定性结果显示,IVGT 可以从同一个 SDF 场渲染 RGB、depth 和 normal。图像可能偏平滑,但 depth 和 normal 的结构连续性较好。

深度估计上,IVGT 在 Sintel monocular/video 上表现强,Sintel video 的 Abs Rel 为 0.295,略优于 VGGT 的 0.299;NYUv2 上 Abs Rel 低于 VGGT,但 $\delta < 1.25$ 更高。说明它在 depth 任务上仍然保留了几何基础模型的能力。

Surface normal estimation 上,IVGT 没有专门为 normal 任务设计,但在 NYUv2 与 iBims-1 上接近 DSine 等专门 normal 方法。这说明 SDF 表示确实捕获了可用于 surface orientation 的几何结构。

位置编码消融很关键。使用绝对 XYZ 坐标的 XYZ-PosEnc 和 XYZ-Embed 都明显不如 Raydepth-Embed。这支持了作者的论点:在 pose-free 多视图场景中,绝对坐标依赖参考帧,容易引入 ambiguity;相对视角的 ray depth 更稳定。

两阶段训练消融表明,Stage 1 只靠 2D supervision 能学到粗几何,但表面很粗糙;Stage 2 加入 Eikonal 和 smoothness regularization 后,mesh 明显更平滑、更连贯。
优势与不足
优势
把 VGGT 类前馈视觉几何模型和 SDF/NeRF 类连续隐式表示接起来,方向很清晰。
输入不需要已知相机位姿,仍然能构建 canonical coordinate system 下的 neural scene representation。
一个表示同时支持 mesh、pointmap、camera pose、NVS、depth、normal,多任务接口统一。
Ray-depth embedding 是一个很实用的设计,避免直接使用绝对 XYZ 带来的 reference-frame ambiguity。
相比 per-scene SDF/NeRF 优化,IVGT 是 feed-forward generalizable 方法,速度和可扩展性更好。
不足
NVS 的高频外观质量不如专门的 3DGS / NVS 方法,LPIPS 指标也明显落后。
Eikonal 和 smoothness prior 有利于 surface coherence,但可能压掉薄结构、尖锐边缘和细粒度几何。
当前假设静态场景和有界空间范围,不适合直接处理动态场景或大范围无界室外场景。
连续 3D query 需要把每个采样点投影到多个输入视角并聚合特征,推理成本高于直接解码 pixel-aligned pointmap,实时部署仍有压力。
目前论文没有给出与 DUSt3R/MASt3R/VGGT 在完全相同部署约束下的端到端速度对比,工程可用性还需要更多验证。
记忆点
IVGT 的核心不是“更好的 pointmap”,而是把视觉几何基础模型的输出从离散显式几何升级成连续隐式场。
Pose-free 场景中不要轻易用绝对 XYZ positional encoding,reference frame 会引入 ambiguity。
Ray-depth embedding 把 3D query point 的位置写成相对各输入视角的深度,比绝对坐标更稳定。
先 2D rendering supervision 学粗几何,再加 Eikonal/smoothness 规整 surface,是训练连续 SDF 表示的关键。
这篇更像 VGGT 类模型通向“可渲染、可提 mesh 的 3D scene representation”的一步,而不是单纯追求某一个 depth/pose benchmark 的 SOTA。












