IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

作者：Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang, Haowen Sun, Jie Zhou, Jiwen Lu

单位：Intelligent Vision Group, Tsinghua University

会议：2026 Arxiv

研究动机

IVGT-0

这篇文章的核心问题是：现有 VGGT/DUSt3R 系列视觉几何基础模型大多输出显式几何，例如每个输入视角上的 depth map 或 pixel-aligned pointmap。这种表示非常适合快速估计相机和粗几何，但它有两个天然限制：

几何只定义在像素采样点上，是离散的、视角绑定的，同一个物理表面可能在多个视角中被重复预测。
如果要得到连续 mesh、任意视角渲染、surface normal 或 SDF 等下游结果，往往还需要额外建模或后处理。

传统 NeRF/SDF 方法能提供连续神经场，但通常依赖已知相机位姿，并且需要每个场景单独优化。IVGT 想把这两条路线接起来：像 VGGT 一样从未标定多视图图像前馈推理，又像神经隐式场一样得到可连续查询的 3D scene representation。

IVGT-1

所以本文的问题可以概括为：

能否让一个视觉几何 Transformer 不再只输出离散 pointmap，而是直接预测一个 pose-free、feed-forward、可连续查询的隐式神经场？

核心方法

IVGT-2

IVGT 的输入是未标定位姿的多视图 RGB 图像，输出不是一组固定点，而是一个全局 canonical coordinate system 下的 neural scene representation。这个表示可以接受任意 3D query point，预测该点的 SDF 和颜色，从而进一步做 volume rendering、surface extraction、depth/normal/RGB 渲染。

多视图特征聚合

模型用 transformer backbone 处理所有输入视角的 token，并通过 frame-wise attention 与 global feature attention 交替聚合视角内和跨视角信息。它还会辅助预测每个输入视角的相机参数和深度图，这些几何量用于后续投影、采样和构造场景边界。

最终得到的全局表示可以写成：

$\mathcal{F} = \{F_i\}_{i=1}^{N}$

其中每个 $F_i$ 是已经隐式对齐到共享 canonical system 的 view-specific feature。

连续 3D query 与 ray-depth embedding

给定 canonical coordinate system 中任意一点 $\mathbf{x}$，模型会把它投影到所有可见输入视角，并聚合对应像素特征：

$z_f = \sum_{i=1}^{N_k} F_i(\pi(\mathbf{x}))$

仅用投影像素特征是不够的，因为同一条射线上的多个 3D 点会投影到同一个像素，但它们的真实几何和外观不同。直接对绝对 3D 坐标做 positional encoding 也有问题：坐标值依赖参考帧选择，同一物理点换一个 reference frame 就会得到不同编码。

IVGT 的做法是编码 query point 相对每个视角的 ray depth：

$z_d = \sum_{i=1}^{N_k} f_{raydepth}(d_i(\mathbf{x}))$

然后把图像特征 $z_f$ 和 ray-depth feature $z_d$ 拼接，得到局部空间特征 $z$。这个设计的直觉是：ray depth 是相对视角的几何量，比绝对 XYZ 更适合 pose-free 多视图场景。

级联 SDF 与颜色解码器

IVGT 先用 8-layer MLP 从 $z$ 解码 SDF 值和中间外观特征：

$(\hat{s}, \hat{z}) = f_{\theta}(z)$

再把外观特征、SDF 梯度对应的 surface normal、以及 viewing direction positional encoding 送入 2-layer MLP，预测 view-dependent color：

$\hat{c} = c_{\theta}(\hat{z}, \hat{n}, \gamma(\mathbf{v}))$

这就把几何和外观放进了同一个连续隐式场里。

渲染与 surface extraction

渲染时沿每条相机射线采样 3D 点，预测每个采样点的 SDF 和颜色，再将 SDF 转换为 density 进行体渲染，得到 RGB、depth 和 normal。

提取 mesh 时，先用输入视角预测深度和相机位姿构造粗点云，估计场景 bounding volume；再在体素网格上查询 SDF，筛选有效区域并上采样到更高分辨率，最后用 Marching Cubes 提取连续 surface。

两阶段训练

第一阶段只用 2D 渲染监督和相机监督，损失包含：

$\mathcal{L}_{stage1} = \mathcal{L}_{rgb} + \lambda_1 \mathcal{L}_{depth-render} + \lambda_2 \mathcal{L}_{normal} + \lambda_3 \mathcal{L}_{camera}$

第二阶段加入 SDF 几何正则，包括 Eikonal loss、smoothness loss，以及 VGGT 风格的 depth loss：

$\mathcal{L}_{stage2} = \mathcal{L}_{stage1} + \lambda_4 \mathcal{L}_{eikonal} + \lambda_5 \mathcal{L}_{smooth} + \lambda_6 \mathcal{L}_{depth}$

这样设计的原因是：太早加入 3D 约束会妨碍模型先学到基本几何分布，而只靠 2D supervision 又会得到粗糙、不规则的 surface。先学粗几何，再加 SDF 正则，是本文稳定 surface quality 的关键。

数据集

训练数据覆盖 object-level 和 scene-level，包含真实数据与合成数据：

ARKitScenes
CO3Dv2
HyperSim
MegaDepth
OmniObject3D
ScanNet
ScanNet++
Unreal4K
WildRGBD

监督信号主要需要 camera poses 和 RGB-D 数据；surface normal 不是人工标注，而是用 DSine 从 RGB 预测得到。

评测覆盖多个任务和数据集：

Mesh reconstruction：ScanNet
Pointmap reconstruction：7-Scenes、NRGBD、DTU
Camera pose estimation：ScanNet、Sintel、TUM-dynamics
Novel view synthesis：RealEstate10K、DL3DV、ScanNet qualitative visualization
Depth estimation：NYUv2、Sintel
Surface normal estimation：NYUv2、iBims-1

算力

论文给出的实现细节如下：

Image encoder 和 global feature extraction module 初始化自 VGGT 预训练权重。
优化器为 AdamW，学习率 warmup 到 $2 \times 10^{-4}$，随后 cosine decay。
每次迭代从 8 个视角渲染，其中 4 个 context views，4 个 novel views。
每个视角采样 1024 条 rays，并使用 error-bounded sampling 采样射线上的点。
使用 4 张 A800 NVIDIA GPU 训练 4 天。

实验结果

IVGT-3

在 ScanNet mesh reconstruction 上，IVGT 是 generalizable 方法，不需要每个场景单独优化。它的 F-score 为 0.647，低于 MonoSDF 的 0.733，但优于 COLMAP、UNISURF、NeuS、VolSDF 和 Manhattan-SDF。考虑到 MonoSDF 需要每个场景优化数小时，IVGT 的优势在于一次前馈推理就能得到连续 mesh。

IVGT-4

定性 mesh reconstruction 说明 IVGT 的 surface 更完整，也比部分 per-scene 优化方法更平滑稳定。它不是简单输出点云，而是从隐式 SDF 场中提取 surface，因此天然更适合生成连续 mesh。

IVGT-5

作者还展示了跨场景、跨对象尺度的 colored mesh reconstruction。这里的意义在于：IVGT 不只适用于单一室内场景，也能处理 object-level 数据，并在没有 test-time optimization 的情况下输出带颜色的 mesh。

IVGT-6

Pointmap reconstruction 上，直接从 per-view features 解码的 IVGT pointmap 在 7-Scenes、NRGBD、DTU 上多数指标优于 Fast3R、CUT3R、Point3R、StreamVGGT 和 VGGT。值得注意的是，IVGT 同时报告了 IVGT 和 IVGT (from render)：前者来自显式 per-view depth 解码，后者来自隐式场渲染得到的 depth。

IVGT-7

Figure 6 直观展示了 pointmap 和 mesh 表示的差别：pixel-aligned pointmap 在物体边界处容易稀疏、不连续，而从 IVGT 隐式场提取的 mesh 在表面连续性和完整性上更好。

IVGT-8

相机位姿估计方面，IVGT 在 ScanNet、Sintel、TUM-dynamics 上和 VGGT、WorldMirror 等前馈方法接近或更优。由于 IVGT 的主目标不是 pose-only，而是连续场景表示，这组结果说明隐式表示没有破坏原有视觉几何基础模型的 pose estimation 能力。

IVGT-9

Novel view synthesis 上，IVGT 的 PSNR/SSIM 有竞争力，但 LPIPS 明显落后于 WorldMirror 和部分 3DGS 风格方法。例如 RealEstate10K 2-view 下，IVGT 的 PSNR 为 18.97，低于 WorldMirror 的 20.62；LPIPS 为 0.449，也不如 WorldMirror 的 0.187。这与作者在 limitation 中的说法一致：SDF-based rendering 几何连贯，但高频外观细节不如专门的 NVS 方法。

IVGT-10

ScanNet novel view synthesis 定性结果显示，IVGT 可以从同一个 SDF 场渲染 RGB、depth 和 normal。图像可能偏平滑，但 depth 和 normal 的结构连续性较好。

IVGT-11

深度估计上，IVGT 在 Sintel monocular/video 上表现强，Sintel video 的 Abs Rel 为 0.295，略优于 VGGT 的 0.299；NYUv2 上 Abs Rel 低于 VGGT，但 $\delta < 1.25$ 更高。说明它在 depth 任务上仍然保留了几何基础模型的能力。

IVGT-12

Surface normal estimation 上，IVGT 没有专门为 normal 任务设计，但在 NYUv2 与 iBims-1 上接近 DSine 等专门 normal 方法。这说明 SDF 表示确实捕获了可用于 surface orientation 的几何结构。

IVGT-13

位置编码消融很关键。使用绝对 XYZ 坐标的 XYZ-PosEnc 和 XYZ-Embed 都明显不如 Raydepth-Embed。这支持了作者的论点：在 pose-free 多视图场景中，绝对坐标依赖参考帧，容易引入 ambiguity；相对视角的 ray depth 更稳定。

IVGT-14

两阶段训练消融表明，Stage 1 只靠 2D supervision 能学到粗几何，但表面很粗糙；Stage 2 加入 Eikonal 和 smoothness regularization 后，mesh 明显更平滑、更连贯。

优势与不足

优势

把 VGGT 类前馈视觉几何模型和 SDF/NeRF 类连续隐式表示接起来，方向很清晰。
输入不需要已知相机位姿，仍然能构建 canonical coordinate system 下的 neural scene representation。
一个表示同时支持 mesh、pointmap、camera pose、NVS、depth、normal，多任务接口统一。
Ray-depth embedding 是一个很实用的设计，避免直接使用绝对 XYZ 带来的 reference-frame ambiguity。
相比 per-scene SDF/NeRF 优化，IVGT 是 feed-forward generalizable 方法，速度和可扩展性更好。

不足

NVS 的高频外观质量不如专门的 3DGS / NVS 方法，LPIPS 指标也明显落后。
Eikonal 和 smoothness prior 有利于 surface coherence，但可能压掉薄结构、尖锐边缘和细粒度几何。
当前假设静态场景和有界空间范围，不适合直接处理动态场景或大范围无界室外场景。
连续 3D query 需要把每个采样点投影到多个输入视角并聚合特征，推理成本高于直接解码 pixel-aligned pointmap，实时部署仍有压力。
目前论文没有给出与 DUSt3R/MASt3R/VGGT 在完全相同部署约束下的端到端速度对比，工程可用性还需要更多验证。

记忆点

IVGT 的核心不是“更好的 pointmap”，而是把视觉几何基础模型的输出从离散显式几何升级成连续隐式场。
Pose-free 场景中不要轻易用绝对 XYZ positional encoding，reference frame 会引入 ambiguity。
Ray-depth embedding 把 3D query point 的位置写成相对各输入视角的深度，比绝对坐标更稳定。
先 2D rendering supervision 学粗几何，再加 Eikonal/smoothness 规整 surface，是训练连续 SDF 表示的关键。
这篇更像 VGGT 类模型通向“可渲染、可提 mesh 的 3D scene representation”的一步，而不是单纯追求某一个 depth/pose benchmark 的 SOTA。