作者:Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao

单位:ShanghaiTech University, University of Tübingen, Tübingen AI Center

会议:SIGGRAPH 2024 Conference Papers

链接:arXiv, Project, Code

研究动机

2DGS-0

3D Gaussian Splatting 的吸引力在于它把新视角合成做到了高质量、快速训练和实时渲染,但它的几何表达并不天然适合表面重建。3DGS 的基本单元是三维体素状 Gaussian blob,它可以很好地拟合视图相关外观,却会在几何上产生一个矛盾:真实世界的许多物体表面是薄的二维流形,而 3D Gaussian 表示的是有体积的密度分布。颜色可以通过体渲染被拟合出来,但表面在哪里、法向是否一致、不同视角看到的交点是否稳定,并没有被表示方式直接约束。

这篇文章要解决的问题不是单纯提升 PSNR,而是把 Gaussian Splatting 从“外观友好的点/体表示”推向“几何友好的表面表示”。作者认为 3DGS 做表面重建时主要有三类问题:

  1. 3D Gaussian 的体积表示和薄表面不匹配,容易生成厚、噪声多或漂浮的表面。
  2. 3DGS 没有内生法向,后续从深度图融合网格时会缺少稳定的局部表面方向。
  3. 3DGS 的投影和取值在多视角下不一致,不同视角会使用不同的交平面来评价同一个 Gaussian,几何一致性会被破坏。

2DGS-1

因此 2DGS 的核心问题可以概括为:

能否把 Gaussian Splatting 的实时渲染和高质量外观保留下来,同时把基本 primitive 改成贴合表面的二维椭圆盘,使它天然拥有法向、深度和多视角一致的几何解释?

这个问题在三维重建里很重要。传统隐式表面方法如 NeuS、VolSDF 的几何质量较强,但训练和重建代价较高;3DGS 很快,但几何不干净。2DGS 试图站在两者之间:仍然使用显式 Gaussian primitive 和 rasterization 的效率,但让 primitive 从 3D blob 变成 2D oriented disk。

核心方法

2DGS 的方法可以拆成三个层次:第一,重新定义 primitive;第二,做透视准确的 ray-splat intersection;第三,用几何正则把优化从“只拟合颜色”拉回“拟合表面”。

2DGS-2

1. 用二维椭圆盘替代三维 Gaussian blob

每个 2D Gaussian 被嵌入在三维空间中,但它的密度只分布在一个局部切平面上。它由中心点 $p_k$、两个切向量 $t_u,t_v$、两个尺度 $s_u,s_v$ 定义,法向可以直接由切向量叉乘得到:

局部平面中的点 $u=(u,v)$ 可以映射到世界坐标:

其 Gaussian 值为:

这个设计的关键不是把 3DGS 少一个维度这么简单,而是把“表面”变成 primitive 的内生属性。法向不再是外加预测头或后处理结果,而是由 primitive 的切空间决定。这样,2DGS 在重建薄结构、法向图和网格时更符合任务目标。

2. 透视准确的 ray-splat intersection

如果只是把二维 Gaussian 投影到图像平面,常见的仿射近似只在 Gaussian 中心附近准确,远离中心时会产生透视误差;当 splat 从侧面观察时,还可能退化成线段,造成数值不稳定。2DGS 因此显式求解像素射线和 2D Gaussian 平面的交点。

设世界到屏幕的变换为 $W$,2D Gaussian 的局部到世界齐次变换为 $H$。屏幕像素对应的射线可以看作两个平面的交线,作者把这两个平面变换到 Gaussian 的局部坐标,再求交点 $u(x)$,然后在局部平面上计算 $G(u(x))$。直观上,这意味着每个像素不是在一个近似投影椭圆上取值,而是在真实的视线和表面盘片交点上取值。

这种改动解决的是 Fig.2 里的多视角不一致问题:3DGS 在不同观察方向下可能用不同截面评价同一个 blob,而 2DGS 的盘片是一个明确表面,射线交点更稳定。

2DGS-3

3. 深度扭曲正则和法向一致性正则

仅有二维 primitive 还不够。如果只用 RGB photometric loss,优化仍然可能把多个半透明 splat 分散在同一条射线上,只要颜色合成正确,几何可以很噪。因此论文加入两个正则项。

深度扭曲正则希望同一条射线上的贡献集中到一个窄深度范围,避免“颜色对了但表面很厚”。它最小化射线上 splat 交点之间的加权深度距离:

其中 $\omega_i$ 是第 $i$ 个交点的 alpha blending 权重,$z_i$ 是对应交点深度。与 Mip-NeRF 360 中对采样点做 distortion 不同,这里 $z_i$ 是由 splat 位置和方向决定的可优化交点,因此正则会直接推动 Gaussian 贴到更集中的表面上。

法向一致性正则则要求 splat 自身法向与由渲染深度图梯度估计的表面法向一致:

最终训练目标为:

其中 $L_c$ 是 RGB 重建损失,结合 L1 和 D-SSIM;论文设置 bounded scene 中 $\alpha=1000$,unbounded scene 中 $\alpha=100$,所有场景中 $\beta=0.05$。

2DGS-10

Fig.6 很直观地说明两个正则的作用:没有 normal consistency 时,法向方向会变得嘈杂;没有 depth distortion 时,表面会变厚、法向边界模糊;两个正则同时使用时,屋顶这类平面结构更锐利。这也说明 2DGS 的几何质量不是只来自“2D primitive”,而是表示方式和正则项共同作用。

数据集

论文主要评估三个方向:

  1. DTU:用于物体级几何重建。论文使用 15 个场景,每个场景 49 或 69 张图像,原始分辨率为 1600 x 1200,并为了效率下采样到 800 x 600。稀疏点云由 COLMAP 生成。
  2. Tanks and Temples:用于更复杂真实场景几何重建,指标是 F1 score。
  3. Mip-NeRF 360:用于无界真实场景的新视角合成比较。由于该数据集没有 GT geometry,论文主要报告 appearance 指标,包括 PSNR、SSIM 和 LPIPS。

此外,附录还在 Synthetic NeRF 数据集上补充了 PSNR 表格,用来说明 2DGS 在没有几何正则时也能保持可比的外观建模能力。但这不是论文主线,主线仍然是几何重建和可实时渲染的平衡。

算力

论文实现基于 3DGS 框架,并写了自定义 CUDA kernel,用于输出 depth distortion map、depth map 和 normal map。所有实验在单张 GTX RTX3090 GPU 上完成。

训练和重建效率是这篇文章的重要卖点。DTU 上,2DGS-15k 的平均 Chamfer distance 为 0.83,训练时间 5.5 分钟;2DGS-30k 的平均 Chamfer distance 为 0.80,训练时间 18.8 分钟。相比之下,NeRF、VolSDF、NeuS 等隐式方法在表格中均为 12 小时以上,3DGS 虽然只需 11.2 分钟,但平均 Chamfer distance 为 1.96,几何明显更差。

网格提取方面,作者从训练视角渲染 median depth map,再用 Open3D 的 TSDF fusion 融合深度图;TSDF voxel size 设置为 0.004,truncation threshold 为 0.02。

实验结果

2DGS-4

DTU 的结果是最能支撑论文核心论点的证据。Table 1 显示,2DGS-30k 在 15 个场景上的平均 Chamfer distance 为 0.80,优于 NeuS 的 0.84、VolSDF 的 0.86、SuGaR 的 1.33 和 3DGS 的 1.96。更重要的是,这不是通过牺牲效率得到的:2DGS-30k 只需要 18.8 分钟,而 SDF 类方法需要 12 小时以上。

2DGS-6

Table 3 把几何、外观、时间和模型大小放在一起看。2DGS-30k 的 Chamfer distance 最好,PSNR 为 34.52,低于 3DGS 的 35.76,但模型大小只有 52MB,显著小于 3DGS 的 113MB 和 SuGaR 的 1247MB。这个结果说明 2DGS 的定位不是“全面替代 3DGS 的外观最优解”,而是把几何质量、存储和重建速度放在更优平衡点上。

2DGS-7

Fig.5 的定性结果解释了数值背后的原因。3DGS 的网格容易有噪声和破碎面,SuGaR 的结果更平滑但细节被削弱,2DGS 在建筑边缘和玩偶表面上更接近干净表面。这与方法部分的设定一致:二维盘片给了明确表面方向,depth distortion 抑制了沿射线散开的厚表面。

2DGS-5

Tanks and Temples 上,2DGS 的平均 F1 为 0.30,优于 3DGS 的 0.09 和 SuGaR 的 0.19,但低于 Neuralangelo 的 0.50。这个结果很关键:2DGS 并没有宣称在所有几何指标上超过重型隐式方法,而是用明显更短的训练时间得到比显式 Gaussian baseline 更可靠的几何。对于需要快速重建、实时渲染、可交互预览的场景,这种 trade-off 比单纯追求最高 F1 更有实际意义。

2DGS-8

Mip-NeRF 360 的外观结果显示,2DGS 在 outdoor scene 上 PSNR 24.33、SSIM 0.709、LPIPS 0.284,接近 3DGS 和 Mip-NeRF360;indoor scene 上 PSNR 30.39,略低于 3DGS 的 30.99 和 Mip-NeRF360 的 31.72,但 LPIPS 0.182 接近最好结果。结合几何结果看,2DGS 的外观并没有崩掉,但其主要收益仍然是几何一致性。

2DGS-11

附录中的深度和法向可视化进一步说明 2DGS 的几何优势。Mip-NeRF360 的深度可以较平滑,但细节会丢失;3DGS 能表示细结构,但由深度点估计出的 normal 噪声明显;2DGS 的深度点和 normal 更一致,更适合后续 TSDF 融合。

2DGS-9

消融实验也比较直接。Table 5 中完整模型平均误差为 0.83;去掉 normal consistency 后恶化到 1.24;去掉 depth distortion 后为 0.88;用 expected depth 替代 median depth 为 0.94;用 Poisson 替代 TSDF 为 1.07。这说明最关键的部分是法向一致性,其次是深度集中和 mesh extraction 方案。换句话说,2DGS 的成功不是单个 trick,而是 primitive、正则、深度定义和网格融合的系统配合。

2DGS-12

Fig.9 中 15 个 DTU 场景的全量可视化强化了这个结论:2DGS 的表面普遍比 3DGS 更完整、更干净,漂浮噪声更少。它尤其适合表面清晰、视角覆盖较充分的物体重建。

2DGS-13

论文也明确给出失败模式。2DGS 假设表面是完全不透明的,并从多视角深度图中提取 mesh,因此半透明材质如玻璃会有困难;当前 densification 更偏向纹理丰富区域,而不是几何丰富区域,可能漏掉细小结构;正则项在提升几何的同时也可能牺牲局部外观或造成过平滑。Fig.12 中玻璃和高亮区域的孔洞,就是这些假设的直接后果。

优势与不足

优势

  1. 表示方式和任务目标一致。 2D Gaussian disk 比 3D Gaussian blob 更接近真实表面,天然拥有切平面和法向,因此更适合几何重建。

  2. 保持了 Gaussian Splatting 的效率。 论文没有回到昂贵的隐式 SDF 优化,而是在 rasterization 框架内加入 ray-splat intersection 和几何正则,训练时间仍然是分钟级。

  3. 实验支撑比较完整。 DTU、Tanks and Temples、Mip-NeRF 360 分别覆盖物体几何、真实场景几何和新视角合成,消融也说明了 normal consistency、depth distortion、median depth 和 TSDF 的必要性。

  4. 方法解释性强。 从 primitive 到损失函数都能直接对应到表面重建中的问题:多视角一致性、表面厚度、法向噪声、网格融合稳定性。

不足

  1. 外观指标不是全面最优。 在 Mip-NeRF 360 上,2DGS 的 PSNR/SSIM 通常接近但不稳定超过 3DGS 或 Mip-NeRF360。因此它更适合几何优先任务,而不是只追求照片级 NVS 分数的任务。

  2. 对表面假设较强。 方法默认不透明表面和可由多视角深度融合成 mesh 的场景。半透明、镜面、高亮、强反射区域会破坏这个假设。

  3. densification 仍继承了 3DGS 的部分偏差。 如果增密策略更关注纹理梯度而不是几何复杂度,细长结构或纹理少但几何复杂的区域仍可能不足。

  4. 正则存在 trade-off。 depth distortion 和 normal consistency 能提升几何,但过强时可能压制外观细节或造成过平滑。论文给出固定超参数,但不同场景是否需要自适应权重仍是开放问题。

记忆点

  1. 把 3D blob 压成 2D disk 是这篇文章的核心。 不是为了减少维度,而是为了让 Gaussian primitive 自带表面、切空间和法向。

  2. ray-splat intersection 是 2DGS 区别于简单投影 splat 的关键。 它让像素射线真正和表面盘片求交,缓解多视角下的取值不一致和透视误差。

  3. 颜色拟合不等于几何正确。 2DGS 用 depth distortion 把同一条射线上的贡献压到窄深度范围,用 normal consistency 让 splat 法向和深度梯度一致。

  4. 这篇文章的价值在 trade-off。 它没有在所有外观指标上碾压 3DGS,也没有在所有几何指标上超过 Neuralangelo,但它以分钟级训练速度提供了明显更干净的 Gaussian 几何。

  5. 可借鉴的设计模式:先让表示具备正确归纳偏置,再用正则补上优化约束。 对三维重建问题来说,这比只在 loss 上修补一个不合适的表示更稳。