2DGS: 2D Gaussian Splatting for Geometrically Accurate Radiance Fields

作者：Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao

单位：ShanghaiTech University, University of Tübingen, Tübingen AI Center

会议：SIGGRAPH 2024 Conference Papers

研究动机

2DGS-0

3D Gaussian Splatting 的吸引力在于它把新视角合成做到了高质量、快速训练和实时渲染，但它的几何表达并不天然适合表面重建。3DGS 的基本单元是三维体素状 Gaussian blob，它可以很好地拟合视图相关外观，却会在几何上产生一个矛盾：真实世界的许多物体表面是薄的二维流形，而 3D Gaussian 表示的是有体积的密度分布。颜色可以通过体渲染被拟合出来，但表面在哪里、法向是否一致、不同视角看到的交点是否稳定，并没有被表示方式直接约束。

这篇文章要解决的问题不是单纯提升 PSNR，而是把 Gaussian Splatting 从“外观友好的点/体表示”推向“几何友好的表面表示”。作者认为 3DGS 做表面重建时主要有三类问题：

3D Gaussian 的体积表示和薄表面不匹配，容易生成厚、噪声多或漂浮的表面。
3DGS 没有内生法向，后续从深度图融合网格时会缺少稳定的局部表面方向。
3DGS 的投影和取值在多视角下不一致，不同视角会使用不同的交平面来评价同一个 Gaussian，几何一致性会被破坏。

2DGS-1

因此 2DGS 的核心问题可以概括为：

能否把 Gaussian Splatting 的实时渲染和高质量外观保留下来，同时把基本 primitive 改成贴合表面的二维椭圆盘，使它天然拥有法向、深度和多视角一致的几何解释？

这个问题在三维重建里很重要。传统隐式表面方法如 NeuS、VolSDF 的几何质量较强，但训练和重建代价较高；3DGS 很快，但几何不干净。2DGS 试图站在两者之间：仍然使用显式 Gaussian primitive 和 rasterization 的效率，但让 primitive 从 3D blob 变成 2D oriented disk。

核心方法

2DGS 的方法可以拆成三个层次：第一，重新定义 primitive；第二，做透视准确的 ray-splat intersection；第三，用几何正则把优化从“只拟合颜色”拉回“拟合表面”。

2DGS-2

1. 用二维椭圆盘替代三维 Gaussian blob

每个 2D Gaussian 被嵌入在三维空间中，但它的密度只分布在一个局部切平面上。它由中心点 $p_k$、两个切向量 $t_u,t_v$、两个尺度 $s_u,s_v$ 定义，法向可以直接由切向量叉乘得到：

$t_n = t_u \times t_v$

局部平面中的点 $u=(u,v)$ 可以映射到世界坐标：

$P(u,v)=p_k+s_ut_u u+s_vt_v v$

其 Gaussian 值为：

$G(u)=\exp\left(-\frac{u^2+v^2}{2}\right)$

这个设计的关键不是把 3DGS 少一个维度这么简单，而是把“表面”变成 primitive 的内生属性。法向不再是外加预测头或后处理结果，而是由 primitive 的切空间决定。这样，2DGS 在重建薄结构、法向图和网格时更符合任务目标。

2. 透视准确的 ray-splat intersection

如果只是把二维 Gaussian 投影到图像平面，常见的仿射近似只在 Gaussian 中心附近准确，远离中心时会产生透视误差；当 splat 从侧面观察时，还可能退化成线段，造成数值不稳定。2DGS 因此显式求解像素射线和 2D Gaussian 平面的交点。

设世界到屏幕的变换为 $W$，2D Gaussian 的局部到世界齐次变换为 $H$。屏幕像素对应的射线可以看作两个平面的交线，作者把这两个平面变换到 Gaussian 的局部坐标，再求交点 $u(x)$，然后在局部平面上计算 $G(u(x))$。直观上，这意味着每个像素不是在一个近似投影椭圆上取值，而是在真实的视线和表面盘片交点上取值。

这种改动解决的是 Fig.2 里的多视角不一致问题：3DGS 在不同观察方向下可能用不同截面评价同一个 blob，而 2DGS 的盘片是一个明确表面，射线交点更稳定。

2DGS-3

3. 深度扭曲正则和法向一致性正则

仅有二维 primitive 还不够。如果只用 RGB photometric loss，优化仍然可能把多个半透明 splat 分散在同一条射线上，只要颜色合成正确，几何可以很噪。因此论文加入两个正则项。

深度扭曲正则希望同一条射线上的贡献集中到一个窄深度范围，避免“颜色对了但表面很厚”。它最小化射线上 splat 交点之间的加权深度距离：

$L_d=\sum_{i,j}\omega_i\omega_j|z_i-z_j|$

其中 $\omega_i$ 是第 $i$ 个交点的 alpha blending 权重，$z_i$ 是对应交点深度。与 Mip-NeRF 360 中对采样点做 distortion 不同，这里 $z_i$ 是由 splat 位置和方向决定的可优化交点，因此正则会直接推动 Gaussian 贴到更集中的表面上。

法向一致性正则则要求 splat 自身法向与由渲染深度图梯度估计的表面法向一致：

$L_n=\sum_i\omega_i(1-n_i^\top N)$

最终训练目标为：

$L=L_c+\alpha L_d+\beta L_n$

其中 $L_c$ 是 RGB 重建损失，结合 L1 和 D-SSIM；论文设置 bounded scene 中 $\alpha=1000$，unbounded scene 中 $\alpha=100$，所有场景中 $\beta=0.05$。

2DGS-10

Fig.6 很直观地说明两个正则的作用：没有 normal consistency 时，法向方向会变得嘈杂；没有 depth distortion 时，表面会变厚、法向边界模糊；两个正则同时使用时，屋顶这类平面结构更锐利。这也说明 2DGS 的几何质量不是只来自“2D primitive”，而是表示方式和正则项共同作用。

数据集

论文主要评估三个方向：

DTU：用于物体级几何重建。论文使用 15 个场景，每个场景 49 或 69 张图像，原始分辨率为 1600 x 1200，并为了效率下采样到 800 x 600。稀疏点云由 COLMAP 生成。
Tanks and Temples：用于更复杂真实场景几何重建，指标是 F1 score。
Mip-NeRF 360：用于无界真实场景的新视角合成比较。由于该数据集没有 GT geometry，论文主要报告 appearance 指标，包括 PSNR、SSIM 和 LPIPS。

此外，附录还在 Synthetic NeRF 数据集上补充了 PSNR 表格，用来说明 2DGS 在没有几何正则时也能保持可比的外观建模能力。但这不是论文主线，主线仍然是几何重建和可实时渲染的平衡。

算力

论文实现基于 3DGS 框架，并写了自定义 CUDA kernel，用于输出 depth distortion map、depth map 和 normal map。所有实验在单张 GTX RTX3090 GPU 上完成。

训练和重建效率是这篇文章的重要卖点。DTU 上，2DGS-15k 的平均 Chamfer distance 为 0.83，训练时间 5.5 分钟；2DGS-30k 的平均 Chamfer distance 为 0.80，训练时间 18.8 分钟。相比之下，NeRF、VolSDF、NeuS 等隐式方法在表格中均为 12 小时以上，3DGS 虽然只需 11.2 分钟，但平均 Chamfer distance 为 1.96，几何明显更差。

网格提取方面，作者从训练视角渲染 median depth map，再用 Open3D 的 TSDF fusion 融合深度图；TSDF voxel size 设置为 0.004，truncation threshold 为 0.02。

实验结果

2DGS-4

DTU 的结果是最能支撑论文核心论点的证据。Table 1 显示，2DGS-30k 在 15 个场景上的平均 Chamfer distance 为 0.80，优于 NeuS 的 0.84、VolSDF 的 0.86、SuGaR 的 1.33 和 3DGS 的 1.96。更重要的是，这不是通过牺牲效率得到的：2DGS-30k 只需要 18.8 分钟，而 SDF 类方法需要 12 小时以上。

2DGS-6

Table 3 把几何、外观、时间和模型大小放在一起看。2DGS-30k 的 Chamfer distance 最好，PSNR 为 34.52，低于 3DGS 的 35.76，但模型大小只有 52MB，显著小于 3DGS 的 113MB 和 SuGaR 的 1247MB。这个结果说明 2DGS 的定位不是“全面替代 3DGS 的外观最优解”，而是把几何质量、存储和重建速度放在更优平衡点上。

2DGS-7

Fig.5 的定性结果解释了数值背后的原因。3DGS 的网格容易有噪声和破碎面，SuGaR 的结果更平滑但细节被削弱，2DGS 在建筑边缘和玩偶表面上更接近干净表面。这与方法部分的设定一致：二维盘片给了明确表面方向，depth distortion 抑制了沿射线散开的厚表面。

2DGS-5

Tanks and Temples 上，2DGS 的平均 F1 为 0.30，优于 3DGS 的 0.09 和 SuGaR 的 0.19，但低于 Neuralangelo 的 0.50。这个结果很关键：2DGS 并没有宣称在所有几何指标上超过重型隐式方法，而是用明显更短的训练时间得到比显式 Gaussian baseline 更可靠的几何。对于需要快速重建、实时渲染、可交互预览的场景，这种 trade-off 比单纯追求最高 F1 更有实际意义。

2DGS-8

Mip-NeRF 360 的外观结果显示，2DGS 在 outdoor scene 上 PSNR 24.33、SSIM 0.709、LPIPS 0.284，接近 3DGS 和 Mip-NeRF360；indoor scene 上 PSNR 30.39，略低于 3DGS 的 30.99 和 Mip-NeRF360 的 31.72，但 LPIPS 0.182 接近最好结果。结合几何结果看，2DGS 的外观并没有崩掉，但其主要收益仍然是几何一致性。

2DGS-11

附录中的深度和法向可视化进一步说明 2DGS 的几何优势。Mip-NeRF360 的深度可以较平滑，但细节会丢失；3DGS 能表示细结构，但由深度点估计出的 normal 噪声明显；2DGS 的深度点和 normal 更一致，更适合后续 TSDF 融合。

2DGS-9

消融实验也比较直接。Table 5 中完整模型平均误差为 0.83；去掉 normal consistency 后恶化到 1.24；去掉 depth distortion 后为 0.88；用 expected depth 替代 median depth 为 0.94；用 Poisson 替代 TSDF 为 1.07。这说明最关键的部分是法向一致性，其次是深度集中和 mesh extraction 方案。换句话说，2DGS 的成功不是单个 trick，而是 primitive、正则、深度定义和网格融合的系统配合。

2DGS-12

Fig.9 中 15 个 DTU 场景的全量可视化强化了这个结论：2DGS 的表面普遍比 3DGS 更完整、更干净，漂浮噪声更少。它尤其适合表面清晰、视角覆盖较充分的物体重建。

2DGS-13

论文也明确给出失败模式。2DGS 假设表面是完全不透明的，并从多视角深度图中提取 mesh，因此半透明材质如玻璃会有困难；当前 densification 更偏向纹理丰富区域，而不是几何丰富区域，可能漏掉细小结构；正则项在提升几何的同时也可能牺牲局部外观或造成过平滑。Fig.12 中玻璃和高亮区域的孔洞，就是这些假设的直接后果。

优势与不足

优势

表示方式和任务目标一致。 2D Gaussian disk 比 3D Gaussian blob 更接近真实表面，天然拥有切平面和法向，因此更适合几何重建。
保持了 Gaussian Splatting 的效率。 论文没有回到昂贵的隐式 SDF 优化，而是在 rasterization 框架内加入 ray-splat intersection 和几何正则，训练时间仍然是分钟级。
实验支撑比较完整。 DTU、Tanks and Temples、Mip-NeRF 360 分别覆盖物体几何、真实场景几何和新视角合成，消融也说明了 normal consistency、depth distortion、median depth 和 TSDF 的必要性。
方法解释性强。 从 primitive 到损失函数都能直接对应到表面重建中的问题：多视角一致性、表面厚度、法向噪声、网格融合稳定性。

不足

外观指标不是全面最优。 在 Mip-NeRF 360 上，2DGS 的 PSNR/SSIM 通常接近但不稳定超过 3DGS 或 Mip-NeRF360。因此它更适合几何优先任务，而不是只追求照片级 NVS 分数的任务。
对表面假设较强。 方法默认不透明表面和可由多视角深度融合成 mesh 的场景。半透明、镜面、高亮、强反射区域会破坏这个假设。
densification 仍继承了 3DGS 的部分偏差。 如果增密策略更关注纹理梯度而不是几何复杂度，细长结构或纹理少但几何复杂的区域仍可能不足。
正则存在 trade-off。 depth distortion 和 normal consistency 能提升几何，但过强时可能压制外观细节或造成过平滑。论文给出固定超参数，但不同场景是否需要自适应权重仍是开放问题。

记忆点

把 3D blob 压成 2D disk 是这篇文章的核心。 不是为了减少维度，而是为了让 Gaussian primitive 自带表面、切空间和法向。
ray-splat intersection 是 2DGS 区别于简单投影 splat 的关键。 它让像素射线真正和表面盘片求交，缓解多视角下的取值不一致和透视误差。
颜色拟合不等于几何正确。 2DGS 用 depth distortion 把同一条射线上的贡献压到窄深度范围，用 normal consistency 让 splat 法向和深度梯度一致。
这篇文章的价值在 trade-off。 它没有在所有外观指标上碾压 3DGS，也没有在所有几何指标上超过 Neuralangelo，但它以分钟级训练速度提供了明显更干净的 Gaussian 几何。
可借鉴的设计模式：先让表示具备正确归纳偏置，再用正则补上优化约束。 对三维重建问题来说，这比只在 loss 上修补一个不合适的表示更稳。