GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

发表于2026-04-02|更新于2026-04-15|生成模型

|总字数:669|阅读时长:2分钟|浏览量:

作者：Nicolas von Lützow, Barbara Rössle, Katharina Schmid, and Matthias Nießner

单位：Technical University of Munich

会议：2026 Arxiv

链接：https://arxiv.org/pdf/2603.26661v1

研究动机

1.三维场景的生成是一个逐渐拓展的过程，因此需要将三维空间视为结构化的序列，逐步重建

2.当前的三维生成方法虽然质量高，但是全局生成，无法进行补全、拓展、编辑。

核心方法

gaussiangpt-1

1.基于稀疏三维潜在编码的场景压缩

将高斯元投影为三维特征网格：根据三维高斯元的位置分配到对应的体素网格中，并用他们相对体素中心的偏移量代替绝对位置。若体素中包含多个高斯元，则进行采样。然后用一个轻量化的编码器编码为高斯特征

使用稀疏三维卷积自编码器编码网格：采用编码器将网格编码为紧凑的潜在表示，解码器则重建出体素级的特征

通过向量量化离散化潜在表示：编码器的输入根据符号离散化为0和1并对应codebook的索引

$\mathcal{L} = \underbrace{\lambda_{\text{RGB}} \mathcal{L}_{\text{RGB}} + \lambda_{\text{perc}} \mathcal{L}_{\text{perc}}}_{\text{re-rendering}} + \underbrace{\lambda_{\text{occ}} \mathcal{L}_{\text{occ}}}_{\text{occupancy}} + \underbrace{\lambda_{\text{LFQ}} \cdot \text{softplus}(\mathcal{L}_{\text{LFQ}} + 5)}_{\text{codebook entropy}}.$

2.三维潜在网格的自回归建模

依据（x，y）位置进行遍历，虽然无法保留三维空间的局部性，但是排序简单且可解释。然后将位置token和feature token进行交错排列，为了限制序列长度，在chunks上进行处理。

为位置token与特征token设置了不同的词汇表，位置预测Head预测下一个被占用的体素索引，特征预测Head预测前一个位置的特征，位置与特征分离，互不干扰

采用3D RoPE进行位置编码，并添加第四个维度，来表示位置token以及特征token的不同类型

采用GPT-2架构，使用Muon优化器

数据集

Aria Synthetic Environments (ASE)，3D-FRONT，PhotoShape

算力

4张A6000，4张H200

实验结果

gaussiangpt-2

gaussiangpt-3

gaussiangpt-4

gaussiangpt-5

gaussiangpt-6

gaussiangpt-7

优势与不足

优势

1.利用自回归的建模方式，实现了渐进式的三维场景生成建模，能够应用于生成，场景补全，外扩等多个任务

2.位置特征分离建模

3.可控生成过程

不足

1.生成效率低

2.受编解码压缩性能限制

3.长序列建模可能会存在不一致问题

记忆点

1.位置、特征token分离建模预测

3D高斯生成模型自回归场景合成

赞助

微信
支付宝

相关推荐

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

作者：Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang 单位：Tsinghua University, USTC, Microsoft Research 会议：CVPR 2025 Highlight 链接：https://arxiv.org/abs/2412.01506, https://microsoft.github.io/TRELLIS/, https://github.com/Microsoft/TRELLIS 研究动机3D 资产生成一直卡在一个很难受的表示选择上：mesh、SDF、occupancy 等几何表示更容易得到可编辑、可导出的形状，但纹理和外观细节往往不够强；Radiance Fields 和 3D Gaussian 这类可微渲染表示外观质量高，却不一定能稳定抽取出干净几何。另一方面，很多 2D-assisted 方法先生成多视角图像再重建 3D，借到了 2D...

TRELLIS2: Native and Compact Structured Latents for 3D Generation

作者： Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang 单位： Tsinghua University, Microsoft Research, USTC, Microsoft AI 会议： 2025 Arxiv 链接： arXiv / Project / Code TRELLIS.2 这篇文章的核心问题很直接：如果 3D 生成模型想同时拥有高分辨率几何、复杂拓扑、内部结构、开表面，以及真实 PBR 材质，latent 表示本身就不能再只是“把某个网格或连续场压一下”。作者提出 O-Voxel 作为原生 3D 资产表示，再用 SC-VAE 把 1024³ 级别资产压到约 9.6K 个 latent tokens，最后训练总规模约 4B 参数的 flow matching 生成模型，把 image-to-3D、PBR 纹理和高分辨率...

DIFFERENTIABLE 3D GAUSSIAN SPLATTING

3D高斯的优势：非结构化、可微、利用快速α混合进行渲染、无需法线世界坐标系下，高斯由三维协方差矩阵和点（均值）μ表示： G ( x ) \,=e^{-\frac{1} {2} ( x )^{T} \Sigma^{-1} ( x )} \tag{4}给定视角变换矩阵W，相机坐标系下的协方差矩阵为： \Sigma^{\prime}=J W \Sigma W^{T} J^{T} \tag{5}其中J是投影变换的仿射近似雅可比矩阵协方差矩阵只有在半正定的时候才具有物理意义，而如果直接对协方差矩阵使用梯度下降优化，很难保证矩阵的合理性。由于协方差矩阵是用来描述椭球的形状，因此可以用缩放矩阵S和旋转矩阵R来获得一个对应的协方差矩阵： \Sigma=R S S^{T} R^{T}\tag{6}OPTIMIZATION WITH ADAPTIVE DENSITY CONTROL OF 3D GAUSSIANSOptimization优化的参数：位置p，α，协方差矩阵，球谐函数系数 \mathcal{L}=( 1-\lambda)...

Mip-Splatting: Alias-free 3D Gaussian Splatting

3DGS在改变采样率或者改变焦距和相机距离时，会存在严重的膨胀效应和高频伪影采样理论（奈奎斯特-香农采样理论）对连续信号的采样频率至少是最大频率的两倍，所以在采样之前要对信号施加滤波。 3DGS中的Dilation操作为了防止投影的2DGS小于一个像素，所以投影的2DGS进行了膨胀操作： {\mathcal G}_{k}^{2 D} ( \mathbf x )=e^{-{\frac{1} {2}} ( \mathbf x-\mathbf p_{k} )^{T}} ( \mathbf\Sigma_{k}^{2 D}+s \, \mathbf I )^{-1} \, ( \mathbf x-\mathbf p_{k} ) \tag{5}Sensitivity to Sampling Rate 对于Zoom-out，原本的object在像素中的占比缩小了，所以为了要膨胀到一个像素的大小，施加的二维膨胀相较于原来更大对于Zoom-out，原本的object在像素中的占比变大，所以膨胀到一个像素大小所需的二维膨胀就更小 it leads to erosion effects...

Real2Sim: A Physics-driven and Editable Gaussian Splatting Framework for Autonomous Driving Scenes

作者：Kaicong Huang, Talha Azfar, Weisong Shi, Ruimin Ke 单位：Rensselaer Polytechnic Institute; University of Delaware 会议：2026 Arxiv 链接：https://arxiv.org/abs/2605.13591 研究动机自动驾驶系统最缺的不是普通路况，而是可控、可复现、带标签、并且覆盖长尾风险的训练数据。真实道路采集昂贵，碰撞、失控、遮挡、异常交互等 corner cases 又很难大量采到；传统仿真平台虽然可编辑，但视觉域和真实世界存在明显 sim-to-real gap；纯生成模型可以生成高保真图像或视频，却常常缺少跨视角、跨时间的一致性，更难保证车辆碰撞、落地、反弹这类行为满足物理约束。 Real2Sim 想解决的正是这个夹缝问题：能否从真实自动驾驶序列出发，把场景重建成既高保真、又可编辑、还能接入物理模拟的 3D/4D...

RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering

作者：Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu 单位：Australian National University; NVIDIA 会议：2026 Arxiv 链接：https://arxiv.org/abs/2605.13093 研究动机 Generalizable 3D Gaussian Splatting 的目标是跳过 per-scene optimization，用少量输入视角直接前馈预测一组 pixel-wise Gaussians，然后完成 novel view synthesis。PixelSplat、MVSplat、DepthSplat、TranSplat 等方法已经证明了这条路线的效率和泛化潜力。但这篇论文指出，现有 pixel-wise feed-forward GS 有两个很实际的问题。输入视角数变化会导致过亮。很多模型训练时只用固定数量的输入视角，例如 RealEstate10K 上常用 2 views；测试时如果给 4/8/16 views，同一 3D...

评论