GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

发表于2026-04-02|更新于2026-04-15|生成模型

|总字数:669|阅读时长:2分钟|浏览量:

作者：Nicolas von Lützow, Barbara Rössle, Katharina Schmid, and Matthias Nießner

单位：Technical University of Munich

会议：2026 Arxiv

链接：https://arxiv.org/pdf/2603.26661v1

研究动机

1.三维场景的生成是一个逐渐拓展的过程，因此需要将三维空间视为结构化的序列，逐步重建

2.当前的三维生成方法虽然质量高，但是全局生成，无法进行补全、拓展、编辑。

核心方法

gaussiangpt-1

1.基于稀疏三维潜在编码的场景压缩

将高斯元投影为三维特征网格：根据三维高斯元的位置分配到对应的体素网格中，并用他们相对体素中心的偏移量代替绝对位置。若体素中包含多个高斯元，则进行采样。然后用一个轻量化的编码器编码为高斯特征

使用稀疏三维卷积自编码器编码网格：采用编码器将网格编码为紧凑的潜在表示，解码器则重建出体素级的特征

通过向量量化离散化潜在表示：编码器的输入根据符号离散化为0和1并对应codebook的索引

$\mathcal{L} = \underbrace{\lambda_{\text{RGB}} \mathcal{L}_{\text{RGB}} + \lambda_{\text{perc}} \mathcal{L}_{\text{perc}}}_{\text{re-rendering}} + \underbrace{\lambda_{\text{occ}} \mathcal{L}_{\text{occ}}}_{\text{occupancy}} + \underbrace{\lambda_{\text{LFQ}} \cdot \text{softplus}(\mathcal{L}_{\text{LFQ}} + 5)}_{\text{codebook entropy}}.$

2.三维潜在网格的自回归建模

依据（x，y）位置进行遍历，虽然无法保留三维空间的局部性，但是排序简单且可解释。然后将位置token和feature token进行交错排列，为了限制序列长度，在chunks上进行处理。

为位置token与特征token设置了不同的词汇表，位置预测Head预测下一个被占用的体素索引，特征预测Head预测前一个位置的特征，位置与特征分离，互不干扰

采用3D RoPE进行位置编码，并添加第四个维度，来表示位置token以及特征token的不同类型

采用GPT-2架构，使用Muon优化器

数据集

Aria Synthetic Environments (ASE)，3D-FRONT，PhotoShape

算力

4张A6000，4张H200

实验结果

gaussiangpt-2

gaussiangpt-3

gaussiangpt-4

gaussiangpt-5

gaussiangpt-6

gaussiangpt-7

优势与不足

优势

1.利用自回归的建模方式，实现了渐进式的三维场景生成建模，能够应用于生成，场景补全，外扩等多个任务

2.位置特征分离建模

3.可控生成过程

不足

1.生成效率低

2.受编解码压缩性能限制

3.长序列建模可能会存在不一致问题

记忆点

1.位置、特征token分离建模预测

3D高斯生成模型自回归场景合成

赞助

微信
支付宝

相关推荐

TRELLIS2: Native and Compact Structured Latents for 3D Generation

作者： Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang 单位： Tsinghua University, Microsoft Research, USTC, Microsoft AI 会议： 2025 Arxiv 链接： arXiv / Project / Code TRELLIS.2 这篇文章的核心问题很直接：如果 3D 生成模型想同时拥有高分辨率几何、复杂拓扑、内部结构、开表面，以及真实 PBR 材质，latent 表示本身就不能再只是“把某个网格或连续场压一下”。作者提出 O-Voxel 作为原生 3D 资产表示，再用 SC-VAE 把 1024³ 级别资产压到约 9.6K 个 latent tokens，最后训练总规模约 4B 参数的 flow matching 生成模型，把 image-to-3D、PBR 纹理和高分辨率...

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation

作者：Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang 单位：Tsinghua University, USTC, Microsoft Research 会议：CVPR 2025 Highlight 链接：https://arxiv.org/abs/2412.01506, https://microsoft.github.io/TRELLIS/, https://github.com/Microsoft/TRELLIS 研究动机3D 资产生成一直卡在一个很难受的表示选择上：mesh、SDF、occupancy 等几何表示更容易得到可编辑、可导出的形状，但纹理和外观细节往往不够强；Radiance Fields 和 3D Gaussian 这类可微渲染表示外观质量高，却不一定能稳定抽取出干净几何。另一方面，很多 2D-assisted 方法先生成多视角图像再重建 3D，借到了 2D...

ARDepth: Auto-regressive Monocular Depth Estimation with Progressive Visual Conditioning

作者：Zijie Wang, Wei Zhang, Weiming Zhang, Xiao Tan, Weikai Chen, Xiaoxu Li, Guanbin Li 单位：Sun Yat-sen University, Shenzhen Loop Area Institute, Baidu Inc., LightSpeed Studios (Tencent America), Lanzhou University of Technology 会议：2026 Arxiv（Under review）链接：https://arxiv.org/abs/2607.12433 文中图表均引自原论文；该 arXiv 版本标注为 CC BY 4.0。研究动机当前零样本单目深度估计常借助扩散模型：把深度视为一张全局连续的场，经由多轮去噪逐步恢复。但真实几何并不总是平滑的——遮挡边界、细杆、表面相交处恰恰是离散且有层级的高频结构。作者认为，统一的全局去噪并没有显式表达“先有整体布局、再有表面与边界”的构造过程。另一条路是视觉自回归（AR），但把完整深度图拉平成单一长序列的 Flat...

2DGS: 2D Gaussian Splatting for Geometrically Accurate Radiance Fields

作者：Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao 单位：ShanghaiTech University, University of Tübingen, Tübingen AI Center 会议：SIGGRAPH 2024 Conference Papers 链接：arXiv, Project, Code 研究动机 3D Gaussian Splatting 的吸引力在于它把新视角合成做到了高质量、快速训练和实时渲染，但它的几何表达并不天然适合表面重建。3DGS 的基本单元是三维体素状 Gaussian blob，它可以很好地拟合视图相关外观，却会在几何上产生一个矛盾：真实世界的许多物体表面是薄的二维流形，而 3D Gaussian 表示的是有体积的密度分布。颜色可以通过体渲染被拟合出来，但表面在哪里、法向是否一致、不同视角看到的交点是否稳定，并没有被表示方式直接约束。这篇文章要解决的问题不是单纯提升 PSNR，而是把 Gaussian Splatting...

DIFFERENTIABLE 3D GAUSSIAN SPLATTING

3D高斯的优势：非结构化、可微、利用快速α混合进行渲染、无需法线世界坐标系下，高斯由三维协方差矩阵和点（均值）μ表示： G ( x ) \,=e^{-\frac{1} {2} ( x )^{T} \Sigma^{-1} ( x )} \tag{4}给定视角变换矩阵W，相机坐标系下的协方差矩阵为： \Sigma^{\prime}=J W \Sigma W^{T} J^{T} \tag{5}其中J是投影变换的仿射近似雅可比矩阵协方差矩阵只有在半正定的时候才具有物理意义，而如果直接对协方差矩阵使用梯度下降优化，很难保证矩阵的合理性。由于协方差矩阵是用来描述椭球的形状，因此可以用缩放矩阵S和旋转矩阵R来获得一个对应的协方差矩阵： \Sigma=R S S^{T} R^{T}\tag{6}OPTIMIZATION WITH ADAPTIVE DENSITY CONTROL OF 3D GAUSSIANSOptimization优化的参数：位置p，α，协方差矩阵，球谐函数系数 \mathcal{L}=( 1-\lambda)...

Mip-Splatting: Alias-free 3D Gaussian Splatting

3DGS在改变采样率或者改变焦距和相机距离时，会存在严重的膨胀效应和高频伪影采样理论（奈奎斯特-香农采样理论）对连续信号的采样频率至少是最大频率的两倍，所以在采样之前要对信号施加滤波。 3DGS中的Dilation操作为了防止投影的2DGS小于一个像素，所以投影的2DGS进行了膨胀操作： {\mathcal G}_{k}^{2 D} ( \mathbf x )=e^{-{\frac{1} {2}} ( \mathbf x-\mathbf p_{k} )^{T}} ( \mathbf\Sigma_{k}^{2 D}+s \, \mathbf I )^{-1} \, ( \mathbf x-\mathbf p_{k} ) \tag{5}Sensitivity to Sampling Rate 对于Zoom-out，原本的object在像素中的占比缩小了，所以为了要膨胀到一个像素的大小，施加的二维膨胀相较于原来更大对于Zoom-out，原本的object在像素中的占比变大，所以膨胀到一个像素大小所需的二维膨胀就更小 it leads to erosion effects...

评论