GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

作者：Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen

单位：University of Science and Technology of China, Zhongguancun Academy, CASIA, Eastern Institute of Technology, Zhejiang University, Beihang University

会议：2026 Arxiv

链接：https://arxiv.org/abs/2605.12957

研究动机

在单张图像生成具有三维一致性的新视角序列（Image-to-3D World Generation）任务中，如何克服大幅度摄像机移动带来的几何畸变与外观漂移是生成式三维领域的硬骨头。现有的主流模型（例如基于 Video Diffusion 的工作）通常采取联合预测（Simultaneous Prediction）的策略，试图通过单一网络端到端地拟合高维时空分布，同时生成几何（通常是隐式的深度或 3D 表示）和 RGB 外观。

然而，联合建模往往会面临严重的“几何坍塌”与“多视角外观闪烁”。作者指出，这种失败的核心根源在于：几何结构（Geometry）与表面外观（Appearance）在优化过程中存在着巨大的“学习难度差距”与“相互拉扯”。

学习难度差距（Learning Disparity）：RGB 外观由高频细节构成，且视频扩散模型预训练权重本身对颜色和纹理有极强的拟合倾向；而三维几何是低频、高度结构化的隐式表征。在联合训练中，网络往往会优先拟合强外观信号，导致几何表征退化或失去约束。
相互拉扯与冲突（Optimization Conflict）：在没有明确三维几何刚性约束的前提下，当摄像机大范围旋转或平移时，注意力机制在潜在空间（Latent Space）中强行“幻想”出的多视角纹理必然会出现空间上的物理不一致，引起严重的墙面扭曲、物体拉伸和透视错误。

为了解决这一本质缺陷，作者回归了人类视觉认知“由粗到细”（Coarse-to-fine）的常识，提出了一种优雅的 Geometry-Then-Appearance (GTA) 两阶段解耦生成范式。通过显式地将生成过程拆分为“预测空间几何脚手架（结构生成）”与“在几何约束下进行高频纹理合成（外观生成）”，彻底消除了跨模态干扰。

GTA-0

(Fig. 1) GTA 与传统单阶段联合生成范式（如 Voyager 等）的直观对比。联合生成在大视角变换下会产生严重的几何坍塌与纹理扭曲，而 GTA 则表现出极高的空间刚性与三维一致性。

核心方法

GTA 构建在先进的开源视频生成模型（CogVideo-X-5B）基座之上，将图像转三维世界任务定义为生成具有强一致性的多视角序列（即“结构化相机轨迹视频”）。它由两个级联的扩散模型构成：负责几何重构的 Diffusion Model-G 和负责纹理上色的 Diffusion Model-A。

GTA-1

(Fig. 2) GTA 架构全景。从单张参考图出发，通过单目估计提升、3D 点云投影、几何扩散补全（Model-G）以及几何投影残差融合指导下的外观扩散（Model-A）级联，实现高质量的三维世界生成。

1. 基于重投影的几何生成 (Geometry Video Diffusion)

第一阶段的核心是预测出视角连续、空间一致的 深度视频（Depth Video） 作为宏观三维脚手架。整个过程可以描述为：

首先，对输入的单张参考图 $I_0 \in \mathbb{R}^{H \times W \times 3}$，利用单目深度估计模型（如 Depth Anything V2）预测其参考视角的初始深度图 $D_0 \in \mathbb{R}^{H \times W \times 1}$。
通过透视反投影，将 $D_0$ 中的二维像素点提升至三维相机空间，得到三维点云 $P$：

$P = \{ P_i \in \mathbb{R}^3 \mid P_i = D_0(ui) K^{-1}\tilde{u}_i \}$

其中 $ui \in \mathbb{R}^2$ 是图像像素坐标，$\tilde{u}_i$ 是其齐次坐标表示，$K$ 是相机内参矩阵。

接着，根据目标相机轨迹 $\{v_t\}_{t=1}^T$ 将三维点云 $P$ 投影回各个目标视角下的二维成像平面。由于遮挡和视角限制，这些重投影得到的深度序列 $\{\hat{I}_t\}_{t=1}^T$ 会存在大量的视差“空洞”（无观测区域），属于不完整的偏观测序列。

为了完成几何补全，我们将不完整的重投影深度序列 $\{\hat{I}_t\}_{t=1}^T$ 输送给共享的视频 VAE 编码器 $\mathcal{E}$ 提取几何潜在特征 $z_{\text{rgb}}$；同时，将参考视角完整深度 $D_0$ 编码为核心条件特征 $z_{D_0}$。二者在通道维度进行拼接，作为 Diffusion Model-G（$\Phi_g$）的输入，通过潜空间逆向去噪完成深度图在遮挡盲区的物理幻想与全局平滑：

$\{G_t\}_{t=1}^T = \mathcal{D}(\Phi_g(z_{\text{rgb}} \oplus z_{D_0}))$

其中 $\mathcal{D}$ 为 VAE 解码器，$\{G_t\}_{t=1}^T$ 即为生成的完整三维深度视频序列。

2. 结构约束下的外观生成 (Appearance Video Diffusion)

在获得 $\{G_t\}_{t=1}^T$ 后，外观生成任务即转化为“基于已确定几何骨架的纹理绘制”。为了将几何脚手架硬性注入 Diffusion Model-A（$\Phi_a$），保证外观像素紧贴三维边界，作者设计了几何投影残差融合（Geometry-Guided Injection）机制。

首先通过 VAE 将预测的深度视频序列 $\{G_t\}_{t=1}^T$ 编码为 $z_{\text{geo}}$。在外观模型的潜在空间中，我们将初始的局部偏观测 RGB latents $z_{\text{rgb}}$ 与 $z_{\text{geo}}$ 相加，通过轻量级通道投影模块 $\Pi$，并与原始的 $z_{\text{geo}}$ 进行残差连接，融合成联合调制条件 $h_a$：

$h_a = \Pi(z_{\text{rgb}} + z_{\text{geo}}) + z_{\text{geo}}$ $\{A_t\}_{t=1}^T = \mathcal{D}(\Phi_a(h_a))$

这种设计强制将扩散去噪模型的每一层注意力特征偏置向三维空间结构，从而利用已生成的刚性几何去约束多视角外观，避免了传统的“无规则三维纹理漂移”。

3. 随机潜在洗牌策略 (Random Latent Shuffle)

目前绝大多数开源视频扩散基座（如 SVD、CogVideo）在预训练中学习到了强烈的时间自回归偏置（Temporal Auto-regressive Bias），它们本能地假设视频帧代表了时间轴上的平滑运动，这导致网络在多视角图像合成中倾向于输出渐进过渡的外观，表现为“高频细节漂移，黑夜逐渐褪色为灰白”（见下文消融）。

为了打破这种错误的顺序依赖，作者提出了极其巧妙的 Random Latent Shuffle (RLS) 训练正则化策略。在训练期间，以概率 $p$ 对输入序列的所有 Latent 进行随机时间维洗牌（打乱顺序）：

$\tilde{z} = \pi(z) , \quad \pi \sim \begin{cases} U(S_T), & \text{以概率 } p \\ \text{Id}, & \text{以概率 } 1 - p \end{cases}$

其中 $S_T$ 是包含 $T$ 个元素的对称群（所有可能的置换组合）。

GTA-2

(Fig. 3) Random Latent Shuffle 流程。在不破坏像素级跨视角对应关系的前提下，打乱时间维度顺序，强迫网络丢弃绝对时序位置偏差，专注于学习真实的空间多视角对应规律。该策略仅在训练中生效，推理时恢复原序。

4. 测试时缩放与渐进式 Inpainting (Test-time Scaling & Progressive Inpainting)

在大视角 novel view 推理时，单次单向（Single-pass）推理容易出现远处或大视角盲区的崩塌。作者对此提出了两个关键洞察（Fig. 4）：

可靠性分布规律：距离输入视角较近的新视角，其生成质量极高；距离越远，缺少视觉参考约束，质量衰减明显。
区域类型区分：投影后的局部渲染包含了需要提升和去噪的“已观测区域（Areas to be restored）”以及完全无信号的“未观测盲区（Areas to be inpainted）”。

GTA-3
GTA-4

(Fig. 4 & 5) 单次推理的盲区局限性，以及基于以上洞察设计的渐进式 Test-time Scaling 迭代优化框架。

据此，作者设计了无需重训的 Test-time Scaling (TTS) 自回归滚动机制（Alg. 1）：

首先执行一次初始的 Single-pass 推理，将前 $Q$ 个距离输入视图较近、质量极高的新视角结果加入“可靠视图集合” $\mathcal{R}$。
结合初始输入图与 $\mathcal{R}$ 中的高可靠新视角，重新进行 3D 点云渲染，推导出一个更新后的局部偏观测序列及相应的二值可见性掩码（Visibility Mask）$\{M_t\}_{t=1}^T$。
利用掩码对偏观测序列进行 Masked-warping 融合：对于已生成的高可靠区域予以锁定（Restored），对于未知区域进行去噪补全（Inpaint）。
将更新后的混合 Latents 重新喂入扩散模型。迭代该过程，逐步将可靠视图集合 $\mathcal{R}$ 推向远端，直至覆盖全部目标视角，从而极大地拓宽了模型的视角推广上限。

Algorithm 1: Test-time Scaling (TTS)
-----------------------------------------------------------------------------
输入: 参考视图图像 I, 目标轨迹视角 {v_t}, 训练好的 Model-G 和 Model-A
输出: 三维一致的新视角 RGB 序列 {A_t}
1: 进行首次前向单次推理得到初始 {A_t} (Eq. 5 & 6)
2: 初始化可靠视图索引集合 R = {1, 2, ..., Q}
3: while R 未能覆盖全部目标视角 do
4:    使用 I 和已生成的高可靠视图 {A_t | t ∈ R} 进行 3D 重投影 (Eq. 4)
5:    根据点云投影推导当前可见度二值掩码序列 {M_t}
6:    应用 Masked-warping 获得保留已知纹理、压制盲区杂质的混合局部序列
7:    使用混合局部序列作为输入，再次运行 Model-G & Model-A 扩散，更新 {A_t}
8:    将下一组 Q 个已精细化生成的视图追加合并至可靠集合 R
9: end while
10: return {A_t}
-----------------------------------------------------------------------------

数据集

GTA 展现出了极高的三维数据利用效率（Data Efficiency），主要使用以下数据集进行训练与严谨测试：

训练集：DL3DV-10K 数据集。采用其中约 10K 个精细重建的多视角室内外真实场景视频进行端到端监督微调（SFT）。
评估集：
1. DL3DV 官方测试集（包含 140 个场景的完整多视角视频），用于检验同分布的高保真度生成。
2. RealEstate10K 官方测试集（随机抽取 100 个场景视频进行 Zero-shot 零样本泛化能力评估），用来评估模型对大规模域外互联网真实房产视频的泛化上限。

算力

模型基座与规格：双阶段模型均基于具有 50 亿参数量的 CogVideo-X-5B 架构进行全参数微调。
训练开销：
- 在 8 张 NVIDIA A800 GPU (80GB) 上进行 SFT 训练。
- Model-G 与 Model-A 两个子网络各独立迭代训练了 40,000 次（40K iterations）。
- 训练时，输入/输出视频序列的帧数固定为 $T=49$ 帧，空间分辨率配置为 720 × 480。
推理性能：
- 在单张 A800 (80GB) 上进行推理，显存峰值仅为约 20 GB。
- Random Latent Shuffle (p) 训练置换概率设为 0.5；TTS 迭代滚动窗口 $Q$ 默认设为 5。

实验结果

1. 定量评估：保真度与几何精度断层领先

定量指标在 DL3DV 和 RealEstate10K 数据集上展开。评估指标涵盖了传统重建逼真度指标（PSNR、SSIM、LPIPS、FID）、对人类主观感知进行微观评测的 Q-Align 系列评分（Normalized to [0, 5]），以及基于几何匹配估算轨迹偏移的旋转误差（R-err）与平移误差（T-err）。

GTA-5

(Table 1) GTA 与当前 SOTA 基线模型（See3D、ViewCrafter、TrajectoryCrafter、FlexWorld、Gen3C、Voyager）在两大数据集上的定量表现。

从 Table 1 可以看出，在单次推理（无 TTS）的设置下，GTA 的重建保真度（PSNR、SSIM）与感知质量（LPIPS、FID、Q-Align 系列评分）在两个数据集上都稳居第一。
特别是在 RealEstate10K 的 Zero-shot 泛化测试中，GTA 依然展示了惊人的跨域泛化性，PSNR 从 Gen3C 的 16.46 拔高到了 17.01，LPIPS 优化至 0.341。同时，由于底层显式预测了深度骨架，其相机回归误差（R-err、T-err）达到了全场最低值，说明生成的视频具备严密的底层几何规律。

2. 定性视觉效果对比

GTA-6

(Fig. 6) 室内外超大视角多帧渲染的定性视觉对比。其他联合预测模型在长视角移动下，背景花纹出现明显的“视觉漂移”，而 GTA 生成的壁画、走廊、台地具有坚实的三维一致性，没有发生任何拉伸变形。

消融实验 (Ablation Studies)

① 解耦生成范式的有效性（SAG vs GTA）

作者对比了单阶段联合生成（Simultaneous Appearance and Geometry, SAG）与解耦的 GTA 方案。

GTA-8
(Table 2) 几何/外观解耦的定量评估。

GTA-7
(Fig. 7) 消融定性结果。SAG 极易受到外观纹理信号的干扰，导致几何深度图中出现严重的大范围斑块状闪烁（深度跳变），而 GTA 的几何图（中）与 RGB 结果（右）则平滑且连续。

② 随机潜在洗牌策略的有效性（RLS）

取消 RLS 策略后，视频扩散模型的时序平滑偏置会开始强行干扰生成过程，导致跨视角纹理发生灾难性变化。

GTA-10
(Table 3) 引入 RLS 前后的对比定量，可见其对重建保真度有直接且可观的提升。

GTA-9
(Fig. 8) RLS 消融视觉对比。在没有 RLS 的模型中，随着摄像机视角的移动，原本在第一帧完全是纯黑色的区域（黄圈）逐渐淡化、褪色成了灰白色；而加入 RLS 正则化训练后，这一材质退化现象被完美解决。

③ 测试时缩放（TTS）的增益

TTS 渐进式 refinement 极大地抑制了极限超远视角下的退化。

GTA-13
(Table 4) TTS 策略的定量消融评估，体现了多迭代精细化过程对长序列感知和位姿预测精度的全面优化。

GTA-11
(Fig. 9) 图像质量与三维平整度在 TTS 的约束下大幅提升。

GTA-12
(Fig. 10) 随着 TTS 迭代步数（0 至 4 步）的增加，重建图像的细节质量与语义合理性呈现平稳单调递增，进一步证明了该 refinement 过程的稳定收敛性。

下游任务与广泛应用 (Applications & Generalization)

① 现有生成管线的后处理增强 (Post-hoc Enhancement)

作为一个即插即用的三维增强器，GTA 可以直接用于后处理并润色其他新视角生成框架（如 FlexWorld、Gen3C、Voyager）的输出结果。

GTA-14

(Table 5) 后处理增强的定量提升。将 GTA 套用在其他基线上，无需重新训练即可显著拔高它们的 PSNR 并大幅降低 LPIPS 畸变。

GTA-15

(Fig. 11) 物理增强对比。可以看到，原模型存在扭曲、模糊甚至局部坍塌的区域，在经过 GTA 的几何解偶修正后，物体边缘变得平滑而坚固。

② 跨视角场景编辑 (3D Scene Editing)

结合图像编辑模型（如 InstructPix2Pix 等），GTA 能够轻松且高保真地实现三维一致的局部和全局场景编辑。

GTA-16

(Fig. 12) 3D 场景编辑示例。无论是全局艺术风格化（如油画、卡通画风），还是针对特定物体（如将图中的石桥编辑替换成木桥、彩虹桥），GTA 均可在保持刚性几何脚手架不发生形变的前提下，完美传播外观编辑内容。

③ 视频深度估计 (Video Depth Estimation)

由于 Diffusion Model-G 经过大规模几何重投影补全训练，其可以直接在单目相机轨迹下执行极强的一致性视频深度图提取。

GTA-17

(Fig. 13) 视频深度估计展示。其输出的深度图不仅时序极为连贯，且对微小的边缘及缝隙保留了极高精度的断层边界。

④ 数据集规模效率 (Data Scaling Efficiency)

相比于需要百万级数据集才能稳定拟合的多视角生成基线，GTA 展现了极强的小样本学习效率。

GTA-18
(Fig. 14) 使用 10K 数据集和 100K 数据集训练 GTA 的定性对比，其在 10K 数据下即能还原合理的宏观场景结构。

GTA-19
(Fig. 15) 数据利用效率增长曲线。在仅使用 10K 样本时，GTA 的保真度就已经明显超越了其他使用大量数据集训练的同类模型，且随着样本量提升其指标保持平稳单调递增，表现出极佳的可扩展潜力。

优势与不足

优势

范式简洁而优雅：Geometry-Then-Appearance (GTA) 成功把一个复杂的联合分布拟合问题，拆解成了两个有物理先验可寻的低难度子任务，从理论和根本上解决了解码拉扯与三维漂移问题。
巧妙的 RLS 正则化：深入剖析了视频生成扩散网络中“时序关联”与三维重建中“视角无关/空间连续”的底层概念冲突，以极简的洗牌方式打破了时序位置嵌入（Positional Embedding）带来的偏置障碍。
即插即用与下游延展性：TTS 自回归机制为长序列推理提供了明确方向。此外，GTA 不仅仅是一个三维生成模型，更能作为后处理模块、编辑模块和高品质深度估计器，具有广泛的实用学术价值。
低数据利用高效率：在仅有 10K 数据的训练下便达成 SOTA，有力反驳了“新视角视频生成必须依赖超级算力与超大规模私有数据”的粗放路线。

不足

多模型级联的高昂推理耗时：为了生成一段完整的视角序列，需要分别让两个具有 5B 参数量的 CogVideo 扩散模型进行多次逆向去噪，同时在 Test-time Scaling 还需要多次执行 3D 点云的反投影与重投影，导致其实时推理延迟极高，难以应用于实时机器人具身智能等场景。
累积误差与渐进式退化：TTS 自回归机制依赖前一阶段生成的 RGB 图像作为后一阶段的“锚点（Anchors）”。如果前期的 novel view 生成质量出现微小瑕疵，该误差会在点云反投影的过程中被放大，进而导致后期生成的视角出现“级联漂移”和伪影累积。
极限视角下的先验失效：尽管引入了点云 Warp 和 Inpainting，但如果相机发生 180° 或更极端的倒退、翻转（完全看到物体的反面），由于没有任何可反投影的可见深度特征，模型依然只能退化为概率幻觉，存在“幻觉破裂”的概率。

记忆点

解耦两阶段设计：Image-to-3D 不要强行一步登天。让 Geometry (低频脚手架) 先行，Appearance (高频纹理) 条件跟进，有效隔离双模态拉扯。
Random Latent Shuffle (RLS)：通过在训练中 stochastic 洗牌 Latent 时序索引，削弱网络对时间轴过渡的自回归过拟合，倒逼注意层去学习视角无关的纯几何匹配与空间连续性。
Test-time Scaling (TTS) 循环机制：把大视角推断拆解为“评估高可靠区域 -> warp 重新反投影 -> 可信纹理保持（Restored）+ 空洞盲区补全（Inpaint）”，用局部迭代的形式克服了长序列推理崩塌。
即插即用增强器：GTA 可在无需修改任何参数的情况下，套用给其他三维生成管线（如 FlexWorld），直接作为后处理增强层（Post-hoc Enhancer）消灭几何扭曲和漂移伪影。