TRELLIS2: Native and Compact Structured Latents for 3D Generation

作者： Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang

单位： Tsinghua University, Microsoft Research, USTC, Microsoft AI

会议： 2025 Arxiv

链接： arXiv / Project / Code

TRELLIS.2 这篇文章的核心问题很直接：如果 3D 生成模型想同时拥有高分辨率几何、复杂拓扑、内部结构、开表面，以及真实 PBR 材质，latent 表示本身就不能再只是“把某个网格或连续场压一下”。作者提出 O-Voxel 作为原生 3D 资产表示，再用 SC-VAE 把 1024³ 级别资产压到约 9.6K 个 latent tokens，最后训练总规模约 4B 参数的 flow matching 生成模型，把 image-to-3D、PBR 纹理和高分辨率 test-time scaling 串成一个完整系统。

TRELLIS2-0

研究动机

上一代 3D 生成方法通常卡在两个地方。第一类方法偏向连续场或高斯表示，训练和渲染友好，但把结果真正转成可编辑、可生产使用的 mesh 和 PBR 材质时会遇到结构和贴图的落差。第二类方法直接面向 mesh 或稀疏体素，几何更接近资产格式，但要兼顾任意拓扑、非流形、开表面、内部结构和材质时，表示会变得笨重。

TRELLIS.2 的动机是把“生成模型喜欢的 latent”和“3D 资产真正需要的结构”合在一起。它不是先生成一个看起来不错的代理表示，再后处理成资产，而是从一开始就在一个原生、稀疏、可双向转换的 3D 表示里建模几何和材质。这样做的好处是：模型可以在生成阶段就理解结构和材质的对齐关系，而不是把 texture baking、mesh extraction、material synthesis 这些问题丢给后处理。

从结果图看，作者尤其强调三点：复杂几何细节、内部/非流形结构，以及 PBR 材质的物理一致性。也就是说，TRELLIS.2 想解决的不是“能不能从图生成一个 3D 物体”，而是“生成出来的东西能不能更像可用资产”。

核心方法

整套方法可以拆成三层：底层是 O-Voxel 表示，中间是 SC-VAE 压缩 latent，顶层是三阶段 flow matching 生成模型。

TRELLIS2-1

第一层：O-Voxel。 O-Voxel 是一种 field-free 的稀疏体素结构，用体素局部结构表达几何和材质。它把 shape 写成 Flexible Dual Grid，包括 dual vertices、交叉标记和 splitting weights，用来表达复杂表面；同时把 material 写成体积化表面属性，包括 Base Color、Metallic、Roughness 和 Alpha。这样，一个表示里既有几何，也有 PBR 材质。

TRELLIS2-2

O-Voxel 的关键不是“又一种 voxel”，而是它能在 raw 3D asset 和模型 latent 之间做即时双向转换：mesh 可以转进 O-Voxel，O-Voxel 又可以转回 mesh 和材质贴图。相比需要优化或渲染拟合的表示，这对大规模训练和资产落地都更友好。论文中特别强调它可以处理 open、non-manifold、fully enclosed surfaces 这类传统表示容易出问题的拓扑。

第二层：SC-VAE。 有了 O-Voxel 后，还需要把它压成生成模型能承受的 token 数量。SC-VAE 是一个全稀疏卷积的 U-shaped VAE，核心设计包括 sparse residual autoencoding、early-pruning upsampler 和优化后的残差块。它把 O-Voxel 做 16 倍空间下采样，把 fully textured 1024³ 资产压到约 9.6K latent tokens。

TRELLIS2-3

SC-VAE 的训练分两阶段。低分辨率阶段主要稳定几何重建，用 O-Voxel reconstruction loss 和 KL loss；高分辨率阶段加入渲染感知监督，包括 mask、depth、normal、material 相关信号，以及 SSIM/LPIPS 这类感知损失。这个设计背后的判断是：如果只在表示空间约束，细节和材质不一定符合视觉质量；如果只用渲染监督，又可能不够稳定。所以作者把“结构可逆”和“视觉可感知”两种约束叠在一起。

第三层：三阶段生成。 在压缩 latent 上，TRELLIS.2 使用 DiT 风格的 flow matching 模型，并把生成分为三个阶段：sparse structure generation、geometry generation 和 material generation。前两阶段生成稀疏结构和几何骨架，第三阶段在原生 3D latent 空间里生成 PBR 材质。这样材质不是贴在几何之后的附属物，而是和几何 latent 对齐生成。

这个三阶段拆法很重要。稀疏结构决定哪里有东西，几何决定局部形状，材质决定外观属性。把它们强行放进一个一步生成模型里，训练难度和 token 负担都会上升；拆开后，每个模型的任务更清楚，也更容易做高分辨率扩展。

数据集

训练数据主要来自 TRELLIS-500K 设置，并过滤掉没有 PBR 材质的资产，形成来自 Objaverse-XL、ABO 和 HSSD 的 curated collection。为了增强材质多样性和真实感，生成模型还使用了扩展到约 800K assets 的集合，并引入 TexVerse。对于 image-conditioned 训练，作者在 Blender 中为每个资产渲染 16 个视角，随机化 FoV 和光照。

评测部分分成几类。重建任务使用 Toys4K benchmark，以及一个作者整理的 Sketchfab 测试集，后者包含近两年发布的 90 个复杂 PBR 材质和细节形状资产，并且训练时不可见。生成质量比较和用户研究使用 100 个 AI-generated image prompts，以减少训练测试重合。用户研究约 40 名参与者，在相同输入条件下比较不同方法的生成结果。

这个数据设计和论文主张是对应的：如果目标只是看外轮廓，普通 Objaverse 风格评测就够了；但 TRELLIS.2 要证明的是内部结构、复杂材质和 PBR 一致性，所以它需要额外看 Sketchfab 复杂资产、材质重建和用户偏好。

算力

论文给出的模型规模相当明确：生成框架包含三个 DiT 模块，每个约 1.3B 参数，总规模约 4B。训练时使用 AdamW、classifier-free guidance，并采用 progressive training，从 512³ 输出逐步扩展到 1024³ 输出。论文正文中写到每个 DiT 在 32 张 H100 GPU 上训练，batch size 为 256；SC-VAE 训练使用 16 张 H100 GPU，batch size 为 128。运行统计则在 NVIDIA A100 上报告。

推理侧，项目 README 给出的门槛是至少 24GB 显存的 NVIDIA GPU，官方验证过 A100 和 H100。论文中强调了高分辨率推理效率：在 H100 上，512³ 大约 3 秒，1024³ 大约 17 秒，1536³ 大约 60 秒；Fig.1 中 1536³ 示例约为 35 秒 shape generation 加 25 秒 texture generation。

从工程角度看，这不是轻量模型，但它的卖点也不是低资源消费，而是在 3D 资产级别把“表示压缩”和“生成质量”同时拉高。9.6K tokens 对 1024³ fully textured asset 来说已经很紧凑，这也是后续能训练 4B 级 flow 模型的前提。

实验结果

3D 资产重建。 Table 1 比较了不同结构化 latent 在重建任务中的效率和质量。TRELLIS.2 在 512³ 设置下只用约 2.2K tokens，在 1024³ 设置下约 9.6K tokens，并保持 16 倍下采样。和 Dora、TRELLIS、Direct3D-S2、SparseFlex 相比，它在 Toys4K 和 Sketchfab 上的 MD、F1、Normal PSNR、LPIPS 等指标整体更好，同时 decoder 时间也很低。尤其 1024³ 版本在 Sketchfab 的 Normal PSNR 达到 35.26，说明复杂真实资产上也能保住表面质量。

TRELLIS2-6

生成质量。 Fig.5 展示了 TRELLIS.2 的代表性生成结果，重点不是单个物体“像不像”，而是它能生成细枝、机械齿轮、封闭驾驶舱、透明/反射材质等传统 3D 生成容易失真的结构。论文的叙述里，几何和材质的对齐是核心卖点：复杂几何不是贴图伪装出来的，PBR 外观也不是简单颜色贴图。

TRELLIS2-4

Fig.6 和 Hunyuan3D 2.1、Step1X-3D、TRELLIS、Direct3D-S2、Hi3DGen 做视觉比较。图中主图是 normal，小图包括 final render、base color、metallic 和 roughness。这个比较很有信息量：一些基线能生成看起来合理的正面结果，但 PBR 分解或几何细节不够稳定；TRELLIS.2 的优势在于 normal、最终渲染和材质通道之间更一致。

TRELLIS2-5

Image-to-3D 定量结果。 Table 2 显示 TRELLIS.2 在 image-conditioned 生成上拿到最高的对齐和偏好分数：CLIP 0.894、CLIP-N 0.758、ULIP-2 0.477、Uni3D 0.436，用户偏好 Pref 为 66.5%，Pref-N 为 69.0%。这组指标说明它不仅图像对齐更好，3D 几何相似性和主观质量也更强。

TRELLIS2-7

PBR 纹理生成。 Fig.7 把第三阶段 material generation 单独拿出来评估：给定 shape 和参考图，模型生成 3D PBR 纹理。对比 Hunyuan3D 2.1 和 TEXGen，TRELLIS.2 的纹理更少出现多视角不一致、ghosting 或 UV 歧义带来的模糊。原因在于它不是在 2D 多视图里拼贴纹理，而是在原生 3D latent 中做材质生成。

TRELLIS2-9

消融实验。 Table 3 说明 SC-VAE 的设计不是装饰。f16c32 版本在 token 数、解码速度和重建质量之间取得较好平衡；去掉 residual autoencoding 或 optimized ResBlock 后，MD、F1、PSNR、LPIPS 都会明显变差。更强压缩的 f32c128 token 数更低，但几何和视觉质量下降，说明 3D latent 不能只追求 token 少。

TRELLIS2-8

Test-time scaling。 Fig.8 展示了推理时提高分辨率和计算量后，生成细节继续变好。这一点对 3D 资产生成很关键，因为很多应用需要的不是固定 512³ 输出，而是能根据场景预算扩展到 1024³ 或 1536³。TRELLIS.2 的 compact latent 让这种扩展更现实。

TRELLIS2-10

优势与不足

TRELLIS.2 最大的优势是把 3D 表示、压缩 latent 和生成模型统一到了资产级目标上。O-Voxel 让复杂拓扑和 PBR 材质进入同一个原生表示；SC-VAE 把高分辨率资产压到可训练的 token 数；三阶段 flow 模型则把结构、几何、材质分层生成。三者叠起来，才形成了论文里展示的高保真资产生成。

第二个优势是工程闭环比较完整。论文不只给 teaser，也给了重建速度、token 数、PBR 材质通道、用户偏好和 test-time scaling。项目页和代码仓库也明确把它定位为 4B image-to-3D 模型，并给出 512³ 到 1536³ 的模型能力范围。

不足也很清楚。首先，训练资源和数据清洗成本很高，32 张 H100 训练 DiT、16 张 H100 训练 SC-VAE，这不是普通实验室可以轻松复现的规模。其次，方法依赖高质量 PBR 资产和渲染视图，数据分布会影响材质生成的边界。再次，论文主要展示 image-to-3D 和 shape-conditioned texture generation，对多物体场景、动画资产、可控拓扑编辑等更复杂生产流程还没有展开。

还有一个值得观察的问题是：O-Voxel 虽然能即时转回 mesh 和材质，但下游 DCC 工具链是否能直接无痛使用，还取决于导出的拓扑质量、UV/材质组织和编辑友好性。论文证明了“生成”和“重建”很强，但真正进入生产管线时，资产清理、LOD、材质命名和可编辑性仍然会是下一层考验。

记忆点

如果只记一句话：TRELLIS.2 的核心不是单纯把模型做大，而是先设计一个更适合 3D 资产的原生 latent 表示，再把大模型放到这个表示上训练。

三个关键词最重要：

O-Voxel： 用 field-free sparse voxel 同时表达几何和 PBR 材质，支持复杂拓扑、开表面、非流形和内部结构。
SC-VAE： 用稀疏卷积 VAE 把 1024³ fully textured asset 压到约 9.6K tokens，为 4B 级 flow 模型提供可承受的 latent 空间。
Native 3D material generation： 材质不是 2D 多视图拼贴，而是在 3D latent 中和几何对齐生成，因此 PBR 通道一致性更强。

我觉得这篇文章最值得关注的地方，是它把 3D 生成从“视觉结果好看”往“资产表示合理”推进了一步。对 image-to-3D 来说，这可能比单纯刷 CLIP 分数更重要，因为真正的 3D 内容生产最终还是要落到可导出、可渲染、可编辑、可复用的资产上。