VGGTOmega: VGGT-Ω
作者:Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht 单位:Visual Geometry Group, University of Oxford; Meta AI 会议:CVPR 2026 Oral / 2026 Arxiv 链接:https://arxiv.org/abs/2605.15195, Project Page 研究动机VGGT-Ω 这篇文章关心的不是“能不能再把 VGGT 做强一点”,而是一个更底层的问题:前馈式三维重建模型是否也像语言模型、2D 视觉基础模型一样,具有可预期的 scaling law。原始 VGGT 已经证明了 feed-forward reconstruction 可以在很多场景中接近甚至超过传统 SfM/优化式方法,但它仍然有几个限制: 全局...
TRELLIS2: Native and Compact Structured Latents for 3D Generation
作者: Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang 单位: Tsinghua University, Microsoft Research, USTC, Microsoft AI 会议: 2025 Arxiv 链接: arXiv / Project / Code TRELLIS.2 这篇文章的核心问题很直接:如果 3D 生成模型想同时拥有高分辨率几何、复杂拓扑、内部结构、开表面,以及真实 PBR 材质,latent 表示本身就不能再只是“把某个网格或连续场压一下”。作者提出 O-Voxel 作为原生 3D 资产表示,再用 SC-VAE 把 1024³ 级别资产压到约 9.6K 个 latent tokens,最后训练总规模约 4B 参数的 flow matching 生成模型,把 image-to-3D、PBR 纹理和高分辨率...
TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation
作者:Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang 单位:Tsinghua University, USTC, Microsoft Research 会议:CVPR 2025 Highlight 链接:https://arxiv.org/abs/2412.01506, https://microsoft.github.io/TRELLIS/, https://github.com/Microsoft/TRELLIS 研究动机3D 资产生成一直卡在一个很难受的表示选择上:mesh、SDF、occupancy 等几何表示更容易得到可编辑、可导出的形状,但纹理和外观细节往往不够强;Radiance Fields 和 3D Gaussian 这类可微渲染表示外观质量高,却不一定能稳定抽取出干净几何。另一方面,很多 2D-assisted 方法先生成多视角图像再重建 3D,借到了 2D...
Mix3R: Mixing Feed-forward Reconstruction and Generative 3D Priors for Joint Multi-view Aligned 3D Reconstruction and Pose Estimation
作者:Siyou Lin, Zhou Xue, Hongwen Zhang, Liang An, Dongping Li, Shaohui Jiao, Yebin Liu 单位:Tsinghua University, Beijing Normal University, ByteDance 会议:SIGGRAPH 2026 Conference Track / arXiv 2026 链接:https://arxiv.org/abs/2605.03359 研究动机 传统多视角重建方法例如 COLMAP 依赖密集相机、特征匹配和多视角几何优化,几何精度很强,但在稀疏视角、纹理不足或遮挡明显的物体上容易失效,计算流程也不够前馈。 前馈式重建方法例如 VGGT、$\pi^3$、MapAnything 和 Depth Anything 3 可以直接预测深度、点图、射线图或相机位姿,优势是像素级对齐很自然;问题是它们主要重建可见区域,对输入视角之间的重叠依赖较强,所以稀疏视角下容易得到不完整或错误的形状。 3D 生成模型例如 TRELLIS...
Real2Sim: A Physics-driven and Editable Gaussian Splatting Framework for Autonomous Driving Scenes
作者:Kaicong Huang, Talha Azfar, Weisong Shi, Ruimin Ke 单位:Rensselaer Polytechnic Institute; University of Delaware 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.13591 研究动机 自动驾驶系统最缺的不是普通路况,而是可控、可复现、带标签、并且覆盖长尾风险的训练数据。真实道路采集昂贵,碰撞、失控、遮挡、异常交互等 corner cases 又很难大量采到;传统仿真平台虽然可编辑,但视觉域和真实世界存在明显 sim-to-real gap;纯生成模型可以生成高保真图像或视频,却常常缺少跨视角、跨时间的一致性,更难保证车辆碰撞、落地、反弹这类行为满足物理约束。 Real2Sim 想解决的正是这个夹缝问题:能否从真实自动驾驶序列出发,把场景重建成既高保真、又可编辑、还能接入物理模拟的 3D/4D...
SCOUP: Sparse Code Uplifting for Efficient 3D Language Gaussian Splatting
作者:Lovre Antonio Budimir, Yushi Guan, Steve Ryhner, Sven Lončarić, Nandita Vijaykumar 单位:Faculty of Electrical Engineering and Computing, University of Zagreb; Department of Computer Science, University of Toronto; Vector Institute 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.13600 研究动机 3D Language Gaussian Splatting 的目标是在 3DGS 场景上挂载语言对齐的视觉特征,让三维场景可以被文本查询,例如在重建好的房间里直接问 "red cup"、"knife"、"bag of cookies",系统能够在 3D 空间和渲染视角中给出对应区域。 这件事的难点不在于 3DGS 本身,而在于语言特征太重。典型流程会先用...
RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering
作者:Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu 单位:Australian National University; NVIDIA 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.13093 研究动机 Generalizable 3D Gaussian Splatting 的目标是跳过 per-scene optimization,用少量输入视角直接前馈预测一组 pixel-wise Gaussians,然后完成 novel view synthesis。PixelSplat、MVSplat、DepthSplat、TranSplat 等方法已经证明了这条路线的效率和泛化潜力。 但这篇论文指出,现有 pixel-wise feed-forward GS 有两个很实际的问题。 输入视角数变化会导致过亮。很多模型训练时只用固定数量的输入视角,例如 RealEstate10K 上常用 2 views;测试时如果给 4/8/16 views,同一 3D...
FocusDepth: Focusable Monocular Depth Estimation
作者:Yuxin Du, Tao Lin, Zile Zhong, Runting Li, Xiyao Chen, Jiting Liu, Chenglin Liu, Ying-Cong Chen, Yuqian Fu, Bo Zhao 单位:School of Artificial Intelligence, Shanghai Jiao Tong University; The Hong Kong University of Science and Technology (Guangzhou); King Abdullah University of Science and Technology 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.11756 研究动机 现有单目深度估计通常是 image-centric 的:输入一张图,输出一张整图深度,训练和评测也主要把所有有效像素的误差聚合起来。这个设定对全局场景理解很合理,但很多真实任务其实不是平均地关心每个像素。 机器人抓取时更关心目标物体和接触边界,AR...
MTD: The Midas Touch for Metric Depth
作者:Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan 单位:College of Electronic and Information Engineering, Tongji University; Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University; National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.11578 研究动机 相对深度基础模型已经有很强的跨场景泛化能力,例如 MiDaS、DepthAnythingV2、Marigold...
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
作者:Prajnan Goswami, Tianye Ding, Feng Liu, Huaizu Jiang 单位:Northeastern University, Adobe Research 会议:CVPR 2026 链接:arXiv, Project, Code 研究动机视觉对应关系是 3D 视觉里非常底层的一类能力:给定同一场景的不同观测,模型要找出一个点在另一个观测里的对应位置。传统上这件事会按输入模态拆成三类任务:图像到图像的 2D-2D matching、图像到点云的 2D-3D matching、点云到点云的 3D-3D matching。 这篇论文想解决的问题不是单个 benchmark 的精度,而是一个更大的建模问题: 能否用一个共享权重的模型,同时处理 2D-2D、2D-3D 和 3D-3D 几何匹配? 作者认为已有路线有三个关键限制: 基于 cost volume / pyramid / recurrent refinement 的 2D...










