VGGT-Ω
作者:Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht 单位:Visual Geometry Group, University of Oxford; Meta AI 会议:CVPR 2026 Oral / 2026 Arxiv 链接:https://arxiv.org/abs/2605.15195, Project Page 研究动机VGGT-Ω 这篇文章关心的不是“能不能再把 VGGT 做强一点”,而是一个更底层的问题:前馈式三维重建模型是否也像语言模型、2D 视觉基础模型一样,具有可预期的 scaling law。原始 VGGT 已经证明了 feed-forward reconstruction 可以在很多场景中接近甚至超过传统 SfM/优化式方法,但它仍然有几个限制: 全局...
What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?
作者:Alex Kendall, Yarin Gal 单位:University of Cambridge 会议:NIPS 2017 链接:https://arxiv.org/abs/1703.04977 研究动机这篇文章讨论的是一个很基础但长期被深度视觉模型忽略的问题:模型什么时候应该说“我不知道”。 在语义分割、深度估计、自动驾驶感知等任务中,模型输出通常被当作确定答案使用。但视觉输入里有两类不确定性: Aleatoric uncertainty:观测本身带来的噪声,例如远处物体、遮挡边界、反光区域、模糊深度标签。这类不确定性即使增加数据也不一定消失。 Epistemic uncertainty:模型认知不足带来的不确定性,例如训练集覆盖不够、测试样本分布偏离训练集。这类不确定性理论上可以通过更多数据降低。 Figure 1 是整篇论文的直观入口:aleatoric uncertainty 更像“图像/标注天然困难在哪里”,常出现在物体边界、远距离区域;epistemic uncertainty...
UniT: Unified Geometry Learning with Group Autoregressive Transformer
作者:Haotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua 单位:香港科技大学(广州), 西安交通大学, 亚马逊 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.21131 研究动机 三维几何感知是计算机视觉中的经典且核心的课题,旨在从多张图像观测中恢复出场景的三维结构(通常表示为三维点云)。近年来,以点图(Point Map)为核心表征的前馈 foundation 模型(例如 DUSt3R, MASt3R, Fast3R, VGGT, $\pi^3$, DepthAnything3 等)取得了突破性的成就,这主要得益于其将 2D-to-3D 对应关系学习与 3D-to-3D 几何推理无缝融合在单次模型前向传播中。 然而,尽管这些模型非常强大,它们的核心能力依然碎片化(Fragmented)地散落在多个互不兼容的学术与工业范式中,尚未统一: 在线流式感知(Online...
GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion
作者:Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen 单位:University of Science and Technology of China, Zhongguancun Academy, CASIA, Eastern Institute of Technology, Zhejiang University, Beihang University 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.12957 研究动机在单张图像生成具有三维一致性的新视角序列(Image-to-3D World Generation)任务中,如何克服大幅度摄像机移动带来的几何畸变与外观漂移是生成式三维领域的硬骨头。现有的主流模型(例如基于 Video Diffusion 的工作)通常采取联合预测(Simultaneous Prediction)的策略,试图通过单一网络端到端地拟合高维时空分布,同时生成几何(通常是隐式的深度或 3D 表示)和 RGB...
RAEv2: Improved Baselines with Representation Autoencoders
作者:Jaskirat Singh, Boyang Zheng, Zongze Wu, Richard Zhang, Eli Shechtman, Saining Xie 单位:Adobe Research, ANU, New York University 会议:2026 Arxiv 链接:arXiv | Project Page 研究动机近年来,潜在扩散模型(Latent Diffusion Models, LDM)已成为图像生成领域的主流。常规的 LDM 必须依赖于一个专门训练的变分自编码器(VAE)将高维像素空间映射至低维的潜在空间。然而,近期提出的“表征自编码器”(Representation Autoencoders, RAE)打破了这一常规,它直接利用现成的、自监督预训练视觉编码器(如 DINOv2、DINOv3 等)作为潜在空间,通过在其特征上训练扩散模型来省去独立的 VAE 训练。这对于统一计算机视觉的“理解(Understanding)”和“生成(Generation)”两大领域具有里程碑式的意义。 但是在实际落地时,初代的 RAE...
Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth
作者:Viktor Kocur, Sithu Aung, Gabrielle Flood, Yaqing Ding, Lukas Bujnak, Torsten Sattler, Zuzana Kukelova 单位:Comenius University in Bratislava, Czech Technical University in Prague 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19797 研究动机 评估标准存在局限性: 尽管单目深度估计(MDE)近年来取得了显著进展,并且预测的深度图在 Structure-from-Motion (SfM)、视觉定位和 SLAM 等下游几何任务中扮演着关键输入角色,但现有的 MDE 方法主要仍以深度绝对精度进行评估。通用的评估指标(如 Abs.Rel 或 RMSE)是在整张图像上全局聚合误差的,这并不能直接反映深度在具体的下游三维几何任务中的实用价值。 几何重要性非均匀分布: 在下游几何任务(如 SfM 或...
PhyWorld: Physics-Faithful World Model for Video Generation
作者:Pu Zhao, Juyi Lin, Timothy Rupprecht, Arash Akbari, Chence Yang, Rahul Chowdhury, Elaheh Motamedi, Arman Akbari, Yumei He, Chen Wang, Geng Yuan, Weiwei Chen, Yanzhi Wang 单位:Northeastern University, University of Georgia, Tulane University, EmbodyX 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19242 研究动机 这篇论文把视频生成模型当作 Physical AI...
Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence
作者:Zebin He, Mingxin Yang, Shuhui Yang, Hanxiao Sun, Xintong Han, Chunchao Guo, Wenhan Luo 单位:HKUST, Tencent Hunyuan 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19727 研究动机现有 3D foundation model 很多都沿着同一条路线走:把整段点云或 shape 压成一个全局向量,再去对齐 CLIP 这类 2D 语义空间。这样做对 zero-shot 分类、shape retrieval 很有效,但它天生有一个缺口: 全局向量只保留“这是什么”,很难回答“图中这个像素在 3D 形体的哪一个局部”。 纯语义对齐能够建立 category-level matching,却无法自然支持 pixel-to-point 这种细粒度几何 grounding。 如果只追 global retrieval,3D token 本身就不需要保留局部拓扑和几何结构,这会让很多 dense downstream task...
Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
作者:Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen 单位:HKUST(GZ), UC San Diego, HKUST 会议:2025 Arxiv 链接:https://arxiv.org/abs/2512.01030 研究动机 这篇文章讨论的是一个很尖锐的矛盾:单目几何密集预测本质上是病态问题,但现在最强的两类路线各有明显短板。 大规模判别式深度模型依赖海量监督数据,性能上限很大程度由训练集规模、真实性和标注质量决定,一旦遇到稀有场景或开放域图像,泛化就容易掉下来。 扩散/rectified-flow 这类生成模型确实在海量图文数据里学到了强 world prior,但它们原生的随机采样、多步生成和高保真图像目标,并不天然适合“同一张图稳定输出一张几何图”这种确定性任务。 如果直接把生成模型的随机生成范式搬过来,模型会出现结构方差、几何幻觉和推理开销过高的问题;但如果完全退回普通回归模型,又拿不到生成模型里蕴含的大规模几何先验。 所以 Lotus-2...
DINOv2: Learning Robust Visual Features without Supervision
作者:Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski 单位:Meta AI Research, Inria, Universite Paris-Saclay, ENS-PSL 会议:TMLR 2024 / arXiv...










