VGGT-Ω
作者:Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht 单位:Visual Geometry Group, University of Oxford; Meta AI 会议:CVPR 2026 Oral / 2026 Arxiv 链接:https://arxiv.org/abs/2605.15195, Project Page 研究动机VGGT-Ω 这篇文章关心的不是“能不能再把 VGGT 做强一点”,而是一个更底层的问题:前馈式三维重建模型是否也像语言模型、2D 视觉基础模型一样,具有可预期的 scaling law。原始 VGGT 已经证明了 feed-forward reconstruction 可以在很多场景中接近甚至超过传统 SfM/优化式方法,但它仍然有几个限制: 全局...
GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion
作者:Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen 单位:University of Science and Technology of China, Zhongguancun Academy, CASIA, Eastern Institute of Technology, Zhejiang University, Beihang University 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.12957 研究动机在单张图像生成具有三维一致性的新视角序列(Image-to-3D World Generation)任务中,如何克服大幅度摄像机移动带来的几何畸变与外观漂移是生成式三维领域的硬骨头。现有的主流模型(例如基于 Video Diffusion 的工作)通常采取联合预测(Simultaneous Prediction)的策略,试图通过单一网络端到端地拟合高维时空分布,同时生成几何(通常是隐式的深度或 3D 表示)和 RGB...
RAEv2: Improved Baselines with Representation Autoencoders
作者:Jaskirat Singh, Boyang Zheng, Zongze Wu, Richard Zhang, Eli Shechtman, Saining Xie 单位:Adobe Research, ANU, New York University 会议:2026 Arxiv 链接:arXiv | Project Page 研究动机近年来,潜在扩散模型(Latent Diffusion Models, LDM)已成为图像生成领域的主流。常规的 LDM 必须依赖于一个专门训练的变分自编码器(VAE)将高维像素空间映射至低维的潜在空间。然而,近期提出的“表征自编码器”(Representation Autoencoders, RAE)打破了这一常规,它直接利用现成的、自监督预训练视觉编码器(如 DINOv2、DINOv3 等)作为潜在空间,通过在其特征上训练扩散模型来省去独立的 VAE 训练。这对于统一计算机视觉的“理解(Understanding)”和“生成(Generation)”两大领域具有里程碑式的意义。 但是在实际落地时,初代的 RAE...
Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth
作者:Viktor Kocur, Sithu Aung, Gabrielle Flood, Yaqing Ding, Lukas Bujnak, Torsten Sattler, Zuzana Kukelova 单位:Comenius University in Bratislava, Czech Technical University in Prague 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19797 研究动机 评估标准存在局限性: 尽管单目深度估计(MDE)近年来取得了显著进展,并且预测的深度图在 Structure-from-Motion (SfM)、视觉定位和 SLAM 等下游几何任务中扮演着关键输入角色,但现有的 MDE 方法主要仍以深度绝对精度进行评估。通用的评估指标(如 Abs.Rel 或 RMSE)是在整张图像上全局聚合误差的,这并不能直接反映深度在具体的下游三维几何任务中的实用价值。 几何重要性非均匀分布: 在下游几何任务(如 SfM 或...
PhyWorld: Physics-Faithful World Model for Video Generation
作者:Pu Zhao, Juyi Lin, Timothy Rupprecht, Arash Akbari, Chence Yang, Rahul Chowdhury, Elaheh Motamedi, Arman Akbari, Yumei He, Chen Wang, Geng Yuan, Weiwei Chen, Yanzhi Wang 单位:Northeastern University, University of Georgia, Tulane University, EmbodyX 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19242 研究动机 这篇论文把视频生成模型当作 Physical AI...
Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence
作者:Zebin He, Mingxin Yang, Shuhui Yang, Hanxiao Sun, Xintong Han, Chunchao Guo, Wenhan Luo 单位:HKUST, Tencent Hunyuan 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.19727 研究动机现有 3D foundation model 很多都沿着同一条路线走:把整段点云或 shape 压成一个全局向量,再去对齐 CLIP 这类 2D 语义空间。这样做对 zero-shot 分类、shape retrieval 很有效,但它天生有一个缺口: 全局向量只保留“这是什么”,很难回答“图中这个像素在 3D 形体的哪一个局部”。 纯语义对齐能够建立 category-level matching,却无法自然支持 pixel-to-point 这种细粒度几何 grounding。 如果只追 global retrieval,3D token 本身就不需要保留局部拓扑和几何结构,这会让很多 dense downstream task...
Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
作者:Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen 单位:HKUST(GZ), UC San Diego, HKUST 会议:2025 Arxiv 链接:https://arxiv.org/abs/2512.01030 研究动机 这篇文章讨论的是一个很尖锐的矛盾:单目几何密集预测本质上是病态问题,但现在最强的两类路线各有明显短板。 大规模判别式深度模型依赖海量监督数据,性能上限很大程度由训练集规模、真实性和标注质量决定,一旦遇到稀有场景或开放域图像,泛化就容易掉下来。 扩散/rectified-flow 这类生成模型确实在海量图文数据里学到了强 world prior,但它们原生的随机采样、多步生成和高保真图像目标,并不天然适合“同一张图稳定输出一张几何图”这种确定性任务。 如果直接把生成模型的随机生成范式搬过来,模型会出现结构方差、几何幻觉和推理开销过高的问题;但如果完全退回普通回归模型,又拿不到生成模型里蕴含的大规模几何先验。 所以 Lotus-2...
DINOv2: Learning Robust Visual Features without Supervision
作者:Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski 单位:Meta AI Research, Inria, Universite Paris-Saclay, ENS-PSL 会议:TMLR 2024 / arXiv...
DINOv3
作者:Oriane Simeoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michael Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothee Darcet, Theo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Herve Jegou, Patrick Labatut, Piotr Bojanowski 单位:Meta AI Research, WRI, Inria 会议:2025...
Emerging Properties in Self-Supervised Vision Transformers
作者:Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin 单位:Facebook AI Research, Inria, Sorbonne University 会议:ICCV 2021 / arXiv 2021 链接:https://arxiv.org/abs/2104.14294 研究动机 这篇论文关心的问题不是“ViT 能不能做自监督”,而是“自监督会不会让 ViT 学到和监督学习、卷积网络不同的性质”。当时 ViT 在视觉任务上已经能和卷积网络竞争,但代价是更多数据和更高算力,而且特征并没有表现出特别清晰的独特优势。作者的判断是:如果 Transformer 在 NLP 中的成功很大程度来自自监督预训练,那么视觉 Transformer 也应该检查监督标签是否压缩了图像中的丰富信息。 论文给出的两个核心观察很直接。第一,自监督 ViT 的最后一层 [CLS] token...










