DINOv2: Learning Robust Visual Features without Supervision
作者:Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski 单位:Meta AI Research, Inria, Universite Paris-Saclay, ENS-PSL 会议:TMLR 2024 / arXiv...
DINOv3
作者:Oriane Simeoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michael Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothee Darcet, Theo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Herve Jegou, Patrick Labatut, Piotr Bojanowski 单位:Meta AI Research, WRI, Inria 会议:2025...
Emerging Properties in Self-Supervised Vision Transformers
作者:Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin 单位:Facebook AI Research, Inria, Sorbonne University 会议:ICCV 2021 / arXiv 2021 链接:https://arxiv.org/abs/2104.14294 研究动机 这篇论文关心的问题不是“ViT 能不能做自监督”,而是“自监督会不会让 ViT 学到和监督学习、卷积网络不同的性质”。当时 ViT 在视觉任务上已经能和卷积网络竞争,但代价是更多数据和更高算力,而且特征并没有表现出特别清晰的独特优势。作者的判断是:如果 Transformer 在 NLP 中的成功很大程度来自自监督预训练,那么视觉 Transformer 也应该检查监督标签是否压缩了图像中的丰富信息。 论文给出的两个核心观察很直接。第一,自监督 ViT 的最后一层 [CLS] token...
IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
作者:Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang, Haowen Sun, Jie Zhou, Jiwen Lu 单位:Intelligent Vision Group, Tsinghua University 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.16258 研究动机 这篇文章的核心问题是:现有 VGGT/DUSt3R 系列视觉几何基础模型大多输出显式几何,例如每个输入视角上的 depth map 或 pixel-aligned pointmap。这种表示非常适合快速估计相机和粗几何,但它有两个天然限制: 几何只定义在像素采样点上,是离散的、视角绑定的,同一个物理表面可能在多个视角中被重复预测。 如果要得到连续 mesh、任意视角渲染、surface normal 或 SDF 等下游结果,往往还需要额外建模或后处理。 传统 NeRF/SDF 方法能提供连续神经场,但通常依赖已知相机位姿,并且需要每个场景单独优化。IVGT 想把这两条路线接起来:像 VGGT...
Unlocking Dense Metric Depth Estimation in VLMs
作者:Hanxun Yu, Xuan Qu, Yuxin Wang, Jianke Zhu, Lei Ke 单位:Zhejiang University, Tencent Hunyuan LLM, HKUST, Shenzhen Loop Area Institute 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.15876 研究动机 这篇文章要解决的问题很直接:现在的 VLM 已经能做视觉问答、定位、图文理解,但对 3D 几何的掌握仍然偏弱,尤其是不能原生输出像素级 metric depth。 已有路线大致有三类问题: 纯文本监督的 VLM 只把图像作为输入,输出仍然是自回归文本,因此视觉信号没有被密集几何目标约束,很难学到细粒度 3D 结构。 一些空间增强 VLM 依赖外部深度模型或点云模型蒸馏几何知识,容易把外部模型误差带进 VLM,并且不是 VLM 自身的原生能力。 DepthLM 这类方法证明了 VLM 可以预测 metric depth,但它用单像素 query 的方式逐点推理,生成一张密集深度图需要大量...
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
作者:Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie 单位:NVIDIA 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.15178 研究动机 世界模型正在从“短视频生成”走向“可交互仿真”。在 camera-controlled world modeling 里,输入第一帧、文本描述和 6-DoF 相机轨迹,模型需要生成 60 秒、720p、且严格跟随轨迹的视频。这比普通 I2V 更难,因为它既要保持场景身份,又要在长时间内维持几何一致性。 现有开源世界模型要么依赖更大的模型、更多数据和多卡推理,要么通过短视频 teacher 蒸馏来降低成本。但短视频 teacher...
VGGT-Ω
作者:Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht 单位:Visual Geometry Group, University of Oxford; Meta AI 会议:CVPR 2026 Oral / 2026 Arxiv 链接:https://arxiv.org/abs/2605.15195, Project Page 研究动机VGGT-Ω 这篇文章关心的不是“能不能再把 VGGT 做强一点”,而是一个更底层的问题:前馈式三维重建模型是否也像语言模型、2D 视觉基础模型一样,具有可预期的 scaling law。原始 VGGT 已经证明了 feed-forward reconstruction 可以在很多场景中接近甚至超过传统 SfM/优化式方法,但它仍然有几个限制: 全局...
TRELLIS2: Native and Compact Structured Latents for 3D Generation
作者: Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, Ruicheng Wang, Zelong Lv, Yu Deng, Hongyuan Zhu, Yue Dong, Hao Zhao, Nicholas Jing Yuan, Jiaolong Yang 单位: Tsinghua University, Microsoft Research, USTC, Microsoft AI 会议: 2025 Arxiv 链接: arXiv / Project / Code TRELLIS.2 这篇文章的核心问题很直接:如果 3D 生成模型想同时拥有高分辨率几何、复杂拓扑、内部结构、开表面,以及真实 PBR 材质,latent 表示本身就不能再只是“把某个网格或连续场压一下”。作者提出 O-Voxel 作为原生 3D 资产表示,再用 SC-VAE 把 1024³ 级别资产压到约 9.6K 个 latent tokens,最后训练总规模约 4B 参数的 flow matching 生成模型,把 image-to-3D、PBR 纹理和高分辨率...
TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation
作者:Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang 单位:Tsinghua University, USTC, Microsoft Research 会议:CVPR 2025 Highlight 链接:https://arxiv.org/abs/2412.01506, https://microsoft.github.io/TRELLIS/, https://github.com/Microsoft/TRELLIS 研究动机3D 资产生成一直卡在一个很难受的表示选择上:mesh、SDF、occupancy 等几何表示更容易得到可编辑、可导出的形状,但纹理和外观细节往往不够强;Radiance Fields 和 3D Gaussian 这类可微渲染表示外观质量高,却不一定能稳定抽取出干净几何。另一方面,很多 2D-assisted 方法先生成多视角图像再重建 3D,借到了 2D...
Mix3R: Mixing Feed-forward Reconstruction and Generative 3D Priors for Joint Multi-view Aligned 3D Reconstruction and Pose Estimation
作者:Siyou Lin, Zhou Xue, Hongwen Zhang, Liang An, Dongping Li, Shaohui Jiao, Yebin Liu 单位:Tsinghua University, Beijing Normal University, ByteDance 会议:SIGGRAPH 2026 Conference Track / arXiv 2026 链接:https://arxiv.org/abs/2605.03359 研究动机 传统多视角重建方法例如 COLMAP 依赖密集相机、特征匹配和多视角几何优化,几何精度很强,但在稀疏视角、纹理不足或遮挡明显的物体上容易失效,计算流程也不够前馈。 前馈式重建方法例如 VGGT、$\pi^3$、MapAnything 和 Depth Anything 3 可以直接预测深度、点图、射线图或相机位姿,优势是像素级对齐很自然;问题是它们主要重建可见区域,对输入视角之间的重叠依赖较强,所以稀疏视角下容易得到不完整或错误的形状。 3D 生成模型例如 TRELLIS...










