RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering
作者:Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu 单位:Australian National University; NVIDIA 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.13093 研究动机 Generalizable 3D Gaussian Splatting 的目标是跳过 per-scene optimization,用少量输入视角直接前馈预测一组 pixel-wise Gaussians,然后完成 novel view synthesis。PixelSplat、MVSplat、DepthSplat、TranSplat 等方法已经证明了这条路线的效率和泛化潜力。 但这篇论文指出,现有 pixel-wise feed-forward GS 有两个很实际的问题。 输入视角数变化会导致过亮。很多模型训练时只用固定数量的输入视角,例如 RealEstate10K 上常用 2 views;测试时如果给 4/8/16 views,同一 3D...
FocusDepth: Focusable Monocular Depth Estimation
作者:Yuxin Du, Tao Lin, Zile Zhong, Runting Li, Xiyao Chen, Jiting Liu, Chenglin Liu, Ying-Cong Chen, Yuqian Fu, Bo Zhao 单位:School of Artificial Intelligence, Shanghai Jiao Tong University; The Hong Kong University of Science and Technology (Guangzhou); King Abdullah University of Science and Technology 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.11756 研究动机 现有单目深度估计通常是 image-centric 的:输入一张图,输出一张整图深度,训练和评测也主要把所有有效像素的误差聚合起来。这个设定对全局场景理解很合理,但很多真实任务其实不是平均地关心每个像素。 机器人抓取时更关心目标物体和接触边界,AR...
MTD: The Midas Touch for Metric Depth
作者:Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan 单位:College of Electronic and Information Engineering, Tongji University; Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University; National Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Xi’an Jiaotong University 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.11578 研究动机 相对深度基础模型已经有很强的跨场景泛化能力,例如 MiDaS、DepthAnythingV2、Marigold...
UniCorrn: Unified Correspondence Transformer Across 2D and 3D
作者:Prajnan Goswami, Tianye Ding, Feng Liu, Huaizu Jiang 单位:Northeastern University, Adobe Research 会议:CVPR 2026 链接:arXiv, Project, Code 研究动机视觉对应关系是 3D 视觉里非常底层的一类能力:给定同一场景的不同观测,模型要找出一个点在另一个观测里的对应位置。传统上这件事会按输入模态拆成三类任务:图像到图像的 2D-2D matching、图像到点云的 2D-3D matching、点云到点云的 3D-3D matching。 这篇论文想解决的问题不是单个 benchmark 的精度,而是一个更大的建模问题: 能否用一个共享权重的模型,同时处理 2D-2D、2D-3D 和 3D-3D 几何匹配? 作者认为已有路线有三个关键限制: 基于 cost volume / pyramid / recurrent refinement 的 2D...
Pow3R:Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors
作者:Wonbong Jang, Philippe Weinzaepfel, Lourdes Agapito, Vincent Leroy, Jerome Revaud 单位:UCL, Naver Labs Europe 会议:2025 CVPR 链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Jang_Pow3R_Empowering_Unconstrained_3D_Reconstruction_with_Camera_and_Scene_Priors_CVPR_2025_paper.pdf 研究动机 传统的SfM(如COLMAP)缺乏预先学习的先验,每个场景必须独立优化,且对异常值和挑战性条件很敏感 。 现有的3D视觉基础模型(如DUSt3R和MASt3R)输入空间受限,仅支持纯RGB图像输入,无法利用测试时可能获取到的辅助先验信息(如相机内参、相对位姿或稀疏/稠密深度图)...
Diff2I2P: Differentiable Image-to-Point Cloud Registration with Diffusion Prior
作者:Juncheng Mu, Chengwei Ren,Weixiang Zhang, Liang Pan,Xiao-Ping Zhang,Yue Gao 单位:Tsinghua University, Shanghai AI Laboratory 会议:2025 ICCV 链接: https://github.com/mujc2021/Diff2I2P 研究动机1.当前的Image-to-Point Cloud的方法主要依靠度量学习来强制对齐图像和点云的特征空间,而忽略了两个模态之间存在的模态差距 2.非对齐的图像-深度会导致预训练扩散模型的预测能力下降,产生严重的生成伪影 3.梯度无法反向传播至骨干网络 核心方法 1.可微标定利用KPConv和ResNet分别提取特征,然后采用多尺度块匹配策略来缓解尺度不匹配问题。在选取相似度最高的前 K 个点-像素对之后,得到初始的对应点 可变性对应点调整:对于每一对初始的对应点,在gt的转换下,DCT都预测一个点偏移来对齐对应点: C = \{(x_i + \Delta p_i, y_i) \mid (x_i, y_i) \in...
Dens3R: A Foundation Model for 3D Geometry Prediction
作者:Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv 单位:Alibaba Group, Shanghai Jiao Tong University 会议:2025 Arxiv 链接:https://arxiv.org/abs/2507.16290 研究动机1.现有三维重建方法对各个几何属性是孤立估计的,忽略了多任务学习的相互约束(但是好像一直在强调Dust3R,估计忽略了VGGT) 2.表面法线对于捕捉物体的精细结构和局部几何特征至关重要(相较于VGGT的不同之处) 3.构建真正通用的 3D 视觉基础模型(但是看起来VGGT更加适合这个定义) 核心方法 1.模型结构参考Dust3R才用了shared encoder,同时将decoder也设置为shared...
Any to Full: Prompting Depth Anything for Depth Completion in One Stage
作者:Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, and Desheng Zhang 单位:Rutgers University,Michigan State University,JD Logistic,The Hong Kong University of Science and Technology (Guangzhou 会议:2026 Arxiv 链接:https://github.com/zhiyuandaily/Any2Full 研究动机1. 现有RGBD融合方法的局限性传统深度补全方法联合学习RGB分布和特定深度模式,导致: 域局限性:在光照、纹理、场景变化等视觉域偏移下性能下降 模式敏感性:对不同传感器产生的异构深度模式(稀疏密度、缺失区域、测距限制)鲁棒性差 2....
GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
作者:Nicolas von Lützow, Barbara Rössle, Katharina Schmid, and Matthias Nießner 单位:Technical University of Munich 会议:2026 Arxiv 链接:https://arxiv.org/pdf/2603.26661v1 研究动机1.三维场景的生成是一个逐渐拓展的过程,因此需要将三维空间视为结构化的序列,逐步重建 2.当前的三维生成方法虽然质量高,但是全局生成,无法进行补全、拓展、编辑。 核心方法 1.基于稀疏三维潜在编码的场景压缩将高斯元投影为三维特征网格:根据三维高斯元的位置分配到对应的体素网格中,并用他们相对体素中心的偏移量代替绝对位置。若体素中包含多个高斯元,则进行采样。然后用一个轻量化的编码器编码为高斯特征 使用稀疏三维卷积自编码器编码网格:采用编码器将网格编码为紧凑的潜在表示,解码器则重建出体素级的特征 通过向量量化离散化潜在表示:编码器的输入根据符号离散化为0和1并对应codebook的索引 \mathcal{L} =...
Repurposing Geometric Foundation Models for Multi-view Diffusion
作者:Wooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, and Sainan Liu 单位:KAIST AI ,New York University ,Intel Labs 会议:2026 Arxiv 链接:https://cvlab-kaist.github.io/GLD 研究动机1.早期的生成式方法虽然能够生成逼真的图像,但是往往在几何上不一致 2.使用一个已经将几何结构编码进去的潜在空间,来进行新视角的生成 3.几何基础模型的特征空间可以作为新视角合成的有效潜在空间 核心方法 1.验证几何特征的重建能力训练一个基于ViT的解码器,将DA3的特征用来重建RGB图像,通过随机mask单独特征,迫使解码器从部分输入进行重建 2.Multi-view Diffusion与Boundary...










