Diff2I2P: Differentiable Image-to-Point Cloud Registration with Diffusion Prior
作者:Juncheng Mu, Chengwei Ren,Weixiang Zhang, Liang Pan,Xiao-Ping Zhang,Yue Gao 单位:Tsinghua University, Shanghai AI Laboratory 会议:2025 ICCV 链接: https://github.com/mujc2021/Diff2I2P 研究动机1.当前的Image-to-Point Cloud的方法主要依靠度量学习来强制对齐图像和点云的特征空间,而忽略了两个模态之间存在的模态差距 2.非对齐的图像-深度会导致预训练扩散模型的预测能力下降,产生严重的生成伪影 3.梯度无法反向传播至骨干网络 核心方法 1.可微标定利用KPConv和ResNet分别提取特征,然后采用多尺度块匹配策略来缓解尺度不匹配问题。在选取相似度最高的前 K 个点-像素对之后,得到初始的对应点 可变性对应点调整:对于每一对初始的对应点,在gt的转换下,DCT都预测一个点偏移来对齐对应点: C = \{(x_i + \Delta p_i, y_i) \mid (x_i, y_i) \in...
Dens3R: A Foundation Model for 3D Geometry Prediction
作者:Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv 单位:Alibaba Group, Shanghai Jiao Tong University 会议:2025 Arxiv 链接:https://arxiv.org/abs/2507.16290 研究动机1.现有三维重建方法对各个几何属性是孤立估计的,忽略了多任务学习的相互约束(但是好像一直在强调Dust3R,估计忽略了VGGT) 2.表面法线对于捕捉物体的精细结构和局部几何特征至关重要(相较于VGGT的不同之处) 3.构建真正通用的 3D 视觉基础模型(但是看起来VGGT更加适合这个定义) 核心方法 1.模型结构参考Dust3R才用了shared encoder,同时将decoder也设置为shared...
Any to Full: Prompting Depth Anything for Depth Completion in One Stage
作者:Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, and Desheng Zhang 单位:Rutgers University,Michigan State University,JD Logistic,The Hong Kong University of Science and Technology (Guangzhou 会议:2026 Arxiv 链接:https://github.com/zhiyuandaily/Any2Full 研究动机1. 现有RGBD融合方法的局限性传统深度补全方法联合学习RGB分布和特定深度模式,导致: 域局限性:在光照、纹理、场景变化等视觉域偏移下性能下降 模式敏感性:对不同传感器产生的异构深度模式(稀疏密度、缺失区域、测距限制)鲁棒性差 2....
GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
作者:Nicolas von Lützow, Barbara Rössle, Katharina Schmid, and Matthias Nießner 单位:Technical University of Munich 会议:2026 Arxiv 链接:https://arxiv.org/pdf/2603.26661v1 研究动机1.三维场景的生成是一个逐渐拓展的过程,因此需要将三维空间视为结构化的序列,逐步重建 2.当前的三维生成方法虽然质量高,但是全局生成,无法进行补全、拓展、编辑。 核心方法 1.基于稀疏三维潜在编码的场景压缩将高斯元投影为三维特征网格:根据三维高斯元的位置分配到对应的体素网格中,并用他们相对体素中心的偏移量代替绝对位置。若体素中包含多个高斯元,则进行采样。然后用一个轻量化的编码器编码为高斯特征 使用稀疏三维卷积自编码器编码网格:采用编码器将网格编码为紧凑的潜在表示,解码器则重建出体素级的特征 通过向量量化离散化潜在表示:编码器的输入根据符号离散化为0和1并对应codebook的索引 \mathcal{L} =...
Repurposing Geometric Foundation Models for Multi-view Diffusion
作者:Wooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, and Sainan Liu 单位:KAIST AI ,New York University ,Intel Labs 会议:2026 Arxiv 链接:https://cvlab-kaist.github.io/GLD 研究动机1.早期的生成式方法虽然能够生成逼真的图像,但是往往在几何上不一致 2.使用一个已经将几何结构编码进去的潜在空间,来进行新视角的生成 3.几何基础模型的特征空间可以作为新视角合成的有效潜在空间 核心方法 1.验证几何特征的重建能力训练一个基于ViT的解码器,将DA3的特征用来重建RGB图像,通过随机mask单独特征,迫使解码器从部分输入进行重建 2.Multi-view Diffusion与Boundary...
CAM3R: Camera-Agnostic Model for 3D Reconstruction
作者:Namitha Guruprasad, Abhay Yadav, Cheng Peng, Rama Chellappa 单位:Johns Hopkins Universit,University of Virginia 会议:2026 Arxiv 链接:https://nam1410.github.io/cam3r/ 研究动机1.现有的模型在透视图像数据集上训练,局限在针孔相机几何,在大视场角无矫正图像上几何退化严重 2.直接对畸变图像进行矫正会导致图像被严重拉伸,丢弃掉曲率较高的边缘区域 核心方法 1.Ray Module参考UniK3D预测球谐函数表示相机光线 d_i(u)=\frac{\sum_{l=1}^{L}\sum_{m=-l}^{l} c^i_{l,m}Y_l^m(\psi(u))}{\left\|\sum_{l=1}^{L}\sum_{m=-l}^{l} c^i_{l,m}Y_l^m(\psi(u))\right\|_2}2.Cross-view Module参考Dust3R的结构形式进行信息交互与特征提取,最后用DPT head回归radial...
2K Retrofit: Entropy-Guided Efficient Sparse Refinement for High-Resolution 3D Geometry Prediction
作者:Tianbao Zhang,Zhenyu Liang,Zhenbo Song,Nana Wang,Xiaomei Zhang, Xudong Cai,Zheng Zhu,Kejian Wu,Gang Wang,Zhaoxin Fan 单位:BUAA,SJTU ,GigaAI,XREAL,NUST,RUC,NUDT,UCAS,BIBMS 会议:2026...
DVD: Deterministic Video Depth Estimation with Generative Priors
作者:Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen 单位:HKUST(GZ), HKUST, UCSD, Princeton University, MBZUAI, SZU, Knowin, UniTrento 会议:2026 Arxiv 链接:https://arxiv.org/abs/2603.12250 研究动机1.生成式方法具有强大的视频先验和零样本泛化能力,但容易出现随机采样带来的几何幻觉和尺度漂移 2.判别式方法虽然稳定高效,但又高度依赖大规模标注数据来消除语义歧义 3.打破这种...
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
作者:Ziyang Song, Zerong Wang, Bo Li , Hao Zhang , Ruijie Zhu , Li Liu , Peng-Tao Jiang , Tianzhu Zhang 单位:University of Science and Technology of China, VIVO 会议:2025 Arxiv 链接:https://indu1ge.github.io/DepthMaster_page/ 研究动机 现有的生成式深度估计模型,生成模型的中间特征会对纹理进行过度表达,导致错误的纹理预测 为了提高推理速度,采用单步去噪推理,但会丢失细节 核心方法 1.通过特征对齐模块,引入额外的视觉特征增强生成模型特征2.通过傅立叶增强模块提高模型的细节表达能力数据集Train: Hypersim Virtual KITTI Eval: NYUv2 ScanNet KITTI ETH3D DIODE 算力1张H800 实验结果 优势与不足优势 率先采用了Feature...
PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
作者:Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu Dieter Fox, Kaichun Mo, Li Fei-Fei 单位:Stanford University,NVIDIA 会议:2026 Arxiv 研究动机 对于通用机器人而言,在非结构化环境中进行世界建模是至关重要的 基于物理的模型 : 预测精准,但面临“虚实差距 ”,且需要针对特定环境进行繁琐的建模。 基于学习的动力学模型: 虽然能从交互中学习,但通常依赖于特定领域的归纳偏置 视频生成模型: 虽然能生成逼真的视觉效果(如 Sora 等),但缺乏明确的动作条件控制,且在物理一致性上往往表现不佳 核心方法 1.利用Point Flow对状态动作进行统一的建模 2.对静态动态点的Loss进行加权处理,对noise...










