CAM3R: Camera-Agnostic Model for 3D Reconstruction
作者:Namitha Guruprasad, Abhay Yadav, Cheng Peng, Rama Chellappa 单位:Johns Hopkins Universit,University of Virginia 会议:2026 Arxiv 链接:https://nam1410.github.io/cam3r/ 研究动机1.现有的模型在透视图像数据集上训练,局限在针孔相机几何,在大视场角无矫正图像上几何退化严重 2.直接对畸变图像进行矫正会导致图像被严重拉伸,丢弃掉曲率较高的边缘区域 核心方法 1.Ray Module参考UniK3D预测球谐函数表示相机光线 d_i(u)=\frac{\sum_{l=1}^{L}\sum_{m=-l}^{l} c^i_{l,m}Y_l^m(\psi(u))}{\left\|\sum_{l=1}^{L}\sum_{m=-l}^{l} c^i_{l,m}Y_l^m(\psi(u))\right\|_2}2.Cross-view Module参考Dust3R的结构形式进行信息交互与特征提取,最后用DPT head回归radial...
2K Retrofit: Entropy-Guided Efficient Sparse Refinement for High-Resolution 3D Geometry Prediction
作者:Tianbao Zhang,Zhenyu Liang,Zhenbo Song,Nana Wang,Xiaomei Zhang, Xudong Cai,Zheng Zhu,Kejian Wu,Gang Wang,Zhaoxin Fan 单位:BUAA,SJTU ,GigaAI,XREAL,NUST,RUC,NUDT,UCAS,BIBMS 会议:2026...
DVD: Deterministic Video Depth Estimation with Generative Priors
作者:Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen 单位:HKUST(GZ), HKUST, UCSD, Princeton University, MBZUAI, SZU, Knowin, UniTrento 会议:2026 Arxiv 链接:https://arxiv.org/abs/2603.12250 研究动机1.生成式方法具有强大的视频先验和零样本泛化能力,但容易出现随机采样带来的几何幻觉和尺度漂移 2.判别式方法虽然稳定高效,但又高度依赖大规模标注数据来消除语义歧义 3.打破这种...
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
作者:Ziyang Song, Zerong Wang, Bo Li , Hao Zhang , Ruijie Zhu , Li Liu , Peng-Tao Jiang , Tianzhu Zhang 单位:University of Science and Technology of China, VIVO 会议:2025 Arxiv 链接:https://indu1ge.github.io/DepthMaster_page/ 研究动机 现有的生成式深度估计模型,生成模型的中间特征会对纹理进行过度表达,导致错误的纹理预测 为了提高推理速度,采用单步去噪推理,但会丢失细节 核心方法 1.通过特征对齐模块,引入额外的视觉特征增强生成模型特征2.通过傅立叶增强模块提高模型的细节表达能力数据集Train: Hypersim Virtual KITTI Eval: NYUv2 ScanNet KITTI ETH3D DIODE 算力1张H800 实验结果 优势与不足优势 率先采用了Feature...
PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
作者:Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu Dieter Fox, Kaichun Mo, Li Fei-Fei 单位:Stanford University,NVIDIA 会议:2026 Arxiv 研究动机 对于通用机器人而言,在非结构化环境中进行世界建模是至关重要的 基于物理的模型 : 预测精准,但面临“虚实差距 ”,且需要针对特定环境进行繁琐的建模。 基于学习的动力学模型: 虽然能从交互中学习,但通常依赖于特定领域的归纳偏置 视频生成模型: 虽然能生成逼真的视觉效果(如 Sora 等),但缺乏明确的动作条件控制,且在物理一致性上往往表现不佳 核心方法 1.利用Point Flow对状态动作进行统一的建模 2.对静态动态点的Loss进行加权处理,对noise...
MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
作者:Baorui Ma,Jiahui Yang,Donglin Di,Xuancheng Zhang, Jianxun Cui, Hao Li, Xie Yan, Wei Chen 单位:Li Auto Inc 会议:2026 Arxiv 链接:https://metric-anything.github.io/metric-anything-io/ 研究动机由于数据来源复杂,暂无工作将Scaling原则应用于绝对深度估计,实现一个通用的模型 核心方法1.构造20M数据 2.Deep-to-Deep...
WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
作者:Xuweiyi Chen, Wentao Zhou, Zezhou Cheng 单位:University of Virginia 会议:2026 CVPR 链接:https://wild-rayzer.cs.virginia.edu/ 研究动机现有自监督新视角合成方法均基于三维场景静态假设 核心方法 1.构造动态数据集通过挖掘网络手持影像构建动态数据集D-RE10K 2.融合DINOV3特征的伪运动标签构建 3.mask动态物体进行render数据集 Dynamic RealEstate-10K D-RE10K-iPhone RealEstate10K 算力4张H100 实验结果 优势与不足优势 完全自监督 拓展了自监督NVS在动态场景中的应用 不足 所预测的运动mask质量仍有待提高,对于特殊的纹理,如人影等仍然work得不好,部分分割与欠分割 并不算是真正的动态场景重建,并不能够将动态的物体重建出来 记忆点 Unposed 用COCO数据集的物体标签直接复制粘贴到图像中,以增强模型对随机物体的鲁棒性 DINOV3特征能够加快收敛,预测结果更加Sharp










