作者:Xuweiyi Chen, Wentao Zhou, Zezhou Cheng

单位:University of Virginia

会议:2026 CVPR

链接:https://wild-rayzer.cs.virginia.edu/

研究动机

现有自监督新视角合成方法均基于三维场景静态假设

核心方法

WildRayZer-1

1.构造动态数据集

通过挖掘网络手持影像构建动态数据集D-RE10K

2.融合DINOV3特征的伪运动标签构建

WildRayZer-2

3.mask动态物体进行render

数据集

  • Dynamic RealEstate-10K
  • D-RE10K-iPhone
  • RealEstate10K

算力

4张H100

实验结果

WildRayZer-3

WildRayZer-4

WildRayZer-5

WildRayZer-6

优势与不足

优势

  1. 完全自监督
  2. 拓展了自监督NVS在动态场景中的应用

不足

  1. 所预测的运动mask质量仍有待提高,对于特殊的纹理,如人影等仍然work得不好,部分分割与欠分割
  2. 并不算是真正的动态场景重建,并不能够将动态的物体重建出来

记忆点

  1. Unposed
  2. 用COCO数据集的物体标签直接复制粘贴到图像中,以增强模型对随机物体的鲁棒性
  3. DINOV3特征能够加快收敛,预测结果更加Sharp