WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
作者:Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
单位:University of Virginia
会议:2026 CVPR
链接:https://wild-rayzer.cs.virginia.edu/
研究动机
现有自监督新视角合成方法均基于三维场景静态假设
核心方法

1.构造动态数据集
通过挖掘网络手持影像构建动态数据集D-RE10K
2.融合DINOV3特征的伪运动标签构建

3.mask动态物体进行render
数据集
- Dynamic RealEstate-10K
- D-RE10K-iPhone
- RealEstate10K
算力
4张H100
实验结果




优势与不足
优势
- 完全自监督
- 拓展了自监督NVS在动态场景中的应用
不足
- 所预测的运动mask质量仍有待提高,对于特殊的纹理,如人影等仍然work得不好,部分分割与欠分割
- 并不算是真正的动态场景重建,并不能够将动态的物体重建出来
记忆点
- Unposed
- 用COCO数据集的物体标签直接复制粘贴到图像中,以增强模型对随机物体的鲁棒性
- DINOV3特征能够加快收敛,预测结果更加Sharp









