WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
发表于|更新于|新视角合成
|总字数:273|阅读时长:1分钟|浏览量:
作者:Xuweiyi Chen, Wentao Zhou, Zezhou Cheng
单位:University of Virginia
会议:2026 CVPR
链接:https://wild-rayzer.cs.virginia.edu/
研究动机
现有自监督新视角合成方法均基于三维场景静态假设
核心方法

1.构造动态数据集
通过挖掘网络手持影像构建动态数据集D-RE10K
2.融合DINOV3特征的伪运动标签构建

3.mask动态物体进行render
数据集
- Dynamic RealEstate-10K
- D-RE10K-iPhone
- RealEstate10K
算力
4张H100
实验结果




优势与不足
优势
- 完全自监督
- 拓展了自监督NVS在动态场景中的应用
不足
- 所预测的运动mask质量仍有待提高,对于特殊的纹理,如人影等仍然work得不好,部分分割与欠分割
- 并不算是真正的动态场景重建,并不能够将动态的物体重建出来
记忆点
- Unposed
- 用COCO数据集的物体标签直接复制粘贴到图像中,以增强模型对随机物体的鲁棒性
- DINOV3特征能够加快收敛,预测结果更加Sharp
相关推荐

2026-05-18
DINOv2: Learning Robust Visual Features without Supervision
作者:Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski 单位:Meta AI Research, Inria, Universite Paris-Saclay, ENS-PSL 会议:TMLR 2024 / arXiv...

2026-05-18
DINOv3
作者:Oriane Simeoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michael Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothee Darcet, Theo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Herve Jegou, Patrick Labatut, Piotr Bojanowski 单位:Meta AI Research, WRI, Inria 会议:2025...

2026-05-18
Emerging Properties in Self-Supervised Vision Transformers
作者:Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin 单位:Facebook AI Research, Inria, Sorbonne University 会议:ICCV 2021 / arXiv 2021 链接:https://arxiv.org/abs/2104.14294 研究动机 这篇论文关心的问题不是“ViT 能不能做自监督”,而是“自监督会不会让 ViT 学到和监督学习、卷积网络不同的性质”。当时 ViT 在视觉任务上已经能和卷积网络竞争,但代价是更多数据和更高算力,而且特征并没有表现出特别清晰的独特优势。作者的判断是:如果 Transformer 在 NLP 中的成功很大程度来自自监督预训练,那么视觉 Transformer 也应该检查监督标签是否压缩了图像中的丰富信息。 论文给出的两个核心观察很直接。第一,自监督 ViT 的最后一层 [CLS] token...

2024-12-28
The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
ABSTRACT提出目前存在的问题对于许多应用来说,视频帧的序列信息在测试阶段也可以获得,但大多数单目网络没有使用这个额外的信号,忽略了重要的信息;这些方法要么在测试阶段使用计算量大的细化技术,要么采用非循环网络,间接使用那些本就可获得的几何信息。 本文方法和创新点提出了ManyDepth,一种自适应的稠密深度估计方法,能够在测试阶段利用序列信息。 提出了一个端到端的cost volume,基于只用自监督训练的方法 采用了一个新的一致性损失,当cost volume不可靠时忽略它 实验效果提升在KITTI和Cityscape上的实验表明我们的方法比所有已发布的自监督baseline都要好,包括那些在测试阶段使用单帧或多帧的方法。 INTRODUCTION问题:在测试阶段,实际情况下可以得到不止一帧,而现有的单目方法没有使用这些额外的帧 将子监督训练直接应用于多视角平面扫描立体结构会产生较差的结果 本文提出(创新点)① 在训练和测试阶段都使用这些额外的帧来对多帧的深度估计系统进行自监督 ②...

2024-12-28
Unsupervised Learning of Depth and Ego-Motion from Video
ABSTRACT本文方法和创新点提出了一个无监督学习框架用于单目深度和相机运动估计任务 使用了单视角深度网络和多视角位姿网络,利用计算的深度和位姿将附近的视角扭曲到目标视角上,定义了一个损失 实验效果提升在单目深度估计上的性能与有监督的方法相当 在相当的输入的情况下,位姿估计的新能要优于已建立的SLAM系统 INTRODUCTION问题:多年的研究还不能够使得对真实世界场景的建模能力与人类水平相当 几何视角合成系统只有当它对场景几何及相机位姿的中间预测和物理ground-truth一致时,其表现才能一致良好。 本文提出(创新点)① 训练了一个模型,观察图像序列,并通过预测可能的相机运动和场景结构来解释其观察。 ② 采用了一种端到端的方法,能够从输入像素直接预测自运动(用六自由度的变换矩阵参数化表示),得到场景结构(用一个参考视角下的逐像素的深度图表示) RELATED WORKStructure from...

2026-05-14
RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering
作者:Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu 单位:Australian National University; NVIDIA 会议:2026 Arxiv 链接:https://arxiv.org/abs/2605.13093 研究动机 Generalizable 3D Gaussian Splatting 的目标是跳过 per-scene optimization,用少量输入视角直接前馈预测一组 pixel-wise Gaussians,然后完成 novel view synthesis。PixelSplat、MVSplat、DepthSplat、TranSplat 等方法已经证明了这条路线的效率和泛化潜力。 但这篇论文指出,现有 pixel-wise feed-forward GS 有两个很实际的问题。 输入视角数变化会导致过亮。很多模型训练时只用固定数量的输入视角,例如 RealEstate10K 上常用 2 views;测试时如果给 4/8/16 views,同一 3D...
评论
公告
记录读研过程中学习阅读的相关论文书籍与研究内容。部分前期论文阅读记录格式较乱,请多多包涵。后期会尽量统一论文阅读记录的格式。同时也将更新更多有趣的内容。
目录
最新文章







