Dens3R: A Foundation Model for 3D Geometry Prediction

作者：Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv

单位：Alibaba Group, Shanghai Jiao Tong University

会议：2025 Arxiv

链接：https://arxiv.org/abs/2507.16290

研究动机

1.现有三维重建方法对各个几何属性是孤立估计的，忽略了多任务学习的相互约束（但是好像一直在强调Dust3R，估计忽略了VGGT）

2.表面法线对于捕捉物体的精细结构和局部几何特征至关重要（相较于VGGT的不同之处）

3.构建真正通用的 3D 视觉基础模型（但是看起来VGGT更加适合这个定义）

核心方法

Dens3R-1

1.模型结构

参考Dust3R才用了shared encoder，同时将decoder也设置为shared weight，捕捉多视角之间的空间一致性并降低内存消耗以适应高分辨率输入

2.位置差值RoPE

由于RoPE的三角函数表示具有周期性，对于高分辨率如果直接进行外推，会落入新的周期，从而影响空间位置的相对关系，而采用差值则能控制RoPE落入同一周期内，从而保留空间位置关系：

$R'(x, m) = R\left(x, m \frac{L}{L'}\right)$

3.模型训练

尺度不变点图训练：第一阶段，训练ViT Encoder-Decoder、pointmap head以及matching head

局部三维回归损失：

$L_{\text{pts\_loc}} = \left\| \frac{1}{z_v} P_{v,v}^{\text{masked}} - \frac{1}{\bar{z}_v} \bar{P}_{v,v}^{\text{masked}} \right\|_1, \quad v \in \{1, 2\}$

全局三维回归损失：

$L_{\text{pts\_glb}} = \left\| \frac{1}{z_t} P_{v,t}^{\text{masked}} - \frac{1}{\bar{z}_t} \bar{P}_{v,t}^{\text{masked}} \right\|_1, \quad v, t \in \{1, 2\}, \; v \neq t$

点图法线损失：

$L_{\text{pts\_n}} = L_1(N_{v,v}, \hat{N}_{v,v}) + L_1(N_{v,t}, \hat{N}_{v,t}), \quad v, t \in \{1, 2\}, \; v \neq t$

像素匹配损失：

$L_{\text{match}} = -\sum_{(i,j) \in \hat{M}} \left[ \log \frac{s_\tau(i,j)}{\sum_{k \in P_1} s_\tau(k,j)} + \log \frac{s_\tau(i,j)}{\sum_{k \in P_2} s_\tau(i,k)} \right]\\ s_\tau(i,j) = \exp\left[-\tau D_{1,i}^\top D_{2,j}\right]$

内参不变点图训练：第二阶段，微调Encoder-Decoder，pointmap head以及normal head。

之前方法使用的置信度损失通常导致模型忽略复杂的场景