2K Retrofit: Entropy-Guided Efficient Sparse Refinement for High-Resolution 3D Geometry Prediction

作者：Tianbao Zhang，Zhenyu Liang，Zhenbo Song，Nana Wang，Xiaomei Zhang， Xudong Cai，Zheng Zhu，Kejian Wu，Gang Wang，Zhaoxin Fan

单位：BUAA，SJTU ，GigaAI，XREAL，NUST，RUC，NUDT，UCAS，BIBMS

会议：2026 Arxiv

研究动机

1.当前的三维基础模型虽然在各种现实场景中展示出强大的泛化性和可拓展性，但是在处理2K级别的高分辨率图像时仍然受算力和内存限制，无法大规模应用。

2.当前的面向高分辨率的方法还无法在高效的同时保持高精度预测

3.低分辨率预测和高分辨率结果之间的差异，主要集中在稀疏的像素子集上，只需对高影响区域进行细化，就能够在保持极低的计算和内存开销时，实现精确且可靠的高分辨率几何预测。

Retrofit-1

1.在下采样低分辨率的图像上预测输出，能够充分利用基础模型的全局先验。然后使用最近邻插值上采样到原始分辨率，得到粗糙的高分辨率预测。

2.采用熵作为模型不确定性的测量，对softmax归一化过的logits计算熵：

$\mathcal{H}(p) = -\sum_{c=1}^{C} q_p^{(c)} \log q_p^{(c)}.$

3.采用MinkowskiUNet作为稀疏特征提取器：

$\Delta Y_p = \mathcal{R}(\mathbf{I}_{\mathrm{HR}|p}), \quad \forall p \in \mathcal{P}.$

4.门控融合：

$Y_p = f\left(w_p \cdot \hat{Y}_p + (1 - w_p) \cdot \Delta Y_p\right),$

融合权重定义为：

$w_p = \sigma\left(\mathrm{MLP}\left([\hat{Y}_p;\Delta Y_p;\mathcal{H}(\hat{Y}_p);\mathcal{H}(\Delta Y_p)]\right)\right),$

Train：使用NVIDIA Omniverse生成了50K高质量帧

Eval：ARKitScenes，Scannet++，ETH3D

2张A6000训练，1张4090评估，采用FP16精度

Retrofit-3

Retrofit-4

Retrofit-5

Retrofit-6

Retrofit-7

Retrofit-8

Retrofit-9

1.避免了直接高分辨率输入带来的计算成本，使用轻量化的细化模块提高了基础模型的高分辨率预测能力

1.为了提高模型的推理效率，模型设计的选择在模型精度上的的损失还是比较大的，存在一定的漏检风险

2.在更极端的分辨率上的测试结果有待验证

1.高分辨率预测的误差集中在稀疏但语义关键的区域，例如边界和小尺度结构

Retrofit-2

2.对head features计算熵，而不是对输出计算