Unified Panoramic Geometry Estimation via Multi-View Foundation Models

作者：Vukasin Bozic, Isidora Slavkovic, Dominik Narnhofer, Nando Metzger, Denis Rozumny, Konrad Schindler, Nikolai Kalischek

单位：ETH Zurich, Google, Athlence Sports, Meta

会议：2026 arXiv（NeurIPS 2026 preprint，未见公开接收信息）

链接：https://arxiv.org/abs/2605.26368

研究动机

透视图上的几何基础模型这两年进步很快，像 DA3 这类多视角 Transformer 已经能把单张图像也做出相当强的三维几何重建能力。但它们默认服务的是 perspective image，每张图只有局部视野，做完整空间理解仍然要靠多视角拼接。
全景图天然覆盖 $360^\circ \times 180^\circ$，理论上更适合一次性恢复完整场景结构；问题在于现有全景深度/法线方法长期受两件事卡住：一是高质量全景几何数据少，模型容易在小数据集上过拟合；二是 equirectangular projection 会在两极附近产生严重畸变，直接拿透视模型迁移过来通常效果很差。
这篇文章的核心问题其实很明确：能不能不重新发明一套“只给全景图用”的重型架构，而是把已经很强的多视角几何基础模型，尽量小改动地迁移到 panorama 场景里，同时一次前向就输出尺度不变深度、绝对深度、表面法线和天空掩码。

PaGeR-0

图 1 其实已经把论文的目标说透了：输入一张单目全景图，PaGeR 希望直接给出可用于三维理解的整套几何结果，而不是只给一张相对深度图。这也是它和很多“只做一个任务”的全景深度方法最大的区别。

核心方法

论文先不直接在 ERP 上做文章，而是把全景图改写成六个面的 cubemap。作者明确指出 ERP 的问题不是“形式不优雅”，而是会让极区采样密度随 $\sec(\phi)$ 变化，导致卷积或 Transformer 在透视图上学到的先验很难直接复用：

$u = \frac{\theta}{2\pi} + 0.5,\quad v = \frac{\phi}{\pi} + 0.5$

把球面投到 cubemap 之后，每个面都是标准 $90^\circ$ 透视视角，这样就能直接复用多视角几何骨干的相机建模能力和 cross-view attention。

PaGeR 的骨干直接继承自 DA3。真正重要的不是“换了个 backbone”，而是作者把 panorama 看成一个有固定相机外参关系的 six-view problem。六个面共享一个 geometry transformer backbone，编码阶段靠相机 token、面位置编码和跨视角注意力隐式同步相邻面的特征；这一步决定了全局结构能不能对齐。

PaGeR-1

仅靠 encoder 的全局注意力还不够，因为 decoder 上采样时很容易在 cube face 边界处出缝。论文这里用了一个很实用的补丁：cross-face valid padding。它本质上是在卷积和插值时，不再用普通 zero padding，而是从几何相邻的 cubemap face 上取有效特征补边。这个设计不花哨，但非常对症，因为全景重建最肉眼可见的问题就是 seam artifact。
训练策略同样是这篇论文能跑通的关键。作者没有只拿 synthetic panorama 硬训，而是采用 panoramic / perspective 混合训练。全景 batch 用六面输入并启用 cross-face padding；透视 batch 则只保留单张真实图像，并把它 warp 到与 cubemap 面一致的 $90^\circ$ FoV，同时关闭 cross-face padding。这样做的意义在于两点：第一，避免模型快速偏离预训练好的 perspective prior；第二，用真实透视图统计特性压住 synthetic-only 训练带来的 sim-to-real 偏差。
输出头是统一多任务设计。PaGeR 同时预测 scale-invariant depth、metric depth、surface normals 和 sky mask，但作者没有把“绝对尺度”硬塞进高分辨率结构分支里，而是显式把“结构”和“尺度”拆开。尺度不变深度分支学习局部几何；metric head 只在低分辨率上估计全局尺度偏移，再把它乘回去：

$\hat{\beta} = \mathrm{median}_{\mathbf{a}}\left(\hat{z}_m(\mathbf{a}) - \mathrm{pool}[\hat{z}_{SI}](\mathbf{a})\right),\quad \hat{Z}_m = \exp(\hat{\beta})\hat{Z}_{SI}$

这个设计很聪明，因为它承认了一个事实：单目全景里“结构恢复”和“绝对尺度恢复”不是同一难度的问题。先把相对几何做扎实，再让 coarse metric branch 去补全局尺度，比端到端硬回归更稳。

另外一个很实用的点是 sky segmentation。天空本质上对应无穷远或无有效几何约束区域，如果直接把它混进 metric regression，很容易让尺度学习发散。PaGeR 单独加了天空分支，把这部分从深度/法线建模里剥离出去，这也是它 outdoor 场景表现明显更稳的重要原因。

数据集

训练数据采用“合成全景 + 真实透视”的混合模式。论文给出的规模是 80k synthetic panoramas，来源于 Structured3D 和作者新建的 PanoInfinigen；再加 10k real perspective images，来自 ScanNet++ 和 ARKitScenes。
PanoInfinigen 是这篇论文附带的一个重要资产。它不是只补一点 indoor 全景，而是明确想把训练分布扩展到高分辨率、同时覆盖 indoor / outdoor 的 synthetic panorama。论文附录写得很清楚：每个样本提供 4K RGB、metric depth 和 surface normals，并且对天空和高反光区域做了后处理过滤，目标是给长距离 outdoor 几何估计提供更可信的监督。
评测集分成两组：

深度评测：Matterport3D360、Stanford2D3DS、ZuriPano
法线评测：Structured3D

其中 ZuriPano 是作者自己引入的 outdoor urban LiDAR benchmark，这一点很关键。很多旧方法在 indoor benchmark 上分数不差，但因为测试深度范围窄、场景也偏室内，模型到底有没有真正学到远距离 outdoor geometry，其实看不出来。PaGeR 把 depth evaluation range 明确放到 $[0, 75]\text{m}$，就是为了避免只在近距离窗口里“看起来很准”。

算力

模型初始化自预训练的 DA3，并使用 DINOv2 backbone。
优化器是 AdamW，初始学习率 $3 \times 10^{-4}$，EMA decay 为 0.999。训练分两阶段：先联合训练 scale-invariant depth 和 normals decoder，再冻结这些部分，单独训练 metric scale head 和 sky segmentation head。
第一阶段需要 8 张 NVIDIA H200，训练约 12 小时；第二阶段继续训练约 8 小时。
训练分辨率是每个 cubemap face 为 $504 \times 504$，拼回去大致对应 2K ERP。推理时完整处理一张 2K panorama 约 0.5 秒，显存占用 12.8 GB。这个数字很重要，它说明 PaGeR 不是只能停留在“论文里可行”，而是已经接近单卡部署的实用区间。

实验结果

PaGeR-2

定性结果先看 Figure 3。PaGeR 相比 DAP 和 $\mathrm{DA}^2$ 的优势非常直观：边界更锐利、远处结构更稳定、整张图的全局几何关系更连续。尤其在 ZuriPano 的室外样例里，竞品要么远景糊成一片，要么尺度关系漂掉，而 PaGeR 至少把“大结构先站住了”。

PaGeR-3

尺度不变深度上，PaGeR 三个数据集全部第一：

Matterport3D360：AbsRel 9.67，RMSE 64.69，$\delta_1$ 90.87
Stanford2D3DS：AbsRel 5.93，RMSE 35.34，$\delta_1$ 96.10
ZuriPano：AbsRel 9.36，RMSE 299.61，$\delta_1$ 94.75

最值得重视的是 ZuriPano。上一档最强 outdoor baseline RPG360 的 AbsRel 是 18.27，PaGeR 直接降到 9.36，几乎砍半。这说明它不是只在 indoor benchmark 上“微幅领先”，而是真的把全景几何基础模型的跨域泛化能力拉起来了。

PaGeR-4

绝对深度也明显提升。作者把 indoor / outdoor 的 metric head 分开训练，这个选择虽然不够“纯统一”，但效果确实有效。在 ZuriPano 上，PaGeR 的 RMSE 530.85，明显优于次优的 DepthAnyCamera 716.38；在 Matterport3D360 和 Stanford2D3DS 上也都拿到最好结果。这里能看出论文的工程判断很务实：共享 backbone 学结构，domain-specific head 学尺度，比强行一个头吃完所有场景更稳。

PaGeR-5

表面法线同样拿到 SOTA。Structured3D 上，PaGeR 的 Mean Angular Error 为 $5.49^\circ$，MSE 为 174.9，$\delta{5^\circ}$ / $\delta{22.5^\circ}$ 分别是 79.91 / 92.83，全面优于 PanoNormal 和 HyperSphere。这个结果说明 unified multi-task 并没有拖累 normals，反而让共享几何表征带来了收益。

PaGeR-6

法线定性图也能支撑这个结论。PaGeR 的输出比 MTL 更干净，墙体、柜体、曲面边界更清楚，说明它学到的不只是“颜色到法线”的局部贴图映射，而是更接近整体三维结构的一致几何表示。
论文的 ablation 也比较扎实。去掉 camera conditioning、去掉 sky head、去掉 valid padding、去掉 perspective co-training，指标都会掉；尤其 camera conditioning 和 sky decoupling 的影响很明显。这意味着 PaGeR 的提升不是某一个 trick 碰巧奏效，而是表示方式、训练数据流和任务拆分共同起作用。

优势与不足

优势

把 panorama 问题重写成 cubemap multi-view 问题，是这篇文章最强的地方。它没有在 ERP 上和畸变死磕，而是最大化复用现有多视角几何基础模型的先验。
结构设计很克制。作者没有大改 backbone，而是只在最痛的地方下手：边界 padding、混合训练、多任务头、天空解耦。这种“少改但改对地方”的方案比重新造一个全景专用大模型更有可迁移性。
结果不是单点突破，而是 scale-invariant depth、metric depth、surface normals 三条线一起提升，尤其 outdoor long-range generalization 很强。这让 PaGeR 更像一个全景几何基础模块，而不只是某个 benchmark 定制器。

不足

绝对尺度恢复依然没有完全统一。作者自己就选择了 indoor / outdoor 分开的 metric heads，这本身说明“共享结构表征 + 通用尺度恢复”仍然是瓶颈，metric depth 还没有像相对几何那样被彻底解决。
论文 limitations 写得比较实在：反光、透明材质、复杂材料变化下，单目几何歧义依然明显；即便有 cross-face padding 和全局注意力，在少数结构极复杂场景里仍然会有边界轻微错位。这说明 seam 问题被压住了，但还没有从建模层面被彻底消灭。
训练数据虽然做了混合，但 panorama supervision 仍然高度依赖 synthetic source。PanoInfinigen 很有价值，但 synthetic-to-real gap 并没有消失，只是通过 perspective co-training 被缓和了。未来如果能有更大规模真实全景几何数据，PaGeR 这条路线还有继续往上走的空间。

记忆点

对 panorama 几何来说，最关键的不是“换更大的 backbone”，而是把问题表示成 foundation model 已经擅长的 multi-view geometry 形式。
encoder 的 cross-view attention 解决全局一致性，decoder 的 cross-face valid padding 解决局部 seam；这两者缺一不可。
metric depth 不应该和 high-resolution structure 硬绑在一起。PaGeR 把“局部结构”与“全局尺度”拆分，是这篇论文里最值得借鉴的设计。
sky segmentation 在 outdoor metric geometry 里不是附属任务，而是稳定训练的重要前提，因为天空对应的是无穷远区域。
用 ZuriPano 和 $[0,75]\text{m}$ 的评测区间去逼问模型的远距离 outdoor 能力，这个 benchmark 设计本身就很有价值。