Unified Panoramic Geometry Estimation via Multi-View Foundation Models
作者:Vukasin Bozic, Isidora Slavkovic, Dominik Narnhofer, Nando Metzger, Denis Rozumny, Konrad Schindler, Nikolai Kalischek
单位:ETH Zurich, Google, Athlence Sports, Meta
会议:2026 arXiv(NeurIPS 2026 preprint,未见公开接收信息)
链接:https://arxiv.org/abs/2605.26368
研究动机
透视图上的几何基础模型这两年进步很快,像 DA3 这类多视角 Transformer 已经能把单张图像也做出相当强的三维几何重建能力。但它们默认服务的是 perspective image,每张图只有局部视野,做完整空间理解仍然要靠多视角拼接。
全景图天然覆盖 $360^\circ \times 180^\circ$,理论上更适合一次性恢复完整场景结构;问题在于现有全景深度/法线方法长期受两件事卡住:一是高质量全景几何数据少,模型容易在小数据集上过拟合;二是 equirectangular projection 会在两极附近产生严重畸变,直接拿透视模型迁移过来通常效果很差。
这篇文章的核心问题其实很明确:能不能不重新发明一套“只给全景图用”的重型架构,而是把已经很强的多视角几何基础模型,尽量小改动地迁移到 panorama 场景里,同时一次前向就输出尺度不变深度、绝对深度、表面法线和天空掩码。

图 1 其实已经把论文的目标说透了:输入一张单目全景图,PaGeR 希望直接给出可用于三维理解的整套几何结果,而不是只给一张相对深度图。这也是它和很多“只做一个任务”的全景深度方法最大的区别。
核心方法
- 论文先不直接在 ERP 上做文章,而是把全景图改写成六个面的 cubemap。作者明确指出 ERP 的问题不是“形式不优雅”,而是会让极区采样密度随 $\sec(\phi)$ 变化,导致卷积或 Transformer 在透视图上学到的先验很难直接复用:
把球面投到 cubemap 之后,每个面都是标准 $90^\circ$ 透视视角,这样就能直接复用多视角几何骨干的相机建模能力和 cross-view attention。
- PaGeR 的骨干直接继承自 DA3。真正重要的不是“换了个 backbone”,而是作者把 panorama 看成一个有固定相机外参关系的 six-view problem。六个面共享一个 geometry transformer backbone,编码阶段靠相机 token、面位置编码和跨视角注意力隐式同步相邻面的特征;这一步决定了全局结构能不能对齐。

仅靠 encoder 的全局注意力还不够,因为 decoder 上采样时很容易在 cube face 边界处出缝。论文这里用了一个很实用的补丁:cross-face valid padding。它本质上是在卷积和插值时,不再用普通 zero padding,而是从几何相邻的 cubemap face 上取有效特征补边。这个设计不花哨,但非常对症,因为全景重建最肉眼可见的问题就是 seam artifact。
训练策略同样是这篇论文能跑通的关键。作者没有只拿 synthetic panorama 硬训,而是采用 panoramic / perspective 混合训练。全景 batch 用六面输入并启用 cross-face padding;透视 batch 则只保留单张真实图像,并把它 warp 到与 cubemap 面一致的 $90^\circ$ FoV,同时关闭 cross-face padding。这样做的意义在于两点:第一,避免模型快速偏离预训练好的 perspective prior;第二,用真实透视图统计特性压住 synthetic-only 训练带来的 sim-to-real 偏差。
输出头是统一多任务设计。PaGeR 同时预测 scale-invariant depth、metric depth、surface normals 和 sky mask,但作者没有把“绝对尺度”硬塞进高分辨率结构分支里,而是显式把“结构”和“尺度”拆开。尺度不变深度分支学习局部几何;metric head 只在低分辨率上估计全局尺度偏移,再把它乘回去:
这个设计很聪明,因为它承认了一个事实:单目全景里“结构恢复”和“绝对尺度恢复”不是同一难度的问题。先把相对几何做扎实,再让 coarse metric branch 去补全局尺度,比端到端硬回归更稳。
- 另外一个很实用的点是 sky segmentation。天空本质上对应无穷远或无有效几何约束区域,如果直接把它混进 metric regression,很容易让尺度学习发散。PaGeR 单独加了天空分支,把这部分从深度/法线建模里剥离出去,这也是它 outdoor 场景表现明显更稳的重要原因。
数据集
训练数据采用“合成全景 + 真实透视”的混合模式。论文给出的规模是 80k synthetic panoramas,来源于 Structured3D 和作者新建的 PanoInfinigen;再加 10k real perspective images,来自 ScanNet++ 和 ARKitScenes。
PanoInfinigen 是这篇论文附带的一个重要资产。它不是只补一点 indoor 全景,而是明确想把训练分布扩展到高分辨率、同时覆盖 indoor / outdoor 的 synthetic panorama。论文附录写得很清楚:每个样本提供 4K RGB、metric depth 和 surface normals,并且对天空和高反光区域做了后处理过滤,目标是给长距离 outdoor 几何估计提供更可信的监督。
评测集分成两组:
- 深度评测:Matterport3D360、Stanford2D3DS、ZuriPano
- 法线评测:Structured3D
- 其中 ZuriPano 是作者自己引入的 outdoor urban LiDAR benchmark,这一点很关键。很多旧方法在 indoor benchmark 上分数不差,但因为测试深度范围窄、场景也偏室内,模型到底有没有真正学到远距离 outdoor geometry,其实看不出来。PaGeR 把 depth evaluation range 明确放到 $[0, 75]\text{m}$,就是为了避免只在近距离窗口里“看起来很准”。
算力
模型初始化自预训练的 DA3,并使用 DINOv2 backbone。
优化器是 AdamW,初始学习率 $3 \times 10^{-4}$,EMA decay 为 0.999。训练分两阶段:先联合训练 scale-invariant depth 和 normals decoder,再冻结这些部分,单独训练 metric scale head 和 sky segmentation head。
第一阶段需要 8 张 NVIDIA H200,训练约 12 小时;第二阶段继续训练约 8 小时。
训练分辨率是每个 cubemap face 为 $504 \times 504$,拼回去大致对应 2K ERP。推理时完整处理一张 2K panorama 约 0.5 秒,显存占用 12.8 GB。这个数字很重要,它说明 PaGeR 不是只能停留在“论文里可行”,而是已经接近单卡部署的实用区间。
实验结果

- 定性结果先看 Figure 3。PaGeR 相比 DAP 和 $\mathrm{DA}^2$ 的优势非常直观:边界更锐利、远处结构更稳定、整张图的全局几何关系更连续。尤其在 ZuriPano 的室外样例里,竞品要么远景糊成一片,要么尺度关系漂掉,而 PaGeR 至少把“大结构先站住了”。

- 尺度不变深度上,PaGeR 三个数据集全部第一:
- Matterport3D360:AbsRel 9.67,RMSE 64.69,$\delta_1$ 90.87
- Stanford2D3DS:AbsRel 5.93,RMSE 35.34,$\delta_1$ 96.10
- ZuriPano:AbsRel 9.36,RMSE 299.61,$\delta_1$ 94.75
最值得重视的是 ZuriPano。上一档最强 outdoor baseline RPG360 的 AbsRel 是 18.27,PaGeR 直接降到 9.36,几乎砍半。这说明它不是只在 indoor benchmark 上“微幅领先”,而是真的把全景几何基础模型的跨域泛化能力拉起来了。

- 绝对深度也明显提升。作者把 indoor / outdoor 的 metric head 分开训练,这个选择虽然不够“纯统一”,但效果确实有效。在 ZuriPano 上,PaGeR 的 RMSE 530.85,明显优于次优的 DepthAnyCamera 716.38;在 Matterport3D360 和 Stanford2D3DS 上也都拿到最好结果。这里能看出论文的工程判断很务实:共享 backbone 学结构,domain-specific head 学尺度,比强行一个头吃完所有场景更稳。

- 表面法线同样拿到 SOTA。Structured3D 上,PaGeR 的 Mean Angular Error 为 $5.49^\circ$,MSE 为 174.9,$\delta{5^\circ}$ / $\delta{22.5^\circ}$ 分别是 79.91 / 92.83,全面优于 PanoNormal 和 HyperSphere。这个结果说明 unified multi-task 并没有拖累 normals,反而让共享几何表征带来了收益。

法线定性图也能支撑这个结论。PaGeR 的输出比 MTL 更干净,墙体、柜体、曲面边界更清楚,说明它学到的不只是“颜色到法线”的局部贴图映射,而是更接近整体三维结构的一致几何表示。
论文的 ablation 也比较扎实。去掉 camera conditioning、去掉 sky head、去掉 valid padding、去掉 perspective co-training,指标都会掉;尤其 camera conditioning 和 sky decoupling 的影响很明显。这意味着 PaGeR 的提升不是某一个 trick 碰巧奏效,而是表示方式、训练数据流和任务拆分共同起作用。
优势与不足
优势
把 panorama 问题重写成 cubemap multi-view 问题,是这篇文章最强的地方。它没有在 ERP 上和畸变死磕,而是最大化复用现有多视角几何基础模型的先验。
结构设计很克制。作者没有大改 backbone,而是只在最痛的地方下手:边界 padding、混合训练、多任务头、天空解耦。这种“少改但改对地方”的方案比重新造一个全景专用大模型更有可迁移性。
结果不是单点突破,而是 scale-invariant depth、metric depth、surface normals 三条线一起提升,尤其 outdoor long-range generalization 很强。这让 PaGeR 更像一个全景几何基础模块,而不只是某个 benchmark 定制器。
不足
绝对尺度恢复依然没有完全统一。作者自己就选择了 indoor / outdoor 分开的 metric heads,这本身说明“共享结构表征 + 通用尺度恢复”仍然是瓶颈,metric depth 还没有像相对几何那样被彻底解决。
论文 limitations 写得比较实在:反光、透明材质、复杂材料变化下,单目几何歧义依然明显;即便有 cross-face padding 和全局注意力,在少数结构极复杂场景里仍然会有边界轻微错位。这说明 seam 问题被压住了,但还没有从建模层面被彻底消灭。
训练数据虽然做了混合,但 panorama supervision 仍然高度依赖 synthetic source。PanoInfinigen 很有价值,但 synthetic-to-real gap 并没有消失,只是通过 perspective co-training 被缓和了。未来如果能有更大规模真实全景几何数据,PaGeR 这条路线还有继续往上走的空间。
记忆点
对 panorama 几何来说,最关键的不是“换更大的 backbone”,而是把问题表示成 foundation model 已经擅长的 multi-view geometry 形式。
encoder 的 cross-view attention 解决全局一致性,decoder 的 cross-face valid padding 解决局部 seam;这两者缺一不可。
metric depth 不应该和 high-resolution structure 硬绑在一起。PaGeR 把“局部结构”与“全局尺度”拆分,是这篇论文里最值得借鉴的设计。
sky segmentation 在 outdoor metric geometry 里不是附属任务,而是稳定训练的重要前提,因为天空对应的是无穷远区域。
用 ZuriPano 和 $[0,75]\text{m}$ 的评测区间去逼问模型的远距离 outdoor 能力,这个 benchmark 设计本身就很有价值。












