三个关键方法:

1)将所有有标签的真实图像更换为合成图像

2)增强了教师模型的capacity

3)通过大规模伪标签真实图像对学生模型进行训练

真实标签数据的缺点:

1)标签噪声:传感器固有的缺点、透明等场景

2)忽略的细节:边缘、洞

导致错误的估计,过度平滑的估计

合成数据的局限性:

1)合成图像与真实图像之间的分布偏移

真实图像包含更多随机性,合成图像场景的布置较为有序。

2)所覆盖的场景有限,难以与真实世界的场景相匹敌

大规模无标签真实图像的作用:

1)缩小合成图像与真实场景之间的领域差异

2)增大所覆盖的场景范围

3)知识迁移

Depthanythingv21

Depthanythingv22

sparse的gt在评估的时候真的会影响指标的可靠性么?

能否直接训练或者使用一个强大的metric depth网络来生成metric的伪标签,从而使得学生模型能够具备metric depth预测能力?