Unsupervised Learning of Depth and Ego-Motion from Video
ABSTRACT本文方法和创新点提出了一个无监督学习框架用于单目深度和相机运动估计任务 使用了单视角深度网络和多视角位姿网络,利用计算的深度和位姿将附近的视角扭曲到目标视角上,定义了一个损失 实验效果提升在单目深度估计上的性能与有监督的方法相当 在相当的输入的情况下,位姿估计的新能要优于已建立的SLAM系统 INTRODUCTION问题:多年的研究还不能够使得对真实世界场景的建模能力与人类水平相当 几何视角合成系统只有当它对场景几何及相机位姿的中间预测和物理ground-truth一致时,其表现才能一致良好。 本文提出(创新点)① 训练了一个模型,观察图像序列,并通过预测可能的相机运动和场景结构来解释其观察。 ② 采用了一种端到端的方法,能够从输入像素直接预测自运动(用六自由度的变换矩阵参数化表示),得到场景结构(用一个参考视角下的逐像素的深度图表示) RELATED WORKStructure from...
Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
ABSTRACT提出目前存在的问题单目深度估计任务本身是模糊的,具有很多不确定性 本文方法和创新点两个深度网络stacks 一个从整个图像得到粗糙全局预测 另一个将预测进行局部细化 采用尺度不变误差测量深度关系 实验效果提升在NYU和KITTI上达到了先进水平,在不需要超像素化的情况下,能够匹配详细的深度边界 INTRODUCTION问题:进行单目深度估计需要很多单目深度线索,而不想立体深度估计能够利用对应同名点 单目深度估计是一个不适定的问题,一幅图像可能对应无穷多可能的场景 尽管在数据集中不存在极端的例子,但房间和家具的尺寸还是有适度的变化 本文提出(创新点)① 采用尺度不变误差,聚焦于空间关系而不是整体尺寸 ② 利用神经网络直接对深度回归,包含两个部分 一个首先估计场景的全局结构 另一个用局部信息对估计的深度进行细化 PROPOSED METHOD模型结构 输入图像同时经过两个部分,coarse网络的输出传输到fine网络中作为第一层额外的图像特征,使得局部网络能够对全局预测进行编辑,获得更细化的细节。 模型分解—1:Global Coarse-Scale...
Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution
ABSTRACT提出目前存在的问题神经网络方法得到的深度图远低于1兆像素的分辨率,缺少细粒度的细节,限制了其实用性 本文方法和创新点证明了一致的场景结构和高频细节之间存在一种权衡,并利用一个简单的深度融合网络来融合低分辨率和高分辨率的估计,来利用这种二元性 采用双重估计方法提高整幅图像的深度估计,采用patch选择方法,为最终的结果添加局部细节 通过合并不同分辨率的估计以及不断变化的context,可以用预训练好的模型生成高水平细节的数百万像素深度图。 INTRODUCTION问题:单目深度估计网络的输出特性随着输入图像的分辨率改变,高分辨率的图像输入网络,能够更好地捕捉高频细节,但估计的结构一致性会降低,这种二元性源于给定模型的容量和感受野大小限制 当深度线索相比于感受野间隔太大时,模型会生成结构不一致地结果,不同区域的正确分辨率发生局部改变 本文提出(创新点)①...
学科资料(百度网盘链接)——其他资源
提示所有文件均来自于博主大学期间学习时收集的课件笔记等,每一个文件的制作与整理都倾注了老师及博主的心血,希望对大家的学习有所帮助,部分科目课件或笔记时间久远有所丢失请谅解。禁止将其中的任何文件用于商业用途,仅供学习使用! 数学建模学习资源https://pan.baidu.com/s/1E4e1PsBuliatexk7FAqcXA?pwd=yib3 提取码: yib3 PPT资源 https://pan.baidu.com/s/1hqH39fhUqnSn9o-wkgmAKA?pwd=jxwh 提取码: jxwh 书籍资源https://pan.baidu.com/s/1t9FdWZS5pKDnR-4EkwszGA?pwd=a945 提取码: a945
学科资料(百度网盘链接)——本科
提示所有文件均来自于博主大学期间学习时收集的课件笔记等,每一个文件的制作与整理都倾注了老师及博主的心血,希望对大家的学习有所帮助,部分科目课件或笔记时间久远有所丢失请谅解。禁止将其中的任何文件用于商业用途,仅供学习使用! 总链接:https://pan.baidu.com/s/1eEEip_rFuyLBo6lG2qb1CQ?pwd=fpd4提取码: fpd4 按年级分大一上https://pan.baidu.com/s/1ywqPA_lXboM4KTwS03_LkQ?pwd=katw 提取码: katw 大一下https://pan.baidu.com/s/1RPY9myvMeWgmV9tFao43EQ?pwd=mx4b 提取码: mx4b 大二上https://pan.baidu.com/s/1CRqcZtvoe3I0PqspIbDOpw?pwd=te9p 提取码: te9p 大二下https://pan.baidu.com/s/1w7NNdGyhqSHVyZgaMqAxSw?pwd=ygud 提取码: ygud...
[计算机视觉:算法和应用]第二章:图像形成——2.1 几何图元与变换
原书PDF链接:Computer Vision: Algorithms and Applications, 2nd ed. 2.1 几何图元与变换 在这一节将介绍这本书中所用到的基础的二维和三维图元,即点、线、面,也将描述三维特征是如何投影到二维特征。 有关这些话题更细致的描述可以在关于多视图几何的教科书中找到 《Multiple View Geometry in Computer Vision Second Edition》:https://assets.cambridge.org/97805215/40513/frontmatter/9780521540513_frontmatter.pdf 《The Geometry of Multiple...
EWA Volume Splatting
elliptical Gaussian kernels 椭圆高斯核 Splatting algorithms interpret volume data as a set of particles that are absorbing and emitting light. 泼溅算法将体素数据解释为一组吸收和发射光的粒子。 Our method is based on a novel framework to compute the footprint function, which relies on the transformation of the volume data to so-called ray space. This transformation is equivalent to perspective projection. By using its local affine approximation at each voxel, we derive an analytic expression for the EWA footprint in...
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Neural Radiance Field Scene Representation输入:连续的5D坐标(空间位置+视角方向) 3 \mathrm{D ~ l o c a t i o n ~} \mathbf{x}=( x, y, z ) \mathrm{2 D ~ v i e w i n g ~ d i r e c t i o n ~} ( \theta, \phi)输出:空间位置上的体密度和辐射强度 \mathrm{emitted color}~{\bf c}=( r, g, b ) \mathrm{v o l u m e \ d e n s i t y} \ \sigma密度控制了穿过某一位置的光线在那个位置累积了多少辐射 方法简单总结: 1)将相机光轴穿过场景生成采样的三维点集 2)用三维点和对应的二维视角方向输入神经网络生成颜色和密度集 F_{\Theta} : ( {\bf x}, {\bf d} ) \to( {\bf c},...
Mip-Splatting: Alias-free 3D Gaussian Splatting
3DGS在改变采样率或者改变焦距和相机距离时,会存在严重的膨胀效应和高频伪影 采样理论(奈奎斯特-香农采样理论)对连续信号的采样频率至少是最大频率的两倍,所以在采样之前要对信号施加滤波。 3DGS中的Dilation操作为了防止投影的2DGS小于一个像素,所以投影的2DGS进行了膨胀操作: {\mathcal G}_{k}^{2 D} ( \mathbf x )=e^{-{\frac{1} {2}} ( \mathbf x-\mathbf p_{k} )^{T}} ( \mathbf\Sigma_{k}^{2 D}+s \, \mathbf I )^{-1} \, ( \mathbf x-\mathbf p_{k} ) \tag{5}Sensitivity to Sampling Rate 对于Zoom-out,原本的object在像素中的占比缩小了,所以为了要膨胀到一个像素的大小,施加的二维膨胀相较于原来更大 对于Zoom-out,原本的object在像素中的占比变大,所以膨胀到一个像素大小所需的二维膨胀就更小 it leads to erosion effects...
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
Problem Formulationfeed-forward model: {\cal L}_{\mathrm{M D E}} ( {\bf d}_{i}, {\bf M}_{\mathrm{F F D}} ( {\bf x}_{i} ) ), \tag{1}Diffusion model: {\cal L}_{\mathrm{D M}} \left( \epsilon, {\bf M}_{\mathrm{D M}} \left( {\bf x}_{i}, \mathrm{A d d N o i s e} ( {\bf d}_{i}, \epsilon, t ) \right) \right), \tag{2}Framework Global Pre-Alignment给定预训练仿射不变深度模型$\bf{M}_{FFD}$ 和数据对$\bf{(x, d)} ∈ \bf{D}_{syn}$...