[马克思主义原理]专题四:辩证唯物主义认识论
第一节...
Vision Transformers for Dense Prediction
ABSTRACT本文方法和创新点提出使用稠密vision transformers在卷积网络中作为backbone进行稠密估计任务 将vision...
Transformer系列讲解
Transformer传统方法存在的问题传统RNN存在的问题各层之间不为独立,无法并行计算 传统word2vec存在的问题预训练好的向量不变,在不同的语境中可能存在不同的意思 整体结构EncoderAttention对于不同的数据集有不同的关注点,关注对完成任务重要的特征,是由计算机自己提取的 self-attention把上下文的一些信息加入到当前词编码的过程中,考虑整体的信息 Q:query查询矩阵,要去查询的内容;K:Key键,等待被查的V:value实际特征信息 要求当前词与其他词之间的关系,用当前词的q与各词的k内积得到相关程度,相关性越大内积越大 将分支归一化转换成对应的比例,同时不能让结果被向量本身维度所影响,并与v相乘得到最终的attention...
The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
ABSTRACT提出目前存在的问题对于许多应用来说,视频帧的序列信息在测试阶段也可以获得,但大多数单目网络没有使用这个额外的信号,忽略了重要的信息;这些方法要么在测试阶段使用计算量大的细化技术,要么采用非循环网络,间接使用那些本就可获得的几何信息。 本文方法和创新点提出了ManyDepth,一种自适应的稠密深度估计方法,能够在测试阶段利用序列信息。 提出了一个端到端的cost volume,基于只用自监督训练的方法 采用了一个新的一致性损失,当cost volume不可靠时忽略它 实验效果提升在KITTI和Cityscape上的实验表明我们的方法比所有已发布的自监督baseline都要好,包括那些在测试阶段使用单帧或多帧的方法。 INTRODUCTION问题:在测试阶段,实际情况下可以得到不止一帧,而现有的单目方法没有使用这些额外的帧 将子监督训练直接应用于多视角平面扫描立体结构会产生较差的结果 本文提出(创新点)① 在训练和测试阶段都使用这些额外的帧来对多帧的深度估计系统进行自监督 ②...
Neural Window Fully-connected CRFs for Monocular Depth Estimation
ABSTRACT 提出目前存在的问题由于较大的计算成本,CRF通常只在邻域间使用,这就不能够充分利用全连接CRF的能力。 本文方法和创新点将输入分为多个窗,并对每个窗应用FC-CRF优化,减小了计算的复杂度,使得FC-CRF可行。 为了更好的得到节点之间的关系,应用多头机制计算多头势函数,并将此势函数用于网络,输出优化的深度图。 整体为自下而上,自上而下的结构,神经窗FC-CRF模块在其中作为解码器,同时vision...