概述
之前讲了deeplab v1和v2的内,这次主要讲一下v3部分的内容。
简单回顾
首先我们简单回顾一下前边v1和v2部分的内容,先说它们的相同点,首先他们主要思想都是将卷积神经网络(DCNNs)和概率图模型(DenseCRFs)进行结合来做语义分割。并且两者对图片的处理过程也是一样的。都是先对输入的图片经过DCNN网络处理,得到其初步的得分图,然后通过双线性插值,扩大图片尺寸,进而经过全连接CRF处理之后,最后输出结果图。
但v2较之于v1提升点主要有三个方面:使用多尺度来获得更好的分割效果,建成ASSP,第二个区别就是基础层网络发生了改变,基础层的网络由VGG16改成了ResNet。并且学习率也发生来改变。
当然最大的区别还是ASPP的引入,多尺度主要是为了让算法处理目标在图像中表现为不同大小问题时,仍能够有很好的分割结果。比如同样的物体,在近处拍摄时物体显得大,远处拍摄时显得小。具体做法如上图所示,就是在处理的时候并行的采用多个采样率的空洞卷积提取特征,再将特征融合,类似于空间金字塔结构,形象的称为Atrous Spatial Pyramid Pooling (ASPP),图片中就是分别采用6,12,18,24的采样率进行采样,然后将提取到的特征进行融合。
v3的提升点
V3较之于v1和v2提升可能主要有四点:
- 提出了更通用的框架,适用于任何网络
- 复制了ResNet最后的block,并级联起来
- 是改进了v2引入的ASSPP,在ASPP中使用BN层,最后一点去掉了CRF,这可能是冲击最大