引言
卷积神经网络在结构上存在固有的问题,高层网络感受野比较大,语义信息表征能力强,但是特征图分辨率低,几何细节信息表征能力弱。低层网络感受野比较小,几何细节信息表征能力强,分辨率高,但语义信息表征能力弱。
SSD采用多尺度的特征图来预测物体,使用具有较大感受野的高层特征信息预测大物体,具有较小感受野的低层特征信息预测小物体。
这样就带来一个问题:使用的低层网络的特征信息预测小物体时,由于缺乏高层语义特征,导致SSD对于小物体的检测效果较差。而解决这个问题的思路就是对高层语意信息和低层细节信息进行融合。
Top-Down融合思想的起源
FPN: Feature Pyramid Networks for Object Detection(以下简称FPN)以及,
Beyond Skip Connections: Top-Down Modulation for Object Detection(以下简称TDM),
等论文中提出了Top-Down融合的思想。
虽然Top Down的方法来丰富特征信息的思想很容易理解,但是大多数论文中所说的特征图金字塔的构造方式各不相同,只是针对于特定的网络结构来做优化。
FPN的网络结构只是针对ResNet做了优化,文章中也没有提及过更换其