源论文地址::https://arxiv.org/pdf/1703.01086.pdf
IEEE Transactions on Multimedia Year: 2018 | Volume: 20, Issue: 11 | Journal Article | Publisher: IEEE
Cited by: Papers (125)
Abstract
We present the Rotation Region Proposal Networks (RRPN), which are designed to generate inclined proposals with text orientation angle information.
与以往基于分段的框架不同,我们的框架具有使用基于区域的方法预测文本行方向的能力;因此,建议可以更好地适应文本区域,并且远程文本区域可以很容易地纠正,并且更方便文本阅读。 新的组件,如RROI池层和旋转建议的学习,被纳入基于区域建议的体系结构[20],这确保了文本检测与基于分割的文本检测系统相比的计算效率。
我们还提出了改进具有任意方向的区域提案的新策略,以改进2次性能的任意面向文本检测。
我们将我们的框架应用于三个真实世界的文本检测数据集,即MSRA-TD500[21]、ICDAR2013[22]和ICDAR2015[23],发现与以前的方法相比,它更准确、更有效。
创新点:
一,Rotation Region Proposal:
相比较RPN只需要预测四个量(x,y,h,w),RRPN需要预测五个量(x, y, h, w, θ)
二,Skew IoU Loss
在R3Det文章中表明,对于旋转目标检测,Smooth L1 Loss不适合旋转目标检测,在旋转目标检测中公认SkewIoU Loss .
三,RROI pooling
RROI pooling用来对任意方向任意大小的region提取固定尺寸的特征,之前的ROI pooling只能对水平矩形进行特征提取。
四,Skew-NMS
Skew-NMS不能按照单纯的IOU>0.7视为正样本,因为有角度方向的约束,很可能和真实包围框最贴合的anchor框与真实包围框直接的IOU<0.7,这类样本如果直接抛弃而不参与训练会对结果造成损失,因此不能单纯的以IOU某个阈值进行NMS处理。
Skew-NMS consists of 2 phases:
(i) keep the max IoU for proposals with an IoU larger than 0.7;
(ii) if all proposals have an IoU in the range [0.3, 0.7], keep the proposal
with the minimum angle difference with respect to the ground truth (the angle difference should be less than π/12 ).
整个算法的框架:
整个算法框架基于Faster RCNN进行修改的,具体创新之处已经在上面说明了,采用了RRPN,RROI pooling,和Skew-NMS。
算法缺陷之处在于损失函数仍采用交叉熵分类损失和Smooth L1包围框回归损失。
在2019年R3Det论文中已经指出,对于旋转目标检测,Smooth L1 Loss不适合旋转目标检测,在旋转目标检测中公认SkewIoU Loss。所以,我认为更换Smooth L1损失函数能够使得RRPN的模型有所提升。
实验结果
在文本检测数据集ICDAR2013上做实验,对比Faster-RCNN能够提升15%的mAP值。
推荐博客:
https://blog.csdn.net/dexterod/article/details/106048699