计算机视觉研究院专栏

作者:Edison_G


公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

源码获取|扫码回复“GWD”获取源码

边界不连续及其与最终检测度量的不一致一直是旋转检测回归损失设计的瓶颈。

1

 简要

边界不连续及其与最终检测度量的不一致一直是旋转检测回归损失设计的瓶颈。仅分享的,有研究者就提出了一种基于高斯Wasserstein距离的回归损失作为解决该问题的基本方法。具体地说,旋转边界框被转换为二维高斯分布,使近似高斯Wasserstein距离(GWD)引起的不可微旋转物单位的损失,可以通过梯度反向传播有效地学习。即使在两个旋转的边界框之间没有重叠,GWD仍然可以提供学习信息,这通常是小目标检测的情况。

由于它的三个独特的特性,GWD也可以很有效地解决边界不连续和类方形的问题,无论它是如何定义边界框的。使用不同的检测器在五个数据集上进行的实验表明了该方法的有效性。

2

 背景及动机

在该领域,主要的工作采用一种回归方法来预测旋转角度,这已经取得了最先进的性能。然而,与传统的水平检测器相比,角度回归模型将带来新的问题,总结如下:

i)度量与损失之间的不一致,

ii)边界不连续性,

iii)类平方问题。

事实上,这些问题没有统一的解决方案仍然开放,它们可能在很大程度上损害最终的性能,特别是在边界位置,如下图左图所示。研究者利用二维高斯分布建模任意面向目标检测边界框,并通过计算两个框的高斯Wasserstein距离(GWD)来近似联合上不可微旋转相交(IoU)引起的损失。

GWD有效地将模型学习与最终的检测精度度量对齐,这一直是一个瓶颈,在现有的旋转检测器中没有实现。研究者基于GWD的探测器不受边界不连续和类方形问题的影响,这种免疫与如何定义边界框协议无关,如上图右所示。

3

 相关工作

  • Approximate differentiable rotating IoU loss

使用方向边界框(OBB)进行目标检测可以通过减少与背景区域的重叠来更好地定位旋转对象。现有的OBB方法大多是通过引入由距离损失优化的附加角度尺寸而在水平边界框检测器上构建的。但是,由于距离损失仅使OBB的角度误差最小,并且与IoU的相关性较松散,因此它对具有高纵横比的对象不敏感。

  • Boundary discontinuity and square-like problems

由于角度参数的周期性和边界框定义的多样性,基于回归的旋转检测器经常存在边界不连续和类方形的问题。许多现有的方法试图从不同的角度解决上述部分问题。例如,SCRDet和RSDet提出了IoU-smooth L1损失和modulated损失来平滑边界损失跳跃。CSL将角度预测从回归问题转换为分类问题。DCL进一步解决了长边定义引入的类方形物体检测问题,是指近似为方形的实例的旋转不敏感问题。

  • Approximate differentiable rotating IoU loss

PIoU提出了一种新的损失,即Pixels-IoU(PIoU)损失,以利用角度和IoU进行精确的OBB回归。PIoU损失是从IoU度量导出的,具有像素级形式,这很简单,适用于水平和定向边界框。

4

 新框架分析

  • Bounding Box Definition

如上图所示,给出了基于参数的旋转边框角度的两个流行定义:Doc表示的OpenCV协议和Dle表示长边定义。注:前者的θ∈[−90◦,0◦)表示边界框与x轴之间的夹角或右间隙。相比之下,后者定义的θ∈[−90◦,90◦)是边界框的长边角与x轴之间的角度。这两种参数化可以相互转换:

案例1:如上图3a描述了角差与损失函数之间的关系。虽然它们都具有单调性,但只有Smooth L1曲线是凸的,而其他的曲线则不是。

案例2:如上图3b显示了在不同长宽比条件下的两个损失函数的变化。可以看出,两个边界框的Smooth L1损失为恒定(主要来自角度差),但随着展宽比的变化而大幅变化。

案例3:如上图3c探讨了中心点位移对不同损失函数的影响。同样地,尽管有相同的单调性,但也没有高度的一致性。

两个边界框定义(顶部),边界不连续性和类方形问题的说明(底部)

  • Wasserstein Distance for Rotating Box

其中R表示旋转矩阵,S表示特征值的对角矩阵。最终函数如下:

  • Gaussian Wasserstein Distance Regression Loss

与[Arbitrary-oriented object detection with circular smooth label. In Proceedings of the European Conference on Computer Vision, pages 677–694. Springer, 2020]一致,研究者使用单级检测器ResNet作为基线。旋转矩形由五个参数表示(x、y、w、h、θ)。在实验中,主要遵循Doc,回归方程如下:

5

 实验总结

Ablation experiment of training strategies and tricks

Comparison between different solutions for inconsistency between metric and loss (IML), boundary discontinuity (BD) and square-like problem (SLP) on DOTA dataset. The ???? indicates that the method has corresponding problem. † and ‡represent the large aspect ratio object and the square-like object, respectively. The bold red and blue fonts indicate the top two performances respectively.


AP on different objects and mAP on DOTA

Different forms of GWD-based regression loss curve

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

源码下载| 回复“GWD”获取下载

 往期推荐 

????

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐