研究背景及意义
在自然场景图像的目标检测中,通常使用水平四边形框作为检测框对目标的位置进行框定。但是,在遥感目标检测以及文字检测等相关场景,目标通常情况都是倾斜的。因此,使用检测算法对旋转目标进行检测有利于对遥感目标检测以及文字检测中的目标进行精确定位,为后续识别、分析等高阶任务提供更加准确的初始结果。下面,我们将介绍三种优秀的旋转目标检测算法。
SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
SCRDet算法主要为解决遥感图像中,目标尺度小、背景杂波、旋转等相关问题。针对目标尺度小的问题,如图一所示,SCRDet算法整合多层卷积特征在捕获低层卷积特征以对目标精确定位的同时,使用高层卷积特征对目标进行更加鲁棒的检测。使用C3、C4而不使用C2是在算法的精确度和计算复杂度之间进行平衡。
图一
图二
同时,遥感图像中目标与目标之间的间隔小且背景存在杂波干扰,如图二(a)、(b)所示,目标之间的间隔和背景杂波都会影响遥感目标检测。因此,SCRDet算法使用如图三的结构,给整合后的卷积特征以空间attention和通道attention。其中,空间attention对目标之间的间隔和背景杂波中的噪声进行抑制,而通道attention选取有效的通道特征图进行检测。在训练过程中,空间attention使用真值attention map作为监督信号进行训练。
图三
图四
如图四所示,由于目前旋转目标的长宽及角度按照opencv的计算方式得到,其角度和长宽具有周期性,会使得预测目标框(红色)和真值目标框(绿色)即使很接近,它们的loss也非常大,这样会使得算法的准确度下降。因此,为了解决上述问题,需要对算法的位置回归loss进行修改,SCRDet算法使用IOU作为位置回归的大小,使用smooth L1 loss的单位向量作为梯度传播方向,有效的解决了上述loss不符合实际的情况。
Gliding vertex on the horizontal bounding box for multi-oriented object detection
Gliding Vertex算法主要为解决目标的预测坐标和目标的真值坐标因为坐标排序的差异而引入的错误loss,如假设目标的真值坐标为(x1,y1,x2,y2,x3,y3,x4,y4),目标的预测坐标为(x2,y2,x3,y3,x4,y4,x1,y1),目标的预测框和目标的真值框是完全一致的,但是因为框的表示问题会引入错误的loss(目标的坐标为(x,y,w,h)也有一样的问题)。
因此,如图五所示,Gliding Vertex算法首先预测水平检测框的坐标 (没有上述坐标排序的问题),再将水平检测框的坐标通过预测的offset位移到倾斜的检测框,从而预测得到旋转目标的坐标。
图五
同时,由于训练数据集中水平目标数量少。因此,算法可能对水平目标的坐标预测不准,Gliding Vertex算法使用一个obliquity factor(r)预测目标是否可能为水平目标,以对水平目标进行较好的预测。在训练过程中,通过计算倾斜框和水平框的IOU判断目标的真值坐标是否为水平框,即。因此,算法预测的目标位置的输出为9个参数,即(x,y,w,h,α1,α2,α3,α4,r),算法的网络结构和输出如下图六所示:
图六
Gliding Vertex算法和faster rcnn算法的的loss一致,只是多了(α2,α3,α4,r)五个参数的回归
其中,为分类的loss,为9参数的回归loss,分别为水平框,offset以及obliquity factor的位置回归loss。
Arbitrary-Oriented Object Detection with Circular Smooth Label(CSL)
图七
如图七所示,(a)、 (b)、 (c)表示了三种常用的旋转框的表示方法
(a) opencv定义法(-90到0度的范围):这种方法容易在0度和90度附近由于角度的周期性变化以及宽、高的转换产生不符合实际情况的大loss,降低算法的性能。
(b) 长边定义法(-90到90范围):这种方法容易在-90度和90度附近由于角度的周期性变化产生不符合实际情况的大loss,降低算法的性能。
(c) 有序四边形定义法(Point-based):定义a、b、c、d四个点,回归它们和真值对应的点的距离。然而,这种方法容易产生错误的点对,即理想情况的点的对应是,而实际算法的点的对应关系却是,使得产生错误的loss,影响算法的性能。
上述三个问题对应图八的(a)、 (b)、 (c)图。
图八
上述的SCRDet和Gliding Vertex算法分别使用了图八的(a)、 (b)的方式回归目标的旋转框。为避免上述(a)、 (b)两种表示方式对应的问题,SCRDet和Gliding Vertex算法分别通过设计针对性的loss函数以及改变旋转框的表示方式(即(c)方式)。但这两种方法都没有从原理上解决旋转目标框的表示问题。而CSL算法通过新的范式解决角度的周期性变化以及宽、高的转换等问题,即使用分类的方式代替角度回归。
图九
如图九(a)所示,直接的想法是使用One-hot标签进行角度的预测,但是这种One-hot标签不能衡量预测的角度和真值角度的关系,即0度和1度的角度的损失(loss)和0度和-90度的角度的损失(loss)是一样的,这不符合常识。同时,在真值为0度的时候,预测的角度在0度附近(如-5到5度),我们也应该认为算法取得较好的性能。因此,CSL算法尝试使用脉冲函数、矩形函数、三角函数、高斯函数等函数进行真值角度的标注,试验结果证明高斯函数效果最好,标签的函数表示如图十所示。同时,为了在角度边界(即图七(b)的-90和89的交界处)有平滑的标签,角度的真值标签在角度边界处是平滑的,这也是算法成为CSL(Circular Smooth Label)算法的原因。其中,Circular表示角度的分类标签是在角度边界处相连的,Smooth表示标签是平滑的。
图十
使用高斯函数产生平滑的标签的直观理解:为当目标为旋转目标时,预测的角度离真值越近,loss应该越小。CSL算法使用的loss函数如图十一所示,其中,为位置回归loss,和分别为角度分类和类别分类loss。
图十一
实验结果
如图十二所示,从中可以得到SCRDet、Gliding Vertex和CSL算法在DOTA数据集上的实验结果。
图十二
总结
为缓解遥感目标检测场景的目标尺度小、背景杂波、旋转(角度表示带来的角度周期性以及旋转目标宽高变换问题)等相关问题,SCRDet算法分别结合多层卷积特征、空间和channel attention、新的loss得到了较好的实验结果。Gliding Vertex算法为解决角度表示带来的角度周期性以及旋转目标宽高变换等问题,使用9个参数来两阶段的回归旋转目标的坐标,但是也带来了新的问题(如图八的(c)所示)。为从根本上解决角度表示带来的角度周期性以及旋转目标宽高变换等问题,CSL算法使用平滑的环形角度离散标签代替传统的旋转目标检测算法中的旋转角度回归,即将角度回归转换成角度分类。CSL算法从根本上就没有角度周期性以及旋转目标宽高变换等问题,但是可能会带来分支不平衡的问题,即角度分类分支的参数要远远大于目标位置回归和类别分类分支的参数。