目标检测学习之路--概述

通过本文我们可以：

目标检测的定义

识别图片中有哪些物体以及物体的位置（坐标位置）。

其中，需要识别哪些物体是人为设定限制的，仅识别需要检测的物体；物体的坐标位置由两种表示方法：

two stage算法：先进行区域推荐，再进行目标分类。

1）通过专门模块（RPN）去生成候选框，寻找前景以及调整边界框（基于anchors）;

2）基于之前生成的候选框进行进一步的分类已经调整边界框（基于proposals）。

典型算法是R-CNN系列算法（R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN）。

优点：检测精度高。

one stage算法：端到端（end-to-end）的目标检测。

基于anchors直接进行分类以及调整边界框。

代表算法是：YOLO、SSD。

优点：检测速度快。

通常在算法中需要对数值进行处理，一般为归一化操作，即：

对于输出的位置信息是4个比较大的像素的值，在回归的时候不合适。目前统一的做法是，每个位置除以图片本身的像素大小。

假设以中心点坐标方式表示，则：

x=x/ximage, y=y/yimage, w=w/ximage, h=h/yimage

先来回顾下分类的原理。下图是一个常见的CNN组成图，输入一张图片，经过其中卷积，激活，池化相关层，最后加上全连接层达到分类概率的效果。

对于目标检测不仅仅是分类这样一个简单的图片输出结果，而且还需要输出图片中目标的位置信息，所以从分类到检测，如下图标记了过程：

分类

定位

其中（x, y, w, h）有个专业的名词，叫做bounding box(bbox).

在目标检测当中，对bbox主要由两种类别。

一般在目标检测当中，我们预测的框有可能很多个，真实框GT也有很多个。

在分类的时候我们直接输出各类别的概率，如果再加上定位的话，我们可以考虑在网络的最后输出加上位置信息，增加全连接层，即为FC1, FC2。

假设有10个类别，输出[p1,p2,p3,…,p10]，然后输出这一个对象的四个位置信息[x,y,w,h]。同理知道要网络输出什么，如果衡量整个网络的损失:

如下图：

（完）