论文解读系列十：空洞卷积框架搜索

摘要：空洞卷积是标准卷积神经网络的关键变体，可以控制有效的感受野并处理对象的大尺度方差，而无需引入额外的计算。但是，在文献中很少讨论将有效感受野适合于具有卷积的数据。为了充分挖掘其潜力，本文提出了一种新的空洞卷积变体，即inception (dilated)卷积，其中卷积在不同轴，通道和层之间具有独立的空洞。为了探索一种将复杂的初始卷积拟合到数据的实用方法，开发了一种基于统计优化的简单而高效的空洞搜索算法（EDO，effective dilation search）。该搜索方法以零成本方式运行，该方法极其快速地应用于大规模数据集。

方法

在不同任务中对于输入图像的大小和感兴趣对象的不同，有效感受野（effictive reveptive field，ERF）的要求也有所不同。图像分类输入的尺寸比较小，目标检测中输入的size而比较大，目标的范围也很大。即使对于固定网络的同一任务，某一层卷积的最优解ERF也和标注卷积不一定一样，于是为了适应不同ERF的要求，需要针对不同任务提供一种通用的ERF算法。

本文提出一种膨胀卷积的变体，Inception卷积，他包含多种膨胀模式如下图：

Incetption 卷积提供了一个密集可能的erf范围，该文提供了一种高效的膨胀优化算法（EOD），其中超网络的每层都是一个标准的卷积操作，该卷积包含了所有看可能的膨胀模式。对每一层的选择，通过最小化原始卷积层和与所选膨胀模式的卷积的期望误差，使用一个预训练的权值解决选择问题。具体流程如下图所示：

上图为EDO的算法概述，以resnet50为例，我们先获得一个(2dmax + 1) × (2dmax + 1)卷积为botteneck的已经预训练过的res50.这个例子里，supernet的内核为5*5所以dmax=2,。然后对于卷积运算的每个filter的输出，我们要计算与预期输出的L1误差，选择最小的（这个例子里是E=3）。最后重新安排filter使相同的空洞卷积排在一起，就成为了我们的inception convolution。

实验结果

实证结果表明，本文方法在广泛的Baseline测试中获得了一致的性能提升。例如，通过简单地将ResNet-50主干中的3x3标准卷积替换为Inception Conv，将Faster-RCNN在MS-COCO上的mAP从36.4％提高到39.2％。此外，在ResNet-101骨干网中使用相同的替代方法，在自下而上的人体姿势估计上将AP得分从COCO val2017的AP得分从60.2％大幅提高到68.5％。

（完）