近日,Facebook 发布了一项新的研究,该研究探索了实例分割的新方法。与掩模 R-CNN 驱动的标准方法相比,TunSoMeM 为探索分割研究提供了新的方向。本文是有关这项研究的具体内容。
研究内容:
我们引入了一个称为 TensorMask 的新框架,它使用了一种密集的滑窗技术来进行非常精确的实例分割。TensorMask 设计了新颖的结构和算子,以丰富、有效地捕捉 4D 几何结构密集图像的表示。这是第一次使用这种方法,在质量和数量上取得与 Facebook 人工智能开创性的边界框驱动框架 Mask R-CNN 并驾齐驱的成果。
工作原理:
最近,直接滑动窗口范式见证了边界框对象检测的复兴,这种方法使得在不需要后续细化步骤的情况下,在单个阶段准确检测对象成为可能。但是,由于实例模板是复杂的二维几何结构,而不是简单的矩形,因此这种方法在实例分割任务中效果不大。当在二维规则网格上密集滑动时,实例遮罩需要具有尺度自适应大小的高维 4D 张量来有效表示。
Tensormask 使用结构化的、高维的 4D 几何张量来实现这一点,这些张量由具有明确像素单位的轴的子张量组成。这些子张量启用具有几何意义的操作,例如协调变换、上下缩放和使用缩放金字塔。与此相反,以前的尝试,如 DeepMask,使用了非结构化的 3D 张量,缺乏清晰的几何意义,这使得表示更难操作。
为了在滑动窗口中有效地生成遮罩,我们使用各种张量表示,其中子张量表示遮罩值。例如,对齐的表示是这样的:它的子张量枚举重叠它所有窗口中的掩码值。如下图所示,对齐表示使使用粗糙子张量能够更好地预测更精细的分辨率掩码。
以前的掩模表示方法要么效率较低,要么容易产生伪影。TensorMask 提出的对齐表示对于密集、重叠的对象最有效。
我们使用 TensorMask 框架开发了 Tensor Bipyramid,这是一种新的金字塔结构,可以自然地捕捉任务的几何结构,其中大对象在粗略位置具有高分辨率遮罩,小对象在精细位置具有低分辨率遮罩。利用张量双锥结构的最佳张量矩阵模型达到 37.1 AP——代表平均值的标准度量——而掩模 R-CNN 对应物达到 38.3 AP。
为什么重要
与掩模 R-CNN 驱动的标准方法相比,TunSoMeM 为探索分割研究提供了新的方向。使用 TensorMask,对于高性能实例分割,不再需要边框。这种新的、互补的方法有助于推进将目标和背景分割彻底统一为单一模型的研究。这项研究将有助于我们更广泛地理解稠密掩模预测的任务,是不断创新和建立更强大的图像理解系统的重要组成部分。
阅读全文:
雷锋网雷锋网雷锋网(公众号:雷锋网)
雷锋网版权文章,未经授权禁止转载。详情见转载须知。