什么是图像分割?
-
分类 - 将整幅图片分成“人”、“动物”、“户外”等类别 -
目标检测 - 检测图像中的目标并在其周围画一个矩形,例如一个人或一只羊。 -
分割 - 识别图像的部分,并理解它们属于什么对象。分割是进行目标检测和分类的基础。
语义分割 vs. 实例分割
-
语义分割 - 将图像中的所有像素划分为有意义的对象类。这些类是“语义上可解释的”,并对应于现实世界的类别。例如,你可以将与猫相关的所有像素分离出来,并将它们涂成绿色。这也被称为dense预测,因为它预测了每个像素的含义。
-
实例分割 - 标识图像中每个对象的每个实例。它与语义分割的不同之处在于它不是对每个像素进行分类。如果一幅图像中有三辆车,语义分割将所有的车分类为一个实例,而实例分割则识别每一辆车。
传统的图像分割方法
-
阈值 - 将图像分割为前景和背景。指定的阈值将像素分为两个级别之一,以隔离对象。阈值化将灰度图像转换为二值图像或将彩色图像的较亮和较暗像素进行区分。
-
K-means聚类 - 算法识别数据中的组,变量K表示组的数量。该算法根据特征相似性将每个数据点(或像素)分配到其中一组。聚类不是分析预定义的组,而是迭代地工作,从而有机地形成组。
-
基于直方图的图像分割 - 使用直方图根据“灰度”对像素进行分组。简单的图像由一个对象和一个背景组成。背景通常是一个灰度级,是较大的实体。因此,一个较大的峰值代表了直方图中的背景灰度。一个较小的峰值代表这个物体,这是另一个灰色级别。
-
边缘检测 - 识别亮度的急剧变化或不连续的地方。边缘检测通常包括将不连续点排列成曲线线段或边缘。例如,一块红色和一块蓝色之间的边界。
深度学习如何助力图像分割方法
-
Atrous convolutions — 使用一个因子,可以扩展或收缩卷积滤波器的视场。 -
ResNet — 微软的深度卷积网络(DCNN)。它提供了一个框架,可以在保持性能的同时训练数千个层。ResNet强大的表征能力促进了计算机视觉应用的发展,如物体检测和人脸识别。 -
Atrous spatial pyramid pooling (ASPP) — 提供多尺度信息。它使用一组具有不同扩展率的复杂函数来捕获大范围的上下文。ASPP还使用全局平均池(GAP)来合并图像级特征并添加全局上下文信息。
图像分割的应用
目标检测和人脸检测
-
人脸检测 - 一种用于许多应用的目标检测,包括数字相机的生物识别和自动对焦功能。算法检测和验证面部特征的存在。例如,眼睛在灰度图像中显示为谷地。 -
医学影像 - 从医学影像中提取临床相关信息。例如,放射学家可以使用机器学习来增强分析,通过将图像分割成不同的器官、组织类型或疾病症状。这可以减少运行诊断测试所需的时间。 -
机器视觉 - 捕捉和处理图像,为设备提供操作指导的应用。这包括工业和非工业的应用。机器视觉系统使用专用摄像机中的数字传感器,使计算机硬件和软件能够测量、处理和分析图像。例如,检测系统为汽水瓶拍照,然后根据合格 - 不合格标准分析图像,以确定瓶子是否被正确地填充。
视频监控 — 视频跟踪和运动目标跟踪
-
自动驾驶 自动驾驶汽车必须能够感知和理解他们的环境,以便安全驾驶。相关类别的对象包括其他车辆、建筑物和行人。语义分割使自动驾驶汽车能够识别图像中的哪些区域可以安全驾驶。 -
虹膜识别 一种能识别复杂虹膜图案的生物特征识别技术。它使用自动模式识别来分析人眼的视频图像。 -
人脸识别 从视频中识别个体。这项技术将从输入图像中选择的面部特征与数据库中的人脸进行比较。