2019 语义分割指南

本文作者：AI研习社-译站

2019-08-06 14:49

导语：11 篇论文告诉你语义分割的最新进展和入门指南。

语义分割是指将图像中的每个像素归于类标签的过程，这些类标签可以包括一个人、汽车、鲜花、一件家具等。

我们可以将语义分割认为是像素级别的图像分类。例如，在有许多汽车的图像中，分割会将所有对象标记为汽车对象。然后，一个称为实例分割的模型能够标记一个出现在图像中的物体的独立实例。这种分割在计算对象数量的应用程序中非常有用，例如计算商城的行人流量。

它的一些主要应用是在自动驾驶、人机交互、机器人和照片编辑/创意工具中。例如，语义分割在汽车自动驾驶和机器人技术中是至关重要的，因为对于一个模型来说，了解其所处环境中的语义信息是非常重要的。

2019 语义分割指南

图源：http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf

我们来看看一些涵盖最先进的构建语义分割模型方法的研究论文，即：

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (用于语义分割的弱监督和半监督的深度神经网络)
Fully Convolutional Networks for Semantic Segmentation (用于语义分割的全卷积神经网络)
U-Net: Convolutional Networks for Biomedical Image Segmentation (用于生物医学图像的语义分割卷积神经网络)
The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation （用于语义分割的全卷积DenseNet）
Multi-Scale Context Aggregation by Dilated Convolutions (基于扩张卷积的多尺度上下文聚合)
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs(DeepLab: 使用深度神经网络，空洞卷积，和全连接CRF做语义分割的网络)
Rethinking Atrous Convolution for Semantic Image Segmentation（语义分割中的空洞卷积的再思考）
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（空间金字塔池化模块和编码-解码结构用于语义分割的深度网络结构.）
FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation（Fast FCN:对语义分割分割后端的空洞卷积的再思考）
Improving Semantic Segmentation via Video Propagation and Label Relaxation（通过视频传播和标签松弛改善语义分割）
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation（门控-SCNN: 用于语义分割的门控形状卷积神经网络）

以上论文链接可点击此处访问。

01. 用于语义图像分割的深度神经网络弱和半监督学习（ICCV，2015）

这篇文章提出了一种解决方法，用于面对深度卷积网络中处理弱标记数据的难题、以及处理良好标记与未适当标记数据结合。

本文应用了一个深度CNNs与全连接条件随机场的组合。

用于语义分割的DCNN弱和半监督学习（https://arxiv.org/abs/1502.02734）

在PASCAL VOC分割基准中，这个模型给出了超过70%的平均IoU。这种模型的一个主要难题是它在训练时需要在像素层次标记的图像。

2019 语义分割指南

这篇文章的主要贡献在于：

引入弱监督和半监督设定都适用的期望最大化算法来用于边界框或图像层次的训练；
证明弱与强标记的组合能够改善性能，在合并MSCOCO数据集和PASCAL数据集的标记后，论文作者在PASCAL VOC2012上获得73.9%的IoU；
证明通过合并少量像素级标记图像和大量边框或图像级标注图像获得了更好的性能。

2019 语义分割指南

02. 用于语义分割的全卷积网络（PAMI，2016）

用于语义分割的全卷积网络（https://arxiv.org/abs/1605.06211）

这篇文章提出的模型在PASCAL VOC 2012上取得了67.2%的平均IU。

全连接网络输入任意大小的图像，生成一个对应空间维度的输出。在这个模型中，ILSVRC分类器被转换成一个全连接网络，并使用逐像素损失和网络内上采样强化来进行密集预测，之后对分割的训练就通过fine-tuning完成。Fine-tuning是在整个网络上进行反向传播完成的。

2019 语义分割指南

03. U-Net：用于生物医学图像分割的卷积网络

在生物医学图像处理中，获得图像中每个细胞的类别标签至关重要。而生物医学任务中最大的挑战就在于难以获得数以千计的图像来用于训练。

U-Net：用于医学图像分割的卷积网络（https://arxiv.org/abs/1505.04597）

这篇文章构建在全卷积层之上，并将其修改使其在一些训练图像上有效并产出更精确的分割。

2019 语义分割指南

因为只能获得很少的训练数据，这个模型在已有数据上应用弹性变形来对数据增强。就如上面图1中所示，网络架构由左侧的收缩路径和右侧的膨胀路径组成。

收缩路径由两个 3x3 卷积组成，每个卷积后面都跟一个修正线性单元和一个用于下采样的 2x2 最大池化。每个下采样阶段都多使特征通道数加倍。膨胀路径步骤中包含一个特征通道的上采样。这后面跟着将特征通道数减半的 2x2 上卷积。最后一层是一个将成分特征向量映射到要求类别数的 1x1 卷积。

2019 语义分割指南

在这个模型中，训练使用输入图像——它们的分割图，和一个Caffe实现的随机梯度下降完成。数据增强用于在使用很少的训练数据时教会网络达到所要求的鲁棒性和不变性。模型在一个实验中达到了0.92的平均IoU。

2019 语义分割指南

04. 100层Tiramisu：用于语义分割的全卷积DenseNets（2017）

DenseNets背后的思想是使每一层以前向传播的方式连接到所有层会使网络更易于训练并更精确。

100层Tiramisu：用于语义分割的全卷积DenseNets（https://arxiv.org/abs/1611.09326）

模型结构构建在dense块的下采样和上采样路径中，下采样路径有2个Transitions Down（TD）而上采样路径有两个Transitions Up（TU）。圆圈和箭头表示网络内的连接模式。

2019 语义分割指南

这篇文章的主要贡献在于：

扩展DenseNet结构到全卷积网络来用于语义分割；
提出dense网络中的上采样路径比其他上采样路径性能更好；
证明这个网络能够在标准基准上产生最优结果。

这个模型在CamVid数据集上达到了88%的全局准确率。

2019 语义分割指南

05. 扩张卷积的多尺度背景聚合（ICLR,2016）

在这篇论文中，开发了一种卷积网络模块，它可以在不损失分辨率的情况下融合多尺度的上下文信息。然后该模块可以以任何分辨率插入现有架构。该模块基于扩张卷积。

扩张卷积的多尺度上下文聚合（https://arxiv.org/abs/1511.07122）

该模块在Pascal VOC 2012数据集上进行了测试。它证明向现有语义分段体系结构添加上下文模块可提高其准确性。

2019 语义分割指南

经过实验训练的前端模块在VOC-2012验证集上实现了69.5%的平均IoU，在测试机上实现了71.3%的平均IoU。该模型对不同物体的训练精度如下所示。

2019 语义分割指南

06. DeepLab: 基于深度卷积网络，空洞卷积和全连接CRFs的图像语义分割(TPAMI, 2017)

这篇文章对基于深度学习的语义分割工作的贡献如下：

提出将上采样滤波器用于密集预测任务。
提出空间金字塔池化(ASPP)，用于在多个尺度上的目标分割
通过使用DCNNs改进目标边界的定位。

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully… （https://arxiv.org/abs/1606.00915）

这篇文章提出的DeepLab系统在PASCAL VOC-2012语义图像分割任务上实现了79.7%的mIOU。

2019 语义分割指南

本文针对深度CNNs在语义分割应用中面临的主要挑战，包括：

由Max-Pooling和下采样的组合导致的特征分辨率的降低。
目标的多尺度问题。
DCNN空间变换的不变性导致定位精度降低，而以对象为导向的分类器又需要具有空间变换不变性。

2019 语义分割指南

空洞卷积可以通过对滤波器插入零点进行上采样来实现，也可以对输入特征map进行稀疏采样来实现。第二种方法需要对输入特征图通过一个等于空洞卷积率r的因子进行下采样，并将其去除间隔行生成r^2的缩减分辨率map，每种可能的转换为r×r分辨率的缩减变换均对应一个分辨率map。然后，对得到的特征map应用标准卷积操作，将提取到的特征与图像的原始分辨率进行融合。

2019 语义分割指南