精度高、模型小、速度快!梯形DenseNets结构实现语义分割新高度!
今天上午arXiv出现一篇非常值得参考的语义分割文章《Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images》,来自克罗地亚的研究人员提出了一种基于DenseNets构建的形状像梯子的语义分割架构,其不仅精度达到目前最高(超越DeepLabV3+),而且参数量少,计算速度快,可谓语义分割领域的新突破。
以下是作者信息:
作者来自克罗地亚的萨格勒布大学。
提出问题
作者指出,在深度学习领域图像分类任务验证的有效网络结构,极大促进了计算机视觉其他方向的研究。
比如大放异彩的ResNet深度残差网络,成名于ImageNet图像分类任务,其影响力却席卷整个神经网络的所有应用领域。
但由于语义分割的计算量和参数量往往都很大,在现有硬件使用这些新出的网络结构进行新算法训练时,显存的大小限制了更好地发挥其潜力,尤其是对那些大图像比如百万像素图像的语义分割。
作者详细比较了ResNets与DenseNets(此部分可参考论文原文),认为在拥有相近的网络表达能力的ResNets与DenseNets网络架构中,DenseNets所需要的参数和计算量都相对较小。对于语义分割任务,应以其为基础模块。
网络架构
下图是作者提出算法的网络架构(请点击查看大图):
图中DB代表这Dense Blocks,TD为transition layers,TU为transition-up blocks,f为输出特征图(后面的数字为特征图个数),输出特征图上的x4、x8...x32为下采样倍数,SPP为spatial pyramid pooling module。
可以看出,其最明显的特征是有两个数据路径。
上面的为下采样数据路径,特征图不断缩小。下面为上采样数据路径,并在此进行数据融合。
整个结构宛如梯子,故称梯形风格的(Ladder-style) DenseNets 。
实验结果
作者在主流的语义分割数据库上与基于ResNet的相同结构算法进行了比较,也与其他state-of-the- art进行了比较,验证了该算法精度达到最高的同时,速度快一个数量级,参数也是高精度语义分割算法中最小的(是在Cityscapes数据集上唯一的IoU上80的实时语义分割算法)。
下图为在Cityscapes数据集验证集上使用与ResNet Blocks的算法的比较,可见在使用Dense Blocks时不仅参数少,计算速度快,而且精度也更高。
下图为该算法的两个最好模型与state-of-the-art语义分割算法在 Cityscapes 验证集与测试集的结果比较。
可见该文算法精度最高,计算量也接近最低水平!!
下图上述结果的散点图,该文提出的算法LDN是目前唯一的在Cityscapes数据集上IoU精度超过80的实时语义分割算法!
下图是在CamVid 测试集上与基于ResNet结构的算法结果比较,LDN121依然是精度高、模型小、速度快。
下图是与CamVid测试集上的其他state-of-the-art算法的结果比较,精度依旧是最优秀的。
下图是在Pascal VOC 2012 验证集与测试集上的与其他state-of-the-art算法相比的分割结果,依然取得了精度的新突破。
分割结果示例:
论文地址:
https://arxiv.org/abs/1905.05661v1
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: