DeepLabv3:语义图像分割

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

简介

使用深度卷积神经网络(DCNN)分割图像中的对象的挑战之一是,随着输入特征图遍历网络变得越来越小,有关小范围对象的信息可能会丢失。

图1.合并和跨步的重复组合会在输入遍历DCNN时降低要素图的空间分辨率

公式1.输出特征图y中位置i的公式,换句话说,图2中绿色矩阵中的正方形之一。x是输入信号,r是原子率,w是滤波器,k是内核

图2.使用3核的粗体二维卷积,粗率为2,没有填充。

作者调整一个名为output_stride的值,该值是输入图像分辨率与输出分辨率之间的比率。比较并结合了三种方法以创建最终方法:Atrous空间金字塔池(ASPP)。第一个是级联卷积,它只是相互进行的卷积。当这些卷积的r = 1时(即开箱即用的卷积),将抽取详细信息,从而使分割变得困难。作者发现,通过允许在DCNN的更深层块中捕获远程信息,使用原子卷积可以改善这种情况。图3展示了“原始” DCNN与级联DCNN的比较,其中r>1无规卷积。

图3.顶部(a)是规则的CNN,第二个(a)是级联的r> 1的atrous卷积,output_stride为16

第二种是多网格方法,即不同大小的网格的层次结构(请参见图4)。他们定义了一个multi_grid参数作为一组空率(r1,r2,r1),它们按顺序应用于三个块。最终原子速率等于单位速率和相应速率的乘积。因此,例如,在output_stride为16且multi_grid为(1,2,4)的情况下,块4(如图3所示)将具有三个卷积,比率为2*((1, 2, 4)=(2, 4,8),

图4.多网格CNN架构

作者的主要贡献是修改了[5]中的Atrous空间金字塔池化(ASPP),该方法在空间“金字塔”池化方法中使用了atrous卷积,以包括批量归一化和图像级特征。他们通过在最后一个特征图上应用全局平均池来实现此目的,如图5(b)所示。然后他们将结果馈送给具有256个滤波器的1x1卷积。最后,他们将特征双线性升采样到所需的空间尺寸。图5中的示例提供了两个输出。输出(a)是3x3卷积,多重网格速率=(6,12,18)。然后,网络将这些输出连接起来,并在生成logit类输出的最终1x1卷积之前通过1x1卷积传递。

图5.具有无穷卷积的并行模块

实验

为了给这种方法提供支持,他们将级联和多网格ResNet与ASPP进行了比较。结果是:

  • 输出步幅:他们发现,较大的分辨率或较小的output_stride的性能要明显好于无异常卷积或较大的output_stride。他们还发现,在比较output_stride为8(分辨率更高)和output_stride为16的验证集上测试这些网络时,output_stride为8时性能更好。

  • 级联:与常规卷积相比,级联无穷卷积的结果提高了性能。但是,他们发现添加的块越多,改进的余地就越小。

  • 多网格:他们对多网格体系结构的结果相对于“香草”网络确实有所改善,并且在块7处的(r1,r2,r3)=(1、2、1)时表现最佳。

  • ASPP +多重网格+图像池:随着在多重网格率(R 1,R ₂,- [R ₃)=(1,2,4),使得ASPP(6,12,18)中的模型在77.21米欧表现最佳。在具有多尺度输入的COCO数据集上的output_stride = 8时,该模型在82.70进行了测试,通过将output_stride从16更改为8,可以显示出进一步的改进。

结论

作者提出了一种方法,该方法通过向空间“金字塔”池中的无规卷积层添加批处理规范和图像特征来更新DeepLab的先前版本。结果是网络可以提取密集的特征图以捕获远程上下文,从而提高分割任务的性能。他们提出的模型的结果优于PASCAL VOC 2012语义图像分割基准测试中的最新模型。

- END -

下载1:OpenCV-Contrib扩展模块中文版教程
(0)

相关推荐

  • 重磅!MobileNetV3 来了!

    在现代深度学习算法研究中,通用的骨干网+特定任务网络head成为一种标准的设计模式.比如VGG + 检测Head,或者inception + 分割Head. 在移动端部署深度卷积网络,无论什么视觉任务 ...

  • 经典的图像语义分割模型

         经典的基于 CNN 的图像语义分割模型有 FCN.SegNet.U-Net.PSPNet 和 DeepLab,主要针对 FCN.SegNet 和 DeepLab 三个经典模型进行简要介绍.  ...

  • 自动驾驶-使用fcn语义分割

    上一章利用卷积神经网络处理分类问题,卷积神经网络在图像分类问题中取得了很高的精度,很好的解决了图像是什么的问题,然而其在处理过程中丢失了空间信息,无法回答目标物体在哪里的问题.本章介绍的全卷积神经网络 ...

  • Kimera实时重建的语义SLAM系统

    Kimera是C++实现的一个具有实时度量的语义SLAM系统,使用的传感器有相机与IMU惯导数据来构建环境语义标注的3D网格,Kimera支持ROS运行在CPU上的高效模块化的开源方案.包含了四个模块 ...

  • Py之pixellib:pixellib库的简介、安装、经典案例之详细攻略

    Py之pixellib:pixellib库的简介.安装.经典案例之详细攻略 pixellib库的简介 pixellib是一个库执行图像分割.它支持两种主要类型的图像分割:语义分割和实例分割,只需几行代 ...

  • RoadMap:面向自动驾驶的轻型语义地图视觉定位方法

    文章:RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving 作者:Tong Q ...

  • ECCV 2020 | 基于分割一致性的单目自监督三维重建

    概述 本文主要从二维图像及其轮廓的集合中,学习一个自监督的.单视图的三维重建模型,预测目标物体的3D网格形状.纹理和相机位姿.提出的方法不需要3D监督.注释的关键点.物体的多视图或者一个先验的网格模板 ...

  • 基于时空深度混合模型的台风预测技术

    参考文献:Chen Rui, Wang Xiang, Zhang Weimin, et al. A hybrid CNN-LSTM model for typhoon formation foreca ...

  • A 2021 guide to Semantic Segmentation

    A 2021 guide to Semantic Segmentation byAnil Chandra Naidu Matcha2 days ago 25 min read Intro Deep l ...

  • CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图

    CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图 导读:此语义导图为某大牛精心整理,感谢无私分享. 相关文章 CV之IS:计算机视觉之图像分割(Image Segmen ...

  • 基于语义认知的移动机器人空间想象

    重磅干货,第一时间送达 摘要 基于经验和语义认知的对周围环境的想象有很大的潜力来扩展有限的观察,并为映射.避碰和路径规划提供更多的信息.本文提出了一种基于语义认知的移动机器人空间想象训练算法,并对所提 ...

  • 【摘要】刘莹 程工:从焦点的类型看“的”字结构的语义

    【摘要】刘莹 程工:从焦点的类型看“的”字结构的语义

  • 李可胜:连动式的语义生成范式及其触发条件

    李可胜:连动式的语义生成范式及其触发条件

  • 英语写作应注意克服语义重复

    陈德云 一些同学在英语写作时常有一种心态是:遣词造句总是力求面面俱到,生怕自己的想法没有完全地表示出来.因此有时候反而把本来可能很简洁的句子变成冗长的词语堆砌,于不知不觉间犯下了语义重复的毛病.现举例 ...

  • 基于自监督深度估计的领域自适应语义分割

    重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 从语义网到知识图谱

    [引子] "海内存知己,天涯若比邻", 这是石头兄弟推荐给我的一篇关于语义网的综述性文章,刊载于<美国计算机学会通讯>第64卷第2期--"A Review o ...

  • IOT语义互操作性之API接口

    这个系列文章描述了一个单一的语义数据模型来支持物联网和建筑.企业和消费者的数据转换. 这种模型必须简单可扩展, 以便能够在各行业领域之间实现插件化和互操作性. 对于一个目前从事智能硬件的老码农,觉得这 ...

  • IOT语义交互性之交叉

    这个系列文章描述了一个单一的语义数据模型来支持物联网和建筑.企业和消费者的数据转换. 这种模型必须简单可扩展, 以便能够在各行业领域之间实现插件化和互操作性. 对于一个目前从事智能硬件的老码农,觉得这 ...