计算机视觉-语义分割介绍 作者:马育民 • 2020-02-22 06:32 • 阅读:10503 # 介绍 语义分割(semantic segmentation) 像素级别的分类,即:区分图片中像素点属于哪一个分类 因此语义分割是从像素级别来理解图像的 如下图: 将图片中每一个像素进行分类,进行标注。识别后,粉色代表人,绿色代表摩托车 [](https://www.malaoshi.top/upload/0/0/1EF50LCG2HnK.jpeg) ### 优点 语义分割,比 图像分类、定位、检测 更进一步,像素级别的分类 图像分类:识别图像中的内容,对图片进行分类 定位和检测 :识别图像中的内容和位置(通过边界框 ### 缺点 语义分割 **不区分** 属于相同类别的不同实例。也就是说,只能区分像素属于哪一个类别,但不能区分同一类别的不同实例 如下图: **只能区分出 “人”,无法区分“每一个人”** 。 [](https://www.malaoshi.top/upload/0/0/1EF50MpF3s7f.png) 如上图,语义分割会将3个人整体的所有像素预测为“人”这个类别。 # 应用 目前语义分割的应用领域主要有: - 地质检测 - 地理信息系统 - 无人车驾驶 - 医疗影像分析 - 机器人等领域 ### 卫星(或航空)图像处理 语义分割用于从卫星图像中 **识别土地类型**。典型的用例涉及 **分割河流** 以提供准确的地图信息。 其他高级用例包括:绘制道路图,确定农作物类型,确定免费停车位等。 [](https://www.malaoshi.top/upload/0/0/1EF51pGZP4EN.png) ### 无人车驾驶 语义分割也是无人车驾驶的核心算法技术,用于识别车道,车辆,人和其他感兴趣的对象,然后进行决策,以避让行人和车辆等障碍 [](https://www.malaoshi.top/upload/pic/deeplearning/ulm002.png) 图片来源:https://www.cityscapes-dataset.com/examples/ 目前对自动驾驶汽车的限制之一是:性能必须是实时的。 ### 医疗影像分析 在智能医疗领域,语义分割主要应用有肿瘤图像分割,龋齿[qǔ chǐ]诊断等。 头部CT扫描紧急护理诊断辅助和肺癌诊断辅助 [](https://www.malaoshi.top/upload/0/0/1EF51pn7exYi.jpg) 龋齿诊断 [](https://www.malaoshi.top/upload/0/0/1EF51po56E0m.png) 相关论文:https://arxiv.org/abs/1807.07455 ### 用于面部分割 面部的语义分割通常涉及诸如皮肤、头发、眼睛、鼻子、嘴巴和背景等的分类。面部分割在计算机视觉的许多面部应用中是有用的,例如性别、表情、年龄和种族的估计。 [](https://www.malaoshi.top/upload/0/0/1EF51qdjdzWU.png) ### 时尚——分类服装 细粒度的衣物分类需要基于衣服的语义、人体姿势的可变性和潜在的大量类别的更高级别判断。 在时装行业、电子商务中有重大意义,服装解析在视觉领域中得到积极的研究 比如虚拟试衣 [](https://www.malaoshi.top/upload/0/0/1EF51qqmEste.png) 相关论文:https://arxiv.org/abs/1710.07346 # 数据集 在“数据,算法,计算力”这AI发展的三大驱动力中,眼下最重要的就是数据,数据集在人工智能中有着举足轻重的地位,具体根据不同的应用领域,目前的数据集主要有: - Pascal VOC系列: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ 通常采用PASCAL VOC 2012,最开始有1464 张具有标注信息的训练图片,2014 年增加到10582张训练图片。主要涉及了日常生活中常见的物体,包括汽车,狗,船等20个分类。 - Microsoft COCO: http://link.zhihu.com/?target=http%3A//mscoco.org/explore/ 一共有80个类别。这个数据集主要用于实例级别的分割(Instance-level Segmentation)以及图片描述Image Caption)。 - Cityscapes: https://www.cityscapes-dataset.com/ 适用于汽车自动驾驶的训练数据集,包括19种都市街道场景:road、side-walk、building、wal、fence、pole、traficlight、trafic sign、vegetation、terain、sky、person、rider、car、truck、bus、train、motorcycle 和 bicycle。该数据库中用于训练和校验的精细标注的图片数量为3475,同时也包含了 2 万张粗糙的标记图片。 # 算法 - **[FCN](https://www.malaoshi.top/show_1EF52IaoxF3T.html "FCN")** - SegNet - Dilated Convolutions - DeepLab (v1 & v2) - RefineNet - PSPNet - Large Kernel Matters - DeepLab v3 算法介绍参见: https://zhuanlan.zhihu.com/p/37618829 https://zhuanlan.zhihu.com/p/37801090 # 感谢: https://www.jianshu.com/p/77ebf030e9cb https://www.cnblogs.com/sandy-t/p/7474686.html https://zhuanlan.zhihu.com/p/37801090 https://blog.csdn.net/yunqiinsight/article/details/82968440 https://medium.com/beyondminds/a-simple-guide-to-semantic-segmentation-effcf83e7e54 http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review#fcn 原文出处:http://malaoshi.top/show_1EF51rKpCUH6.html