图像语义分割模型(图像语义分割fcn)-CN资源网

谷歌的语义图像分割（Semantic Image Segmentation）模型DeepLab-v3+已经开源，该技术也应用在谷歌Pixel 2和2XL手机（包括后续型号）上。该技术可以实现图像或视频的背景分割，为图像和视频处理APP带来极大的便利。今天我们来谈谈什么是语义图像分割以及它是如何实现的。

视频抠像，了解Google DeepLab-v3+ 技术

说到裁剪图片，很多朋友都会想到Photoshop。确实，借助PS，我们可以从复杂的背景图片中准确地剪出人像。但如果想要从视频画面中“剪出”人像，我估计很多朋友都没有听说过这项技术。

PS抠像用于分离静态照片的正反面，而DeepLab-v3+技术则用于抠像视频。当然，照片也可以实时处理。例如视频巨头网站之前测试的键控技术（即时背景去除），以及Google Pixel 2和Pixel 2XL手机的人像功能，都可以实现类似单反的景深效果拍照后相机。这些技术背后的工程是DeepLab-v3+ 技术（图1）。

图1 搭载DeepLab-v3+技术的Pixel 2 XL手机

键控技术背后，了解Google DeepLab-v3+的技术原理

如上所述，DeepLab-v3+技术最大的特点就是可以抠出图像。那么这个按键功能是如何实现的呢？

我们先简单了解一下PS抠图技术。 PS抠图利用PS组件准确区分照片的前景和背景，然后通过提取前景来实现抠图（图2）。不过，PS的精确抠图显然不是一般人能做到的。它需要用户长时间的学习并进行精确的操作才能完成。 DeepLab-v3+的抠像原理类似，但这个学习过程是通过人工智能技术完成的。作为最终用户，您只需要一步步使用即可。

图2 PS抠图需要很长时间才能学会

那么DeepLab-v3+是如何实现这个效果的呢？这主要得益于人工智能技术的日益发展。首先，谷歌将构建一个DeepLab 模型，利用机器识别大量照片和视频，使用改进的卷积神经网络特征提取器、物体比例整形模型以及同化前后内容的技术，再加上先进的模型训练流程。这样，通过大量的样本学习和训练，并借助人工智能自学习，DeepLab-v3技术可以准确识别图像或视频中的前后背景物体，从而生成一套独特的算法。现在DeepLab-v3+是在Tensorflow上进行的，采用部署在服务器端的卷积神经网络（CNN）主干架构，使得该技术拥有更高效的处理速度和更准确的识别精度，能够快速识别各类物体在照片或视频中。精确识别的元素（图3）。

图3 DeepLab-v3技术原理图解

这里我们以Pixel 2XL人像模式下的合成浅景深效果为例。在Pixel 2XL 手机上启用人像模式后，集成的DeepLab-v3+ 处理后台会自动分析照片背后的风景，例如道路、天空、树木、人或狗等物体进行识别，同时为其分配语义标签每个像素。这样，算法就可以根据照片的实际显示效果来处理指定的语义标签，比如对人背后的场景进行模糊处理，从而获得类似于单反相机的景深效果（图4）。

图4 Pixel 2XL手机开启人像模式后的拍摄效果

与视频抠像处理类似，在视频画面中，DeepLab-v3+也会分析视频中前后背景的元素，并为每个像素分配语义标签。借助服务器端的卷积神经网络，可以准确识别视频前景中的人物，从而实现视频抠像功能。抠出的移动角色可以叠加在其他视频场景上，以创建具有类似绿屏MR 特效的电影（图5）。

图5 视频截图

DeepLab-v3+，脚踏实地的键控技术

上面我们介绍了DeepLab-v3+的技术原理。我们可以看到，这项技术并不像技术本身的名字那么“高端”。它在我们的生活中有很多应用。

例如，随着手机的普及和相机分辨率的提高，人们越来越希望手机能够拍摄出更高质量的照片，更真实地还原实际环境。但由于手机本身尺寸超薄，无法通过手机摄像头本身拍摄出类似单反相机的照片（因为手机没有足够的景深）。然而，随着技术的发展，像DeepLab-v3+这样的技术利用人工智能和机器学习来分离学科。结合定制的深度数据，手机也可以拍摄出类似单反效果的照片，这显然会给我们的日常摄影带来更多的便利。带来很多便利（图6）。

图6 利用DeepLab-v3+技术模糊照片背景获得单反效果

另一方面，现在短视频的流行让越来越多的朋友喜欢在手机上欣赏和处理视频数据。 DeepLab-v3+支持的键控技术可以很好地满足大家在手机上的视频处理。例如，使用DeepLab-v3+，您可以轻松地剪切自己，叠加不同的视频背景，创建各种有趣的视频。当然，这项技术在电影特效方面有更多的用途，制作者可以在电影中创造出更多的特效。

图像语义分割模型(图像语义分割fcn)

相关文章