極簡筆記 DeepLabv3

【極簡筆記】Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

文章核心:1. 提出DeepLabv3 ,採用encoder-decoder結構(其實就是語義分割常用的下采樣再上取樣);2. 該網路通過帶孔卷積可以任意控制encoder feature的resolution,有較好的尺度適應性;3. 採用modified Xception主幹網路,並在ASPP(帶孔卷積模組)和decoder模組採用depthwise separable convolution;

總之一句話,之前各種文章創新點的堆疊,加上大量的結構調參。
這裡寫圖片描述

encoder-decoder和帶孔卷積就不講了,重點在它怎麼合併 。如圖在decoder部分,它是雙線性上取樣x4之後,和淺層通過1x1conv,擁有相同spatial resolution的feature map concatenate,之後再過一個3×3 conv,算是一次stage,這樣多來幾次回到原圖大小。

在Xception的修改上,1. 更多的層;2. max pooling部分用stride=2的depthwise卷積替換;3. 每次depthwise 3×3卷積之後都加上了BN和ReLU。
這裡寫圖片描述
這裡寫圖片描述