Google 最新語義圖像分割模型 DeepLab-v3+ 已開源

Google 研究團隊開源在 Tensorflow 中進行語義圖像分割(Semantic Image Segmentation)模型 DeepLab-v3+,包括 Google Pixel 2 和 Pixel 2XL 手機上的人像模式(Portrait Mode),以及 YouTube 為影片實時更換背景功能,都是這項技術的應用。

Google 研究軟體工程師 Liang-Chieh Chen 以及 Yukun Zhu 表示,語義圖像分割的主要目的是為每個像素指定語義標籤,例如路、天空、人或是狗等物體,不少的程式需要這樣的功能,像是合成淺景深效果(Synthetic Shallow Depth-of-field)效果,應用在手機 Pixel 2 和 Pixel 2XL 上提供的人像模式(Portrait Mode),能自動模糊人物的背景,作出類似單鏡頭反光相機的景深效果。另外,在多數攝影 App 都會提供的實時影像分割(Video Segmentation),例如最近 YouTube 發表的新功能,為影片換背景的功能,也是語義影像分割的應用。

DeepLab-v3+ 在 Tensorflow 上進行,使用部署於伺服器端的卷積神經網路(CNN)骨幹架構,以獲取最佳的結果。除了代碼之外,研究團隊也同時公開了 Tensorflow 模型訓練以及評估程序,以及使用 Pascal VOC 2012 與 Cityscapes 資料集訓練的模型。

DeepLab-v3+ 技術是基於三年前的 DeepLab 模型,期間改進了卷積神經網路特徵萃取器、物體比例塑造模型以及同化前後內容的技術,再加上進步的模型訓練過程,還有軟硬體的升級,從 DeepLab-v2 到 DeepLab-v3,直到現在發表的 DeepLab-v3+,效果一代比一代好。

DeepLab-v3+ 是由 DeepLab-v3 擴充而來,研究團隊增加瞭解碼器模組,能夠細化分割結果,能夠更精準的處理物體的邊緣,並進一步將深度卷積神經網路應用在空間金字塔池化(Spatial Pyramid Pooling,SPP)和解碼器上,大幅提升處理物體大小以及不同長寬比例的能力,最後得到強而有力的語義分割編碼解碼器網路。Liang-Chieh Chen 以及 Yukun Zhu 特別提到,隨著軟硬體的升級,建構在卷積神經網路上的現代語義圖像分割功能,可以達到的水準已經遠遠超過 5 年前的水平。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *