?

面向道路場景語義分割的移動窗口變換神經網絡設計

2024-04-01 07:02黃影平張栩瑞
光電工程 2024年1期
關鍵詞:尺度語義卷積

杭 昊,黃影平,張栩瑞,羅 鑫

上海理工大學光電信息與計算機工程學院,上海 200093

1 引 言

圖像語義分割[1]在計算機視覺領域扮演著至關重要的角色,它被視為模式識別領域的核心研究議題[2]。這一任務的實質在于進行密集的預測,要求對圖像中的每個像素進行準確的類別預測,以確保系統能夠深刻理解對象的輪廓、位置和具體類別等關鍵信息。隨著深度學習技術在計算機視覺領域的飛速發展,語義分割技術獲得了廣泛的應用,自動駕駛[3]、精準農業[4]、醫學影像分析[5]等領域都在積極應用這一技術。在自動駕駛領域尤為顯著,對道路場景進行的語義分割為汽車提供了關鍵的技術支持。通過對車輛前方場景進行精準的語義分割,系統能夠準確地識別和定位道路、車輛和行人,從而提高自動駕駛汽車在環境感知方面的準確性。

現有的圖像語義分割主要分為傳統方法和基于深度學習的方法。傳統的語義分割算法依賴于手工標注特征,實施過程繁瑣、效率低,在一些簡單的場景下效果不錯,但難以應付較為復雜的語義分割任務?;谏疃葘W習的方法利用大量的數據對模型進行訓練,自動提取數據特征,逐漸成為了語義分割的主流方法。目前,應用于圖像語義分割的深度學習算法主要分為兩類,分別是基于卷積神經網絡(convolutional neural network,CNN)[6]和基于Transformer[7]。

2015 年,Long 等人基于編碼器-解碼器結構提出了全卷積神經網絡(fully convolutional networks for semantic segmentation,FCN)[8],首次實現了端到端的像素級語義分割。Ronneberger 等提出UNet[9],在解碼時使用編碼階段不同尺度的特征進行融合,獲取豐富的上下文信息和空間位置信息。Zhao 等提出PSPNet[10](pyramid scene parsing network),通過金字塔池化模塊融合不同池化尺度和不同子區域之間的上下文信息,提升相似物體的檢測精度。Chen 等設計了DeepLab[11-14]算法,其中DeepLabV3[13]設計了空洞空間金字塔池化模塊,采用不同膨脹速率的空洞卷積在多個尺度捕獲目標信息及其上下文信息,解決圖片多尺度問題的同時也提升了分割效果。

Transformer 最初應用于自然語言處理領域,是一種基于自注意力機制的神經網絡模型。Vision in Transformer (ViT)[15]是第一個應用于圖像分類的Transformer 算法,不同于CNN 的特征提取方式,Transformer 模型通過學習序列元素之間的相互依賴關系可以更有效地捕獲全局交互信息。然而,ViT 存在輸出單一尺度、低分辨率特征和高計算成本等缺點。為了應對這些挑戰,研究者們提出了Swin Transformer[16]算法。Swin Transformer 的核心思想是將圖像分割成一系列的非重疊的圖塊,在圖塊內進行自注意力計算,從而減少計算量。然后在這些圖塊之間引入跨窗口的注意力機制,實現全局的信息交互。正是這些特點,讓Swin Transformer 在許多計算機視覺任務中表現出色。

道路場景的圖像語義分割有2 個難點:1)道路場景的圖像種類繁多,小目標物體不易識別。2)道路場景的圖像復雜多樣,相似物體與重疊物體容易出現誤判,圖像中的邊緣細節難以有效分割出。針對以上難點,本文借鑒Swin Transformer 的思想提出了一個適用于道路場景語義分割的深度學習網絡模型。該網絡采用編碼-解碼結構,在編碼部分中利用Swin Transformer 網絡優良的全局交互能力進行特征提取工作。由于層級式提取需要進行下采樣,但下采樣過程中會存在許多細節和結構信息的丟失,因此提出一種全新的特征壓縮模塊(feature compression module,FCM)來進行下編碼階段的采樣操作,從而避免上述問題。在解碼器部分,借鑒了特征金字塔網絡(feature pyramid network,FPN)[17]的思想,設計了一種多級特征融合的解碼器結構。鑒于FPN 并沒有考慮不同尺度特征圖之間的關聯性,只是在上采樣后將相同尺度的特征圖進行簡單的疊加,設計一種獨特的注意力融合模塊(attention fusion module,AFM)來考慮不同尺度特征之間的關聯性,進而提高模型的全局與局部識別能力。

本文主要貢獻如下:1)借鑒了Swin Transformer 的特征提取模塊的思想,提出了一種編碼-解碼結構的適合于道路場景語義分割的深度學習網絡模型。2)提出了一種全新的特征壓縮模塊來進行編碼階段的特征提取操作,減少下采樣過程中的特征信息損失,保留了盡可能多的邊緣特征。3)由于Swin Transformer 沒有固定的編碼器,本文提出了一種多級特征融合解碼器,使用注意力融合模塊來充分利用編碼器輸出的多尺度特征信息,對不同尺度的信息進行選擇性融合,再通過特征金字塔模塊之后進行拼接,可以有效地恢復城市道路圖像的細粒度細節。4)在Cityscapes 數據集上進行實驗評估,與多種道路場景語義分割的經典算法對比,本文方法減少了特征細節的丟失,在分割精度方面具有一定優勢。

2 相關工作

2.1 經典方法

傳統的圖像語義分割主要分為基于閾值、基于邊緣和基于圖論分割的方法?;陂撝档姆椒ㄍㄟ^設定像素灰度值的閾值來將圖像分割為不同的區域?;叶葓D的閾值差,圖像的模糊程度,都會影響該方法的分割效果?;谶吘壍姆椒▌t是對圖像不同語義類別的邊緣進行檢測,根據這些邊緣將圖像分割成不同的區域[18]。其中,Canny 邊緣檢測和邊緣鏈接算法是常用的技術?;趫D論的圖像分割方法利用圖模型來表示圖像中的像素,并通過對圖模型分析來實現圖像分割[19]。

2.2 基于卷積神經網絡的語義分割

在語義分割的發展歷程中,基于卷積神經網絡的圖像語義分割方法對該領域做出的貢獻不容小覷[20]。2012 年Krizhevsky 等人提出的AlexNet[21]架構掀起了卷積神經網絡在各個領域的研究熱潮。2015 年微軟研究院提出的ResNet[22]模型,解決網絡深層架構的問題。同年,Long 等人提出全卷積神經網絡FCN,標志著分割領域進入了全新的發展時期。與之前的所有圖像語義分割算法最大的不同,FCN 使用卷積層代替了分類模型中全部的連接層,可以接受任意尺寸的圖像輸入,并實現了逐像素級的類別預測,極大地推動了分割方法的進展。2016 年,針對FCN 網絡中由于感受野有限而無法充分捕捉上下文信息的問題,PSPNet[10]模型被提出了,該模型通過在網絡中間添加金字塔池化操作,聚合不同尺度上的特征,進而提升網絡的全局感知能力。Chen 等人提出的DeepLab V2[12]使用空洞卷積來增大感受野,同時保持圖像分辨率不變,使用多個不同膨脹因子的空洞卷積構建空洞池化金字塔,以獲取多尺度的特征信息。Ronneberger等人提出經典的對稱編-解碼結構U-Net 網絡,該網絡一開始用于醫學圖像分割,采用編解碼特征圖拼接,通過跳過連接來學習相應編碼級的空間相關性。

2.3 基于Transformer 的語義分割

Transformer 最初應用在自然語言處理,后來被引入計算機視覺領域作為VIT (vision Transformer)[15]骨干網絡。VIT 將圖像劃分成小塊,并編碼成令牌向量,然后進行全局自注意力計算。實驗證明,VIT 在計算機視覺中有很大潛力,但需要大量訓練樣本和高算力支持。為了解決這些問題,Liu 等[16]提出Swin Transformer 這一種骨干網絡,它借鑒了CNN 的多層級思想,并采用層級式結構輸出多尺度特征,能夠較好地處理圖像的多尺度問題。其給patch 劃分小窗口,在窗口內計算局部自注意力,并通過移位窗口操作實現窗口間的信息交互。此外,Swin Transformer 通過合并相鄰的小塊來縮小特征圖的大小,適用于密集預測任務。這些改進使得Swin Transformer 在計算機視覺任務中表現出色,并具有更高的計算效率。

3 本文方法

3.1 網絡結構

本文提出的道路場景語義分割網絡模型如圖1 所示,它由兩部分構成:基于Swin Transformer 特征提取編碼器和基于FPN 的多尺度特征融合的解碼器。編碼器利用Swin Transformer Block 對輸入的圖像進行序列建模以獲取多尺度特征,下采樣過程中通過特征壓縮模塊FCM 代替原來的圖像塊合并(patch merging)模塊,減少下采樣過程中的信息損失,保留更多細節特征。解碼器使用空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊消除產生的噪聲,進一步提取上下文信息。通過注意力融合模塊AFM 對特征通道之間的依賴關系進行建模的同時縮小高低層語義差距,并利用FPN 融合低層細節特征和高層語義特征,將新融合生成的四層特征圖分別進行上采樣,進行拼接融合,得到分割特征映射圖。

圖1 網絡架構Fig.1 Network architecture

3.2 編碼器

編碼器的設計借鑒了Swin Transformer 架構,其原始構架如圖2 所示。它是一種層級式的Transformer結構,通過重復堆疊的Swin Transformer 模塊和下采樣模塊,會生成四層不同尺度大小的特征圖。

圖2 Swin Transformer 架構Fig.2 Swin Transformer architecture

本文的特征提取模塊也即編碼器如圖1 左側所示。圖片通過圖像塊分割層(patch partition)被轉換成4×4固定大小的、互不重疊的圖像塊。然后在通過線性嵌入層(linear embedding)將圖像塊序列化,將處理后的圖像塊送入到Swin Transformer Block 中。Swin Transformer Block 如圖3 所示??梢钥闯?,Swin Transformer Block 包括了窗口多頭注意力機制模塊(window multi-head self attention,W-MSA),滑動窗口多頭注意力機制模塊(shifted-window multi-head selfattention,SW-MSA)。Swin Transformer Block 中的自注意力計算過程如式(1)~(4)所示:

圖3 Swin Transformer 模塊Fig.3 Swin Transformer block

其中:zl表示W-MSA 模塊的輸出特征,zl+1表示SW-MSA 模塊的輸出特征;LN 為歸一化層;MLP 為多層感知機,目的是將序列映射到多維通道,經過卷積后再映射回序列值。

原始的Swin Transformer 采用Patch Merging 模塊來進行窗口特征映射,具體操作如圖4 所示。然而,這種方式進行下采樣容易導致一些細節和上下文結構信息的丟失,不利于小尺度對象的語義分割。對此,我們提出了一種新的特征壓縮模塊FCM,如圖5 所示。用特征壓縮模塊FCM 替換Patch Merging 模塊,使網絡在下采樣過程中保留了盡可能多的詳細特征。

圖4 圖像塊合并模塊Fig.4 Patch Merging module

圖5 特征壓縮模塊Fig.5 FCM module

本文設計的FCM 模塊的輸入為Swin Transformer Block 提取的特征,該模塊分為上下兩個支路。上支路利用膨脹卷積的感受野來廣泛收集小尺度物體的特征和結構信息。在這個支路中,首先通過一個1×1 的卷積層來調整通道數為2C,接著通過一個3×3 的膨脹卷積層,最后再通過一個1×1 的卷積層來減小特征尺度。使用膨脹卷積能夠擴大卷積操作的感受野,在減少參數量和計算成本的同時,保持對大范圍信息的有效感知。這個分支主要用來獲取大范圍上下文的信息,以便深層網絡繼續特征提取,這個分支的輸出是(H/2)×(W/2)×2C。

下支路首先通過通道注意力機制模塊獲取通道之間的聯系,再通過軟池化[23]的操作來獲取更精細的下采樣,最后通過1×1 的卷積層來調整通道數為2C。軟池化在這個分支中起到了至關重要的作用,其核心功能是通過降低數據的空間維度,保留了更多的細節特征,使得輸出更為緊湊。這個分支主要用來保持通道之間的聯系并且在一定程度上減少細節特征的丟失,這個分支的輸出也是(H/2)×(W/2)×2C。最后將這兩個等維度的分支對應位置逐元素相加得到輸出特征。

3.3 解碼器

本文設計的解碼器如圖1 右側所示,解碼器將經過編碼器處理所得到的四層特征圖進一步優化和融合,得到分割結果圖。本文的解碼器借鑒了FPN 思想,并加入了AFM 模塊和ASPP 模塊。傳統的金字塔架構雖然在處理多尺度信息和實現特征融合方面取得了一定的成功,但也存在一些問題:不同層次的特征圖具有不同的感受野,這可能導致融合后的特征在全局和局部信息的平衡上存在困難,淺層網絡中無用信息帶來的冗余等問題[24]。

針對上述問題,本文提出了AFM 模塊來聚合不同尺度特征,如圖6 所示,該模塊將深層和淺層網絡的信息進行結合,縮小不同尺度特征之間的語義差距,進而達到提高網絡精度的目的。具體來說,首先使用1×1 卷積來改變淺層網絡輸出的通道,接著在保持通道數目不變的情況下,采用雙線性上采樣改變特征尺度,使得通道和尺度大小都與通過橫向連接提取的下級輸出相匹配。然后我們將淺層特征和深層特征分別計算通道注意力機制再加權,這樣做,可以調整原始特征圖中每一個特征通道的重要程度,達到增強目標的特征、抑郁背景噪聲的目的。最后將添加通道注意力機制的淺層網絡和深層網絡按照通道拼接的方式進行融合,獲取含有豐富上下文語義信息的特征。

圖6 注意力融合模塊Fig.6 AFM module

解碼器的輸入為編碼器輸出4 個階段的特征圖F={F1,F2,F3,F4},其分辨率分別為原輸入圖像的(1/4,1/8,1/16,1/32}。首先讓最深層特征圖F4通過ASPP 模塊,進一步提取上下文信息,得到本層特征圖F4';讓特征圖F3 通過AFM 模塊融合特征圖F2 得到本層特征圖F3';讓特征圖F2 通過AFM 模塊融合特征圖F1 得到本層特征圖F2'。其次,構建自下而上的特征融合通道,讓高層次的特征經過2 倍上采樣并調整通道數再與低層級特征進行逐像素相加,得到FPN 四層特征圖F"={F1",F2",F3",F4"},最后將FPN 各級輸出分別調整通道數并按上采樣率為{1,2,4,8}進行上采樣,并按照通道維度進行拼接,再通過線性層調整通道數為分類類別數,最后得到分割預測圖。

4 實驗結果與分析

4.1 數據集

實驗采用廣泛使用的語義分割數據集Cityscapes[25]數據集。Cityscapes 數據集包含了來自50 個德國不同城市的街道景觀圖像。這些圖像經過了像素級別的高質量標注,總共有5000 張。其中,訓練集包含了2795 張圖片,驗證集包含了500 張圖片,測試集包含了1525 張圖片。數據集包含了8 個類別,涵蓋了19 個子類別。

4.2 實驗環境

實驗環境如表1 所示,實驗所用的操作系統為Ubuntu18.04,CPU 型號為AMD5600Xd,GPU 型號為NVIDIA RTX3070。網絡是基于MMSegmentation(Pytorch 1.10.0、Python 3.7) 開發框架下實現的,編譯環境采用 Python3.7 編譯環境。模型使用 AdamW優化器,其中初始學習率設置為0.00006,權重衰減率為0.01,損失函數使用交叉熵損失,進行16 萬次迭代。

表1 實驗環境Table 1 Experimental environment

4.3 評價標準

為了評價所提出的語義分割算法的性能,本文選取交并比(intersection over union,IoU)、平均交并比(mean intersection over union,MIoU)、像素準確率(pixel accuracy,PA)、平均像素準確率(mean pixel accuracy,MPA)評估網絡的分割性能[26],其計算方式分別如式(5)~(8):

假設數據一共包括k+1 個類別,對于一個像素點,假設該像素點的真實標簽值為類別i,模型對該像素點的預測結果為類別j。Pij表示將i類像素點預測成j類,Pii表示將i類像素正確預測,Pji表示將j類像素點預測成i類。IoU 通過計算標簽真實值集合和模型預測值集合之間的交并集來評估預測結果與真實標簽的重合程度;MIoU 表示對所有類的IoU 按類計算后取平均值;PA 通過計算模型正確分類的像素點總數在所有像素點中所占的比例來評估模型的分類精度;MPA 表示圖像中所有物體類別像素準確率的平均值。

除了以上幾個評價指標之外,本文還選取參數量(params)、浮點數 運算次 數 (floating-point operations,FLOPs)、畫面每秒傳輸幀數(frames per second,FPS)來評估網絡的計算效率。

4.4 性能評估及與其他方法的比較

將現有的幾種語義分割模型和本文模型在Cityscapes 數據集上進行對比,具體的比較結果見表2、表3 和表4 所示。表2 展示的是各個網絡在Cityscapes 數據集上不同類別的交并比和平均交并比,表3 展示的是各個網絡在Cityscapes 數據集上不同類別的像素準確率和平均像素準確度,表4 綜合展示了各類語義分割網絡的性能。

表2 各類模型在Cityscapes 數據集上的IoU 和MIoUTable 2 IoU and MIoU of various models on the Cityscapes dataset

表3 各類模型在Cityscapes 數據集上的PA 和MPATable 3 PA and MPA of various models on the Cityscapes dataset

表4 各類語義分割算法性能比較Table 4 Performance comparison of various semantic segmentation algorithms

從表2 和表3 參數結果來看,本文網絡比FCN網絡、PSPNet 網絡、UNet 網絡、DeepLabv3 網絡,Swin Transformer 網絡在MIoU 方面分別提高了10.2%、5.9%、4.7%、1.4%、2.0%,在MPA 方面分別提升了10.2%、4.9%、4.8%、2.5%、3.2%。從具體類別上來看,本文網絡相比其他網絡,在人行道、欄桿、柱子、植被、摩托車這幾個類尺度較小且形狀較不規則的目標類別上更勝一籌,在建筑物、汽車、火車這幾類大型且形狀比較規則的類別上不是很突出。分析其原因可能如下:首先,傳統的池化操作會導致目標的特征在網絡的不斷加深中逐漸消失,而本文方法采用特征壓縮模塊盡可能多地保留特征細節和上下文信息;其次,本文在解碼器器中引入ASPP 模塊,使得模型更關注于道路圖像中目標所在區域,有效抑制復雜背景信息的干擾;最后,其他方法只利用網絡最深層的特征捕獲目標的多尺度特性,而本文方法基于 FPN 設計多尺度特征融合解碼器融合網絡所有輸出層中目標的特征,可以有效補充目標的細節信息。因此本文方法可以更好地提取和利用目標的特征,模型分割性能更優。

盡管我們的模型分割效果較為優秀,但表4 也表明了我們的模型參數量較大,推理時間也更久,實時性一般,也需要消耗更多的內存。在實際應用中,仍需進行輕量化處理,降低參數量。

4.5 典型場景下可視化結果分析

為了更清楚地看到我們提出的方法與其他網絡的優勢,我們可視化了不同算法在Cityscapes 場景中的結果。如圖7 所示,從第一行到第七行分別是場景圖原圖、FCN 網絡分割結果圖、PSPNet 網絡分割結果圖、UNet 網絡分割結果圖、DeepLabv3 網絡分割結果圖、Swin Transformer 網絡分割結果圖以及本文改進的基于Swin Transformer 的模型分割結果圖。

圖7 Cityscapes 場景中多種方法分割效果對比圖Fig.7 Comparison of segmentation effects of multiple methods in Cityscapes scenes

從(a)組圖可以看出,本文方法在電線桿、路燈桿子、警示桿這種柱類圖形上有更優秀的分割效果。從(b)組圖可以看出,本文方法相比于其他的網絡在人行道和車輛輪廓細節上效果更好,可以將較為完整的車道線的部分分割出來。在左下角人物和車輛重疊的部分,也可以將人與車輛的邊緣分割清晰。但對于圖片右下角處汽車陰影遮擋住了人行道,仍然存在漏檢的現象。從(c)組圖可以看出,對比關注右下角的花壇處,本文方法可以較為清晰地將地勢高出的部分展示出來,在邊界處的分割效果更優。從(d)組圖可以看出,本文方法可以將花壇護邊分割出來,對于邊緣的分割也更加平滑、整齊。其他網絡并未將道路兩側隱約的路人分割出來,本文方法可以沒有遺漏地把道路兩側的行人分割出來。

4.6 消融實驗

消融實驗如表5 所示,在實驗1 中,編碼器中沒有使用AFM 模塊而是直接使用原論文中的Patch Merging 模塊進行降采樣和調整通道數,解碼器中也不使用FCM 模塊和ASPP 模塊,讓編碼器得到的四層特征輸入圖直接傳入到特征金字塔模塊中。在實驗2 中,編碼器中使用AFM 模塊代替原來的Patch Merging 模塊。在實驗3 中,在使用AFM 模塊的同時,在特征融合的時候加入FCM 模塊。在實驗4 中,在實驗3 的基礎上再加上ASPP 模塊。

表5 消融實驗Table 5 Ablation experiment

在圖8 消融實驗對比圖中可以看出,在圖8(a)分割結果圖中,使用AFM 模塊的實驗2 結果圖中的人行道分割邊界比實驗1 更好,加入FCM 模塊的實驗3,更是進一步優化了整體的分割精度,邊緣的分割效果也進一步提高了。實驗4 相比實驗3,雖然提升的精度不大,但是對分割的魯棒性有良好的增強效果。在圖8(b)分割結果圖中,隨著實驗模塊的增加,右下角的人行道邊界區域越發清晰,中間的馬路的邊界區域的清晰程度也是越來越好。在圖8(c)實驗分割結果圖中,相比實驗1,實驗2 中可以分割出更多的細節物體,例如遠處的指示牌。結合表3 中的數據,可以看出相比原來的模塊,AFM 模塊巧妙地結合了細節特征和語義特征,有助于保留網絡中小目標的細節,顯著優化對于小目標的分割效果,MIoU 增長了0.7%。實驗3 相比實驗2 在物體輪廓方面效果更好一些,FCM 模塊相比不加此模塊MIoU 增長了1.1%,優化了邊緣分割效果。實驗4 相比實驗3,加入了ASPP模塊進行捕獲不同感受野尺度的信息,獲得豐富的上下文信息,可以在圖中看出在柱子和其他物品重疊的情況下,柱子的分割的連續性也是較好的,由此可以看出ASPP 模塊的作用。

圖8 消融實驗效果對比圖Fig.8 Comparison of ablation experiment effects

5 總 結

本文提出一種多尺度特征融合的道路場景語義分割模型。模型采用編碼-解碼結構。編碼器部分設計了一種全新的特征壓縮模塊FCM 來優化編碼階段的下采樣操作。實驗表明該模塊可以減少下采樣過程中的特征信息損失,保留盡可能多的邊緣特征信息。在解碼器部分,本文設計出一種注意力融合模塊AFM來充分利用不同尺度的特征信息,縮小高低層語義差距,充分聯系上下文特征信息,再使用特征金字塔網絡自下而上對特征融合的結果進一步疊加融合,這種解碼方式有助于優化整體的邊緣分割效果和分類精度。在Cityscapes 城市道路場景數據集上進行定量和定性實驗,實驗結果表明,與多種語義分割算法相比,本文方法在分割精度方面有明顯的優勢。

猜你喜歡
尺度語義卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
財產的五大尺度和五重應對
語言與語義
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
宇宙的尺度
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
9
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合