?

基于域適應的煤礦環境監控圖像語義分割

2021-11-10 03:25楊文嘉畢方明
煤炭學報 2021年10期
關鍵詞:源域語義注意力

楊 瀟,陳 偉,3,任 鵬,楊文嘉,畢方明

(1.中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116;2.中國礦業大學 礦山數字化教育部工程研究中心,江蘇 徐州 221116;3.中國科學院上海微系統與信息技術研究所 無線傳感網與通信重點實驗室,上海 200050)

煤炭是我國的重要資源,保障國民經濟穩步發展[1-2]。隨著智能化技術的發展,由人力資源主導的傳統煤礦行業存在安全水平低、開采效能低等問題,感知型、智能型、智慧型礦山成為煤礦行業發展的必然趨勢[3]。近年來,深度學習算法逐漸在煤礦特殊環境中得到應用。曹玉超等[4]訓練殘差網絡檢測礦井水位標尺刻度。馬宏偉等[5]提出基于深度視覺的導航方法,解決煤礦移動機器人的自主導航問題。司壘等[6]改進U-net網絡模型,較好地提高綜采工作面煤層的識別精度。李曉宇等[7]提出基于超像素?;巴|圖像粒聚類的方法,對煤礦人員進行分割。然而,煤礦環境中存在光線昏暗,對比度低等問題[8],導致監控圖像質量差,深度學習模型應用于煤礦特殊環境中存在一定的困難。語義分割技術是深度學習方法應用于煤礦智能監控系統的一項關鍵技術,對煤礦復雜場景解析具有重要意義。

隨著深度學習的發展,尤其是全卷積神經網絡(Fully Convolutional Networks,FCN)[9]的提出,語義分割獲得巨大的發展。DeepLab v1[10]將深度卷積神經網絡與概率圖模型相結合,使用空洞卷積解決卷積網絡中下采樣導致的細節丟失問題。DeepLab v2[11]提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模型,用來融合不同語義級別的信息。DeepLab v3[12]進一步改進空洞卷積,提出串行和并行的空洞卷積模塊捕獲多尺度信息。與大多數圖像語義分割模型不同,YU等[13]認為語義分割不是標記每個像素而是標記一個整體,提出平滑網絡模型和邊界網絡模型來解決類內不一致和語義邊界問題。DenseASPP模型[14]采用密集的方式將空洞卷積連接起來,達到密集采樣的同時獲得更大的感受野。上述圖像語義分割模型需要大量的像素級標簽進行訓練,不適用于對缺少標注信息的煤礦環境監控圖像進行語義分割。

近年來,域適應方法逐漸成為深度學習的熱點研究內容,將從源域中學習知識應用到目標域[15],用來解決源域和目標域之間的域偏移問題。域適應方法主要是通過對齊源域和目標域之間的特征分布或使用對抗網絡學習域不變特征來減小不同數據域的分布差異。文獻[16-17]采用多核的最大均值差異(Multiple Kernel Variant of MMD,MK-MMD)和二階統計量最小化源域和目標域的分布差異。文獻[18]提出對比域差異(Contrastive Domain Discrepancy)方法,對類內域和類間域的差異進行建模。隨著域適應方法的發展,基于域適應的語義分割在計算機視覺領域中顯現出顯著優勢。文獻[19]將域適應方法與語義分割結合起來,提出基于全卷積網絡的無監督域適應語義分割模型,從全局對齊和具體類別對齊兩方面減小域偏移。文獻[20]提出端到端的對抗性領域自適應網絡模型?;谖墨I[20],VU等[21]提出深度感知自適應語義分割模型,利用圖像深度信息訓練無監督域適應模型。文獻[22]在對抗學習框架中添加聯合訓練的思想,解決傳統域適應方法的語義不一致性、負遷移等關鍵問題。文獻[23]通過對抗損失間接減小熵值減少域偏移。文獻[24]使用風格遷移方法合成具有目標域風格的圖像,提出可以適應不同環境的語義分割模型。文獻[25]提出將圖像分解為域不變結構和域特定紋理表示的域不變結構提取框架,實現跨域圖像轉換,提高圖像語義分割性能。文獻[26]將對抗網絡與自訓練結合起來,提出基于迭代自訓練的新型無監督域適應模型,根據目標域具有高置信度的預測交替生成偽標簽,并使用這些偽標簽重新訓練模型?;谟蜻m應方法的圖像語義分割模型,對于缺少標注信息的圖像中具有較好的語義分割性能,但在煤礦復雜環境中的應用近乎空白。

本文研究基于域適應的煤礦環境監控圖像語義分割方法。煤礦環境中存在光線不足、對比度低等問題,容易混淆外觀相似的不同語義類別的目標,導致語義分割性能降低。針對煤礦監控圖像缺少標注信息和容易混淆外觀相似的不同語義類別目標的問題,筆者提出雙對齊網絡模型。該模型將在合成圖像上訓練的模型遷移到煤礦監控圖像上,實現煤礦環境監控圖像語義分割。在特征空間中,使用特征級域適應網絡學習域不變特征,減少合成圖像與煤礦監控圖像的特征分布差異。在像素空間中,使用像素級域適應網絡將源域圖像風格轉換為目標域圖像的風格,減少因紋理、光照等因素造成的域偏移。由于源域圖像和目標域圖像并不總是空間對齊的,像素級域適應網絡采用基于語義和上下文的Contextual Loss[27]進行網絡優化。為解決煤礦監控圖像中不同語義類別目標易混淆的問題,使用具有煤礦環境風格的源域圖像訓練分割網絡,提高煤礦監控圖像語義類別辨識度。判別器中添加空間注意力模塊和通道注意力模塊,用來增強判別能力??臻g注意力模塊計算任意2個位置之間的聯系以捕獲更多的信息,通道注意力模塊為不同通道的特征映射分配不同的權重。將本文方法與AdaptSegNet,DCAN,CLAN等算法進行對比,并從平均交并比指標上進行分析,驗證本文提出的雙對齊網絡模型的有效性。

1 雙對齊網絡模型

1.1 問題描述

主要研究煤礦復雜環境監控圖像的語義分割問題,目標是提高煤礦智能監控系統的場景理解能力。傳統的對抗性域適應語義分割模型將合成圖像作為源域圖像,真實圖像作為目標域圖像,從2方面進行訓練:① 訓練分割網絡模型G,通過最小化分割損失從源域圖像中提取知識;② 判別器D接收分割網絡G的輸出I并判斷I是來自于源域還是目標域。通過分割網絡G和判別器D的對抗訓練,分割網絡G學習域不變特征。傳統的對抗性域適應模型使用對抗訓練的方式減少源域和目標域之間的特征分布差異,實現特征級域適應。然而,特征級域適應方法為學習到域不變特征,通常會忽略一些域差異較大的樣本,具有一定的局限性。

針對傳統的域適應方法具有一定的局限性以及合成數據集與煤礦監控圖像域間差異較大的問題,筆者從特征級域適應和像素級域適應2個角度出發,提出雙對齊網絡模型。

1.2 雙對齊網絡結構

研究目標是將在源域圖像上學習的模型遷移到目標域圖像上,使其可以準確地預測目標域圖像的像素級標簽。方法主要包含特征級域適應網絡和像素級域適應網絡。給定源域數據集和目標域數據集,像素級域適應網絡在源域圖像和目標域圖像之間進行風格遷移,得到具有目標域風格的源域圖像。特征級域適應網絡包含分割網絡和判別器,2者通過對抗訓練學習域不變特征。為提高判別器的判別能力,將注意力機制應用到判別器中,網絡結構如圖1所示。源域圖像為xs∈XS,源域圖像的像素級標簽為ys∈YS,

圖1 雙對齊網絡結構Fig.1 Architecture of Dual Alignment Networks

目標域圖像為xt∈XT,其中,XS為源域圖像;xs為源域中的具體圖像;YS為源域標簽數據;ys為具體的源域標簽數據;XT為目標域圖像;xt為目標域中的具體圖像。

基于ResNet-101網絡的DeepLab-v2[11]作為分割網絡G。DeepLab-v2是全卷積神經網絡之后被廣泛應用的語義分割模型。分割網絡G包含編碼器和分類器,判別器D中包含5個卷積核尺寸為4×4的卷積層和注意力模塊。源域圖像和目標域圖像作為分割網絡G的輸入,得到源域圖像和目標域圖像的分割結果。對于源域圖像的預測分割結果,根據像素級標簽計算交叉熵損失優化網絡G。源域圖像與目標域圖像的分割結果輸入到判別器D中,判別器D需區分輸入來自于哪個域。通過分割網絡G和判別器D的聯合訓練,進行特征級對齊。源域圖像和目標域圖像作為像素級域適應網絡的輸入,獲得具有目標域風格的源域圖像。將具有目標域風格的源域圖作為分割網絡G的輸入,獲得預測的分割結果,根據源域圖像的像素級標簽計算交叉熵損失并將其反向傳播到分割網絡G。

1.3 特征級域適應

源域圖像和目標域圖像在視覺級別上差異較大,但在語義類別方面信息是相同的,語義信息通常是域不變的[28]。通過學習域不變特征提取源域圖像和目標域圖像的語義信息,實現跨域語義分割。使用特征級域適應網絡學習域不變特征,進行特征級對齊。 特征級域適應網絡主要包含分割網絡G和判別器D,目標是減少2個領域之間特征表示的分布差異,其流程分為2步:

(1)使用源域圖像進行監督訓練。源域圖像作為分割網絡G的輸入,編碼器進行特征提取,分類器對編碼器產生的特征進行分類。多分類交叉熵損失作為分割損失函數。優化多分類交叉熵損失,使編碼器提取的特征保留源域圖像的語義信息且分類器可以進行準確分類。該步的分割損失函數Lseg為

(1)

(2)對抗域適應。源域圖像和目標域圖像輸入分割網絡G,經過編碼器和分類器,得到源域圖像分割結果和目標域圖像分割結果。判別器接收源域和目標域的分割結果并進行區分。優化判別器的交叉熵損失函數,提高判別器的區分能力。交叉熵損失函數Ld為

(2)

式中,h,w分別為分割結果的高度和寬度;P為語義分割結果。

z=0表示樣本來自目標域,z=1表示樣本來自于源域。

目標域圖像輸入分割網絡G,經過編碼器和分類器,得到目標域分割結果PT=G(XT)。為使源域圖像分割結果的分布與目標域圖像分割結果接近,采用如式(3)所示的損失函數Ladv:

(3)

在訓練過程中,判別器D希望盡可能區分不同域的分割結果,分割網絡G希望目標域圖像的分割結果可以欺騙過判別器D。通過不斷的對抗訓練,分割網絡G學習到源域圖像和目標域圖像的域不變特征,在特征空間中對齊源域和目標域的分布,使得源域圖像訓練的分割網絡G可以遷移到目標域圖像。

如圖1所示,交替訓練分割網絡G和判別器D,在特征空間上調整源域和目標域的特征分布,提高分割網絡G對目標域圖像的泛化能力。由于合成圖像與煤礦圖像領域差異較大,使用特征級域適應網絡學習域不變特征,其特征域不變性有所降低。為減少合成圖像與煤礦真實圖像的領域差異,在特征級域適應網絡的基礎上引入像素級域適應網絡。

1.4 像素級域適應

圖像的紋理、光照等特征是造成域間差異的重要原因,減少域間差異,目標域圖像的分割性能也會隨之提升。提出像素級域適應網絡,在保留其原始圖像內容前提下,對源域圖像進行風格遷移,使其在背景、紋理、光照等方面與煤礦環境監控圖像更接近。風格化后源域圖像與目標域圖像在視覺外觀上看起來像是來自同一個域,在輸入層面解決域偏移問題。

煤礦復雜環境監控圖像存在外觀相似的不同語義類別目標易混淆的問題,導致域適應語義分割有一定困難。在像素級域適應網絡中,使用具有煤礦場景風格的源域圖像訓練分割網絡G。分割網絡G學習到煤礦環境監控圖像的光照、紋理等特征,增強對不同類別目標的區分度。像素級域適應網絡如圖2所示。

圖2 像素級域適應網絡Fig.2 Pixel-level domain adaptation Network

內容損失函數用來衡量源域圖像和風格化后圖像內容上的誤差,內容損失越小,表示圖像內容的相似度越高。為構建內容損失函數,筆者采用預訓練的VGG19神經網絡分別在源域圖像和風格化后圖像上獲取特征映射,計算在特定卷積層上的特征相似度。如果特征相似度越高,則表明圖像之間的內容相似度越高。選取源域圖像和風格化后的圖像在第l層提取的特征的L2 loss作為內容損失函數Lcontent_loss,即

(4)

針對圖像風格遷移問題,不僅需要內容損失函數能夠衡量圖像內容上的差異,同時需要風格損失函數來衡量圖像間風格的差異。圖像間風格差異程度越小,則表示圖像風格相似度越高。為構建風格損失函數,通過預訓練的VGG19神經網絡分別在源域圖像和風格化后圖像上獲取特征映射,使用Contextual Loss[27]計算圖像間的相似程度。

源域圖像和目標域圖像并不總是空間對齊的,采用Contextual Loss作為風格損失函數。Contextual Loss認為2張圖像同一區域的特征塊中大部分是相似的,則可認為2張圖像是相似的。為計算圖像間的相似度,需要找到每個特征Yi最相似的特征Xi,然后求和相應的特征相似度:

(5)

式中,CX為采用Contextual Loss損失函數;CXij為特征相似性。

風格損失函數如式(6)所示,計算風格化后圖像與目標域圖像之間的差異并通過反向傳播的方式更新圖像轉換網絡T的參數。

(6)

(7)

1.5 注意力模塊

分割網絡G和判別器D進行對抗訓練,判別器D希望盡可能地區分接收的信息來自哪個域,分割網絡G希望分割結果可以混淆判別器。筆者在將注意力機制應用到判別器D,提高判別器的判別能力。通過G和D的不斷進行對抗訓練,提高分割網絡G的泛化能力。

注意力機制通過關注重要特征并抑制不必要的特征來增加特征表征力[29]。筆者設計基于注意力機制的判別器,在判別器D中添加通道注意力模塊和空間注意力模塊,如圖3所示。

圖3 注意力模塊AMFig.3 Attenion Module AM

CNN卷積層包含豐富的信息,同等的對待不同通道的特征映射會導致信息冗余。使用通道注意力模塊,為不同通道的特征映射分配不同的權重,如圖4所示,其中,S為sigmoid激活函數;X為元素級相乘。

圖4 通道注意力模塊Fig.4 Channel Attenion Module

(8)

式中,W0和W1為多層感知機的權重;σ為sigmoid函數;?為元素級相乘。

通道注意力模塊基于CBAM[30]方法,采用全局平均池化實現聚合運算。全局平均池化得到的特征信息對特征圖中的每個特征都有反饋。多層感知機用來提取通道間的關系,學習每個通道的權重以獲取通道域的注意力。

卷積是對局部區域進行操作,很難捕獲到大范圍或全局不同位置的關系。非局部操作[31]基于非局部均值濾波的思想,捕獲不同位置間的關系??臻g注意力模塊使用非局部操作提升判別器的全局感知信息能力,如圖5所示。

圖5 空間注意力模塊Fig.5 Spatial Attenion Module

特征映射x∈RC×WH經過3個1×1卷積操作得到3個特征空間,分別是f(x)=w1x,g(x)=w2x,h(x)=w3x,w1,w2,w3分別為1×1的卷積。將g(x)=w2x轉置后與f(x)=w1x相乘,計算相似度,之后經過softmax歸一化,其計算公式為

(9)

其中,Sq,p為位置p和q之間的相關程度,空間注意力映射S∈RWH×HW,是由Sq,p組成的矩陣;f(xp)為特征映射x經過1×1卷積后得到的特征映射在位置p的信息;g(xq)為特征映射x經過1×1卷積后得到的特征映射在位置q的信息;f(xK)為特征映射x經過1×1卷積后得到的特征映射在位置K的信息,其中K列出了所有可能的位置。S與h(x)=w3x進行矩陣相乘,將其獲取的結果與特征x相加就得到具有空間注意力的特征。使用空間注意力模塊,對特征圖中不同位置信息建立依賴聯系,從而獲取到全局特征信息。

2 實驗結果及分析

2.1 實驗數據集

為評估算法的有效性,在SYNTHIA-to-Cityscapes,GTA5-to-Cityscapes以及SYNTHIA到煤礦監控圖像3個域適應任務上進行對比實驗。Cityscapes數據集由5 000張真實城市環境中的駕駛場景圖像組成。GTA5數據集由基于城市洛杉磯視頻游戲的24 966張圖像組成,其分辨率大小為1 914×1 052。SYNTHIA數據集是一個大型的虛擬城市真實感效果圖集合。煤礦監控圖像來自山西某煤礦,總計1 500張圖像,圖片尺寸為1 000×1 500。

2.2 實驗環境

2.3 結果分析

選用平均交并比(MIoU)衡量語義分割的分割精度,交并比(IOU)是預測語義分割結果與真實語義分割結果的交集除以它們的并集,平均交并比為所有語義類別的交并比的平均值。

首先選取GTA5-to-Cityscapes,SYNTHIA-to-Cityscape兩個典型的域適應任務進行算法性能驗證,將雙對齊網絡模型與AdaptSegNet[20],DCAN[32],CLAN[22]等算法進行對比。AdaptSegNet與CLAN是典型的基于生成對抗網絡的域適應語義分割算法,采用對抗訓練的方式學習域不變特征,實現特征級域適應。DCAN算法是基于風格遷移[33]的域適應語義分割算法,在圖像生成器和分割網絡中進行通道級的特征對齊。表1給出在GTA5-to-Cityscapes域適應任務上不同算法的域適應語義分割結果。表2給出在SYNTHIA-to-Cityscapes域適應任務上不同算法的域適應語義分割結果。

表1 GTA5到Cityscapes域適應語義分割結果

表2 SYNTHIA到Cityscapes域適應語義分割結果

根據表1和2,對于GTA5-to-Cityscapes域適應任務,本文方法的平均交并比達到43.7%,與DCAN,AdaptSegnet,CLAN等方法相比,分別提高5.20%,1.30%,0.73%。本文算法在SYNTHIA-to-Cityscape的域適應任務上相比DCAN,AdaptSegNet,CLAN等方法,平均交并比分別提高3.10%,1.95%,0.98%。在典型的域適應任務上,本文模型的分割性能明顯提升。雙對齊網絡模型將特征級域適應與像素級域適應相結合,不僅通過學習域不變特征提取源域和目標域的語義信息,同時減少源域圖像與目標域圖像之間紋理、光照等差異。注意力模塊的引入可提高判別器的判別能力,通過分割網絡和判別器的對抗訓練增強分割網絡的泛化能力。

圖6為CLAN算法與雙對齊網絡模型在GTA5到Cityscapes域適應任務上的語義分割結果對比。CLAN算法是目前比較先進的域適應語義分割算法。觀察圖6,本文算法在能較好地分割出不同的語義類別目標,在道路、人行道等類別上優于CLAN算法。

圖6 GTA5到Cityscapes域適應語義分割結果Fig.6 Exameple results of adapted segmentation for GTA5-to-Cityscapes

根據表1和表2,Cityscapes作為目標域數據集時,在GTA5數據集上訓練的模型比在SYNTHIA數據集上訓練的模型獲得更好的分割性能。對數據集進行比較,有2個方面的原因:① GTA5中有更多的訓練樣本;② Cityscapes數據集的圖像多是在白天采集的,而SYNTHIA的圖像大多是黑夜中的場景。

煤礦環境中光線昏暗,對比度低。與GTA5數據集相比,SYNTHIA數據集中大多數為黑夜中的場景。從圖像光照、背景等因素考慮,煤礦監控圖像與SYNTHIA的域間差異更小,跨域語義分割的性能也會較好。當煤礦監控圖像作為目標域數據時,筆者選擇SYNTHIA數據集作為源域數據。表3 為SYNTHIA到煤礦環境監控圖像的域適應語義分割結果。

表3 SYNTHIA到煤礦環境監控圖像的域適應語義分割結果

對于SYNTHIA到煤礦環境監控圖像的域適應任務,雙對齊網絡模型的平均交并比為38.26%,與AdaptSegNet[20],DCAN[32],CLAN[22]方法相比,分別提高7.19%,8.34%,5.56%。本文方法在特征級域適應網絡的基礎上引入像素級域適應網絡,擴大應用場景。AdaptSegNet[20]與CLAN[22]方法使用對抗網絡進行特征級域適應,通常會去除一些域差異較大的樣本,不適用于域間差異較大的煤礦環境監控圖像域適應語義分割問題。DCAN方法使用通道級的特征對齊方法進行像素級域適應語義分割,分割性能偏低。本文方法從特征級對齊和像素級對齊2個角度出發,擴大應用場景的同時提升分割性能。煤礦環境監控圖像存在外觀相似的不同語義類別目標易混淆的問題,導致域適應語義分割有一定困難。在像素級域適應網絡中,使用具有煤礦環境監控圖像風格的源域圖像訓練分割網絡G,提高語義類別辨識。

圖7為DCAN,AdaptSegNet,CLAN與雙對齊網絡模型的煤礦監控圖像語義分割結果對比。DCAN,AdaptSegNet,CLAN等算法分割結果比較粗糙,容易將不同的語義類別混淆,產生錯誤的語義分割結果。本文模型的分割結果比較清晰,對不同語義目標的輪廓預測比較準確。

圖7 SYNTHIA到煤礦環境監控圖像的域適應語義分割效果Fig.7 Exameple results of adapted segmentation for SYNTHIA-to-Coal Mine

參數量表示模型參數的數量,通常用來衡量模型大小。為驗證本文方法在模型尺寸與語義分割性能之間可以達到平衡,在SYNTHIA-to-Coal Mine域適應任務上進行實驗,4種方法的參數量及語義分割性能結果對比見表4。DCAN,AdaptSegNet,CLAN以及雙對齊網絡等方法以DeepLab-v2為主干網絡,源域圖像的尺寸大小為1 024×608,目標域圖像的尺寸大小為800×1 000。

表4 4種方法的參數量

根據表4,從參數量指標分析,4種方法的參數量由高到低依次為DCAN、本文方法、CLAN、 AdaptSegNet,其中AdaptSegNet與DCAN方法的語義分割精度較低。與CLAN方法相比,本文方法的參數量與其相差較少,語義分割性能明顯提高。從參數量與平均交并比兩方面因素綜合來看,與DCAN,CLAN,AdaptSegNet相比,本文方法的綜合性能較好。本文方法在不增加計算負擔的前提下,跨域語義分割性能得到明顯提升。

2.4 消融實驗

為驗證雙對齊網絡中像素級域適應網絡與注意力模塊的有效性,在GTA5-to-Cityscapes域適應任務上進行消融實驗。表5顯示不同設置下的實驗結果,基準網絡為單層的AdaptSegNet[20]網絡。AdaptSegNet模型采用對抗訓練的方式進行特征級域適應。

表5 在GTA5-to-Cityscapes域適應任務上雙對齊網絡的 消融實驗結果

根據表5,使用基準網絡進行域適應語義分割,其平均交并比為41.2%。引入像素級域適應網絡,平均交并比為43.2%,與基準網絡相比,語義分割性能提高2%。分割性能提升的主要原因是像素級域適應網絡對源域圖像進行風格遷移,使其在紋理、背景、光照等方面與目標域圖像接近,從輸入層面上減少域偏移。在判別器D中添加注意力模塊,平均交并比提高1.7%,由此驗證將注意力機制應用到判別器中,不僅提高判別器的判別力,同時增強了分割網絡的泛化能力?;鶞示W絡同時引入像素級域適應網絡和注意力模塊,平均交并比為43.7%,語義分割性能提高2.5%,表明本文算法在域適應語義分割任務上的有效性。

為討論像素級域適應網絡、注意力模塊對減少煤礦監控圖像與合成圖像的域間差異的作用,本文在SYNTHIA-to-Coal Mine域適應任務上進行消融實驗。表6顯示不同設置下的實驗結果,以單層的AdaptSegNet[20]網絡為基準網絡。

表6 在SYNTHIA到煤礦監控圖像域適應任務上雙對齊 網絡的消融實驗結果

根據表6,使用基準網絡對煤礦監控圖像進行語義分割,其平均交并比為29.92%?;鶞示W絡引入像素級域適應網絡,平均交并比為36.4%。語義分割性能提高6.48%,主要是因為像素級域適應網絡將源域圖像風格轉換為煤礦監控圖像風格。使用具有煤礦環境風格的源域圖像進行訓練時,分割網絡學習到煤礦環境監控圖像光照、紋理等特征。在判別器D中添加注意力模塊,平均交并比提高5.98%。注意力模塊通過關注重要特征并抑制無關特征來增強特征的表征能力,進一步提高判別器的判別能力。隨著分割網絡與判別器的不斷對抗訓練,分割網絡的泛化能力也得以提高?;鶞示W絡同時引入像素級域適應網絡和注意力模塊,平均交并比為38.26%,語義分割性能提高8.34%,表明本文算法在煤礦監控圖像語義分割任務上的有效性。

為討論注意力模塊中通道注意力模塊和空間注意力模塊的作用,筆者在GTA5-to-Cityscapes域適應任務上進行消融實驗。表7顯示不同設置下的實驗結果,基準網絡采用單層的AdaptSegNet[20]網絡。

表7 注意力模塊的消融實驗結果

根據表7,使用基準網絡進行域適應語義分割,平均交并比為41.2%。判別器中添加通道注意力模塊,平均交并比為42.0%。與基準網絡相比,語義分割性能提高0.8%。語義分割性能提升的主要原因是通道注意力模塊為不同通道的特征分配不同的權重,減少無關特征對判別器的影響。判別器中添加空間注意力模塊后,平均交并比為42.1%。與基準網絡相比,語義分割性能提高0.9%??臻g注意力模塊采用非局部操作增強判別器的全局感知信息能力,提高判別器的判別能力?;鶞示W絡同時引入通道注意力模塊和空間注意力模塊,平均交并比為42.9%。與基準網絡相比,語義分割性能提高1.7%,由此驗證通道注意力模塊與空間注意力模塊相結合可以提高分割網絡的泛化能力。

3 結 論

(1)所提的像素級域適應網絡能較好地解決合成圖像與煤礦監控圖像域間差異問題,從輸入層面上減少域間差異。

(2)采用具有煤礦監控圖像風格的源域圖像訓練分割網絡,使其學習到煤礦監控圖像紋理、光照等特征,提高煤礦場景監控圖像語義類別辨識度,較好地解決不同語義類別目標易混淆問題。

(3)注意力機制應用到判別器中,可提高判別器的判別能力,進而增強分割網絡的泛化能力。

(4)雙對齊網絡模型在SYNTHIA到煤礦場景域適應任務的平均交并比達到38.26%,優于DCAN,AdaptSegNet,CLAN等算法,語義分割性能明顯提升,較好地分割出煤礦監控圖像中不同尺度的人員、巷道、電燈等類別。

猜你喜歡
源域語義注意力
真實場景水下語義分割方法及數據集
讓注意力“飛”回來
基于參數字典的多源域自適應學習算法
如何培養一年級學生的注意力
A Beautiful Way Of Looking At Things
從映射理論視角分析《麥田里的守望者》的成長主題
“吃+NP”的語義生成機制研究
情感形容詞‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的語義分析
漢語依憑介詞的語義范疇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合