?

流形正則化的交叉一致性語義分割算法

2022-12-21 03:23劉臘梅宗佳旭肖振久蘭海曲海成
中國圖象圖形學報 2022年12期
關鍵詞:流形正則一致性

劉臘梅,宗佳旭,肖振久*,蘭海,曲海成

1. 遼寧工程技術大學軟件學院,葫蘆島 125105; 2. 泉州裝備制造研究所,泉州 362000

0 引 言

深度學習在計算機視覺領域取得了令人矚目的成果。但是,訓練深度學習模型需要大量的標記數據,獲取這些數據是耗時耗力的,在語義分割中這種現象更為嚴重。像素級標簽的獲取需要耗費大量的人力和物力,成本是區域級和圖像級標簽的15倍和60倍(Lin等,2014)。因此,深度學習需要提高數據的利用率,特別是在圖像語義分割方法中。

目前,越來越多的研究工作集中在深度半監督學習上,以利用大量未標記數據并限制對標記數據的需求。在深度學習中,主流的半監督方法包括一致性訓練(Tarvainen和Valpola,2017)、偽標簽法(陳辰 等,2020)和熵最小化(Miyato等,2019)等方法。而半監督學習的最新進展大多集中在分類任務中,在語義分割中仍然受到限制。語義分割中的大多數工作(Zhang等,2020)專注于利用弱監督學習訓練模型,即利用圖像級標簽生成偽像素標簽,然后與有限的像素級標簽共同用于訓練。然而這些方法依然會受到限制,弱監督的方法需要帶有非像素級標簽的示例配合像素級標簽的數據共同訓練,因此弱監督方法不會利用未標記數據來提取其他訓練信號。在半監督學習方法中,基于生成對抗網絡(generative adversarial networks,GANs)的訓練方法會利用未標記的數據,通過GANs的框架結構擴展到像素級別的預測,利用鑒別器對抗損失和有監督損失來聯合訓練(Souly等,2017),但需要解決模型坍塌等棘手問題。同時,在語義分割的任務中需要依賴大量上下文之間的信息。目前的方法對上下文信息的采集及約束不能滿足現階段任務的需求,而且現有的增加上下文信息的方法都不同程度地增加了網絡的推理速度。

為解決上述問題,在交叉一致性訓練的基礎上提出了一種流形正則化的半監督語義分割方法。一致性訓練的目的是通過在輸入圖像上施加微小擾動以強制約束模型的預測結果不變。由此,模型將對微小變化具有強魯棒性。一致性訓練的有效性在很大程度上取決于數據分布的形態,即數據的流形分布。交叉一致性的半監督訓練方式則是通過編碼器輸出的不同形式的擾動,將擾動施加于不同的解碼器上并且強制使其解碼器預測結果不變,以保持模型的預測不變性。Niyogi(2013)提出,盡管表面形式的自然數據分布在高維空間(語音、圖像和文本等)中,但它們的構成元素并不多,因此具有較低的固有維數。這也證實了將流形正則化應用于交叉一致性半監督語義分割在理論上的可行性。

本文旨在利用未標記數據來找到可以支持語義分割階段的流形結構。假設兩個數據點x1和x2在輸入中具有相似的特征結構,那么相應的輸出y1和y1也應該是相近的。并認為兩個數據域在低維流形空間上有相同結構,通過維持兩個高維空間域低維流形的映射關系,促使圖像中原有的幾何結構不被破壞,在圖像分割過程中增加了相應的上下文信息。這意味著不受監管的數據在深度網絡中充當正則化器,從而提高了泛化能力。本文算法簡單高效,具有很高的靈活性,可以很容易擴展到其他的半監督和弱監督算法中,是一種即插即用的模塊。本文主要貢獻如下:1)通過幾何優化的方式建立語義分割中的流形正則化算法,通過引入上下文信息及維持原有局部幾何特征的方式,提高了語義分割模型的精度;2)將流形正則化的圖像分割方法引入主流的半監督和弱監督方法中,提升了模型的分割精度。

1 相關理論研究

1.1 半監督語義分割

自全卷積神經網絡(fully convolutional etworks,FCN)(Long 等, 2015)提出以來,語義分割技術得到高速發展?,F階段語義分割的方法大多是基于全監督學習的(青晨 等,2020),并且強烈依賴大型注釋數據集,但是在很多情況下數據是不可獲得或不能使用的。

為解決上述問題,研究人員探究了半監督和弱監督兩種不同的語義分割方法,即使用有限數量的像素級標簽和大量不精準的注釋,例如區域級注釋(Song 等,2019)或圖像標簽級注釋(Lee等,2019),對基于圖像級注釋的方法使用類激活映射函數(class activation mapping,CAM)(Zhou等,2016)生成主要的定位圖,在弱監督訓練中與像素級標簽共同用于訓練分割網絡,使深度網絡學習更好地對視覺特征進行分類。Hong等人(2015)將語義分割作為分類和分割兩個獨立任務處理,假設數據集中所有圖像級的標簽和有限的像素級標簽均可用,取得了良好效果。生成模型也可以用做半監督語義分割(Liu等,2019),以利用未標記的數據,在GAN的框架下,判別器的預測擴展到像素類別,然后通過標記示例的交叉熵損失和整個數據集的對抗性損失進行聯合訓練。

1.2 流形正則化

正則化在模型優化過程中對參數起到了約束作用,將參數限定在可控范圍內。正則化約束需要豐富的數學理論基礎,Evgeniou等人(2000)利用正則化的方式求解不適定逆問題,其理論目前廣泛應用于現代機器學習。在現階段的機器學習算法中,常見到正則化的影子,如支持向量機就可視為正則化的特例。流形正則化的算法承認樣本之間的相關性,相關程度直接受樣本間距離的影響,樣本間距離越小,相關程度越大,并由此可以推斷兩個不同樣本是否處于同一流形空間。由此,流形正則化可以廣泛應用于半監督和弱監督學習(Belkin等,2006)。

目前,深度學習快速發展,在多種不同任務上取得了優異效果,但是在利用深度學習進行特征提取和傳播的過程中,持續的卷積和池化操作會造成原始結構中關鍵信息的丟失,即本征結構損失。為解決上述問題,維持圖像中原始的幾何分布,科研工作者試圖利用流形正則化的方式構建更加穩定的算法模型。

首先,利用流形正則化可以建立起相應的流形曲面,可對未出現對象的預測提供有力的依據,Belkin等人(2006)建立了面向半監督學習的流形正則化框架。為深入理解和應用流形正則化算法,以半監督算法為例,Niyogi(2013)建立minmax框架,通過對比不同的算法模型,更好地解釋了流形正則化及相關幾何算法。除建立算法框架外,流形正則化也應用于網絡模型構建(胡聰 等,2020),將特征提取與構建流形結構同步進行,獲得了較好的分類結果。其次,流形正則化除應用于上述分類任務中,也逐步應用于語義分割等其他不同任務。Quispe和Petitjean(2015)利用先驗知識中的幾何信息,通過為訓練集中的形狀信息編碼,對語義分割起到了指導性幫助。徐勝軍等人(2019)將馬爾可夫條件隨機場與流形約束進行結合,構建了用于分割的模型,優于以常規馬爾可夫條件隨機場構建的模型?;谏鲜龇椒?,本文在圖像分割訓練過程中引入流形正則化的約束項,增強了圖像分割中的上下文信息,提升了原有分割模型的分割精度。

2 流形正則化的半監督及弱監督語義分割算法

2.1 交叉一致性訓練模型

以交叉一致性訓練模型為基礎的半監督語義分割的目的是在未標記集中提取相關信息。與傳統一致性訓練不同,交叉一致性訓練模型(cross-consistency training,CCT)(Ouali等,2020)設計將擾動添加至編碼器的輸入之后,依賴主解碼器和輔助解碼器的輸出之間的約束實現了模型的一致性預測。通過使用在未標記數據中提取的其他訓練信號,可以增強共享編碼器的表示。與編碼器相比,添加的輔助解碼器的參數數量可忽略不計。另外,在推理期間僅使用主解碼器從而減少了訓練和推理的計算開銷。半監督的交叉一致性訓練模型的網絡結構如圖1所示。

圖1 半監督交叉一致性訓練模型的網絡結構Fig.1 Network structure of semi-supervised cross-consistency training

(1)

對于未標記的示例xu,使用共享編碼器z=h(xu)計算中間表示,并考慮使用T個擾動函數。t∈[1,T]表示一個擾動,其中一個擾動可以分配一個或多個輔助編碼器。通過不同的擾動設置生成中間表示z的K個擾動版本,并且為保證一致性,算法將擾動函數視為輔助解碼器的一部分。最后訓練的目標是使用無監督的損失Lu最小化,具體為

(2)

式中,Lu用來衡量主解碼器的輸出與輔助解碼器的輸出之間的差異。在這項工作中,以均方誤差(mean squared error,MSE)作為無監督部分的度量距離d。

與半監督任務相似,弱監督的交叉一致性訓練模型在其基礎上添加了由平均池化層和分類層組成的分支gk+1,并且使用CE損失對編碼器進行訓練以完成分類任務的預訓練。通過預訓練的編碼器和添加的分支結構生成像素級別的預測圖像yp。首先,利用分類分支和CAM(class activation mapping)生成特征圖M(Zhou等,2016),其中M∈RC×H×W,通過設置前景閾值θfg和背景閾值θbg可以利用特征圖M生成像素級別的偽標簽圖像yp。當特征值分數小于背景閾值θbg時,像素被視為背景,當特征值分數大于前景閾值θfg時,將該點像素視為具有最大關注的類別。生成像素級別的偽標簽圖像yp后,利用密集條件隨機場(conditional random field,CRF)進行最后的細化。

通過Dw網絡可以使用弱監督損失Lw訓練輔助網絡。在此情況下,Lw表示為

(3)

在交叉一致性訓練模型中,無論是使用交叉熵損失還是均方誤差,均只計算了單點像素之間的關系,忽略了區域間的影響。為解決這一問題,可以在半監督算法的損失函數中引入流形正則化實現相鄰區域間的上下文信息捕捉。

2.2 流形正則化的交叉一致性訓練模型

因為受限于現有的損失函數,半監督和弱監督的圖像語義分割算法在參數表達過程中忽視了大量的上下文信息。流形正則化在原有交叉一致性訓練模型的基礎上,在不改變原有模型的前提下增加了相應的上下文信息。

(4)

式中,Ni表示xi近鄰子圖的個數,j為范圍Ni內的任意一點。當j不處于xi的鄰域內時,ωij為0。

在構建上述模型時,本文首先考慮到圖像具有不同的尺度和范圍,各分割任務對上下文信息的需求并不相同,可以通過控制鄰近數據點的個數進而控制上下文信息的引入情況。其次,盲目利用全局信息進行約束將會消耗大量的空間資源和時間資源,不利于語義分割模型的訓練。所以在關系矩陣的構建過程中根據實際情況選擇近鄰數據點與非近鄰數據點對當前數據點的影響程度的大小。

(5)

由式(5)可知,輸入域數據兩區間有高度相似性時,與之相對的輸出域數據的兩區間的計算差值應盡可能小,否則該懲罰項會增大損失函數。由此維持了輸入域數據和輸出域數據之間對應的幾何結構,其幾何結構如圖2所示。

圖2 數據域幾何結構示意圖Fig.2 Data field schematic diagram of geometric structure

(6)

與半監督的語義分割任務相同,在弱監督語義分割任務的損失計算中缺少了相應的上下文信息。對弱監督的語義分割問題,因包含偽標簽圖像yp,除了建立原始圖像與預測圖像之間在低維流形空間上的約束關系外,還建立了偽標簽圖像與預測圖像之間在低維流形空間上的約束關系。流形正則項可表示為

(7)

(8)

2.3 流形正則化的弱監督交叉一致性訓練模型

將流形正則約束項加入現有的深度學習網絡模型,可以為現有的網絡模型提供上下文的信息,增進模型參數的有效性,提高了端對端的圖像語義分割模型的有效性,并由此建立了流形正則化有關各類語義分割任務的算法模型。

在深度學習分割模型上,首先需要判斷當前語義分割任務的類型。若為弱監督語義分割任務,則首先為數據集生成偽標簽;若為全監督或半監督任務,則無需此過程。此后計算生成數據集的權重矩陣。半監督和弱監督的流形正則化算法流程如圖3所示,其模型偽代碼如下:

輸入:有標記的圖像、無標記的圖像。

輸出:調優后的模型。

1) IF 語義分割為弱監督任務:

2) 為數據集中未標記的數據生成偽標簽;

3) 子圖像塊劃分;

4) 利用式(4)計算權重矩陣;

5) WHILE 模型不收斂:

6) IF 語義分割為弱監督任務:

7) 將圖像輸入弱監督語義分割模型中,計算出預測結果;

8) 利用式(6)計算總體損失;

9) ELSE:

10)將圖像輸入半監督語義分割模型中,計算出預測結果;

11)利用式(8)計算總體損失;

12)依照損失值計算更新對模型參數;

13)RETURN 調優后的模型。

圖3 算法流程圖Fig.3 Algorithm flow chart

3 實驗及結果分析

3.1 評價標準和數據集

實驗采用平均交并比(mean intersection over union,mIoU)作為語義分割的評價標準。具體為

(9)

式中,tp表示某一類別中正確的正樣本分類結果,fp表示錯誤的正樣本分類結果,fn表示錯誤的負樣本分類結果。

實驗在PASCAL VOC 2012(pattern analysis, statistical modeling and computational learning visual object classes 2012)數據集上進行。在數據集中,將圖像中的物體分為目標和背景,目標按類別用不同顏色表示,背景用黑色表示。PASCAL數據集中的分割如圖4所示。實驗選取數據集中1 464幅帶標記圖像為有監督訓練集、9 188幅圖像為無監督訓練集以及1 449幅帶標記圖像為評估數據。

圖4 PASCAL VOC 2012分割示意圖Fig.4 Division diagram of PASCAL VOC 2012

針對基于流形正則化的弱監督交叉一致性訓練模型,按照偽標簽的生成方法生成對應標簽。數據集中未標記數據生成的偽標簽分割如圖5所示。

圖5 偽標簽分割示意圖Fig.5 Division diagram of pseudo tags

在訓練過程中,通過預處理操作,使訓練樣本圖像均為256×256像素。在PASCAL VOC生成的半監督數據集上,對模型進行100次循環(epoch)的迭代訓練,批處理(batch size)大小設置為1。

3.2 半監督語義分割對比實驗

本文在交叉一致性語義分割的基礎上,通過流形正則化的方式引入了更多的上下文信息,并且使分割圖像和原始圖像具有相同的幾何信息。為了進一步探索提出框架的有效性,在PASCAL VOC數據集上,將本文算法與目前先進的半監督語義分割模型進行定量比較,實驗結果如表1所示??梢钥闯?,本文算法模型優于對比模型。此外,因為網絡結構沒有改變,故推理本文模型速率可以與原始模型保持一致。

表1 半監督實驗對比結果Table 1 Comparison results of semi-supervised experiments

圖6為半監督語義分割結果對比圖??梢钥闯?,本文模型的分割結果優于交叉一致性訓練模型,在交叉一致性訓練模型中考慮到了多種噪音的干擾,并且通過訓練使圖像在多重干擾下分割結果仍然可以趨于一致。但是圖像分割中各像素點的分割并沒有充分利用上下文之間的信息,將會造成圖像中部分區域的漏分和誤分。圖6(c)為CCT的分割效果,圖6(d)為本文方法的分割效果圖??梢园l現本文方法在圖像分割的細節上更優秀,并且減少了漏分和誤分現象,這是因為本文采用流形正則化的方法約束圖像分割方法,為圖像分割方法增加了更多的上下文信息,使像素點在類別劃分上增加了圖像中不同位置的信息,提高了圖像的分割精度。

圖6 半監督語義分割結果對比圖Fig.6 Comparison diagram of semi-supervised semantic segmentation results((a)original image; (b) ground truth; (c) CCT; (d) ours)

為了驗證流形正則化的語義分割算法在半監督語義分割任務中的有效性,將本文算法與CCT模型在PASCAL VOC數據集上每一類別的分割結果進行對比,如表2所示,二者的平均交并比分別為48.4%和44.7%??梢钥闯?,與原始網絡相比,本文算法提升了大部分分割目標的精度。主要有兩個影響因素:1)本文算法建立了分割圖像在源域和目標域之間的對應關系,對圖像中關鍵的幾何信息進行了相應的約束,使分割圖像可以保持原有的本征結構不被破環,使得目標圖像更加貼近原始圖像中的幾何形態。2)采用流形正則化的半監督圖像語義分割算法增加了圖像分割過程中的上下文信息,使圖像在分割或評價的過程中作為一個整體存在,即分割模型在學習過程中不再局限于局部信息。由此,針對圖像分割的神經網絡得到了更好的訓練,提高了網絡的學習能力,使得在原有參數量不變的基礎上神經網絡得到了更好的表達。實驗中部分圖像類別分割精度下降,這些目標類別多為動態物體,幾何結構復雜,且受環境影響較大。

表2 模型語義類別實驗精度對比結果Table 2 Comparison results of experimental accuracy of model semantic categories /%

3.3 弱監督語義分割對比實驗

流形正則化增強了模型在訓練過程中的上下文信息,并且維持原有圖像的幾何結構不被破壞,提高了原有模型的分割精度。實驗已經證明流形正則化可以優化現有的半監督語義分割算法。為證明流形正則化是一種即插即用的算法模型,可以廣泛應用于半監督和弱監督算法,本文特別設計在PASCAL VOC數據集上與未添加流形正則化的弱監督語義分割算法模型進行定量對比,表3顯示了添加流形正則化與未添加流形正則化算法的對比結果。如結果所示,本文算法對弱監督算法起到了提升作用,由于在弱監督模型中采用相同的推理結構,因此推斷本文模型速率可以與原始模型保持一致,證明了流形正則化在弱監督圖像分割中的實用性。

表3 弱監督實驗對比結果Table 3 Comparison results of weakly supervised experiment

為直觀展示實驗結果,對弱監督圖像分割實驗的效果進行對比,如圖7所示。從該效果對比圖可以發現,本文算法對原有弱監督分割算法具有較大提升。首先,添加流形正則化的算法可以糾正一些類別誤分和漏分的情況,如圖7第1、2、3行。同時,分割目標的整體性更好,目標內部的信息缺失明顯減少。原因可以歸結為通過流形正則化算法可以加強圖像內目標的幾何信息,保證其本征結構不被丟失。其次,采用添加流形正則化的算法可以更好地區分圖像中的前景和背景,如圖7的第3、4、5行。這體現了采用流形正則化的圖像分割算法可以更好地利用圖像中的上下文信息。綜上所述,本文算法無論對圖像固有幾何結構及區域信息的描述,還是對全局內信息的理解和區分均有幫助,在采用本文算法獲得的分割圖像中,語義一致性得到明顯改善。

圖7 半監督語義分割結果對比圖Fig.7 Comparison diagram of semi-supervised semantic segmentation results ((a) original images; (b) ground truth; (c) backbone network; (d) ours)

3.4 與其他先進算法的對比實驗

將本文算法與其他先進的弱監督語義分割模型進行對比,對比方法包括LCEM-Fixed-2-Hyb(localization clues guided expectation-maximization using fixed vision2 and hybrid)(Li等,2018)、SN_B(the network is trained by taking the rough masks as the supervision based on the single-label images from the training set.)(Wei等,2016)、DCSM(distinct class saliency maps)(Shimoda和Yanai,2016)、Build in FG/BG(built-in foreground/background)(Saleh等,2016)、SPN(superpixel pooling network)(Kwak等,2017)和DHSN_S2_AM_CRF(deep hierarchical saliency network s2 using attention map and conditional random fields)(李陽 等,2020)等,實驗結果如表4所示??梢钥闯?,結合流形正則化的半監督及弱監督圖像語義分割算法的分割結果較基礎模型有顯著提升,并且優于其他先進模型。

表4 弱監督語義分割算法對比結果Table 4 Comparison results of weakly supervised semantic segmentation algorithms

4 結 論

本文提出了一種基于流形正則化約束的交叉一致性圖像語義分割算法,通過建立輸入域與輸出域之間在低維流形上的對應關系,并以此為約束,使現有的網絡模型可以更好地捕獲數據中的上下文關系。在無需生成巨大特征矩陣并在任何推理過程中不引入額外計算量的前提下,建立了圖像分割網絡中像素點間的依賴關系,提高了算法的分割精度,保持了原有的推理時間。本文在交叉一致性訓練模型的基礎上,證明了流形正則化算法可以同時適用不同的分割任務并取得了最優性能。

在后期工作中,考慮對流形正則化算法進行改進,使其不僅在相同的空間域(同一個數據集)內進行幾何約束,更要擴展到不同的空間域(不同的數據集),通過幾何結構將每個數據中相同的種類約束到同一個流形中,使圖像語義分割模型具有更好的泛化性,解決模型重復訓練和數據集缺少的問題。

猜你喜歡
流形正則一致性
關注減污降碳協同的一致性和整體性
J-正則模與J-正則環
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
π-正則半群的全π-正則子半群格
Virtually正則模
緊流形上的Schr?dinger算子的譜間隙估計
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
剩余有限Minimax可解群的4階正則自同構
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合