?

基于PRAU-Net的新冠肺炎CT圖像分割研究

2024-03-25 02:05曾慶鵬
計算機技術與發展 2024年3期
關鍵詞:池化殘差注意力

曾慶鵬,崔 鵬

(南昌大學 數學與計算機學院,江西 南昌 330031)

0 引 言

2019新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)被世界衛生組織(WHO)于2020年1月宣布疫情為全球公共衛生事件,據WHO統計,截至2023年1月29日,全球累計報告新冠肺炎確診病例達7.53億,死亡超過680萬人[1]。由于該病毒抗逆性強且傳播方式多,在人群中極容易快速傳播,因此,快速、準確地識別新型冠狀病毒感染者對于阻斷傳播、及時對患者進行隔離治療具有重要意義。

目前,逆轉錄聚合酶鏈反應(RT-PCR)是COVID-19診斷的常規方法,RT-PCR是從口咽拭子、鼻咽拭子、支氣管肺泡灌洗液或氣管抽吸物獲得樣本中的病毒RNA[2]。然而,研究表明RT-PCR的靈敏度不高,有時初期的新冠病毒感染者需要多次檢測才能被確診,導致患者不能得到及時有效的治療,不僅危及患者的生命健康,還加大了新冠病毒的傳播可能性,對社會造成更大的生命財產損失。計算機斷層掃描(Computed Tomography,CT)作為COVID-19篩查的另一方案,對患者肺部進行CT掃描可以更加準確地判斷受檢者是否感染新冠病毒并使放射科醫生快速獲得患者肺部受損情況和評估疾病程度。COVID-19的CT表現為雙肺多發磨玻璃樣陰影(Ground Glass Opacity,GGO),伴或不伴實變、血管增粗和小葉間隔增厚[3],但是對CT圖像的評估和分析需要經驗豐富的醫生,而且對CT圖像進行標注更是一項繁重且耗時的工作,導致醫療資源的浪費。利用人工智能技術可以快速且準確地標注出CT圖像的病灶區域,幫助醫生更直接地了解患病程度,不僅減輕了醫生的負擔,還可以提高醫生的診斷效率。

近年來,深度學習在醫學影像分割領域受到了廣泛的研究與應用,比如肝臟腫瘤分割[4]、眼底血管分割[5]和腦圖像分割[6]等。在進行醫學影像分割時,相對于傳統目標檢測方法,深度學習方法不僅注重分割目標的特征提取,還對圖像中的上下文信息進行關注研究,從而獲得更有效的特征,得到更加準確的分割圖像。常見的U-Net[7],Attention-UNet[8]和UNet++[9]等經典的分割方法在提取分割目標的特征時,容易受到圖像復雜性和待分割區域不規則性的干擾導致提取到的部分特征缺少關鍵信息,且網絡中下采樣池化會導致特征信息丟失,降低了分割的準確率。

針對上述存在的問題,不少學者也提出了改進方案。Kaul等人[10]提出基于注意力的全卷積網絡方法,該方法采用了兩個并行信息流分支,兩個分支都采用編碼器-編碼器結構,強化了與目標信息有關的特征映射。Gu等人[11]提出了一種上下文編碼器網絡(Context Encoder Network)用于捕獲更多高層信息并保留空間信息,編碼階段的密集空洞卷積(Dense Atrous Convolution,DAC)和解碼階段的殘差多核池化(Residual Multi-kernel Pooling,RMP)共同構成了上下文提取模塊,該模塊有效減少了因連續的池化和跨步卷積運算導致一些空間信息的丟失所造成的影響。Song等人[12]提出一種增加模型復雜性和更多特征融合的方法,在模型中使用許多的跳躍連接和嵌套連接,有效減少了梯度的擴散問題。Feng等人[13]提出了一種新的上下文金字塔融合網絡CPFNet,設計了全局金字塔引導模塊(Global Pyramid Guidance,GPG)為解碼器提供不同尺度的全局上下文語義信息,尺度感知金字塔融合模塊(Scale-Aware Pyramid Fusion,SAPF)則在深層特征中動態融合多尺度的上下文信息。Liu等人[14]提出一種多感受野神經網絡MRFNet,通過級聯的方式將不同層級U-Net網絡輸出的特征映射進行融合,將融合的特征進行卷積操作完成像素級的分類,取得了良好的分割效果。

上述網絡分別針對皮膚、眼球和大腦等的醫學圖像分割已經取得了不錯的效果,針對新冠肺炎CT影像病變區域的分割,也有學者提出了解決方案。顧國浩等人[15]在U-Net模型的基礎上引入了循環殘差模塊和自注意力機制來加強對特征信息的提取。任楚嵐等人[16]在U-Net模型的基礎上結合殘差連接,分層分裂模塊(Hierarchical-Split Block),坐標注意力模塊和特征內容感知重組上采樣來增強模型提取特征能力。宋瑤等人[17]對現有的數據集圖像和標簽同時隨機旋轉、裁剪和翻轉,采用ImageNet上預先訓練的EfficientNet-B0作為特征提取器,并通過 Dusampling上采樣代替傳統的上采樣結構以改進U-Net。Fan等人[18]提出一種針對肺部CT圖像的分割網絡Inf-Net,利用并行部分解碼器(Parallel Partial Decoder,PPD)聚合深層特征并生成一個粗略定位肺部感染的全局圖,在全局圖的指導下,反饋給多個逆向注意模塊(Reverse Attention,RA),并結合顯示邊緣注意力以提高目標區域邊界的表征,有效提高了對感染區域邊界的識別能力。Rajamani等人[19]提出一種動態可變形網絡(Dynamic Deformable Attention Network),將可變形交叉注意力模塊引入U-Net網絡的最深層以連續方式學習注意力系數和注意力偏移,相較于Fan等人[18]的方法還提高了分割性能。左斌等人[20]基于Fan等人的方法進行了改進,通過引入通道注意力機制加強網絡的特征表示,并運用注意力門模塊更好地融合邊緣信息。上述方法都是將最深層的特征作為預測結果的關鍵特征,但由于多次下采樣池化和卷積深度增加會丟失部分特征信息,導致最深層的特征信息丟失尤為嚴重。

針對以上問題,該文提出一種并行殘差注意力U-Net(Parallel Residual Attention U-Net,PRAU-Net)分割網絡。結合改進的Inception模塊設計了殘差Inception注意力卷積模塊(Residual Inception Attention Convolution Block,RIA),將改進的Inception模塊和通道注意力模塊融入殘差結構中,大大改善模型對特征提取的有效性;同時基于空洞卷積設計了多尺度跳躍連接(Multi-scale Skip Connection,MSC),基于空洞卷積取代了池化下采樣,減少了局部特征信息的丟失,多尺度結構聚合了粗粒度語義信息和細粒度語義信息,為解碼器提供了更多有助于預測結果的多尺度上下文信息;最后在解碼器中利用全局注意力模塊(Global Attention Mechanism,GAM)提取更關鍵的特征信息,降低了CT影像中噪聲等無關特征的影響。面對結構復雜多變的新冠肺炎CT影像,在減少空間特征信息丟失的同時捕獲更加豐富的多尺度上下文信息,從而有效提高了分割的準確度。

1 基于PRAU-Net的新冠肺炎CT影像分割模型

提出的PRAU-Net分割模型如圖1所示。該模型采用U-Net[7]作為骨干網絡,由三個主要部分組成。第一部分是網絡的編碼部分,編碼部分使用ResNet[21]的網絡結構作為特征提取器,將設計的殘差Inception注意力卷積模塊替代了ResNet結構中的普通卷積操作來提取特征信息;第二部分是網絡的解碼階段,由上采樣操作、卷積操作和全局注意力模塊組成,將低分辨率的特征信息一步一步恢復到原始圖像的大小來預測新冠肺炎CT影像中的病灶區域;第三部分是多尺度跳躍連接,將編碼器中更淺層和同層的特征信息與來自解碼器中更深層的特征信息進行拼接,捕獲了多尺度的上下文信息。

圖1 PRAU-Net網絡模型

1.1 殘差Inception注意力卷積模塊

U-Net網絡中的編碼器每層使用兩個卷積操作提取特征并使用池化下采樣降低圖像分辨率,兩個卷積操作面對存在噪聲的大分辨率CT影像時難以提取其豐富的特征信息,而池化操作容易丟失特征信息,最終導致分割結果精度差。在GoogLeNet[22]的啟發下,該文使用改進的Inception模塊來提取特征,改進的Inception模塊如圖2所示。該模塊包含并行的4條特征提取分路,由堆疊的卷積塊和池化操作組成。最左邊的分路由一個平均池化和1×1卷積組成,1×1卷積可以減少特征的通道數,以此減少網絡的參數量,右邊3條分路首先都通過一個1×1的卷積,然后分別通過1個、2個、3個堆疊的3×3卷積,其中2個堆疊的3×3卷積相當于一個5×5的卷積,3個堆疊的3×3卷積相當于一個7×7卷積,通過堆疊的不同數量的卷積塊提取不同尺度的特征信息,最后將所有分路的特征進行拼接,使網絡模型得到更加全面和多層次的特征表示。

圖2 改進的Inception模塊

定義該結構輸入為Fi,通過改進的Inception模塊,生成的特征圖Fc由公式1和公式2得到。

(1)

Fc=Concat[X1,X2,X3,X4]

(2)

其中,C1×1表示卷積核大小為1×1的卷積操作;C3×3表示卷積核大小為3×3的卷積操作;AvgPool代表的是平均池化操作,用來減小輸入特征的尺寸;Fc表示特征圖在通道方向上拼接。

改進的Inception模塊可提取到豐富的特征信息,但仍無法解決CT影像中噪聲帶來的干擾和網絡池化下采樣特征信息丟失的問題。在Hu等人[23]提出的SE-ResNet模塊的啟發下,該文設計了殘差Inception注意力模塊,將改進的Inception模塊和通道注意力模塊融入殘差結構中,改進的Inception模塊利用更深的卷積層使網絡獲得了更大的感受野,通道注意力SE模塊有效幫助網絡關注更相關的特征信息,減少噪聲的影響,殘差結構則減少了卷積塊堆疊變深時網絡退化的問題。殘差Inception注意力模塊總體結構如圖3所示。

圖3 殘差Inception注意力模塊

殘差Inception注意力模塊的輸入特征圖為Fi,經過改進后的Inception模塊輸出特征圖為Fc;接著將Fc輸入到SE模塊中,SE模塊通過擠壓和激勵操作實現對特征圖通道上的加權,擠壓操作將H×W×C的特征圖通過全局平均池化得到1×1×C的特征圖,再通過一個全連接的神經網絡進行激勵得到1×1×C的一組權重,將權重乘到每一個輸入特征Fc的通道上實現特征重新標定,產生特征圖Fs;最后通過跳躍連接將得到的特征圖Fs和輸入特征圖Fi相加得到輸出Fo。Fs和Fo表示為:

Fs=σ(C1×1(δ(C1×1(AAP(Fc)))))?Fc

(3)

Fo=Fs+Fi

(4)

其中,AAP表示自適應平均池化,將C×H×W的全局空間信息壓縮到C×1×1的大小,δ表示Relu激活函數,σ表示Sigmoid激活函數,將特征圖映射到0~1之間,獲得一組特征圖權重。

1.2 全局注意力模塊

注意力模塊(Convolution Block Attention Module,CBAM)[24]可以同時關注空間域特征和通道域特征,自主學習每個特征的重要程度,通過串聯的方式分別對通道和空間上的特征圖賦予學習到的權重,可以有效減少噪聲的影響,提高網絡對感興趣區域特征的提取。為了提高對新冠肺炎CT圖像病灶區域的分割性能,該文基于CBAM模塊設計了全局注意力模塊(Global Attention Module,GAM),不但可以減少無關特征的干擾,還可以更好地聚合空間上下文信息。GAM模塊結構如圖4所示。

圖4 全局注意力模塊

GAM將通道注意力模塊和空間注意力模塊并聯,在通道注意力模塊中,輸入特征圖首先分別經過自適應平均池化和自適應最大池化,接著通過一個共享多層感知機獲得兩個通道方向的輸出特征圖,再將兩個輸出特征圖逐元素相加得到融合特征圖,最后通過Sigmoid激活函數輸出關于通道方向的權重,將權重沿通道方向與輸入特征圖逐元素相乘得到最終輸出特征圖。通道注意力計算公式如下:

Mc(F)=σ(MLP(AAP(F))+MLP(AMP(F)))

(5)

Fc=Mc(F)?F

(6)

其中,AAP表示自適應平均池化,AMP表示自適應最大池化,AAP和AMP分別抽取不同通道特征圖的平均值和最大值,將不同通道特征圖的大小由C×H×W壓縮到C×1×1;MLP表示多層感知機,用于實現通道的壓縮和擴張;σ表示Sigmoid激活函數;Mc表示通道方向的權重;Fc是經過通道注意力模塊的輸出特征圖。

GAM的空間注意力模塊使用卷積操作替換了原始的池化操作,緩解了因池化操作導致特征信息彌散的問題。具體來講,就是使用兩個7×7普通卷積替換了平均池化和最大池化操作,兩層7×7的卷積操作通過其更大的感受野擴大了空間信息的交互,可以幫助網絡更精確地提取特征圖的空間位置信息??臻g注意力計算公式如下:

Ms(F)=σ(C7×7(C7×7(F)))

(7)

Fs=Ms(F)?F

(8)

其中,C7×7表示卷積核大小為7×7的卷積操作,Ms表示空間方向的權重,Fs是經過空間注意力模塊的輸出特征圖。

輸入特征圖F經過GAM的通道子模塊和空間子模塊后得到兩個不同的輸出特征圖Fc和Fs,最后將兩者相加得到最終輸出特征圖F',如公式9所示。

F'=Fc+Fs

(9)

1.3 多尺度跳躍連接

為了進一步緩解由于網絡過深導致的特征信息丟失的問題,將U-Net中的同層跳躍連接改為多尺度的跳躍連接,將包含更多空間信息的淺層特征和有更豐富細節信息的深層特征融合。當編碼器淺層特征通過跳躍連接傳遞到解碼器更深層時,由于編碼器中淺層的特征信息分辨率更大,在跳躍連接中使用空洞卷積代替了下采樣池化操作,減少了池化操作導致空間信息的丟失,使更多的空間信息被傳遞到更深層中。相比于傳統卷積,空洞卷積可以在相同的參數量時獲得更大的感受野,在解碼器中將含有更多細節信息的更深層特征進行上采樣傳遞到淺層的網絡中,豐富的空間信息和細節信息共同組成全局特征信息使網絡對病灶區域有更精確的預測結果,解決了新冠肺炎CT影像病灶區域小與形狀不規則造成分割結果差的問題。多尺度跳躍連接過程如公式10:

(10)

2 實驗與分析

2.1 數據集和評價指標

該文選取3個數據集驗證模型的有效性:Segmentation dataset nr.2(數據集1)源于向用戶免費開放的放射科數據庫Radiopaedia,其中包括9例新冠肺炎患者的829張CT切片,其中373張切片被標記為感染新冠肺炎并進行了標注。CC-CCII(數據集2)來自中國胸部CT圖像調查協會,其中包括150例新冠肺炎患者的750張CT切片,對其中455張切片進行了標注。COVID19_1110(數據集3)由莫斯科醫學提供,包含1 110例新冠肺炎患者三維肺部CT圖像,其中50例帶有分割標簽,處理成2維切片后共600張512*512的CT圖像。實驗中僅選擇已標注數據,具體數據劃分如表1所示。

表1 數據集劃分信息

為了從多個角度說明所提方法對新冠肺炎病灶區域的分割性能,使用4種評估指標,包括Dice系數、敏感性(Sensitivity)、特異性(Specificity)和準確率(Accuracy)。其中,Dice系數是一種基于區域的度量,用于衡量兩個樣本中正樣本的重疊率,如公式11所示;敏感性也稱召回率,用于度量所有正樣本中被正確識別的比例,如公式12所示;特異性是指負樣本中被正確識別的部分所占的比例,如公式13所示;準確率指的是在所有樣本中正樣本和負樣本被正確識別的占比,如公式14所示。

(11)

(12)

(13)

(14)

其中,TP(True Positives)表示被正確檢測為正樣本的像素數量;FP(False Positives)表示被錯誤檢測為正樣本的像素數量;FN(False Negatives)表示被錯誤檢測為負樣本的像素數量;TN(True Negatives)表示被正確檢測為為負樣本的像素數量。

2.2 實驗設置

實驗采用5倍交叉驗證的方法,將數據集隨機分為5個子集,訓練集和測試集按4∶1比例分配,重復進行5次該過程的實驗,取5次實驗的平均值作為實驗結果。所有輸入模型的CT影像圖統一大小為512*512,批處理大小設置為4,并隨機對圖像進行旋轉提高數據的多樣性。其中Epoch設置為70,采用RMSProp優化器訓練網絡模型,初始學習率為0.000 01,具體參數如表2所示。

表2 PRAU-Net網絡參數

2.3 分割性能實驗

為了驗證文中方法的分割性能,對比實驗以Dice系數、靈敏度(Sensitivity)、特異性(Specificity)和準確率(Accuracy)作為評價指標,以五種網絡分割方法作為比較基線:U-Net[7],Attention-UNet[8],UNet++[9],Res-UNet[25],DeepLabV3+[26]。在Segmentation dataset nr.2數據集中的實驗可視化結果如圖5所示,可以看出文中方法在邊緣區域和細小的區域分割表現優于其它方法。

圖5 分割結果可視化

基于評價指標的實驗結果如表3所示。由表3可以發現, PRAU-Net網絡模型在數據集1中的Dice系數、Sensitivity以及Accuracy都比其它網絡的優,只有Specificity指標略低于DeepLabv3+,與經典的U-Net網絡模型相比較,Dice系數、Sensitivity、Specificity和Accuracy分別提升了5.65%,8.10%,0.02%和0.04%,其中Dice系數和Sensitivity提升較為明顯,相較于其它對比網絡,Dice系數有2.35%~6.02%的提升,Sensitivity有1.89%~10.02%的提升,但Specificity略低于DeepLabV3+方法。在數據集2的實驗結果中,文中方法的Dice系數和Sensitivity指標都優于所有對比方法的,相較于DeepLabV3+,Dice系數和Sensitivity分別提升了8.96%和14.68%,相較于其它幾種對比網絡,Dice系數仍有1.12%~3.15%的提升,Sensitivity則有0.71%~5.63%的提升,而UNet++方法的Accuracy指標優于所有方法的,相較于文中方法Accuracy提升了0.02%,但其網絡參數量遠比文中方法的高,DeepLabV3+在Specificity指標表現同樣優于所有方法,相較于文中方法有0.06%的提升。在數據集3的實驗結果中,文中方法的Dice系數、Sensitivity和Accuracy都比其它幾種經典方法的優,尤其是Dice系數和Sensitivity表現較好,相較于U-Net分別提升了9.52%和14.22%。實驗結果表明,文中方法有效地提升了在新冠肺炎CT圖像數據集上的分割性能。

表3 不同模型的結果指標對比

2.4 數據擴充實驗

由于醫學圖像數據集具有一定的隱私性且對醫學圖像進行標注需要耗費大量人力,擁有大量樣本的數據集通常難以獲取。文中的數據集1僅有373張被標記的新冠肺炎CT圖像,小樣本的數據圖像可能無法使網絡學習到足夠的特征,因此,該文利用循環生成對抗網絡[27]對數據集1進行了擴充,生成了373張偽新冠肺炎CT圖像,采用半監督學習的方式對生成的新冠肺炎CT圖像進行標注,最后將其加入到數據集1的訓練集中輔助模型訓練。為了驗證擴充后的數據集對網絡模型的分割性能是否有影響,使用多種經典網絡及提出的方法進行了實驗,實驗結果如表4所示。

表4 擴充數據集后實驗結果對比

由表4可以發現,使用擴充數據集的分割網絡模型在Dice系數和Sensitivity評價指標上均有一定程度的提升,其中U-Net網絡的Dice系數和Sensitivity分別為0.807 1和0.769 6,各自提升了1.95%和2.65%,Attetion-UNet的Dice得分達到了0.814 1,提升了2.63%,UNet++和Res-UNet的Dice得分分別提升了3.05%和1.06%。其中DeepLabV3+表現出最明顯的性能提升,Dice系數提升了4.8%,而Sensitivity有8.25%的提升,雖然提出的PRAU-Net在Dice系數和Sensitivity評價指標中分別只提升了2.62%和2.11%,但所提方法相較于對比網絡仍有最好的分割性能??傮w實驗結果表明:擴充小樣本數據集可以幫助分割網絡獲得更好的分割性能。

3 結束語

基于U-Net網絡模型,該文提出了一種并行殘差注意力網絡模型PRAU-Net。該模型在編碼階段采用嵌入通道注意力的殘差Inception卷積模塊捕獲輸入特征的不同尺度語義信息并對其進行特征重標定,并采用了殘差結構,能夠在提取更豐富的特征信息的同時解決網絡退化問題;在解碼階段將多尺度跳躍連接中捕獲的多尺度上下文信息輸入全局注意力模塊中對其特征進行重新加權,加強了網絡對病灶區域特征的關注。分別在不同的三個數據集進行實驗,實驗結果證明,該方法有效降低了CT影像中噪聲在分割任務中的影響,相較于經典分割方法,提高了對病灶區域的分割準確度。針對數據集樣本較少的問題,驗證了對Segmentation dataset nr.2數據集使用生成對抗網絡進行擴充后,使用多種網絡模型驗證了擴充樣本數據集對網絡分割性能的有效性。需要說明的是,該文采用的數據集是二維的肺部CT圖像切片,進一步的研究方向可嘗試對3D圖像數據進行分割研究。

猜你喜歡
池化殘差注意力
面向神經網絡池化層的靈活高效硬件設計
基于Sobel算子的池化算法設計
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
卷積神經網絡中的自適應加權池化
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
基于卷積神經網絡和池化算法的表情識別研究
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合