?

基于注意力機制U-Net的低劑量CT圖像去噪方法

2022-03-26 02:01程小霞崔學英郭映亭上官宏郝文強
太原科技大學學報 2022年2期
關鍵詞:卷積噪聲像素

程小霞,崔學英,郭映亭,上官宏,郝文強

(太原科技大學,太原 030024)

X射線計算機斷層掃描(Computed Tomography,CT)成像由于能夠清晰顯示解剖結構而得到了廣泛應用。然而,過度暴露于X射線輻射下會對身體產生負面影響。臨床上,希望在保持可接受的診斷準確度的同時將放射線的暴露量減至最小。但是,通過降低射線管電流降低輻射劑量會在重建圖像中出現噪聲和條紋偽影,導致圖像質量下降并對臨床診斷產生不利影響。圖像域后處理方法是解決這個問題的主流方法,此類方法是直接對重建圖像進行處理,不依賴原始投影數據,不需要實時成像或龐大的存儲空間,而且實用方便?;谙∈璞硎?,文獻[1]采用K-SVD算法來抑制腹部CT圖像中的斑點噪聲和條紋偽影。文獻[2]把三維塊匹配去噪算法(Block Matching 3D,BM3D)用于低劑量CT(Low-dose CT,LDCT)圖像去噪。文獻[3]提出了一種字典學習和形態分量分析相結合的LDCT圖像去噪算法。但是,由于CT圖像中噪聲分布不均勻,噪聲模型不易確定,這些方法在去除噪聲的同時通常會出現過度平滑和細節信息丟失的現象。

相比之下,深度學習技術由于不依賴于噪聲模型在低劑量CT去噪方面表現出色,通過網絡學習圖像之間的映射關系達到去噪的目的。Chen等人提出了一種淺層的卷積神經網絡框架,通過網絡學習從低劑量圖像到正常劑量圖像的一種映射關系[4]。REd-CNN是一種包含5層卷積和5層反卷積的自動編解碼器卷積神經網絡[5]。該網絡前5層卷積用于提取圖像特征,后5層通過反卷積逐步重建圖像,并且去除了下采樣操作,保留了更多的結構信息,獲得了較高的峰值信噪比。Yang等人提出了一種具有感知損失的生成對抗網絡WGAN[6],該網絡一方面通過判別器與生成器的對抗學習來提高網絡的性能,另一方面通過添加結構敏感損失來優化視覺效果,但其定量結果還不理想。文獻[7]提出了一種用于圖像分割的U-Net網絡,由于其卓越的性能,其構架常被作為許多回歸生成對抗網絡的生成器,比如pix2pix[8]以及用于LDCT去噪的SAGAN[9]和HFSGAN[10].SAGAN將清晰度檢測引入pix2pix,很好地抑制了LDCT圖像中的噪聲。HFSGAN通過兩個U-Net逐步去除高頻中的偽影和噪聲。文獻[11]提出了一種具有跳躍連接的空洞卷積殘差網絡,利用不同因子的空洞卷積提取不同尺度的紋理信息,但這種空洞卷積網絡導致恢復圖像中出現棋盤效應。文獻[12]提出了一種利用相同的網結構遞歸構造的淺層殘差編解碼遞歸網絡。

最近,網絡注意力機制得到了關注,有位置注意力機制,通道注意力以及像素注意力等,其目的是引導網絡的學習到需要關注的方面,比如噪聲的位置或者結構特征。文獻[13]提出了一種利用三維結構來捕獲CT切片內以及CT切片間的信息相關性的三維自注意力卷積神經網絡。文獻[14]提出了一種將殘差網絡和通道注意力機制融合的醫學圖像超分辨率方法。

綜上所述,目前U-Net構架仍是很多回歸網絡的基礎,而注意力機制可引導網絡的學習。本文在殘差U-Net框架下引入通道注意力和像素注意力機制,一方面通過自動調整特征圖的權重,使網絡的學習更加關注噪聲的特征;另一方面利用像素注意力捕捉圖像區域中的噪聲和偽影特征,提高網絡的去噪性能。

1 方法

1.1 去噪模型

給定大小為w×h的標準劑量CT(NDCT)圖像IND∈Rw×h,相應LDCT圖像ILD∈Rw×h的生成可表示為:

ILD=N(IND)

(1)

其中N:Rw×h→Rw×h表示圖像的退化。去噪的過程就是尋找滿足(2)式的將LDCT圖像映射到NDCT圖像的函數f:

(2)

其中f表示N-1的近似函數。所提出的網絡為殘差網絡,網絡學習的為殘差圖像,即學習低劑量圖像到殘差圖像的映射關系h(ILD).此時,

f(ILD)=ILD-h(ILD)

(3)

1.2 網絡結構

1.2.1 U-Net構架

U-Net構架是一種加入跳躍連接的編解碼網絡,通過跳躍連接有效利用了先前層的底層信息,避免了隨著網絡深度的加深結構特征和細節信息的丟失。編碼器網絡的每一個層由卷積,批量歸一化(Batch Normalization,BN)和帶泄露整流線性單元(Leaky ReLU)組成,解碼器的每一個層由轉置卷積,批量歸一化,隨機失活(Dropout,只應用于前三層)和修正線性單元(Rectified Linear Unit,ReLU)組成。在卷積操作中沒有邊界填充。而在回歸網絡中,為了保持圖像的細節信息,常去掉了池化操作和上采樣過程。

1.2.2 通道注意力模塊(Channel Attention,CA)

通道注意力模塊通過學習特征權重,來標定每個通道特征的重要程度。依照這個重要程度去提升有用特征并抑制對當前任務不重要的特征[15]。如圖1(a)所示,首先使用擠壓操作全局池化得到特征圖的整體信息。然后使用激勵操作充分利用在擠壓過程中聚集的信息獲取通道之間的相關性。其中,擠壓操作是一個全局平均池化,激勵操作依次包含全連接層(Fully Connected Layer,FC),修正線性單元(ReLU),FC層和Sigmoid非線性函數。最后把歸一化后的權重加權到每個通道的特征上。通過通道注意力模塊,可以使網絡更加關注與噪聲緊密相關的通道信息,幫助網絡從圖像中分離噪聲。

圖1 注意力模塊的結構

1.2.3 像素注意力模塊(Pixel Attention,PA)

像素注意模塊如圖1(b),將特征輸入到兩個卷積層和Sigmoid中,得到每一個特征圖中每一個像素的權值,最后將輸入特征與輸出的對應權值進行逐像素相乘。通過PA注意力模塊,可以使網絡更加關注特征圖中的高頻信息特征,引導網絡到需要關注的區域,如圖像的高頻區域[16]。

1.2.4 本文提出的網絡

本文的網絡結構如圖2所示。編碼器由8個卷積層組成,分別具有64、128、256、256、256、256、256和256個濾波器。解碼器由8個反卷積層組成,濾波器個數分別為256、256、256、256、256、128、64,最后用1個濾波器得到殘差圖像,編碼器與解碼器結構對稱。卷積核大小全部為5×5,步長為1.在編碼器和相對稱的解碼器之間添加了跳躍連接,將編碼器的每一層堆疊到相應的解碼層,這種結構可將淺層信息傳遞到深層,避免因網絡加深造成細節信息的丟失。

圖2 具有注意力機制的U-Net的整體結構

此外,將通道注意力注意力與像素注意力結合的模塊引入到網絡的第一層卷積之后和倒數第一層卷積之前。注意力結構如圖1(c)所示,特征圖首先進入通道注意力,然后進入像素注意力,使得網絡關注有效信息,提取到更多的噪聲和偽影,提高網絡的去噪性能。

1.2.5 損失函數

通常,基于CNN的去噪算法利用L2損失,但是,L2損失往往產生過度平滑的圖像,導致結構細節丟失。因此,本文使用L1損失(Mean Absolute Error),即:

(4)

其中,f(xi)和yi分別表示估計的去噪圖像和相應的NDCT圖像,N是訓練樣本的總數。

2 實驗結果

2.1 實驗數據集

研究中采用Mayo Clinic公開發布用于“2016 NIH-AAPM-Mayo Clinic Low Dose CT Grand Challenge”的CT數據集,該數據集包含10位匿名患者的標準劑量的CT圖像以及模擬的相對應的低劑量CT圖像,厚度為3 mm.所有CT圖像的分辨率均為512×512.在實驗中,將數據集分為兩組,一組包含8名患者的1 943幅圖像對作為訓練集,另一組為其余兩名患者的440幅圖像對作為測試集。為了保證訓練所需的數據集,避免過擬合,從圖像中以步長為1抽取大小為54*54圖像塊,并對抽取的圖像塊進行旋轉操作,獲得了更多的訓練樣本。

2.2 訓練細節

在訓練期間,使用基于動量的Adam優化算法,小批量數為64,學習率為1×10-4.使用TensorFlow,基于配備3.20 Hz的Intel Core i7-8700和一個NVIDIA GTX 1070 Ti GPU的個人計算機對網絡進行了總共100 000次迭代訓練。

2.3 質量評價

為了評估本文算法的優越性,選擇BM3D去噪算法、REd-CNN以及與本文網絡相關的三種網絡:1)僅使用SE模塊的注意力網絡(簡稱為w/PA);2)僅使用PA模塊的注意力網絡(簡稱為w/SE);3)沒有注意力模塊的網絡(簡稱為w/SE_PA)與本文提出的網絡進行比較。

為了直觀地說明網絡的去噪性能,從測試集中選擇了2種典型的LDCT圖像,如圖3(a)和圖5(a)所示。不同方法的去噪結果如圖3(b)-(g)和圖5(b)-(g)所示。圖3(h)和圖5(h)分別是圖3(a)和圖5(a)對應的NDCT圖像。圖4和圖6分別是圖3和圖5中紅色矩形標記的感興趣區域(Region of interest,ROI).從圖中可以看到,所有的方法的結果與低劑量圖像相比,圖像質量都有不同程度的提高,都具有一定的去噪效果。

圖3 不同去噪方法的比較,顯示的區間為[-160,240]

圖4 圖3中的矩形標記的感興趣區域(ROI)

圖5 不同去噪方法的比較,顯示的區間為[-160,240]

圖6 圖5中的矩形標記的感興趣區域

圖3(b)和5(b)的中仍然存在明顯的條紋偽影,說明非網絡去噪算法BM3D的去噪能力有限,無法獲得令人滿意的結果。從圖3(c)-3(g)和圖5(c)-5(g)中,可以看出基于深度學習的方法有效地抑制了噪聲和偽影,并且去噪效果顯著超越BM3D.然而,REd-CNN過度平滑了結果圖像,一些關鍵結構變得模糊,如圖4(c)和圖6(c)箭頭所指部分。相比之下,w/SE-PA和w/SE可以獲得相對改善的結果,而w/PA和本文提出的方法產生的圖像邊緣銳利,結構細節和紋理清晰,獲得的去噪圖像更接近標準劑量的圖像。

進一步做定量分析,包括基于數學定義的度量:峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似性信息度量(Structural SIMilarity,SSIM)以及基于視覺系統的感知質量度量:視覺信息保真度(Visual Information Fidelity,VIF)[17]和信息保真度準則(Information Fidelity Criterion,IFC)[18],結果見表1.最佳的兩種方法分別用黑色加粗和斜體標記??梢钥闯?,對于圖3所示的結果的定量值,本文方法在PSNR、SSIM和IFC得分最高,PSNR值與第二相比高了大約0.1,在VIF中排名第二,而w/PA對VIF評分最高,在PSNR、SSIM和IFC中排名第二。與沒有注意力的網絡w/SE-PA相比,所提方法的PSNR值比其高大約0.23.與RDE-CNN相比,PSNR值比其高大約0.18.對于圖5中的結果,本文方法在PSNR、VIF和IFC得分最高,在SSIM中排名第二。而w/PA的SSIM得分最高,在PSNR、VIF和IFC中排名第二,與w/SE-PA相比,突出顯示了通道注意力在所提出網絡中的重要作用。比較w/SE-PA與w/SE的定量結果,說明了像素注意力在網絡中起到了一定的效果,然而當把兩者結合在一起時,效果最佳。

表1 不同算法的PSNR、SSIM、VIF和IFC的比較

2.4 運行時間

除了視覺質量和定量評估外,還將所有的比較方法測試圖像的平均運行時間進行了比較,如表2所示。從結果可以看出,REd-CNN處理圖像所需的時間約為0.351 9 s,并且運行時間最快,BM3D需要1.46 s.與BM3D和REd-CNN相比,可以看到與本文網絡相關的三種網絡以及本文的模型速度稍慢,但相差不明顯。通過上述定性和定量比較,所提的方法取得了比其他方法更好的性能,計算量是可以接受的。而且有更好的硬件支持,可在實際應用中得到進一步的改進。

表2 不同網絡的平均運行時間

2.5 消融研究

對不同的網絡結構作以下注釋:

·w/SE_PA:沒有注意力模塊。

·SE_PA_8:8個注意力模塊分別在編碼器的第1,3,5,7層以及解碼器中相對應的層。

·SE_PA_6:6個注意力模塊分別在編碼器的第1,3,5層以及解碼器中相對應的層。

·SE_PA_4:4個注意力模塊分別在編碼器的第1,3層以及解碼器中相對應的層。

表3給出了消融實驗的結果,可以看出,隨著注意力模塊的增加,SE_PA_4、SE_PA_6和SE_PA_8三種方法的性能會逐步提高,但是,相比之下本文網絡的定量值最高。而且,更多的注意力模塊也使網絡更難訓練。因此,在實驗中設定了兩個注意力模塊,分別置于網絡的第一層卷積之后和倒數第一層反卷積之前。實驗結果表明了使用注意力模塊的有效性,同時也說明了更多的注意力模塊不一定能提高降噪質量,應該平衡模塊的數量。通過減少網絡中注意力模塊的個數降低網絡的復雜度,獲得更好的去噪效果。

表3 網絡結構比較

3 總結

提出了一種新的基于U-Net的LDCT圖像去噪算法。為了有效去除噪聲和偽影,由通道注意和像素注意組成的注意力模塊被用在網絡開始和結尾處,幫助網絡注意圖像中的噪聲區域,更有利于噪聲和偽影特征的提取,提升網絡去噪性能。通過消融實驗說明了通道注意力在網絡去噪性能方面有良好的促進作用,當通道注意力和像素注意力聯合使用時其能力得到了進一步的提升。通過對比實驗從定性和定量兩方面驗證了本文算法在圖像去噪和結構保持方面都具有良好的性能。

猜你喜歡
卷積噪聲像素
基于全卷積神經網絡的豬背膘厚快速準確測定
像素前線之“幻影”2000
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
基于聲類比的仿生圓柱殼流噪聲特性研究
“像素”仙人掌
汽車制造企業噪聲綜合治理實踐
要減少暴露在噪聲中嗎?
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合