?

基于注意力機制的肺炎輔助診斷模型

2022-06-08 03:11李芳芳束建華殷云霞谷宗運
關鍵詞:注意力卷積神經網絡

李芳芳,馬 春,束建華,李 亞,殷云霞,蔡 莉,谷宗運

(安徽中醫藥大學 醫藥信息工程學院,安徽 合肥 230012)

肺炎是一種細菌、病毒或真菌引起的肺部感染,如果不及時診斷并治療,可能危及生命,是世界各地兒童和老年人死亡的主要原因之一[1],準確而快速的診斷至關重要,它可以保證患者獲得及時治療.胸部 X 光片檢測是肺炎診斷的重要手段之一,它需要醫生有豐富的專業知識和臨床經驗.由于影像科醫生的閱片量大,經常會出現誤診、漏診情況,尤其是新型冠狀病毒引起的肺炎,傳染快,發病率高,檢測的速度和準確性都是亟待解決的問題.為了更好地輔助影像科醫生讀取胸部 X 光片,研究自動檢測肺炎的模型十分必要.

基于卷積神經網絡的深度學習方法已經被廣泛應用于視覺方面的分類、定位及目標檢測等任務中.潘麗艷等[2]提出一種經過改進的AlexNet結合遷移學習對肺炎X光片進行細菌性和病毒性判斷,其準確率達80.5%;Liang等[3]采用遷移學習,使其準確率達到了90.5%.雖然這些模型的性能有了較大提升,但由于對空間維度和通道維度的信息不夠,造成特征提取過程中空間及通道的關聯信息損失,從而降低了模型診斷的精確度.Hu J等[4]提出的SENet(Squeeze-and-Excitation Networks)網絡對不同通道,應用相應的注意力模塊部分解決了此問題.Sanghyun Woo等[5]設計了一種簡便有效的注意力機制模塊(Convolutional Block Attention Module,CBAM),與SE模塊相比,CBAM模塊同時還關注了空間之間的特征聯系.實驗結果表明,通道注意力機制和空間注意力機制兩個模塊相輔相成,綜合應用能使網絡更好地進行特征重標定,從而提高模型診斷精度.

現有的肺炎檢測模型通常面臨兩個問題:其一,胸部X光片中肺炎的視覺信號特征不明顯;其二,早期肺炎患者在影像上的目標區域較小,給檢測帶來了困難.經典網絡模型如VGG或ResNet進行特征提取會損失通道及空間之間的關聯信息,從而造成診斷的準確度低等問題.因此,本文提出了一種結合注意力機制和ResNet網絡兩種模型優點的新網絡模型來解決上述的肺炎X光片檢測問題,其中通道和空間注意力模型提取肺炎區域的關鍵通道特征和空間域特征,并利用殘差網絡解決深度網絡退化問題.通過調整注意力機制模塊在ResNet網絡中的位置,結合實驗對比數據,更好地實現特征提取,從而有效提升模型的分類準確度,提高診療水平.

2 相關理論

2.1 卷積神經網絡

卷積神經網絡(CNN)是一類包含卷積層的前饋神經網絡,其最早出現在平移不變人工神經網絡(SIANN)、LeNet-5[6]等網絡模型中.分類CNN是一種有監督的深度學習模型,經常以一幅圖像作為輸入,以隸屬于某個分類標簽的概率作為輸出,其在大規模圖像處理方面表現優秀.深度卷積神經網絡的特點是層次加深、參數規模變大,其優點是對特征值進行計算而不是對原始值進行計算,并且分類的正確率有了顯著提高[7].現有很多深度卷積神經網絡模型被成功應用于醫學影像處理中[8-9],為臨床診斷提供依據.

2.2 ResNet

深度殘差網絡(Deep residual network, ResNet)是由來自微軟亞洲研究院的4位教授提出的卷積神經網絡[10],其核心思想是:每個附加層都應該更容易地包含原始函數作為其元素之一,其殘差塊結構如圖1所示.其中f(x)是理想映射,f(x)-x是需要擬合出的殘差映射.在殘差塊中,輸入可通過跨層數據線路快速地向前傳播.ResNet很好地解決了網絡退化問題,使訓練更深網絡模型的實際性能大大提升.ResNet已經廣泛應用于計算機視覺有關的醫學影像處理,包括影像分類、病灶檢測、定位和分割等.文獻[11]使用了ResNet-50和DenseNet-121評估CNN在三家醫療機構中推廣模擬肺炎篩查任務.文獻[12]使用了特別制定的 ResNet-152 神經網絡模型,在肺部X光片中鑒定肺炎,其準確率提高到97%.在目標檢測方面,Mubarok 等[13]基于ResNet 和Mask-RCNN兩個深度網絡模型的基礎上,實現了在每次卷積計算加激活函數之后進行批量歸一化操作,Residual Network和Mask-RCNN 的準確率分別為 85.6%和 78.1%,同時應用Mask-RCNN對病變區進行定位,效果良好.

圖1 ResNet的一個殘差塊

2.3 注意力機制

Convolutional Block Attention Module(CBAM)是Sanghyun Woo等[5]最早提出的一個簡單卻十分有效的注意力機制模塊,其給出了一個中間特征映射.它綜合了空間(spatial)和通道(channel)兩個模塊,相比于只關注通道注意力機制的SENet,可以取得更好的特征提取效果.通道注意力機制可以讓網絡模型更加關注信息最重要的通道特征,并且抑制那些次要的通道特征.通道注意力機制原理如式(1)所示.

Mc(F)=

σ(MIP(AvgPool(F))+

MLP(MaxPod(F)),

(1)

其中:輸入F作為input feature map;σ是Sigmoid操作;Mc表示在channel維度上做attention提取的操作.

空間注意力模塊是通過空間轉換器將原圖片的空間域信息做相應的空間轉變,從而將關鍵信息提取出來.空間注意力機制原理如式(2)所示.

Ms(F)=

σ(f7×7)([AvgPool(F);MaxPool(F)]),

(2)

其中:σ是Sigmoid操作;7×7是卷積核大??;Ms表示在空間維度上做attention提取的操作.

3 基于注意力機制的肺炎輔助診斷模型

ResNet網絡模型廣泛應用于醫學影像分類等任務,并經常用作計算機視覺任務骨干神經網絡的一部分.本文利用CBAM模塊容易和CNN網絡結構融合的特點,在ResNet網絡的每個殘差塊前后都加入了注意力機制,其網絡模型如表1所列.

表1 融入CBAM模塊的ResNet-50網絡模型

本模型中CBAM模塊先使用channel模塊再使用spatial模塊,且模塊之間按照順序排列的方式,其CBAM模塊的結構如圖2所示,實驗證明這種組合方式性能更優.

圖2 CBAM模塊結構

通道注意力模塊結構如圖3所示,其通道之間的特征重標定步驟為:首先將輸入特征圖分別經過最大池化層及平均池化層;然后將兩者的輸出分別經過多層感知機(MLP),對MLP輸出特征做加法;再經過Sigmoid函數輸出通道注意力特征圖;最后將通道注意力特征圖與輸入特征圖做逐元素相乘,實現在通道上的注意力機制.

圖3 通道注意力模塊網絡結構

空間注意力模塊是將原始圖片中的空間信息通過空間轉換模塊,變換到另一個空間并保留關鍵信息,其網絡結構如圖4所示.

圖4 空間注意力模塊網絡結構圖

其特征重標定過程為:首先將輸入特征圖經過基于通道的最大池化和平均池化計算;然后將兩者的輸出結果在通道上做特征融合,并將結果壓縮為一個通道;最后經過7×7卷積層和Sigmoid激活函數生成空間注意力特征圖,將空間注意力特征圖與輸入特征圖做乘法,實現在空間上對特征圖的特征重標定.

4 實驗與結果分析

4.1 數據集

本文實驗所用的數據集為University of California, San Diego于2018年公開的數據集ChestX-ray Images[14].數據集包含Train、Test和Val 3個部分,并分別包含肺炎/正常的子文件夾,共有5 856張X光胸片圖像,其中肺炎圖像4 273張,正常的1 583張.圖5顯示了實驗所選用的數據集中部分樣本數據,其中Normal表示正常狀態圖像,Pneumonia表示肺炎狀態圖像.

圖5 部分樣本

4.2 評價指標

實驗使用了準確率(Accuracy)、精確率(Precision)、敏感度(Sensitivity)、特異度(Specificity)和F1-Measure等幾個技術指標.本實驗中采用混淆矩陣表示實驗相關數據,其表示方法如表2所列,其中,TP和TN分別表示真陽性和真陰性;FP和FN分別表示假陽性和假陰性.

表2 混淆矩陣

準確率(Accuracy):對于給定的測試數據集,模型正確分類的樣本數與樣本總數之比,稱為準確率,表達式如式(3)所示.

(3)

精確率(Precision):在預測結果為正類的數據中,有多少數據被正確預測(原本就是正類),表達式如式(4)所示.

(4)

敏感度(Sensitivity):被識別出的所有正類占所有總正類的比例,表達式如式(5)所示,敏感度高意味著漏診率低.

(5)

特異度(Specificity):識別出的負類占所有總負類的比例,表達式如式(6)所示,特異度高意味著誤診率低.

(6)

F1-Measure:是Precision和Sensitivity的綜合結果,表達式如式(7)所示.當F1值較高時,說明實驗方法更加優異.

(7)

4.3 實驗過程

在實驗開始前將原始的數據集進行合并,然后按照8:2的比例將合并后的數據集隨機分為Train Set和Test Set.此外,本文采用數學中常用的雙線性插值算法對圖片進行壓縮,以解決輸入特征尺寸不統一和圖像尺寸較大的問題.雙線性插值算法是一種比較好的圖像縮放算法,它充分利用了源圖中虛擬點四周4個真實存在的像素點值來共同確定目標圖像中的一個像素值.因此縮放效果比簡單的最鄰近插值要好很多,縮放后圖像質量高,并且圖像像素值不連續的情況基本不會出現.

訓練和測試數據已經經過圖像縮放處理,處理后的圖像大小統一為224×224,使用Adam優化器,其內置了momentum,其它超參數包括:學習率為0.005,num_epoch=50.使用交叉熵損失函數(CrossEntropyLoss())[15]來計算預測值和實際標簽值之間的差距,進而權衡模型的好壞.在二分類的情況下,模型最后需要預測的結果只有兩種情況,對于每個類型預測得到的概率為p和1-p,此時表達式為:

[yi·log(pi)+(1-yi)·log(1-pi)],

(8)

其中:-yi表示樣本i的label,正類為1,負類為0;-pi表示樣本i預測為正類的概率.實驗在Windows10系統下,GPU為NVIDIA Tesla K80,實驗環境為基于Windows的Pytorch深度學習框架.

4.4 實驗結果

本實驗設計采用上述評價指標對本網絡和VGG16、ResNet-50網絡模型作對比實驗,圖6顯示了3種網絡模型下(ResNet-50+CBAM,ResNet-50,VGG16)的準確率和損失值.為了便于觀測實驗結果,設置每一個epoch代表迭代10次,共50次.

圖6 3種網絡模型下的準確率和損失值對比情況

各評價指標的具體參數如表3 所列.從表中可以看出,和兩種經典的網絡模型相比,本文所提出的ResNet-50+CBAM的網絡結構的準確度最高,達到97.2%.其精確度、敏感度、特異度及F1-Measure比ResNet-50分別高1、3.8、0.9和2.4個百分點,比VGG16分別高1.5、5.2、1.3和3.4個百分點.

表3 3種網絡模型下的評價指標參數值

綜合以上實驗結果可以看出,通過ResNet-50融合了注意力機制的網絡模型能夠有效提升肺部X光片的分類性能,提高了肺炎診斷的準確率;敏感度和特異度的雙提升意味著漏診率和誤診率都進一步得到降低,進而為影像科醫生的肺炎診斷工作提供幫助,為患者的治療爭取了更多的有效時間,減少了肺炎的致死率.

本文方法的部分預測結果如圖7所示,其中上方為實際標簽值,下方為預測結果.

圖7 部分預測結果

5 結論

本文提出了一種改進的基于注意力機制特征融合層深度卷積神經網絡模型,該模型基于經典的ResNet-50的基本架構,在每個殘差塊的前后都融合了通道注意力機制模塊和空間注意力機制模塊,從而能夠充分提取通道注意力重要特征及多尺度特征圖空間信息.通過大量實驗,對胸部X光片的肺炎診斷做了對比分析.實驗結果證明,相對ResNet-50和VGG的網絡模型,本文網絡模型在訓練集和測試集上均表現出更好的識別能力和泛化能力.相對于傳統的深度學習神經網絡,本文提出的模型在輔助肺炎診斷的工作中性能更優.

猜你喜歡
注意力卷積神經網絡
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于神經網絡的中小學生情感分析
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
基于神經網絡的拉矯機控制模型建立
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合