?

基于SPD多尺度輸入的ST-MASA的肺炎智能檢測模型

2024-01-22 12:04李芳芳束建華闞峻嶺殷云霞孫大勇
宿州學院學報 2023年12期
關鍵詞:X光軸向注意力

李芳芳,束建華,闞峻嶺,殷云霞,孫大勇,馬 春

安徽中醫藥大學醫藥信息工程學院,安徽合肥,230012

肺炎是一種常見的肺部感染疾病,如果不能及時診斷和治療,會造成很高的致死率,特別是對兒童和老年人。肺炎的病因有30多種,而2019年底開始流行的一種新型冠狀病毒,人類感染極易導致肺炎,即COVID-19肺炎。此肺炎會導致有基礎疾病的人有較高的死亡率。為了提高肺炎現有的檢測效率,提升檢查準確率,醫務人員經過臨床實驗發現,肺部X光片可以清晰顯示COVID-19患者肺部的影像學病灶特征,并可以最大程度減少對孕婦和兒童的傷害。因此,肺部X光檢測成為肺炎診斷的有效手段之一。但傳統的影像科醫生利用閱片燈來閱片,這要求醫生具有豐富的臨床經驗才能實現高質量診斷;此外高強度的閱片也容易導致誤診和漏診。為了提高肺炎的檢測效率,降低醫生的漏診、誤診率,借助醫學影像AI輔助檢測來提高肺炎檢測的效率和精確度對現有的肺部疾病治療有著深遠意義。

自2016年,深度學習技術步入了快速發展通道,已被廣泛應用于醫學影像處理——例如肺部X光片的疾病檢測中,并成功提高了COVID-19肺炎早期檢出率。Shervin等[1]在5 000張X射線圖像數據集上訓練了4個最先進的卷積網絡用于COVID-19的檢測,并實現了超過90%的靈敏度和特異度。Wang等[2]介紹了一種名為COVID-Net的深度卷積神經網絡,可以從胸部X光圖像中檢測COVID-19病例,該網絡是開源的,并對公眾開放。Jain等[3]使用Inception net V3、XCeption net和ResNeXt進行分類。Zhang 等[4]利用幾種CNN模型開發了一個智能系統,可以識別COVID-19,并將其與普通肺炎和健康的肺部區分開來。Li[5]等構建了一個診斷系統,該系統結合了若干種二維的CNN模型,對COVID-19、社區獲得性肺炎(CP)和健康人群進行了分類;診斷結果的敏感度和特異度分別達到了90%和96%。

雖然這些模型使肺炎的智能檢測質量得到了很大的提升,但如何提高多類型肺炎診斷的精度,降低漏診、誤診率仍然是一個巨大的挑戰?,F有的肺炎檢測模型通常面臨著如下問題:其一,目前的研究多集中在一到兩種特定類型的肺炎,即COVID-19與CAP或健康肺的區別;因此,怎樣同時檢測多種類型肺炎是所要解決的問題之一。其二,不同肺炎胸部X光片的視覺特征比較相似,或者有時早期的病灶特征并不明顯;這些都導致檢測較為困難。為了解決這些問題,提出了一種融合了空間金字塔分解(SPD)模塊[6]和在Swin Transformer[7]中應用軸向多頭自注意力機制ST-MASA(Swin Transformer with Multi-Head Axial-Self-Attention)的網絡模型來進行新冠肺炎(COVID)、非COVID的病毒性肺炎(Viral_Pneumonia)、肺不透明(Lung_Opacity)和正常(Normal)的分類操作。先利用SPD生成肺部X光片的多尺度圖像輸入,然后對每個輸入圖像進行ST-MASA處理,接下來通過全局平均池化(Global Average Pooling)GAP和Concatenate Layer后,再通過分類模塊進行分類。

實驗在一個公開的多種肺炎胸片數據集進行訓練和測試,實驗結果對比ResNet50、ResNet101[8]、Inception net-V3[9]和Swin Transformer模型,其準確率、召回率、F1-Measure等指標均有一定的提升。

1 相關概念

1.1 空間金字塔分解(Spatial pyramid decomposition,SPD)模塊

SPD可以提供一種靈活、方便、多分辨率的格式,模擬人類視覺系統中的多尺度圖像處理;它被廣泛應用于醫學影像領域。在肺部X光片中既有小的肺炎病變,也有大的肺炎病變;小的病變(低對比度)的檢測通常需要較高的分辨率;相反,檢測大的病變則需要低分辨率的圖像,這樣才能抓住深層特征,具有全局感受野。所以選擇使用SPD來生成肺部X光片的多尺度視圖,這樣才能更好地表示出肺炎病變在不同尺度上表現出的關鍵的影像學特征。

1.2 Swin Transformer

Transformer[10]是谷歌團隊首次于2017年提出的用純Attention搭建的經典模型,其擯棄了RNN[11]的順序結構,使得模型可以并行化處理,大幅提高了訓練速度。Vision Transformer (ViT)是Dosovitskiy于2020年提出的可用于圖像處理任務的模型,ViT的出現突破了CV和NLP在模型上的壁壘,開啟了計算機視覺領域的一個新時代。傳統的Transformer的核心Scaled Dot-Product Attention模塊機制如式(1)[10]所示。

(1)

Swin Transformer中使用的不再是普通的Transformer,它修改了Transformer中的Multi-Head Self-Attention(MSA)層,成為一個基于Shifted Windows的方法,即借鑒了卷積神經網絡中的層次化構造的方法(Hierarchical feature maps),這樣的設計有助于在做視覺場景任務中取得較好的效果。其中,把特征圖劃分為多個大小可以不一致且不相交的窗口,每個窗口內使用Multi-Head Self-Attention,這樣可以減少計算量,尤其在底層較大的特征圖上(傳統的ViT是對整個特征圖進行Multi-Head Self-Attention),因此這種新的方式叫做Windows Multi-Head Self-Attention,即W-MSA。而Swin Transformer的創新策略也就是W-MSA、SW-MSA,本質上是基于Windows和Shfit-Windows計算MSA。ViT從單一低分辨率提取特征,其全局計算自注意力的復雜度是O(n2);而Swin Transformer通過分層架構,使得model可以在不同的scale中使用,其計算復雜度是線性的O(n);這樣的特性使得Swin Transformer應用于大范圍的視覺任務變得可行。分層設計和移動窗口方法也證明對所有的MLP架構是有幫助的。

1.3 軸向注意力機制

軸向注意力機制[12]是將自注意力機制分解成兩個一維的自注意力機制,即分別為高度軸注意力機制和寬度軸注意力機制。這樣的分解不僅減小了計算量,而且可在全局注意力網絡中恢復較大的感受野??梢宰屪⒁饬Ω采w到大的區域,這使得對全局關系建模成為可能。

2 提出的肺炎智能檢測模型

提出的模型是對胸部X光片進行分類,模型主要融合了空間金字塔分解模塊和在Swin Transfor-mer中應用軸向多頭自注意力機制——Swin Transformer with Multi-Head Axial-Self-Attention(ST-MASA)的網絡模型來進行分類操作。對數據集中的新冠肺炎(COVID)、非COVID的病毒性肺炎(Viral_Pneumonia)、肺不透明(Lung_Opacity)和正常(Normal)的X光片進行分類。其架構圖如圖1。

圖1 所提網絡模型架構圖

利用空間金字塔分解(SPD)模塊的策略,可以多尺度的輸入肺部X光片,這樣可以更好地提取關鍵的影像學特征,從而對大小形狀各異的病灶進行檢測、定位或分割等,提高了病灶檢測的準確性。圖中l0-l2分別代表金字塔的0、1、2三層。

將Swin Transformer中的W-MSA和SW-MSA編碼器的多頭自注意力機制(Multi-Head Self-Attention)部分改為多頭軸向自注意力機制(Multi-Head Axial-Self-Attention mechanism,MASA)。其編碼器結構圖和軸向自注意力示意圖見圖2、圖3。圖2示意了使用了兩個Transformer Blocks的輸入輸出情況,圖3示意了其中的軸向自注意力機制。圖2中,主要組件就是W-MASA、SW-MASA、Layer-Norm(LN)[13]和MLP;所有的Transformer結構都是一個軸向多頭自注意力機制連一個前饋網絡MLP,只不過在這兩個組件之前要多加一個LN層,再增加一個殘差連接。圖中的殘差網絡結構的設計可以減少有效信息的損失,防止梯度消失或者爆炸。

圖2 Two Transformer Blocks 圖3 軸向注意力機制

其相應公式如式(2)到式(5)所示:

(2)

(3)

(4)

(5)

模型應用的軸自注意力機制是將自注意力機制分解成兩個一維的,即分別在高度和寬度方向上實施注意力機制。從兩個維度計算,具有更好的計算效率,也可以適應原始的自注意力機制維度匹配,適用于反向傳播。另外,提出的模型添加了位置偏移項;從而使得注意力值對位置信息更加敏感。這個位置偏移項就是通常所說的相應位置編碼;此位置編碼可以通過訓練來學習。模型中,對所有的q、k、v都使用了相對位置編碼。對于任何給定的輸入特征圖x,加入了位置編碼并沿寬度軸更新的軸向注意力機制可以用如下公式表示:

(6)

其中,輸入向量為(h*w*c),位置為o={i,j|i∈{1,2,…,h},j∈{1,2,…,w}},其輸出為yij。rq、rk、rv是可學習向量,分別表示查詢、鍵、值的位置編碼。高度軸的注意力機制和寬度軸定義相同,一個軸向自注意力層在特定軸傳播信息,兩個軸向自注意力層都采用了多頭注意力機制。與傳統的自注意力機制相比,在軸向注意力機制添加位置偏移項后,可以實現全局感受野獲得特征。

不同尺度圖像經過每一個Swin Transformer with Multi-Head Axial-Self-Attention的網絡塊后使用一個全局平均池化(GAP)層來替代CNN中常用的全連接層,GAP層可以增強Feature Map和Categories之間的對應關系,從而能避免過度擬合[13]。然后,將各GAP層的輸出沿指定的維度組合,以獲得更好的特征表示。最后,對輸出進行全連接層和Relu操作,經過Softmax后得到分類的結果[14]。

3 實驗結果和分析

3.1 數據集

使用的數據集是來自飛槳公共數據集中的多種肺炎胸片數據集。此數據集包括10 192個健康以及3 616個COVID-19陽性病例、6 012個肺部渾濁(非COVID肺部感染)和1 345個病毒性肺炎圖像。實驗從中隨機選取80%作為訓練集,剩余20%作為測試集。

3.2 評價指標

實驗使用了準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-Measure等幾個技術指標[15]。其中TP、FP、TN、FN分別為真陽性、假陽性、真陰性、假陰性的數量。Accuracy是指模型正確分類的樣本數與樣本總數之比;Precision評價模型預測正面標簽的精度,Recall衡量的是正確預測正面標簽的比例,Recall高意味著漏診率低;F1-Measure是Precision和Recall的調和平均值,當F1值較高時,說明實驗方法更加優異。此外,采用ROC曲線來檢驗分類性能,實驗模型的ROC曲線如圖14—18所示。ROC曲線圖是反映敏感性與特異性之間關系的曲線。曲線下部分的面積被稱為AUC(Area Under Curve),用來表示預測準確性。AUC值越高,曲線下方面積越大,說明預測準確率越高。指標定義如表1所示。

表1 評價指標

3.3 實施細節

實驗基于Windows 10系統下,GPU為NVIDIA Tesla K80,實驗環境為基于Windows的Pytorch深度學習框架。通過transform.Resize將圖像縮放為128×128、256×256、512×512三種尺寸大小作為輸入;采用Adam優化器進行模型訓練,其中初始學習率、批處理大小分別設置為0.001和8;L=8為Transformer編碼器數量;Epoch為300次。

3.4 實驗結果

實驗設計采用上述評價指標對ResNet50、ResNet101、Inception net-V3和Swin Transformer四種比較有代表性的模型做對比實驗,圖4至圖8顯示了五種網絡模型下的準確率值。

圖4 ResNet50網絡模型下的準確率圖

圖5 Swin Transformer網絡模型下的準確率圖

圖6 Inception net-V3網絡模型下的準確率圖

圖7 ResNet101網絡模型下的準確率圖

圖8 proposed網絡模型下的準確率圖

為了更方便表示實驗結果,特設置每一個e-poch代表迭代10次,共迭代300次。不同模型對應的混淆矩陣見圖9至圖13,從混淆矩陣中可以計算出每個模型的精確度、召回率及F1-Measure。

圖9 ResNet50網絡模型下的混淆矩陣

圖10 Swin Transformer網絡模型下的混淆矩陣

圖11 Inception net-V3網絡模型下的混淆矩陣

圖12 ResNet101網絡模型下的混淆矩陣

圖13 proposed網絡模型下的混淆矩陣

不同模型對應的ROC曲線如圖14至圖18。由圖可知,所提模型的曲線下面積最大,因此說明所提模型的性能最好。

圖14 ResNet50網絡模型下的ROC曲線圖

圖15 Swin Transformer網絡模型下的ROC曲線圖

圖16 Inception net-V3網絡模型下的ROC曲線圖

圖17 ResNet101網絡模型下的ROC曲線圖

圖18 proposed網絡模型下的ROC曲線圖

各評價指標的具體參數如表2 所示。從表2中可以看出,和四種經典的網絡模型相比,所提出的模型的準確度最高,達到96.7%。其準確度、精確度、召回率及F1-Measure值比ResNet50分別高出5.1%、4.2%、8.5%和7.0%;比Swin-Transformer分別高2.4%、3.7%、2.8%和3.7%;比Inception net-V3分別高1.7%、1.5%、1.8%和2.0%;比ResNet101分別高2.1%、3.2%、1.8%和2.5%??梢钥吹?所提出的網絡結構在這個評價指標上都取得了最好的性能。

表2 五種網絡模型下的評價指標參數值

所提模型的部分預測結果如圖19所示,其中上方為實際標簽值,下方為預測結果。

圖19 部分預測結果圖

4 結 論

提出了一種融合SPD模塊進行多尺度輸入的ST-MASA的肺炎智能檢測模型,用于COVID-19、Lung_Opacity、Viral_Pneumonia和Normal的多類型肺炎的自動分類。該模型能夠自動關注肺炎病灶的多尺度所表現出的關鍵特征,并利用軸向多頭注意力機制,同時添加位置偏移項;從而能夠充分實現全局感受野獲得特征,得到特征圖的空間信息。通過上面所提的定量實驗及對比,其結果表明,該模型在訓練集和測試集上均表現出更好的識別能力和泛化能力。相對于傳統的CNN神經網絡,提出的模型在輔助肺炎診斷的工作中表現出更優的性能;從而能更好地幫助放射科醫生進行醫療檢測工作。

猜你喜歡
X光軸向注意力
讓注意力“飛”回來
大型立式單級引黃離心泵軸向力平衡的研究
仿生武器大揭秘
給動物拍張X光片
人眼X光
荒銑加工軸向切深識別方法
“揚眼”APP:讓注意力“變現”
還在喂奶,能照X光嗎?
A Beautiful Way Of Looking At Things
微小型薄底零件的軸向車銑實驗研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合