?

融合多頭注意力機制的新冠肺炎聯合診斷與分割

2022-12-21 03:23李金星孫俊李超BilalAhmad
中國圖象圖形學報 2022年12期
關鍵詞:編碼器注意力卷積

李金星,孫俊,李超,Bilal Ahmad

江南大學,無錫 214122

0 引 言

自2020年,一種新型冠狀病毒引發的肺炎疫情在全世界迅速蔓延,嚴重威脅著人類生命與健康。世界衛生組織將這種新型冠狀病毒肺炎命名為“2019新型冠狀病毒病”,簡稱“新冠肺炎”或“COVID-19”(corona virus disease 2019)。據Worldometer網站報道,截止到2021年9月23日,全球約有2.3億新冠感染病例。新冠肺炎是一種由新型冠狀病毒引發的急性呼吸道傳染病,傳染性強,癥狀隱蔽,病死率高;而控制新冠肺炎傳播的關鍵是盡快篩查出被感染者并及時隔離治療,防止出現大規模的“人傳人”。但是如何快速識別出人群中的病毒攜帶者,這是疫情防治過程中的一個重大難題。目前,大規模使用的方法是核酸檢測,即聚合酶鏈反應(polymerase chain reaction,PCR),該方法通過查找人的呼吸道標本中是否存在新冠病毒的核酸,來確定是否被感染。一旦核酸檢測為 “陽性”,即可證明患者體內有病毒存在,然而這種檢測存在一定的局限性。一是傳統的實驗室方法耗時耗力;二是檢測結果會存在假陰性;三是檢測結果反饋具有一至兩天的滯后性。因此,為應對大規模的實時檢測,開發一款快速精準的計算機輔助診斷方法至關重要。

人工智能飛速發展,并廣泛應用于各個領域。其中,深度學習作為人工智能技術的核心,已成功地應用在肺部醫學影像的自動診斷或病灶分割(康波 等,2020)。而且主要涉及兩種放射成像影片,即胸部CT(computed tomography,CT)和X線胸片(chest X-Ray,CXR)。由于CT成像會產生強輻射,一般禁止用于孕婦和兒童,而CXR作為一種非侵入性檢查,輻射明顯低于CT(孟琭和李镕輝,2020),并且CXR成像比CT成像更快、更便宜。因此,相比CT,CXR更適合大規模使用。本文工作主要面向CXR的深度網絡構建。

為對抗新冠病毒,前人已經提出了各種CXR自動診斷分類網絡,并且絕大多數都基于卷積神經網絡(convolutional neural networks,CNN)的架構。Farooq和Hafeez(2020)通過改進ResNet50提出了COVID-ResNet,用于CXR的4分類診斷,準確率達到了96.23%。Apostolopoulos和Mpesiana(2020)報道了一種結合遷移學習的VGG19(Visual Geometry Group)網絡,可以在CXR的2分類診斷上達到98.75%的準確率。Das等人(2020)精簡了Inception_v3網絡,面向CXR的3分類和4分類診斷,分別達到了99.96%和99.92%的準確率。此外,Owaist等人(2021)提出一種聚合了多級特征的深度網絡,能以95.38%的準確率篩選出COVID-19感染者(CXR的2分類診斷)。雖然現有網絡表現出卓越的分類精度,但由于它們訓練測試的數據過少,有的只有幾百幅CXR,很難滿足深度網絡的數據需求,網絡可能存在過擬合,而且網絡對CXR的分類相對簡單。并且在CNN中,卷積操作只能從圖像的固有像素提取局部特征,而無法關注到這些特征的優先級。當肺部疾病的分類粒度進一步細化,使用CNN去處理CXR可能不再適合。為此,Park等人(2021)首先提出了一種基于視覺Transformer(vision transformer,VIT)的模型,實現了對CXR的自動分類診斷和肺部感染嚴重性的分析,在3個外部數據集上測試,該模型分別實現了93.2%、92.1%和92.8%的3分類診斷(Park等,2021)。但是Park等人(2021)提出的Transformer網絡只使用深層抽象特征(通過DenseNet主干提取)作為嵌入特征。雖然這與大多數計算機視覺中的VIT架構(Carion等,2020)設計相符,但完全忽視了醫學影像CXR的表觀特征。

現如今,醫學影像分割領域也越來越多地采用CNN的深度網絡。Ronneberger等人(2015)提出了U-Net模型,它采用U形編碼器—解碼器架構對圖像進行像素級的分類以完成分割任務。編碼器通過卷積和下采樣提取高分辨率的語義信息,解碼器通過卷積和上采樣將編碼特征輸出為二值分割掩模(分割標簽),而且網絡使用跳躍連接將編碼特征與解碼特征連接,以避免梯度消失。U-Net具有優異的分割性能,自其出現以來大量的改進架構相繼提出。Zhou等人(2018)提出了一個具有密集和嵌套連接(跳躍連接)的U-Net版本,有效地提升了分割精度,稱做U-Net+,然而在U-Net和U-Net+中,編碼器的連續下采樣和大步長的卷積操作可能會導致某些特征信息的丟失。因此,Gu等人(2019)使用了一種新的語義編碼器,即ResNet34的前4層,以收集更多的上下文特征,減少特征的丟失,稱做CE-Net(context encoder network)。但同樣地,由于卷積操作固有的局部性,這些CNN的分割模型不能實現對全局特征的建模。為增加圖像的全局信息,本文使用Transformer架構,通過注意力機制對圖片的高級上下文特征進行建模。本文的工作體現在以下4個方面:

1)構建了一個名為ViTNet(vision transformer network)的Transformer深度網絡,能夠同時實現肺部影像的分類診斷和區域分割。

2)提出了一種適合分類和分割聯合訓練的混合損失函數。

3)編譯了一個CXR 5分類并帶有新冠肺部感染區分割掩膜的數據集。

4)將提出的架構應用于CXR自動診斷分類和新冠感染區分割,結果明顯優于主流的分類和分割網絡。

1 多頭注意力機制

Transformer的初次提出是為了解決機器翻譯問題,因為它能捕獲到全局的上下文信息,相比于傳統的循環神經網絡(recurrent neural network,RNN)具有明顯優勢。Transformer的全局屬性主要體現在它的編碼方式和多頭注意力機制(multiple head attention,MHA)(Vaswani等,2017)。Transformer的編碼輸入是同維(d維)向量的有序序列,表示了所有的特征信息。多頭注意力機制將輸入序列矩陣中每個向量h等分,整個輸入矩陣隨即分為h個不同的子塊,原序列特征被映射到了h個子空間中,h是總頭數,每個注意力關注一個子空間上的輸入信息。圖1顯示了多頭注意力模塊的計算過程,MHA的輸入是3個輸入序列矩陣(查詢矩陣、關鍵值矩陣和數值矩陣)分別映射到h個子空間的結果,表示為[q1…qh],[k1…kh],[v1…vh]。當[q1…qh],[k1…kh],[v1…vh](3個輸入矩陣)的輸入特征完全相同時,MHA輸出自注意力后的結果;當[q1…qh],[k1…kh],[v1…vh]的表示特征不同時,MHA輸出交叉注意力后的結果,即

output=MHA([q1…qh], [k1…kh], [v1…vh])

(1)

多頭注意力機制最大的特點就是能夠根據頭數平行地計算,以節省運行時間。如圖1中MHA過程,對于第i個頭的輸入qi,ki,vi,首先進行線性映射Linear(),分別輸出Qi,Ki,Vi,即

Qi=Linear1(qi)=Wqqi
Ki=Linear2(ki)=Wkki
Vi=Linear3(vi)=Wvvi

(2)

圖1 自動診斷與區域分割的網絡架構Fig.1 The network frame for CXR auto-diagnosis and lung region segmentation

然后,通過式(3)計算第i頭的輸出。最后,將各個頭的輸出拼接起來即為MHA的最終輸出,即

(3)

output=[H1…Hh]

(4)

式中,softmax函數計算了注意力權重矩陣與Vi的乘積,輸出了數值特征Vi經注意力后的結果。d是常數,等于輸入序列中向量的維度,用于縮小(scaled)高維向量的數值。

2 聯合診斷與分割網絡

2.1 整體架構

如圖1所示,本文提出了一種基于Transformer的深度網絡,能同時進行CXR分類診斷與感染區分割。當CXR被認為感染新冠肺炎,網絡能同時將其感染區域分割出來。網絡的整體框架主要由3個部分組成,即雙路嵌入層、Transformer模塊和分割解碼器。

2.2 雙路嵌入層

大多數Transformer編碼器的嵌入特征單一,或是深層特征序列,或是淺層特征序列。雙路嵌入層通過兩種映射方式,分別提取出CXR的淺層直觀特征與深層抽象特征。一是線性分割CXR為多個小補丁塊,將每塊補丁的像素數據直接卷積映射到D維空間,得到表示直觀特征的向量序列[x1,x2,…,xN];二是使用預訓練的網絡生成D通道的特征圖(H,W,D),再將其線性展開,得到長度為H×W的D維特征向量序列[x′1,x′2,…,x′N],以表示圖像的深層抽象特征。

如圖1所示,對于同一幅CXR輸入,一方面,以32×32像素的滑動窗口線性分割圖像(linear project)并使用2維卷積映射出512維向量;另一方面,通過預訓練的backbone(選用ResNet34的前4層,原因見5.3節)提取尺寸為(14, 14, 512)的特征圖,按通道展開為196個512維向量的線性序列。第1種方式中,每次卷積操作都被限制在滑動窗口裁剪出來的補丁塊;第2種方式中,特征圖上的邊緣位置的感受野不能覆蓋原圖。因此,兩種方式嵌入的向量表示都相對局部。

2.3 Transformer模塊

首先,在嵌入的淺層特征向量序列[x1,x2,…,xN]中添加一個用于分類預測的頭向量(head token),得到[xpred,x1,x2,…,xN]。然后,添加位置編碼,具體為

Y(0)=[xpred,x1,x2,…,xN]+Epos

(5)

式中,xpred∈RD稱為預測頭,Epos∈RN+1,Y(0)表示第1個Transformer編碼器的輸入。同樣的操作處理深層特征序列[x′1,x′2,…,x′N],得到Y′(0)。

如圖1所示,Transformer模塊由6個編碼器和1個交叉注意力模塊串聯構成。第i個編碼器計算為

Y′(i-1)=LN(MHA(Y(i-1),Y(i-1),Y(i-1)))+Y(i-1)
Y(i)=LN(MLP(Y(i-1)′))+Y′(i-1)

(6)

式中,LN為層歸一化(layer normalization)。Y(i)表示第i個編碼器的輸出。多頭注意力的3個輸入矩陣都是Y(i-1),輸出是自注意力后結果。通過自注意力機制,每個編碼器非線性地輸出全局感受特征。多個編碼器串聯使用,能使網絡獲得不同層次的特征,低層次特征包含的信息更多,而高層次特征的語義性更強。最后6個編碼器輸出高階的上下文特征。

圖2顯示了編碼器中具體的計算過程,輸入序列首先經過多頭的自注意力模塊,然后使用殘差,層歸一化(layer normalization,LN)得到中間輸出Y′(i-1),最后送入多層感知機(multiple layer perceptron,MLP)中,繼續采用殘差,層歸一化,得到輸出Y(i)。殘差和層歸一化能避免梯度消失,以加速網絡的收斂。

交叉注意力模塊是整個Transformer模塊的核心。它將Transformer編碼器的高階上下文特征與卷積出來的深層抽象特征送入交叉注意機制。計算如式(7),過程見圖2。

(7)

圖2 Transformer模塊的網絡結構Fig.2 The architecture of Transformer module

式中,Y′(0)是深層特征序列添加預測頭和位置編碼后的結果。在交叉注意力模塊中,先使用自注意力處理深層特征序列,再將處理結果與高階的上下文特征進行交叉注意力,最后送入多層感知機。這樣有兩個優點:一是使網絡綜合了ResNet34提取的局部特征與Transformer編碼的全局特征;二是使網絡綜合了深層抽象特征與自注意力編碼后的淺層高級特征。

Transformer模塊的輸出結果為

Z=[zpred,z1,z2,…,zN]

(8)

式中,輸出的預測頭zpred用于分類任務。剩余向量序列[z1,z2,…,zN]經過拼接用于分割任務。[z1,z2,…,zN]拼接后的維度是196×512,重組后,特征圖的維度為14×14×512。

2.4 分割解碼模塊

在醫學影像分割的編碼器—解碼器架構中,典型的解碼器主要采用兩種方法來還原圖像尺寸:上采樣和逆卷積。上采樣通過線性插值的方式來改變特征圖尺寸,而逆卷積使用卷積映射自適應地增大特征圖。本文中,網絡的分割解碼器使用逆卷積操作來恢復圖像尺寸。為了保證解碼特征圖與相應的編碼特征圖尺寸相同,分割解碼器依次由1×1的卷積、滑動步數為2的3×3的逆卷積和1×1的卷積3部分構成,見圖1。3×3的逆卷積擴大特征圖的尺寸為原來的一倍。1×1的卷積可以有效地控制輸入輸出的特征圖通道數,盡可能減少語義信息的丟失。最后,使用跳躍連接將編碼特征圖對應地加到尺寸相當的解碼特征圖,使網絡具有較大的反向梯度,以使網絡盡快收斂。

3 聯合訓練的混合損失

3.1 分類任務損失

分類任務的損失函數fcls由對比損失fA(cont-rastive loss)(He等,2021)和交叉熵損失fB兩部分構成,表達如下

(9)

式中,sim函數表示計算zi,zj兩個向量的余弦相似度,zi,zj對應著Transformer模塊輸出的預測頭,即zpred。α表示截斷值,設置為0.4。對比損失函數可以減小不同類別預測頭的相似度,增加同一類別的預測頭的相似度。最后對每個預測頭使用全連接,分類結果向量送入交叉熵損失函數。

3.2 分割損失與聯合訓練損失

CXR分割任務的目標是將新冠肺炎的病灶區域標注為前景色,其他部分劃分為背景色。它是一種像素級別的二分類任務,最常用的損失函數是二分類的交叉熵損失(binary cross entropy loss),表達為

fseg=-wi[yilogxi+(1-yi)log(1-xi)]

(10)

最后,模型使用不確定性損失動態平衡分類與分割任務(Zhang等,2021),表達為

(11)

式中,w1和w2是可學習參數,初始值分別設置為-4.85和-6.55。

4 數據集與實驗參數

4.1 數據集的構建

本文編譯了一個CXR 5分類的數據集。所有新冠患者的CXR都標注了感染區的分割掩膜。所有數據來自于6個Kaggle公開集,它們收集自GitHub、Kaggle的其他存儲集、SIRM(Italian Society of Medical and Interventional Radiology)、NIH(National Library of Medicine)、國外大學(Qatar University, Tampere University, the University of Dhaka)和醫療機構(Hamad Medical Corporation)等的公開數據。每個存儲集中CXR的類別與數量顯示在表1。

表1 各公開數據集的CXR分類統計Table 1 The statistics of classified CXRs in each repository /幅

表1中前5個存儲集都沒有新冠肺炎感染區的分割掩膜,所以引入第6個存儲集QaTa-COVID19。各類別CXR總數之間相互比較,健康正常類明顯高于其他類,細菌性肺炎明顯低于病毒性肺炎類和肺部不透明類。為模擬真實的檢測情景(絕大多數案例為健康正常),保留了所有存儲集的健康正常CXR。但為保持數據平衡,病毒性肺炎類和肺部不透明類的CXR僅從表中第4(Degerli等,2021)和第5(Rahman等,2021)存儲集中收集。最后使用的數據集由表1中各加粗項組成,刪除重復圖像,并將每幅圖像尺寸調整為448×448 像素。編譯好的數據集總共有38 466幅CXR,其中有2 951幅新冠肺炎患者的CXR,16 964幅健康正常人的CXR,6 103幅細菌性肺炎患者的CXR,5 725幅病毒性肺炎患者的CXR和6 723幅肺部不透明的CXR。

各病癥的CXR通常表現介紹如下:

1)新冠肺炎。磨玻璃樣(ground-glass opacity,GGO)改變,通常出現在雙側、外圍;隨著疾病的進展,有時會出現鋪路石征(小葉間隔增厚和小葉內線與磨玻璃影疊加,稱之為鋪路石征);GGO區域出現血管擴張或牽拉性支氣管擴張。

2)病毒性肺炎。檢查可見肺紋理增多,可能出現網狀影;多表現出斑片狀或結塊狀的實變影;伴有廣泛的GGO;會產生支氣管壁增厚等癥狀。

3)細菌性肺炎。支氣管肺炎型改變;多會出現肺葉實變、空洞形成或較大量胸腔積液;炎性浸潤陰影,可呈大片絮狀、濃淡不均勻。

4)肺部不透明。CXR影像上出現部分肺缺失。

其實,實際臨床中細菌性和病毒性肺炎大類下又有復雜多樣的細分,它們的CXR亦有一定差異。圖3中展示了各類具有代表性的案例。

圖3 各類X光片的例子展示Fig.3 The examples of different X-ray images

4.2 實驗參數設置

實驗硬件環境為搭載Intel Xeon CPU E5-2650 v4,2.2 GHz處理器和Tesla K80,12 GB顯卡的服務器集群。軟件環境為64位Centos7操作系統下的Pytorch深度學習框架。

各網絡通過4張K80顯卡并行訓練。網絡參數設置如下:批處理大小由模型大小和顯卡容量人為確定,VITNet采用16;總的迭代次數為200;使用Adam優化器;學習率的初始值為0.000 2,若模型迭代10步后沒有更新權重,縮小學習率為原來的一半。

5 實驗結果與討論

5.1 CXR自動診斷結果比較

在分類診斷實驗中,將VITNet與通用的Transformer分類網絡(Dosovitskiy等,2021)和5種流行的深度學習模型進行對比,即ResNet18,ResNet50,VGG16,Inception_v3和Dla(deep layer aggregation),結果展示在表2。ResNet18,ResNet50,VGG16,Inception_3都是經過預訓練的分類模型;Dla是一種多特征融合的深度網絡,不使用預訓練(與VITNet一樣)。就診斷的精度而言,VITNet模型具有最高的分類精度(95.37%),而后依次是Inception_v3(95.17%),Dla(94.40%),VGG16(94.16%),以及ResNet50和ResNet18(93.48%和92.18%)。單純Transformer分類的精度是92.22%,僅優于ResNet18。召回率描述了模型準確識別出不同類別為正例的能力,召回率越高,模型對于X線胸片的誤診率越低??傮w上,通用Transformer的誤診可能性最大,除此之外,其他各模型的召回率順序與其精度順序一致。F1指標綜合考慮了精度與召回率,其結果更能反映模型準確性??梢钥闯?,所有模型在F1上的表現順序與召回率的順序完全一致。kappa系數是統計學中評估一致性的方法,也可用來評估多分類模型的準確度。顯然,表2中各模型在精度和kappa上有相同的性能排列。綜上,VITNet在精度、召回率、F1和kappa系數上都表現最好,具有最佳的診斷效果。

表2 各網絡的分類性能對比Table 2 The comparison of classification accuracy /%

圖4中繪制了各模型分類結果的混淆矩陣(由于ResNet網絡已有ResNet50作為對比,未繪制ResNet18的結果)。依次單獨分析5個類別的結果,就新冠肺炎而言,VGG16和Inception_v3表現最佳,然后是VITNet和Dla;就肺部不透明和病毒性肺炎的分類效果,VITNet表現出了最佳的效果;而就健康正常類而言,單純的Transformer分類網絡表現最佳;就細菌性肺炎的分類結果,本文模型僅次于Inception_v3模型。

圖4 各網絡分類結果的混淆矩陣Fig.4 Confusion matrixe maps of network classification results

5.2 新冠肺炎感染區域的分割結果

為了驗證分割效果,本文網絡與4種主流網絡進行對比,結果如表3所示。PSPNet(pyramid scene parsing network)是通用的語義分割模型,它的分割效果在所有網絡中最差。U-Net、U-Net+、CE-Net是面向醫學影像的專用網絡,模型中都引入了跳躍連接,網絡可以將淺層特征與抽象特征結合起來,有效提升網絡的收斂速度與分割效果。相比這4種分割網絡,VITNet在精度和AUC(area under ROC curve)上都具有更好的表現,但在敏感度上稍遜色于U-Net+。這可能還要涉及到網絡的穩定性,測試發現,U-Net+敏感度指標隨著迭代的波動非常大,相鄰兩次保存權重的網絡敏感度可能會相差6%左右。在分割任務中,敏感度是衡量網絡正確預測病灶區的能力,特異度則用于衡量正確預測無病變正常區域的能力。同一個分割網絡很難兼具好的敏感性和特異性,就像表3中特異度最好的前兩名網絡,敏感度表達反而最差。VITNet的特異性表現相對較差,僅優于CE-Net。Dice系數是表達分割的預測與真實結果之間相似性的指標,表3中VITNet具有最高的指標數值,即表現出的相似性最好。通過各指標的比較,VITNet的分割效果最好。

表3 各網絡的分割效果對比Table 3 The comparison of segmentation performance /%

圖5顯示了6幅新冠肺炎感染的CXR影像及它們的分割結果。相比之下,VITNet具有更好的分割表現,這一點通過各分割預測結果的邊緣與真實標簽邊緣的相似性可以明顯看出。特別地,當病灶區域相對較小時,VITNet的分割性能愈發突出。

圖5 不同分割網絡的分割案例結果展示Fig.5 Illustrative examples of the lung infected region segmentation obtained by different networks((a) original CXR; (b) ground truth; (c) VITNet; (d) CE-Net; (e) U-Net; (f) U-Net+; (g) PSPNet)

5.3 Backbone的消融實驗

VITNet的Backbone使用的是ResNet。原因如下:1)ResNet使用的殘差網絡能有效避免梯度消失,加速網絡收斂。2)ResNet的網絡結構符合嵌入特征的維數需要。由于Transformer模塊中的輸入序列必須是同維向量,雙路嵌入層中2維卷積核的數量必須與Backbone提取的特征圖的通道數一致。之前的實驗表明,當輸入圖像尺寸固定為448×448像素,這個維數設置為512時,網絡性能最突出,而Inception、DenseNet和VGG等網絡提取的特征圖維數大都為1 024或2 048,維數過高。若直接使用這些網絡作為Backbone,將使得整個網絡冗余且難收斂;若更改這些網絡結構使輸出降維就無法導入開發者預訓練好的權重。3)ResNet的網絡結構層次明確,可以有效地與解碼器構成U形分割網絡架構。Backbone編碼的中間特征圖與解碼輸出的中間特征圖有相同的尺寸,可直接進行跳躍連接。

表2和表3對比了3種ResNet網絡作為Backbone的實驗結果,即VITNet18、VITNet和VITNet50分別使用了ResNet18、ResNet34和ResNet50作為Backbone。很明顯,使用ResNet34的VITNet診斷與分割的性能最佳,然后是VITNet18,最后是VITNet50。ResNet18作為Backbone的效果不及ResNet34,是因為ResNet34網絡結構更復雜,能夠提取到更深層次的特征。VITNet50的性能最差,是因為ResNet50的網絡結構得到了更改,以使輸出的特征圖維度等于512,因此作為Backbone的ResNet50不能使用預訓練好的權重,結果自然相對較差。

5.4 聯合網絡性能的分析

通過以上圖表可以看出,VITNet分別與主流的CNN分類或分割網絡進行比較,結果顯示VITNet具有優異的聯合診斷與分割性能。單就診斷性能而言,VITNet相比其他網絡具有最好的分類效果,網絡結構中使用了交叉注意力,能同時考慮Backbone提取的深層特征信息與Transformer自注意力編碼后的淺層高級上下文信息。而其他網絡的分類特征相對單一,ResNet18,ResNet50,VGG16和Inception_v3網絡通過多層卷積提取高維深層特征來完成分類任務;Dla則將多級特征聚合以完成分類,在未使用預訓練的情況下,預測結果超過了VGG16和Res-Net網絡,但仍比VITNet差。再者在損失函數上,VITNet不僅進行交叉熵的分類損失計算,還將預測頭向量送入分類對比損失,以使特征空間中的同類別預測頭盡可能接近(相似),不同類別的預測頭盡可能遠離,而在其他網絡中,全連接分類的結果則直接通過交叉熵損失進行分類預測。單論新冠感染區的肺部分割,VITNet在精度上表現最好,因為它摒棄了U-Net和U-Net+編碼器中的連續下采樣,使用CE-Net中的編碼器(ResNet34的前4層),以更完整地保持圖像的語義信息。并且VITNet中引入了注意力機制,通過自注意力機制關注全局特征,通過交叉注意力綜合考慮深層抽象特征與淺層高級特征,而CE-Net網絡更多地關注了局部抽象特征。通過圖5發現,當肺炎的感染偏小時,VITNet的分割效果更好,很少出現檢測不到分割區域的情況。這可能是由于網絡是同時進行分類和分割任務的,當分類任務診斷出新冠感染時,網絡也能同時學習到需要進行必要的分割輸出。

聯合網絡對每幅圖像進行肺炎診斷與感染區域分割,而其他網絡只能處理一種任務。圖6顯示了聯合網絡與其他分類分割網絡組合運行的時間對比結果,數字標簽顯示了各網絡處理每幅圖像的時間,并且分類和分割網絡分別表示為無陰影和實陰影柱狀圖,VITNet網絡是圖6中最后一個柱狀圖。從圖6可以看出,診斷分類網絡花費的時間極少,分割由于本身任務相對復雜需要較多的時間,聯合網絡僅與分割網絡相比,就已經顯示出了最快的分割速度,處理每幅圖像的耗時是0.56 s。VITNet運行效率最高,因為網絡使用了多頭注意力模塊,相比其他網絡通過大量卷積操作提取圖像特征,VITNet通過空間換取時間的思想平行地編碼圖像全局特征,減少了運行時間。

雖然聯合網絡具有最優的性能,但是就實際應用而言,VITNet仍然存在不足。觀察圖4中VITNet的混淆矩陣,可以發現有一個新冠感染者被錯誤地診斷為健康正常,這種錯分類的案例在現實中可能會產生無法估量的傷害,鑒于新冠肺炎極強的傳染性,而基于深度模型的預測出現這種錯分類的情況很難避免,VGG16和Inception_v3雖然表現出100%的新冠肺炎分類精度,但是如果繼續增加測試數據,很大可能也會出現錯分類的案例。雖然傳統的核酸檢測也可能存在假陰性的情況,但在大規模應用上,核酸檢測相對要更加嚴謹。盡管如此,考慮到核酸檢測結果的時間滯后性,本文提出的聯合診斷與分割網絡可以作為核酸測試前的輔助測試,配合醫生診斷以快速篩查人群。

圖6 VITNet網絡與其他網絡組合的運行效率對比Fig.6 The efficiency comparison between VITNet and other networks

6 結 論

本文提出了一種基于Transformer的聯合學習網絡,能夠同時完成對X線胸片的診斷分類和新冠感染區分割。為實現自動診斷分類任務,網絡通過自注意力編碼和ResNet34前4層獲取肺部圖像的淺層高級特征和深層抽象特征,并經由交叉注意力模塊輸出用于分類的預測頭;就肺部感染區分割任務,網絡使用了U型編碼器—解碼器架構,編碼器依托診斷分類的網絡,解碼器主要是通過逆卷積實現。為實現兩種任務的聯合訓練,使用了一種分類和分割損失混合函數,它能在訓練時動態地平衡兩種任務的訓練尺度。實驗中,將聯合網絡同時輸出的分類與分割結果,分別與主流的分類或分割網絡的輸出比較,聯合網絡都能有一定程度的提升,并且網絡具有突出的運行效率。但從分類輸出的混淆矩陣可以看出,網絡有一次錯誤地將新冠肺炎患者診斷為正常,使得這個網絡不適用于大規模的精細篩查診斷,可能更適合粗略的初步篩查和配合醫生診斷。也因此認識到一種高精度的分類算法對新冠肺炎的診斷和篩查至關重要,這也是未來自動診斷的重點研究方向。

猜你喜歡
編碼器注意力卷積
融合CNN和Transformer編碼器的變聲語音鑒別與還原
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
基于雙增量碼道的絕對式編碼器設計
“揚眼”APP:讓注意力“變現”
應用旋轉磁場編碼器實現角度測量
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合