?

雙重編—解碼架構的腸胃鏡圖像息肉分割

2022-12-21 03:23魏天琦肖志勇
中國圖象圖形學報 2022年12期
關鍵詞:池化息肉注意力

魏天琦,肖志勇

江南大學人工智能與計算機學院,無錫 214122

0 引 言

作為全球發病率第3位(10.2%)、病死率第2位(9.2%)的疾病,自2018年以來,結直腸癌(colorectalcancer,CRC)的發病數量在中國快速上升,嚴重威脅了我國人民群眾的生命健康(田傳鑫和趙磊,2021)。然而大多數的CRC腫瘤在早期是以腺瘤性息肉的形式生長于腸道內壁,隨著病情的進展逐漸發展成惡性腫瘤并擴散到其他組織,因此早期腸道息肉檢查至關重要,可以大大提高成活率(90%) (Siegel等,2019)。通過結腸鏡的胃腸道檢查以發現早期腸道息肉并進行切除仍然是CRC防治的金標準,目前大多數指南推薦從50歲時開始篩查(Finlay等,2021)。然而傳統的結腸鏡檢查需要至少一位有資質的內鏡醫生將長約1.5 m的腸鏡經肛門順著腸腔插入到結腸及回盲部,從黏膜表面觀察結腸是否發生病變。這一方法不僅對內鏡醫生的專業水平有較高要求,同時由于腸鏡的快速進出、不同息肉的發展狀態(如圖1所示)、內鏡醫生的工作狀態以及采用設備的缺陷等因素,結腸鏡檢查有著高達6%-27%的漏診率(Ahn等,2012)。因此,計算機輔助系統在提高結腸鏡檢查效果方面有著巨大潛力。

圖1 結腸息肉大小、形狀和外觀示例圖Fig.1 Example images showing the differences in size, shape and appearance of colonic polyps

綜上所述,息肉的精確分割在臨床應用中至關重要,使用先進的輔助算法對成像上的息肉進行自動分割可以顯著提高腺瘤的查出率。然而隨著息肉生長狀態的不同,在大小、顏色和紋理等特征上往往存在差異且息肉邊界模糊不清,這些因素使得息肉分割仍然是一項具有挑戰性的任務。為了解決這一問題,在過去的十幾年里有很多方法相繼提出,早期的息肉分割是傳統的基于手工特征的機器學習方法,例如Mamonov等人(2014)設計了基于幀的紋理內容,利用幾何分析來標記圖像中是否包含多邊形的二分類器的結腸息肉分割算法,在視頻序列長度為3 747幀的前提下為操作員節省了約90%的工作量。隨著深度學習的快速發展,全卷積神經網絡在醫療圖像分割上的應用越來越廣泛,Jha等人(2019)在ResUNet(Xiao等,2018)的基礎上繼續加入空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)和注意力模塊后提出的ResUNet++在多個結腸息肉數據集上取得了優于U-Net(Ronneberger等,2015)和ResUNet的成績。Jha等人(2020)提出的Double U-Net將兩個U-Net的編碼器(encoder)和解碼器(decoder)進行skip connections,通過兩個U-Net的堆疊捕獲到更多的語義信息,并使用ASPP空間金字塔池化來捕獲上下文信息,在MICCAI(Medical Image Computing and Computer Assisted Intervention Society) 2015(Bernal等,2017)挑戰賽中對微小扁平息肉分割取得了更精確的結果。近年來,注意力機制越來越受到研究者們的重視,Chen等人(2021)認為,盡管U-Net系列網絡已經取得了很大的進步,但仍然存在由全卷積網絡本身所帶來的無法進行長距離依賴建模的缺陷,因此將Transformer(Vaswani等,2017)引入到U-Net中,提出了TransUNet,為醫學圖像分割網絡的改進提供了新的思路。何康輝和肖志勇(2021)提出了多層多視角的卷積方法,增強了對特征的冗余學習。Oktay等人(2018)提出了一種應用于醫學圖像的門控注意力模塊(attention gate,AGs),可在訓練時自動學習抑制不相關區域,注重有用的顯著特征。

上述方法都能夠有效分割息肉的主體部分,尤其是注意力機制的運用可以使模型有效地聚焦前景部分,實現像素級的全局參考,但自注意力機制會帶來大量額外的計算開銷,同時對大規模預訓練以及數據集具有較高的要求,這都極大提高了模型訓練的成本。不同于以往的利用圖像本身構造注意力權重圖的方法,受Jha等人(2020)使用兩個U-Net級聯的方式來加強上下文關系的啟發,本文提出了一種由多個模型互相影響的注意力權重圖構造方法,將上游網絡輸出的預測結果作為權重圖對下游分割網絡產生影響,同時在解碼階段加入輕量化模塊來更好地獲取全局信息,可以獲得更好的分割效果。

本文的主要貢獻包括5個方面:

1) 提出一種針對上述問題設計的深度神經網絡結構;

2) 提出一種新的注意力矩陣獲取方法,這種方法可以得到一個高精度的注意力權重圖;

3) 提出一種劃分子空間施加通道注意力的方法;

4) 在內鏡圖像CVC-ClinicDB數據集和膠囊內窺鏡圖像Kvasir-Capsule(Smedsrud等,2021;Jha等,2021)數據集上對模型的分割效率進行驗證,并與現有的息肉分割模型進行比較;

5) 混合了上文提到的兩種數據集,并對提出的方法進一步驗證,以顯示模型在使用不同設備捕獲的圖像上的分割效率。

1 相關工作

1.1 門控注意力機制

以U-Net為代表的利用卷積神經網絡(convolutional neural networks,CNN)的強表征性來分割醫學圖像的方法通常是將分割任務分為兩個步驟,即檢測和分割:先確定待分割目標的感興趣區域(region of interest,ROI),再針對ROI進行小范圍的分割。但是由于醫學圖像本身的特點(目標組織/器官在形狀、大小和顏色等特征上呈多樣性等),精準地確定ROI一直是醫學圖像分割所要解決的難點之一。為此,Oktay等人(2018)提出了將軟注意力機制應用于U-Net的門控注意力機制(attention gate,AGs),并通過對比試驗證明了AGs的有效性。

AGs的具體結構如圖2所示,其中,g代表解碼部分的特征矩陣,xl是編碼部分的矩陣,兩個矩陣經過大小為1×1的卷積操作統一通道數之后進行concat拼接后進入解碼層,通過Resampler重采樣器將特征圖重采樣到原來xl的大小,最終生成一個可以通過反向傳播學習的權重矩陣,獲得每個元素的重要性,再將權重矩陣與原編碼部分的特征矩陣相乘,得到注意力特征圖。AGs的定義為

(1)

(2)

模型的泛化性是指在獨立數據集上的性能;魯棒性指在具有挑戰性圖像上的性能,這兩者都是評價深度學習算法在臨床應用價值的重要指標,因此建立一個強有力的醫學分割模型必須具備足夠的泛化性和魯棒性,然而AGs對于部分醫學圖像并不能展現出顯著的性能提升,尤其是針對像結腸息肉這一類細粒度、小目標的分割。針對這一問題,本文發現只需充分利用U-Net自身的分割性能就可以構建精確的權重圖譜,因此嘗試了利用網絡自身產生注意力權重的方法,即雙重U-Net網絡結構。

圖2 門控注意力機制Fig.2 Attention gate

1.2 雙重U-Net架構

傳統U-Net網絡包含兩部分:分析路徑和合成路徑。分析路徑負責學習圖像特征;合成路徑則根據學習到的特征生成分割結果。此外,U-Net還加入了跨越連接使合成路徑產生更精確的結果。然而普通的U-Net網絡并不能適應所有類型的醫學圖像應用,為了解決這一問題,Jha等人(2020)提出了一種用于語義分割的新框架Double U-Net,模型結構如圖3所示。

Jha等人(2020)認為在ImageNet(Deng等,2009)上預訓練過的模型可以顯著提升性能,因此選擇了VGG-19(Visual Geometry Group)(Simonyan和Zisserman,2015)作為上游U-Net結構的編碼器,并在下游網絡結構中使用了空間金字塔池化,在上下游網絡之間進行跨越連接進一步提高特征利用率。該網絡最終在CVC-ClinicDB(Colonoscopy Videos Challenge-ClinicDataBase)數據集(Bernal等,2015)上取得了state-of-the-art (SOTA)的結果。劉佳偉等人(2021)在此基礎上加入的注意力模塊在息肉分割上取得不錯的成績。

圖3 雙重U-NetFig.3 Double U-Net

但由于對上游網絡編碼器有較高的預訓練要求,在實際應用中往往需要有針對性地運用其他大型數據集對某一特定的醫學圖像進行預訓練,這大大提高了使用成本,再加上U-Net已經在多個醫學圖像任務中展現了極佳的性能,因此可以選擇U-Net作為上游網絡參與訓練來生成注意力權重圖。

1.3 輕量型注意力模塊

Saini等人(2020)認為現有注意力計算機制產生了較高的參數開銷,因此不適合以CNN為代表的緊湊型卷積神經網絡,并為此提出了一種簡單有效的超輕量級子空間注意力機制(ultra-lightweight subspace attention mechanism,ULSAM),如圖4所示,在ULSAM中將每個特征圖分解為多個子空間,并在多個子空間內學習不同的注意力特征圖,從而實現多尺度、多頻率的特征表示。實驗結果證明,多尺度融合對精細化的目標邊緣分割效果的提升是有幫助的(吉淑瀅和肖志勇,2021)。

圖4 子空間注意機制Fig.4 Subspace attention mechanism

結腸息肉整體較為圓滑且顏色與腸壁較為相似,因此網絡會在目標邊界處理上產生一定誤差,影響分割性能。為了進一步提高模型在息肉邊界的分割能力,可以引入輕量化注意力模塊。受ULSAM的啟發,在下游網絡的跨越連接中加入改進的子空間通道注意力模塊來提取每個特征子空間的個體注意力映射,為原始特征圖提供了跨通道信息高效學習的能力,進一步提升模型針對細粒度、小目標分割上的性能。

2 方 法

2.1 方法概述

本文方法的整體結構如圖5所示,因為傳統卷積操作不能對小目標進行精確分割,而注意力機制可以很好地解決這一難題,因此本文設計了一個包含兩種編—解碼網絡的模型結構,對輸入圖像進行兩次訓練,第1次訓練的目標是獲得注意力權重圖,通過平均池化操作縮小特征圖尺寸之后再將其與下游網絡的解碼器輸出逐級相乘得到注意力權重圖,利用權重圖對原始圖片進行拼接后進行第2輪的加強訓練;通過在下游網絡跨越連接中添加改進的輕量級模塊ULSAM,增強通道之間的內部關系;最后通過連接操作將兩部分的特征圖進行融合,再進行上采樣操作將融合信息匯總為增廣表示,最終實現端到端的像素級預測。

2.2 注意力權重

注意力是一種機制或方法論,其并沒有嚴格的數學定義,因此本文提出的通過添加額外的神經網絡來給輸入的部分分配不同的權重應該屬于軟注意力(soft attention)。軟注意力包括空間注意力和通道注意力,其最終目的就是選擇細粒度的重要像素點,進而讓網絡把注意力放到該區域上,簡單來說就是要讓目標區域的像素值變大。通常使用的方法是利用輸入圖像自身結合在編—解碼過程中的上下文信息來挖掘輸入和輸出之間的關系。

本文方法使用掩碼(mask)來形成注意力機制,是基于位置的軟注意力。掩碼的原理在于通過一層新的權重將圖像數據中關鍵的特征標識出來,通過學習訓練讓雙層網絡學習到每一幅輸入圖像中需要關注的區域。在上游網絡的backbone中利用兩個大小為3×3、激活函數為ReLU的卷積塊提取出特征圖,為了防止在訓練過程中數據分布發生改變以及梯度爆炸,在每一次卷積操作之后加入批歸一化層(batch normalization,BN)進行批歸一化操作。在解碼器中需要將圖像恢復至原來的尺寸,通過使用反卷積的上采樣操作可以增大特征圖的分辨率。由于網絡的整個操作都可反向傳播,因此上游網絡可以通過反向傳播不斷訓練以提高輸出掩碼圖像的精確度,最后經過Sigmoid操作可以將上游網絡輸出圖像的像素歸一化到0-1的范圍內,像素值越接近1就代表原圖像中對應像素判斷為目標的概率越大。為了更大限度地利用上游網絡的輸出信息,整體模型的輸出還將與未進行Sigmoid操作的上游輸出進行一次殘差操作,模型輸出具體為

圖5 網絡結構Fig.5 Network mechanism

y=F(σ2(f(x))×x)+f(x)

(3)

式中,y表示模型的最終輸出矩陣,x表示模型的輸入圖像,F表示下游網絡的操作函數,f表示上游網絡的操作函數,σ2表示Sigmoid函數。

2.3 門控注意力

與Attention U-Net類似,經過上游網絡輸出的掩碼圖像可以在下游網絡解碼器中作為門控信號來調整特征圖。在壓縮掩碼分辨率的過程中選擇了2×2的平均池化層。因為相較于最大池化,平均池化可以保證在嵌套的池化操作中保留準確的掩碼信息,防止將低概率像素值增大。如圖6所示,在一個2×2的滑動窗口內有3種可能的情況:4個像素均為背景、4個像素均為前景以及4個像素中部分為前景。當出現第1種情況時,雖然最大池化可以保證池化后的像素值仍然可以預測為背景,但是在經過多輪最大池化后該像素值會不斷升高,最終導致原本應該是背景的區域被放大;當4個像素均為前景時平均池化可以保證網絡始終給予這部分特征較大的關注;對于4個像素中大部分為前景或大部分為背景的情況下平均池化可以起到細化邊緣的作用。

圖6 平均池化與最大池化的比較Fig.6 Compare with Avgpooling and Maxpooling

需要特別指出的是,在下游網絡的第1層并沒有像其他層一樣將掩碼圖像作為門控信號來對解碼路徑中的特征圖進行調整,因為本文認為未經池化壓縮的原始圖像具有最豐富的語義信息,壓縮再擴張操作反而會損失這些上層語義信息,因此選擇將上游網絡的輸出經Sigmoid激活函數之后直接與輸入圖像進行乘操作,這樣可以確保在保留圖像的高級語義信息的同時又保證模型將注意力集中在目標區域。

2.4 子空間通道注意力

為了使編碼器傳送給解碼器的特征空間包含更多的遠程依賴,同時盡可能減少計算量,本文參考了Saini等人(2020)方法將完整的特征圖劃分為互斥的多個子空間,以及DANet(Fu等,2019)的通道注意力的思想,在下游網絡的跨越連接中加入了輕量級子空間通道注意力模塊ULSCAM,對特征圖分塊計算注意力后進行信息匯總,這種方法可以用極少的附加參數和計算來捕捉更為復雜的跨通道信息交互。

具體結構如圖7所示:對于拆分后的每個子空間,讓注意力機制分別學習各個子空間的注意力圖,以減少整體計算上的空間和通道冗余,同時對不同層的特征圖用劃分子空間求注意力圖的學習方式實現了多頻率的特征表示,這種方法對高頻率區域內細微細節的精細化分割效果更為理想,計算為

(4)

(5)

圖7 輕量級子空間通道注意力模塊Fig.7 Ultra-lightweight subspace channel attention module

3 實驗與分析

3.1 實驗數據集

如表1所示,本文使用了兩種不同設備采集的帶有ground truth的結腸息肉數據集。Kvasir-Capsule數據集(Oktay等,2018)是包含了13類標記異常的開放數據集,在腸胃醫學專家的幫助下從膠囊內窺鏡采集到的44 228個視頻幀中存在55個包含息肉的幀,Jha等人(2021)對這55個視頻幀進行了標注并提供了息肉的位置信息,將其整合成了KvasirCapsule-SEG數據集并開放于醫學圖像分割和定位任務。CVC-ClinicDB數據集(Bernal等,2015)來自西班牙巴塞羅那臨床醫院,由31個結腸鏡檢查視頻中提取的612幅息肉圖像和專家手工標注的ground truth組成,用于醫學圖像處理中的分割實驗。

表1 實驗中用到的醫學分割數據集Table 1 The biomedical segmentation datasets used in our experiments

上述兩個結腸息肉數據集是由不同設備提取得到的,在成像方面具有明顯差異性,膠囊內鏡采集到的圖像呈現出魚眼鏡頭所特有的凸面效果,而常規腸胃鏡的圖像則更為舒展。為了研究提出的網絡在跨設備圖像上的分割效果,將上述兩種數據集混合,組成了一個全新數據集CVC-KC,分辨率統一到336×336像素。

3.2 評價指標

為了評估本算法的性能,選擇Dice相似指數(DSC)、精確率(precision)、召回率(recall)以及均交并比(mIoU)作為評價指標,分別定義為

(6)

(7)

(8)

(9)

式中,真陽性TP(true positive)是將正樣例(息肉部分)正確分類的像素點數;真陰性TN(true negative)是將負樣例(背景區域)正確分類的像素點數;假陽性FP(false positive)是將負樣例錯誤分類的像素點數;假陰性FN(false negative)是將正樣例錯誤分類的像素點數。Dice系數是一種集合相似度量函數,其中|X∩Y|表示矩陣X和矩陣Y之間的交集元素的個數,|X|和|Y|分別表示兩矩陣元素的個數,k表示分類數,在本文的實驗中均為1。所有評價指標值均介于0-1,指數越接近1表示分割結果與ground truth的相似度越高。

3.3 實驗環境及參數設置

模型基于Pytorch框架,在一塊NVIDIA RTX 1080Ti上進行訓練,為了充分利用GPU設備的顯存資源,將圖片的大小統一設置為224×224像素,batch-size設置為8。為了擴充訓練集采取了隨機旋轉、翻轉和移位的數據增強策略,對于每一個數據集將其順序完全打亂并隨機劃分為6 ∶2 ∶2的3個互斥組分別作為訓練、驗證和測試集;對于混合數據集CVC-KC,使用CVC-ClinicDB數據集中全部圖像進行4 ∶1的劃分作為訓練集和驗證集,并在KvasirCapsule-SEG數據集上測試模型的分割性能,并交換二者位置進行第2次實驗,標記為數據集KC-CVC。使用Adam優化器,為了得到最佳分割結果,將初始學習率設置為3E-4,學習率衰減定義為

(10)

M=E×T

(11)

式中,bl代表基礎學習率,G表示當前已訓練的batch總數,M是訓練輪數與訓練集大小的乘積,E則代表訓練的epoch數,T代表訓練集大小。

3.4 損失函數

Dice loss是Milletari等人(2016)在V-Net中提出的loss函數,計算為

(12)

式中,矩陣X和矩陣Y分別代表進行對比的矩陣。由于對正負樣例不均衡的場景有著不錯的性能且訓練過程中更注重對前景區域的挖掘,因此Dice loss非常適合于小目標、樣本不均衡場景下的語義分割,廣泛采用于醫學圖像分割任務中。但它也存在著訓練loss不穩定、曲線混亂等缺點,因此本文將二分類交叉熵損失函數BCE loss(BL)和Dice loss(DL)混合使用,最終loss函數定義為

Loss=BL×w+DL×(1-w)

(13)

式中,變量w代表二分類交叉熵損失函數的權重,默認大小設置為0.5。

3.5 實驗結果

3.5.1 消融實驗

為了度量文中提出的所有組件的有效性,進行兩組對比實驗來證明雙重U-Net結構(U2 Net)、掩碼注意力門(mask attention gate,MAG)和ULSCAM都可以在一定程度上提高息肉分割的性能。

本文提出的多種改進策略結果如表2所示,可以發現,當采用級聯U-Net并將第1個網絡的輸出作為注意力權重對第2個網絡的輸入進行改進后,各項性能指標均取得了較大的提升,尤其是在CVC-ClinicDB數據集上,準確率和召回率的提升都達到了2%以上;進一步將上游網絡的輸出經過平均池化之后對下游網絡解碼器部分的特征矩陣進行權重分配后對召回率的提升最為顯著,接近4.5%,同時在KvasirCapsule-SEG數據集上也取得了提升;因此本模型相較于U-Net在分割性能上具有明顯優勢。

3.5.2 ULSCAM中子空間數的影響

為了探究ULSCAM模塊中劃分子空間數對模型分割性能的影響,本文做了進一步實驗:分別將特征圖劃分為子空間數1(不劃分)、2、4、8和16且其他條件相同的情況下的各項指標??梢灶A測的是,雖然在劃分次數小時會損失一定的精度,但當劃分數逐漸增大之后,本模塊可以得到更好的跨通道信息交互,結果如表3所示。

3.5.3 以權重圖為基礎的門控注意力機制的作用

為了探究以上游網絡生成的權重圖對下游網絡的解碼過程中添加門控注意力機制的影響,本節對消融實驗中的MAG進行分析。相較于Attention U-Net,MAG機制的實現是通過附加的注意力權重圖譜,上游網絡的輸出結果經過歸一化處理后會形成預測圖的注意力分布矩陣,用來表示每個像素的重要度,這個重要度是根據圖像的目標學習出來的,權重矩陣也可以通過反向傳播來學習。通過權重矩陣作為門控機制在下游網絡的解碼器部分進行乘操作可以引導模型側重目標區域。通過消融實驗表2可以看出:相較于傳統分割網絡U-Net,添加了MAG模塊的U2 Net網絡在DCS、mIoU以及Recall上均有明顯提升,證明了本文提出的MAG模塊的有效性。

表2 本文改進方法的比較Table 2 Comparison of segmentation algorithms of proposed improved strategies /%

表3 ULSCAM中子空間數的比較Table 3 Comparison of the number of subspaces in ULSCAM /%

3.5.4 不同算法的結果比較

為了更好地驗證算法的有效性,將本文算法在CVC-ClinicDB數據集和KvasirCapsule-SEG數據集上與近幾年提出的SOTA算法及一些經典的語義分割算法進行比較,包括U-Net、ResUNet、ResUNet-mod(Zhang等,2018)、ResUNet++(Jha等,2019)、SFA(Fang等,2019)、PraNet(Fan等,2020)、TransFuse(Zhang等,2021)、HarDNet-MSEG(Huang等,2021)、FANet(Tomar等,2022)、UACANet(Kim等,2021)、MSBNet(Wang等,2021)、NanoNet(Jha等,2021),如表4和表5所示。

表4 CVC-ClinicDB數據集不同算法的結果Table 4 The results of different algorithms in the CVC-ClinicDB dataset

表5 KvasirCapsule-SEG數據集上不同算法的結果Table 5 The results of different algorithms in the KvasirCapsule-SEG dataset

通過表4可以看出,本文算法在DSC、mIoU、precision以及recall的結果均優于早期的經典算法和近期提出的SOTA算法,同時與選擇作為baseline的U-Net算法相比提升顯著。通過表5可以看出,本文方法在膠囊胃鏡數據集上的DSC、mIoU、precision等3個指標上都優于其他算法,雖然在recall指標上不如ResUNet,但是兩者的差距僅有0.2%,仍然可以說明本文算法的有效性。為了更直觀地說明本文算法的有效性,圖8展示了選用數據集的可視化分割結果??梢园l現,相較于U-Net,本文的算法可以更精確地分割息肉本體以及邊緣部分,這也證明了算法的有效性。

3.5.5 混合數據集的結果

為了檢測提出方法對使用不同設備捕獲到的圖像的性能,本文混合使用了CVC-ClinicDB和KvasirCapsule-SEG兩個數據集,組成了一個全新的數據集CVC-KC。在實驗階段交替使用兩個數據集中的全部圖像作為訓練和驗證集,并將訓練后的模型在另一個數據集上進行測試,表6和表7分別顯示了混合數據集在兩個數據集上的測試結果??梢钥闯?,相較于傳統的圖像分割算法,本文方法在各項性能指標上都能夠帶來較大的效果提升,尤其是表6中本文模型在DSC上的漲幅接近17%,同時在召回率上的提升超過了20%。同樣的情況也可以在表7中看到,本文模型在膠囊胃鏡圖像上訓練后再在腸鏡圖像上的預測結果仍然優于baseline,但由于訓練集的圖像數量、橢圓/圓形的ground truth與測試集差距較大以及KvasirCapsule-SEG數據集圖像較不均衡等因素,性能提升的差距并沒有表6中所展示得那么顯著,這一類問題可以通過使用更大數據集或者數據增強的方式得到改善。在圖9展示了跨數據集分割的可視化結果,前兩行是先在CVC-ClinicDB上訓練后在KvasirCapsule-SEG上測試的結果對比;后兩行是先在KvasirCapsule-SEG上訓練后在CVC-ClinicDB上測試的結果對比。

圖8 分割結果的可視化Fig.8 Visualization of segmentation results((a)input;(b)ground truth;(c)U-Net;(d)ours)

表6 使用CVC-ClinicDB作為訓練集的交叉數據集的結果Table 6 The cross-dataset results using CVC-ClinicDB as the training set

表7 使用KvasirCapsule-SEG作為訓練集的交叉數據集的結果Table 7 The cross-dataset results using KvasirCapsule-SEG as the training set

圖9 跨數據集分割結果的可視化Fig.9 Visualization of cross-dataset segmentation results((a)input;(b)ground truth;(c)U-Net;(d)ours)

通過表6和表7的對比不難發現:在表6中使用了612幅圖像的CVC-ClinicDB數據集進行訓練后模型在KvasirCapsule-SEG數據集上的分割結果相較于傳統的U-Net網絡在DSC、mIoU、precision以及recall等4項指標上分別取得了16.73%、20.82%、2.11%以及21.88%的顯著提升,具有明顯的臨床應用前景;而在表7實驗中使用KvasirCapsule-SEG數據集進行訓練的實驗中雖然相較于U-Net有效果提升但是整體指標過低而不具備臨床應用的可行性。這是由于KvasirCapsule-SEG數據集中圖像數量限制的同時又與測試集圖像存在明顯差異性的原因,但參考圖8仍可以看出本文模型在腸胃鏡圖像上方的息肉分割相較于U-Net在整體以及邊緣處理上仍然具有明顯優勢,因此可以認為本文方法在臨床應用特別是跨采集設備的圖像分割方向上雖然具有應用前景但仍然需要足夠數量的圖像作為訓練集才能保證分割結果的性能。

這進一步證明了在大多數結腸息肉數據集特別是采集設備跨度較大的情況下本文模型仍然具有一定的魯棒性,從醫師的角度來看,模型對于多種應用環境下的臨床輔助診斷具有一定的準確性,為降低實際應用中的漏報率提供了一種可行的解決方案,對提高大腸癌篩查策略具有潛力。

3.5.6 模型顯著性測試

顯著性驗證(significance test)作為判斷兩個乃至多個數據集之間是否存在顯著性差異以及差異是否明顯的方法應用于各種研究領域,在統計學中,顯著性檢驗是“統計假設檢驗”的一種。對本文算法與baseline進行基于DSC數據的顯著性測試,以排除本文實驗所得數據的偶然性。

圖10顯示了兩個數據集的指標對比,其中粉色箱型圖為KvasirCapsule-SEG數據集,亮藍色箱型圖為CVC-ClinicDB數據集。兩組DSC數據不滿足正態分布,因此使用非參數檢測的Wilcoxon符號秩和檢驗方法求得兩數據集對應顯著性差異概率值分別為0.006 835 937 5和0.037 927 273 453 751 33,均小于設定水準0.05,可以認為本文模型與baseline具有顯著性差異。

4 結 論

本文針對結腸息肉分割中性能提升和邊緣分割模糊這一問題提出了一種改進的基于編—解碼結構模型,創新性地利用上、下游兩個分割網絡分別負責生成掩碼注意力權重圖以及語義分割,通過反向傳播不斷更新上游可訓練網絡生成的權重,在下游網絡的解碼步驟中使用生成的注意力圖對特征圖進行權重配置,并通過平均池化壓縮權重圖使其能夠適配不同分辨率的特征圖,同時融合了輕量化通道注意力模塊,將下游網絡跨越連接部分的權重圖分割為多個子空間,針對各個子空間分別施加通道注意力,再將子空間合并,最終實現多頻特征下的跨通道注意融合。然后進一步在CVC-ClinicDB和KvasirCapsule-SEG兩個數據集上進行獨立實驗,并將兩個數據集融合驗證了本文模型在跨設備數據上的魯棒性,實驗數據證明其性能優于很多經典醫學圖像分割網絡以及近期的SOTA網絡。因此本文模型的優點就是相較于其他網絡可以更好地細分割息肉的邊緣部分并更能成功分割息肉中扁而小的部分,這些恰恰是經驗不足的內鏡醫師容易忽略的。

圖10 本文方法與baseline對比的箱型圖結果Fig.10 Box plot results comparison between ours and with baseline((a) DSC;(b) mIoU;(c) precision;(d) recall)

此外,該模型不需要任何的后處理,這也是本文方法的一大優勢,然而仍然需要一系列臨床試驗才能證明模型在應用上的有效性,希望這項工作能夠在未來的臨床應用中為更多內鏡醫師提供工作上的便利,為保障我國人民的身體健康做出貢獻。

猜你喜歡
池化息肉注意力
基于高斯函數的池化算法
讓注意力“飛”回來
卷積神經網絡中的自適應加權池化
胃息肉會發展成胃癌嗎?
你真的了解子宮內膜息肉嗎
基于卷積神經網絡和池化算法的表情識別研究
用于手寫漢字識別的文本分割方法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
ER、PR、Ki-67在絕經后子宮內膜息肉中的表達
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合