?

多尺度融合增強的縱膈淋巴結超聲彈性圖像分割

2024-03-20 10:32周奇楊行田傳耕唐璐惠雨
中國圖象圖形學報 2024年3期
關鍵詞:解碼器編碼器分支

周奇,楊行,2,田傳耕,唐璐*,惠雨

1.徐州醫科大學醫學影像學院,徐州 221004;2.中國礦業大學信息與控制工程學院,徐州 221116;3.徐州工程學院信息工程學院(大數據學院),徐州 221018

0 引言

肺癌是全球發病率和死亡率最高的惡性腫瘤之一,其治療方式的選擇與分期密切相關,而判斷淋巴結是否受累是明確癌癥分期的關鍵因素之一(Detterbeck 等,2016)。大量研究(Gu 等,2017;王虹 等,2018;張芳 等,2019)表明相較于傳統超聲成像,支氣管鏡下超聲彈性成像能夠更準確反映縱膈淋巴結信息,以不同顏色來反映淋巴結組織的硬度信息,具有更高的診斷價值。

超聲彈性成像(ultrasound elastography,UE)是一種新型的超聲診斷技術,近年來得到快速發展。其利用動態成像技術對組織硬度進行測量(張芳等,2019),通過分析不同組織硬度差異,實現對病灶組織的無創診斷。目前,可用于內鏡下的超聲彈性成像檢查大都采用應變力彈性成像技術。該技術作用原理是:在受到相同外力作用的情況下,較軟組織與較硬組織發生的形變量不同。一般情況下,彈性系數小的組織受到刺激后,位移幅度較大,組織變形程度較大,圖像呈綠色;而彈性系數較大的組織受到刺激后,位移幅度較小,圖像呈藍色;而硬度介于兩者之間的組織,圖像會呈紅藍或紅綠色。由于惡性淋巴結比良性淋巴結硬度更大,通過測量病灶內藍色面積的比例,可以評估該病灶硬度,進而鑒別良惡性病變情況(Sun 等,2017)。因此,基于超聲彈性圖像對縱膈淋巴結進行精準定位和分割成為肺癌診療的重要步驟之一。

目前在支氣管超聲彈性圖像研究中,通常需要專業醫生手動分割淋巴結,該過程不僅耗時費力,且由于醫生個體間差異,對同一幅圖像的分析和評估容易產生主觀偏見或遺漏重要特征,從而造成一定的分割誤差。因此,研究超聲彈性圖像中淋巴結自動分割的方法具有重要意義。

隨著計算機視覺技術的不斷發展,語義分割在醫學圖像領域的應用變得越來越重要。將人工智能技術與醫學圖像相結合,實現智能輔助診斷已經成為一種不可避免的趨勢,并且在醫學領域中已經涌現出許多典型的應用案例。在圖像分割領域的研究中,全卷積神經網絡(fully convolutional networks,FCN)(Shelhamer 等,2017)是最為經典的分割模型,該模型針對卷積神經網絡(convolutional neural network,CNN)在圖像精細分割中存在的局限性,用卷積層替換CNN 中的全連接層,以此獲取圖像中各像素的分類結果,從而實現目標分割。U-Net 網絡(Ronneberger 等,2015)采用編碼器—解碼器的對稱U 型結構進行圖像分割。其每一層中所引入的跳躍連接能夠在解碼器中結合編碼器輸出的中間特征,可以很好地適應小樣本數據集,以進行較快、有效的分割,因此廣泛應用于醫學圖像分割領域。Attention U-Net(Oktay 等,2018)在U-Net 的跳躍連接部分添加了注意力門(attention gate,AG)機制,重新調整了編碼器的輸出特征,將注意力權重傾向于目標器官區域,提高了圖像分割精度。

Dense-UNet(Cai 等,2020)優化了U-Net 的編碼器結構,使用密集卷積網絡實現特征提取,完成了多光子活體細胞圖像的分割任務?;谕ǖ雷⒁饬εc空間注意力機制改進的用于肝纖維化區域的自動化分割 U-Net(liver fibrosis region segmentation network based on spatial and channel attention mechanisms,LFSCA-UNet)(陳弘揚 等,2021)將高效通道注意力(efficient channel attention,ECA)(Wang 等,2020)引入到跳躍連接部分,優化解碼器模塊的輸入,實現了肝纖維化區域的分割。IterNet(Li 等,2020)將U-Net結構進行串聯,通過分析不同大小U-Net 串聯結構,實現視網膜圖像中的眼底血管分割。

最近,研究者將多尺度感知和Transformer 引入到U-Net 中以獲得圖像特征信息,如Chen 等人(2021)提出的Trans-UNet 實現了腹部多器官和心臟分割;Polat(2022)使用修改后的DeeplabV3+對肺部電子計算機斷層掃描(computed tomography,CT)圖像進行自動分割,效果顯著;Lin 等人(2023)思考了卷積神經網絡、Transformer 和傳統算子之間的關系,提出了CTO(convolution,Transformer,and operator),在多個醫學圖像分割數據集上都達到了較優的效果;Bi 等人(2023)將Transformer 與可變形卷積充分結合,實現了對甲狀腺結節的精準分割。

但是,多數研究都是針對灰度圖像,僅采用單通道數據作為網絡輸入,而基于超聲彈性圖像的三通道數據分割研究較少?,F有研究(劉羽 等,2022)引入多種骨架網絡測試U形模型結構在支氣管超聲彈性圖像數據集的分割性能。同時在瓶頸層設計了上下文提取器,在跳躍連接部分使用AG 結構(Oktay等,2018)抑制圖像中的不相關信息,提出了注意力上下文編碼器網絡(attention context encoder network,ACE-Net),并測試模型結構變化對分割效果的影響。遺憾的是,該模型忽略了編碼器中間層的通道特征,僅使用了軟注意力機制進行特征糾正。同時在模型解碼階段,使用傳統的解碼器結構,不足以完全將彈性圖像的特征進行恢復,對縱膈淋巴結的分割效果有待提升。

一方面,傳統的超聲圖像存在對比度低、噪聲大,導致結節邊緣模糊、邊界變化異常等問題;另一方面,添加了“偽”彩的超聲彈性圖像雖然可以輔助醫生定位結節的大致位置,但對于傳統超聲圖像的問題并沒有較好的改善,同時也引入了更大的挑戰。具體來說,“偽”彩覆蓋了原本縱膈淋巴結的紋理信息,導致淋巴結的實際邊界更加難以捕捉,尤其對于小目標縱膈淋巴結的精準分割來說更具挑戰性。

因此,本文結合注意力機制和空洞卷積,對支氣管超聲彈性圖像中縱膈淋巴結的分割進行深入研究,主要貢獻包括:1)設計密集卷積網絡作為模型編碼器,充分提取超聲彈性圖像的各通道特征;2)設計4 種結合通道注意力機制和空洞卷積的解碼器結構并測試其分割性能;3)引入選擇性內核網絡作為跳躍連接,進一步探討模型結構調整對分割效果的提升;4)使用梯度類別激活映射圖(gradient-weighted class activation mapping,Grad-CAM)算法可視化模型不同階段的類激活熱力圖,探討模型作用機制;5)設計的結合注意力機制的多尺度融合增強縱膈淋巴結超聲彈性圖像分割U-Net(attention-based multiscale fusion enhanced ultrasound elastic images segmentation network for mediastinal lymph node,AMFEUNet)與經典模型對比,取得了更好的分割效果。

1 AMFE-UNet

本文模型主要包含以下部分:密集卷積編碼器、多尺度融合增強解碼器、多分支注意力跳躍連接,結構如圖1 所示。首先將具有三通道的超聲彈性圖像輸入網絡并利用所設計的密集卷積編碼器對圖像進行多階特征提??;其次使用選擇性內核網絡作為跳躍連接對編碼器產生的中間特征進行再次提??;然后,融合多分支空洞卷積,并結合通道注意力以增強解碼器的特征恢復;最后使用輸出層將圖像轉化成二值圖。下文詳細描述了圖中各結構。

圖1 AMFE-UNet結構圖Fig.1 AMFE-UNet structure diagram

1.1 密集卷積編碼器

Dense-UNet(Cai 等,2020)將密集 卷積網 絡(dense convolutional network,DenseNet)(Huang 等,2017)作為U-Net 的編碼器,該網絡相較于原始U-Net的編碼器結構具有密集連接的深層卷積運算,其特征提取能力更強,對通道特征更敏感??紤]到超聲彈性圖像能夠定位淋巴節的位置并提供豐富的通道信息,因此本文基于DenseNet 對通道特征的獨特優勢設計出了AMFE-UNet的編碼器結構。

本文引入在ImageNet-1K 數據集(Deng 等,2009)上完成預訓練的DenseNet,并將網絡結束部分的全連接層剔除。最終該編碼器由一個Stem 特征提取器、4 個DenseBlock 和下采樣運算組成。具體來說,Stem 包含一個卷積核大小為7 × 7 的卷積層、批歸一化層(batch normalization,BN)、整流線性激活函數(rectified linear unit,ReLU)和最大池化層。DenseBlock 用以實現更細致的特征提取,且隨網絡加深其包含的密集層(dense layer,DL)數量不同,4 個DenseBlock 分別含有6、12、24、16 層,如圖1 所示。每一個DL均使用跳連接的方式進行結合,將每個階段的特征進行通道融合,保證模型對全局特征的權衡。下采樣運算由一個卷積核為1 × 1 的卷積層和平均池化層構成,每經過一個下采樣運算,特征圖的尺寸和通道數都減少一半,以實現特征降維,減少網絡參數量。本文輸入的超聲彈性圖像大小為3 × 256 × 256,在經過所設計的DenseNet 編碼器后,最終輸出特征為1 024 × 8 × 8。

1.2 多尺度融合增強解碼器

超聲彈性圖像的顏色信息雖然存在一定的關聯性,但也覆蓋了原本縱膈淋巴結的紋理信息。因而本文提出了一種多尺度融合的增強解碼器結構,可以從不同尺度和范圍對結節的邊界和紋理信息進行建模。其主要由空洞卷積(Yu 和Koltun,2015)和高效通道注意力(Wang等,2020)組成??斩淳矸e可以在提升感受野的情況下極大地減少參數量,而ECA可以針對每次提取到的特征,從通道維度上對相關通道信息進行增強,對不相關信息進行抑制,使其能夠更好地與空洞卷積綜合使用。

1.2.1 ECA

高效通道注意力機制可以有效提高神經網絡性能并減少計算量和參數量。該注意力機制主要是針對SE(squeeze and excitation)(Hu等,2018)做出的優化,如圖2 所示。其中,C、W和H分別表示特征圖的通道數、寬和高。這兩種結構的主要不同點在于對通道特征的提取方式上,SE 使用線性層對通道特征先進行降維運算,而后進行升維操作,而ECA 使用自適應一維卷積操作直接得到最終的通道權重。由于通道注意力中通道特征存在局部周期性,導致SE降維運算對網絡學習通道間的關系存在負面影響,而ECA 的跨通道交互可以降低網絡復雜度且不損失性能(Wang等,2020)。

圖2 通道注意力模塊Fig.2 Channel attention blocks((a)SE structure diagram;(b)ECA structure diagram)

如圖2(b)所示,ECA 首先使用全局平均池化層(global average pooling,GAP)和維度轉換得到1 ×C大小的特征圖,然后計算出一維卷積運算中自適應卷積核的大小k,具體為

式中,C為特征圖的通道數,γ和b均為超參數,文中采用其默認設置(Wang 等,2020),|·|odd為取最鄰近奇數運算。因此,經過自適應一維卷積操作后的特征可表示為

式中,F為輸入特征,Fc為輸出特征是卷積核大小為k的自適應一維卷積。然后利用sigmoid激活函數獲得通道權重,并將輸入特征圖與權重相乘得到ECA的輸出,具體為

1.2.2 多尺度融合

Yu 和Koltun(2015)提出的空洞卷積(dilated convolution),可以在不增加參數和計算量的前提下提升感受野的大小,幫助解碼器解決圖像分辨率較低、信息丟失帶來的挑戰,從而更好地捕捉輸入特征的上下文信息??斩纯臻g金字塔池化(atrous spatial pyramid pooling,ASPP)是空洞卷積在深度學習模型中很好的應用案例(Chen 等,2018),主要解決了分割任務中上下文信息的關聯問題,更好地利用了圖像中全局和局部特征進行分割。ASPP 通過多個并行卷積分支在不同尺度上增加模型感受野大小,每個卷積分支采用不同空洞卷積擴張率以捕捉圖像中不同尺度的特征,并將處理后的特征進行融合獲得最終輸出結果。

本文基于空洞卷積的思想改進了ASPP 以實現特征的多尺度融合。一方面,為了保證不丟失編碼器所提取的醫學圖像特征,本文在解碼器中所使用的空洞卷積核大小固定為3 × 3(Polat,2022);另一方面,考慮到模型的解碼器在解碼階段特征圖尺寸不斷增加,為充分發揮空洞卷積的優勢,本文針對每個解碼器階段的空洞卷積擴張率進行了調整。為了保證經過空洞卷積運算前后的特征圖尺寸不改變,在確定卷積核大小為3 × 3時,其每個解碼器的卷積參數設置如表1 所示。其中,i表示空洞卷積的分支序 號,分別為分支1(branch1,Br1)、分 支2(branch2,Br2)和分支3(branch3,Br3),具體結構如圖1 中解碼器模塊所示。分支4(branch4,Br4)為池化分支,包含一個最大池化層和上采樣層,用來保留特征圖中最顯著信息。

表1 不同解碼器階段的卷積參數Table 1 Convolution parameters in different decoder stages

通常情況下,在卷積操作后使用歸一化運算能夠加快模型訓練速度,并提高模型的泛化性能。原始的ASPP 中所使用的批歸一化(BN)運算在同一個批次上考慮了數據方差和均值等信息,對批次的變化較敏感。而層歸一化(layer normalization,LN)對單個數據的所有通道做歸一化,其優勢在于批次變化對模型的訓練幾乎沒有影響。因此,本文在解碼器中利用LN 替換BN,并使用ReLU 作為激活函數。同時,將空洞卷積與ECA 結合,通過不同的拓撲結構,設置了4 個不同的解碼器結構,如圖3所示。

圖3 解碼器結構設計圖Fig.3 Decoder structure design diagram

根據圖1、表1 和圖3,以Decoder-A 解碼器結構為例說明如下:其在圖1 的Decoder1 中,輸入特征圖為Fx1,經過4 個分支操作,前3 個分支是卷積核為3 × 3 的空洞卷積運算,空洞卷積擴張率參照表1 可知分別為3、6、9,并保留填充運算保證卷積前后的特征圖尺寸不變。Br4 分支為最大池化操作,用于保留最顯著的特征。將4 個分支輸出的特征按位相加進行融合操作,并輸入ECA中,其計算為

式中,i指的是解碼器結構中的分支序號。Fx1為解碼器輸入特征,Fd1為解碼器輸出特征。通過對相同的特征圖進行多尺度處理,可以提取出更加豐富的特征信息。使用按位相加的操作對不同分支上的結果進行綜合后添加ECA,可以進一步放大顯著特征,擴大顯著特征與非顯著特征之間的差別,有利于提升模型的學習能力。

1.3 多分支注意力跳躍連接

由Li 等人(2019)所提出的選擇性內核網絡(selective kernel network,SK-Net)是一種多分支注意力卷積神經網絡模型。選擇性內核模塊根據輸入信息的多尺度自適應調整感受野大小,從而提高模型的性能。本文基于DenseNet 所設計的編碼器,具有強大的特征提取能力,其每個階段產生的中間特征有著十分重要的意義。因此,本文引入SK-Net 作為跳躍連接優化中間特征傳遞,使編碼器和解碼器的特征以更好的方式進行結合,具體結構如圖4所示。

圖4 跳躍連接網絡結構圖Fig.4 Skip connection network structure diagram

SK-Net 主要流程包含3 個階段。第1 階段利用3 個不同卷積操作對傳入的特征進行處理,得到每個支路的初步特征Sj,具體為

式中,x表示編碼器輸出的中間特征,也是選擇性內核網絡的輸入。j是支路序號,Convj(·)表示在j支路上的卷積運算,每個支路上卷積核的大小依次為3 × 3、5 × 5、7 × 7。

第2 階段將Sj進行按元素相加,利用全局平均池化層、線性層和應用在通道維度上的softmax 函數提取每個支路上的通道權重Wj,具體為

式中,Sum(·)add表示對特征圖進行逐元素相加,該操作前后特征維度不變。GAP(·)表示全局平均池化層。FC′j(·)表示用共同線性層對上一步提取的權重維度進行壓縮,再使用j支路上的線性層對權重維度進行恢復。Wj表示j支路上得到的通道權重。

第3階段將每個支路上提取的通道權重Wj和該支路上得到的初步特征Sj進行元素相乘,得到每個支路上經過通道注意力后的特征圖Tj,具體為

將各個支路上的特征圖Tj進行逐元素相加,得到最終特征,即

綜上,密集卷積編碼器的中間輸出x,包含了豐富的圖像特征,其向下傳入到下一層編碼器中,同時又經過多分支注意力卷積神經網絡對特征進一步提取,將提取后的結果V與解碼器的輸出進行通道拼接,有助于保留更多的細節和局部信息,減少x在深層網絡中的信息丟失,從而有助于更準確地圖像分割。

2 實 驗

2.1 數據預處理

在南京市第一醫院選取了行超聲內鏡引導下的經支氣管針吸活檢術(endobronchial ultrasoundguided transbronchial needle aspiration,EBUSTBNA)檢查的患者206例,包括男性患者141例和女性患者65 例。共收集到263 幅淋巴結超聲彈性圖像,并由經驗豐富的放射科醫生進行手工勾畫。這些圖像中包含了102幅良性樣本和161幅惡性樣本。實驗中所使用的超聲彈性圖像的尺寸統一調整為256 × 256 像素,將數據平均分成6 份,選擇其中5 份共219 幅圖像用做訓練,而另外一份共44 幅圖像用做測試。

本文通過六折交叉驗證的方法進行多次實驗,以充分評估模型的性能。為了增加模型的魯棒性,本文采用在線數據增強方法,在模型訓練迭代時,對讀取到的數據以0.5 的概率進行垂直翻轉并進行隨機角度旋轉(-30°或30°)。

2.2 實驗參數設置

本文所設計的模型基于Python 3.7 和Pytorch 1.12 實現。圖像處理工作站搭載一個Intel i9-13900K CPU 和兩張具有24 GB 顯存的NVIDIA RTX 4090 GPU。模型訓練過程中的初始參數由Pytorch默認初始化方式得到,并采用Adam 優化器對網絡參數進行更新。具體地,初始學習率設為0.000 1,權重衰減系數為0.1,學習率每90輪迭代衰減一次,模型迭代訓練次數共190次。

使用Dice(Milletari 等,2016)作為損失函數,具體為

式中,It為超聲彈性圖像分割的真實掩膜,Ip為模型預測的掩膜。

2.3 評價指標

為全面展示模型的分割效果,本文使用Dice 系數、交并比、靈敏度、精確度、特異度和豪斯多夫距離指標以多角度評價AMFE-UNet。其中Dice 系數(Dice coefficient)是一種用于度量兩個樣本集合相似度的指標,在評價圖像分割性能時,Dice系數可表示為

式中,TP(true positives)、FP(false positives)、TN(true negatives)、FN(false negatives)依次表示真陽性、假陽性、真陰性、假陰性的像素點集合。由于像素點分類過程中不計算背景區域的真陽性,因此Dice系數適合于評估分割目標大小不一的任務。

95%豪斯多夫距離(Hausdorff distance 95 percentile,HD95)是兩個點集間距離的一種定義形式,具體為

式中,dtp表示從It點集到Ip點集中的最遠距離的95%分位數,dpt表示從Ip點集到It點集中的最遠距離的95%分位數。該指標對異常值有更強的魯棒性,更加適用于生物醫學圖像的分割任務。

以上指標中,除HD95 外,其余指標的取值范圍都是[0,1],且越接近1,模型分割效果越好。HD95沒有固定取值范圍,但其值越小,分割效果越好。

2.4 實驗結果

2.4.1 解碼器消融實驗

以DenseNet 作為編碼器,結合圖3 所示的4 種不同解碼器結構,并使用跳躍連接得到4 個模型,分別命名為DU+A、DU+B、DU+C 和DU+D。其中,DU代表Dense-UNet。為測試這4 種解碼器結構的性能,進行了如下消融實驗,結果如表2所示。

表2 不同解碼器的消融實驗Table 2 Ablation experiments with different decoders

從表2可以看出,所設計的4種解碼器對模型均有一定的提升作用,但側重點不同。具體來說,使用Decoder-A 作為解碼器結構的模型在Dice、交并比和靈敏度上均有最優的結果且對于其余指標也有一定程度的提升效果。當使用Decoder-C作為解碼器時,模型在精確度、特異度和HD95 上均達到了最優,分別為86.639%、97.625%和8.234 7。由于HD95 對分割邊界的關注度更高,因而該指標的提升表明使用Decoder-C作為解碼器時,模型對感興趣區域邊界的感知能力較其他3 種結構有一定提升??偟膩碚f,4 種模型在Dice、交并比、精確度、特異度和HD95 上均有提升,每個指標平均提升0.2%~1.4%,在HD95 距離上平均縮減近0.8。證明使用空洞卷積結合通道注意力機制設計的4 種解碼器結構,相對于基礎模型都有著很強的競爭力。

2.4.2 跳躍連接消融實驗

為了進一步探討選擇性內核網絡作為模型跳躍連接對分割效果的提升,結合表2 得到的解碼器結構消融實驗結果,選擇傳統卷積結構、各分支結果進行數值相加后添加ECA 的結構(Decoder-A)、各分支結果進行通道拼接后添加ECA 的結構(Decoder-B)和各分支添加ECA 后進行通道拼接的結構(Decoder-C),以此作為消融設置中各模型解碼器,形成的模型分別命名為DU+S、DUS+A、DUS+B 和DUS+C,實驗結果如表3所示。

表3 跳躍連接的消融實驗Table 3 Ablation experiments with skip connections

從表3 可以看出,使用SK-Net 作為Dense-UNet的跳躍連接(DU+S)在Dice、交并比、精確度和特異度上平均提升0.901%,其中提升效果最為明顯的是精確度,提升1.413%。證明SK-Net 作為模型的跳躍連接能夠實現對中間特征的二次提取和增強,為模型解碼器部分對特征的恢復提供了更多信息,增強了模型的分割效果。

同時,結合表2可以看出,使用SK-Net作為DU+A、DU+B和DU+C模型的跳躍連接,進一步增強了模型的分割效果。具體來說,DUS+A 模型相較于DU+A模型在5個指標上都有著一定程度上的提升,其中精確度提升效果最明顯,達到86.729%,其在HD95上也將距離從8.561 9縮短至8.182 3。DUS+B模型相較于DU+B 模型在Dice(86.589% vs 86.258%)、交并比(77.411% vs77.030%)、靈敏度(89.934%vs89.489%)和HD95(8.1170 vs 8.7640)上有著明顯提升。

理論上,使用多分支注意力卷積神經網絡作為模型的跳躍連接對模型中間特征進行深入挖掘,使用多尺度融合增強結構作為模型解碼器對不同階段的特征進行恢復,在模型的整體結構上有著相輔相成的效果。對比表3 不同模型的結果,選擇DUS+A模型和DUS+B 模型作為本文設計的最終模型,即將各分支結果進行數值相加后添加ECA 作為解碼器(圖3 Decoder-A)和將各分支結果進行通道拼接后添加ECA 作為解碼器(圖3 Decoder-B),分別命名為AMFE-UNet A和AMFE-UNet B。

2.4.3 模型對比實驗

為進一步驗證本文設計的AMFE-UNet 在超聲彈性圖像數據集上的有效性,從定量和定性的角度與U-Net(Ronneberger 等,2015)、Att-UNet(Oktay 等,2018)、Seg-Net(Badrinarayanan 等,2017)、Deep-LabV3+(Polat,2022)、Trans-UNet(Chen 等,2021)、U-Net++(Zhou 等,2018)、BPAT-UNet(Bi 等,2023)、CTO(Lin 等,2023)和ACE-Net(劉羽 等,2022)進行對比實驗,結果如表4和圖5所示。

表4 模型對比實驗Table 4 Comparison experiments with different models

圖5 不同模型分割結果圖Fig.5 Segmentation results of different models((a)original images;(b)ground truth;(c)U-Net;(d)Seg-Net;(e)Att-UNet;(f)UNet++;(g)Trans-UNet;(h)DeeplabV3+;(i)BPAT-UNet;(j)CTO;(k)ACE-Net;(l)AMFE-UNet A;(m)AMFE-UNet B)

從表4 可以發現,本文設計的AMFE-UNet A 在Dice、精確度和特異度上得分最高,AMFE-UNet B 在交并比、靈敏度和HD95 上效果最好。具體來說,AMFE-UNet A 在Dice 指標上分別比U-Net、Seg-Net、Att-Unet、U-Net++、Trans-UNet、DeepLabV3+、BPATUNet、CTO 和ACE-Net高1.989%、1.173%、0.925%、1.122%、2.634%、0.974%、0.693%、0.509% 和0.541%。在精確度上比ACE-Net 提高1.502%(86.729% vs85.227%)。在特異度上相較于9 個對比模型平均提高了0.531%。AMFE-UNet B 更加注重分割結果中真陽性樣本的比例。在交并比和靈敏度上相較于ACE-Net 分別提升0.858%(77.411% vs 76.553%)和0.506%(89.934% vs89.428%),相較于其余對比模型,平均提升分別為1.683% 和1.124%。在HD95 上AMFE-UNet B 將距離從U-Net的10.386 縮短至8.117,與其余模型對比平均縮短的距離為1.359,模型的分割效果提升明顯。由于本文對U-Net 的各部分都進行了優化,導致AMFEUNet 和Att-UNet、BPAT-UNet、CTO 等模型一樣,相較于基礎模型有著更好的性能和更大的參數量。但值得肯定的是,AMFE-UNet 在計算量僅略高于U-Net的情況下,其分割效果仍優于其他分割模型。

從圖5 可以看出,本文設計的兩種模型對不同尺寸的縱膈淋巴結均有較好的分割效果。當分割目標尺寸較小時(圖5 樣本1),U-Net、Seg-Net、Att-UNet、BPAT-UNet、CTO 和ACE-Net 的分割結果相較于真實情況偏小,只有UNet++和AMFE-UNet可以較為準確地分割出目標結果。當分割目標尺寸適中且邊界結構較為簡單時(圖5 樣本2),Trans-UNet、U-Net、Att-UNet和UNet++的結果存在明顯誤分割情況,其中Trans-UNet 的分割效果不理想,從表4 中也可以得到相同的結論,而CTO 在結節右下角也有明顯的漏分割情況。當分割目標尺寸適中且邊界結構相對復雜時(圖5 樣本3),Att-UNet、UNet++和Trans-UNet 的結果存在明顯的漏分割情況,對目標分割區域右下突出區域沒有準確地分割,僅有AMFE-UNet模型在整體效果上得到較準確的分割結果。當分割目標尺寸較大時(圖5 樣本4),Seg-Net和Trans-UNet在目標分割區域的右下凹陷處也有著明顯的漏分割情況,整體分割結果偏小,U-Net、DeepLabV3+和BPAT-UNet的分割結果在右下區域存在著明顯的誤分割情況,只有CTO、ACE-Net和AMFE-UNet在整體分割結果上較為準確。

將本文所設計的AMFE-UNet 和ACE-Net 進行全方位比較,可以發現本文所提出的結合注意力機制的多尺度融合增強分割模型AMFE-UNet 效果明顯優于ACE-Net。具體來說,在解碼器結構和跳躍連接結構的消融實驗中,僅使用各分支結果進行數值相加后添加ECA 作為解碼器的模型(DU+A 模型)和僅使用分支結果進行通道拼接后添加ECA 作為解碼器的模型(DU+B 模型)在全部6 個評價指標上均優于ACE-Net(如表2)。僅使用SK-Net 作為跳躍連接的模型(DU+S 模型)只在靈敏度上略低于ACENet,其余5 個評價指標也均優于ACE-Net,如表3 所示。在最終AMFE-UNet 的兩個子型中,也只有AMFE-UNet A 在靈敏度上低于ACE-Net,其余指標也均優于ACE-Net,如表4所示。

從圖5的分割結果中可以明顯看出,ACE-Net的分割結果相較于真實結果偏小,而AMFE-UNet 的分割結果可以較好地匹配真實結果。在樣本1 中,ACE-Net 的分割結果僅為真實結果的一部分,存在明顯漏分割情況,而AMFE-UNet 的分割結果和真實結果具有更優的形態相似度。在樣本3 中,AMFEUNet 分割結果的右下部分有明顯的突出情況,與真實結果形態契合,而ACE-Net 的分割結果在這一部分表現不明顯,分割結果略小于真實情況。結合以上對比分析,充分表明AMFE-UNet 對縱膈淋巴結的超聲彈性圖像分割具有較好的效果,凸顯出其在醫生利用超聲彈性圖像對肺癌診療具有的潛在臨床應用價值。

2.4.4 模型可視化分析

為了進一步探索本文提出的AMFE-UNet 模型作用原理,使用Grad-CAM(Selvaraju 等,2017)對模型的解碼階段進行分別展示。選擇U-Net、Att-UNet、Seg-Net、Trans-UNet、BPAT-UNet、CTO、ACENet、AMFE-UNet A 和AMFE-UNet B 共9 種模型,在解碼器的Decoder2、Decoder3 和Decoder4(如圖1)3 個階段進行展示。同時,為了便于比較分割結果,選擇圖5中樣本2的分割過程進行可視化處理,結果如圖6。

圖6 不同模型的類激活熱力圖Fig.6 Class activation maps for different models((a)U-Net;(b)Seg-Net;(c)Att-UNet;(d)Trans-UNet;(e)BPAT-UNet;(f)CTO;(g)ACE-Net;(h)AMFE-UNet A;(i)AMFE-UNet B)

從圖6 的整體分析可知,模型底層階段的特征提取能力決定了模型高層階段的特征恢復情況。具體來看,9 個模型在Decoder2 階段,都可以大致定位到真實分割區域,在Decoder3階段,進一步以上一階段得到的感興趣區域繼續向外擴張。在Decoder4階段,本文提出的兩個模型AMFE-UNet A 和AMFEUNet B 將感興趣區域從內部轉向邊界,在整體分割結果上達到了較好效果。而其余5 個模型依舊進一步地向外擴張感興趣區域,導致由模型底層階段定位的目標區域所決定的模型高層階段的分割結果不夠精確。

其次,通過橫向對比可以發現本文模型在底層階段對目標分割區域的定位更加準確。在Decoder2 和Decoder3 階段,AMFE-UNet 模型感興趣區域中紅色面積比Seg-Net、Att-UNet、Trans-UNet、CTO 和ACE-Net 感興趣區域紅色面積大,同時紅色面積的分布更加均勻,與目標分割區域契合度很高。

最后,也可以從圖中分析出傳統模型分割效果不佳的原因,即模型底層階段對特征的定位能力或模型高層階段對特征細節的糾正能力不足。具體來說,ACE-Net 在模型瓶頸層借助上下文提取器進一步提取高級語義信息,導致解碼器階段對高級語義信息的恢復存在一定難度,在Grad-CAM 圖中表現的形式就是在Decoder2 和Decoder3 階段中感興趣區域較小。而U-Net 模型在Decoder2 階段對目標分割區域定位能力較準,但在Decoder3 和Decoder4 階段,其感興趣區域幾乎沒有變化,表明模型高層階段對特征細節的糾正效果不佳。而本文設計的AMFE-UNet 在模型底層和高層階段都表現出較好效果,對感興趣區域的整體分割結果最好。

同時,本文針對模型出現分割失誤的案例進行了可視化分析,其類激活熱力圖如圖7。從圖中可以明顯發現,當結節表面顏色極為復雜時,結節本身紋理信息不僅被顏色信息覆蓋,同時還受到不同顏色區域交叉的干擾,模型出現了誤分割的情況。具體來說,在樣本5(圖7 第1 行)中,AMFE-UNet A 在模型底層特征恢復時,定位區域出現偏差,導致最后模型存在誤分割情況。在樣本6(圖7 第2 行)中,AMFE-UNet 的兩個子型在模型底層都可以較為準確地定位到結節大致位置,但在模型高層卻對結節邊界信息把握得不夠準確,出現誤分割的情況。但是值得肯定的是,針對其他的超聲彈性圖像,本文提出的AMFE-UNet 都有著較好的分割效果,優于主流的分割模型。

圖7 失敗案列的類激活熱力圖Fig.7 Class activation maps for failed cases((a)original images;(b)AMFE-UNet A(Decoder2);(c)AMFE-UNet A(Decoder4);(d)AMFE-UNet B(Decoder2);(e)AMFE-UNet B(Decoder4))

2.4.5 兩種子模型對比

為更加充分探究本文提出的兩種子模型的優勢,對Dense-UNet、AMFE-UNet A 和AMFE-UNet B共3 種模型在訓練集和測試集上的訓練過程進行展示,如圖8所示。

圖8 3種模型的損失曲線圖Fig.8 Loss curves for three models((a)train loss curves;(b)test loss curves)

由于本文模型解碼器和跳躍連接的設計較為復雜,因此AMFE-UNet 模型在訓練過程中有著一定難度。在曲線圖上表現為,訓練前期Dense-UNet 的收斂速度快于AMFE-UNet,其訓練損失曲線位于AMFE-UNet 的訓練損失曲線下方。在約90 個批次后,AMFE-UNet B 的訓練損失曲線到Dense-UNet 的訓練損失曲線的下方,表明模型的學習能力進一步提升。在約170 個批次后,AMFE-UNet A 的訓練損失曲線也達到了Dense-UNet 的訓練損失曲線下方,但沒有達到AMFE-UNet B 的效果。理論上,由于解碼器中各空洞卷積分支的結合方式不同,因此使用Decoder-B 作為解碼器時,模型參數量大于使用Decoder-A 作為解碼器的模型,對數據有著更好的學習潛力。

在測試階段,可以看出本文設計的AMFE-UNet具有最小的收斂值,并且AMFE-UNet B 的模型測試的收斂過程更穩定。當AMFE-UNet 的訓練損失曲線還在Dense-UNet 上方時,AMFE-UNet 的測試損失曲線已經在Dense-UNet 下方,這意味著在相同訓練條件下,AMFE-UNet 對目標分割的能力已經優于Dense-UNet。在第80 個批次之后,AMFE-UNet B 的測試損失曲線位于AMFE-UNet A 的測試損失曲線下方,并且曲線更加平滑,表明AMFE-UNet B 有更好的泛化能力和更強的穩定性。

通過上述分析并結合對比實驗結果可得出,AMFE-UNet B 比AMFE-UNet A 更加適合臨床應用。AMFE-UNet B 和AMFE-UNet A 在定量實驗結果中,僅靈敏度(89.934%vs88.812%)和精確度(85.675%vs86.729%)存在較大差異,其余指標相差不大。在醫學圖像分割任務中,高靈敏度比高精確度的模型更加適合臨床應用,因為該模型可以更好地捕捉到病灶,以減少漏診的風險。因此AMFEUNet B更適用于超聲彈性圖像中縱膈淋巴結的分割任務,對于醫生利用超聲彈性圖像對肺癌診療具有潛在的臨床應用價值。

3 結論

超聲彈性圖像具有豐富的通道信息,能夠對感興趣區域的分割起到一定指導作用,但其對紋理信息的遮蓋也導致了這項任務難以執行。同時,由于縱膈淋巴結組別存在不同,其組間也存在著一定差異,進一步導致分割任務難度增加。因此,本文基于U-Net 框架,設計了基于密集卷積的DenseNet 編碼器,同時結合通道注意力機制ECA 與空洞卷積設計了4 種不同的解碼器。使用多分支注意力網絡作為模型的跳躍連接結構,對編碼器的中間特征和解碼器的輸出特征進行充分融合,提出了結合注意力機制的多尺度融合增強分割網絡AMFEUNet,并且重點討論了其兩種子型。為了驗證本文模型的有效性,進行了充分的實驗,得出以下結論:

1)AMFE-UNet 使用多尺度融合機制和注意力增強機制,增加了模型的穩定性。對比實驗表明,相較于當前主流的分割模型,AMFE-UNet 展現出明顯的競爭優勢。

2)結合了通道注意力機制優化的解碼器和跳躍連接所設計的模型,在模型底層階段更加注重分割區域的定位準確性,增加了模型分割的查準能力。在模型淺層階段更加注重分割區域邊緣的識別,增加了模型的分割查全能力。

3)將空洞卷積分支和池化分支的結果進行通道拼接后添加ECA 作為模型的解碼器,其穩定性和泛化能力更強,對縱膈淋巴結分割具有更高的靈敏度,確保了分割任務中有著較低的漏檢率,對于輔助醫生進行癌癥診療具有重要意義。

本文針對U-Net 框架的各部分進行優化并給出了對應的消融實驗結果,為后續研究U-Net 結構變體對分割效果的提升提供思路。由于評價指標間存在一定的負相關性,所設計的AMFE-UNet B 未能在所有評價指標上均達到最優值。同時,由于對模型各個優化模塊的融合兼容不夠完美,導致模型的參數量和計算量略微增加。因此后續研究將集中在數據搜集、半監督分割任務開展以及模型最優結構分析上,以實現更優秀的分割效果,輔助醫生利用超聲彈性圖像對肺癌進行相關診療。

猜你喜歡
解碼器編碼器分支
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
線圣AudioQuest 發布第三代Dragonfly Cobalt藍蜻蜓解碼器
巧分支與枝
基于FPGA的同步機軸角編碼器
一類擬齊次多項式中心的極限環分支
基于PRBS檢測的8B/IOB編碼器設計
JESD204B接口協議中的8B10B編碼器設計
多總線式光電編碼器的設計與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合