基于深度學習的繼發性肺結核CT輔助診斷模型構建及驗證

2024-03-04 12:21劉雪艷王芳李春華唐光孝鄭嬌鳳王惠秋李玉蕊王佳男舒偉強呂圣秀

中國防癆雜志 2024年3期

劉雪艷王芳李春華唐光孝鄭嬌鳳王惠秋李玉蕊王佳男舒偉強呂圣秀

結核病是由結核分枝桿菌感染引發的傳染病,是全球范圍內僅次于新型冠狀病毒感染的導致人類死亡的第二大單一傳染病[1]。作為結核病高負擔國家,我國結核病防控的任務十分艱巨[2]。2022年全球登記報告的結核病患者中,肺結核占比高達83%[2],而繼發性肺結核又是肺結核中最為常見的一種類型[3-4],若能實現對繼發性肺結核的早期識別和診斷,及時進行治療,將對結核病的防控具有重要意義。

影像學檢查在結核病的診療中具有重要價值。在臨床實踐中,放射科醫師可通過對影像的分析和比較進行繼發性肺結核的診斷。然而,基于影像學的診斷嚴重依賴醫生的經驗與水平。但繼發性肺結核的影像學表現具有多樣性與多變性,在臨床診斷中極易與其他肺部感染相混淆,且是一個耗時且主觀的過程。醫生根據CT圖像進行疾病診斷時,不可避免地會出現主觀和判斷不一致的情況[5-6]。但隨著人工智能的不斷發展,大數據樣本驅動下的深度學習模型可以從深層次挖掘出目標特征,實現醫學影像數據的快速、精準識別,有望用于繼發性肺結核的早期識別。相比于一般神經網絡的分類器直接依賴于網絡最后一層的特征,DenseNet網絡可以綜合利用淺層復雜度低的特征,得到一個泛化性能更好的分類模型[7]。由于該網絡加強了特征傳遞,同時減輕了模型梯度消失的問題,可以在一定程度上減少模型參數量[8]。故本研究主要采用DenseNet算法構建繼發性肺結核的輔助診斷模型,并評估其臨床應用價值,同時采用基礎網絡模型(BasicNet)進行對比分析。

對象和方法

一、研究對象

1.資料收集:采用回顧性研究方法,收集2018年12月至2023年4月在重慶市公共衛生醫療救治中心接受胸部CT平掃的2004例患者的病例資料,根據納入和排除標準分別歸入肺部正常組[544例;女性331例,男性213例;年齡32(37～39)歲]、普通肺部感染組[526例;女性142例,男性384例;年齡57(45～71)歲;包括細菌性肺炎119例,真菌性肺炎103例,病毒性肺炎304例]和繼發性肺結核組[934例;女性302例,男性632例;年齡52(34～65)歲]。

2.診斷、納入和排除標準:(1)肺部正常組:納入標準為年齡18周歲及以上;雙肺發育正常,無任何病變。排除標準為圖像質量不符合診斷要求。(2)普通肺部感染組:納入標準為年齡18周歲及以上;滿足肺部細菌、真菌或病毒感染的診斷標準[8-10];患者開始治療前首次拍攝過胸部CT攝片。排除標準為患者合并繼發性肺結核或肺部腫瘤性病變;肺部殘留有非活動性肺結核的增殖灶、纖維灶或鈣化灶;圖像質量不符合診斷要求者。(3)繼發性肺結核組:納入標準為年齡18周歲及以上;參照《WS 288—2017肺結核診斷》[11]滿足肺結核的診斷標準,且肺結核分型中包含繼發性肺結核;患者開始抗結核治療前首次拍攝過胸部CT攝片。排除標準為患者合并其他肺部病變者;圖像質量不符合診斷要求者;人類免疫缺陷病毒感染者。

二、研究方法

1.研究流程:根據上述標準,搜集入選者的胸部CT平掃圖像,構建基于深度學習算法的自動分類模型。針對研究對象的CT平掃圖像,首先進行肺野分割,進一步基于肺野信息,實現正常肺部、普通肺部感染和繼發性肺結核患者的分類鑒別,見圖1。

圖1 技術路線圖

2.CT掃描參數:采用通用電氣公司Optima CT 680 Expert 64排螺旋CT機、東軟集團股份有限公司32排螺旋CT機、東芝公司Aquilion16排螺旋CT機進行胸部平掃檢查?；颊卟扇⊙雠P位,在深吸氣后屏氣狀態下,從肺尖掃描至肺底肋膈角水平。管電壓120 kV,管電流采用自動毫安秒。層厚及層距均為5 mm。每層重建為512×512矩陣,平面內像素空間分辨率為0.312 mm×0.312 mm～0.977 mm×0.977 mm。利用肺窗(窗位/窗寬:―600 HU/1500 HU)將每次掃描的CT值(亨氏單位)插值處理為1 mm×1 mm×5 mm,以減少掃描間層厚等變化。

3.肺野分割:所有圖像均通過上海聯影智能醫療科技有限公司獨立研發的科研平臺(uAI Research Portal,版本:20230515)進行處理。利用已經建立的深度學習模型VB-Net自動分割左側肺野和右側肺野區域。在筆者團隊前期的工作中,模型的平均Dice相似系數(Dice similarity coefficient,DSC)高達0.989,平均DSC標準差為0.004[12]。該模型在其他與肺部感染相關的研究中也有被應用[13-14]。然后,由具有10年及以上胸部影像診斷經驗的醫師對自動分割的圖像進行復核,對分割不準確的區域進行修訂。

三、深度學習模型構建與驗證

70.0%的研究對象(1402例)作為訓練集,進行肺部正常組、普通肺部感染組和繼發性肺結核組的深度學習分類模型構建,網絡模型選擇BasicNet和DenseNet。其中,基礎對比模型BasicNet由4個Conv-Batch Normalization(BN)-Rectified Linear Unit(Relu)塊組成。BN對神經網絡層輸出值進行歸一化,使得輸出層滿足均值為0,方差為1的標準正態分布。Relu激活函數將輸入特征映射到一個非線性特征空間,實現深度特征的復雜表達。研究主要使用的DenseNet模型是一個密集卷積神經網絡,由4個密集連接塊堆疊構建而成。密集連接塊之間由1×1的卷積和池化層過渡連接,用于壓縮參數量,降低計算復雜度。在N層DenseNet網絡中,存在N(N+1)/2個連接層。BasicNet和DenseNet的末端均帶有soft-max分類層,用于實現正常肺部、普通肺部感染和繼發性肺結核的分類。在訓練過程中,兩個模型的超參數設置如下:spacing=0.7×0.7×5.0,crop size=64×64×64,采樣方法為fixed_length,box center random=5×5×5,采用圖像翻轉、旋轉、平移等方式進行數據增強處理,學習率=0.0001,損失函數為Focal loss。將30.0%的研究對象(602例)作為獨立測試數據集應用于模型,并通過ROC曲線、校準曲線,以及敏感度、特異度、準確率、精確率等指標,評估模型分類性能。

在獨立測試集中,隨機挑選50例患者,讓放射科3位不同年資[低年資(5年診斷經驗)、中年資(10年診斷經驗)、高年資(15年以上診斷經驗)]的醫生對該批患者做出自己獨立的診斷,然后選擇性能最優的人工智能模型與每位醫生的診斷結果進行比較。

四、統計學處理

結果

一、模型性能評估

1.預測性能評估:采用ROC曲線、校準曲線和混淆矩陣評估BasicNet模型和DenseNet模型的預測性能。結果顯示,相較于BasicNet模型(平均AUC為89.4%),DenseNet模型(平均AUC為92.1%)對肺部正常組、普通肺部感染組和繼發性肺結核組有更高的預測性能。見圖2～7。

圖2 BasicNet模型ROC曲線

圖3 BasicNet模型校準曲線

圖5 DenseNet模型ROC曲線

圖6 DenseNet模型校準曲線

圖7 DenseNet模型混淆矩陣

2.分類性能評估:采用AUC、敏感度、特異度、準確率、精確率和F1值評估BasicNet模型和DenseNet模型的分類性能。結果顯示,DenseNet模型在三組研究樣本中,分類性能高于BasicNet模型,其平均AUC、敏感度、特異度、準確率、精確率和F1值分別為92.1%和89.4%、79.7%和74.0%、89.4%和86.6%、86.2%和83.3%、77.8%和73.9%、78.5%和74.0%。在DenseNet模型中,正常肺部、普通肺部感染和繼發性肺結核在測試集中分類性能良好,且正常肺部最容易被準確識別,其AUC、敏感度、特異度和準確率分別為96.7%、92.9%、90.8%和91.4%。普通肺部感染的診斷精確率最低,敏感度、特異度和準確率分別為68.8%、90.2%和84.7%,其中35例被誤判為繼發性肺結核,13例被誤判為正常肺部。繼發性肺結核的診斷敏感度雖然較正常肺部低,但其AUC、特異度、準確率、精確率和F1值均大于80%。見表1。

表1 2種模型的評價指標 (%)

二、人工智能模型與放射科醫生診斷性能的比較

使用獨立測試集,選擇性能最優的人工智能模型與3位放射科醫生的診斷性能進行比較。圖8展示了DensNet模型和3位放射科醫生對三分類任務的平均敏感度、特異度和準確性。圖9～11分別展示了DenseNet模型和3位放射科醫生在正常肺部、普通肺部感染和繼發性肺結核組的診斷性能。在以上3個指標中,DenseNet模型的診斷性能優于低年資(5年資)醫生,差異無統計學意義(準確性分別為90.7%和89.1%,P=1.000,Kappa=0.677);與中年資(10年資)醫生的診斷性能相當,有較高的一致性(準確性分別為90.7%和92.2%,P=0.371,Kappa=0.746);與高年資(15年資)醫生的診斷水平差異無統計學意義,且有極好的一致性(準確性分別為90.7%和95.3%,P=1.000,Kappa=0.819)。工作經驗越長的放射科醫師對普通肺部感染和繼發性肺結核的診斷準確率越高,但中、高年資醫生對普通肺部感染患者識別的敏感度僅分別為75.0%和83.3%,見圖10。

圖8 DenseNet模型和3位放射科醫生對三組整體評價的對比結果

圖9 DenseNet模型和3位放射科醫生對肺部正常組評價的對比結果

圖10 DenseNet模型和3位放射科醫生對普通肺部感染組評價的對比結果

圖11 DenseNet模型和3位放射科醫生對繼發性肺結核組評價的對比結果

討論

近10年來,隨著深度卷積神經網絡的興起、大數據的累積和計算能力的大幅提升,人工智能技術在醫學圖像領域的應用不斷發展。國內外研究機構紛紛利用深度學習技術投入到醫療影像的研究,使計算機輔助診斷系統的結構更為簡化,診斷更為精確,并已在不同領域取得了初步成果[15-17]。這些良好的結果和成功的實踐為人工智能在醫學成像中輔助疾病診斷的臨床應用奠定了基礎。

本研究選擇BasicNet和DenseNet兩種不同的深度學習算法,構建不同的模型來實現正常肺部、普通肺部感染和繼發性肺結核的3種分類的研究。研究發現,DenseNet模型較BasicNet模型對肺部正常組、普通肺部感染組和繼發性肺結核組有更高的預測性能,平均AUC為92.1%。且DenseNet模型在三組研究樣本中,平均AUC、敏感度、特異度、準確率、精確率和F1值分別為92.1%、79.7%、89.4%、86.2%、77.8%和78.5%,各項指標均高于BasicNet模型。從DenseNet結果看,正常肺部最容易被準確識別,普通肺部感染的診斷精確性最低。這可能是因為肺部正常組中的人群肺部無病灶存在,更容易被機器學習和掌握;而普通肺部感染組包括細菌性肺炎、真菌性肺炎及病毒性肺炎等不同疾病的患者,該組患者的影像學表現更為復雜,故機器學習的難度最大,診斷的精確率最低。而繼發性肺結核組的診斷精確率雖然較肺部正常組低,但其AUC、特異度、準確率、精確率和F1值均大于80%。故本研究結果表明,在運用人工智能實現正常肺部、普通肺部感染和繼發性肺結核三者的分類方面,DenseNet模型更值得進一步深入挖掘和開發。

近幾年,關于肺結核檢測的人工智能相關研究也在不斷發展。早期研究主要集中在利用胸部X線攝片(簡稱“胸片”)實現對肺結核的診斷和篩查方面[18-19]。曾有多名學者運用不同的機器學習算法,以提高胸片在肺結核智能輔助診斷中的準確率[20-22]。但在實際工作中,胸片的臨床診斷準確率通常低于胸部CT,因CT掃描在識別早期實質性病變、檢測縱隔淋巴結腫大和確定結核病活動性方面都比胸片更敏感。隨著CT技術的普及和公共數據庫的建立,現在越來越注重CT影像的人工智能處理。2020年,Ma等[23]采用U-Net分割算法實現二維CT層面的活動性肺結核病灶分割,通過后處理方式(患者CT圖像連續4個層面被檢測為活動性肺結核病灶,且層與層之間的重疊大于30%),判斷活動性肺結核組和非活動性肺結核組。他們的研究數據包括肺結核、肺炎和正常肺部3類患者,共846例。雖然在測試集得到較高的AUC值,但存在一些缺點,不利于應用推廣,包括:(1)該研究沒有評估活動性肺結核病灶分割的精確性,不知道U-Net分割模型的最終效能;(2)將三維CT圖像拆分成二維圖像進行處理,在圖像分割任務中,直接忽略層與層之間的影響;(3)雖然研究納入了肺炎患者,但最終分類結果中,將肺炎患者和肺部正常組歸為一類,不清楚肺炎和肺結核分類的差異,大幅降低了分類模型的臨床實用性。而本研究采用分類的方法,可對疾病的種類進行預測,具有一定的臨床應用價值。最新研究報告顯示,馬依迪麗·尼加提等[24]利用960例活動性肺結核患者和980例非活動性肺結核患者的病例資料構建的深度學習框架(3D ResNet-50)顯示,肺結核CT輔助診斷模型在區分活動性和非活動性肺結核方面,與經驗豐富的放射科醫生水平接近,可作為活動性肺結核檢測及鑒別診斷的快速輔助診斷工具。本研究與馬依迪麗·尼加提等[24]的研究均使用深度學習的方法進行分類模型構建,該方法可將患者的完整影像進行學習,不僅可以充分挖掘圖像中的信息,還可以節約勾畫時間及避免研究結果受勾畫者主觀因素的影響。但與DenseNet相比,ResNet對訓練數據需求較高,且模型深度較深、復雜度較高、參數量大,需要更多的計算資源和存儲空間,不利于實際臨床應用部署。相較于Wang等[25]開發的非結核分枝桿菌肺病和肺結核的3D-ResNet分類模型,本研究基于DenseNet模型構建的正常肺部、普通肺部感染和繼發性肺結核三分類模型,任務更難、樣本量更大、分類性能更優。雖然吳樹才等[26]研究發現,基于深度學習的卷積神經網絡肺結核CT輔助診斷模型有較高的診斷敏感度和準確率,可輔助影像科醫師進行肺結核診斷工作,但其納入的研究對象均為肺結核確診患者,未納入普通肺部感染者,故其得出的結果屬于符合性驗證,而本研究納入正常肺部、普通肺部感染和繼發性肺結核患者,研究對象較前更為全面。

為進一步驗證模型的性能,本研究使用獨立測試集,將性能最優的DensNet模型與3位不同年資放射科醫生的診斷結果進行比較。研究發現,在三分類任務的平均敏感度、特異度和準確率中,DenseNet模型的診斷性能優于低年資醫生,與中年資醫生的診斷性能相當,有較高的一致性;與高年資醫生的診斷水平差異無統計學意義,且有極好的一致性,Kappa=0.819。以上結果表明,DenseNet模型在識別繼發性肺結核等疾病方面,與放射科中年資醫師的診斷水準相當,有望作為繼發性肺結核的輔助診斷工具在臨床中推廣應用。研究還發現,工作經驗越久的醫師診斷準確性越高,但即使中、高年資醫生也較難準確識別普通肺部感染患者,其敏感度分別為75.0%和83.3%。由此可見,普通肺部感染的診斷是放射科醫生臨床工作的一個難點,仍需要醫務人員不斷地加強學習和提升診斷能力。

本研究不足之處在于,雖然本中心患者來自川渝地區的各區縣,具有一定區域代表性,但研究對象來自單中心,可能會存在“過擬合”的現象。研究隊列中未包括人類免疫缺陷病毒感染者和兒童等特殊人群。因此,建議在今后的研究中,可擴大研究對象的覆蓋范圍和人群,采用川渝地區以外的多中心數據進行深入研究,這將對研究的進一步升華具有重要意義。

綜上所述,DenseNet 模型較BasicNet模型在繼發性肺結核的診斷識別中,各項指標表現更為優良,DenseNet 模型的診斷性能與放射科中年資醫師的診斷水平相當,故該模型將來有可能成為繼發性肺結核患者的早期篩查工具,從而實現該病的早發現和早治療,為結核病的防控工作添磚加瓦。

利益沖突所有作者均聲明不存在利益沖突

作者貢獻劉雪艷:研究設計、模型構建、論文撰寫;王芳:模型構建、統計學分析;李春華、唐光孝、鄭嬌鳳和舒偉強:數據搜集、分析;王惠秋、李玉蕊和王佳男:模型性能評估、論文修改;呂圣秀:研究設計

基于深度學習的繼發性肺結核CT輔助診斷模型構建及驗證

對象和方法

一、研究對象

二、研究方法

三、深度學習模型構建與驗證

四、統計學處理

結 果

一、模型性能評估

二、人工智能模型與放射科醫生診斷性能的比較

討 論