深度學習在甲狀腺疾病診療中的應用與展望

2024-04-08 15:52李昱川張純海

中國實驗診斷學 2024年2期

李昱川,張翼,張純海

(吉林大學中日聯誼醫院甲狀腺外科·吉林省外科轉化醫學重點實驗室·吉林省甲狀腺疾病防治工程實驗室,吉林長春130033)

1956年,JOHN MCCARTHY將人工智能(artificial intelligence,AI)描述為“制造智能機器和科學的工程”,這標志著人工智能的誕生[1]。但直到21世紀初AI才在醫學領域嶄露頭角[2]。甲狀腺疾病的發病率逐年上升,疾病的年輕化趨勢、術中喉返神經及甲狀旁腺損傷風險和術后長期服藥使甲狀腺疾病的診療過程受到越來越多人的關注。由于檢查手段的提高和醫生水平的不同導致的過度診療及漏診和誤診是現今存在的問題。深度學習(deep learning,DL)是AI的一個重要領域,包括傳統的人工神經網絡(ANN)、支持向量機(SVN)和k近鄰法(k-NN)等[3]。DL經典算法包括卷積神經網絡(convolutional neural network,CNN)和生成對抗網絡(generative countermeasuer,GAN)。其中CNN在視覺任務中表現較為出色,廣泛用于分割、分類和檢測任務。DL可以從醫學圖像數據中提取原始圖像像素和相應的標簽作為輸入,并以一般方式自動學習的特征用于分類對象的檢測[4]。目前DL被嘗試用于甲狀腺診療的全過程,已成為近幾年的熱點并積累了一定的成果。本文就深度學習在甲狀腺領域中的應用以及所存在的問題展開敘述。

1 深度學習在甲狀腺疾病診斷中的應用

1.1 深度學習結合超聲識別甲狀腺結節和預測淋巴結轉移

多普勒超聲是診斷甲狀腺疾病的首選。它具有非創傷性、成本低、無放射性等優勢[5],在孕婦和兒童中同樣適用。一項研究[6]分析評估了超聲診斷預測甲狀腺結節惡性腫瘤的準確性,發現敏感性最高為87%,特異性最高為93%。然而,超聲作為一種主觀性和經驗性極強的檢查方法,由于醫生經驗水平的不同,在臨床中往往會出現過度診療或漏診誤診的情況。

近幾年DL在超聲中的應用越來越廣泛。DL可以獲取圖像的特征,顯著提高醫學圖像的識別和預測能力。一項研究[7]納入了8339例患者共18049張圖片做訓練集,開發ThyNet模型并用驗證集訓練用以鑒別甲狀腺結節的良惡性。結果顯示僅用ThyNet的受試者工作特征曲線下面積(area under curve,AUC)(0.992[95%CI0.910～0.934])顯著高于專業醫生的AUC(0.893[95%CI0.834～0.844];P<0.0001),ThyNet輔助下將專業醫生的綜合AUC從無ThyNet診斷時的0.837提高到0.875(P<0.001)。CHEN等[8]搜集了 1127個結節的30338個超聲圖像,通過對YoloV5模型的訓練和測試,識別甲狀腺超聲中的鈣化等成分,效果也優于專業醫生(平均AUC為0.8241 VS 0.6050)。

術前對可疑淋巴結的判斷影響患者的術式和預后。LEE等[9]收集了812個已被病理證實的淋巴結超聲圖像開發了一種計算機輔助系統以期幫助提高淋巴結轉移診斷的準確率(準確率83%)。DL在區分甲狀腺髓樣癌(medullary thyroid carcinoma,MTC)和濾泡性腺瘤(follicular thyroid adenoma,FTA)等方面也有一定的效果,ResNet-34模型在測試集中AUROC為0.992(95%CI:0.840～0.970)[10]。除此之外,QI等[11]建立的一種多任務DL模型診斷甲狀腺外侵展示了良好的性能(外部測試集最高AUC為0.88)。

雖然DL在甲狀腺的超聲診療方面取得了不錯的效果,但是很少有模型經過外部驗證和前瞻性驗證。不同的醫院超聲設備型號多樣,清晰度和分辨率不盡相同,取得不錯效果的DL模型當用于其他型號的超聲設備時是否也有相同的效果尚未可知。臨床中甲狀腺超聲是一個動態的視頻診斷模式,而現有的DL訓練模型大多為靜態的照片數據集,訓練出更加貼近臨床場景的模型也許是進一步的發展方向。

1.2 深度學習在甲狀腺細針抽吸活檢中的應用

細針抽吸活檢FNAB(fine needle aspiration biopsy,FNAB)是甲狀腺結節的術前病理診斷首選方法,但FNAB的準確率與取材和切片判讀的醫生水平有關,DL在此方面也發揮出了一定的優勢。PHD等[12]收集了148395張顯微FNAC圖像,通過EfficientNetV2-L模型進行訓練和驗證,并對35個結節進行不明結節的分型預測,結果顯示該模型在識別甲狀腺良性腫瘤和濾泡性甲狀腺癌中效果較好,召回率分別為86.7%和93.9%,而在低分化甲狀腺癌中的效果較差(召回率35.4%)。FNAB的準確率除與病理科醫生有關,還與穿刺者對可疑結節的判斷有關。若取材選擇不當或取材成分不夠,可能會導致重復穿刺,不僅增加患者的痛苦,還會提高感染、出血等風險。JANG等[13]開發了一種FNA-Net的集成模型,可以對未染色的標本進行篩查,降低非診出率,減少穿刺次數。在DRG形勢下,在保證準確率的同時避免重復穿刺,減少醫療投入是迫切要求,DL的廣泛應用,算法及模型優化將會對FNA操作者特別是初學者有較大的幫助。

1.3 深度學習在甲狀腺其他影像中的應用

在甲狀腺其他的診斷性檢查中,AI同樣探索出了各自的道路。包括基于CT建立三維殘差網絡的集成模型對側頸淋巴結轉移的診斷評估(準確率82.3%)[14];通過DenseNet結合CBAM開發的系統在CT圖像上預測淋巴結轉移(內外部測試集AUC值為0.84和0.81)[15];使用MRI開發CNN模型診斷甲狀腺癌(準確率87%)[16];通過單光子計算機斷層掃描圖像開發的Resnet34模型鑒別甲狀腺疾病(外部數據集的準確率為0.931)[17],但由于訓練數據集較小,數據均為同一地區數據,結果可能存在選擇偏移。

2 深度學習在甲狀腺術中的應用

2.1 深度學習與甲狀腺術中快速病理

同FNAB一樣,AI也可用于術中快速病理的診斷。LI等[18]設計了第一個將AI用于術中冰凍切片的自動識別模型,將incretionv3模型進行微調,將最后一個全連接層替換為良性、不確定性和惡性三個輸出,并創造性的基于規則協議來整合補丁的預測形成最終診斷,對259張切片進行驗證顯示良性結節準確率為95.3%(61/64),惡性結節96.7%(148/153),并使得典型結節的識別時間縮短為1分鐘。LIU等[19]開發的Thy-Net-LNM模型可以預測術中快速病理中淋巴結轉移,AUC曲線顯著高于超聲、CT或CT聯合檢查(P<0.01)。

2.2 深度學習在甲狀腺手術中識別喉返神經和甲狀旁腺

喉返神經(recurrent laryngeal,RLN)的保護一直是甲狀腺手術中的重要問題,喉返神經功能完整性已成為評估手術質量的重要因素。RLN的損傷可以導致RLN麻痹引起患者術后聲音嘶啞、飲水嗆咳,嚴重時甚至氣管切開[20-21]。手術中RLN與周圍的血管難以區分或術者注意力集中于其他操作時,往往會誤把RLN損傷?；ㄌK榕等[22-23]通過收集38個經腋窩入路腔鏡手術視頻,采取圖片標記形成數據集,利用PSPNet的語義分割模型進行訓練和驗證,結果使得在交并比(insertion over union,IOU)閾值為0.1時,模型在高中低辨識組中的靈敏度和精確率分別達到100%/92.1%、95.8%/80.2%及81.0%/80.6%。當IOU閾值為0.5時(代表有效定位RLN),靈敏度和精確率分別為92.6%/85.3%、71.7%/60.5%及38.1%/37.9%。后花蘇榕等又收集經胸乳入路甲狀腺腔鏡手術視頻通過D-Linknet模型訓練和驗證,也取得了不錯的效果。GONG[24]等開發了一種可以用于開放手術中識別RLN的DL模型。

除RLN外,甲狀旁腺的保護也是共同關心的問題,甲狀旁腺無絕對固定解剖位置,外觀與淋巴結、脂肪組織、血管球等相似。術中甲狀旁腺的損傷可達30%～60%,損傷后會引起一過性或永久性甲狀旁腺功能低下。雖然納米碳負顯影、近紅外自發熒光等輔助方法的興起在一定程度上降低了其損傷風險[25-26],但效果仍不盡人意,暫時性或永久性甲狀旁腺功能地下仍時有發生。一項研究[27]收集甲狀腺腔鏡手術中存在甲狀旁腺的視頻及圖像,運用Faster R-CNN算法開發了一種人工智能模型使得甲狀旁腺的識別基本達到與外科醫生相近的水平,而且對甲狀旁腺的識別時間比高年資外科醫生早3.83 s(P<0.01),跟蹤時間長62.82 s(P<0.01)。人工智能對視頻識別的難點在于視頻是一個動態的過程,目標位置可能隨著術者的角度和操作變化,且樣本量較少是普遍存在的問題,可能導致結果在實際應用中的不理想。

3 深度學習在甲狀腺術后的應用

AI同樣適用于甲狀腺術后石蠟病理的識別,對Resnet50、Resnext50、EfficientNet、Densenet121模型的訓練也取得了較為滿意的效果(AUC值0.822～0.994)[28]。目前的AI甚至可以對甲狀腺癌的亞型進行自動識別[29]。除病理外,LEE等[30]通過收集114名患者術前和術后聲音變化,根據GRBAS評分評估術后患者的嗓音恢復情況,并建立EfficientNet模型,預測患者術后3個月的嗓音恢復程度(平均AUC值0.822),但是樣本量過少是此研究的局限性,對于永久性損傷的患者可能會導致錯誤的結果。

4 深度學習在甲狀腺其他方面的應用

除甲狀腺良惡性腫瘤及淋巴結的診療,AI還可以用于橋本氏甲狀腺炎和甲狀腺眼病的診治。甲狀腺眼病(thyroasssociated ophthalmopathy,TAO)是一種與甲狀腺功能異常有關的疾病,嚴重時會破壞面容,影響患者的生活質量[31-32]。準確的眼瞼測量對TAO的診斷、分級、手術方式和評估預后非常重要,傳統的測量主要靠醫生手動測量,不僅耗時、低效而且主觀性比較大,對持續測量難以得出穩定的結果[33]。尋求一種科學的、可靠的方法勢在必行。ZHANG等[33]通過收集眼眶CT圖像進行標注后基于U-Net++模型對神經網絡進行訓練,自動識別軸向CT圖像中角膜前表面頂點到眼眶外緣最高突出點的距離和矢狀CT圖像中角膜前表面頂點到眼眶上下緣最高突出點的距離。結果顯示軸向CT圖像的一致性相關系數為0.9895,矢狀CT圖像的一致相關系數為0.9902。YANG等[34]開發了一種“digital mask”的新技術,不僅可以保存眼部疾病診斷的相關特征,還可以在患者面部自動去除可識別患者信息的其他特征。橋本氏甲狀腺炎(hashimoto’s thyroiditis,HT)是甲減的主要原因,ZHANG等[35]通過對106513張超聲圖片進行訓練,開發了HTNet模型,并將該模型用于2個圖像測試集和一個視頻測試集進行HT的識別,結果顯示圖像測試集的AUC值為0.095和0.895,視頻的AUC值為0.888,其準確性也超過了專業醫生(83.2%VS79.8%)。

5 小結

我們探討了DL在甲狀腺疾病診療方面的應用,目前的AI模型在內部測試集中展示了較好的性能,有望在未來幫助醫生輔助診斷,為初學者提供幫助。但是樣本量過少、視頻數據集過少、未加入臨床試驗、樣本均來自同一醫院導致的地域性過強是現今的普遍問題。建立公共數據集也許是一個有效的方法,尤其適用于某些罕見病本身樣本基數小的研究。目前深度學習大多為單一模態的研究,未來應關注處理多模態數據研究的方法。深度學習“黑匣子”特性使得模型具有不可解釋性,此難以選擇最佳數據處理方法、參數、模型架構也是目前廣泛討論的問題,這可能是DL在醫療普及中的限制性因素。但是,人工智能是未來發展的趨勢,相信越來越成熟的DL技術在甲狀腺領域能夠大放異彩。