?

基于機器學習算法建立2型糖尿病患者冠心病輔助診斷模型

2022-04-16 01:57黃浩東劉小株張祖躍向天雨
復旦學報(醫學版) 2022年2期
關鍵詞:轉氨酶冠心病分類

黃浩東 劉小株 龔 軍 劉 杰 張祖躍 向天雨

(1重慶醫科大學醫學數據研究院,2醫學信息學院 重慶 400016;3重慶醫科大學附屬大學城醫院信息中心 重慶 401331)

2型糖尿病是一種胰島素分泌不足、胰島素作用效果差或兩者兼而有之的慢性代謝性疾病。隨著我國居民生活方式的改變與人口老齡化的加劇,截至2019年我國糖尿病患者數量達到了1.16億[1]。盡管對于糖尿病是先于冠心病發生還是在疾病早期并存的問題仍有爭議,但糖尿病引起的氧化應激、晚期糖基化終末產物和慢性炎癥反應對血管內皮功能有害,從而導致心血管疾病的觀點已被廣泛接受[2],這表明2型糖尿病是發生微血管和大血管并發癥的主要危險因素。糖尿病患者發生心血管疾病的相對風險比非糖尿病患者高2~4倍[3-4],冠心病是其中最嚴重的并發癥之一,且與非糖尿病的冠心病患者相比,2型糖尿病患者癥狀往往不典型,可能是因為2型糖尿病患者常伴有嚴重的自主神經功能障礙[5-6],使得機體痛閾值增高,即使發生嚴重心肌缺血,患者心絞痛癥狀也不明顯。冠狀動脈造影術雖是診斷冠心病的金標準,但屬于有創性檢查,且價格昂貴、操作復雜、易產生不良反應,加之2型糖尿病患者痛閾值較高、患病早期無明顯疼痛感,易導致疾病治療延誤。因此,本研究從數據驅動的角度,使用機器學習與統計學相關理論方法,對行冠狀動脈造影術的2型糖尿病患者建立分類模型,以輔助診斷是否合并冠心病。

資料和方法

數據來源數據來源于重慶醫科大學醫學大數據平臺,該平臺匯集了重慶7家醫療中心的電子病歷數據,所有數據均已脫敏。本研究納入2014年1月1日至2019年12月31日入院行冠狀動脈造影術的2型糖尿病患者。納入標準:(1)既往史中有明確的2型糖尿病的患病年數以及控糖史;(2)住院期間行冠狀動脈造影手術且造影記錄保存完整。排除標準:(1)糖尿病急性并發癥、妊娠期糖尿病以及近期(半年以內)確診2型糖尿??;(2)患風濕性心臟病、系統性紅斑狼瘡等自身免疫??;(3)合并癌癥;(4)既往已被診斷為冠心??;(5)嚴重器官衰竭;(6)全身性感染。共計納入944例2型糖尿病患者,根據冠狀動脈造影情況分為2型糖尿病合并冠狀動脈狹窄<50%(T 2DM組,229例)和2型糖尿病合并冠狀動脈狹窄≥50%(T 2DM-CAD組,715例)。T 2DM組中男性94例,女性135例,年齡33~87歲;T 2DM-CAD組中男性422例,女性293例,年齡34~90歲。

指標選取根據冠心病臨床指南和2型糖尿病合并冠心病相關研究[7-9]收集患者行冠狀動脈造影術前的35項指標,包括一般資料(如年齡、性別、合并癥等)和患者入院后第一次檢驗的實驗室指標(如尿常規、肝腎功能、血脂指標等)。

統計學處理采用SPSS 25.0和R3.6.1進行統計分析,缺失指標使用missForest算法填補。采用Matchit包的鄰近匹配(nearest neighbor matching)方法對收集的原數據按照性別、年齡和是否合并高血壓進行傾向評分匹配(propensity score matching,PSM),卡鉗值設定為0.02,T 2DM組與T 2DMCAD組按1∶2匹配。采用KS方法檢驗計量資料的正態性,計量資料以x±s或M(P25,P75)表示,組間比較采用t檢驗或Mann-Whitney U檢驗;計數資料以例(%)表示,組間比較采用χ2檢驗。將兩組間有差異的指標納入逐步向前Logistic回歸(α入=0.05,α出=0.10)分析2型糖尿病合并冠心病的危險因素,具體變量名與賦值如表1所示。P<0.05為差異有統計學意義。

表1 變量賦值Tab 1 Variables and their assignments

機器學習模型構建分類模型構建采用python 3.8.5版本、anaconda3集成開發環境。將數據按4∶1分為訓練集和測試集,訓練集用于分類模型的構建。采用Scikit-learn包分別構建Logistic回歸模型、隨機森林(Random Forest,RF)模型、支持向量(Support Vector Machine,SVM)模型和極限梯度上升(eXtreme Gradient Boosting,XGB)模型。采用 bayes_opt包 中 貝 葉 斯 優 化(Bayesian Optimization,BO)算法分別優化XGB算法5個主要超 參 數 n_estimators、subsample、max_depth、learning_rate和min_chid_weight;RF算法3個主要超 參 數 n_estimators、min_samples_split、max_features;SVM算法2個主要超參數C和gamma以及Logistic回歸超參數C,設定尋找模型最大AUC對建立的4種機器學習模型進行參數優化。

模型評估采用5折交叉驗證法和驗證集評估模型性能,評價指標為準確率、精確率、召回率、F1分數、ROC曲線下面積(AUC),以F1分數和AUC的最大值判斷模型是否為最優模型。

結 果

匹配前后兩組基線資料比較T 2DM-CAD組匹配前后,冠狀動脈單支病變分別為218例(30.49%)和115例(29.56%),冠狀動脈兩支病變分別為199例(27.83%)和101例(25.96%),冠狀動脈三支病變298例(41.68%)和173例(44.47%)。匹配后T 2DM病程、心率、吸煙史、糖尿病腎病差異有統計學意義(P<0.05),其余基線資料差異無統計學意義(表2)。匹配后共篩選出610例患者,其中T 2DM-CAD組389例,T 2DM組221例(表2,圖1)。

表2 匹配前后兩組基線指標對比Tab 2 Comparison of baseline indicators between the two groupsbefore and after matching

圖1 根據PSM篩選與剔除的患者傾向評分分布圖Fig 1 Distribution of patient propensity scores screened and excluded according to PSM

單因素分析結果共納入22項指標,包括4項基線指標和18項檢驗指標。單因素分析結果顯示,兩組間T 2DM病程、心率等20項指標差異有統計學意義(P<0.05),谷氨酰轉肽酶和谷丙轉氨酶差異無統計學意義(表3)。

表3 T2DM組與T2DM-CAD組相關指標的單因素分析Tab 3 Univariate analysis of related indexes in T2DM group and T2DM-CAD group

Logistic回歸分析結果將單因素分析有意義的20個指標進行逐步向前Logistic回歸分析,其中11個變量納入最佳回歸方程(表4)。

機器學習模型結果將表4中的11項指標納入4種機器學習分類模型,并用BO算法優化4種分類模型,結果顯示當n_estimators=2、min_samples_split=10、max_features=69時(表5),無論是5折交叉驗證結果還是單獨的驗證集,RF算法性能最優(表6~7)。圖2為4種分類模型的5折交叉驗證ROC曲線圖。

圖2 4種分類模型5折交叉驗證ROC曲線圖Fig 2 5-fold cross-validation ROC of 4 classification models

表4 2型糖尿病合并冠心病差異性指標Logistic回歸分析結果Tab 4 Logistic regression analysis results of difference index of type 2 diabetes mellitus complicated with coronary heart disease

表5 參數選擇與優化Tab 5 Parameter selection and optimization

表6 4種機器學習模型5折交叉驗證性能評價表Tab 6 Performance evaluation table of 4 machine learning models by 5-fold cross-validation

討 論

本研究對行冠狀動脈造影術的2型糖尿病患者就診數據進行回顧性分析。由于存在選擇偏倚,因此采用“PSM+單因素分析+多因素分析”篩選出2型糖尿病合并冠心病的危險因素,并比較了Logistic回歸、SVM、RF、XGB4種分類算法性能,為2型糖尿病在慢病管理中是否發生合并癥(本文為冠心?。┨峁┝搜芯克悸?,有利于及早啟動冠心病的二級預防,減少致死性心血管事件的發生。

表7 4種機器學習模型在驗證集中的性能評價表Tab 7 Performance evaluation table of four machine learning models in validation set

本研究篩選出的2型糖尿病合并冠心病的11項危險因素,包括心率、吸煙、糖尿病腎病、血肌酐、甘油三酯、脂蛋白a、白蛋白、總膽紅素、谷草轉氨酶、糖化血紅蛋白和尿糖。其中血肌酐、糖尿病腎病、尿糖、谷草轉氨酶在既往研究中報道較少。血肌酐在臨床上常用于評估腎臟功能是否正常,糖尿病腎病是糖尿病最主要的微血管并發癥之一[10],尿糖可作為檢測糖尿病患者早期腎損傷的標志物。高濃度血肌酐、合并糖尿病腎病、出現尿糖現象都表明患者腎功能下降[11],腎功能降低可增加冠心病風險[12-13]。Salim等[14]對非糖尿病新加坡華人進行了一項病例對照研究,發現在傳統危險因素中添加血肌酐可以更好地預測冠心病患病風險,這與本研究相符合。谷草轉氨酶主要分布于心肌細胞中,約80%的谷草轉氨酶作為一種非特異性的細胞內功能酶存在于心肌細胞的線粒體中。心肌損傷時,線粒體受損,谷草轉氨酶顯著升高[15-16]。因此,谷草轉氨酶可以反映心肌細胞損傷的嚴重程度。研究表明谷草轉氨酶與冠心病及其嚴重程度呈正相關,可以將該指標納入各種冠心病風險預測模型[17-19]。而在本研究中谷草轉氨酶為2型糖尿病合并冠心病的獨立危險因素,說明對于2型糖尿病患者,谷草轉氨酶依然可以作為鑒別冠心病的一種生物標志物。而其余的7項危險因素,包括心率、吸煙、甘油三酯、脂蛋白a、白蛋白、總膽紅素、糖化血紅蛋白,在2型糖尿病合并冠心病的研究報道中多見,與本研究的結論相似[7,20-24]。

雖然利用機器學習模型對冠心病進行疾病診斷已有較多研究[25-27],但都存在以下缺點:(1)冠心病起因不同,應分人群研究;(2)對照組與研究組同質性不高;(3)對照組缺少冠心病風險評估,而患者做過冠狀動脈造影術、冠狀動脈CT成像等,冠心病評估準確性較高。本研究基于冠狀動脈造影術選取糖尿病患者群,根據造影結果分為兩組,同質性高,在一定程度上解決了以上缺點。本研究也是國內首次從機器學習的角度判斷2型糖尿病患者是否發生冠心病的綜合性研究。在機器學習參數調優中,只能看到模型的輸入和輸出,所以很難通過求導和凸優化的方法來選擇模型最佳超參數。以往通常是通過經驗來選擇超參數,然而這種方式往往得不到性能最優的機器學習模型。BO算法[28]可以很好地解決該問題,其思想為使用貝葉斯網格概率模型來顯式反映變量之間的依賴關系及可行解的分布,具體步驟為利用先驗知識逼近未知函數的后驗分布從而調節超參數。XGB算法[29]是以CART回歸樹模型為基分類器的一種提升學習算法,是當前比較前沿的基于boosting思想的集成學習算法。SVM算法[30]的目的是尋找一個超平面對樣本數據進行分割,然后轉換為凸二次規劃問題來求解,并且SVM算法在處理線性和非線性數據的小樣本條件下具有良好的學習能力。LR算法使用Sigmoid函數作為預測函數。輸入變量x通過線性函數輸出變量y,然后輸出變量y通過Sigmoid函數轉換為帶標簽的結果,有著計算速度快、可解釋性好、易于擴展和實現的特點。RF算法由決策樹作為基分類器,是一種結合了Bagging集成學習理論和隨機子空間方法的集成學習算法[31]。以上4種分類算法在目前疾病風險預測與疾病診斷中運用最多。在本研究中,優化后的RF模型(5折交叉驗證:AUC=0.811,測試集:AUC=0.810)分類性能優于優化后的Logistic回歸模型(5折交叉驗證:AUC=0.763,測試集:AUC=0.707)、SVM模型(5折交叉驗證:AUC=0.789,測試集:AUC=0.702)與XGB模型(5折交叉驗 證:AUC=0.751,測 試 集:AUC=0.709),而Logistic回歸模型、SVM模型和XGB模型3者分類性能相差不大。RF算法具有分類精度高、運算速度快、魯棒性好等優點。在一些樣本量和指標數與本研究相似的研究中,RF算法的分類性能表現為最優[32-33],與本研究結果相似。

本研究存在一定的局限性:首先,MissForest算法對混合型缺失數據插補后為優良數據的缺失極限是缺失值<30%[34],因此本研究未納入缺失值>30%的指標(如BMI、血清C肽)。其次,本研究為回顧性臨床研究,且模型缺少外部驗證,結果需要進一步驗證。最后,本研究建立的模型召回率較低,臨床應用有一定的局限性。

綜上,本研究基于2型糖尿病患者就診數據,篩選出11項冠心病危險因素,并基于危險因素建立風險分類模型,研究結果得出貝葉斯優化后的RF算法具有較好的分類能力??蓪⒈狙芯拷⒌哪P颓度肱R床決策支持系統,實現2型糖尿病患者在內分泌科就診時收到冠心病風險提示以減少漏診。

作者貢獻聲明黃浩東 研究設計和實施,論文構思和撰寫。劉小株,龔軍 研究實施,數據采集和整理。劉杰,張祖躍 研究設計,論文修訂。向天雨 研究選題和設計,論文終審。

利益沖突聲明所有作者均聲明不存在利益沖突。

猜你喜歡
轉氨酶冠心病分類
運動、職業等因素對轉氨酶水平的影響
轉氨酶高不一定是肝炎
轉氨酶高不一定是肝炎
冠心病一直沒有癥狀,是不是治愈了
轉氨酶高與肝炎
按需分類
教你一招:數的分類
說說分類那些事
給塑料分分類吧
中醫導痰祛瘀藥治療糖尿病合并冠心病38例臨床療效觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合