?

基于隨機森林算法預測腎病綜合征患者的心血管風險*

2022-03-23 07:15鄒新亮鄭萬香何國祥
重慶醫學 2022年3期
關鍵詞:脂質腎病心血管

鄒新亮,鄭萬香,何國祥,2,景 濤△

(1.陸軍軍醫大學第一附屬醫院心血管內科,重慶 400038;2.貴黔國際總醫院心血管內科,貴陽 550000)

腎病綜合征(NS)以大量蛋白尿、低蛋白血癥以及不同程度的水腫為主要特征,常并發高脂血癥和(或)靜脈血栓等[1]。NS患者的心血管風險升高,據研究統計,原發性NS患者5年心血管事件累積發生率約在6.1%~8.8%[2-4]。盡管NS的人口發病率約為3/10萬人年[2],但在如此龐大的人口基數下,NS罹患心血管疾病的患者數量仍然非常多,給患者家庭和社會造成極大的醫療負擔。因此,早期對NS患者出現心血管疾病風險進行預測和干預極其重要。針對真實世界中NS患者可能存在錯綜復雜的心血管危險因素,本研究采用機器學習算法中的隨機森林模型,對NS患者5年心血管疾病風險進行預測,現將結果報道如下。

1 資料與方法

1.1 一般資料

本研究為單中心回顧性巢式病例對照研究,收集并選取1999年1月1日至2014年11月30日陸軍軍醫大學第一附屬醫院就診的NS患者隨訪5年的診療資料,以評估和預測NS患者心血管風險。研究納入隨訪期間18~85歲的確診心血管疾病患者115例,并將患者隊列中根據性別、年齡、指標時間按照約1∶2比例匹配,納入235例無心血管疾病對照者,總計350例。將全部患者應用統計學軟件算法按照約7∶3的比例劃分為訓練集和測試集。本研究經陸軍軍醫大學第一附屬醫院倫理委員會批準(批準文號:KY2019153)。

納入標準:原發性腎病綜合征(微小病變腎病、系膜增生性腎小球腎炎、局灶節段性腎小球硬化、膜增生性腎小球腎炎、膜性腎病)或繼發性腎病綜合征(過敏性紫癜性腎炎和狼瘡腎炎)[1];所有腎病綜合征患者均根據活檢確診;沒有性別或醫療限制;本研究預測結局包括的心血管疾病為:穩定型冠狀動脈疾病、非致命性心肌梗死、不穩定性心絞痛和心血管死亡;其中心血管疾病診斷均有影像學證據支持。

排除標準:診斷為高血壓腎病或糖尿病腎??;診斷為急性腎損傷;應用透析治療的慢性腎??;檢測到腎小球濾過率(eGFR)<45 mL·min-1·1.73 m-21次;第1次就診時已確診為心血管疾??;非心血管死亡;丟失隨訪或丟失醫療記錄。

1.2 方法

1.2.1數據收集

從所有患者的醫療記錄中收集數據,包括以下變量信息:一般情況,性別、年齡、體重指數(BMI)、民族、吸煙狀況、飲酒狀況;既往病——外周動脈粥樣硬化、血糖升高、高血壓病、靜脈血栓疾??;藥物使用情況,抗血小板藥、抗凝藥、人血清蛋白(ALB)、血管緊張素Ⅱ受體阻滯劑(ARB)、血管緊張素轉化酶抑制劑(ACEI)、他汀類藥物、糖皮質激素、細胞毒性藥物、免疫抑制劑。

1.2.2血液檢驗指標

高密度脂蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C)、eGFR、血尿酸(UA)、ALB、載脂蛋白A1(apoA1)、載脂蛋白B(apoB)、脂蛋白a[Lp(a)]、纖維蛋白原(Fib)。血液檢測儀器為貝克曼庫爾特AU5800系列全自動生化分析儀(分光光度測定法和電勢測定法),檢測數值取心血病管患者出現結局前,對照組取5年隨訪期間檢測記錄平均水平。

1.2.3觀察及評價指標

主要對隨機森林模型相關的以下參數和指標進行觀察與評價:(1)隨機森林模型參數,節點值(mtry)、決策樹數目(ntree);(2)變量的預測重要性指標,Gini值平均降低量(mean decrease gini);(3)模型預測性能評估,準確率(accuracy)=(真陽性+真陰性)/(全部測試集)×100%;精確率(precision)=真陽性/(真陽性+假陽性)×100%;召回率(recall)=真陽性 /(真陽性+假陰性)×100%;ROC曲線下的面積(AUC)。

1.3 統計學處理

2 結 果

2.1 基線資料比較

本研究中訓練集251例,測試集99例,觀察結局患心血管病者分別為80例(占31.9%)、35例(占35.4%),所占比例不代表心血管疾病發病率。兩組間BMI、apoB、細胞毒性藥物使用存在差異,其余指標均未見明顯差異,見表1。

表1 NS患者訓練集與測試集基線信息對比

續表1 NS患者訓練集與測試集基線信息對比

2.2 隨機森林模型評價指標

隨機森林模型最佳mtry為6、ntree為446,取該參數時模型錯誤率最低(圖1)。本研究嘗試使用Gini值平均降低量作為隨機森林模型中變量重要性的衡量標準(圖2),進一步確定NS患者發生心血管疾病結局的重要預測因子。本模型中的相對重要預測因子依此為:eGFR、年齡、HDL-C、apoB、ALB、apoA1、Fib、UA、LDL-C,變量Gini值平均降低量與其在模型中的重要性呈正比。本研究構建的預測模型的準確率為0.919、精確率為0.935、召回率為0.829。繪制模型ROC曲線(圖3),AUC及95%CI為0.899(0.832~0.966)。

圖1模型錯誤率與決策樹數量的關系圖

圖2變量預測重要性示意圖

圖3隨機森林模型ROC曲線和置信區間圖

3 討 論

NS有不同程度的甘油三酯、膽固醇和載脂蛋白升高等脂質代謝紊亂,導致動脈內膜脂質浸潤,增加了動脈粥樣硬化的風險,是NS并發心血管事件的危險因素[4]。尤其在頻繁復發型或類固醇耐藥型NS患者中,可能因長期暴露于高脂血癥、高氧化應激、頻繁感染、持續蛋白尿、低清蛋白血癥、血栓栓塞、類固醇、非甾體類藥物和免疫抑制劑的不良反應(脂代謝紊亂、血管毒性的和腎毒性)等多種風險因素下,進而引發血管內皮功能受損甚至增加心血管不良事件風險[5]。在當前醫療和研究背景下,仍然沒有系統合理的NS患者心血管風險預測模型相關研究。即便借用慢性腎病心血管風險預測模型,但隨著診療技術的發展,傳統的心血管危險因素在預測臨床結果方面的作用減弱,多數模型在慢性腎病患者中校準不佳,且直接應用于NS患者亦存在不合理性[6]。亟須一種預測模型算法,可以處理大量真實世界中錯綜復雜的預測因子,以達到精準預測且方便獲取臨床信息的目的。當前隨機森林算法正廣泛應用于具有大量預測因子數據集的醫學預測模型開發,其優秀的數據處理能力和預測性能得到越來越多學者的認可[7]。本研究應用機器學習算法中的隨機森林模型對350例NS患者進行5年的心血管疾病風險預測,模型納入28個臨床上易獲取的預測變量,驗證得ROC為0.899展現出優秀的預測性能,模型召回率0.829,提示模型對正例的識別能力良好。

本模型中的相對重要預測因子與傳統心血管風險因素互有異同。血漿脂質一直以來是心血管風險研究最常用也最易獲得的預測因子[8]。NS中的脂質異常主要是由于脂質清除受損,而不是由于生物合成增加[9]。包括血漿膽固醇、甘油三酯、脂蛋白[乳糜微粒(CM)、極低密度脂蛋白(VLDL)、LDL、中間密度脂蛋白(IDL)和Lp(a)]水平升高。HDL-C水平正?;蚪档?,載脂蛋白apoA1、apoB、apoC和apoE等水平升高[9]。研究表明,在他汀類藥物治療的患者中,apoB是比LDL-C更準確的心肌梗死風險標志物[10]。在本研究中apoB在所有脂質中所占重要性也排在首位,提示臨床醫生在監測患者血脂動態變化時不應忽略這項指標。觀察性研究已反復證明HDL-C水平與心血管預后之間存在負相關[11]。ApoA1是HDL中含量最豐富的蛋白質,它調節影響HDL的心臟保護功能的相互作用[12]。既往研究支持HDL-C、apoA1在本研究模型中占有較高重要性的發現。長期以來,LDL-C都被認為心血管風險因素中最重要的脂質,也是主要的可改變因素。最近歐洲和美國的多社會血脂異常指南強調了降低LDL-C對降低心血管風險的重要性[13]。雖然在本模型中LDL-C重要性不高,但作為模型預測因子,LDL-C是一項不可忽略的變量。

除脂質譜外,本研究同樣發現其他血液監測指標在模型預測中的重要性。既往研究表明,隨著eGFR降至60.00~75.00 mL·min-1·1.73 m-2以下,發生冠心病的概率呈線性增加[14],但eGFR并未被正式納入腎臟特異性預測變量[14]。本研究中訓練集eGFR中位值為86.09 mL·min-1·1.73 m-2,提示即便eGFR未下降至60.00~75.00 mL·min-1·1.73 m-2以下亦可以作為NS患者預測心血管風險最重要的指標(Gini值平均降低量18.233),進一步可能需要基于更大樣本的預測模型驗證本研究的觀點。ALB是一種有用的心血管疾病風險分層工具,包括急性冠狀動脈綜合征或心力衰竭,且與穩定性冠心病患者心血管事件發生率呈正相關[15]。Fib是一種已知的心血管疾病風險標志物,不僅與心血管病狀態相關,而且還有助于預測隨訪時的全因和心血管死亡率[16]。尿酸升高與傳統心血管風險、代謝綜合征、胰島素抵抗和慢性腎臟疾病有關[17]。上述觀點均提示,本研究構建的隨機森林模型中重要預測因子是合理的。

本研究中他汀類藥物使用在預測變量中所占的重要性不高,并不能說明他汀類藥物對心血管風險方面無顯著影響,可能因大多數患者脂質譜管理不佳,諸多指標掩蓋了統計分析中他汀類對結局的影響。同樣,本研究中使用各種藥物(如抗血小板藥、抗凝藥、類固醇、免疫抑制劑、細胞毒性藥物、ACEI、ARB等)在隨機森林預測模型中所占重要性不高,考慮可能為應用藥物者占總樣本比例偏高,鑒于當前NS患者臨床診療不斷規范化,藥物使用情況或許并不影響隨機森林模型的構建。

為不遺漏對心血管病結局的預測,作者認為召回率是評價該模型預測性能更好的指標。盡管所提出的模型在臨床實際使用前需要進一步改進,但隨機森林分類算法確定的重要預測因子可能為預測NS患者5年心血管風險提供有用的信息,可根據本研究篩選出的重要因子進一步開發臨床預測模型。應用模型預測患者心血管疾病風險并及時合理地進行干預,為隨訪期間檢測指標的選擇提供依據,對于合理利用醫療資源、改善患者預后具有重要意義。

猜你喜歡
脂質腎病心血管
“心血管權威發布”公眾號簡介
“心血管權威發布”公眾號簡介
“心血管權威發布”公眾號簡介
“心血管權威發布”公眾號簡介
芒果皮泡水喝可降血脂
玉米須可治療腎病
醫藥脂質納米材料技術
中年發?;蚺c脂質周轉有關
慢性腎病應警惕夜間高血壓
金屬/基質增強飛行時間二次離子質譜用于單細胞脂質分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合