?

基于機器學習的膿毒血癥診斷模型研究

2019-07-30 06:16陳瑩徐俊南王志翊翁杰周小明王賢川
浙江臨床醫學 2019年6期
關鍵詞:甘氨酸毒血癥組學

陳瑩 徐俊南 王志翊 翁杰 周小明 王賢川*

代謝組學是對生物體體液(如血液、唾液、尿液等)內的一切代謝物進行定性和定量分析的學科[1]。代謝組學利用核磁共振(NMR)、氣相色譜-質譜聯用法(GC-MS)和液相色譜-質譜聯用法(LC-MS)等主要技術,通過測量生物樣品中的小分子物質,發現疾病標志以及提示疾病發病機制[2-4]。近年來對膿毒血癥的研究不斷進展,代謝組學作為一門新興學科,為膿毒血癥的研究提供了新的思路和方法[5]。由于機體中毒后代謝組學改變信息量龐大,用智能的算法挖掘多變量的相互作用至關重要。當前在大數據挖掘處理中,有多種機器學習算法,其中支持向量機(SVM)是基于統計學理論的方法[6]。本文首先通過GC-MS代謝組學檢測膿毒血癥組、健康對照組血液成分的變化,形成代謝數據集,然后通過reliefF特征評估方法篩選出膿毒血癥患者血液中的特異度差異代謝物,再利用機器學習中的SVM分類算法構建分類識別模型,并使用測試數據進行預測性能評估,根據評估結果優化算法參數,最后形成最優識別模型。

1 材料與方法

1.1 基于機器學習的膿毒血癥診斷流程 見圖1。

1.2 膿毒血癥樣品收集 收集2014年1月至2015年1月溫州醫科大學附屬第二醫院急診科膿毒血癥患者16例。其中男9例,女7例,平均年齡(50.6±7.7)歲。健康組在溫州醫科大學附屬第二醫院體檢中心隨機抽取。其中男8例,女8例,平均年齡(48.1±8.3)歲。該研究經溫州醫科大學附屬第二醫院倫理委員會批準,所有患者均簽署知情同意書。兩組患者在性別、年齡等一般資料上比較,差異無統計學意義(P>0.05)。分別從健康對照組和膿毒血癥組收集血液,然后4℃以4000g離心10min,取上層血清儲存在-80℃直至測量。1.3 GC-MS數據采集 Agilent 6890N-5975B GC/MS,HP-5MS(0.25mm×30m×0.25μm)來自安捷倫公司(Santa Clara,California,USA)。GC柱溫箱最初設定在80℃,并保持在該溫度5min。然后以10℃/min的速度逐漸升溫至260℃,然后在260℃保溫10min。電子能量為70eV,EI模式下進行檢測,全掃描模式掃描,范圍為m/z 50-550。GC-MS采集的數據導出至Microsoft Excel中。本實驗數據集包含了32個實例(健康組16個,膿毒血癥組16個),其中前177例為檢測到的峰值,屬性名為檢測時間,最后1例為分類屬性,屬性名為class,其中D和M分別代表健康組和膿毒血癥組。

圖1 基于機器學習的膿毒血癥診斷流程

1.4 機器學習環境 Weka[7]是懷卡托智能分析系統的縮寫,該系統由新西蘭懷卡托大學開發。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下發布。其可以運行于幾乎所有操作平臺,是一款免費、非商業化的機器學習以及數據挖掘軟件。Weka提供了一個統一界面,可結合預處理以及后處理方法,將許多不同的學習算法應用于任何所給的數據集,并評估由不同的學習方案所得出的結果。本實驗SVM算法采用LIBSVM軟件包[8]實現,LIBSVM是臺灣大學林智仁(Lin Chih-Jen)教授等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包。

1.5 數據預處理 原始數據中部分數據為空,采用0補充。另外,原始數據數值差異較大,需要進行歸一化處理。采用weka平臺規范化(Nomalize)方法,對原始數據進行歸一化處理,將峰值數據歸一化到[0,1]。

2 結果

2.1 屬性評估 本實驗數據具有維度大的特點,共計160個屬性,為了對檢測點以及檢測到的物質進行預測價值分析,需要對這160個屬性的重要性進行評估,本實驗采用WEKA中的reliefF算法[9],該算法根據特征對近距離樣本的區分能力來評估特征,即相關特征應該使同類的樣本接近,而使異類的樣本之間遠離。使用該算法評估得到排名靠前的13個屬性如表1所示。

表1 屬性評估結果

2.2 SVM算法分類實驗結果及參數優化分析 WEKA提供了一些參數優化工具可以優化基分類器參數,本實驗中采用CVParameterSelection,該方法采用交叉驗證的方法,可以優化任意多個參數的基分類器。實驗中選擇CVParameterSelection為分類器,LibSVM為CVParameterSelection的基分類器,并設置CVParameterSelection的交叉驗證參數為G 0.01 0.1 10即設置參數G從0.01至0.1迭代(10步),經過實驗得到最佳G參數值為0.08,分類結果如下表所示。從表2可以看出,敏感度即真陽性率TP =12/(4+12)=75%,特異度即真陰性率TN=11/(11+5)=68.75%,識別率=(11+12)/(16+16)=71.875%。從表3中可以看出,經過reliefF評估方法進行特征選擇后,敏感度、特異度和識別率分別提高至75%、100%和87.5%。

表2 預測結果混淆矩陣

表3 reliefF特征選擇對分類結果產生的影響(%)

2.3 兩組患者血液主要標志物峰面積比較 見表4。

表4 兩組患者血液主要標志物峰面積比較(x±s)

3 討論

代謝組學數據常存在維度高的特點,本實驗數據屬性個數達160個,采用reliefF評估方法進行特征降維使診斷模型敏感度、特異度和識別率分別提高至75%、100%和87.5%,另外本研究對如何尋找分類器最優參數進行了探討,本文提供了一種快速有效的參數尋找方法,即采用交叉驗證參數選擇法,實驗利用CVParameterSelection方法快速確定SVM最優參數。

本研究中健康組和膿毒血癥組共有13個生物標志物被篩選出,分別是丙三醇、十六酸、十四酸、β-D-呋喃半乳糖苷、丙氨酸、β-D-吡喃葡萄糖苷糖醛酸、十二酸、油酸、d-半乳糖、甘氨酸、d-葡萄糖、d-甘露糖、β-DL-阿拉伯呱喃糖,其中丙三醇、十四酸、β-D-吡喃葡萄糖苷糖醛酸和甘氨酸在兩組間有顯著差異。丙三醇和β-D-吡喃葡萄糖苷糖醛酸在膿毒血癥組患者中顯著升高,而十四酸和甘氨酸在膿毒血癥組患者中顯著下降。這些基于基于代謝組學結合reliefF評估方法篩選出來的代謝標志物有助于對膿毒血癥患者進行診斷及鑒別診斷。

Goossens等[10]研究表明,膿毒血癥大鼠體內丙三醇含量降低,可能與膿毒血癥大鼠體內促進甘油轉化為葡萄糖途徑的限速酶活性升高有關。而本研究中膿毒血癥患者體內甘油含量呈增加趨勢,可能因為膿毒血癥患者體內脂肪酸分解代謝增加,而脂肪酸分解過程中將會產生大量甘油,從而導致膿毒血癥患者體內甘油總體呈升高趨勢。β-D-吡喃葡萄糖苷糖醛酸在本研究中同樣呈升高趨勢,有望成為膿毒血癥新型代謝標志物,但目前尚無該代謝標志物在膿毒血癥方面的研究報道,其對膿毒血癥的診斷意義需進一步研究。

十四酸又稱肉豆蔻酸,是一種飽和脂肪酸,可以通過脂肪酸β-氧化途徑進行分解代謝。最近關于膿毒血癥患者體內脂肪酸代謝變化的研究不斷增加。Kauppi AM等[11]采用代謝組學的方法研究膿毒血癥患者體內代謝物的變化,共發現包括十四酸在內的6種代謝物顯著變化,其中十四酸是最具預測性的代謝物,對診斷膿毒血癥的敏感度高達91%,特異度達70%,準確性顯著優于當前的C-反應蛋白、白細胞等指標。甘氨酸又名氨基乙酸,小分子量氨基酸,屬于人體非必需氨基酸,能夠合成DNA,磷脂以及膠原蛋白等。在本研究中膿毒血癥患者甘氨酸含量較正常對照組顯著下降,提示甘氨酸水平對膿毒血癥患者具有診斷意義。外源性補充甘氨酸降低膿毒血癥患者病死率,但需要更多臨床研究證實。

綜上所述,本研究篩選出膿毒血癥患者血液中的四種特異度差異代謝物,為膿毒血癥機制研究進一步提供理論依據,所建立的識別模型,能夠有效預測膿毒血癥。

猜你喜歡
甘氨酸毒血癥組學
連續性腎臟替代治療(CRRT)在膿毒血癥患者中的臨床療效分析
影像組學在腎上腺腫瘤中的研究進展
東莨菪堿中毒大鼠的代謝組學
羊妊娠毒血癥的發病原因、臨床癥狀、診斷和防治
影像組學在核醫學影像中的應用進展
蛋白質組學技術在胃癌研究中的應用
連續性血液凈化應用于重癥膿毒血癥治療的臨床療效分析
膿毒血癥患者血清IncRNA H19與TNF-ɑ IL-1β及IL-6等促炎因子水平相關性分析
膳食甘氨酸的健康保護潛力(續1)
非必需氨基酸甘氨酸的多重有益效應(綜述)(續1)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合