?

基于GA-XGBoost 算法的肺癌預測研究

2023-12-18 18:13柯東晏峻峰
計算機時代 2023年11期
關鍵詞:特征選擇遺傳算法肺癌

柯東 晏峻峰

關鍵詞:肺癌;SMOTE過采樣;特征選擇;遺傳算法;集成算法;XGBoost

中圖分類號:TP391 文獻標識碼:A 文章編號:1006-8228(2023)11-131-05

0 引言

肺癌是起源于肺部支氣管黏膜或腺體的惡性腫瘤,其發病率和死亡率增長很快,是對人的健康及生命威脅最大的惡性腫瘤之一[1]。由于肺栓塞常常伴有呼吸困難、咳嗽、胸痛、咯血等癥狀,臨床癥狀特異性不強,通常難以鑒別,故漏診率較高,以致延誤救治時機[2]。在我國,肺癌是危害人類的生命健康的主要惡性腫瘤之一,在排名前十的惡性腫瘤中,肺癌的發病率和死亡率分別占20.03% 和26.99%[3]。若肺癌在早期階段能被及時發現并得到恰當的治療,患者的5 年生存率可提高到50% 甚至更高[4]。

在早些年,Ledley[5]等人第一次將醫學領域的數學模型應用到計算機輔助診斷中,首次提出計算機輔助診斷。Weizeng Li 等[6]提出了將決策樹和邏輯回歸相結合的邏輯樹,分別評估單個和多個腫瘤標志物的診斷價值;Caijoie Ren 等[7]提出一種基于臨床肺癌個體化鑒別方案,采用LASSO 進行回歸分析,得到了最優預測結果;Nuhic Jusua 等[8]利用機器學習算法預測模型作為一種非侵入性工具來區分惡性與良性,應用于肺癌的預測分類。Stefano Elia 等[9]使用遺傳算法在五種腫瘤標志物種選擇出兩種指標物進行聯合檢測,得到了最好的肺癌預測結果。相對于單個模型而言,集成模型由多個基學習器構成,因此具有更好的分類和回歸效果。例如張楚函[10]以隨機森林算法建立術前診斷模型,建立了肺癌前期預診斷模型;張雨晴等[11]應用隨機森林分析非吸煙女性肺癌風險因素。然而,機器學習在肺癌研究中也面臨一些挑戰,如樣本大小、數據質量、模型的可解釋性以及算法模型耗時長等方面的限制。因此,本研究致力于解決這些問題,探索臨床上肺癌患者與其生活習慣之間的關系,建立基于生活習慣進行肺癌預測的分類模型。通過算法的融合、優化,確定的最終模型在肺癌數據集上進行試驗,實驗得到93.2% 的高準確率,同時算法模型相比強分類器SVM 具有更快的響應速度,充分證明該模型能應用到臨床,輔助醫生進行疑似病例的肺癌預測,結合必要的醫學檢查,及時對肺癌患者進行醫學干預,為肺癌患者爭取更多的治療從而提高生存率。

1 研究方法

本文方法如下:不平衡數據是指數據集中某一類別的樣本數量明顯少于其他類別的樣本數量[12],本文數據集標簽比例嚴重失衡,標簽為0 的樣本29 條,標簽為1 的樣本280 條,即正負標簽比例大約為1:9,因此引入過采樣技術SMOTE 方法對數據做均衡化處理;對本實驗所用到的肺癌數據集進行隨機森林重要性排名,根據排名結果選擇貢獻較大的特征,參與模型計算,實現降低數據緯度、提高分類準確率的效果;構建GA-XGBoost 算法模型即:采用遺傳算法優化梯度提升樹算法XGBoost,并與其他機器學習方法如支持向量機(SVM),決策樹(DT)、K 最近鄰(KNN)、貝葉斯(NB)以及未調優的XGBoost 進行對比,證明模型的優越性。具體流程圖如圖1 所示。

1.1 構建GA-XGBoost 模型

極端梯度提升樹(XGBoost)算法是由陳天奇在2014 年提出,該算法能夠極大地提升模型的訓練速度和預測精度[13]。它的設計是為了正確使用資源,克服以往梯度提升的局限性[14]。本文XGBoost 目標函數如下:

遺傳算法(GA)是一種求解優化問題的工具[15],主要用于解決搜索和優化問題。算法過程如下:

⑴ 初始化:生成一組初始種群,其中每個個體代表一個解。

⑵ 適應度評估:對每個個體進行適應度評估,即計算其對應的目標函數值。

⑶ 選擇:從種群中選擇一部分個體作為下一代種群的父代。

⑷ 交叉:對父代中的個體進行交叉操作,生成新的子代。

⑸ 變異:對子代中的個體進行變異操作,引入隨機因素,增加種群的多樣性,防止算法陷入局部最優解。

⑹ 更新種群:將父代和子代合并,生成新的種群。

⑺ 終止條件判斷:判斷是否達到終止條件,如最大迭代次數、目標函數達到某個閾值等。

⑻ 輸出結果:輸出最優解或者最優解對應的目標函數值。

本實驗構建GA-XGBoost 肺癌診斷模型如圖2。

2 實驗過程及結果分析

本文基于Anaconda開發環境下的jupyter-notebook編輯器。研究選用kaggle 學習庫所公開的的肺癌數據集。該數據集包含疑似肺癌患者平時生活習慣和生理、行為表現等部分數據,一共有309 個樣本,類別為良性腫瘤和肺癌腫瘤,數據集包含的14 個特征基于疑似患者的生活記錄,分別是年齡(AGE)性別(SEX)、是否吸煙(SMOKING)、黃色手指(YELLOW)、平時是否有同輩壓力(PRESSURE)、是否焦慮(ANXIETY)、是否有慢性?。–HRONIC DISEASE)、是否感到疲勞、是否哮喘、藥物過敏(ALLERGY)、飲酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困難、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”為1,“否”為0;標簽中患肺癌為1,沒有患肺癌為0。實驗以70% 的數據集作為訓練集,30% 作為測試集。

2.1 評價指標

在分類指標問題上采用混淆矩陣是最直觀的,混淆矩陣可以詳細的展示分類性能?;煜仃嚾绫?所示。

本文在混淆矩陣基礎上引入準確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)作為算法的判斷指標。其中靈敏度又叫真陽性比例,即實際發病且被準確診斷的病人所占比例;特異度又稱為真陰性率,是指實際無病并能準確檢測的病歷所占比例:

2.2 數據均衡化處理

本文數據集標簽比例嚴重失衡,標簽為0 的樣本29 條,標簽為1 的樣本280 條,即正負標簽比例大約為1:9。采用SVM-SMOTE 過采樣技術進行數據均衡化處理,原始數據和均衡化處理后的數據分布如圖3、圖4 所示。

2.3 特征選擇

特征重要性計算結果可以用于特征選擇和可視化,幫助我們理解模型的特征貢獻程度,從而更好地解釋和使用模型。本文通過隨機森林算法得出特征重要性排序,結果如表2 所示。

排在后面四位的是YELLOW_FINGERS,GENDER,ANXIETY,FATIGUE,由于這四個特征重要性比較低,故予以剔除,保留排名結果選擇排名靠前的10 個特征重新訓練模型。比較SMOTE 均衡化前后、進行特征選擇前后進行XGBoost 訓練,結果如表3 所示。

2.4 GA-XGBoost 實驗結果

和隨機森林算法(Random Forest,RF)超參數空間類似[16],XGBoost 超參數眾多,需要手動設定。本文選取常見的三個超參數:n_estimators(樹的數量),max_depth(最大樹深度)、learning rate(學習率)進行遺傳算法優化,將評估指標AUC 作為適應度函數??紤]到適應度函數上界難以確定,本文選取最大循環次數作為算法的終止條件。本文借助可視化工具—學習曲線,確定超參數的大致范圍,三個超參數的學習曲線圖分別如圖5、圖6、圖7 所示。

由學習曲線可知,n_estimators 最佳取值在60左右,max_depth 最佳取值為6 左右,learning_rate 最佳范圍為0.2 到0.3 之間。用遺傳算法進行最優值搜索:設定n_estimators 范圍為50 到75,步長為1;max_depth范圍為4 到9,步長為1。Learning_rate 范圍設定為0.2-0.3,步長為0.01。遺傳算法結果如表4 所示。

得到XGBoost 最佳參數后,為了驗證模型的優越性,同其他機器學習進行比較。不同算法的比較結果如表5 所示。

進行遺傳算法優化的GA-XGBoost 模型,準確率達到0.932,靈敏度達到0.928。特異度達到0.921,準確率和靈敏度最高。雖然SVM 在分類中也表現出了不俗的性能,在特異度上較XGBoost 稍高,但作為強分類器,SVM 復雜度高,耗時長。在講究實效性的臨床醫療診斷中,基于簡單學習器集成的XGBoost 算法在高分類性能的同時還能實現快速運算,與其他機器學習方法相比,進行遺傳算法優化的GA-XGBoost,表現堪稱完美。

3 結束語

對疑似患者進行早期的預測診斷是應對肺癌的有效手段[17]。本文提出的基于GA-XGBoost 算法的預測分類模型在準確率、靈敏度和特異度三項指標上表現優異,運行時效上優勢明顯。模型的最終目的是在臨床上指導醫生對患者的肺癌風險進行提前判斷,但本文數據集是肺癌患者的日常表現、生活習慣記錄,存在一定的主觀性,未來可以從更多的臨床電子病例出發,采用客觀、標準化的數據。下一步結合大樣本,高緯度的客觀化數據,嘗試深度學習的建模,致力于人工智能在人類的癌癥事業中的更大應用。

猜你喜歡
特征選擇遺傳算法肺癌
中醫防治肺癌術后并發癥
對比增強磁敏感加權成像對肺癌腦轉移瘤檢出的研究
基于自適應遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
基于遺傳算法和LS-SVM的財務危機預測
Kmeans 應用與特征選擇
聯合互信息水下目標特征選擇算法
基于改進的遺傳算法的模糊聚類算法
microRNA-205在人非小細胞肺癌中的表達及臨床意義
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合