?

基于AB-CNN-BiLSTM心衰死亡率預測模型

2021-04-15 03:48帥仁俊李文煜
計算機應用與軟件 2021年4期
關鍵詞:卷積死亡率注意力

郭 漢 帥仁俊 馬 力 李文煜

(南京工業大學計算機科學與技術學院 江蘇 南京 211816)

0 引 言

對重癥監護室(Intensive Care Unit,ICU)患者進行死亡率預測有助于醫療方案的制定、資源的配置以及診斷效果的鑒定[1]。ICU數據集樣本數量及復雜程度近年來不斷增長,并且相比普通的電子病歷維度更高、更密集,給機器學習方法提供了有利的條件[2]。醫院對ICU患者在人員、設備及技術上都予以最佳保障,醫療費用也比較昂貴[2-3]。心力衰竭是各種心血管疾病的終末階段,侵襲身體重要肝臟器官,導致其喪失正常功能,是死亡的主要原因之一。心衰患者一般病情危急、病情多變,僅通過有豐富經驗醫生的主觀經驗及醫學手段來做出重大決策進行診療已經顯露出一些局限性。盡管付出了巨大的努力,但每天仍然有很多生命逝去,因此迫切需要將大量重癥監護數據庫利用起來,通過建立數據與疾病之間的聯系,來輔助醫生決策,對ICU心力衰竭患者死亡的死亡率做出更快、更準確的預測。對于死亡率較高的患者,制定針對性強的診治手段以避免錯失最佳治療時機;對于死亡率較低的患者,避免過度用藥,也更有益于患者和衛生保健資源的合理分配。

對機器學習的預測模型來說,特征的選擇十分關鍵,需要找到最有利于模型預測的特征組合,同時剔除無價值或冗余特征?,F有的研究主要是手工構建特征工程。隨著計算機性能的快速提升以及數據的急劇增長,機器學習中的深度學習影響越發廣泛,其可以有效地提取特征,已經涉及各種領域。CNN與LSTM在深度學習應用比較多,但也存在一些不足[4]:(1) 特征選擇方面:卷積神經網絡可以很好地提取時間或空間局部特征,但是缺乏學習序列相關性的能力,無法解決較長信息的長期依賴問題;LSTM在特征選擇方面準確率高,但誤報率也偏高;LSTM能夠解決長期依賴問題,但由于LSTM只能讀取一個方向的序列數據,沒有充分考慮到屬性后信息的影響。(2) 特征學習方面:如何有效實現特征與類別標簽相關性的可解釋性。(3) 自適應性方面:即在不降低準確率與不提高誤報率的同時,讓模型具有自適應更新的能力,來應對多變的心衰死亡情況。本文提出了一種融合卷積神經網絡和雙向長短期記憶的CNN-BiLSTM模型,并引入注意力機制,充分利用其各自的優勢,彌補了以上三個方面的缺點。

本文貢獻主要如下:

1) 當前大多數分類方法需要經過復雜的數據處理或特征工程。首次在ICU患者心衰死亡率預測研究中構建一種基于注意力機制的卷積神經網絡(CNN)聯合雙向長短期記憶網絡(BiLSTM)的神經網絡預測模型,在改善優化性能的同時也極大地提高了模型的性能,有助于更準確、更快地預測心衰死亡率。

2) 引入注意力機制,對各個特征賦予權重來評價特征的重要程度并選取有效特征。

3) 在真實的ICU病患數據集上驗證本文方法的有效性。

1 相關工作

對ICU死亡率預測的研究工作主要從臨床和機器學習兩個領域進行。臨床上依靠構建有效的評分系統評估患者病情。臨床常用的評分系統有急性生理和慢性健康狀況評分系統(Acute physiology and chronic health evaluation,APACHE)、簡明急性生理功能評分系統(Simplified acute physiology score,SAPS)、序貫器官衰竭評分系統(Sequential organ failure assessment,SOFA)、死亡概率模型(Mortality prediction model,MPM)[5]。APACHE與SAPS是臨床上普遍采用的評估系統。APACHE經過改善有4個版本,即APACHEⅠ~APACHE Ⅳ[6-8]。SAPSⅠ系統是在APACHEⅠ系統的基礎上改進的,其需要的一些生理指標更易獲取,同時不需要考慮患者進行的診斷[9]。

臨床上的評分系統依靠人工獲取各項生理參數,一旦有新的數據出現則需耗費大量精力,無法實現實時更新及自動計算[10]。大量的生理參數是時間序列的格式,包含病情變化的信息,僅憑借人工是無法有效挖掘的。將機器學習應用于醫學領域,能夠充分利用海量數據,挖掘出有效信息,有助于醫學分析,輔助醫生診療。文獻[11-15]均采用邏輯回歸模型進行預測。Macas等[16]采用線性貝葉斯預測ICU患者病情。Johnson等[17]組合上百個弱學習器,得到貝葉斯集成模型,與SAPS 系統評分實驗對比,發現該集成模型預測準確率更高。人工神經網絡因其非線性學習、多維映射及噪聲容限等優點被應用于多變的預測情景中。例如Xia等[18]構建人工神經網絡的患者病情預測模型。Pollard等[19]在特征提取時參考太陽物理分析的方法,之后考慮到多個ICU類型,有針對性地訓練多個前反饋神經網絡,最后將BP網絡用于分類,也取得了一定的效果。

基于現有研究,為了避免人工提取特征過程,在本文數據特征提取中,不僅需要關注不同參數之間的空間聯系,也要關注到序列數據在時間維度上的變化,本文提出了一種基于注意力機制的BiLSTM-CNN心衰死亡率預測模型。

2 模型設計

為了優化心衰死亡率預測模型,提升死亡率預測的準確率和降低模型誤報率,本文首先對MIMICIII數據集進行一系列預處理;然后利用CNN-BiLSTM 模型進行特征提取,為了更全面地提取局部特征,利用CNN提取局部平行特征;為了解決各屬性特征點的前、后特征對該屬性特征點的影響,采用由四個記憶模塊構成的BiLSTM模型對長距離依賴特征進行特征提取,每個模塊由兩個細胞的拓撲結構構成;最后利用注意力機制計算出各屬性特征的重要性,通過Sigmod分類器獲得分類結果,提高了準確率,降低了誤報率。本文模型如圖1所示。

圖1 基于AB-CNN-BiLSTM心衰死亡率預測模型

2.1 卷積神經網絡

卷積神經網絡借助卷積運算操作的優勢,能夠對原始數據進行更高層次和更抽象的表達,在提取輸入數據的局部特征方面具有良好特性。CNN 結構包含輸入層、卷積層、池化層、全連接層四部分。網絡層數越多,提取的特征也越抽象。CNN將局部感受野、共享權重和空間或時間采樣思想等都融合在一起,在處理局部有關聯或者統計平穩的數據時,具有獨特的優勢。CNN基本結構如圖2所示。

圖2 CNN基本結構

卷積層利用多個不同卷積核對輸入進行計算,產生新的特征。池化層對卷積輸出進行采樣,每次池化特征圖深度不變,通過去掉每個特征圖中不重要的特征實現降維,同時減少參數數量,防止過擬合。全連接層將卷積層、池化層、激勵函數層等操作后的特征圖映射為固定長度的特征向量。

本文利用CNN 抽取原始數據特征,挖掘多維數據之間的相互關聯并從中剔除噪聲和不穩定成分,將處理后的模式相對穩定的信息作為整體傳入LSTM 網絡進行長序列預測。

2.2 長短期記憶網絡

循環神經網絡(Recurrent Neural Networks,RNN)擅長處理持續的數據序列,不僅僅利用某一個時刻的數據獲取結果,能有效處理臨床數據序列。長短期記憶網絡(LSTM)是RNN中的一種。雖然RNN擅長處理序列數據,但在訓練過程中存在梯度消失或梯度爆炸及長期依賴的問題。LSTM由于其設計的特點,長短期記憶模塊可以解決RNN引發的長期依賴問題,可以很好地實現對時序數據的建模。LSTM模型包含多個LSTM單元,如圖3所示,每個LSTM單元包含遺忘門(ft)、輸入門(it)、輸出門(ot)3種門結構,以及一個細胞狀態更新共同進行控制,以此來保持和更新狀態信息并進行傳遞。xt指代第t個輸入序列元素值;c指代記憶單元(cell)或稱為細胞狀態,控制信息的傳遞;輸入門決定當前xt保留多少信息給Ct;遺忘門決定保存多少前一時刻的細胞狀態Ct-1至當前的Ct;輸出門決定Ct傳遞多少至當前狀態的輸出ht;ht-1指代在t-1時刻的隱層狀態。

圖3 LSTM單元結構

LSTM的記憶模塊是LSTM模型的核心,在處理長距離依賴信息過程中起著至關重要的作用,決定每條記錄信息中的特征是否進行遺忘。合適的記憶模塊會改善其錯誤率偏高的現象。

2.3 注意力機制原理

專家學者根據對人類視覺的研究,提出了注意力機制,實現信息處理資源的高效分配。由于長時間序列的短子序列中特征重要程度存在差異,重要的顯著特征往往會包含更多信息量,對實際需求量的趨勢影響程度更大。假若賦予CNN更關注高重要度特征的能力,可以更好實現短期模式的有效提取和LSTM輸入信息的優化。因此本文在死亡率預測過程中,為更好實現短期模式的有效提取和LSTM輸入信息的優化,并對于重要屬性給予更多關注,引入了注意力機制。注意力機制主要是模仿人注意力的功能。每個屬性特征對死亡率預測的貢獻是不同的,引入注意力機制記錄對死亡率有重要影響的屬性特征,并匯總這些屬性特征,形成新的屬性表示。

2.4 基于AB-CNN-BiLSTM模型結構

引入注意力機制的CNN-BiLSTM模型結構主要由數據預處理層、CNN層、Bi-LSTM層、注意力機制層組成,模型結構圖如圖4所示。

圖4 基于AB-CNN-BiLSTM架構

(1) 數據預處理層。首先對MIMICIII原始數據集進行過濾、清洗,再對特征進行標準化和歸一化處理,將標準化后的數值歸一化到[0,1]區間。數據預處理后Xi為輸入樣本的第i個參數,T為樣本的時間長度。

(1)

式中:?為卷積操作符;W為卷積核的權重向量;b為偏置項;f(·)為一個非線性的激勵函數。本文所有隱藏層的激活函數選用ReLU,與其他函數相比,它能有效避免梯度缺失帶來的收斂速度過慢和局部最值等問題。為了更加全面地提取特征,設置k個不同的卷積核,完成卷積后輸出特征為:

Cm=[c1,c2,…,cn-k+1]

(2)

之后對特征序列Cm進行池化操作。常用的池化分為平均池化和最大池化兩類。本文采用最大池化的方法充分提取不同卷積映射屬性的顯著特征,具體過程如下:

Pm=max(Cm)

(3)

(3) BiLSTM層。雙向LSTM(BiLSTM)是由前向LSTM與后向LSTM組合而成,如圖4所示。正向LSTM隱層負責正向特征提??;反向LSTM隱層負責反向特征提取。利用BiLSTM模型能夠更好地考慮到序列數據中每個屬性點的前后屬性對其影響。第t個時間的特征通過前向傳播LSTM單元后得到后向。

為了捕獲長距離依賴特征,將Pm輸入到BiLSTM 模型中,該模型由兩個方向上的LSTM模塊連接而成,具有多個共享權值。在每個時間步t上,每個門都由前一模塊的輸出和當前時刻的輸入Pt表示,三個門共同工作來完成對屬性信息的選擇、遺忘和細胞狀態的更新。BiLSTM模塊的正向過程如下:

(4)

(5)

(4) 注意力機制層。為了獲取更加準確的分類精度,將BiLSTM 的輸出結果輸入到注意力機制層。在注意力機制中,計算公式如下:

α=softmax[wT·tanh(H)]

r=HαT

(6)

A=tanh(r)

式中:w是一個訓練的參數向量。

最后將注意力機制層的輸出結果輸入到Sigmod分類器中,得到取值在0到1范圍內的結果概率p,設置閾值對結果進行分類。

3 實 驗

3.1 實驗環境

本文的實驗環境為Anaconda 5.2, 腳本語言使用Python 3.6.5,硬件處理器為AMD Ryzen2700X,內存32 GB,運行Linux操作系統,同時配備GTX1080Ti顯卡。

3.2 實驗數據集

為了驗證本文方法的有效性,本文實驗數據集采用麻省理工學院計算生理學實驗室開發的公開數據集MIMICIII[20]。其原始數據集包含了2001年至2012年60 000多次住院相關的數據,包括人口統計學、生命體征、實驗室測試、藥物等。

3.3 數據預處理

本次實驗選用了MIMICIII 數據集中的六張表。這些數據集通過SUBJECT_ID 或者RAW_ID 互相連接映射。本文死亡率預測為出院死亡率,需要對患者出院后的存活時間進行計算,并給數據集增加標簽完成監督學習。大致分為以下幾個步驟:

1) 對原始數據集進行讀取與處理,將心力衰竭患者篩選出來。使用ICD_9代碼從PostgreSQL數據庫查詢患者表,并篩選所有診斷為心力衰竭的患者。

2) 對每個SUBJECT_ID生成一個目錄,并將ICU停留信息寫入。

3) 對一些數據缺失嚴重的事件進行刪除。

4) 將每個SUBJECT_ID的信息處理為時間序列并存儲。時間序列格式為n×14。其中n為該患者做的實驗室測試的時間點的總數。Hours計算方法為:events[′HOURS′]=(做該實驗室測試的時間點-入院時間)/60/60。14個變量分別為Diastolic blood pressure、Glascow coma scale eye opening、Glascow coma scale motor response、Glascow coma scale verbal response、Glucose、Heart Rate、Height、Mean blood pressure、Oxygen saturation、Respiratory rate、Systolic blood pressure、Temperature、Weight、pH。最后根據Hours大小升序。

5) 對特征進行標準化和歸一化處理,將標準化后的數值歸一化到[0,1]區間,并將其拆分為訓練集和測試集。實驗數據統計表見表1。

表1 實驗數據統計

3.4 實驗結果分析

據表2所示的混淆矩陣,可以使用正確率,精確率(查準率) 、召回率(查全率) 、F值等評價指標對本文方法進行評估。

表2 混淆矩陣

確定評價指標后,通過多次試驗確定實驗參數。本文提出的預測網絡參數設置見表3。本文的輸入數據結構為76×14,padding方式選用SAME,經過CNN層后輸出為76×14,再將其輸入到BiLSTM網絡中,整個模型通過最后的全連接層輸出結構為1×1 024的數據,最后通過Sigmod函數進行分類。

表3 網絡參數設置

首先將該模型與其他常見的CNN和LSTM網絡進行比較,對比模型有CNN、LSTM、BILSTM、基于注意力的CNN和CNN-BILSTM。實驗采用5倍交叉驗證,每組15個實驗,并記錄多個實驗結果的平均值。實驗結果如表4所示。結果表明,本文提出的基于AB-CNN-BiLSTM的ICU患者心力衰竭死亡率預測模型能更有效地預測ICU患者的心力衰竭死亡率,預測準確率達到89%。這是因為在數據特征提取中,不僅要考慮不同參數之間的空間關系,還要考慮數據在時間維度上的變化,同時引入注意力機制可以降低死亡率預測的假陽性率。

表4 與其他CNN及LSTM模型對比

此外,為了更好地說明本文提出的死亡率預測模型的優越性,在當前機器學習領域中選擇了具有代表性的邏輯回歸(LR)、貝葉斯(Bayes)、人工神經網絡、支持向量機(SVM)和Adabost等模型進行預測ICU病人的情況。圖5展示了比較結果??梢?,本文提出的模型達到了最佳分類性能。

圖5 不同方法性能對比

4 結 語

為了幫助醫生做出決策,更快更準確地預測重癥監護室心力衰竭患者的死亡率,本文提出了一種基于AB-CNN-BiLSTM心力衰竭死亡率預測模型。與現有方法相比,本文模型具有更好的性能。在給出大量訓練數據集的情況下,該模型可以擴展到其他的數據集,研究更深入的神經網絡結構。

猜你喜歡
卷積死亡率注意力
基于全卷積神經網絡的豬背膘厚快速準確測定
基于圖像處理與卷積神經網絡的零件識別
讓注意力“飛”回來
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
新冠肺炎的死亡率為何難確定?
基于Lee—Cater模型對我國高齡男性死亡率的預測
基于Lee—Cater模型對我國高齡男性死亡率的預測
惡性腫瘤死亡率
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合