?

基于LSTM方法的新冠肺炎確診人數預測模型

2023-10-27 06:36曹倩孫乾金永超
關鍵詞:公式新冠肺炎

曹倩,孫乾,金永超

(華北理工大學 理學院,河北 唐山 063210)

引言

自2019年12月,新冠肺炎病毒席卷全球,給全球各國的經濟、政治和人民身體健康造成了嚴重的損害。隨著新型冠狀病毒在全球的快速傳播,2020年初新冠肺炎疫情在美國爆發。由于美國采取了消極的抗擊疫情政策——自然免疫法[1],導致新冠肺炎累計確診人數呈指數增長,對美國的經濟發展和人民健康造成了極大的影響。美國作為新冠疫情的重災區[2],截止2023年3月9日,新冠肺炎累計確診人數達到了103 802 702人,位居全球第一。新型冠狀病毒在全球的全面爆發,讓世界再一次意識到公共衛生安全的重要性。

自新冠肺炎爆發以來,為了進一步了解新型冠狀病毒的發展趨勢,對其進行科學合理的防控,以減少新型冠狀病毒帶來的負面影響。國內外眾多學者基于時間序列模型對新冠肺炎疫情和流行病發展趨勢進行預測。在新冠肺炎疫情初期,盛華雄等人利用Logistic模型對新型冠狀病毒疫情進行建模預測,在短期預測方面,模型的擬合效果較好,但是模型建立的一個前提假設是新型冠狀病毒潛伏期內沒有傳染性[3],這與目前新型冠狀病毒的特點不符。William W. Thompson等人建立了Serfling最小二乘周期回歸模型對美國流感疫情死亡人數進行預測[4],證明了Serfling最小二乘周期回歸模型應用于流行病預測的可行性。部分學者利用SIR[5]和SEIR[6]動力學模型對疫情發展趨勢進行預測分析,取得了一定的成效,但由于模型包含感染率恒定等基本假設,導致SIR和SEIR動力學模型在預測新冠肺炎疫情發展趨勢時存在一定的局限性。丘婕帆等人通過移動平均自回歸模型(ARIMA)對中國廣州新冠肺炎疫情進行建模預測[7],但是該方法非線性擬合能力較差[8],并且不能對新冠肺炎疫情進行長期預測。陳夢凡采用灰色預測模型(GM(1,1)模型)及其改進模型對意大利新冠肺炎疫情進行建模預測,新冠肺炎確診病例的預測相對誤差保持在5%以下[9],預測效果較好。由于機器學習在預測領域表現優異[10],一些學者采用機器學習的方法對新冠疫情發展趨勢進行預測。孫許可建立了XGBoost預測模型[11],對中國新冠肺炎疫情進行預測,模型擬合效果較好。劉云翔等人利用支持向量機對中國新疆地區新冠肺炎疫情進行預測[12],模型泛化能力較強。隨著深度學習的進一步發展,越來越多的學者采用深度學習的方法來處理時間序列數據,對時間序列數據進行建模分析與預測。為了克服動力學模型和移動平均自回歸模型(ARIMA)模型在預測新冠肺炎疫情的局限性,部分學者利用深度學習對新冠肺炎疫情發展趨勢進行預測。其中吳琦琦等人利用BP-神將網絡進行預測[13],但是BP-神將網絡存在梯度消失和梯度爆炸,難以捕捉時間序列數據中的長期依賴關系。張晴利用時間卷積網絡TCN模型預測美國新冠肺炎疫情發展趨勢[14],驗證了該模型對新冠疫情進行長期預測的可行性,并且擬合效果較好。

為了更好地擬合非線性數據、避免傳統神經網絡的梯度消失與梯度爆炸問題,并且有效地捕捉新冠肺炎疫情時間序列數據中的長期依賴關系,進而對美國新冠肺炎疫情發展情況進行長期預測。本文基于LSTM時間序列預測模型,對美國新冠肺炎疫情發展趨勢進行建模預測,進一步了解新冠肺炎疫情發展趨勢,為政府采取科學合理的新冠肺炎疫情防控措施提供參考。

1 數據集與數據預處理

1.1 數據集

本次研究所采用的數據集為美國在2020年1月22日至2023年3月9日期間的COVID-19累計確診病例,數據來源于霍普金斯大學新冠疫情統計網站。經驗證,該數據集無缺失值和明顯異常值,部分數據見表1。

表1 美國每日累計確診病例

1.2 數據歸一化

考慮到LSTM模型對輸入數據的數值范圍較為敏感,為了加快模型的訓練速度,并且簡化模型的復雜度,在此對數據進行歸一化處理,歸一化數據會被壓縮到0~1之間[15]。除此之外,數據歸一化還可以提高LSTM模型的精度和泛化能力。數據歸一化公式見式(1)。

(1)

在公式1中,data*為歸一化后的數值;data為原始數據的數值;min(data)、max(data)分別為原始數據的最小值和最大值。

在LSTM模型輸出數據后,需對模型輸出數據進行反歸一化處理,反歸一化公式見式(2)。

data***=data**(max(data)-min(data))+min(data)

(2)

在公式2中,data***為反歸一化后的數值;data**為LSTM模型輸出的數值;min(data)、max(data)分別為原始數據的最小值和最大值。

1.3 數據劃分

在此次研究中,將經過歸一化處理后得到的數據按照時間順序劃分為訓練集和測試集。其中訓練集為歸一化處理后數據的前70%,測試集為歸一化處理后數據的后30%。其中訓練集用來訓練LSTM模型,通過不斷進行參數的更新和優化來提升模型的性能,測試集用來驗證和評估模型的性能。

2 數據建模

2.1 LSTM模型簡介

LSTM(Long Short Term Memory)模型是一種特殊的循環神經網絡,最早由Hochreiter和Schmidhuber于1997年提出。其設計初衷是為了解決傳統循環神經網絡中普遍存在的長期依賴問題,實現對時序長期規律的學習[16]。在解決長期依賴問題的同時,它還很好的解決了傳統循環神經網絡的梯度消失和梯度爆炸等重大問題[17],被廣泛應用于時間序列預測、自然語言處理、語音識別等領域。

LSTM模型通過設置記憶單元來解決長期依賴問題,每個記憶單元包含三個精心設計的“門”,分別為遺忘門、輸入門和輸出門。通過這三個精心設計的“門”來控制記憶單元保留或者丟棄信息。LSTM模型的記憶單元結構如圖1所示[18-20]。

圖1 LSTM記憶單元結構

圖2 LSTM模型預測值與真實值對比

遺忘門:遺忘門根據當前時刻的輸入xt和上一時刻輸出ht-1,通過激活函數sigmoid的作用,決定遺忘或者保留哪些信息。當ft→1,表示保留;當ft→0,表示遺忘。ft函數公式見公式(3)。

ft=sigmoid(Wf[ht-1,xt]+bf)

(3)

公式中Wf表示遺忘門的權重矩陣,bf表示遺忘門的偏置系數。

(2)輸入門:輸入門根據當前時刻的輸入xt和上一時刻輸出ht-1,通過激活函數sigmoid的作用,決定添加哪些信息。it函數公式見式(4)。

it=sigmoid(Wt[ht-1,xt]+bi)

(4)

在得到當前時刻的ft和it后,更新上一時刻節點的候選狀態Ct-1→Ct,更新函數公式見式(5)。

Ct=ft·Ct-1+it·Ct

(5)

其中,

Ct=tanh(Wc[ht-1,xt]+bc)

(6)

(3)輸出門:輸出門根據當前時刻的輸入xt、上一時刻輸出ht-1和當前節點的候選狀態Ct來決定當前時刻的輸出,相關計算見公式(7)和公式(8)。

ot=sigmoid(Wo[ht-1,xt]+bo)

(7)

ht=ottanh(Ct)

(8)

2.2 LSTM模型的構建

本次研究通過R語言構建LSTM時間序列預測模型,考慮到本次研究僅包含美國每日累計確診病例這一個變量,并且數據量較大,故采用One-to-One LSTM時間序列預測模型。在搭建LSTM時間序列預測模型中,使用的是Keras框架中的Sequential模型[21],通過添加Layers圖層的方式構建了LSTM層和一個全連接層,模型根據LSTM層和全連接層自動創建相應的輸入層和輸出層。在LSTM層中,將時間步長設置為3,輸入特征設置為1。在編譯模型中,采用均方誤差作為模型的損失函數,使用Adam優化器來優化模型參數。在訓練模型中,將迭代次數設置為100,批量大小設置為10,學習率設置為0.001。

按照1.3介紹的數據劃分形式,將數據劃分為訓練集和測試集。將訓練集和測試集的數據轉換為適合LSTM模型輸入的數據結構后,運用訓練集的數據對模型進行訓練。模型訓練完成后,將測試集數據輸入到模型中,得到在測試集上預測累計確診病例數和真實累計確診病例數對比圖如下。

通過上圖可以看出,基于LSTM時間序列預測模型對美國每日累計確診COVID-19病例擬合效果較為良好,在測試集上真實值和預測值曲線重合程度較高。在真實值急劇上升階段,模型預測結果也較為準確,這說明LSTM時間序列預測模型很好的捕捉到了時間序列數據中的長期依賴關系,具備良好的非線性表征能力。

2.3 LSTM模型的評價

合理地選取模型評估的指標是非常重要的,不同的數據類型與預測模型的評價指標大多是不相同的??紤]到常見疫情的發展大多呈現指數趨勢,故在本次研究中采用均方根對數誤差(RMSLE)作為LSTM模型評價的指標。RMSLE對真實值和預測值進行取對數處理,在處理取值范圍較大且呈現對數趨勢的數據時,RMSLE懲罰欠預測大于過預測[14]。均方根對數誤差的計算公式見公式(9)。

(9)

將模型在測試集上的預測結果經過反歸一化處理后得到最終的預測值,將最終的預測值和測試集真實數據代入公式(9),得到在測試集上模型的均方根對數誤差RMSLE=0.000 6。RMSLE接近于0,進一步定量的說明了LSTM時間序列預測模型的擬合效果較好,可以較為準確地對新冠肺炎發展情況進行預測。

2.4 模型對比與分析

為了驗證LSTM模型預測美國新冠肺炎累計確診病例的準確性,在本次研究中,除基本的LSTM模型(Basic_LSTM)外,還建立了包含有Dropout層的LSTM模型(Dropout_LSTM),對美國新冠肺炎疫情發展趨勢進行預測。Dropout層可以在模型的訓練過程中以一定的概率將一部分神經元的輸出置為0,從而減少模型的復雜度,提高模型的泛化能力,防止模型過度擬合。在Dropout_LSTM模型建模中,將dropout層的丟棄率設置為0.5,其余參數設置同Basic_LSTM模型。二者在測試集上預測累計確診病例數和真實累計確診病例數對比圖如圖3。

圖3 不同模型預測結果對比

通過圖3可以看出,Basic_LSTM模型在訓練集上的預測效果明顯優于Dropout_LSTM模型。進一步計算得Basic_LSTM模型的均方根對數誤差RMSLE=0.000 6,小于Dropout_LSTM模型的均方根對數誤差RMSLE=0.003 9。其主要原因在于本次研究所選取的數據噪聲較小,使得Dropout_LSTM模型在訓練過程中較為保守,沒有充分利用數據集中的信息。

3 結論

新冠肺炎累積確診病例數據存在非線性信息,使用傳統時間序列預測方法對其進行預測時,預測精度較低,擬合效果較差?;谏鲜鰡栴},本文采用LSTM時間序列預測模型,對美國新冠肺炎疫情進行建模預測。結果表明,LSTM模型可以有效的處理數據間的非線性問題并且很好的捕捉數據中的長期依賴關系,對美國新冠肺炎累計確診病例數據的擬合效果較好。通過均方根對數誤差對模型進行評估,計算得在測試集上均方根對數誤差RMSLE=0.000 6,并且預測效果明顯優于添加隨機失活層的LSTM模型,說明建立的LSTM時間序列預測模型是切實可行的,可用于預測新冠肺炎疫情的發展趨勢。

猜你喜歡
公式新冠肺炎
新型冠狀病毒肺炎(四)
組合數與組合數公式
排列數與排列數公式
新冠疫苗怎么打?
新型冠狀病毒肺炎防護小知識
您想知道的新冠疫苗那些事
等差數列前2n-1及2n項和公式與應用
寧愿死于新冠,也要自由?
認識肺炎
珍愛生命,遠離“新冠”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合