?

ARIMA模型的建立及對中國肺結核月報告例數的預測效果研究

2020-06-09 05:21張順先邱磊張少言李翠胡駿田黎明鹿振輝
中國防癆雜志 2020年6期
關鍵詞:肺結核傳染病例數

張順先 邱磊 張少言 李翠 胡駿 田黎明 鹿振輝

結核病是由結核分枝桿菌引起的全球最流行的傳染性疾病之一,可發生于全身多臟器,以肺部受累最為常見[1],是世界上因單一病原體感染造成死亡最多的傳染病[2-3]。2019年全球新發肺結核患者超過1000萬例,肺結核相關的死亡患者超過120萬例[2]。近年來中國作為全球30個結核病高負擔國家之一[4],肺結核疫情具有患病率下降緩慢、疾病負擔巨大和地區不平衡等特點,防治任務艱巨[1, 5],準確掌握肺結核新發患者例數及流行特征,是開展肺結核相關健康教育、檢測技能培訓和配置相關衛生資源的前提和基礎。伴隨計算機軟件的進步,很多數學模型因其能夠較好地揭示傳染病隨時間發展的動態變化和預期結果相對準確等特點被廣泛應用于傳染病疫情的預測和研究,為疾病的防控提供積極參考[6-7]。

自回歸移動平均(autoregressive integrated moving average,ARIMA)模型從序列自相關的角度揭示了傳染病的時間序列發展規律,既能解決數據間的自相關問題,又能充分利用其中的季節效應特征擬合疾病發生的實際情況,短期預測效果較好[8-9],被廣泛應用于傳染病的預測預警。本研究采用該模型對我國(不含我國香港、臺灣、澳門地區,下同)肺結核月報告患者例數進行時間序列發展規律研究,以預測中國肺結核月報告患者例數,為結核病相關藥品的生產、采購和就診入院等衛生服務的供給預算提供科學參考。

資料和方法

一、資料來源

通過中國疾病預防控制中心主辦的《疾病監測》雜志公布的中國每月甲、乙、丙類傳染病疫情動態簡介,搜集2006年1月至2019年8月全國肺結核月報告患者例數(不含中國港澳臺地區)。采用SPSS 26.0軟件對2006年1月至2018年12月的全國肺結核月報告患者例數進行擬合ARIMA備用模型,再以2019年1—8月的數據評價備用模型的預測效果和篩選最優模型。疫情動態數據由中國各級各類醫療衛生機構通過《傳染病報告管理信息系統》在線報告、后期復核而產生。

二、ARIMA建模

1.時間序列的建立、特征分析及平穩化處理:建立時間序列,然后通過自相關系數函數圖(autocorrelation function,ACF)和偏相關系數函數圖(partial autocorrelation function,PACF)分析序列的平穩性,如果序列不平穩,將其通過自然對數轉換、一般差分和(或)季節差分等方法處理數據[10]。

2.模型識別:根據ACF圖、PACF圖和SPSS 26.0統計學軟件初步擬合的結果,嘗試對模型進行初步識別和定階。預先考慮使用ARIMA(p,d,q)或ARIMA(p,d,q)×(P,D,Q)模型,結合以往經驗,p和q一般不會超過3階,d不會超過2階,P、D和Q不會超過2階,p、q、P和Q可依次取0、1和2并由低階到高階逐個嘗試,同時d和D依次取0和 1進行嘗試[10-11]。

3.備選模型的整體診斷和參數判讀:通過非線性最小二乘法估計模型參數,然后對模型殘差進行白噪聲(Ljung-BoxQ)檢驗,以判斷模型整體的合理性。然后再根據模型整體的檢驗指標(選擇P>0.05的統計量,且Ljung-BoxQ值越小越好)、整體模型是否簡潔[即p、d、q和(或)P、D、Q的階越低越簡潔]、ARIMA模型各參數[自回歸法(autoregressive,AR),平均移動法(moving average,MA),季節自回歸法(seasonal autoregressive,SAR),季節移動平均法(seasonal moving average,SMA)]是否有意義、整體模型的平穩決定系數(stationary R-square,R2;越大越平穩)、整體模型的標準化貝葉斯信息準則值(normalized bayesian information criterion,NBIC;越小越好),及整體模型的均方根誤差(root mean square error,RMSE;越小越好)來篩選備選模型[7, 12]。

圖1 2006—2018年全國肺結核月報告患者例數時間序列圖

4.最優模型的確定:在滿足模型成立的基本條件、完成備選模型的選擇后,從預測值相對誤差越小模型越優的原則出發[13],應用不同的備選模型去預測2019年1—8月的全國肺結核月報告患者例數,再與2019年1—8月實際報告的患者例數進行比對,選擇預測平均相對誤差最小的模型為最優模型。

5.模型的預測應用:使用最優模型預測2019年9月至2020年12月我國每月的肺結核新發患者例數。

三、 統計學處理

采用Excel 2019軟件對2006年1月至2019年8月的全國肺結核月報告患者例數進行整理,采用SPSS 26.0軟件進行ARIMA模型預測分析,通過比較預測數據和實際數據的相對誤差來確定最優模型,并進行2019年9月至2020年12月數據的預測應用。

結 果

一、中國肺結核月報告患者例數的發病趨勢分析

2006年1月至2018年12月中國肺結核報告患者總計為16 905 732例,平均年報告患者例數為1 300 441 例,從2006—2008年,報告患者例數緩慢上升(2006年為1 454 232例、2007年為1 389 072例、2008年為1 532 472例),從2009年開始年報告患者例數逐步下降。2006年1月至2018年12月中國肺結核平均月報告患者例數為108 370例,其中,2015年2月報告患者例數最少(75 541例),2008年3月報告患者例數最多(156 679例)。中國肺結核報告患者例數總體上呈現先短暫上升再緩慢下降的流行特征(圖1),即非平穩序列,同時也呈現出一定的季節特征,每年2—4月為流行高峰、11月到次年1月為流行低谷。

二、模型的參數估計和模型診斷

以2006年1月至2018年12月中國肺結核月報告患者例數建立時間序列,發現其ACF圖和PACF圖的相關系數在延遲數目12[即“滯后數(lags)”]時尚未落入95%的置信區間內,說明序列(連續12個月的數據)不穩定,原始數據可能在12個月的周期上有內在關聯,遂將數據進行自然對數轉化和1階差分處理,需建立模型為ARIMA(p,d,q)或ARIMA(p,d,q)×(P,D,Q)。在模型總體的Ljung-BoxQ值所對應的P值均>0.05的情況下,再根據模型是否簡潔、模型各參數差異是否均有統計學意義(要求各參數的t值所對應的P值均<0.05)篩選出12個基本模型(表1)。然后再從這些基本模型中篩選出R2最大的模型ARIMA(1,0,1)(0,1,1)12,R2=0.707],RMSE最小的模型

表1 根據2006—2018年中國肺結核月報告患者例數建立的ARIMA模型

注AR:自回歸法;MA:平均移動法; SAR:季節自回歸法;SMA:季節移動平均法;R2:整體模型的平穩決定系數;NBIC:整體模型的標準化貝葉斯信息準則值;RMSE:整體模型的均方根誤差

ARIMA(0,1,2)(0,1,1)12,RMSE=9147.85]、NBIC最小的模型[ARIMA(0,1,1)(0,1,1)12,NBIC=18.355]、Ljung-BoxQ值最小的模型[ARIMA(1,1,1)(0,1,1)12,Ljung-BoxQ=8.797]作為備用模型。

三、最優模型的確定

從預測值相對誤差越小模型越優的原則出發確定最優模型。分別以備用模型ARIMA(0,1,1)(0,1,1)12、ARIMA(0,1,2)(0,1,1)12、ARIMA(0,1,1)(0,1,1)12和ARIMA(1,1,1)(0,1,1)12預測2019年1—8月中國肺結核月報告患者例數(表2),并與實際的月報告患者例數進行比較,發現ARIMA(0,1,1)(0,1,1)12模型的預測平均相對誤差最小(0.55%),預測效果較好;其余3種模型的預測平均相對誤差均較大(分別為3.01%、1.16%和0.58%),預測效果相對不理想。另外,從預測值最大相對誤差的角度講,ARIMA(1,0,1)(1,0,1)12的最大相對誤差為10.88%、ARIMA(1,0,1)(1,0,1)12的最大相對誤差為8.56%、ARIMA(1,1,2)(0,1,1)12的最大相對誤差為9.58%,均高于ARIMA(0,1,1)(0,1,1)12的最大相對誤差(8.17%),故最優模型確定為ARIMA(0,1,1)(0,1,1)12。

四、模型的預測應用

通過ARIMA(0,1,1)(0,1,1)12模型預測2019年9月至2020年12月中國肺結核月報告患者例數(圖2),結果顯示2019年9—12月預測患者例數分別為84 399(95%CI:98 844,71 586)例、79 928(95%CI:93 708,67 716)例、82 551(95%CI:96 884,69 858)例、82 598(95%CI:97 042,69 818)例;2020年1—12月預測患者例數分別為78 381(95%CI:92 488,65 941)例、75 614(95%CI:89 338,63 524)例、101 847(95%CI:120 486,85 444)例、95 075(95%CI:112 616,79 653)例、94 289(95%CI:111 825,78 887)例、89 862(95%CI:106 707,75 081)例、88 964(95%CI:105 770,74 231)例、84 980(95%CI:101 157,70 811)例、81 188(95%CI:96 761,67 561)例、76 873(95%CI:91 730,63 886)例、79 380(95%CI:94 834,65 882)例、79 410(95%CI:94 984,65 821)例(圖2)。預計2020年新發肺結核患者約1 025 863例,平均每月85 489例。

討 論

近來年,ARIMA模型、灰色模型和神經網絡等數理統計學因其能相對準確的探索傳染病的發生發展規律,在傳染病預測研究領域的應用非?;钴S,為傳染病的有效防控提供了科學參考和重要依據。ARIMA模型之所以能在疾病預測領域中廣泛應用,因其既吸收了傳統回歸分析的優點又發揮了移動平均的長處,可以將諸多影響傳染病發生發展的復雜因素(如人口流動、氣溫和濕度等因素)綜合統一并蘊含于時間變量中,借助趨勢變化、周期變化、隨機干擾和模型參數進行量化表達,是一種適用范圍廣、實用性強、預測精確度較高、預測效果優于回歸模型的預測方法。但從傳染病的長期趨勢來看,疫苗的出現和推廣會極大地改變相關傳染病的流行特征,如果采用ARIMA進行長期預測會出現一定的偏差,故ARIMA只適合短期預測,不適合長期預測[14]。另外,由于用ARIMA進行預測時一般需要10個以上的周期性變化的數據,故在急性傳染病的早期階段、未出現疾病流行的周期性變化趨勢之前,ARIMA不能做預測,如2019年年底開始在全球流行的新型冠狀病毒肺炎疾病(COVID-19),直至2020年3月30日仍不具備一個完整的周期性規律變化,如果以這段時間每天的報告患者例數進行ARIMA 預測,結果將出現很大的偏差。而對那些已出現過多個周期性趨勢的慢性傳染病(如肺結核),因其致病因素、影響因素、防控措施和策略(如疫苗等)不會在短時間內出現大的改變,導致ARIMA 對這類疾病的短期預測效果較好。

表2 2019年1—8月中國肺結核患者報告例數預測值與實際值比較情況

注平均相對誤差為2019年1—8月相對誤差之和/8×100%

圖2 最優模型ARIMA(0,1,1)(0,1,1)12預測2019年9月至2020年12月中國肺結核月報告患者例數擬合圖

肺結核是我國常見的一種對人群威脅較大的呼吸道傳染病。本研究根據2006年1月至2018年12月我國傳染病監測系統中肺結核報告病例數的變化趨勢,發現中國肺結核新發患者例數總體上呈緩慢下降的趨勢,可能與這些年中國肺結核大力推行短程督導化療方案有關,同時也與大力推廣肺結核患者的早發現、早診斷和早治療診治措施有關[15-16]。由于高速鐵路網的迅速發展加劇了人口遷移和流動,以及結核分枝桿菌耐藥性的出現和逐漸加重使得肺結核新發患者例數下降緩慢[17-18]。本研究發現中國肺結核發病總體在時間分布上具有鮮明的季節特征和周期變化趨勢,我國每年肺結核的發病高峰為2—4月,這可能與春節期間大量的結核病患者不按規定進行自我隔離治療,不采取戴口罩等防護措施,頻繁的流動和參加聚集性活動,造成較大范圍的傳播有關[17-18]。同時,2—4月是我國的冬春季,天氣寒冷,空氣污染指數相對較高,不利于家庭開窗通風,增加了呼吸道感染(包括肺結核)的發生和發展[3, 19]。因此,提高肺結核患者預防傳染病的自我意識,使其主動在家隔離、治療并佩戴口罩外出;同時,建議家庭每天開窗通風,可在一定程度上降低發生肺結核的風險。

本研究應用ARIMA模型對我國近年來肺結核新發患者例數進行分析,在掌握肺結核發病規律和流行特征的同時,探索預測效果較好的模型。準確預測肺結核的發病趨勢,不僅可評估防控措施的實施效果,同時對生產和采購抗結核相關藥品、診斷試劑、耗材和衛生服務、合理分配衛生資源、制定最優的控制策略和措施具有重要意義,有助于提升肺結核防控的預見性和主動性。本研究通過預測發現2020年我國新發肺結核患者約1 025 863例,平均每月85 489例,這和近幾年中國肺結核流行強度基本一致[12],但稍高于WHO的預測結果(90萬新發患者)[1],這可能與ARIMA更適合短期預測有關,ARIMA進行長期預測可能會高估結果。因此,我們認為在沒有其他因素干擾的情況下,2020年結核病防控相關的醫療資源、防控措施和力度仍需保持近2年的強度,不能降低各種相關資源的投入。

綜上所述,ARIMA模型對中國肺結核新發患者例數預測效果較好,可為肺結核的防治提供科學參考。但模型的建立和預測應用是個動態過程,需不斷根據積累的數據進行調整,從而提高預測精度。

猜你喜歡
肺結核傳染病例數
《傳染病信息》簡介
傳染病的預防
3種傳染病出沒 春天要格外提防
個性化護理應用在肺結核咯血護理中的價值
人工膝關節翻修例數太少的醫院會增加再翻修率:一項基于23 644例的研究
維生素C改善肺結核患者痰菌轉陰率及藥物肝損傷的研究
觀察糖尿病足護理“五部曲”的健康教育預防糖尿病足的發生的效果
孕晚期經會陰超聲評價宮頸各參數的臨床意義
人性化護理用于慢性腎病綜合征患者治療中的作用體會
愛情是一場肺結核,熱戀則是一場感冒
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合