缺失森林算法在缺失值填補中的應用

2014-03-10 07:04中南大學公共衛生學院流行病與衛生統計學系410078胡國清陳立章譚紅專

中國衛生統計 2014年5期

中南大學公共衛生學院流行病與衛生統計學系（410078）沈琳胡國清陳立章譚紅專

缺失森林算法在缺失值填補中的應用

中南大學公共衛生學院流行病與衛生統計學系（410078）沈琳胡國清陳立章譚紅?！?/p>

目的介紹R環境下缺失森林算法在缺失值填補中的應用并評價其填補效果。方法通過實際數據闡述填補估算流程，比較缺失森林算法與直接刪除法處理缺失數據的效果。結果當數據缺失率為10%時，缺失森林算法填補的效果明顯優于刪除法；當數據缺失率在20%時，兩種方法處理缺失值的效果都不太理想，效果相近。當缺失率達50%時，3種類型的變量估算的誤差已經較大，兩種方法的估算效果均欠佳。結論缺失森林算法在軟件操作上簡便，并且對數據結構和分布的要求寬松，可充分利用現有記錄的信息，能較為準確地反應調查的真實情況，在實際工作中具有較好的應用價值。

缺失森林隨機森林決策樹缺失值

缺失森林是國外學者近些年提出的一種新的非參數填補方法。這種算法基于隨機森林，隨機森林是一種自然的非線性建模工具，它可以處理混合類型的數據［1］。作為一種非參數方法，它允許數據中存在交互作用和非線性效應，同時對于數據的結構形式要求極少。它通過在第一步中用已觀測值訓練出一個隨機森林，然后再預測缺失值，最后進行重復迭代來處理缺失值問題。其突出特點是能處理混合類型的數據，即使在高維數據、交互作用和非線性數據結構的復雜情況下也不受限制。由于其準確性和穩健性，隨機森林已在一些復雜研究中得到了充分的應用［2-3］。隨機森林算法要求應變量是完整的，才能訓練出森林。故Stekhoven（2012年）在此基礎上做出了改進，提出了缺失森林算法，它可以直接用已觀測到的完整部分數據集訓練出的隨機森林來預測缺失值，而不依賴于因變量的完整性［4］。本文利用湖南省洞庭湖洪災區7～15歲兒童的創傷性應激障礙（posttraumatic stress disorder，PTSD）發生情況及其影響因素的流行病學調查資料，比較了缺失森林算法和直接刪除法處理缺失數據的效果，顯示數據缺失在不同比例情況下該法的應用效果，以反映其實際應用價值。

缺失森林填補步驟

假定數據是一個n×p維的矩陣（n例觀察對象，p個變量），即X＝（X1，X2，…，Xp），將其中任意一個可能含缺失值的變量記為Xs，在該變量上含有缺失值的觀察對象記為可將數據集分為以下四個部分：

（1）變量Xs的已觀測值，記為

（2）變量Xs的缺失值，記為

（3）在變量Xs上有觀察值的觀察對象的其他變量（除了變量Xs以外的），記為

（4）在變量Xs上為缺失值的觀察對象的其他變量（除了變量Xs以外的），記為

簡單來說，就是將在變量Xs上沒有缺失的所有個體當做訓練樣本，而在變量Xs上缺失的個體作為測試樣本。這里需要注意的一點是并一定是完全觀察到的變量，因為只是表示該觀察對象是在變量Xs上都是有觀測值的，同樣的也不一定是完全缺失的變量。

具體的填補步驟如下：首先，用均數填補或其他填補方法對X的所有缺失值作初步的猜測，并將變量Xs（s可能是p個變量中的任意一個，故s＝1，…，p）按照缺失值的數量升序排列（從缺失量最少的變量開始），令將這個初步填補后的矩陣為對于每一個變量Xs，缺失森林算法填補的主要過程是：

（3）重復此填補過程，直到符合停止標準γ，即新填補的數據矩陣和前一個數據矩陣的差值首次開始增加時（若含有兩種數據類型，則為兩種類型數據的矩陣差都增加時）。

應用舉例

1.實例資料

本研究資料節選自1999年11月至2000年5月對湖南省洞庭湖洪災區7～15歲兒童的創傷性應激障礙（PTSD）發生情況及其影響因素的流行病學調查，共計1892例資料完整的研究對象，模擬出含各種缺失比例（10%，20%，50%）的隨機缺失數據。本文中選取4個對兒童發生PTSD有關的變量作為自變量，以PTSD（二分類變量）為因變量，進行Logistic回歸分析，這些變量包括年齡（定量變量）、性別（二分類變量）、受災程度（等級變量）、受災經歷（即曾被水圍困等待救援與否，二分類變量）。統計分析過程在R軟件（2.15.2）中實現。

2.缺失森林基本程序語句

（1）缺失數據集的輸入及變量類型指定

d＝read.csv（“填補文件名.csv”，colClasses＝c（′factor′，′factor′，′numeric′，′factor′，′factor′））

＃指定文件路徑輸入填補數據集（csv格式），指定填補變量的類型。

library（m issforest）＃運行程序包

（2）用缺失森林算法進行填補

d.mis＜-prodNA（d，noNA＝0.1）＃模擬10%的隨機缺失

d.imp＜-missForest（d，variablew ise＝TRUE，ntree＝600，m try＝3）

＃用缺失森林算法逐個變量進行填補，設置相應的森林參數

（3）對填補后的數據集進行分析

fit＜-w ith（d.impS｜ximp，glm（ptsd～ax7＋age＋degree＋cx26，fam ily＝binom ial））

summary（fit）＃用logistic回歸得到參數估計值

3.分析結果

（1）評價等級

令用不同缺失值處理方法計算出的回歸系數為b1，用完整數據集計算出的回歸系數為b2，則相對誤差為（b1-b2）/b2×100%。優：填補后各回歸系數的相對誤差的絕對值≤10%；良：填補后各回歸系數相對誤差的絕對值≤20%；中：填補后各回歸系數的絕對值≤50%；差：填補后各回歸系數相對誤差的絕對值＞50%。

（2）評價標準

計算等級順位累加構成比（優＋良），如果累加優良率相同，可以參考相對誤差的大??；如果填補后有回歸系數相對誤差＞50%，則填補估算失效。

（3）填補結果

當缺失率為10%時，在6個變量中，缺失森林法填補后回歸系數符合優和良的標準的分別為3和2，而刪除法則分別為1和3；而且缺失森林法填補后的絕大部分回歸系數的相對誤差均小于刪除法的結果。詳見表1。

表1 10%缺失數據下不同處理方法的回歸系數及其相對誤差

當缺失率為20%時，缺失森林法填補后回歸系數符合優的標準為1個變量，而刪除法填補后回歸系數符合良的標準的變量數為1，填補效果相近，都不太理想。詳見表2。

當缺失率為50%時，缺失森林法填補后回歸系數符合優的標準為1個變量，而刪除法填補后回歸系數符合優的標準的變量數為0。綜合來講，雖然兩者處理效果都較差，但缺失森林法填補效果比刪除法稍好，刪除法對所有變量參數估算的誤差都已經遠遠大于50%，處理失敗。詳見表3。

表2 20%缺失數據下不同處理方法的回歸系數及其相對誤差

表3 50%缺失數據下不同處理方法的回歸系數以及相對誤差

討論

要減少調查中的缺失數據，主要應從事前預防和事后補救兩方面入手。事前預防是處理缺失數據最簡便且最有效的方法，但現實中由于條件限制，往往不能完全解決問題。一般而言，在事后補救上則需要對缺失數據進行處理。在以往的流行病學調查研究中，國內研究中對于處理缺失數據的重視程度不夠或存在方法誤用的情況，往往只是簡單地將有缺失值的對象剔除，僅對完全記錄對象進行分析［6］。在統計方法與計算機技術日新月異的今天，我們應該借助一些有效的新方法來合理地處理缺失數據。

通過本研究的模擬填補試驗發現，當數據缺失率為10%時，缺失森林算法填補的效果比用刪除法處理的效果要好得多；當數據缺失率在20%時，兩種方法參數估計的相對誤差都增加，兩種方法處理缺失值的效果相差不大，都不太理想；當缺失率達50%時，缺失森林的填補估算效果尚可，仍有1個變量的回歸系數估計達到優的標準，而此時刪除法對所有變量參數估算的誤差都已經遠遠大于50%，處理失敗。這說明缺失森林算法的填補效果在多數情況下都優于刪除法；但當缺失比例過大時，再好的處理方法也無濟于事。這與其他相關文獻得出的結論一致［7］。

缺失森林這種新的非參數算法具有良好的應用前景，它不僅能同時處理不同類型的變量組成的多變量混合數據，同時對數據分布的假定前提條件很少。缺失森林算法的計算效率較其他填補方法高，且不需要對數據進行標準化、啞變量分類編號等預處理，操作簡便易行［8-9］。Stekhoven等人的研究表明，缺失森林的填補效果優于已有的填補方法，如k最近距離填補或鏈式方程的多變量填補（multivariate imputation by chained equations，M ICE）。另外，缺失森林還可以通過袋外數據（OOB）填補誤差估計值，而不需設定檢驗數據或進行繁瑣的交叉驗證。即使當數據集為高維數據（即當變量數量可能大大超過觀察單位數）、變量間存在復雜的交互作用或非線性關系的情況下，缺失森林算法也能提供良好的填補結果［4］。因此，在處理大型復雜數據集的缺失值上，缺失森林將有明顯的優勢，尤其是在藥物流行病學以及分子流行病學領域有巨大的應用潛力。

本研究的數據僅僅來源于一項基于洪災的流行病學調查的模擬研究，因為是非平衡的觀察性數據，多變量的回歸系數彼此間有影響，故填補效果還有待進一步的研究深入探討，得到的結論可能存在一定的局限性。今后，可以利用更多復雜的生物學或醫學數據來驗證并使用該方法，也可將這種新方法與更多其他的缺失值處理方法進行比較研究。

總之，缺失森林算法為處理缺失數據提供了新的選擇，有關missForest程序包的更多擴展功能參見Stekhoven教授編寫的程序包說明。

1.方匡南，吳見彬，朱建平等.隨機森林方法研究綜述.統計與信息論壇，2011，26（3）：32-38.

2.武曉巖，李康.隨機森林方法在基因表達數據分析中的應用及研究進展.中國衛生統計，2009，26（4）：437-440.

3.李貞子，張濤，武曉巖.隨機森林回歸分析及在代謝調控關系研究中的應用.中國衛生統計，2012，29（2）：158-163.

4.Stekhoven DJ，Buhlmann P.M issForest—non-parametric m issing value imputation form ixed-type data.Bioinformatics，2012，28（1）：112-118.

5.Oba S，Sato M，Takemasa I，et al.A Bayesian m issing value estimation method for gene expression profile data.Bioinformatics，2003（19）：2088-2096.

6.Karahalios A，Baglietto L，Carlin，et al.A review of the reporting and handling ofm issing data in cohort studies w ith repeated assessment of exposuremeasures.BMC Medical Research Methodology，2012，12：96.

7.Enders CK.Applied M issing Data Analysis.New York：The Guilford Press，2010：37-54.

8.Little RJ，Rubin DB.Statistical Analysis w ith M issing Data.2nd ed. New York：W iley，2002：59-74.

9.Buuren SV，Oudshoom K.M ICE：Multivariate Imputation by Chained Equations in R.Journal of Statistical Software，2010，7（16）：1-68.

（責任編輯：郭海強）

Application of M issForest Algorithm for Im puting M issing Data

Shen Lin，Hu Guoqing，Chen Lizhang，et al（DepartmentofEpidemiologyandStatistics，SchoolofPublicHealth，CentralSouth University（410078），Changsha）

ObjectiveTo introduce the principle ofm issForest algorithm and its basic R procedure in imputingmissing data，and to assess the imputation effects ofm issForest.MethodsBased on real data sets w ith m issing variables and different missing rate，we introduce R procedure ofm issForest and compare the imputation results betweenm issForest and deletionmethod.ResultsM issForest outperforms deletionmethod asm issing rate is10%.As them issing rate is increasing by 20%，there are no obvious differences for thesemethods and the imputation effects of thesemethods dealing w ithm issing data are unsatisfactory.Whereasmissing rate ismore than 50%，the relative error of three kinds of variables for thesemethods is increasing dramatically，neithermethod is appropriate.ConclusionM issForest ismore attractive than othermultiple imputationmethods for its easy and simple usage in software，moreover it does not require assumptions about the distribution and structure of the data.W ith this new method，we canmake themostuse of the data in hand and havemore reliable results，so it isworth using w idely in practice.

M iss Forest；Random forest；Decision tree；M issing data

△通信作者：譚紅專，E-mail：tanhz99＠qq.com

缺失森林算法在缺失值填補中的應用

缺失森林填補步驟

應用舉例

討 論

討論