?

第二十七講 SVR對小樣本缺失數據的挖掘處理

2018-08-04 03:10徐靜安都麗紅
關鍵詞:決定系數標準偏差序號

徐靜安 吳 芳 都麗紅

第二十六講“支持向量機(SVM)簡介及DPS應用操作”簡要介紹了SVM的概念、原理、模型、算法及支持向量回歸(SVR)案例在DPS系統中的操作應用。由于SVM是基于小樣本的統計理論,在小樣本案例中,計算結果能獲得較好的統計效果。一些情況下,難以獲得“充分大”的大樣本實驗數據,例如:難以安排大范圍考察的試驗設計的場合,如中試以上規模的裝置;實驗周期較長的響應,如材料老化、蠕變,穩定性同位素平衡時間,農化盆栽試驗,弱腐蝕體系甲醇汽油的腐蝕行為等;實驗費用大的對象,如部件的破壞性檢測;等等。而與傳統的、經典的基于大樣本統計理論的算法相比,SVR在統計分析、數據挖掘中有其獨特功能。

此外,在數據樣本的收集中,有涉及歷史性的過去記錄,有涉及地域性的宏觀尺度記錄,也有在實驗中因種種原因導致部分輸入變量的缺失,難以保證數據的完整性。一般回歸算法無法處理缺失數據,而SVR算法具有處理缺失數據的功能。下面采用一個案例對一般回歸算法和SVR算法進行回歸精度對比,同時采用SVR對含缺失項數據進行回歸處理。

案例摘編于唐啟義著《DPS數據處理系統——實驗設計、統計分析及數據挖掘》(第二版)第25.1節第658頁,該案例為研究醫院所需要的人力,對某地區17家醫院調查了一組數據,考察5個變量因子[日平均病人數x1,月平均 X光透視人數x2,月平均所占用的床位天數x3,當地人口數相關的參數(人口數除以1000)x4,平均每個病人住院天數x5]與月平均使用的人小時數y之間的關系,數據表如表1所示。

在醫院所需要的人力數據例子中,有9個樣本含有缺失數據,數據缺失率達到9/17=53%,含缺失項的數據表如表2所示。

表1 17組完整數據

該案例包含M=5個輸入變量,共N=17組隨機數據,由于沒有可能進行試驗設計,屬于社會統計類隨機數據,N/M=17/5=3.4,為小樣本問題。對表1中的17組完整數據和表2中含缺失項的17組數據,分別采用二次多項式逐步回歸方法和SVM算法進行學習建模,比較其回歸效果。

一 SVR的擬合計算

1 對17組完整數據的計算

(1)將表1中的17組完整數據輸入DPS,選中數據塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,各參數設為默認值,計算結

表2 17組含缺失項的數據

果如下:

支持向量機系數

項目 rho Prob.

Const -0.4281 0.0693

α1 SV1 SV2 SV3 SV4 SV5

-1 -1 -0.9902-1 -0.9531-0.8401

-1 -0.885-1 -0.8848-1 -0.1221

………………

0.5101 1 1 1 1 -0.2878

各樣本實際值與擬合值對比:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 1009.6226 -443.1026

2 696.82 1087.6993 -390.8793

3 1033.15 1158.4982 -125.3482

4 1603.62 1421.6036 182.0164

5 1611.37 1428.2817 183.0883

6 1613.27 1801.5872 -188.3172

7 1854.17 1546.367 307.803

8 2160.55 1699.5056 461.0444

9 2305.58 2516.8053 -211.2253

10 3503.93 3692.2467 -188.3167

11 3571.89 2955.2134 616.6766

12 3741.4 3927.4732 -186.0732

13 4026.52 3835.5278 190.9922

14 10343.81 10166.245 177.5647

15 11732.17 11543.797 188.3732

16 15414.94 15232.666 182.2737

17 18854.45 18664.536 189.9138

相關指數R=0.99869

決定系數=0.99738

計算結果與《DPS數據處理系統——實驗設計、統計分析及數據挖掘》第43.4節第1 079頁的計算結果一致,證明軟件及操作正常。

(2)SVR計算時需要根據經驗對模型參數進行合適的調整,針對表1中的17組完整數據,默認ε-SVR回歸,核類型默認RBF核函數,設置參數Gamma=0.5,Cost=20,點“確定”進行計算,結果如下:支持向量機系數

項目 rho Prob.

Const -0.39725 0.063673778

α1 SV1 SV2 SV3 SV4

-6.3964-1.0000 -0.9902 -1.0000 -0.9531

-0.5338-0.8850 -1.0000 -0.8848 -1.0000

… … … … …

0.5281 1.0000 1.0000 1.0000 1.0000

各樣本實際值與擬合值對比:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 754.3669 -187.8469

2 696.82 885.3938 -188.5738

3 1033.15 852.3373 180.8127

4 1603.62 1422.6666 180.9534

5 1611.37 1544.7208 66.6492

6 1613.27 1799.0961 -185.8261

7 1854.17 1699.2218 154.9482

8 2160.55 1971.2461 189.3039

9 2305.58 2490.3879 -184.8079

10 3503.93 3683.8212 -179.8912

11 3571.89 3384.1579 187.7321

12 3741.40 3927.6738 -186.2738

13 4026.52 3880.1318 146.3882

14 10343.81 10162.0147 181.7953

15 11732.17 11548.3234 183.8466

16 15414.94 15226.429 6 188.5104

17 18854.45 18668.4301 186.0199

相關指數R=0.99959

決定系數=0.99917

計算結果表明,計算參數的調整、優化、有助于提高SVR的統計效果。

2 對17組含缺失項數據的計算

將表2中17組含缺失項的數據輸入DPS,選中數據塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,默認ε-SVR回歸,核類型默認RBF核函數,設置參數Gamma=0.5,Cost=20,點“確定”進行計算,結果如下:

支持向量機系數

項目 rho Prob.

Const -0.240427 0.171624867

α1 SV1 SV2 SV3 SV4 SV5

-0.8623-1.0000-0.9902-1.0000-0.9531-0.8401

-1.1279-0.8850-1.0000-0.8848-1.0000-0.1221

………………

0.5758 1.0000 1.0000 1.0000 1.0000-0.2878

各樣本實際值與擬合值對比:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 746.4817 -179.9617

2 696.82 876.8195 -179.9995

3 1033.15 1219.5511 -186.4011

4 1603.62 1418.2401 185.3799

5 1611.37 1420.9649 190.4051

6 1613.27 1798.8477 -185.5777

7 1854.17 2034.3811 -180.2111

8 2160.55 1979.5489 181.0011

9 2305.58 2486.7392 -181.1592

10 3503.93 3694.4714 -190.5414

11 3571.89 3382.0229 189.8671

12 3741.4 3555.2059 186.1941

13 4026.52 4184.9494 -158.4294

14 10343.81 10167.4259 176.3841

15 11732.17 11552.0609 180.1091

16 15414.94 15234.8054 180.1346

17 18854.45 18674.3155 180.1345

相關指數R=0.99957

決定系數=0.99914

計算結果表明,SVR算法對小樣本缺失數據處理能獲得較好的統計效果。

3 計算結果對比及相關討論

上述計算中擬合模型相關指數對比見表3。

從計算結果可知,采用SVM算法,對17組完整數據的擬合相關指數R和對17組含缺失數據的擬合相關指數R相當,說明SVR算法在處理8組完整數據加9組缺失數據,即數據缺失率達到53%時,仍可以提取出缺失數據中的有用信息,充分體現出其在處理小樣本問題時的優勢。

表3 擬合模型相關指數對比

二 算法預報計算

上述計算、比對、分析僅限于統計上的擬合功能,而當今數理統計領域開發出不同算法軟件的功能模塊,大都具有較強的擬合功能,評價一種算法模型的好壞,更需要考察不同算法的預報功能,可惜原案例無此項內容。

對算法模型預報功能的評價通常有兩種方法:一種是對訓練集,采用“留一法”求出press,進行比對分析;第二種是建立測試集進行驗證計算。

為了探索不同算法的預報功能,現從17組數據中隨機提取3組(第2,4,13組)作為測試集樣本,剩余的N=14組作為訓練集樣本,N/M=14/5=2.8,小樣本問題,采用二次多項式逐步回歸算法和SVR進行回歸計算,評價預測結果的好壞。

(1)采用二次多項式逐步回歸算法對17組完整數據中的剩余14組建立回歸模型,對第2,4,13組數據進行預測,結果如下:

回歸方程:

y=-7426.28906-1845.1406302×X1-

0.4271682968 ×X2+63.26921322×X3-44.40050542×

X4+3519.913415×X5-385.8870710×X5×X5+

375.6553905 ×X1×X5+0.07593567801×X2×X5-

12.443195223 ×X3×X5

方差分析表

變異來源 平方和 自由度 均方 F值 p值

回歸 4.59×1089 50972674 5559.168 1×10-7

殘差 36676.48 4 9169.119

總變異 4.59×10813

回歸系數 標準回歸系數 偏相關 t值 p值

X1-1845.14 -53.2561 -0.96444 7.297596 0.001875

X2-0.42717 -1.6416 -0.97505 8.784748 0.000926

X363.26921 55.68987 0.965787 7.448154 0.001736

X4-44.4005 -0.85545 -0.98688 12.22365 0.000257

X53519.913 0.969894 0.978138 9.407209 0.000712

X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004

X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447

X2×X50.075936 2.09125 0.980267 9.917849 0.00058

X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455

復相關系數R=0.999960 決定系數R2=0.999920

剩余標準差SSE=95.7555 Durbin-Watson統計量d=2.5854

調整相關系數Ra=0.999870

調整決定系數Ra2=0.999740

訓練樣本擬合值:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 610.4081 -43.8881

3 1 033.15 963.0159 70.13408

5 1611.37 1751.8510 -140.481

6 1 613.27 1 612.7010 0.569138

7 1854.17 1764.7250 89.44493

8 2160.55 2148.5900 11.95987

9 2305.58 2270.0490 35.53089

10 3503.93 3506.5050 -2.57484

11 3571.89 3579.4300 -7.54024

12 3741.40 3762.2790 -20.8793

14 10343.81 10331.0000 12.81042

15 11732.17 11735.6200 -3.44694

16 15 414.94 15 413.1500 1.79406

17 18854.45 18857.8800 -3.432 97

測試樣本預測值:

樣本序號 觀察值 預測值 預測偏差 預測標準偏差

2 696.82 843.9442 147.1242

4 1603.62-794.921 -2398.54 1971.8

13 4026.52 2611.822 -1414.7

(2)針對 17組完整數據,采用 SVR,以第 2、4、13組數據作為測試樣本,其他數據作為訓練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數,設置參數 Gamma=0.3,Cost=20,點“確定”進行計算,結果如下:支持向量機系數

項目 rho Prob.

Const-0.356110.063326

α1 SV1 SV2 SV3 SV4 SV5

-4.66463-1 -1 -1 -0.97101 -0.94769

3.726036 -0.98039-0.96486-0.98042-1 -1

… … … … … …

0.553303 1 1 1 1 -0.36308訓練樣本擬合值:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 756.746 -190.226

3 1033.15 855.7748 177.3752

5 1611.37 1788.403 -177.033

6 1613.27 1800.227 -186.957

7 1854.17 1876.436 -22.2655

8 2160.55 1968.713 191.8368

9 2305.58 2491.968 -186.388

10 3503.93 3313.772 190.1577

11 3571.89 3380.206 191.6835

12 3741.40 3921.155 -179.755

14 10343.81 10170.09 173.7226

15 11732.17 11556.64 175.5282

16 15414.94 15259.42 155.5162

17 18854.45 18668.6 185.8466

相關指數R=0.99966

決定系數=0.99932

測試樣本預測值:

樣本序號 觀察值 預測值 預測偏差 預測標準偏差

2 696.82 1593.944 897.124

4 1603.62 749.4422 -854.18 894.9

13 4026.52 3767.107 -259.41

(3)17組含缺失項的數據,采用SVR,以第2、4、13組數據作為測試樣本,缺失率9/14=64%,其他數據作為訓練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數,設置參數Gamma=0.3,Cost=1,點“確定”進行計算,結果如下:

支持向量機系數

項目 rho Prob.

Const-0.35402 0.142411

α1 SV1 SV2 SV3 SV4 SV5

-0.64801-1 -1 -1 -0.97101 -0.94769

-0.77518-0.96486-0.98042-1 -1 0

… … … … … …

0.464509 1 1 1 1 -0.36308

訓練樣本擬合值:

樣本序號 觀察值 擬合值 擬合誤差

1 566.52 747.4165 -180.897

3 1033.15 1214.047 -180.897

5 1611.37 1436.007 175.363

6 1613.27 1794.589 -181.319

7 1854.17 2094.739 -240.569

8 2160.55 1173.97 986.5798

9 2305.58 2796.808 -491.228

10 3503.93 5938.361 -2434.43

11 3571.89 2222.868 1349.022

12 3741.4 3549.414 191.986 2

14 10343.81 10160.17 183.6415

三 分析討論

預報功能對比計算結果匯總見表4。

從上述結果匯總表可以看出:

15 11732.17 11 915.03 -182.859

16 15414.94 15234.02 180.9159

17 18 854.45 18668.4 186.0548

相關指數R=0.98984

決定系數=0.97978

測試樣本預測值:

樣本序號 預測值 觀察值 偏差 預測標準偏差

2 3013.668 696.82 2316.85

4 539.3487 1603.62 -1064.3 1927.9

13 3060.658 4026.52 -965.86

(1)在N/M=2.8小樣本條件下,由于訓練集是隨機組合樣本,二次多項式逐步回歸算法盡管表現出良好的R,S擬合功能,但預測標準偏差比擬合S大了1~2個數量級,預報功能欠佳。

表4 預報功能對比計算結果匯總

(2)用SVR計算得到的預測標準偏差遠小于用二次多項式逐步回歸算法得到的預測標準偏差。因為對于隨機樣本而言,N/M=2.8,顯然是小樣本數據,說明基于小樣本統計理論的SVR算法具有稀疏性、穩健性特點;而二次多項式逐步回歸算法是基于樣本“充分大、無限大”的大樣本統計理論,樣本不夠“充分大”,會影響統計結果的穩定性,尤其影響預報精度。

(3)二次多項式逐步回歸算法的預測標準偏差和用SVR計算含缺失項數據的預測標準偏差相當,充分說明了SVR對缺失數據及小樣本問題的處理能力。但是對于N/M=2.8的小樣本,缺失率高達64%時,SVR預測標準偏差還是偏高,因此需要盡可能控制缺失率。

(4)關于樣本量大小問題,《化學計量學方法》指出,對無試驗設計的隨機樣本,采用一般回歸分析,根據經驗規則應滿足N/M>5。筆者理解這是樣本“充分大”的條件。對基于試驗設計及二次多項式逐步回歸算法,N/M有所降低,我們將作進一步討論。但SVR處理小樣本、含缺失數據的獨特功能值得學習、應用、推廣。

都麗紅在天津大學讀博士期間就關注人工神經網絡等算法,我們時有討論。這段時間她也支持吳芳等青年同志,結合在研項目探索學習SVR算法。

本文定稿于2015年五一假期,科技工作者要善于學習新知識,敢于探索新領域,勤于實踐“數字化技術+”的科技創新開發的新模式。五一假過后是五四青年節,青年同仁們努力啊,勞動托起夢想。

帝斯曼Arnitel HTTPC為汽車行業帶來柔性增壓熱進氣管新標準

最近,荷蘭皇家帝斯曼集團的耐高溫材料家族又添新成員——Arnitel HTTPC。

利用Arnitel HT TPC材料方案幫助汽車廠商打造極具創新性的一體式柔性熱增壓管,實現生產工藝一步成型,不僅極大地提高了生產效率,還可將生產成本減少約50%,減重達40%。同時,大幅降低了發動機運行中熱增壓管變形、泄漏和脫開的風險,為汽車行業帶來柔性增壓熱進氣管新標準。

猜你喜歡
決定系數標準偏差序號
傾斜改正在連續重力數據預處理中的應用
基于Python語言路徑分析矩陣算法運演
不同規格香港牡蠣殼形態性狀對重量性狀的影響
2種貝齡合浦珠母貝數量性狀的相關與通徑分析
基于顏色讀數識別物質濃度的數學模型研究
平滑與褶皺表面目標的散射光譜的研究
技術指標選股
技術指標選股
技術指標選股
技術指標選股
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合