?

一種基于高斯分布的SVM回歸方法

2016-09-06 08:55郭金玲
現代計算機 2016年19期
關鍵詞:高斯分布高斯向量

郭金玲

(山西大學商務學院信息學院,太原 030031)

一種基于高斯分布的SVM回歸方法

郭金玲

(山西大學商務學院信息學院,太原 030031)

核函數參數選擇是支撐向量機(SVM)研究的主要問題之一。提出檢驗樣本是否呈高斯分布的方法,確定最優核參數選擇的依據,采用兩組數據集分別進行回歸實驗,驗證所提出方法的有效性。

支撐向量機;回歸;高斯分布

0 引言

支撐向量機是上世紀90年代V.Vapnik提出的一種機器學習方法,該方法可用于解決大數據領域中的單分類、多分類以及預測問題等[1-3]。許多學者將該技術應用于空氣監測、金融評測、醫學分析、地質勘查等實際問題的解決過程中。胡世前等利用SVM構建了預測精度較高、有效檢測大氣質量的預警系統,實驗表明該預警系統的高效性[4]。蔡丹莉等利用SVM技術,結合蛋白質特征,對蛋白質相互藥理作用及性能影響進行了高效預測[5]。王奉偉等在分析了大壩變形有關數據的特定規律基礎上,利用SVM方法實現了對大壩變形的高精度、多尺度預測[6]。

SVM方法通過引入核函數,將樣本映射到高維空間實現預測及分類,其預測最優化過程可描述為:

經過轉化處理,采用最小二乘法求得a和b的值,回歸函數如下:

由于高斯核具備計算量小、泛化性能高等優點,目前被廣泛應用于SVM分類及預測模型中[7-8]。在實際問題的解決過程中,核函數的參數選取是最為關鍵的,而核參數的選取是一直以來的研究熱點。本文探討了在樣本基本符合高斯分布時,如何高效正確選取核參數的過程,實驗結果證明該方法的有效性。

1 實驗樣本集

文中選取了兩組樣本集進行實驗,樣本集D1是人工構造的高斯分布數據集,具體分布見圖1;樣本集D2呈不規則分布,具體見圖2。

圖1 高斯分布數據集D1

圖2 不規則分布數據集D2

2 核參數選取方法

對于實驗樣本集{(x1,y1),…,(xl,yl)},采用以下算法檢驗其是否呈高斯分布,具體過程如下[9-10]:

步驟1:取m=n,將實軸分為n+1個區間;

步驟2:采用極大似然法計算出α,σ的估計值;

步驟3:計算出統計量v'

步驟4:若v'近似服從x2分布,則斷定該樣本集呈高斯分布,同時在以上判斷過程中,可計算出形狀分布參數。

結論:如果實驗樣本集基本呈高斯分布,采用高斯核進行回歸實驗時,其最優核參數可以選取樣本集的形狀分布參數。

3 數值實驗

采用文中的方法對樣本集D1、D2分別檢測,通過以上四個步驟的計算,可得到結論:D1呈高斯分布,且形狀參數為0.7;D2不呈高斯分布。分別采用高斯核SVM和多項式核SVM對D1和D2進行回歸實驗,采用不同核函數參數進行多次回歸實驗,具體實驗結果圖見圖3、圖4、圖5、圖6、圖7及圖8。

圖3 D1回歸圖(高斯核,σ=0.7)

圖4 D1回歸圖(高斯核,σ=1)

圖5 D1回歸圖(高斯核,σ=10)

圖6 D1回歸圖 (多項式核,d=2)

圖7 D2回歸圖(高斯核,σ=1)

圖8 D2回歸圖 (多項式核,d=3)

通過比較以上數值實驗,可以看到:數據集呈高斯分布時,采用高斯核SVM,且核參數和其形狀參數一致時,回歸效果最好,擬合度最高且支持向量個數較少。

4 結語

本文探討了數據集呈高斯分布時,如何高效選取核函數及參數的過程。首先給出了判斷數據呈高斯分布的方法,采用人工構造的數據集進行了數值實驗,實驗結果表明文中提出的方法的正確性及有效性。

[1]W.J.Wang,Z.B.Xu,W.Z.Lu,X.Y.Zhang.Determination of the Spread Parameter in the Gaussian Kernel for Classification and Regression[J].Neurocomputing,2003,55:643-663.

[2]K.B.Duan,S.Keethi,A.N.Poo Evaluation of Simple Performance Measure for Tuning SVM Hyperparameters[J].Neurocomputing, 2003,51:41-59.

[3]V.Cherkassky,Y.Q.Ma.Practical Selection of SVM Parameters and Noise Estimation for SVM Regression[J].Neural Networks,2004, 17:113-126.

[4]胡世前,姜倩雯,凌冰,尹偉東.基于改進支持向量機的空氣質量監測預警模型[J].江蘇大學學報(自然科學版),2016,34(4):38-42.

[5]蔡丹莉,郭 紅.基于混合核函數SVM的蛋白質相互作用預測方法[J].福州大學學報(自然科學版),2014,42(6):834-840.

[6]王奉偉,周世健,周清,池其才.局部均值分解結合支持向量回歸的大壩變形預測[J].測繪科學,2016,34(3):42-47.

[7]B.Krawczyk,M.Wozniak,F.Herrera.On the Usefulness of One-Class Classifier Ensembles for Decomposition of Multi-Class Problems[J].Pattern Recognition,2015,48(12):3969-3982.

[8]Wang Xiao-ming,Chung F L,Wang Shi-tong.Theoretical Analysis for Solution of Support Vector Data Description[J].Neural Networks,2011,24(4):360-369.

[9]A.T.Walden.NonGaussian,Reflectivity,Entropy,and Reconvolution[J].Geophysics,2011,50(12):2862-2888.

[10]趙倩,李宏偉等.一種產生廣義高斯分布隨機數的算法[J].應用數學,2010,5:64-69.

Support Vector Machine;Regression;Gauss Distribution

A Kind of SVM Regression Method Based on Gaussian Distribution

GUO Jin-ling
(School of Information,Business College of Shanxi University,Taiyuan Shanxi 030031)

The kernel parameter selection is one of the key problems for support vector machine (SVM).Presented a new way to select the kernel function and its parameter,it is based on the characteristics of data distribution.Presents an approach to determine Gauss distribution, and then on the basis of determining Gauss distribution,discusses how to select the kernel function and its parameter.The simulation experiments demonstrate the feasibility and the effectiveness of the presented approach.

1007-1423(2016)19-0006-03

10.3969/j.issn.1007-1423.2016.19.002

山西省科技廳自然科學基金資助項目(No.2014011018-1)、山西大學商務學院院基金(No.2015009)

郭金玲(1982-),女,山西長子人,碩士研究生,講師,研究方向為機器學習與數據挖掘

2016-06-25

2016-07-01

猜你喜歡
高斯分布高斯向量
向量的分解
聚焦“向量與三角”創新題
數學王子高斯
天才數學家——高斯
在航集裝箱船舶搖擺姿態的概率模型
改進的自適應高斯混合模型運動目標檢測算法
改進RRT在汽車避障局部路徑規劃中的應用
一種基于改進混合高斯模型的前景檢測
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合