?

加權多核支持向量回歸機在水質預測中的應用

2016-12-23 06:00張書新馬旭東陳慧穎
通化師范學院學報 2016年10期
關鍵詞:訓練樣本向量水質

張書新,馬旭東,陳慧穎,王 眾

(長春工業大學 基礎科學學院,吉林 長春 130012)

?

加權多核支持向量回歸機在水質預測中的應用

張書新,馬旭東,陳慧穎,王 眾

(長春工業大學 基礎科學學院,吉林 長春 130012)

文章提出了一種加權組合多核支持向量機的水質預測方法.在支持向量回歸機中,核函數及其參數選擇與樣本復雜情況密切相關,采用單一核函數的支持向量回歸機方法在水質預測中難以達到很好的效果.首先提出的多個不同類型核函數加權組合成的多核支持向量回歸機,避免了核函數選擇的盲目性和局部最優等非線性優化問題,其次針對各樣本重要程度的差異,對于每一個樣本的懲罰系數和誤差限都給予不同的權重,即利用加權系數的多核支持向量回歸機來控制樣本異方差對回歸預測結果的干擾制約.最后以遼河流域研究區內傍河型地下水水質信息數據作為研究對象,運用多核加權支持向量機的理論和算法建立了水質預測模型.實例表明,該方法對水質預測有較好的結果.

多核學習;加權支持向量機;預測模型

水是地球上的所有生物得以生存的基本物質條件之一,水資源是維持地球生態物質環境可持續發展的關鍵所在.因此準確地預測水資源的質量,是對水資源進行管理和污染控制的有效手段,也是進行水資源治理和合理開發利用的基礎工作[1].

近年來,根據國內外專家學者對水質預測的研究成果,目前常用的水質預測方法有:數理統計預測方法[2],混沌理論預測法[3],神經網絡模型預測法[4],水質模擬模型及灰色系統理論預測法[5].伴隨著智能算法的興起和發展,人工神經網絡對水質預測方面的問題已取得了豐碩的成果,但也存在著不足,如神經網絡遵循經驗風險最小化原則,在訓練樣本時,往往會陷入局部極小點或過擬合學習的狀況.因此,Vapnik 基于統計學習理論提出的新型機器學習方法——支持向量回歸機[6].對于小樣本,非線性、高維數和局部極小點等實際問題支持向量回歸機有著很好地解決能力和較強的學習泛化能力,因此而成為了當前的研究熱點之一.許多學者把支持向量機應用在各個方面的預測研究問題上,如于永慶將支持向量機應用于跳頻序列研究中[7],戴初福等人建立了滑坡災害空間預測的支持向量機模型[8].在水質預測方面,學者們也做了大量的探究工作[9-10].

本文在前人研究的基礎上,針對地下水的特殊性,在傳統的支持向量回歸機的基礎上,改進并建立加權多核支持向量回歸機,并應用此模型進行水質濃度預測,并與傳統的水質預測方法相比較,結果表明,此方法具有較好的預測能力.

1 傳統支持向量機回歸理論

支持向量回歸機(SVR)是在統計學習理論的VC維理論和結構風險最小化原理的基礎上建立的,憑借有限樣本在學習精度(模型的復雜性)和學習能力(模型的推廣性)之間探求最佳折中,以獲得學習機的實際風險最小化.

給定訓練樣本集{(x1,y1),(x2,y2),…,(xl,yl)}?Rn×R,運用一非線性映射函數φ把普通樣本空間映射到高維特征空間(Hilbert空間)之后再做線性回歸,其實就是求解凸約束條件下的二次規劃問題.考慮其允許誤差ε的情況,引入松弛變量ξi或ζi及相應的懲罰系數C.

設回歸函數f(x)=(ω·φ(x))+b,式中:ω為權值變量,b為偏置.于是,該問題求解的標準SVR模型為

(1)

根據最優化理論得到求解最優化問題:

(2)

式中:K(xi,xj)=(φ(xi)·φ(xj))是核函數.

(3)

2 加權多核支持向量回歸機

考慮到數據分布復雜性,采用不同核函數的SVR模型得到的結果也會有很大不同.不存在無條件性能優越于其他核函數的核函數.因此采用全局型的多項式核函數和局部型的高斯徑向基核函數的混合加權得到如下核函數

(4)

式中:多項式核函數K1=((xi·xj)+1)d,高斯徑向基核函數K2=exp(-(xi-xj)2/2σ2).因為ρ≥0,K=ρK1+(1-ρ)K2為對稱半正定矩陣,滿足核函數條件,所以K為可行核函數.每個核函數矩陣Ki按下列算式進行標準化

(5)

綜上得到求解二次約束下的二次優化問題

(6)

其中,c=tr(K).解出a和a*的值,可得到最優回歸函數

(7)

3 應用實例

3.1 研究對象

本文以遼河流域研究區內傍河型地下水水質信息數據為研究對象.選用2000-2014年遼河流域傍河型地下水研究區內設第5號井所測氨氮濃度的15個監測數據作為訓練樣本和檢驗樣本,如表1所示.由于支持向量機具有識別非線性問題能力的優點,這里使用加權多核支持向量機建立水質預測模型.

表1 2000-2014年研究區地下水#5所測的氨氮濃度信息資料(mg/L)

3.2 水質預測的加權多核支持向量機模型

首先將監測數據按下式進行歸一化處理至區間[0, 1]內

式中:xmax,xmin分別是監測數據中的最大值和最小值.

選用不同懲罰函數C和參數σ,ε,ρ,使用網格優化算法計算參數,得到C=500,σ2=128,ε=0.01,ρ=0.5時,對樣本產生的誤差相對較小,模型的預測精度較高.

3.3 數據擬合

本文使用MATLAB軟件中的Libsvm包建立加權多核SVR預測模型,取k=7,確定訓練樣本為8個.加權多核SVR模型與SVR模型的預測結果如表2所示.

表2 加權多核SVR模型與SVR模型的預測結果

從表2可以看出,改進的SVR預測模型的平均相對誤差是3.11%,而傳統的SVR預測模型的平均相對誤差是9.89%,BP神經網絡的平均相對誤差是12.60%,相比較而言,改進的SVR預測模型的預測精度更高,更接近實測值,具有更強的學習能力,應用于水質預測的評價中具有廣闊的前景.

圖1 改進SVR模型、傳統SVR模型和BP神經網絡預測值與實際值的擬合

從圖1可以看出,改進的SVR預測模型整體上遠遠優于傳統SVR預測模型.在有限樣本情況下,通過對SVR的核函數及控制異方差兩方面的改進,可以看出改進的SVR預測模型的回歸函數更平滑,擬合度更高,從而提高了模型的泛化應用能力.

4 結論

本文在研究SVR理論的基礎上,提出一種基于改進的SVR的預測模型,并將其應用于遼河流域傍河型地下水水質預測的問題中.結果表明,改進的SVR預測模型的訓練樣本的擬合精度及預測精度均較高,具有很好的學習、泛化能力.與傳統的SVR預測模型和BP神經網絡相比較而言,本文提出的改進的SVR預測模型,其擬合精度及預測精度更具優勢.另外本文中的水質樣本數據采集的時間跨度較大,采用改進的SVR的預測模型,能獲得更充分合理的數據信息,從而提高了處理此類問題的性能.

[1]Huang G H, Xia J. Barriers to sustainable water-quality management[J].Journal of Environmental Management, 2001, 61(1):1-23.

[2]Sun Z B, Wang B L, Hai-Feng J I et al. Water quality prediction based on probability-combination[J].china Environmental Science,2011,31(10):1657-1662.

[3]徐敏,曾光明,蘇小康.混沌理論在水質預測中的應用初探[J].環境科學與技術, 2004, 27(1):51-54.

[4]樹錦. 基于人工神經網絡方法的水質預測初探[J].環境科學與管理, 2006, 31(1):44-46.

[5]黃廷林,盧金鎖,韓宏大,等.地表水源水質預測方法研究[J].西安建筑科技大學學報, 2004, 36(2):134-137.

[6]Vapnik V N. The Nature of Statistical Learning Theory[M]. New York:Springer, 2000.

[7]余永慶.多核支持向量機在跳頻預測中的應用研究[D].蘭州:蘭州大學,2014.

[8]戴福初,姚鑫,譚國煥.滑坡災害空間預測支持向量機模型及其應用[J].地學前緣, 2007, 14(6):153-159.

[9]梁雪春,龔艷冰,肖迪.一種多核加權支持向量機的水質預測方法[J].東南大學學報, 2011, 41(9):14-17.

[10]夏瓊,錢家忠,陳舟.基于支持向量機的淮南市淺層地下水水質評價[J].水文地質工程地質,2009, 36(1):56-59.

(責任編輯:陳衍峰)

Application of Weighted Multi-kernel Support Vector Regression in Water Quality Prediction

ZHANG Shu-xin, MA Xu-dong, CHEN Hui-ying, WANG Zhong

(CollegeofBasicScience,ChangchunUniversityofTechnology,Changchun,Jilin, 130012,China)

A method of water quality prediction for weighted combined multi-kernel support vector machine (SVM) is proposed. In a support vector regression machine, kernel function and its parameter selection are closely related to the complexity of the sample. Experimental results show that the method has good results for water quality prediction.

Multi-kernel Learning; Weighted Support Vector Machine; Prediction Model

2015-10-12

國家自然科學基金項目“基于三維隨機模擬的傍河型水源地污染物遷移轉化規律研究”(51278065)

張書新,山西柳林人,長春工業大學基礎科學學院在讀碩士.

O242

A

1008-7974(2016)05-0027-03

10.13877/j.cnki.cn22-1284.2016.10.009

猜你喜歡
訓練樣本向量水質
向量的分解
聚焦“向量與三角”創新題
人工智能
關于水質監測對環境保護的意義
一月冬棚養蝦常見水質渾濁,要如何解決?這9大原因及處理方法你要知曉
這條魚供不應求!蝦蟹養殖戶、垂釣者的最愛,不用投喂,還能凈化水質
圖像識別在水質檢測中的應用
基于小波神經網絡的網絡流量預測研究
寬帶光譜成像系統最優訓練樣本選擇方法研究
向量垂直在解析幾何中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合