?

基于支持向量機分類的嘉陵江草街水庫甲藻水華預警*

2015-05-06 07:01劉朔孺張方輝
湖泊科學 2015年1期
關鍵詞:甲藻水華正確率

劉朔孺,楊 敏,張方輝,張 晟**

(1:重慶市環境科學研究院,重慶 401147)(2:重慶大學城市建設與環境工程學院,重慶 400045)

基于支持向量機分類的嘉陵江草街水庫甲藻水華預警*

劉朔孺1,2,楊 敏1,張方輝1,張 晟1**

(1:重慶市環境科學研究院,重慶 401147)(2:重慶大學城市建設與環境工程學院,重慶 400045)

嘉陵江草街水庫自建成后2011-2013年連續3年發生甲藻水華現象,給當地經濟發展和生態安全帶來影響.根據2011年5月至2013年7月草街水庫大壩上、下游8個斷面的逐月調查數據,利用支持向量機在處理小樣本問題、非線性分類問題和泛化推廣方面的優勢,構建了基于支持向量機分類的草街水庫甲藻水華預警模型.結果表明,利用本月理化數據和本月倪氏擬多甲藻(Peridiniopsisniei)密度數據建立的模型,對測試樣本取得了80%以上的判別正確率,且對甲藻水華樣本的判別正確率為100%.因此,支持向量機作為新興的機器學習方法,可以為環境管理部門發布水華預警信息提供科學依據,并在環境保護領域具有廣闊的應用前景.

支持向量機;甲藻水華;草街水庫;倪氏擬多甲藻

近年來,隨著我國經濟的高速增長,環境生態問題日益突出.而湖泊水庫作為居民飲用水重要的水源地,其富營養化已成為影響我國居民生活質量的一個普遍性問題.目前,我國有66%的湖泊、水庫處于富營養化水平[1],并且近年來全國不同地區水華的頻發更是令人擔憂,太湖、巢湖、滇池的藍藻水華[2-4],三峽水庫上游各支流甲藻水華均對當地人民用水安全造成嚴重影響[5-6],因此采取有效措施防治水華已成為當地環境管理部門的當務之急.

目前國內外對于淡水水華監測預警研究多集中在藍藻方面,提出了藍藻水華形成的“四階段理論”[7],并利用衛星遙感和數學模型成功對藍藻水華的運動趨勢和發生時間進行預測預警[8-11].與大多數藍藻水華種類不同,甲藻具有垂直遷移特性,其白天趨于在水體表層聚集分布,晚上趨于在水體中隨機分布,因此其水華形成和消亡機制與藍藻具有明顯差別[12].雖然近些年國內已有關于淡水甲藻水華的報道,但均為水華暴發原因和暴發后的調查研究[5-6,13-16],對于甲藻水華的預警研究還鮮有報道.

Vapnik等于1995年提出的支持向量機(SVM)機器學習方法屬于數據驅動模型[17],它不僅克服了水質生態模型對于大量數據樣本的需要,還解決了多元統計回歸簡單線性化的問題.而與神經網絡等傳統機器學習方法相比,也不必考慮參數與網絡結構的調整,并且模型輸出結果易于解釋[18].目前國內外利用支持向量機進行水華預警也取得了一定進展[18-19],本文利用支持向量機分類方法對嘉陵江草街水庫甲藻水華進行預測,以期補充國內淡水甲藻水華預警研究方面的空白,并為及時有效地控制草街水庫甲藻水華提供科學依據.

1 材料與方法

1.1 研究區域概況

嘉陵江(29°20′~34°25′N,103°45′~109°0′E)是長江支流中流域面積最大的河流,全長1119km.其中合川市以下至河口段為下游段,大部流經盆地東部平形嶺谷地帶,屬亞熱帶季風性濕潤氣候,冬、夏季較長,春、秋季較短,年平均溫度18.2℃,平均降雨量1126mm,降雨主要集中在5-10月.草街水庫位于嘉陵江江口以上68km處的合川區草街鎮,總面積72.4km2,以發電、供水、攔沙為主要功能,該水庫于2010年建成.伴隨著水庫蓄水,大壩下游嘉陵江水位顯著下降,而上游水位隨之升高,水流減緩,水環境由典型的河流水體轉變為類似湖泊的緩流水體.在水體營養物質濃度不變的條件下,水體流速降低導致泥沙和營養物質的沉淀,為藻類的生長繁殖提供了有利條件,在水庫建成后的2011-2013年,連續3年發生了由倪氏擬多甲藻(Peridiniopsisniei)引起的水華,不僅破壞了嘉陵江生態環境,而且威脅著當地居民生活飲用水安全.

圖1 草街水庫采樣斷面Fig.1 Sampling transects in Caojie Reservoir

1.2 樣品采集與分析

本次研究共設置8個采樣斷面,其中金子、玉溪、碼頭、三江匯合和壩上斷面分布在草街水庫大壩上游,壩下、梁沱水廠和大溪溝水廠斷面分布在草街水庫大壩下游,并且每個斷面包括左、中、右3個采樣點(圖1).

從2011年5月至2013年7月逐月對所有樣點進行水樣與浮游植物樣品的采集,其中流速、水溫、溶解氧、濁度、透明度、電導率在野外直接測定.總氮、硝酸鹽離子、亞硝酸鹽離子、銨氮離子、總磷、磷酸鹽離子、高錳酸鹽指數、光照強度和水體葉綠素a于實驗室根據國家環境保護總局《水和廢水監測分析方法》進行測定[20].于水面下0.5m處采集1L浮游植物定量樣品沉淀濃縮計數得到倪氏擬多甲藻密度.

1.3 模型方法

支持向量機作為一種廣泛應用的機器學習工具,它既克服了傳統方法的大樣本要求,還有效地克服了維數災難及局部極少問題.模型泛化能力強. 計算簡單以及在處理非線性問題時顯示的優越性都為其在水質評價與預警研究方面提供了巨大的應用前景.

支持向量機從功能上分為分類與回歸兩類,本研究中甲藻水華預警模型以其分類功能為基礎.支持向量機分類的基本思想是在樣本空間或特征空間構造出最優超平面,使得超平面與不同類樣本集之間的距離最大,從而達到最大的泛化能力.設線性可分樣本集為T={(X1,Y1),…,(Xn,Yn)},Xi∈Rm,Yi∈{-1,1},i=1,2,…,n,分類面方程為(ω·X)+b=0,分類判別如下:

Yi[(ω·Xi)+b]-1≥0

(1)

式中,使等號成立的向量稱為支持向量.在2類樣本線性可分的狀況下,求解基于最優超平面的決策函數,可以看成求解二次規劃問題.由解析幾何可知類間間隔為D=2/‖ω‖,問題可轉化為使函數Φ(ω)=‖ω‖2/2最小化,引入Lagrange函數求解這一最優化問題:

(2)

其中αi>0為Lagrange乘子,根據Kuhn-Tucker條件,這一問題的解必須滿足:

αi{[(Xi·ω)+b]Yi-1}=0

(3)

一般情況下,大多數樣本αi將為0,取值不為0的αi所對應的樣本就是支持向量.求解上述問題后所得到判別函數為:

(4)

考慮到一些樣本不能被超平面正確分類,通過引入懲罰參數(C)和松弛變量(ξ)修正函數,確保模型具有良好的容錯性[21].

(5)

對于線性不可分樣本,支持向量機借助核函數K進行非線性變換,將樣本數據映射到高維特征空間中,變為線性問題,再求取最優超平面,然后映射回原空間的非線性分類.核函數是支持向量機實現空間內積轉換運算的函數形式,它不但解決了低維空間的線性不可分,還克服了高維空間的維數災難,核技巧的應用更使我們避免了因維數增大而導致的巨量計算[22].常用的核函數有多項式函數、徑向基函數(Radial Basis Function,RBF)、sigmoid函數等[23].

2 結果與討論

2.1 模型參數構建

從空間尺度上考慮到草街水庫大壩上下游生境變化較大,所以對于大壩上游5個斷面和下游3個斷面分別建模. 從時間尺度上考慮分為2個類型,一個類型為使用本月水體理化數據預測本月甲藻水華,另一類型為使用本月水體理化數據預測下月甲藻水華,這樣共建立4個甲藻水華預警模型(表1).

表1 預測模型類型

通常認為甲藻水華的發生是多種因素共同作用的結果,它們間的作用機制十分復雜[24],因此只能在眾多的環境變量中提取主要的環境因子來建立模型.本次研究使用Spearman相關性分析,將與倪氏擬多甲藻密度顯著相關,并且相關系數大于0.3的理化變量篩選出來(表2),然后對篩選出的理化數據進行標準化處理,再進行PCA分析,其累積方差貢獻率達到90%的主成分最終進入模型(表3).

有關研究表明,當水體中甲藻密度達到1×105cells/L時,水面開始明顯出現塊狀褐色分布,到1×106cells/L時,用肉眼就能觀察到明顯的水華現象[15].過去3年對草街水庫浮游植物例行監測發現,主要的甲藻水華優勢種為倪氏擬多甲藻,所以本次研究將倪氏擬多甲藻密度1×105cells/L設為水華預警的警戒值,即當水體中倪氏擬多甲藻密度達到1×105cells/L時就認為有發生甲藻水華的風險,當地環境管理部門需要采取相應的預防措施以減少水華可能帶來的問題,此時為甲藻水華樣本組,標簽為“1”,反之為非甲藻水華樣本組,標簽為“0”.

在建立模型前,將樣本分為2組,2011年與2012年的數據作為訓練組,2013年的數據作為檢驗組,用訓練組樣本進行模型建立,用檢驗組樣本檢驗模型的準確率.通過MATLAB軟件對使用不同核函數的判別模型進行比較,最終確定采用誤差最小、分類準確率最高的徑向基函數作為核函數.為了確定最優參數,本研究分別使用了網格法、遺傳算法和粒子群算法進行參數尋優,并從中選取判別誤差最小的參數組合建立甲藻水華預警模型(表4).

表2 Spearman秩相關性分析結果*

*黑體表示相關系數大于0.3.

表3 各模型主成分貢獻率(%)

表4 模型參數尋優結果

2.2 預測結果

4個模型對于測試樣本總體判別正確率均達到80%,使用本月理化數據和本月倪氏擬多甲藻密度建立的模型,甲藻水華樣本的判別正確率在大壩上、下游斷面均為100%,非甲藻水華樣本的判別正準確率在大壩上、下游分別為75.86%和82.00%(表5).使用本月理化數據和下月倪氏擬多甲藻密度建立的模型,甲藻水華樣本的判別正確率在大壩上、下游斷面分別為43.75%和11.11%,非甲藻水華樣本的判別正確率在大壩上、下游分別為97.67%和100%.

從評價結果來看,模型3、4相比模型1、2對于甲藻水華樣本的判別正確率大幅下降.一方面,適宜的水文條件、氣象條件和營養條件是水華暴發的必要因子[5],通過Spearman相關性分析可以看出,相對于模型1、2,模型3、4中水溫與倪氏似多甲藻密度的相關系數明顯增大,由于嘉陵江甲藻水華多發生于春季的3-4月,而重慶地區春季溫度變化較大,因此較長的預測周期增加了其不確定性,從而導致預測結果正確率的明顯下降.另一方面,多數淡水甲藻可在不利條件下形成孢囊,因此根據孢囊的形成和釋放周期選擇適當的預測周期也是提高模型準確率的必要條件[24],但由于目前缺乏詳細的倪氏擬多甲藻生理學知識,無法選擇恰當的預測周期也可能是導致模型3、4判別正確率下降的重要原因.模型3、4相比模型1、2對非甲藻水華樣本的判別正確率雖然有所下降,但通過分析判斷錯誤的樣本,發現它們大多集中在警戒值附近,所以從實際應用角度來看模型1、2對于判斷草街水庫大壩上、下游當月甲藻水華具有較強的預警能力.

2.3 與BP人工神經網絡方法比較

為驗證支持向量機在機器學習方法中的優越性,本文利用BP人工神經網絡法同樣建立4個預測模型,預測分類結果見表5.通過比較兩種不同方法的結果可以看出,使用BP人工神經網絡法時,除了模型2,其余3個模型的總樣本判別正確率相比支持向量機法均明顯下降,并且模型2和模型4的甲藻水華樣本判別正確率均為0%,而非甲藻水華樣本判別正確率為100%,說明模型訓練后不具有很好的泛化能力,最終將檢驗組樣本全部分為一類.由于模型2和模型4的訓練樣本數僅有143組和135組,并且甲藻水華樣本數占總訓練樣本數的比例均不到5%,所以較少的訓練樣本以及某一類樣本所占比例較低可能是導致這一結果的主要原因,熊秋芬等在進行支持向量機與神經網絡方法比較研究中同樣也發現,在樣本數較少,并且某一樣本數所占比例較低的情況下,SVM方法優勢更明顯[25].

表5 支持向量機分類模型預測結果

3 結論

1) 通過相關性分析和PCA分析,篩選出影響甲藻水華最主要的環境變量建立甲藻水華預警模型,不僅大大縮短了構建模型所需的計算時間,還減少了水華預警所需要的理化因子,節約了環境管理部門監測成本.

2) 使用當月理化數據預測下月甲藻水華正確率過低,所以進一步深入研究倪氏擬多甲藻的生理過程以及孢囊的形成萌發周期,可為選擇甲藻水華的預測周期提供科學依據.

3) 經實例應用表明運用支持向量機分類模型進行甲藻水華預警是可行的,該方法僅需將相應的理化數據提供給軟件,利用計算機分析計算就可獲得預測結果,而在BP人工神經網絡模型中,除了網絡結構、各層次節點、初始權重等選擇很大方面要依靠研究者的個人經驗,人為干預較多,并且訓練模型對數據的要求更加嚴格,所以與其相比SVM方法更加簡便、快捷,適于推廣.

[1] 徐恒省,洪維民,王亞超等.太湖藍藻水華預警監測技術體系的探討.中國環境監測,2008,24(2):62-65.

[2] 王長友,于 洋,孫運坤等.基于ELCOM-CAEDYM模型的太湖藍藻水華早期預測探討.中國環境科學,2013,33(3):491-502.

[3] 朱 利,王 橋,吳傳慶等.巢湖水華遙感監測與年度統計分析研究.中國環境監測,2013,29(2):162-166.

[4] 周火艷,王崇云,彭明春等.滇池水華分形結構動態研究.環境科學與技術,2011,34(2):32-35.

[5] 朱愛民,喬 曄,梁友光等.三峽水庫支流童莊河擬多甲藻水華的監測.水生態學雜志,2012,33(4):49-53.

[6] 姚緒姣,劉德富,楊正健等.三峽水庫香溪河庫灣冬季甲藻水華生消機理初探.環境科學研究,2012,25(6):645-651.

[7] 孔繁翔,馬榮華,高俊峰等.太湖藍藻水華的預防、預測和預警的理論與實踐.湖泊科學,2009,21(3):314-328.

[8] 周立國,馮學智,王春紅等.太湖藍藻水華的MODIS衛星監測.湖泊科學,2008,20(2):203-207.

[9] 尚琳琳,馬榮華,段洪濤等.利用MODIS影像提取太湖藍藻水華的尺度差異性分析.湖泊科學,2011,23(6):847-854.

[10] Cha Y, Park SS, Kim Ketal. Probabilistic prediction of cyanobacteria abundance in a Korean reservoir using a Bayesian Poisson model.WaterResourcesResearch, 2014,50(3):2518-2532.

[11] Cho S, Lim B, Jung Jetal. Factors affecting algal blooms in a man-made lake and prediction using an artificial neural network.Measurement, 2014,53:224-233.

[12] 楊 敏,畢永紅,胡建林等.三峽水庫香溪河庫灣春季水華期間浮游植物晝夜垂直分布與遷移.湖泊科學,2011,23(3):375-382.

[13] 湯宏波,胡 圣,胡征宇等.武漢東湖甲藻水華與環境因子的關系.湖泊科學,2007,19(6):632-636.

[14] 楊正健,劉德富,易仲強等.三峽水庫香溪河庫灣擬多甲藻的晝夜垂直遷移特性.環境科學研究,2010,23(1):26-32.

[15] 邊歸國.九龍江北溪擬多甲藻水華防治與應急處置.中國環境管理,2012,(1):45-49.

[16] 龍勝興,陳 椽,俞振興等.貴州黔東南州三板溪水庫春季擬多甲藻水華特征.中國環境監測,2012,28(6):27-31.

[17] Vapnik V. The nature of statistical learning theory. New York: Springer, 1995.

[18] Xie Z, Lou I, Ung WKetal. Freshwater algal bloom prediction by support vector machine in Macau Storage Reservoirs.MathematicalProblemsinEngineering, 2012, 2012:1-12.

[19] Gokaraju B, Durbha SS, King RLetal. A machine learning based spatio-temporal data mining approach for detection of harmful algal blooms in the Gulf of Mexico.IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing, 2011,4(3):710-720.

[20] 國家環境保護總局《水和廢水監測分析方法》編委會. 水和廢水監測分析方法:第4版. 北京:中國環境科學出版社, 2002.

[21] 李正最,謝悅波.洞庭湖富營養化支持向量機評價模型研究.人民長江,2010,41(10):75-78.

[22] 周 鵬,曾 暉,周 原等.支持向量機用于芳烴類化合物對芳烴受體親和性QSAR研究.環境科學學報,2006,26(1):124-129.

[23] 高 雋.人工神經網絡原理及仿真實例.北京:機械工業出版社,2003.

[24] 張 琪,繆榮麗,劉國祥等.淡水甲藻水華研究綜述.水生生物學報,2012,36(2):352-360.

[25] 熊秋芬,胡江林,陳永義.天空云量預報及支持向量機和神經網絡方法比較研究.熱帶氣象學報,2007,23(3):255-260.

Research on early warning of dinoflagellate bloom in Caojie Reservoir base on support vector machine classification

LIU Shuoru1,2, YANG Min1, ZHANG Fanghui1& ZHANG Sheng1

(1:ChongqingAcademyofEnvironmentalScience,Chongqing401147,P.R.China) (2:FacultyofUrbanConstructionandEnvironmentalEngineering,ChongqingUniversity,Chongqing400045,P.R.China)

Dinoflagellate bloom consecutively occurred in Caojie Reservoir from 2011 to 2013 and threatened the local economy and ecology.Recently, support vector machine(SVM) was reported to have advantages of only requiring a small amount of samples, high degree of prediction accuracy, and generalization to solve the nonlinear classification problems. In this study, the SVM-based prediction model for dinoflagellate bloom was established by monthly field date collected from May 2011 to July 2013 at 8 transects in Caojie Reservoir. The maximum accuracy excessed 80% by choosing environmental variables data andPeridiniopsisnieiabundance of current month, and accuracy arrived at 100% for dinoflagellate bloom samples. The results showed that the SVM classification is an effective new way that can be used in monitoring dinoflagellate bloom in Caojie Reservoir and have a promising application prospect for environmental protection.

Support vector machine; dinoflagellate bloom; Caojie Reservoir;Peridiniopsisniei

*重慶市環境保護局環??萍柬椖?環科字2012第02號)和重慶市基本科研業務費計劃項目(2013cstc-jbky-01604)聯合資助.2014-01-02收稿;2014-05-27收修改稿.劉朔孺(1985~),男,博士研究生;E-mail:lsrzggod@163.com.

**通信作者;E-mail: shengzsts@126.com.

猜你喜歡
甲藻水華正確率
藻類水華控制技術及應用
長江口甲藻孢囊與水體富營養化和厄爾尼諾指數關系研究
河湖藻類水華應急治理決策研究
門診分診服務態度與正確率對護患關系的影響
養只恐龍當寵物
南美白對蝦養殖池塘藍藻水華處理舉措
南美白對蝦養殖池塘藍藻水華處理舉措
疑似甲藻水華監測及應急管理探究
生意
品管圈活動在提高介入手術安全核查正確率中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合