?

基于主成分分析的系統聚類分析方法在洪水預報中的應用

2018-03-16 03:56包為民陳偉東
三峽大學學報(自然科學版) 2018年1期
關鍵詞:洪水聚類分類

倪 鵬 包為民 張 乾,2 陳偉東,2

(1. 河海大學 水文水資源學院, 南京 210098; 2. 中國電建集團中南勘測設計研究院有限公司,長沙 410014)

在洪水預報中,洪水過程的復雜性和隨機性給預報工作造成了很大困難,而歷史水文資料中蘊含了大量有用信息,如果對這些歷史信息能夠充分分析利用,從中提取洪水特征,對洪水進行分類分析,再針對不同類型的洪水分別進行參數率定和預報,則有利于提高洪水預報精度.而對于上述想法的實現,數據挖掘技術是一種可行的途徑.實際上,近幾年來其在洪水預報當中已有所應用,如胡環等[1]、錢堃等[2]、邱超等[3]、柳卓等[4]分別將人工神經網絡、K均值聚類分析、模糊聚類分析、系統聚類分析等數據挖掘技術應用于洪水預報當中,都取得了一定效果.但上述方法在應用時或算法復雜計算量大,或忽略了指標間的相關性會對聚類結果造成影響的問題,而事實上指標間相關必然會造成信息的冗余,這種冗余有時甚至會抹煞研究對象的真正特征和內在規律[5],從而對研究結果產生嚴重影響.

鑒于此,本文將主成分分析與系統聚類分析方法相結合應用于洪水預報.首先利用主成分分析將特征指標進行簡化,在盡可能保留其所提供的絕大部分信息的前提下,用少數彼此獨立的主成分取代原始的特征指標,這樣一方面能夠降低分析計算問題的復雜性,另一方面也有利于獲取真實全面的有效信息.然后運用系統聚類分析方法對歷史洪水進行聚類,該方法的聚類過程以一張聚類譜系圖表示,因此結果較為直觀簡明.最后根據聚類的結果分別率定每類洪水的模型參數,進而對待預報的洪水采用所屬類的參數進行預報.本文將上述方法應用于水吉流域,結果表明上述方法改善了洪水預報精度.

1 方法介紹

1.1 主成分分析

主成分分析的主要步驟如下[6]:

1)設有n場洪水,共提取p個洪水特征指標,有

X=(xij)n×p

(1)

其中,xij表示第i場洪水的第j個指標.

2)將原始數據標準化

(2)

Y=(yij)n×p

(3)

(4)

4)計算R的特征根λ1≥λ2≥…≥λp>0,以及對應的單位特征向量a1,a2,…,ap,其中ai=(a1i,a2i,…,ani)T.

(5)

得到樣本得分矩陣

Z=(zij)n×m

(6)

1.2 系統聚類分析

系統聚類分析的主要步驟如下:

1)計算n場洪水間的距離.本文以歐氏距離來定義

(7)

式中,dij為第i、j兩場洪水間的歐氏距離.得到距離矩陣

D=(dij)n×n

(8)

2)計算類間距離.本文以類平均法來定義

(9)

式中,np和nq分別為類Gp和Gq中洪水樣本數.當Gp和Gq合并為Gr時,任一類Gk與Gr的距離為

與李碧汝分別的那個晚上,表姐聽了一夜收音機。最初買收音機,表姐只是寂寞,沒個人說話,收音機里不斷人聲。后來,收音機成了表姐最離不開的物件,早晨一睜眼先打開收音機,做飯的時候聽,吃飯的時候聽,睡覺之前也要聽一會兒。除了兩個妮兒,那收音機成了表姐的另一個寶貝。

(10)

3)合并距離最近的兩類,然后返回步驟2),重新計算類間距離.如此循環,直至各場洪水合并為1類.

4)繪制聚類譜系圖.

5)確定分類個數和類.

2 實例應用

本文將上述方法應用于閩江上游的水吉流域進行實際檢驗.該流域面積3 767 km2,屬亞熱帶季風氣候,氣候溫和,降水充沛,多年平均氣溫17~19℃,多年平均降水量在1 400~2 400 mm之間,多年平均水面蒸發量在700~1 000 mm之間,多年平均徑流深為992.8 mm.流域內植被良好,是典型的濕潤地區,可用三水源新安江模型進行該流域的洪水模擬預報.本文選取該流域內1988~1999年之間的共27場洪水,其中前20場洪水被用于聚類,后7場洪水被用于檢驗.

2.1 選取洪水特征指標

2.2 進行主成分分析

表1 相關系數矩陣

根據表1的結果,計算相應的特征值、特征向量和貢獻率,結果見表2.從中可以看出,前4個主成分的累積貢獻率達到89%,已超過80%,因此選取前4個主成分即可.然后計算標準化后的樣本在所提取主成分下的得分值,結果見表3,以表3的結果取代各場洪水原有的樣本值進行隨后的系統聚類分析.

表2 各成分特征值和貢獻率

表3 各場洪水主成分值

2.3 洪水分類和參數的分類率定

在主成分分析得到的新的洪水樣本值的基礎上,應用系統聚類分析,對1988~1997年之間的20場歷史洪水進行聚類,聚類結果為一譜系圖,如圖1所示.根據譜系圖的聚類情況以及洪水分類的實際需要,將20場洪水共分為3類,分類結果見表4.

圖1 系統聚類譜系圖

表4 洪水分類結果

為了檢驗分類結果是否合理,分別統計3類洪水的洪水特征,包括平均降雨量、平均徑流深和平均洪峰流量,結果見表5.可以看出,3類洪水在3方面均具有明顯的差別,說明基于主成分數據的系統聚類分析對洪水的分類是合理的.

表5 各分類洪水特征

針對得到的3類洪水,運用新安江模型參數的線性化率定方法[8]分別對每一類洪水進行率定,最終得到3組新安江模型參數,見表6.

表6 參數率定結果

2.4 應用與檢驗

首先判斷各待預報的洪水的所屬類別,本文是以其到各聚類重心的歐氏距離的大小對其進行歸類的,然后應用其所屬類的模型參數進行洪水預報.表7即為所選取的7場驗證洪水的所屬類別及預報結果,從中可以看出7場洪水分類后的預報效果明顯優于分類前,預報精度有了很大提高,其中7場驗證洪水的平均徑流深誤差由7.14%降至6.28%,平均洪峰誤差由9.68%降至4.33%,確定性系數由0.835提高到0.894,峰現時差由1.6 h降至1.3 h.這說明,基于主成分分析的系統聚類分析方法在水吉流域的洪水分類預報中是可行有效的,其對洪水預報精度的提高有較為明顯的效果.

表7 洪水預報驗證結果

3 結 論

本文將主成分分析與系統聚類分析方法相結合,應用于洪水分類預報,介紹了兩種方法的計算步驟,并在實際流域進行了檢驗,最終得到以下幾點結論:

1)主成分分析與系統聚類分析的結合使用,剔除了洪水特征指標間的冗余信息,避免了指標間的相關性對洪水聚類結果的影響,使得分類結果更加可靠.

2)從洪水預報效果上看,基于主成分分析的系統聚類分析方法整體上提高了洪水預報的精度,尤其是對洪峰預報效果提升明顯.

3)不同的洪水特征指標對洪水相似性的貢獻有所不同,即各特征指標的權值不同,本文在聚類時并未考慮,未來有待于進一步研究.

[1] 胡 環,胡 杰.洪水分類預報方法的探討[J].東北水利水電,2007,25(273):42-43.

[2] 錢 堃,包為民,李偲松,等.K均值聚類分析方法在洪水預報中的應用[J].水電能源科學,2012,30(5):41-44.

[3] 邱 超.模糊聚類分析在水文預報中的應用[J].浙江大學學報(理學版),2008,35(5):591-595.

[4] 柳 卓,曹飛鳳,杜光潮.系統聚類方法在洪水預報中的應用研究[J].浙江水利科技,2008(5):1-3.

[5] 包為民,萬新宇,荊艷東,等.基于主成分分析的河流洪水系統聚類法[J].河海大學學報(自然科學版),2008,36(1):1-5.

[6] 于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,1999.

[7] 包為民.水文預報[M].第3版.北京:中國水利水電出版社,2006.

[8] 趙麗平,包為民,張 坤.新安江模型參數的線性化率定[J].吉林大學學報(地球科學版),2014,44(1):301-309.

猜你喜歡
洪水聚類分類
分類算一算
基于K-means聚類的車-地無線通信場強研究
洪水時遇到電線低垂或折斷該怎么辦
分類討論求坐標
數據分析中的分類討論
又見洪水(外二首)
教你一招:數的分類
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合