?

基于多模型組合方法的公平水庫中長期入庫徑流預報

2023-09-27 07:40肖三明
江西水利科技 2023年5期
關鍵詞:徑流量入庫徑流

肖三明,劉 濤

(1. 汕尾市水利水電建筑工程勘測設計室,廣東 汕尾 516600;2. 金風科技股份有限公司,中國 北京 100176)

0 引 言

中長期徑流預報是指根據前期或現時已經發生的水文、氣象、海洋等多源信息,基于水文學、氣象學、水力學、統計學等多學科原理,對河流、湖泊等水體3 天以上、1 年以內的徑流趨勢做出定性和定量的準確性預報[1]。準確的中長期徑流模擬計算,對于研究流域產匯流規律、中長期水文預報、受水區水資源優化配置以及供水規劃制定等工作具有重要意義。

國內外關于中長期徑流預報方法的研究有很多,大體上可分為三類:統計模型、水量平衡模型以及人工智能模型。統計模型主要是基于數理統計的方法,根據自變量自身的周期反復性,采用數學統計方法建立的模型,例如多元回歸模型[2,3]、時間序列模型[4,5]等;水量平衡模型預測主要是以水量平衡為基礎理論,基于已經構建好的流域水文模型,將未來的氣象預報結果作為數據驅動,預測未來的徑流量變化,具有代表性的有新安江模型[6]、兩參數水量平衡模型[7]等;人工智能模型主要是基于智能算法對大量數據樣本之間的隱射關系進行數據挖掘,構建從“數據”到“徑流量”之間的非線性關系,從而實現徑流的中長期預報,例如神經網絡模型[8,9]、支持向量機模型[10]以及隨機森林模型[11]等等。雖然隨著計算機水平和深度學習的不斷發展,人工智能模型正越來越多的被應用在了水文預報領域,并取得了較好的模擬效果,但是由于水文規律的復雜性及其自身的不確定性,目前為止還未有一種模型能夠始終具有最優的模擬精度[11,12],因此基于多模型信息融合的組合預報模型,在綜合考慮了各模型優勢的基礎上,往往能夠取得令人滿意的預報效果。

為獲取準確可靠的水庫中長期預報結果,本文以公平水庫為研究對象,在預報因子篩選的基礎上,對比并分析不同的月入庫徑流預報模型,并采用線性與非線性組合兩種方式構建組合預報方案,研究成果可為公平水庫的月徑流預報與中長期水文模擬提供指導。

1 研究方法

基于氣象因子影響的物理機制,結合數理統計方法與隨機森林重要性分析結果,對氣象因子進行預報因子篩選,以1961 年~2006 年作為模型訓練集,2007~2017 年作為模型驗證集,分別選取季節性自回歸(SARIMA)、隨機森林(RF)、支持向量機(SVM)和極度梯度提升樹(XGBoost)4 種模型進行中長期入庫徑流預報模型的構建。為充分考慮各模型的優勢,揚長避短,有效提高徑流預報精度,采用線性與非線性2 種方式對4 種模型進行組合。

1.1 線性組合預報

線性加權進行組合預報的方法最早是由Bate 提出的[13,14]。其基本思想就是首先在同一流域的相同時刻利用不同的預報模型對河道徑流量進行預報,然后根據不同模型的預報結果確定各模型的權重,最后通過線性加權的方式得到組合預報結果,其計算公式如下:

式中:Qt表示第t 時刻的組合模型預報結果;m 表示參與組合的單一模型個數;ωi表示第i 個單一模型的權重值,qi,t表示第t 時刻第i 個單一模型的預報結果。

因此,線性加權組合預報方法的不同之處在于權重值ω 的確定,當ω 確定了以后,組合模型也就隨之確定。目前權重的求解方法主要有簡單加權平均法、加權幾何平均法、信息熵定權法、貝葉斯模型平均法以及人工智能優化算法等。本文以納什效率最大為目標函數,基于帶有精英策略的快速非支配排序遺傳算法(NSGA-Ⅱ)對隨機權重進行優化,以期得到最優的權重組合。

1.2 非線性組合預報

對于各模型之間的關系,往往無法通過單一的線性方法進行表征,恒定的最優權重組合通常不能代表任意時刻的最優解,傳統的線性加權方式可能無法充分發揮各單一模型的優勢,為盡可能地利用預報信息,采用非線性組合的方式進行預報成為了目前組合預報的一種新途徑。在理論情況下,若訓練樣本數量足夠多,訓練次數足夠充分,人工神經網絡能夠以任意精度逼近任意非線性映射關系。因此本文嘗試采用BP 人工神經網絡進行多模型之間的非線性組合,將各模型的預報結果輸入至神經網絡中,通過模型訓練尋找各模型之間最優的非線性關系,然后構建組合預報模型,對流域徑流進行預報。人工神經網絡的搭建基于Python語言機器學習算法庫Sklearn 中的Neural Network MLPRegressor 回歸預測模型實現。

2 實例驗證

2.1 研究區概況及數據來源

本文選取公平水庫月入庫徑流預報作為研究對象。公平水庫位于廣東省汕尾市海豐縣境東北部的黃江河上游中部,是集防洪、灌溉、發電、供水等于一體綜合利用水資源的重要水利樞紐工程。水庫集雨面積317km2,原設計總庫容2.296 億m3,正常庫容1.633 億m3,相應水位16m,興利庫容為1.461 億m3。公平水庫所在流域屬亞熱帶季風氣候區,海洋性氣候明顯,冬季溫暖,夏季炎熱,干濕季節分明。水庫處于粵東暴雨高區中心,降雨量豐富,但年內年際分布極不均勻,多年平均降雨量為2322mm,平均氣溫約22℃。

數據資料來源:公平水庫管理局的月平均入庫徑流以及月累積降水數據;中國氣象局國家氣候中心(https://cmdp.ncc-cma.net/Monitoring/cn-index-130.php)的氣象因子數據,包括88 項大氣環流指數、26 項海溫指數以及16 項其他指數。數據的時間跨度均為1961~2017 年共57年。

2.2 預報因子篩選

本文選用1961~2017 年的130 項氣象因子作為初始預報因子。首先通過成因分析法逐一對各因子的物理機制進行分析,去除無顯著影響的因子,實現對預報因子的初步篩選。然后通過隨機森林重要性排序方法對初步篩選的預報因子進行重要性分析,據此對預報模型的關鍵預報因子進行篩選。選取各月份重要程度前5 的因子作為公平水庫月入庫徑流的預報因子,因子篩選結果如表1 所示。

表1 公平水庫關鍵預報因子篩選結果

表2 公平水庫不同單一模型預報精度

從表1 公平水庫的關鍵預報因子篩選結果可以看出,臨近月份的關鍵預報因子存在相似性。例如4~7月,隨機森林法均將8 月赤道中東太平洋200hPa 緯向風指數作為關鍵預報因子,這符合氣象指數對流域降雨徑流影響的長時效性規律,同時也表明氣象因子篩選結果的可靠性。

2.3 單一模型預報結果

SARIMA 模型表征徑流量自身的變化規律,起始訓練期定義為1961~1966 年,然后逐年份不斷增加樣本數據,并預測下一年的逐月入庫徑流量,直至年份滾動至2007 年,以Nash 系數最大為目標率定模型參數;RF、SVM 和XGBoost 模型以篩選出的各月份關鍵預報因子為數據輸入,逐月預測入庫徑流量,率定的目標函數與SARIMA 模型相同。公平水庫4 個單一模型逐月徑流預報結果見圖2。

圖2 公平水庫各單一模型逐月預測結果

可以看出,SARIMA 模型對于月入庫徑流的趨勢擬合較好,徑流量呈現明顯的周期性變化,但對于低水部分,尤其在非汛期,SARIMA 模型出現模擬結果整體偏高的問題。驗證期中的2009 年7~9 月,為公平水庫自1961 年以來同時期最低,入庫水量均低于5000 萬m3,而各模型的模擬結果均較實際值更高,偏差較大。出現該問題的原因主要是由于在過去的一段時間內,太平洋出現了較長時間的拉尼娜事件,使得其海溫較往年的同時期更低,無法將海洋中的水汽蒸發至大氣中,大大減少了降水量,造成了較為嚴重的極端氣候。而在公平水庫7~9 月挑選的預報因子中,訓練期對于模型的模擬精度影響較大,但由于2009 年徑流量顯著降低的原因為海溫,因此各單一模型的模擬結果均較差。

從四個單一模型的徑流預報精度可知,RF 模型在4 種單一預報模型中的徑流預報效果最好,在率定期的Nash 系數為0.93,驗證期為0.77,整體上達到了乙級預報精度。受限于水文數據時間序列較短的影響,RF 模型與XGBoost 模型在訓練期精度較高,但其驗證期的精度卻有較大程度的下降,模擬結果出現了略微的過擬合現象。SARIMA 模型與SVM 模型的預測結果較另外兩種模型的精度明顯更低,訓練期的Nash 效率系數僅為0.68 與0.73,驗證期為0.52 與0.58,僅達到丙級預報精度。分析其原因,SARIMA 模型僅考慮了徑流量本身的變化規律,當遇到氣象因素或人類活動影響較大的階段,徑流量自身很難有較為穩定的變化趨勢,因此其模擬結果較差;而SVM 模型在預測階段,需尋找輸入數據的超平面并以此作為分類依據,各關鍵氣象因子之間的分類界限并不十分清晰,模糊的超平面界限最終影響了模型的模擬結果。

2.4 組合模型預報結果

線性組合方面,以Nash 效率系數最大為目標函數,基于NSGA-Ⅱ算法對各模型的最優權重值進行求解,通過50 次迭代后,得出的各模型權重值分別為0.09(SARIMA 模型)、0.12(SVM 模型)、0.40(XGBoost模型)和0.39(RF 模型),基本與各單一模型的整體模擬精度呈正相關?;谏窠浘W絡的非線性組合方面,激活函數選擇為tanh,基于quasi-Newton 優化器(lbfgs),將隱含層設置為3 層,分別為(45,24,50),正則化項參數alpha 確定為0.66。兩種組合模型的徑流預測結果如圖3。

圖3 公平水庫組合預報模型結果

對比圖3 與圖2 模型組合前后的模擬結果可以看出,無論是訓練期還是驗證期,充分考慮了徑流量自身以及海洋氣象因子變化規律的組合模型較任何單一模型的月入庫徑流量均更接近實測值。對比線性與非線性組合兩種方式,非汛期低水部分的模擬結果均較好,無論是從量級上還是趨勢上都有較高的模擬精度,而對于高水部分的汛期而言,由于線性組合對于任意時刻的各模型權重值均采用相同的數值,往往無法充分考慮不同預報模型在不同時刻的優劣,因此其模擬結果較非線性組合略差。與單一模型相同的是,受極端海溫的影響,組合模型在2009 年汛期的模擬結果同樣較真實值更高。

兩種組合模型的徑流預報精度見表3??梢钥闯?,通過線性加權與非線性加權兩種組合方式對于公平水庫月徑流預報的Nash 系數與相對平均誤差均有較大幅度的提升。以非線性組合為例,一方面,不僅其Nash系數優于任意單一模型,同時還有效降低了水量預報誤差,訓練期與驗證期較單一模型的最優值分別降低了4.59%和7.41%,充分說明采取多模型組合的方式與單一預報模型相比,能夠實現公平水庫月入庫徑流的更優預報;另一方面,驗證期模型預報精度的增量較訓練期更大,表明非線性組合能夠適當地解決單一機器學習模型的過擬合趨勢,有效提高了模型的泛化能力。

表3 公平水庫組合預報模型精度

對比線性組合與非線性組合兩種方式,考慮任意時刻不同權重值的非線性組合較前者的徑流預報結果更優。訓練期與驗證期的Nash 系數較線性組合分別提高了0.04 和0.03,水量預報誤差分別降低了2.72%和4.47%,對于中長期預報而言,水量預報誤差的大幅降低能夠有效提高預報模型的應用效果,因此基于神經網絡的非線性組合方式較傳統線性組合方式更有利于為公平水庫興利除害提供決策支持。

3 結論與展望

本文以公平水庫為研究對象開展月入庫徑流預報研究,在篩選不同月份預報因子的基礎上,對比分析了4 種常用月徑流預報模型的模擬結果,并采用線性與非線性2 種方式構建多模型組合方案,得到的主要結論如下:

(1)RF 模型與XGBoost 模型的模擬結果較為穩定,訓練效果良好,RF 模型在4 種單一模型的徑流預報結果中表現最優。受到極端海溫的影響,4 種單一模型對于驗證期2009 年汛期的徑流預報結果均出現偏高現象。

(2)多模型組合方式較單一模型的模擬結果更優,不僅能夠獲得更優的Nash 系數值,有效降低預報水量誤差,同時還能夠適當解決單一機器學習模型的過擬合趨勢,提高模型的泛化能力。非線性組合與傳統的線性組合方式相比,能夠更加合理有效地利用各單一模型的優勢,在訓練數據長度一致的情況下,達到更優的徑流預報結果,能夠為公平水庫的興利除害提供決策支持。

(3)在后續研究工作中,應著重考慮輸入不確定性與參數不確定性對組合模型的影響,構建公平水庫不確定性中長期徑流預報方案。同時還應采用深度學習等其他機器學習模型對單一模型進行組合,降低水文時間序列不足的影響,提高預報模型的泛化能力。

猜你喜歡
徑流量入庫徑流
重磅!廣東省“三舊”改造標圖入庫標準正式發布!
中國食品品牌庫入庫企業信息公示①
水文比擬法在計算河川徑流量時的修正
Topmodel在布哈河流域徑流模擬中的應用
身臨其境探究竟 主動思考完任務——《倉儲與配送實務》入庫作業之“入庫訂單處理”教學案例
探秘“大徑流”
攻克“大徑流”
SCS模型在紅壤土坡地降雨徑流量估算中的應用
批量地籍圖入庫程序設計方法
資江流域徑流量演變規律研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合