?

基于VMD-TCN-GRU 模型的水質預測研究

2024-03-31 05:50項新建許宏輝謝建立丁祎胡海斌鄭永平楊斌
人民黃河 2024年3期
關鍵詞:時間序列汾河

項新建 許宏輝 謝建立 丁祎 胡海斌 鄭永平 楊斌

摘 要:為充分挖掘水質數據在短時震蕩中的變化特征,提升預測模型的精度,提出一種基于VMD(變分模態分解)、TCN(卷積時間神經網絡)及GRU(門控循環單元)組成的混合水質預測模型,采用VMD-TCN-GRU 模型對汾河水庫出水口高錳酸鹽指數進行預測,并與此類研究中常見的SVR(支持向量回歸)、LSTM(長短期記憶神經網絡)、TCN 和CNN-LSTM(卷積神經網絡-長短期記憶神經網絡)這4 種模型預測結果對比表明:VMD-TCN-GRU 模型能更好挖掘水質數據在短時震蕩過程中的特征信息,提升水質預測精度;VMD-TCN-GRU 模型的MAE(平均絕對誤差)、RMSE( 均方根誤差) 下降,R2( 確定系數) 提高,其MAE、RMSE、R2 分別為0.055 3、0.071 7、0.935 1;其預測性能優越,預測精度更高且擁有更強的泛化能力,可以應用于汾河水質預測。

關鍵詞:水質預測;混合模型;變分模態分解;卷積時間神經網絡;門控循環單元;時間序列;汾河

中圖分類號:TV213.4;X524 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.03.017

引用格式:項新建,許宏輝,謝建立,等.基于VMD-TCN-GRU 模型的水質預測研究[J].人民黃河,2024,46(3):92-97.

近年來,國內外專家學者為掌握未來水質變化趨勢,對水體水質預測方法進行了大量研究,并取得了一定研究成果。羅學科等[1] 利用差分自回歸移動平均模型(ARIMA)對巢湖水域水質進行了預測,結果顯示其預測精度及泛化能力較強。張穎等[2] 基于改進的灰色模型和模糊神經網絡預測了太湖流域未來一段時間內水質整體變化。傳統的預測方法雖然理論體系成熟、計算簡單,但是隨著水環境的變化,無法有效處理高差異、對長時間序列依賴性強且非線性關系復雜的水質數據[3] ,而人工神經網絡憑借強大的非線性適應性信息處理能力[4] 、能充分逼近任意非線性函數以及泛化能力強[5] 等特點,被廣泛應用于水質預測中。Archana 等[6] 將人工神經網絡應用于馬圖拉下游溶解氧預測,取得了較高的預測精度。秦文虎等[7] 利用長短期記憶神經網絡(LSTM)預測太湖水質,相較于傳統算法效果更好,但單一LSTM 無法滿足數據變化時細節特征的挖掘。王軍等[8] 將卷積神經網絡(CNN)與長短期記憶神經網絡相結合,構建的CNN-LSTM 模型相較于單一LSTM 能更有效預測黃河水質。由此可見,神經網絡融合模型在水質預測領域具有較大優勢,能有效提高預測精度。但是,水環境變化機理復雜,水質數據具有非平穩性,由神經網絡直接挖掘非平穩數據在短時震蕩中的變化特征并不能達到理想效果[9] ,而現有的水質預測模型大多并未對此進行處理。信號分解法能有效處理數據的非平穩性問題[10] ,因此在水質預測融合模型中可引入信號分解法進行數據前處理,挖掘數據的短時變化特征,以提升融合模型的預測精度。

本文提出一種基于VMD-TCN-GRU 的水質預測模型,以汾河水庫出水口水質數據為樣本,首先利用VMD(變分模態分解)將非平穩的水質時序數據分解成若干個相對平穩的IMF(本征模態函數),減小模型預測誤差;接著將各IMF 輸入TCN-GRU(卷積時間神經網絡-門控循環單元)中,提取數據的時序特征及數據變化的細節信息,并進行非線性擬合,通過注意力機制讓模型聚焦于對水質影響更大的信息;最后將各預測序列線性疊加,重構得到最終的預測結果。此外,使用WOA(鯨魚算法)對VMD 以及預測網絡中的關鍵參數尋優,減少調參的工作量并提高模型的預測精度。同時,采用對比試驗證明VMD-TCN-GRU 模型具有較高的準確性與較強的泛化能力,能極大減小數據非平穩性的干擾。

1 研究方法

1.1 變分模態分解

VMD 是一種新型自適應信號分解方法,能夠有效解決EMD(經驗模態分解)方法存在的模態分量混疊問題[11] ,極大降低復雜性高的時間序列非平穩性影響,將復雜的非平穩信號分解為包含多個不同頻率尺度且相對平穩的子序列,從而提高其穩定性。VMD 處理非平穩性嚴重的時間序列數據時,其分解性能受模態個數k 與懲罰因子α 設置的影響[12] 。

1.2 卷積時間神經網絡

TCN 是CNN(卷積神經網絡)的一種改進形式,由因果卷積、擴張卷積以及殘差模塊組成,能有效處理時序問題。因果卷積保證了數據被提取特征信息時的因果時序性;擴張卷積允許對卷積輸入進行間隔采樣,使神經元對更廣泛區域的輸入數據產生響應,有利于TCN 抓取更長的時序依賴關系;殘差模塊則用來緩解梯度不穩定問題,解決因網絡深度增加而帶來的干擾,提高模型預測的精度。其中擴張卷積計算公式為

1.4 模型構建

1.4.1 VMD-TCN-GRU 的構建

水質數據隨時間變化的非平穩性、非線性特征明顯。因此,使用VMD 對數據進行處理,將其分解為多個相對平穩的子序列。接著,將TCN 與GRU 進行結合,先利用TCN 對水質數據在時間維度上的特征信息及變化的細節信息進行挖掘,充分學習數據之間的關聯性,再將得到的特征信息作為GRU 的輸入,進一步提取輸入序列的特征并進行非線性擬合。同時,針對長時間序列數據處理時難以把握信息重要程度的問題,在GRU 基礎上引入注意力機制,讓模型聚焦于對水質預測更重要的特征信息。TCN-GRU 預測模型結構見圖2(其中:Dropout 是常用的正則化方法,用于減少神經網絡過擬合現象;Dense 全連接層可以將輸入特征映射到輸出結果)。

1.4.2 VMD-TCN-GRU 運行流程

設置合適的模態參數k 與懲罰因子α 對VMD 的分解至關重要,同時神經網絡模型中某些關鍵參數取值影響預測結果,為優化相關參數并減小人為經驗調參的影響,利用WOA 算法[14] 將模態個數k 和懲罰因子α、第一層GRU 隱藏層單元數、第二層GRU 隱藏層單元數、Dropout 數以及批處理大小作為尋優變量,尋找全局最優解。引入WOA 算法后,模型運行主要流程如下。

1)對優化VMD 的WOA 算法進行初始化,設置WOA 算法相關參數(鯨魚數量、鯨魚維度以及迭代次數),將平均包絡熵作為優化VMD 時的適應度函數,其中平均包絡熵計算公式為

2 研究概況與數據來源

汾河是黃河第二大支流,位于山西省中部與西南部,全長716 km,流域面積約39 721 km2,占全省面積的25.5%[15] 。汾河支流眾多,其中較大的有瀟河、文峪河、澮河等。研究所采用數據來源于中國環境監測總站,其每4 h 發布一次水質數據。選取水質監測斷面為汾河水庫出水口,將其2021 年1 月1 日0 時至2022 年6 月30 日20 時共3 276 條水質數據作為樣本。根據國家地表水水質自動監測站水質評價指標,選?。穑?值、溶解氧、高錳酸鹽指數、氨氮、總磷等5 類水質因子進行分析,將《地表水環境質量標準》(GB3838—2002)與獲取的水質數據進行對比發現,高錳酸鹽指數對該斷面水質類別影響最大,因此本研究將高錳酸鹽指數作為主要水質指標進行研究。

3 試驗結果與分析

3.1 缺失數據處理

在數據獲取過程中,存在系統或人為因素導致部分數據缺失的問題。為保障試驗的有效性,采用線性插值法處理缺失數據。缺失數據補齊后,將數據集按9 ∶ 1 的比例劃分訓練集與測試集,補缺后的高錳酸鹽指數變化情況見圖4。據圖4 可知,高錳酸鹽指數數據隨時間變化具有非線性、非平穩性特點。

3.2 模型評價

為合理評估模型的預測效果,采用平均絕對誤差(MAE)、均方根誤差(RMSE)以及確定系數(R2 )對預測結果進行評價。其中:MAE 可以反映預測結果與實測值偏差絕對值的平均數,MAE 值越小表示預測結果與實測值越吻合,MAE 值越大表示預測結果誤差越大;RMSE 可以衡量預測結果與實測值之間的偏差,RMSE 越接近0 表明模型越穩定,RMSE 越大表明模型穩定性越差;R2 可以反映模型擬合數據的準確度,其范圍為0~1,R2越接近1 表明模型擬合能力越好,R2越接近0 表明模型擬合能力越差。

3.3 試驗主要參數設置

模型訓練過程中所使用的優化器為Adam,學習率設置為0.001,激活函數設置為ReLU,滑動窗口大小為22。TCN 時間特征提取部分,殘差單元為2,卷積核數設置為32、16,卷積核尺寸為3,擴張因子數量設為1、2、4、8;全連接層1 神經元數量設置為32,全連接層2神經元數量設置為1。WOA 優化VMD 主要參數設置:懲罰因子范圍為[100,7 000],噪聲容限tau 為0,分解IMF 個數k 范圍為[3,12],直流分量DC 為0,模態中心頻率初始化值init 為1,控制誤差大小常量tol為1×10-7;WOA 算法1 鯨魚數量、迭代次數、鯨魚維度分別為60、80、2,WOA 算法2 鯨魚數量、迭代次數、鯨魚維度分別為5、5、4。WOA 優化神經網絡部分參數設置見表1。

3.4 結果分析

3.4.1 VMD 非平穩序列分解

通過WOA 算法1 對VMD 中設置的懲罰因子與模態個數進行全局尋優,解得懲罰因子為478,模態個數為4。因此,VMD 將原始高錳酸鹽指數數據分解成4 個IMF,見圖5。模態分量IMF1 表示趨勢分量,反映高錳酸鹽指數隨時間變化的整體趨勢;模態分量IMF2表示細節分量,反映高錳酸鹽指數隨時間變化的細節差異;模態分量IMF3 與IMF4 表示隨機分量,反映高錳酸鹽指數隨時間變化的隨機性。而VMD 分解后的各模態分量雖然存在一定范圍的波動,但整體上較為穩定,IMF2、IMF3、IMF4 的分量值皆均勻分布于0 的兩側,可以有效降低后續模型預測的誤差。

經計算可得模態分量IMF1、IMF2、IMF3、IMF4 的過零率分別為0、0.111 7、0.343 7、0.678 2。IMF1 的過零率小于0.05,將其作為低頻分量,IMF2、IMF3、IMF4作為高頻分量。結合圖5 可知,低頻分量更能體現數據的整體變化趨勢,高頻分量則體現了數據在一定時間內的震蕩變化。由此可見,原始數據經VMD 分解為低頻到高頻的4 個分量,雖然數據量增加,但其平穩性有了很大改善,同時找出了高錳酸鹽指數在短時震蕩過程中所隱藏的波動趨勢,有利于模型更好地挖掘數據的變化規律。

3.4.2 VMD-TCN-GRU 模型的效果驗證

為驗證VMD-TCN-GRU 水質預測模型的性能,使用相同的數據集,將本文模型與常見的傳統機器學習預測模型SVR(支持向量回歸)及當下較流行的預測模型LSTM、TCN、CNN-LSTM 試驗結果進行對比。此外,為驗證VMD、注意力機制以及WOA 算法( 以TCN-GRU預測模型為例)對本文模型預測性能的影響,使用相同的數據集進行消融試驗。

1)對比試驗。將分解好的各IMF 按9 ∶ 1 的比例劃分為訓練集和測試集,將各IMF 的訓練集分別輸入TCN-GRU 預測模型中迭代訓練,并預測其對應的測試集,將輸出的4 個預測序列重構得到最終的預測結果。各模型擬合結果見圖6,由圖6 可以看出,相較于其他模型,VMD-TCN-GRU 水質預測模型預測曲線擬合程度最高,其他模型的預測曲線雖與實測曲線在大致趨勢上貼合,但這些模型在數據的短時波動變化上的處理效果不佳,尤其是LSTM 模型。

SVR 預測曲線與實測曲線的貼合程度不如本文研究模型,由此可見,傳統的機器學習預測模型對非平穩時序數據的預測效果欠佳;LSTM 雖在預測中能與實測曲線保持趨勢上一致,但無法挖掘數據在短時震蕩過程中的信息;CNN-LSTM 模型的預測曲線相較于實測曲線,存在一定程度偏移,其原因是未對輸入的非平穩數據進行前處理;TCN 雖然能挖掘序列數據在時間維度上的特征信息,但其無法充分提取非平穩輸入數據中的波動趨勢信息,因此其擬合效果弱于本文研究模型。

此外,通過MAE、RMSE 和R2 這3 個評價指標對各模型的預測性能進行量化評估,不同模型預測性能對比見表2。相較于其他模型,本文研究所提出的VMD-TCN-GRU 模型在各評價指標上均具有明顯優勢,表明在汾河水質預測上VMD-TCN-GRU 模型相較于傳統水質預測模型及當下較流行的水質預測模型,預測精度更高且泛化能力更強,可以應用于汾河水質預測。

2) 消融試驗。將去掉VMD、注意力機制以及WOA 算法后的模型與原模型進行消融試驗,不同模型消融試驗預測結果見圖7,消融試驗中量化的預測性能評價指標對比見表3。未加入VMD、WOA 算法及注意力機制的模型預測效果對45°擬合線的貼合程度均弱于本文模型,并可直觀看出VMD 對模型的預測效果影響最大,去掉VMD 模型的預測值較大程度偏離實測值,即預測值與實測值關系點較多遠離45°線。

同時結合表3 可知,在引入WOA 算法后,模型能自適應參數尋優,得到最優解,有效減少人為經驗調參的干擾,其MAE 與RMSE 分別降低了34.86%和31.52%,R2提高了8.51%;而加入注意力機制后,預測模型能聚焦重要程度更高的特征,其MAE 與RMSE 分別降低了32.48%和28.37%,R2提高了7.04%;此外經過VMD 處理,高錳酸鹽指數數據的平穩性得到大幅提升,有效減小了后續預測的誤差,其MAE 與RMSE 分別降低了50.89%和53.80%,R2提高了34.31%。綜上可知,VMD模塊、WOA 優化算法以及注意力機制的引入能提高模型的預測精度。

4 結論

為提高水質預測精度,針對水質數據隨時間變化的非平穩性、非線性特征,提出了基于VMD-TCNGRU的水質預測模型,并在GRU 模型基礎上引入注意力機制,讓模型聚焦于對水質預測更重要的特征信息,同時使用WOA 對VMD 以及預測網絡中的關鍵參數進行尋優,減少調參的工作量,提高模型的預測精度。通過VMD 數據分解法對水質數據進行前處理,從而得到若干個特征性強且相對平穩的IMF,有利于后續預測模型充分挖掘數據在短時震蕩過程中的波動變化趨勢及細節特征,從而大幅提升水質預測精度。相較于其他模型,VMD-TCN-GRU 模型能更好地挖掘水質數據在短時震蕩過程中的特征信息,找到其實際變化規律,并讓模型得到充分學習,進而提升水質預測的精度,采用VMD-TCN-GRU 模型對汾河水庫出水口高錳酸鹽指數進行預測,其MAE 為0.055 3,RMSE 為0.071 7,R2為0.935 1,預測精度高,可以應用于汾河水質預測工作中。

參考文獻:

[1] 羅學科,何云霄,劉鵬,等.ARIMA-SVR 組合方法在水質預測中的應用[J].長江科學院院報,2020,37(10):21-27.

[2] 張穎,高倩倩.基于灰色模型和模糊神經網絡的綜合水質預測模型研究[J].環境工程學報,2015,9(2):537-545.

[3] 曹文治,蘇雅,曾陽艷,等.基于EEMD-LSTM-SVR 的水質預測模型[J].系統工程,2023,41(4):1-12.

[4] 郭慶春,何振芳,李力.人工神經網絡模型在黃河水質預測中的應用[J].人民黃河,2011,33(10):42-43.

[5] 梁冰,田斌,洪漢玉.基于LSTM-Attention 的水質參數預測研究[J].自動化與儀表,2022,37(3):80-84.

[6] ARCHANA Sarkar,PRASHANT Pandey.River Water QualityModelling Using Artificial Neural Network Technique[J].A?quatic Procedia,2015,4(C):1070-1077.

[7] 秦文虎,陳溪瑩.基于長短時記憶網絡的水質預測模型研究[J].安全與環境學報,2020,20(1):328-334.

[8] 王軍,高梓勛,朱永明.基于CNN-LSTM 模型的黃河水質預測研究[J].人民黃河,2021,43(5):96-99,109.

[9] 董泳,劉肖峰,李云波,等.基于EMD-EEMD-LSTM 的大壩變形預測模型[ J]. 水力發電,2022,48 (10):68 -71,112.

[10] 夏駿達,鄭偉倫,王子涵,等.基于EMD-LSTM 的船舶運動姿態短期預測[J].計算機與數字工程,2022,50(7):1434-1438.

[11] 祁繼霞,粟曉玲,張更喜,等.VMD-LSTM 模型對不同預見期月徑流的預測研究[J].干旱地區農業研究,2022,40(6):258-267.

[12] 戚庭野,衛會汝,馮國瑞,等.基于WOA-VMD 的瞬變電磁探測信號降噪方法[J].中南大學學報(自然科學版),2021,52(11):3885-3898.

[13] 鄒可可,李中原,穆小玲,等.基于LSTM-GRU 的污水水質預測模型研究[J].能源與環保,2021,43(12):59-63.

[14] 萬俊杰,單鴻濤.基于WOA 優化LSTM 神經網絡的配電網可靠性評估[J].智能計算機與應用,2021,11(10):107-112,117.

[15] 李天悅,李家存,王艷慧,等.近25 年來汾河流域土地利用及景觀格局變化研究[J].首都師范大學學報(自然科學版),2023,44(3):48-55.

【責任編輯 呂艷梅】

猜你喜歡
時間序列汾河
陪汾河走一走
一圖讀懂《山西省汾河保護條例》
汾河水韻
上證綜指收益率的影響因素分析
基于指數平滑的電站設備故障時間序列預測研究
基于時間序列的我國人均GDP分析與預測
基于線性散列索引的時間序列查詢方法研究
基于組合模型的能源需求預測
依托百里汾河工程構建體育健身綠道的思考
汾河流域生態修復核心區建設
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合