?

基于圖卷積STG-LSTM的京杭運河水質時空預測研究

2022-08-28 00:35徐憲根楊貝爾蔣建明
中國農村水利水電 2022年8期
關鍵詞:溶解氧監測站站點

宦 娟,張 浩,徐憲根,楊貝爾,史 兵,蔣建明

(1.常州大學計算機與人工智能學院阿里云大數據學院,江蘇常州 213164;2.常州市環境科學研究院,江蘇常州 213022)

0 引 言

為了更好管理流域水質狀況,我國部分河流已建立較為完善的監測體系。溶解氧含量對調節河流生態系統中的各種化學過程和生物群落中起著關鍵的作用,氮磷是自然河流及湖泊中影響水體營養狀態及浮游植物生產力的最主要營養因素[1]。但河流水質具有時序性、不穩定性和非線性等特點且受多種因素影響,會產生時間和空間上的分布差異。因此,提高河流水質因子時空預測的準確度,有利于對河流不同位置的水質狀態進行快速預警和精準調控。

河流水質的時空預測是以河流水質狀態信息作為研究對象,根據其時空分布特征,利用水質歷史數據對未來一段時間的水質時空狀態做出預測。在早期的預測方法中,學者們提出馬爾科夫模型[2]、自回歸移動平均模型(ARMA)以及其變種的自回歸差分移動平均模型[3](ARIMA)等統計學預測模型。這些統計學預測模型共同的特點是需要數據平穩性假設,由于提取河流水質因子的非線性特征能力不足,其預測的精度不高。支持向量機[4](SVR)、高斯過程回歸[5](GPR)和極限學習機[6](ELM)等機器學習方法能夠對河流水質數據進行特征工程建模并能很好的提取非線性特征,從而能夠提高預測精度。近年來,深度學習方法在提升預測精度方面取得了優異的性能,被廣泛應用于各行各業[7]。Yu 等提出了小波分析和長短時記憶神經網絡(LSTM)組合的方法用于預測湖泊葉綠素含量,利用小波分析去除采集到數據中的噪聲,再利用LSTM 捕獲數據長期時間依賴特征,取得了較好的預測效果[8]。CAO 等建立了基于門控結構(GRU)的溶解氧時間序列預測模型,將時間區間劃分成不同的時間段,依次對不同時間段內水體溶解氧進行預測[9]。上述對于水質因子的預測方法都是針對單監測站點的時間序列預測,而河流水質因子數據不僅在時間上具有依賴性,在空間上河流不同位置上的水質狀態也具有一定的空間關聯性,所以僅從時間維度上考慮,無法獲取河流不同位置上水質狀態的變化,預測精度還有待進一步提高。樊星宇等通過RELM 構建出中心監測點與池塘各位置溶解氧之間的映射關系,從而實現對未來時刻池塘溶解氧的空間預測[10]。自從譜圖理論將卷積運算從基于網格的數據推廣到基于圖結構數據上后,交通領域的研究者利用圖卷積神經網絡(GCN)提取交通流的空間特征,李志帥等依據路網中的傳感器空間分布的非歐式結構特征,將其抽樣成一張圖,并使用GCN 提取圖中的空間關聯性[11]。Zhu等提出了一種基于門控圖卷積網絡地交通流預測方法[12]。由此可見,GCN 能有效的提取非歐式空間數據蘊含的空間特征。

依據上述問題和方法,本文提出一種融合河流水質狀態時空特征的STG-LSTM 模型,通過構建出時空圖,得到未來一段時間河流不同位置的水質狀態。以此探究通過提取時空關聯性后,模型所體現出優越性。首先,采用最大互信息系數(MIC)衡量各監測站點水質因子序列之間的相關性,綜合選取時空預測站點;其次以各監測站點地理位置和水質因子歷史觀測值為依據,構建時空圖來表征各監測站點間的時空相關性。將時空圖輸入STG-LSTM 模型中,采用圖卷積獲取河流水質因子空間依賴關系,并融合長短時記憶神經網絡獲取水質因子的時空關聯性。通過選取時空預測站點將本模型與其六種模型進行比較,并依據所構建的時空圖,實現對未來一段時間運河河段不同位置水質狀態的時空預測。

1 材料與方法

1.1 研究區域與數據

本研究以京杭運河常州段作為試驗區域,該河段分布多個國控和省控的水質斷面監測站點。收集了2020年4月1日-2021年4月1日8個監測站點的4種水質因子數據,監測時間間隔為4 h,水質數據共17 168 組。該4 種水質因子分別為溶解氧、高錳酸鹽指數、氨氮和pH值,這8個監測站點能夠很好的掌握該運河河段上不同位置水質因子的變化情況。其中監測點D的4 種水質因子數據,見圖1。每個監測點有2 146 組數據,將前1 546 組數據劃分為訓練集,后600組數據作為驗證集。

圖1 監測站點D四種水質因子數據曲線Fig.1 Data curve of four water quality factors at monitoring site D

1.2 時空預測站點的選取方法

由于運河河段各監測站點所在的位置和環境的不同,導致了各監測站點的水質序列之間存在相關性的差異。最大互信息系數(MIC)可以較好的衡量兩個序列之間的相關性[13]。本文采用最大互信息系數來衡量河流上各個監測站點上水質因子之間的相關性,綜合選取出與其他站點相關性最大的站點作為時空預測站點。

假設運河河段站點數量為N,以溶解氧序列為例,任意選取兩個站點,將兩個監測站點的溶解氧序列和的值域分別劃分為x 段和y 段,以獲得xy 個網格劃分結果。則河流監測站點i和j溶解氧序列的最大互信息系數為:

式中:D 為兩個監測站點溶解氧序列;I*(D,x,y)為劃分網格后每一個網格中相關互信息的最大值;Rn為網格劃分數量xy的最大值。

最后計算第i監測站點與河流上其余監測站點溶解氧序列的最大互信息系數的和,選取最大的監測站點作為時空預測站點,計算公式如下:

1.3 運河各監測站點時空圖的構建

在某一時刻,運河河段上的各個監測站點空間分布可以被抽樣成一個空間拓撲圖,記為W =(V,E,A)。其中V ∈RNF表示構成圖結點的集合,N 為運河監測站點的個數,F 表示每一個監測站點的屬性維度。E ∈RNN表示構成圖的邊集合,代表各監測站點之間的連通性;A ∈RNN表示圖G 中的空間關系鄰接矩陣,其中每一個元素Ai,j表征圖節點vi和vj之間的相對時空關系。

在對運河河段水質因子預測的問題上,運河河段上各監測站點在過去Th時間片上水質因子歷史觀測值是關鍵的影響因素。因此,以各監測站點過去Th時間片上水質因子歷史觀測值為依據,以此構建時空圖來表征各監測站點之間的時空相關性。在某一時刻,構造一個Wvi向量,該向量包含站點vi過去Th時間片上待預測水質因子數據的平均值、標準差、偏度和峰度,我們根據站點vi與站點vj所構造的Wvi和Wvj,將得到的兩向量之間皮爾遜相關系數ρWvi,Wvj作為站點vi和vj之間的時空權重關系,因此站點vi和vj所構成的鄰接矩陣Avi,vj為:

式中:Avg(vi),Std(vi),Skew(vi),Kurt(vi)分別為監測站點vi過去Th時間片水質因子數據的平均值、標準差、偏度和峰度;E(Wvi)為向量Wvi的數學期望。

依據運河河段各監測站點在過去Th時間片水質因子的歷史觀測值,構造出各監測站點的時空圖,見圖2,圓圈表示運河河段上不同監測站點,兩點之間的線段表示它們相互影響的強度,線段的顏色越深,代表影響程度越大。在空間維度上,如圖2(a)、(b),可以發現運河上不同位置水質狀態對c 點有不同的影響,甚至在同一位置隨著時間的推移對c 點的影響也不同。在時空維度上,如圖2(c),站點B 的水質歷史觀測值不僅對本身未來t+1 時刻水質狀態有不同影響,而且對站點A 未來不同時刻的水質狀態也會有不同的影響。那么預測未來運河河段上水質因子數據這一問題可以表述為:通過學習映射函數f(θ),作用于Th周期內的各監測站點歷史水質因子數據,來預測站點i未來Tp周期內水質因子數據[14],即:

圖2 運河河段不同位置的水質狀態時空相關圖Fig.2 Spatio-temporal correlation diagrams of water quality at different locations in the canal section

1.4 STG-LSTM 模型

STG-LSTM 模型用來實現運河河段不同位置水質因子的動態時空相關性,其總體架構如圖3 所示。STG-LSTM 模型由時空模塊和輸出層組成,時空模塊中包括圖時空卷積模塊和LSTM 的時間模塊。圖時空卷積模塊由時空維度的圖形卷積組成,從所構造的時空圖中捕獲運河上不同位置水質因子的空間相關性?;贚STM 的時間模塊經數據特征融合后提取相鄰站點之間時間序列信息。最后,基于參數矩陣對兩個輸出變量進行時空特征融合,經過輸出層得到最終的預測結果。

圖3 STG-LSTM 的總體架構圖Fig.3 STG-LSTM overall architecture diagram

1.4.1 圖時空卷積模塊

譜圖理論將卷積運算從網格的數據推廣到圖結構數據上[15]。在本研究中,運河河段上各監測站點分布可以看成一個小型圖形結構,每個站點上的特征可以看作圖形上的信號[16]。因此,為了充分利用時空圖的拓撲特性,在每一個時間片上采用基于譜圖論的圖卷積直接處理信號。

1.4.2 基于LSTM 的時間模塊

從時間維度上看,運河河段水質因子數據本質上是二維的時間序列數據。根據相鄰站點歷史時刻水質因子數據,將其所構成的時空圖輸入到圖卷積時空模塊,用于捕捉各站點之間的空間相關性,但是在捕捉時間信息時會忽視相鄰站點間水質數據歷史時間的前后順序。因此,選擇長短記憶神經網絡(LSTM),其可以克服在長期序列特征提取過程中出現的梯度消失和記憶衰減問題[17]。利用LSTM 對時間序列進行建模,用來提取相鄰站點之間水質數據的時間序列信息[18,19]。首先,假設運河河段各站點監測的頻率為q 次/d,當前時間為τ,預測窗口的大小為Tp,截取時間序列長度為Th,其中利用與預測周期直接關聯的前一段歷史時間序列,作為時間模塊的輸入,即χ =(Xτ-Th+1,Xτ-Th+2,…,Xτ) ∈RNFT。

1.5 方法評價指標

1.5.1 預測精度評價指標

(1)均方根誤差(RMSE)。RMSE定義為均方根誤差的平均根,計算公式如下。RMSE越小,預測精度越高。

(2)決定系數(R2)。決定系數(R2)是回歸平方和總偏差平方和的比率,反映因變量變化的自變量比例。R2越接近1,則說明預測精度越高。計算公式如下:

1.5.2 可靠性評價指標

可靠性驗證預測值和觀測值是否具有一致性。概率積分變換(PIT)值的統一均勻概率圖用于評估預測可靠性。PIT 根據累積分布函數(CDF)和觀測值計算的,計算公式如下。如果預測可靠,則PIT值在0和1之間服從均勻分布。均勻概率圖中顯示所有預測值,我們可以清楚的檢查其是否服從均勻分布。

2 結果與分析

2.1 河流時空預測站點的選取

本文選用京杭運河常州段上8 個國控和省控監測站點,站點名稱定義為A、B、C、D、E、F、G、H。為了找出與其余站點相關性最大的一個站點,作為時空預測站點。分別計算出每一個監測站點與其余監測站點溶解氧、高錳酸鹽指數、氨氮、pH序列的最大互信息系數之和,見表2。

表2 8個監測站點4種水質因子MIC計算結果Tab.2 Calculation results of four water quality factors MIC at eight monitoring sites

2.2 驗證STG-LSTM 收斂性

為了保證所提出的STG-LSTM 模型的預測精度,在比較之前首先驗證其收斂性。用深度學習中常用的4種優化算法來驗證模型的收斂性:自適應梯度算法(Adagrad)、均方根算法(RMSprop)、自適應增量算法(Adadelta)和Adam。將MSE 作為模型的損失函數,訓練集作用于驗證模型收斂性,站點D 溶解氧序列中的STG-LSTM 收斂曲線,見圖4。隨著迭代次數的增加,在后期所有優化函數的曲線都在同一條的水平線上,這表明迭代次數設置為1 000 次可以確保4 種優化算法能夠在數據集中收斂。從溶解氧序列數據中我們可以看出,Adam 算法訓練的MSE 雖然最后和RMSprop 算法相當,但是Adam 前期收斂速度更快,這表明Adam 算法在這四種優化算法中使STGLSTM收斂地更好。

圖4 STG-LSTM 的收斂曲線Fig.4 Convergence curve of STG-LSTM

2.3 實驗結果

本研究做了3 組對比實驗,實驗中各模型通過Python3.7 基于tensorflow[20]和Scikit-learn[21]框架上進行搭建的。首先,SVR和GPR 作為解決時間序列數據的傳統的機器模型,它們依靠本身核函數的特性,適合處理高維、非線性等復雜的回歸問題且運行速度是它們的一大優勢。因此,用SVR、GPR 與本文提出的STG-LSTM 模型相比較,從預測精度和運行時間兩方面的綜合表現來進行比較分析;其次,在深度學習中,LSTM 和GRU 通過添加門控機制來控制信息流以及狀態和單元的更新,在時間序列預測的問題上能夠獲得很好的效果,但是它們只是提取了數據的時間依賴性,所以,本研究通過STG-LSTM 與LSTM、GRU 進行比較,旨在去驗證在加入了空間維度后模型所表現出的優越性;最后,STDN 使用CNN 和RNN 分別建模提取數據時間和空間上的依賴性,并沒有考慮時空維度上河流各個站點之間影響存在時間的滯后性。同樣的STGCN 則通過圖卷積和2D卷積分別捕獲空間依賴性和時間依賴性,因此,將本文提出來的模型與STDN 和STGCN 進行比較,用來驗證各站點數據時空特征融合后所構成的時空圖,是否能夠更好的表達時空維度上的依賴關系。

2.3.1 不同模型預測結果及驗證

本組實驗從預測精度和運行時間兩方面來比較SVR、GPR和STG-LSTM。預測站點D 測試集溶解氧數據中這3 個模型的預測結果,見圖5。預測值的R2越大、RMSE 越小,越接近于實際觀測值,預測效果越好。從圖5中可以看出,在預測一些突變點,STG-LSTM 模型的預測值比SVR和GPR更加的穩定。STGLSTM 的R2相較于SVR、GPR 分別提高0.053、0.052;RMSE 相較于SVR、GPR 分別下降0.315、0.313。說明本文模型相較于傳統的機器學習模型對于河流水質因子預測更加具有優勢,有著更好的預測效果。由于機器學習本身核函數的特性,SVR 和GPR訓練時間相較于STG-LSTM大幅減少。

圖5 SVR、GPR、STG-LSTM 在站點D上溶解氧序列預測結果Fig.5 SVR、GPR、STG-LSTM dissolved oxygen sequence prediction results on site D

本組實驗用于驗證在時間序列預測模型中增加空間關聯信息能否有助于提高預測精度,并且去證明增加了空間關聯信息后是否會顯著增加模型的運行時間。LSTM、GRU、STGLSTM 這3 個模型在溶解氧測試集上的預測效果,見圖6。本文模型對于溶解氧預測的效果均顯著優于LSTM 和GRU,其R2和RMSE 分別為0.987 和0.144,R2相較于LSTM 和GRU 分別提高6.82%和7.17%;RMSE相較于LSTM 和GRU 分別下降69.30%和70.06%。這說明同時考慮時間關聯和空間關聯的方法優于僅考慮時間關聯的方法,這是因為圖卷積時空模塊提取河流上預測站點與其余監測站點在每個時間片的空間關聯特征,而融合時間序列模塊進一步提取空間關聯的時間關聯特征,時空關聯模塊考慮了河流水質因子的時空分布特征。同時可以看出,本文提出的模型增加空間關聯信息后并沒有增加運行時間,3 個模型迭代的次數均為1 000 次,相反其運行的時間相較于LSTM和GRU 分別降低了9.2 s 和19.6 s。這是因為,MGCN-LSTM 能夠快速從構建的時空圖中得到各站點之間的時空關系。

圖6 LSTM、GRU、STG-LSTM 在站點D上溶解氧序列預測結果Fig.6 LSTM、GRU、STG-LSTM dissolved oxygen sequence prediction results on site D

本組實驗用于驗證水質因子時空圖是否能夠更好地表達時空維度上的依賴關系。STDN、STGCN 和STG-LSTM 三個模型的預測效果,見圖7。STG-LSTM 對于溶解氧預測精度相較于STDN 和STGCN 略高,其R2相較于STDN 和STGCN 分別提高4.45%和2.07%;RMSE則相較于STDN 和STGCN 下降67.86%和28.71%。STDN 運行時間相較STG-LSTM 大幅下降,這是因為雖然STDN 也是分別提取了數據之間的空間和時間的依賴性,但是CNN 只能捕獲網格結構數據上各位置局部的空間相關性,這里并沒有考慮其余站點的空間信息。STGCN 沒有使用時空圖,而是根據站點之間的數據信息構建空間圖進行計算的。綜上所述,本文提出的STG-LSTM 通過時空特征融合所構的時空圖,能夠更好地表達時空維度上的依賴關系,從而提高了模型預測精度。

圖7 STDN、STGCN、STG-LSTM 在站點D上溶解氧序列預測結果Fig.7 STDN、STGCN、STG-LSTM dissolved oxygen sequence prediction results on site D

2.3.2 河流不同位置水質預測結果

在上述3組實驗中對所選擇的時空預測站點溶解氧序列做了預測,并將本文模型從預測精度和訓練時間綜合和6 種模型進行了比較,可以看出本文提出的模型在時空預測上面具有良好的預測效果。因此,選用STG-LSTM 模型,依據構造的時空圖,表征出各監測站點的時空相關性,對運河河段其他監測站點的水質因子序列進行預測,從而得到未來一段時間運河河段不同位置的水質狀態。關鍵的是,由于構造出各監測站點的時空圖,STG-LSTM 只需要運行一次,就能同時得到運河河段8 個監測站點的預測結果,相比與其他模型單次運行只能得到單個站點預測結果,大大縮短了訓練的時間。以溶解氧序列為例,STG-LSTM對運河河段不同站點預測結果的R2、RMSE,見圖8。

從圖8可知,選擇的時空預測站點D 預測效果最好,因為該站點更容易獲取其他站點的水質狀態信息。不同站點從其他站點所獲得的水質狀態信息是不相同的,導致運河河段不同位置的水質狀態信息預測效果也不相同的。綜上所述,本研究提出的STG-LSTM 模型根據不同監測站點所構造的時空圖,能夠快速對未來運河河段不同位置的水質狀態做出預測,并得到較好的預測效果。

圖8 STG-LSTM 模型在8個站點上溶解氧序列預測效果曲線Fig.8 The STG-LSTM model's dissolved oxygen sequence prediction effect curve on eight stations

2.4 模型驗證

2.4.1 STG-LSTM 模型可靠性驗證

從預測精度和模型的訓練時間兩方面對STG-LSTM 的預測結果進行評價后,并繼續對其進行可靠性檢驗,以確保預測結果是具有說服力的。首先,將站點D 溶解氧序列的測試集分成4 組,每組150 條數據。其次,計算出每組數據每次觀察的PIT值,如果這些值是服從均勻分布的,則說明提出的模型預測結果是可靠的。因此,繪制了這4 組測試集PIT 值的均勻概率圖,可以清楚地看到這些值是否服從均勻分布,見圖9。第一組和第三組數據集的PIT 值是沿著對角線均勻分布,其范圍均勻覆蓋[0,1],所有的點都在Kolmogorov 5%顯著性帶內,這表明所預測的PDF 不是過高或過低,也不是過寬或過窄。第二組和第四組數據集的PIT 值振蕩的幅度要稍微大一些,有部分點在Kolmogorov 5%顯著性帶外,是由于這兩組數據集中某些點對應的觀測值存在異常,或者是該預測的站點對應的部分觀測值與其余站點的觀測值關聯度不是很高。但是,這兩組數據集的PIT 值大部分還是沿著對角線均勻分布的。因此,STG-LSTM的預測結果是可靠的令人信服的。

圖9 STG-LSTM 模型對站點D溶解氧序列的可靠性驗證結果Fig.9 Reliability verification results of STG-LSTM model on the dissolved oxygen sequence of site D

2.4.2 STG-LSTM 模型普適性檢驗

以上實驗證明STG-LSTM 對河流溶解氧序列數據預測取得很好的預測效果。為了檢驗模型的普適性,對時空預測站點D 上其余3 種水質因子做了相同實驗并與其余6 種模型進行對比。4 種不同水質因子數據集中7 個模型的預測指標,見表3。TT 是模型訓練時間的縮寫。就預測精度而言,STG-LSTM 在四種水質因子數據集中預測效果最好,預測效果可以在RMSE 和R2這兩個指標中體現。在TT 的指標中,STG-LSTM 相較于STDN、STGCN、LSTM、GRU,訓練時間僅比STDN 長,但是STGLSTM只需運行一次,就能得到8個監測站點的預測結果。這是因為構造的時空圖能夠得到各監測站點之間的時空關聯性。盡管SVR、GPR 的TT 值特別小,但它們的預測精度是有限的。在實際應用中,STG-LSTM 可以多次運行,以最佳結果作為預測結果。在上述這些指標中可以證實,STG-LSTM 對于河流不同水質因子數據預測具有較高的預測精度和一定的普適性。

表3 4種水質因子數據集中7個模型預測指標Tab.3 Prediction metrics for seven models in four water quality factor datasets

3 結 論

獲得快速精準的河流水質預測結果對于河流的管理和預警非常重要。針對現在對水質預測方法大多是單監測站點的時間序列預測,無法描述河流水質的空間分布,提出一種基于時空圖卷積融合長短時記憶網絡的河流水質預測模型(STGLSTM),并以京杭運河常州段為試驗區域對象。主要結論如下:

(1)依據各監測站點地理位置和水質因子的歷史觀測值,構建出時空圖來表征河流水質不同位置之間的時空相關性。將時空圖作為模型的輸入,選用GCN和LSTM進行建模,有助于更好的提取河流水質時空特性。

(2)增加了各站點空間特征后,STG-LSTM 在沒有增加訓練時間的情況下,顯著提高了預測精度,并獲得了概率預測的不確定信息和可靠的PDF。此外,STG-LSTM 運行一次,能夠同時得到8 個站點的預測結果,實現了對河流不同位置水質的快速精準預測。

(3)用京杭運河常州段上8 個監測站點中4 種水質因子數據集對模型進行驗證,并和其余6 種模型進行對比,STG-LSTM能夠以較短的訓練時間獲得較高的預測精度和高性能的概率預測結果,并對不同水質因子數據有一定的普適性。

本文僅考慮幾種水質因子作為每個監測站的屬性數據,即僅考慮水質因子之間的相關性,未考慮氣象、社會等更多其他有效信息。下一步研究將納入更多有效的信息,在后續的研究中結合多維數據進行實驗驗證。

猜你喜歡
溶解氧監測站站點
地表水中溶解氧的周期性變化規律研究
中西太平洋圍網黃鰭金槍魚漁場分布與溶解氧垂直結構的關系
平面直角坐標系中的距離問題
淺析水中溶解氧的測定
魚能否在水以外的液體中生存
以“夏季百日攻堅”推進遠教工作拓展提升
鞏義市審計局重點關注空氣自動監測站運行情況
檢察版(六)
積極開展遠程教育示范站點評比活動
新德里成“世界最臟城市”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合