?

相關性分析-神經網絡模型在寧夏用水量預測中的應用

2022-09-02 09:09李金燕崔嵐博魏怡敏蘇薈琰李超超
人民珠江 2022年8期
關鍵詞:用水量用水神經網絡

竇 淼,李金燕,崔嵐博,魏怡敏,蘇薈琰,李超超

(寧夏大學土木與水利工程學院,寧夏 銀川 750021)

水資源是社會發展中不可代替的自然資源也是不可或缺的經濟資源。隨著中國的現代化進程加快,對水資源的需求量越來越大,水資源供需矛盾日益突出[1]。尤其在中國干旱地區,水利設施落后,用水效率低下,這一系列問題嚴重制約了地方的發展。其中地處西北內陸的寧夏回族自治區是干旱區域的典型代表,也是中國最缺水的省份之一。該地區水資源人均占有量不足全國人均占有量平均值的1/2,水資源的嚴重匱乏已經成為制約該地區經濟發展的主要因素。因此做好水資源規劃工作對寧夏的社會經濟發展有著舉足輕重的意義,而用水量預測是水資源規劃工作能順利進行的前提和保障。由于在預測過程中存在影響因素考慮不全以及資料缺失等問題,用水量預測工作往往面臨較大的困難。為了克服這些弊端,近些年國內學者在常規的系統分析法前均會對影響因子進行數學預處理,如?;廴愕萚2]在神經網絡模型之前運用主成分分析法篩選影響因子;單義明等[3]在支持向量回歸機模型之前加入灰色關聯度篩選影響因子;李曉英等[4]采用主成分分析、遺傳算法和神經網絡三者結合的預測模型; Mahmut Fira等[5]將神經網絡與模糊數學相結合預測區域耗水量;楊利納等[6]在小區域內運用灰色關聯、遺傳算法和神經網絡預測用水量,并引入預測區間覆蓋率、預測區間平均寬帶指標和綜合評價指標檢驗預測結果。上述方法通過對用水量影響因子的篩選,一定程度上提高了模型的預測精度,但在處理影響因子時都忽略了影響因子和行業用水量的相關程度,直接分析總用水量和影響因子之間的關聯性會打破各行業的影響因子數量的平衡性,且目前沒有將相關性分析和MLP神經網絡耦合的預測模型。故本文提出了將相關性分析法和MLP神經網絡耦合的用水預測模型,分別提取對行業用水量影響較大的因子,與傳統利用MLP神經網絡直接預測總用水量的方法相比,該方法可以進一步提高預測的精確度,且可以掌握未來的各行業用水量的比例。

1 相關性分析和多層感知器神經網絡耦合模型

1.1 相關性分析法

相關性分析法是統計學中的方法,它是對總體中具有聯系的2個因素進行分析,描述客觀事物相互間的密切程度并用相關的統計指標表示出來的一種數學方法[7-8]。相關性的表達通常有2種方法:皮爾遜相關性系數和斯皮爾曼相關性系數。在用水量預測中該方法可以用在建立神經網絡模型之前,用來篩選對用水量影響較大的因子[9]。由于皮爾遜相關性系數是用來檢驗來自正態分布的總體,且要求試驗數據之間的差值不能過大,對數據的要求較高。而用水量影響因子數據波動性較強,通常是隨機分布,故選擇斯皮爾曼相關性系數進行相關性計算。斯皮爾曼相關性系數又稱斯皮爾曼秩相關系數,其具體計算步驟如下。

步驟一對2個變量x、y的數據分別進行排序,記錄每個數據的秩次xi、yi。

步驟二計算每兩個數據秩次的差值di(xi-yi),再統計數據的個數n,將2個數值代入式(1)進行計算相關系數ρs。

(1)

步驟三對斯皮爾曼系數進行相關系數的顯著性檢驗。對于小樣本模型,可以直接通過查臨界表,通過對比斯皮爾曼相關性系數和表中數值確定顯著性。

判斷兩組數據是否具有相關性主要從相關性系數(ρs值)和顯著性(P值)2個方面考慮,其中ρs的絕對值越接近1,表示相關性越強;P<0.01為相關性極顯著,0.01≤P<0.05為相關性顯著,P≥0.05為相關性不顯著。在判斷行業用水量影響因子和行業用水量之間的相關程度需根據具體情況采取不同標準。

1.2 MLP模型

MLP神經網絡又稱多層前饋神經網絡[10],是一種基于誤差反向傳播算法 (BP算法)訓練的神經網絡。誤差反向傳播算法是一種在用水預測中常見的訓練神經網絡的方法[11-12],可以有效降低模型的計算誤差。MLP神經網絡模型在建立的過程中只需錄入大量的數據行為無需用變量描述映射關系,故此模型具有很好的擬合能力[13]和抗外界干擾能力[14]。區域用水量存在很多不確定因素,但在用水量預測中利用MLP神經網絡建模一定程度上可以克服這些不確定因素。MLP神經網絡一般由輸入層、輸出層和若干隱藏層組成,典型的結構見圖1。

圖1 MLP結構示意

其中隱含層常用的激活函數是Sigmoid函數(S型函數),假設輸入值為x,函數的具體計算公式為:

(2)

式中α>0是常數,函數的取值范圍是(0,1),x為輸入值。

另一種隱含層常用的激活函數是Tanh函數,具體計算公式為:

(3)

式中α、β>0是常數,函數取值范圍(-1,1)。

以上2種函數都是建立MLP神經網絡最常用的2種激活函數,Sigmoid函數優勢在于求導容易且優化的數據比較穩定,而Tanh函數的優勢是收斂速度更快。區域用水量預測的模型結構較為簡單,相比較收斂速度更注重預測模型的穩定性和適用性,故本次建模的激活函數選擇Sigmoid函數,在滿足預測精度的前提下,為了簡化模型結構在后續構建一個隱藏層的預測模型[15]。

在用水量預測模型中,為了提高輸出值的穩定性,輸出層的激活函數通常選擇簡單的恒等式函數,該函數是將隱藏層節點的數據按照訓練出的權重比例進行加和,其表達式為:

(4)

式中Ri——隱含層第i個節點的數據;m——隱藏層節點個數;λ——權值;y——輸出值。

1.3 耦合模型原理

借助相關性分析法對各個行業的用水量和其影響因子進行兩兩分析,計算相關性系數并依據相關標準提取和用水量相關性較強的因子,將提取出來的因子作為MLP神經網絡的輸入層,每個數據作為一個神經元節點。利用訓練數集訓練MLP模型,通過多次的訓練,得出隱藏層的最優節點數,從而確定最佳的用水預測模型。

2 用水預測

2.1 研究區域概況

寧夏回族自治區處于中國西北內陸地區,常年干旱少雨,是中國水資源嚴重匱乏的地區之一。2020年全區用水量為66.54億m3,水資源總量12.58億m3,用水主要源自黃河水。在三大產業中,農業用水為58.64億m3,占全區總用水量85%以上,工業用水和生活用水僅為4.19億、3.71億m3,但農業生產總值僅占全區生產總值的7.9%,工業生產總值占全區生產總值的33.9%。長期以來寧夏面臨著農業用水效率低下的問題,常年采取大水漫灌的灌溉方法,加上種植結構不夠合理,農業布局不夠優化等因素,使單位農業產值用水量過大,遠遠高于全國平均水平。因此在寧夏用水預測的工作中,準確地預測農業用水量對整個自治區合理地用水規劃將起到至關重要的作用。

2.2 研究區用水量預測

2.2.1因子選取

影響用水量的因子較多,本文根據2002—2020年《寧夏統計年鑒》和《寧夏水資源公報》中的數據,參考已有文獻[16-18],并結合寧夏當地各產業結構,從經濟、產品耗水量以及行業相關元素等不同方面選取18個具有代表性的用水量影響因子。其中工業用水選用工業總產值、工業固定資產投資、工業廢水排放量、發電量、原煤產值和水泥產量6個因子;農業用水選用農業增加值、農業固定資產投資、萬元GDP增加值用水量、單位灌溉面積用水量、糧食產量、全區平均降水、農作播種面積和7個影響因素;生活用水選用人均GDP、平均每人購買水量、城市化率、人口自然增長率、每戶居住面積5個影響因子。由于缺乏相關歷史數據,本文不計算生態用水。

借助SPSS軟件對影響因子和行業用水量進行斯皮爾曼系數相關性分析,利用式(1)得出的計算結果見表1。依據1.1節中對ρs值和P值的相關性劃分標準以及參考相關文獻[19],并結合各行業具體計算結果,每個行業分別從經濟、產品耗水量、以及行業相關元素3個方面各選取ρs>0.7,P<0.005的一個強相關影響因子,則工業選取的影響因子有工業固定資產投資x1和原煤產量x2;農業選取的影響因子有農業固定資產投資x3、萬元GDP增加值用水量x4以及全區平均降水量x5;生活選取的影響因子有人均GDPx6、城市化率x7。

表1 影響因子斯皮爾曼相關系數

2.2.2模型建立

根據3個用水行業各自的不同的特點建立MLP神經網絡用水預測模型,根據相關性分析選取工業固定資產投資和原煤產量作為工業用水預測模型的輸入節點;選取農業固定資產投資、萬元GDP增加值用水量以及全區平均降水量作為農業用水預測模型的輸入節點;選取人均GDP、城市化率作為生活用水預測模型的輸入節點,各行業的用水量作為模型的輸出層節點。通過1.2節的分析,各行業建立用水模型時隱藏層激活函數選擇式(2)S型函數,輸出層激活函數選擇式(4)恒等式函數。為了確定隱含層的節點數,建立了2~10個隱藏層節點個數的MLP神經網絡模型結構,均以2002—2016年的各行業用水量和影響因子的數據作為訓練樣本進行預測。通過比較計算結果,選出最佳隱藏層節點個數,工業、農業和生活用水模型的最優隱藏層節點個數分別為5、6、6個,故得出各行業合適的模型結構,即工業用水模型結構為2-5-1,農業用水模型結構為3-6-1,生活用水模型結構為2-6-1。

2.2.3預測結果及分析

將2017—2020年的數據作為檢驗樣本,用來檢測模型的精確程度。各個行業的用水預測結果見表2。

由表2可知,2017—2020年的各行業用水量和總用水量的預測值與實際值相對誤差都控制在2%以內。各個行業用水量和總用水量各年的誤差均在較小的誤差范圍內,且總用水量預測值與實際值變化趨勢保持一致,說明模型擬合度較高,預測趨勢可靠。其中農業用水量預測精度最高,表明農業影響因子選取較為合理。

此外為了檢驗相關性分析-多層感知器神經網絡模型的精度,利用不經篩選的多層感知器神經網絡模型訓練歷年數據,并用此模型預測檢測年總用水量,將兩者的總用水預測結果進行對比。結果見表3。

表2 各行業用水預測結果

表3 用水預測校驗結果

由表3可知,相關性分析和MLP神經網絡耦合模型的相對誤差均值為1.00%,MLP神經網絡模型相對誤差均值為4.72%。由此可知,基于相關性分析的MLP神經網絡模型預測各行業用水量精度高于直接用MLP神經網絡模型預測總用水量的精度。前者在提高了預測精度的同時還減少了模型輸入的數據,預測寧夏規劃年用水量的時候,前者只需要從不同方面各選取一個相關系數最大的影響因子即可,而后者則需要將所有影響因子都輸入模型中;且影響因子經過相關性分析后,能清晰看出各影響因素對各行業用水量的影響程度的大小,采用影響程度更高的因子預測規劃年用水量也更為可靠。

2.2.4規劃年用水量預測分析

將此耦合模型應用到寧夏回族自治區2025年用水量預測中,根據寧夏回族自治區各行業的“十四五”規劃(2020—2025)中的要求,確定相關指標的值,其中全區平均降水量屬于隨機數據,按照近五年的平均值確定。綜上,2025年的各影響因子的預測值見表4。

將以上數據輸入訓練好的神經網絡模型中,預測出2025年寧夏的各行業用水量以及總用水量,具體數值見表5;另外用插值法大致確定2021—2014年的各行業用水量數值,進行加和繪制現階段到規劃年的用水量趨勢,見圖2,并計算出各年份不同行業的用水占比,見圖3。

表4 規劃年各影響因子預測值

表5 規劃年用水量預測 單位:億m3

圖2 寧夏回族自治區2002—2025年用水量趨勢

a)農業用水

b)工業用水

c)生活用水

由表5、圖2的結果可知,2021—2025年寧夏總用水量總體呈較快下降趨勢。根據《寧夏回族自治區國民政府和社會發展第十四個五年規劃》文件中關于水資源管理三條紅線用水總量控制指標要求,到2025年全區取水總量除生態外,大約控制在63.34億m3以內,預測值達到當地政府的用水量要求。另由圖3可知,農業用水占比有一定程度的下降,占比由現狀年的88%降到規劃年的85%;工業用水占比保持平穩上升,生活用水占比大幅提升,這反映出在2025年全區的用水結構得到進一步優化,具體表現為生活用水量持續得到保障,生產用水量控制在一定的范圍內,農業用水量受到嚴格約束。

3 結論

a)在利用MLP神經網絡模型做用水預測之前引入相關性分析,從眾多影響因子中篩選出相關性強的影響因子作為神經網絡模型的輸入值,分別對不同行業進行用水量預測。并與不經過相關性分析處理的MLP神經網絡直接預測的結果進行對比,可知這種耦合模型減少了輸入節點的數量,明顯簡化了模型的結構,明確了各個因子對用水量影響程度的大小,且進一步提升了預測精度。

b)利用訓練好的相關性分析和MLP神經網絡耦合模型預測了規劃年2025年的行業用水量以及總用水量,通過預測結果可以看出2025年寧夏總用水量有一定幅度的下降,農業在所有行業用水中的占比依然最高,但和現狀年相比農業用水占比有明顯下降;工業和生活用水占比均在規劃年的基礎上有較大幅度的提升。自治區人民政府辦公廳印發的寧夏“十四五”用水權管控指標通知中指出,要堅持以水定人、以水定產和以水定地。部分政策如下,到2025年全區灌溉水利用系數提升至0.6以上,全區萬元GDP用水量較2020年下降15%,節水器具普及率達到95%等。而此次預測結果充分考慮到這一系列的節水政策,將各個行業的部分約束條件作為模型的輸入值,這使得此預測結果具有一定的可靠性,可為自治區水資源規劃工作提供相應的參考。

猜你喜歡
用水量用水神經網絡
基于神經網絡的船舶電力系統故障診斷方法
基于雙模型的農業用水量預測算法仿真
MIV-PSO-BP神經網絡用戶熱負荷預測
基于改進Hopfield神經網絡的對地攻擊型無人機自主能力評價
校園宿舍洗浴用水余熱回收節能分析
你的用水量是多少?
基于神經網絡的中小學生情感分析
Nozzle噴嘴
迎接高風險的用水時代——讀《大水荒:水資源大戰與動蕩未來》
Units?。保场保粗仉y點☆解☆析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合