?

基于機器學習的城市用水量預測模型研究

2022-08-06 04:21朱銘江張祖鵬
浙江水利科技 2022年4期
關鍵詞:長興縣用水量供水

朱銘江,裘 婭,張祖鵬

(1.長興縣水利局,浙江 長興 313100;2.永康市水務局,浙江 永康 321300)

城市用水包括城市居民生活用水、服務業用水和重要工業用水。保障城市供水安全是支撐城市長期穩定發展的重要基礎。城市用水量大,天然降水量隨機性強,導致降水偏枯的年份城市供水安全保障壓力較大,對城市供水調度工作提出了較高要求。準確掌握城市未來時段的用水量需求,是制定精準高效的城市供水調度方案的關鍵,是城市供水調度工作決策部署的基礎和前提。

目前,基于機器學習算法的數據挖掘方式在城市用水量預測領域中被廣泛應用:朱智偉[1]等采用ARIMA 模型、灰色GM(1,1)模型和多元線性回歸分析等3 種模型,建立以污水處理量、生產總值、總人口等5 種因子為自變量的鄭州市年度用水量預測模型;李彥彬等[2]采用基于HP 濾波分解的GM-LSSVR 預測模型,建立以總人口、平均氣溫、綠化率等8 種因子為自變量的鄭州市年度用水量預測模型;吳永強等[3]采用由5 個GM(1,1)模型組成的灰色動態模型群,建立以歷史上不同周期用水量作為自變量的衡水市年用水量預測模型;白鵬等[4]采用年增長率法、自回歸模型法和灰色神經網絡法,建立以歷史用水量作為自變量的京津冀三地年用水量預測模型;陳莊等[5]采用基于MIC-XGBoost 的混合預測模型,建立以溫度、季節、節假日等4 種因子作為自變量的月尺度城市用水量預測模型;姚俊良等[6]采用神經網絡算法,建立以前1 d 用水量和前8 h 用水量為自變量的城市日用水量預測模型;劉志壯等[7]采用一種基于小波分解與隨機森林模型、ARMA 模型結合的短期用水量預測方法,構建以氣象數據、時間信息、節假日信息等因子作為自變量的城市短期日用水量預測模型。

總結目前圍繞城市用水量預測的研究成果可知,預測模型采用的理論方法已較為成熟,但是多數研究的預測模型采用的自變量數據缺乏實時監測條件,需要通過定期調查分析的手段獲取,導致只能對年尺度用水量進行預測。隨著浙江省水利數字化改革的深入推進,運用數字化手段賦能城市供水調度工作對于提升城市供水安全保障水平具有重要作用?;诖吮尘?,本次選擇具有在線實時監測條件的城市水廠取水量數據作為自變量,采用基于粒子群算法優化的支持向量機方法挖掘城市水廠歷史取水量規律,建立月尺度城市用水量預測模型,為城市供水數字化調度管理提供技術支撐。

1 研究方法

1.1 支持向量機模型

支持向量機(Support Vector Regression,SVR)作為常用的機器學習方法被廣泛應用于時間序列預測,能很好地處理小樣本數據、非線性及時間序列等問題,且具有較強的泛化能力[8]。SVR 方法主要思想:利用非線性映射將樣本集從低維空間映射到高維空間,再從高維空間中構建回歸方程。

假設給定樣本集S=,x為輸入向量,xi∈Rn,y為相應的輸出向量,yi∈R。其非線性映射可定義為:

式中:x為輸入數據;φ(x)為非線性映射函數;ω為權重;b為截距。根據結構風險最小化原則,f(x) 可等效于求解優化問題,即:

式中:L為損失函數;C為懲罰因子,是調節樣本回歸模型的復雜性與樣本擬合精度的因子,C越大,則越重視離群點。通過引入松弛變量和來糾正不規則的因子,此時可得:

式中:ε為不敏感損失因子(允許的最大誤差),ε>0。將回歸問題轉換為求取目標函數的最小化問題,利用對偶原理,同時引入拉格朗日乘法算子,可轉換為:

式中:αi和αi*為拉格朗日乘數。根據Mercer定理法則,求解上述凸二次規劃問題并獲得非線性映射SVR 表達式為:

式中:K(xi,x)=φ(xi)φ(xj)為核函數。徑向基函數(Radial Basis Function,RBF)用途廣泛,也是被廣大學者所采用的核函數,因此選取RBF核函數,其可定義為:

式中:γ為核參數,。

1.2 粒子群優化支持向量機

懲罰因子C和核參數γ直接決定了SVR 方法的準確性,為了提高SVR 模型的預測精度,需要對這兩個參數進行尋優選取[9]。因此,選取粒子群優化算法(Particle Swarm optimization,PSO)對懲罰因子C和核函數參數g、p進行尋優[10]。

粒子群優化算法,其基本思想:在D維目標搜索空間,有m個例子由3 個向量表示,第i個粒子當前位置可表示為xi=(xi1,xi2,L,xiD)T,速度為vi=(vi1,vi2,L,viD)T;pi=(pi1,pi2,L,piD)T表示第i個粒子個體極值點位置;pg=(pg1,pg2,L,pgD)T表示整個種群全局極值點位置。粒子根據個體極值點和全局極值點重新確定本身位置和速度,速度和位置更新如下:

位置更新公式由3 部分組成:量部分、個體認知部分及社會認知。

粒子群算法優化支持向量機的具體流程圖[11]如下:

圖1 PSO-SVR 模型計算流程圖

2 基礎數據

長興縣地處三省交界、長三角一體化核心區域,是上海經濟區的交通樞紐,雄踞江蘇、浙江、安徽三省結合部。長興縣水陸交通便利,距湖州市20 km,距上海市180 km,距杭州市中心90 km。航道通航里程262 km,船只可達湖州、杭州、上海、蘇州等地,為長興物流暢通和經濟發展提供優越的便利條件。

長興縣城市用水主要由長興水務公司供水,取水水源主要為合溪水庫。目前,長興水務公司取水量具有在線實時監測數據,數據采集頻率為15min/次。本次研究收集長興水務公司2013—2021 年取水實時監測數據,并統計至逐月尺度,結果見圖2。

圖2 長興水務公司2013—2021 年逐月用水量圖

3 模型構建

3.1 預測因子篩選

預測因子是指用水量預測模型的自變量參數。由于本次長興縣城市用水量預測模型構建采用的基礎數據為具備在線實時監測條件的逐時段用水量,因此自變量參數也需在時段用水量范圍內篩選??紤]與預測輸出結果(時段用水量)具有相關關系的變量為前期(前1 月,前2 月,前3 月,……,前n月)用水量,采用相關系數法[12]篩選最終預測因子,相關系數是衡量變量之間線性相關程度的指標,其表達式為:

式中:xi(i=1,2,...,n)為變量x的系列值;yi(i=1,2,...,n)為變量y與x相對應的系列值;分別為x、y的平均值。相關系數有正有負,即正負相關。這里按照絕對值的大小進行衡量,不管正負相關,只要其相關系數的絕對值較大,就說明兩者有較好的相關性。

基于長興水務公司2013—2021 年逐月用水量數據,采用相關系數法篩選長興縣城市用水量預測模型預測因子,結果見表1。其中選擇相關系數在0.5 以上的預測因子作為最終輸入因子。

表1 長興縣城市用水量預測模型預測因子表

3.2 預測模型構建

以長興水務公司2013 年3 月—2021 年12 月用水量作為長興縣城市用水量預測模型輸出,以預測時段前1 月、前2 月用水量作為模型輸入,采用支持向量機模型構建城市用水量預測模型。其中支持向量機模型懲罰系數c、核函數參數g、p采用粒子群算法進行優化。將80%的基礎數據序列用于模型訓練,20%的基礎數據序列用于模型驗證。經訓練和驗證的用水量預測模型相關參數見表2,模型訓練期和驗證期預測結果見圖3~4。

表2 長興縣城市用水量預測模型參數表

圖3 長興縣城市用水量預測模型訓練期預測結果圖

圖4 長興縣城市用水量預測模型驗證期預測結果圖

4 結果分析

4.1 模型精度分析

根據長興縣城市用水量預測模型構建結果可知:模型在訓練期及驗證期精度均較高,其中訓練期模型預測結果合格率達到97.6%,均方誤差為0.014;驗證期模型精度稍有下降,但合格率也達到95.2%,均方誤差為0.015,均滿足實際管理需求。

4.2 模型性能分析

提取粒子群算法對支持向量機模型懲罰系數c、核函數參數g、p等參數的優化過程(見圖5)。由此可知,采用粒子群算法優化模型參數可使支持向量機模型適應度快速達到最優,是提升模型參數優化效率的有效方法。

圖5 粒子群優化的支持向量機模型適應度進化過程圖

5 結語

以長興縣水務公司2013—2021 年逐月用水量數據為基礎,通過長興縣城市用水量預測模型構建的實例研究可知:

(1)長興縣城市用水量預測模型篩選的預測因子為預測時段前1 月、前2 月用水量;模型訓練期和驗證期預測精度較高,可以滿足實際應用需求;

(2)以支持向量機模型為代表的機器學習方法,通過挖掘用水量大數據內在規律,在城市用水量預測方面精度較高,具有較好適用性,可以為水利數字化改革提供高效的用水量預測模型組件。

猜你喜歡
長興縣用水量供水
美國供水與清潔基礎設施不足造成每年85.8億美元經濟損失
各地完成農村供水工程建設投資466億元 農村水利建設再提速
試論無負壓供水在建筑給排水中的應用
冰壺之戰
你的用水量是多少?
你的用水量是多少?
四會地豆鎮加快推進農村集中供水全覆蓋
澳大利亞研發出新型農業傳感器可預測農作物用水量
逗雞
努力進取,不斷成長
——浙江省長興縣第四小學青年教師施燕燕
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合