?

基于RFE-RF模型的太原市PM2.5濃度預測研究

2023-12-30 03:14李明明楊愛琴
四川環境 2023年6期
關鍵詞:實測值太原市預測值

李明明,岳 江,王 雁,陳 玲,楊愛琴

(山西省氣象科學研究所,太原 030002)

引 言

細顆粒物(PM2.5)在當今社會嚴重影響氣候、空氣質量和身體健康,因此空氣質量PM2.5濃度預報的準確性對于政府部門的準確決策及采取環境治理方案都有很重大的意義[1~3]。常用的預報方法包括:統計預報方法主要基于機器學習和數值預報方法主要基于大氣物理化學模式[4]。數值預報方法需要有研究區域內詳盡的污染源清單及大氣物質的相互轉換機制的輸入理解,而大氣系統非常復雜很難完全量化,而且污染源的排放也是時刻變化的[5~6]?;跈C器學習的統計預報方法對污染源和化學機制的沒有特別的要求[7~8]。太原市作為地處溫帶季風氣候區是典型的北方城市,無論從氣候還是從地理特點來說都具有內陸城市典型的特征,有關該地區污染物濃度預報相對較少,且已有的一些預測模型在預測污染物濃度時依然存在各自的一些局限性,尤其是普通的線性模型難以精確模擬污染物濃度與多種影響因素之間的非線性關系,而且很多學者進行了相關非線性方面的研究:李娟等,魏煜員等,蘆華等分別基于機器學習方法對西安市、河南省、成渝地區的空氣質量數值預報及PM2.5的數值模擬進行了優化研究[9~11]。夏曉圣等、楊瑞君等、杜續等、林開春等、孟倩等、夏潤等研究者分別基于隨機森林模型開展相關城市的空氣質量濃度預測和空氣質量分類預測研究[12~17]。郭飛等基于氣象因素和改進支持向量機進行了空氣質量指數預測[18-19],南亞翔等基于卡爾曼濾波預測空氣質量指數[20],劉炳春等基于IG-LASSO模型預測城市空氣質量指數[21]。張春露等基于采用LSTM模型對太原市空氣質量指數進行預測[22-23]。邱晨、瞿英、田靜毅、張珺、馬井會等研究者基于BP神經網絡的進行空氣質量模型分類預測和濃度預測研究[24~28]??傮w表明,對于非線性回歸預測來說,隨機森林、多元線性回歸、Lasso回歸、梯度提升樹、BP神經網絡等機器統計預報方法的性能要明顯優于傳統統計方法[29]。

從上述文獻研究來看,空氣質量預測的研究的輸入變量主要是空氣污染物濃度和與其強相關的氣象條件[30~33],輸出為未來的空氣質量或者空氣污染指數。而氣象條件的選取主要集中在地面氣象要素,缺乏高空氣象要素的選取,本文提出了基于遞歸特征消除法(Recursive feature elimination,RFE)和隨機森林(Random Forests,RF)相結合的PM2.5濃度預測模型,選取太原市的空氣污染物濃度和美國國家環境預報中心(National Centers for Environmental Prediction,NCEP)氣象再分析的地面要素和高空要素作為預報因子,建立包括環境監測數據和氣象數據的預測數據庫,通過RFE特征選取,然后將揀選過的特征作為輸入,通過模型對比選用適合于本次研究使用的空氣質量數據的隨機森林(RF)模型進行預測,輸出太原市PM2.5的預測濃度,通過選取最優的RF預測模型應用到日常的環境空氣質量預報業務中,將進一步提高太原市PM2.5濃度預報的準確率,同時也為加強太原市的空氣污染防治,實現環境綜合管理和決策科學化提供了的重要科技手段。

1 材料與方法

1.1 數據來源

(1)空氣質量監測數據:太原市6個環境空氣質量監測站點(桃園、塢城、上蘭、尖草坪、南寨和小店)空氣質量監測數據(2015~2018),監測項目:PM10、PM2.5、SO2、NO2、CO、O3六種污染物的小時濃度值。

(2)NCEP再分析數據:NCEP再分析資料插值到對應太原市中心點的地面要素和高空要素,其中地面要素有海平面氣壓、24小時變溫、變壓,2m相對濕度,10m風速、10m風向。高空要素有500hPa、700hPa、850hPa、925hPa、1000hPa高度的相對濕度,水平風東西分量(U)和南北風(V)分量、水平風速、垂直速度、散度、渦度以及任意兩層氣壓層之間的相對濕度、位溫、風速的差值(高層減低層)等。數據使用時對空氣質量監測數據和NCEP再分析數據按照時間點(北京時每日2時、8時、14時和20時)進行對應。

1.2 模型方法

1.2.1 遞歸特征消除法(RFE)

遞歸特征消除法(RFE),主要是針對影響PM2.5濃度的各種特征,反復創建模型,并在每次迭代時剔除掉最差特征,同時保留最佳特征,下一次迭代時,將上次建模時沒有被選中的特征拿來構建下一個模型,直到用盡所有特征為止。然后它根據模型挑選出來的特征,按照重要性的順序來進行排名,最終選出一個最佳特征子集。

1.2.2 特征選擇與數據預處理

通過RFE算法選取20項預報因子作為模型的最終輸入量(表1),本次選取的預報因子與氣象的相關性較高,其中高空的氣象要素:700hPa渦度和850hPa散度表明氣團的旋轉形態,空氣的輻合與輻散以及925hPa的氣壓,對PM2.5濃度影響最為直接;前一觀測時次的PM2.5、PM10、NO2等污染物濃度在大氣穩定條件下具備一定的連續性;500hPa風速,850hPa風向、925hPa水平風東西分量和850hPa水平風南北分量,表明高空的風向和風速對于PM2.5濃度也有較大的影響;24小時負變溫和正變壓的大小可反映冷鋒強度,對于近地層的尤其冷鋒過境對空氣污染有明顯的清除作用;700hPa和500hPa風速差、位溫差和溫度差等也表征空氣的垂直運動,是云團形成,雷鳴閃電、空氣對流等天氣現象的根本原因,對于PM2.5濃度也有一定的影響。地面的氣象要素:2m相對濕度、10m風向、風速也在一定程度上影響污染物的稀釋、擴散,進而影響PM2.5濃度。

表1 RFE法回歸模型篩選的預報因子Tab.1 Forecast factors screening by RFE regression model

1.2.3 隨機森林(RF)

1.2.4 基于RFE-RF的PM2.5濃度預測模型

(1)數據收集整理與預處理,收集太原市空氣質量監測數據和NCEP再分析數據,對收集的數據進行數據清洗,包括缺失值得填補和異常值的剔除,并對清洗后的數據進行標準化處理。

(2)重要預報因子選擇,利用RFE算法反復創建模型,在每次迭代時保留最佳特征或剔除最差特征,并通過繪制RFE算法的得分曲線,獲取各個預報因子的重要性并進行排序,選出影響PM2.5濃度的重要預報因子。

(3)PM2.5濃度預測模型構建,采用機器學習的固定隨機數的方法對樣本按照70%:30%劃分訓練數據和測試數據,初始化RF預測模型的參數,通過不斷優化調整模型參數,構建基于RFE-RF的PM2.5濃度預測模型。

(4)PM2.5濃度預測,利用訓練好的模型對PM2.5濃度進行預測,并與其他機器學習模型預測結果進行對比分析(見圖1)。

圖1 隨機森林模型設計流程圖Fig.1 Flow chart of random forest model design

2 結果與討論

2.1 模型模擬結果對比分析

為了驗證隨機森林模型(RF)的預報準確率,構建3個模型K鄰近回歸模型(KNN)、套索回歸模型(Lasso)、支持向量機模型(SVM)作為對比模型。將基于RFE法進行模型最終選取20項預報因子作為3個對比模型的輸入量,3個對比模型所使用的訓練集及測試集也與隨機森林模型(RF)相同,分別得到4種模型預測的PM2.5濃度。由圖2可見,在預報趨勢上,Lasso、RF兩種模型對PM2.5濃度預測值與實測值均較為一致,KNN模型對PM2.5濃度預測值與實測值稍有些偏差,SVM模型預測值與實測值偏差較大。其中,與KNN和SVM模型兩種模型相比Lasso、RF兩種模型預測結果的方差較小,預報的峰值極個別情況與實況值相差較大,但是總體的峰值、谷值的預測與實況值較為接近,預測的精度較高,尤其拐點處RF模型的預測結果也好于Lasso模型。

圖2 模型預報值和實況值對比Fig.2 Comparison between model prediction value and real data

由4種模型所得預測值與實測值的散點分布可見(圖3),SVR模型散點分布偏下,不在對角線上,說明預測值與實測值的偏差較大,當實測值<50μg/m3時散點多數在對角線左上方,說明預測值存在低估;當實測值>50μg/m3時散點多位于對角線右下方,說明預測值存在高估。KNN模型散點相對Lasso、RF兩種模型較為分散,但是任大致在對角線方向,KNN模型的散點在PM2.5低濃度時(實測值<50μg/m3)位于對角線上方,預測值存在一定的高估;而散點在PM2.5高濃度時(實況值>50μg/m3)位于對角線下方,預測值存在一定的低估。Lasso、RF兩種模型散點呈現出向對角線集中分布的形態,說明這2個模型預測結果和實測值較為一致。

圖3 模型的預報值和實況值散點圖Fig.3 Scatter plots of predicted and observed values

2.2 模型評估指標對比分析

為定量評估4個模型的預測效果由圖可見(圖4),選取2018年9月~2018年12月PM2.5日均濃度實測值與相應日期的各個模型的預報濃度數據,分別計算上述4個模型預測值的評估指標,結

圖4 4種模型預測值與觀測值統計分布對比Fig.4 Comparison of the statistical distribution between the predicted values and the observed values of PM2.5 of the four models

果如表2所示。RF模型的MAE、MAPE、RMSE分別為17.19、38.17%和26.0,與Lasso模型相比,分別降低了7.7%、5.1%和2.7%;相比于SVM預測模型的MAE、MAPE、RMSE分別降低了23.1%、15.3%和29.9%;相比于KNN預測模型,RF模型的MAE、MAPE、RMSE分別降低了17.2%、19.8%和15.2%。結果顯示,在測試集上RF模型具有良好的預測效果,R2達0.71,顯著優于KNN模型、Lasso模型、SVM模型(R2均低于0.70),該性能評估指標也顯示RF模型表現最佳。4種模型預測值與實測值的相關系數依次為0.76、0.78、0.82和0.84,RF模型的預報效果均好于Lasso模型、KNN模型和SVM模型。

RF模式預測值和實測值的均值、中值、25%分位數最為接近;SVM模型預測值與實測值的各項評估指標差別最大;對于75%分位數而言,Lasso模型與實測值最為接近,SVM模型預測值與實況值差別最大,KNN模型預測值與實況值差別也較大。兩者均說明在PM2.5濃度較低的情況下,RF模式預測精度最高,Lasso模式預測精度次之,SVM模型最差,KNN模型介于中間;在PM2.5濃度較高的情況下,Lasso模式和RF模式預測精度相差無幾,SVM模型最差,KNN模型介于中間。由4模型預測值與觀測值統計分布對比可見:RF模式的預測值與觀測值的數據分布形態最為接近,無論從總體PM2.5濃度的預測均值還是從高低PM2.5濃度的預測值都最為接近;Lasso模式預測值與觀測值的數據分布形態也較為接近,但是該模型對高PM2.5濃度觀測值略有低估,對低濃度5濃度觀測值略有高估;KNN模型預測值與觀測值的數據分布形態對比度一般,SVM模型預測值與觀測值的數據分布形態差距最大。

由4種模型預報結果的泰勒圖(圖5),綜合分析可知,RF預測模型對PM2.5預測精度更高,更接近實測值,通過模型預測結果對比分析,本文提出的基于RF的PM2.5濃度預測模型具有較好的預測結果,利用RFE算法對模型的輸入特征進行了重要性選擇,減少了模型輸入特征的個數,不僅可以用較少的預報因子就可以實現對PM2.5濃度的預測精度的提高,而且大大提高了模型運算速度,實現了對PM2.5濃度預測模型輸入參數的優化。

表2 4種模型PM2.5預測結果評估Tab.2 PM2.5 prediction results evaluation of the four models

圖5 4種模型預報結果泰勒圖Fig.5 Taylor plot of PM2.5 by KNN,SVM, Lasso model and RF model

3 結 論

(1)根據RFE特征選擇的結果,選取太原市PM2.5的濃度預測中最利于提升模型表現的預報因子,預報因子選擇的結果,也表明太原市PM2.5的濃度在一定程度受到近地層風力和濕度的影響,同時高層氣團的旋轉形態,空氣的輻合與輻散,高空的風向和風速,空氣的垂直運動、冷鋒過境等對空氣污染有明顯的影響。

(2)針對太原市的PM2.5的濃度預測4個模型的對比實驗,RF模型顯著優于KNN模型、Lasso模型、SVM模型,對PM2.5預測精度更高,同時利用RFE算法對模型的輸入特征進行了重要性選擇,減少了模型輸入特征的個數,不僅可以用較少的預報因子就可以實現對PM2.5濃度的預測精度的提高,而且實現了對PM2.5濃度預測模型輸入參數的優化。

(3)通過選取最優的RF預測模型應用到日常的環境空氣質量預報業務中,將進一步提高太原市PM2.5濃度預報的準確率,同時也為加強太原市的空氣污染防治,實現環境綜合管理和決策科學化提供了的重要科技手段。

猜你喜歡
實測值太原市預測值
太原市為農村寄遞物流補“短板”
加拿大農業部下調2021/22年度油菜籽和小麥產量預測值
太原市61個村要建污水處理設施嚴禁直排入河
±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
太原市六家藥茶企業獲省級授權
常用高溫軸承鋼的高溫硬度實測值與計算值的對比分析
法電再次修訂2020年核發電量預測值
市售純牛奶和巴氏殺菌乳營養成分分析
一種基于實測值理論計算的導航臺電磁干擾分析方法
太原市第四實驗小學
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合