?

基于生成對抗網絡模型的小樣本PM2.5預測

2023-11-02 12:34汪祖民張嘉峰胡玲艷鄒啟杰蓋榮麗
計算機應用與軟件 2023年10期
關鍵詞:污染物空氣樣本

汪祖民 張嘉峰 胡玲艷 鄒啟杰 蓋榮麗 劉 艷

(大連大學信息工程學院 遼寧 大連 116622)

0 引 言

中國經濟的快速發展和城市化進程的加快,伴隨著高能耗和污染物的過度排放,對空氣造成了嚴重污染,阻礙了城市地區的可持續發展[1-2]。尤其在京津冀以及周邊地區,由于重化工產業的高度聚集,該范圍內主要能源利用方式以煤炭為主,貨物運輸方式以公路汽車運輸為主,這在一定程度上導致了大氣污染物的排放量大幅上升。PM2.5是主要的空氣污染物,是現階段中國霧霾治理的重點,對人體健康具有較大的危害,成為了公眾較為關注的問題[3]。PM2.5的濃度受到城市空間形態、土地利用布局和不利氣象因素等影響[4],長期暴露在受污染的大氣中會增加患心血管和呼吸系統疾病的風險[5]。為此,中國政府在大多數城市設立了空氣質量監測站,并用于實時檢測PM2.5和其他空氣污染物濃度。然而,由于設備昂貴,政府不可避免地需要承擔較大的財務負擔。除了對PM2.5進行監測以外,對未來空氣質量預測的需求也越來越大。因此,對PM2.5濃度進行在線預測對于空氣污染控制和預防空氣污染帶來的健康問題至關重要。尤其是如果能在小樣本下對PM2.5濃度實現較精準的預測,很大程度上將會減少政府的財政支出,并有利于各地區的環境治理,具有較高的實用價值。

1 研究現狀

目前,PM2.5的預測方法主要有模型驅動和數據驅動的[15]。模型驅動的方法主要是通過建立數學統計模型對PM2.5濃度進行估計,數據驅動的方法主要是通過利用神經網絡、支持向量回歸等方法預測PM2.5濃度。隨著近年來人工智能與機器學習的發展,人工神經網絡(ANN)、支持向量回歸(SVR)等方法已較為廣泛地應用于空氣污染物濃度的預測[6]。目前有利用機器學習的方法用于預測區道路、工廠和公園的空間特征預測PM10和二氧化氮的濃度[7]的相關研究,也有相關研究利用周邊監測站的觀測數據,使用SVR模型預測目標站的PM2.5濃度[8]。雖然上述方法都利用了影響污染物濃度的空間特征,但沒有考慮空氣污染物的時間相關性和PM2.5的時延特征。由于大氣環境的動態特性,循環神經網絡(RNN)可以處理任意輸入序列,從而保證了學習時序的能力,特別適合模擬空氣污染物分布的時間演化。Ong等[9]使用氣象數據作為輸入參數,輸入至RNN中來預測PM2.5濃度。Feng等[10]結合隨機森林(RF)和RNN對中國杭州未來24小時空氣污染物PM2.5濃度進行了分析和預測。然而,傳統RNN存在較長時間滯后,并且可能會出現梯度消失和梯度爆炸等問題,這些基于RNN的方法也沒有充分利用空間特征。此外,特征形成的狀態在不同時間對未來PM2.5濃度也會產生不同的影響[11]?,F有的研究較少考慮過去不同時期的特征狀態對空氣污染物的影響,只是提取了歷史數據的時間相關性特征。目前,在小樣本下數據驅動的方法在預測PM2.5濃度時準確率較低,并且相關研究較少。為了解決上述難題,本文提出了基于生成對抗網絡模型的PM2.5的在線預測方法,利用生成器和判別器之間的博弈過程,建立了以生成器預測為主,判別器判別為輔的新型PM2.5的預測模型,并在生成器中加入了長短期記憶網絡用于提取輸入數據的時序特征,相比于其他的基于數據驅動的PM2.5預測方法,本文提出的方法在小樣本數據集上具有更高的準確率,并具備較好的應用價值。

2 相關方法分析

GAN包含了兩個網絡模型[12],分別是生成器G和判別器D,兩者處于對抗博弈的狀態。在對抗的過程中,生成器可以扮演著一個騙子的角色,生成與真實數據相似的數據,通過生成假的數據去欺騙判別器。而判別器則充當著法官的角色,將真實數據與生成數據進行區分。理論上來說,判別器和生成器可以達到納什均衡,即判別器無法區分真實數據和判別數據,生成器也生成接近于真實樣本的數據?;谶@一原理,我們提出了基于GAN的PM2.5的預測模型。

GAN的目標函數V(G,D)如式(1)所示。

V(G,D)=Ex~Pdata[logD(x)]+Ez~Pz[log(1-D(G(z))]

(1)

式中:z為服從于先驗分布;Pz為隨機噪聲;x為服從真實數據分布Pdata的真實數據;D(x)表示真實數據x在判別器下的判別結果為真的概率;D(G(z))為G(z)在判別器下的判別結果為真的概率。

在G的訓練過程中,G盡可能地使D(G(z))趨于1,即讓目標函數盡可能地取到最小值。在D的訓練過程中,D盡可能地使D(G(z))趨于0,讓D(x)趨近于1,即讓目標函數盡可能地取到最大值。

3 生成對抗網絡預測模型

3.1 預測模型架構

通過構建的生成器和判別器模型,本文提出了基于GAN的PM2.5預測模型,該模型如圖1所示。時間序列數據輸入到生成器中,生成器輸出PM2.5的預測值。PM2.5的真實值和生成器的預測值一起輸入到判別器中,判別器通過比較生成器的預測值與真實值的真假,然后將誤差反傳至生成器。定義生成器G的損失和判別器D的損失來優化目標函數。在構建生成器的損失函數時,除了原始GAN的生成器損失,還加入了MSE損失函數。生成器和判別器的損失函數如式(2)-式(5)所示。

圖1 基于GAN的PM2.5預測模型

(2)

(3)

(4)

Gloss=λ1gMSE+λ2gloss

(5)

式(5)中:判別器G的損失函數由gMSE和gloss兩部分組成;λ1和λ2為手動設置的超參數,考慮到gMSE和gloss在Gloss中的比重應當相同,因此λ1和λ2均為0.5。

3.2 生成器

由于LSTM[13]具有較強的時序特征提取能力,將LSTM網絡加入到GAN的生成器中,換句話說,就是把LSTM作為生成器。

本文從KnowAir數據集[14]中選取了中國京津冀地區13個城市的歷史空氣數據。由于PM2.5中含有硝酸銨的成分,溫度和硝酸銨會產生化學效應,隨著溫度和濕度的升高有助于硝酸銨的揮發,因此溫度和濕度都與PM2.5呈正相關[16];風速與旋渦狀態有助于PM2.5濃度在空氣中發生水平擴散和垂直擴散,因此風速和旋渦狀態都與PM2.5呈負相關[14-17];降水對于PM2.5來說呈阻力作用,會產生濕清除和向下氣流,因此降水量與PM2.5濃度呈負相關[18]。利用PM2.5濃度值、時間、溫度、濕度、風速、降水量和旋渦狀態等數據作為輸入用于預測PM2.5的濃度變化。假設輸入的矩陣X={x1,x2,…,xt},X表示由t個時間點的數據,其中x1,x2,…,xt分別表示在t個時間點內的PM2.5濃度值、時間、溫度、濕度、風速、降水量和旋渦狀態等數據。

圖2 PME-GAN生成器結構圖

生成器的輸出如式(6)和式(7)所示。

ht=g(X)

(6)

(7)

式中:g(·)為LSTM的輸出,在輸入為X={x1,x2,…,xt}時,LSTM的輸出為ht;δ表示ReLU激活函數;Wh和bh分別表示全連接層中的權值和偏置。為了防止過擬合,加入了dropout作為正則化方法來避免過擬合的出現。

3.3 判別器

圖3 PME-GAN判別器結構圖

D(Xfake)=σ(d(Xfake))

(8)

D(Xreal)=σ(d(Xreal))

(9)

式中:d(·)為MLP的輸出;σ為sigmoid激活函數。真實數據和假的數據輸入到判別器中,最終得到一個標量,即為判別器的判別結果。

4 實驗與結果分析

從KnowAir數據集[14]中選取了京津冀地區13個城市的歷史空氣數據,由于這13個城市均為中國空氣污染較為嚴重的城市,且單獨抽取這13個城市的數據后,獲得的數據集較少,研究小樣本下對PM2.5進行準確的預測具備較高的實用價值。與此同時,從13個城市的數據集中選取了2015至2018年間的空氣數據。在劃分數據集時,分別將2015年1月至2017年12月三年的數據用于訓練,并用2018年1月至12月的數據用于測試,即訓練集和測試集之比為3∶1,并對數據進行歸一化處理,如式(10)所示。

(10)

式中:μ和τ分別表示X的均值和方差。

在訓練PME-GAN時,為了防止出現判別器或者生成器任意一方出現局部最優的情況,判別器和生成器交替迭代,判別器每迭代一次后,生成器隨后迭代一次,如此重復,直至PME-GAN的模型訓練穩定為止。在實驗中epochs設置為2 000,batchsize的大小為64,LSTM各層的神經元個數為8,dropout值為0.1。

在PME-GAN的訓練過程中,實驗中判別器和生成器的loss曲線分別如圖4和圖5所示。由兩個loss曲線可以看出,判別器和生成器處于對抗迭代的狀態,隨著訓練次數的增加,生成器和判別器的loss曲線不斷震蕩,生成器和判別器在對抗訓練中得到了優化,模型變得穩固。

圖4 判別器loss曲線

圖5 生成器loss曲線

為了驗證提出的方法的有效性與優越性,與其他主流的數據驅動方法做了對比實驗。分別利用GRU、LSTM、CNN-GRU、CNN-LSTM四種不同的模型與PME-GAN進行實驗,在保定測試集上的PM2.5預測結果如圖6-圖10所示。保定為京津冀的重要城市之一,由于集中供熱缺乏,較多居民用散煤取暖,因此空氣污染較為嚴重,并且單獨針對保定空氣污染的研究較少[19]。圖6-圖10可以更加清晰地呈現出各個方法的預測效果,可以看出,本文模型的實驗結果要明顯地優于其他4個模型,在擬合程度上,PME-GAN能夠更精準地預測出PM2.5的變化趨勢。由于本文只采用了京津冀地區13個城市的數據用于訓練和測試,數據量較少,雖然在PM2.5的濃度值上各種方法并不能預測的很精準,但是本文的方法能夠通過前三年的訓練數據較為準確地預測出后一年的PM2.5變化趨勢。

圖6 LSTM方法在保定測試集的實驗結果

圖7 GRU方法在保定測試集的實驗結果

圖8 CNN-LSTM方法在保定測試集的實驗結果

為了更加直觀地刻畫出各種方法的預測準確率,本文引用了RMSE和MAE兩種評價指標,用于評價各模型的預測效果,RMSE和MAE的計算如式(11)和式(12)所示。

(11)

(12)

表1 不同方法在測試集上的RMSE和MAE對比(%)

通過表1中的結果,可以得出PME-GAN在5種模型中RMSE和MAE均是最小的,預測的PM2.5濃度更接近于真實的PM2.5濃度,預測的準確度要高于其他方法,充分地驗證了所提出的PME-GAN模型在小樣本條件下的有效性。

5 結 語

本文提出了基于PME-GAN的PM2.5預測的方法,通過利用GAN的博弈思想,在生成器中加入LSTM,提取了輸入數據的時序特征,并在判別器中加入MLP,最終通過生成器與判別器的對抗訓練,通過生成器對PM2.5進行預測。與基于LSTM、GRU、CNN-LSTM和CNN-GRU的PM2.5的預測方法相比,本文的方法具有更高的準確率和一定的應用價值。

雖然通過PME-GAN的PM2.5預測的方法能夠對PM2.5的濃度進行有效地預測,但是預測的精度還有進一步提升的空間?;谛颖鞠掠脭祿寗拥姆椒▽M2.5實現較高精度的預測,可利用數據增強的方法,通過現有的數據集,對原始的小樣本的訓練數據進行擴充,并對擴充后的樣本進行篩選,將合適的樣本加入到原有的訓練集中,這將在一定程度上提升數據驅動的方法預測PM2.5的精度。

猜你喜歡
污染物空氣樣本
[呼吸的空氣]Die Luft zum Atmen讓我們把它推遲到明日
菌株出馬讓畜禽污染物變廢為寶
環境科學研究(2021年6期)2021-06-23
環境科學研究(2021年4期)2021-04-25
你能找出污染物嗎?
用樣本估計總體復習點撥
推動醫改的“直銷樣本”
我要買空氣
那些你意想不到的神回復
隨機微分方程的樣本Lyapunov二次型估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合