?

基于深度學習模型及組合模型的沙漠面積預測研究

2024-04-02 03:42張建杰
現代電子技術 2024年7期
關鍵詞:準確度預測值沙漠

陳 省,張建杰

(新疆大學軟件學院,新疆烏魯木齊 830000)

0 引 言

中國是遭受荒漠化最嚴重的國家之一,據相關報道,我國每年因荒漠化造成的直接經濟損失高達60 億美元以上。土地荒漠化問題是實現民族復興、建設美麗中國必須解決好的環境問題。新疆的沙漠面積很大,占中國沙漠面積2 3,新疆的土地中約1 4 被沙漠所占據。很長時間以來,新疆地區的各族人民深受風沙之害,他們強烈渴望治理好風沙,早日擁有宜居的生態環境。

自本世紀初,國家對塔里木河流域的生態環境已經投入107 億元資金進行生態環境綜合治理[1]。塔里木河干流土地利用受到人類活動的嚴重影響,自2000 年以來,耕地面積增加十分明顯,凈增土地面積2 229 km2,草地面積整體減小,萎縮面積達3 157 km2。

國內沙漠面積或沙漠化趨勢預測常用的方法有地理信息系統(Geographic Information System, GIS)與層次分析(Analytic Hierarchy Process, AHP)法耦合技術的土地沙漠化模型、GIS 和元胞自動機的預測模型、艾滋病傳染病預測模型、微分方程預測模型、馬爾可夫預測模型、指數平滑預測模型、CA-Markov 預測模型。雖然這些方法均可以對沙漠面積進行預測,但都有不足之處。

GIS 與AHP 耦合技術預測結果受到數據質量的限制以及決策者主觀因素的影響,同時也可能對不確定性因素的處理有限。GIS 和元胞自動機在預測時可能存在精度問題,確定合適的參數設置可能是困難的,且可能會導致模型結果的不確定性。沙漠擴散預測微分方程模型受到空間尺度限制,無法完全解釋非線性行為,沙漠擴散過程受到人為干預的影響。馬爾可夫模型要求狀態空間必須是離散、有限且固定的,對于具有連續狀態空間或者動態變化的狀態空間的問題,馬爾可夫模型可能不適用。沙漠預測數學模型在一定程度上可以提供參考,但其預測結果仍然受到數據不確定性、模型簡化假設、主觀性參數選擇以及長期趨勢預測能力等局限性的影響。沙漠擴散預測涉及到非線性過程,而微分方程模型通?;诰€性假設,因此無法完全解釋非線性行為。CA-Markov 模型預測精度有限,受到時空尺度限制。

本文嘗試使用多種不同的沙漠面積預測模型對沙漠面積進行預測,試圖找到更好的沙漠面積預測方法,幫助新疆若羌縣環保部門更加高效地做好沙漠防治工作。首先,使用統計學模型ARIMA 預測沙漠面積;其次,使用深度學習模型中的RNN、LSTM、GRU 預測沙漠面積;最后,使用3 個組合模型預測沙漠面積,企圖提高預測的準確度和穩定性。

組合模型是一種集成多個預測模型的方法,通過結合每個模型的預測結果來獲得更準確的預測結果。組合模型的基本思想是:通過綜合多個模型的預測,可以彌補單個模型的不足,提高整體預測的準確性。

組合模型有多種形式,常見的組合模型包括投票法、加權平均法和堆疊法等。投票法通過多數表決或加權表決的方式決定最終預測結果;加權平均法將各個模型的預測結果按一定權重進行加權平均,得到最終預測結果;堆疊法則通過建立一個次級模型來結合各個基模型的預測結果,得到最終預測結果。本文組合模型使用加權平均法得到沙漠面積預測結果。

1 深度學習模型和組合模型

深度學習(Deep Learning, DL)是機器學習的一個分支,通過組合低層特征信息來形成抽象的高層表達[2]。實際上,深度學習是一種機器學習方法,由深層神經網絡和機器學習組成,它能學習到數據中深層次、本質的特征,并且通過逐層訓練降低訓練難度。

人工神經網絡(Artificial Neural Network, ANN)模擬人腦的神經網絡產生,利用物理方法模擬生物神經網絡的某些結構和功能[3],是一種基于數學和機器學習技術的計算機模型,它模擬了人腦的工作原理,具有自適應、自組織和自學習的能力。1943 年,Mcculloch 和Pitts創造了神經網絡計算模型。1949 年,心理學家Hebb 提出Hebb 型學習假說,解釋了神經元組成聯接形成記憶印痕的內部機理[4]。

卷積神經網絡(Convolutional Neural Network, CNN)是一種深度神經網絡,常用于處理具有類似網絡結構的數據。第一個卷積神經網絡模型Alexander Waibel是根據neocognitron 神經網絡提出的[5]。自從Hinton 在2012 年提出AlexNet 之后,人們開始對CNN 加大了研究力度。ZFNet、VGG、GoogleNet、ResNet 相繼出現,逐步優化了CNN 模型的性能。

CNN 在機器視覺、圖像分類等領域上都達到了目前研究最好的效果[6]。隨著新的網絡模型不斷發展,出現了VGGNet、GoogleNet、ResNet 等網絡。

循環神經網絡(Recurrent Neural Network, RNN)是一種基于循環神經網絡的機器學習技術,它能夠處理序列數據,包括歷史信息和上下文信息。通過內部的循環單元和其他隱藏層處理信息,使模型能夠預測下一時刻的輸入和輸出。RNN 模型包括三層:輸入層、隱藏層和輸出層[2]。

RNN 通常由多個前饋神經網絡組成,每個前饋神經網絡都包含一個時間向量和一個前向傳播算法。時間向量用于表示序列中的過去信息和現在信息,梯度下降用于更新模型的參數并預測未來的輸出。與普通的神經網絡不同,RNN 不僅可以處理時間信息,還可以處理空間信息。因此,循環神經網絡可以用于處理復雜的序列數據,如語音、文本、圖像等。

循環神經網絡和傳統的神經網絡相比,循環神經網絡除了層與層之間的全連接之外,神經元之間也是相互連接的[3]。隨著RNN 不斷的發展,研究者們發現RNN 網絡存在梯度爆炸和梯度消失問題。Hochreiter &Schmidhuber 提出LSTM 網絡,它被主要用來處理RNN中存在的梯度消失問題。

長短期記憶(Long Short-Term Memory, LSTM)網絡是一種用于時間序列預測的循環神經網絡。LSTM 使用tanh 和Sigmoid 函數作為激活函數[3],通過內部的長短期記憶單元來處理時間序列數據,從而實現了長期記憶和短期記憶的功能。

LSTM 具有與RNN 相同的鏈式結構,能夠較好地體現時間序列的概念特征。與RNN 網絡相比,LSTM 不僅有一個短時記憶狀態控制單元,還增加了一個長時記憶控制單元[4]。在訓練過程中,將上一個時間節點完成的數據訓練信息通過記憶保存到下一個時間節點,從而增加了訓練過程前后時間節點的相關性,并且在傳遞過程中不斷放棄無效信息,使得模型訓練更高效、精準[7]。

門控循環單元(GRU)是由Kyunghyun Cho 等人于2014 年引入的[8]。GRU 通過Sigmoid 激活函數將上一個時刻和當前時刻的信息拼接后形成一個限制,對信息加以限制,實現長序列信息的傳遞。GRU 神經網絡對LSTM 進行了改進,它能實現LSTM 相同的效果,而且內部所需要訓練的參數變少,提高了訓練的速度,節約了計算資源[9]。

2 材料與方法

2.1 數據來源

新疆若羌縣沙漠面積數據從資源環境科學與數據中心下載并經過應用相關軟件進行計算后統計得到,其網址為https://www.resdc.cn。下載并安裝ArcGIS 軟件,打開已下載好的遙感監測數據,用該軟件計算柵格圖中沙地的面積。本文得到的沙漠面積數據經使用軟件中面積計算工具人工劃分新疆地區衛星遙感地圖和分塊測量并求和得到。

若羌縣歷史天氣數據來源于2345 天氣王網站公開的數據集。若羌縣GDP 數據、第一產業GDP、第二產業GDP、第三產業GDP 來源于若羌縣統計局。若羌縣糧食產量、谷物、小麥、玉米和棉花產量數據來源于新疆統計局。2020 年若羌縣東部地區衛星圖像如圖1 所示。

圖1 2020 年若羌縣東部地區衛星圖像

2.2 數據預處理

把每張圖中計算得到的沙漠面積匯總整理成Excel表,如表1~表5 所示。

表1 若羌縣東部地區沙地面積

表2 若羌縣歷史天氣記錄部分信息表℃

表3 若羌縣2011—2020 年糧食產量、谷物、小麥、玉米信息表t

表4 若羌縣2011—2020 年GDP、第一產業GDP、第二產業GDP、第三產業GDP 信息表億元

表5 若羌縣2011—2020 年棉花產量、果用瓜產量信息表t

2.3 數據集制作

沙漠面積原始數據太少,需要進行數據擴充,本文選擇等差數列填充法對缺失的數據進行填充。用前后兩年的沙漠面積作差取絕對值后除以60 作為公差,依次遞加或遞減。類似地,對若羌縣2011—2020 年糧食產量、谷物產量、小麥產量、玉米產量、棉花產量、果用瓜產量、年度GDP、第一產業GDP、第二產業GDP、第三產業GDP 這些數據進行擴充加入數據集中。ARIMA 模型實驗中,把1990—2015 年共6 組數據作為訓練集,把2020 年數據作為測試集。神經網絡模型實驗中把數據集按照7∶3 比例劃分為訓練集和測試集。

2.4 模型評價標準

采用MSE、RMSE、MAE 對各個模型進行性能評估。

1)均方誤差

2)均方根誤差

3)平均絕對誤差

式中:yi是實際值是預測值;m是預測值的總數。MSE、RMSE、MAE 越小,說明預測模型的準確度越高。

2.5 深度學習模型參數優化

2.5.1 RNN 模型參數優化

經過多次實驗最后確定RNN 模型參數如表6 所示。

表6 RNN 模型參數

2.5.2 LSTM 模型參數優化

經過多次實驗最后確定LSTM 模型參數如表7所示。

表7 LSTM 模型參數

2.5.3 GRU 模型參數優化

經過多次實驗最后確定GRU 模型參數如表8 所示。

表8 GRU 模型參數

3 模型預測

3.1 ARIMA 模型預測

用經過數據訓練的ARIMA 模型預測2020 年、2025 年、2030 年若羌縣東部地區沙漠面積。將預測的沙漠面積數據結合已有的若羌縣東部地區沙漠面積數據可以得到若羌縣東部地區1990—2030 年的沙漠面積變化趨勢圖,如圖2 所示。2020—2030 年沙漠面積保持平穩緩慢增長。因為相鄰數據中間年和月份的數據收集不到,故使用折線圖大致描繪出沙漠面積變化趨勢。

圖2 若羌縣東部地區1990—2030 年的沙漠面積變化折線圖

3.2 RNN 模型預測

通過對數據進行訓練后得到了實際值與預測值之間的關系,如圖3 所示。圖中,虛線表示原數據,實線表示預測的結果。圖4 中,訓練集和驗證集損失隨著訓練迭代次數的增加不斷減小,可知模型訓練效果良好。用RNN 模型對2020 年若羌縣東部地區流域沙漠面積預測值為15 249 km2。

圖3 實際沙漠面積和RNN 預測沙漠面積

圖4 RNN 訓練集和驗證集損失

3.3 LSTM 模型預測

通過對數據進行訓練后得到了實際值與預測值之間的關系,如圖5 所示。圖中,虛線表示原數據,實線表示預測的結果。根據圖形可以看出模型的擬合還是比較好的。圖6 中,訓練集和驗證集損失隨著訓練迭代次數的增加不斷減小,可知模型訓練效果良好。用LSTM 模型可以預測2020 年若羌縣東部地區沙漠面積為15 481 km2。

圖5 真實值和LSTM 預測值趨勢圖

圖6 LSTM 訓練集損失和驗證集損失

3.4 GRU 模型預測

對數據進行訓練后得到了實際值與預測值之間的關系,如圖7 所示。圖中,虛線表示原數據,實線表示預測的結果。圖8 中,訓練集和驗證集損失隨著訓練迭代次數的增加不斷減小,可知模型訓練效果良好。用GRU 模型對2020 年若羌縣東部地區沙漠面積預測值為15 687 km2。

圖7 實際沙漠面積和GRU 預測沙漠面積

圖8 GRU 訓練集和驗證集損失

3.5 組合模型預測

本文選擇誤差方差加權平均法確定組合模型中各個模型的權重。根據ARIMA模型和三個改進的神經網絡模型,對2020 年沙漠面積的預測值及真實值采用誤差方差加權平均法確定每個組合模型中各個分塊模型的權重。

3.5.1 ARIMA-RNN 模型預測

計算得到ARIMA、RNN 權重分別約為0.108 4、0.891 6。結合各個模型的預測值即可計算出組合模型的預測值,如表9 所示。

表9 ARIMA-RNN 組合模型評估表

ARIMA-RNN 預測的2020 年若羌縣東部地區沙漠面積約為15 093.6 km2。

3.5.2 ARIMA-LSTM 模型預測

計算得到ARIMA、LSTM 權重分別約為0.066 6、0.933 4。結合各個模型的預測值即可計算出組合模型的預測值,如表10 所示。ARIMA-LSTM 預測的2020 年若羌縣東部地區沙漠面積約為15 306.89 km2。

表10 ARIMA-LSTM 組合模型評估表

3.5.3 ARIMA-GRU 模型預測

計算得到ARIMA、GRU 權重分別約為0.035 8、0.964 2。結合各個模型的預測值即可計算出組合模型的預測值,如表11 所示。ARIMA-GRU 預測的2020 年若羌縣東部地區沙漠面積約為15 632.34 km2。

表11 ARIMA-GRU 組合模型評估表

3.6 模型對比與分析討論

所有實驗進行對比,結果如表12 所示。從預測準確度方面看,ARIMA 模型的預測準確度最低約為82.95%,改進的神經網絡模型預測準確度均大于94%,GRU 模型預測準確度最高,組合模型的預測準確度均大于93.08%。其中ARIMA-GRU 組合模型的預測準確度約為96.40%;從均方根誤差方面看,該模型最優。

表12 模型實驗對比

深度學習模型中RNN 模型的預測準確度最低約為94%。深度學習模型同樣存在缺陷,如數據需求量大,可能出現誤差積累,對數據質量敏感。ARIMA-GRU 組合模型的預測準確度最高約為96.40%。組合模型能夠很好地結合各個單一模型的優點,能夠提高單一預測模型預測的準確度。每個模型都有適用的場景和范圍,因此在使用模型時需要認真分析并用實驗驗證模型的可靠性。

4 結 語

本文對新疆若羌縣東部地區的沙漠面積進行不同的模型預測對比,尋找到了更具有實用性和穩定性的ARIMA-GRU 組合預測模型,其預測準確度約為96.40%,均方根誤差約為192.628。實驗證明,深度學習模型在沙漠面積預測中預測準確度高且性能良好。組合模型能夠提高沙漠面積預測的準確性和穩定性,能避免單一模型預測的局限性和風險性,適用于沙漠面積預測領域。

注:本文通訊作者為張建杰。

猜你喜歡
準確度預測值沙漠
加拿大農業部下調2021/22年度油菜籽和小麥產量預測值
±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
沙漠之旅
走進沙漠
法電再次修訂2020年核發電量預測值
走進沙漠
幕墻用掛件安裝準確度控制技術
穿越沙漠
動態汽車衡準確度等級的現實意義
高爐重量布料準確度的提高
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合