?

GPM衛星降水產品空間降尺度研究
——以貴州省為例

2022-01-06 05:14王大洋王大剛
自然資源遙感 2021年4期
關鍵詞:學習機時間尺度降水量

杜 懿, 王大洋, 王大剛

(中山大學地理科學與規劃學院,廣州 510275)

0 引言

近年來,隨著計算技術和遙測技術的發展,氣象衛星反演已經成為一種新的降水觀測途徑,國際上也先后涌現出多種衛星降水產品,如GPCP(global precipitation climatology project),TRMM(tropical rainfall measuring mission),CMORPH(climate prediction center morphing technique),PERSIANN(precipitation estimation from remotely sensed information using artificial neural networks),GSMaP(global satellite mapping of precipitation),GPM(global precipitation measurement mission)等。由于衛星降水產品能夠提供連續的降水時空分布信息,且觀測結果受地形和氣候條件等的影響較小,可以很好地彌補地面站點觀測的不足,目前已被廣泛地應用于水文、氣象、環境等領域的研究。在諸多無資料地區,衛星反演降水甚至成為區域降水信息獲取的唯一手段。然而,受多種因素限制,衛星降水產品的空間分辨率往往不高,如GPCP產品的空間分辨率僅為1.5°×1.5°; CMORPH,PERSIANN和TRMM等產品的空間分辨率也只有0.25°×0.25°; GSMaP和GPM等降水產品的空間分辨率相對較高,達到了0.1°×0.1°,在大尺度區域的研究中總體表現較好,但在小范圍區域和小尺度流域的應用中仍然受到諸多限制,其空間分辨率仍有待提高。GPM作為接替TRMM的最新一代衛星降水產品,不僅觀測范圍更廣,時空分辨率也得到了大幅提高,由于搭載了微波成像儀和雙頻降水雷達,有效提高了對弱降水以及固態降水的探測能力[1]。

目前,常用的降尺度方法主要分為動力降尺度和統計降尺度兩大類。其中統計降尺度方法由于計算量小、建模靈活等優點,在國內外得到了廣泛應用,是現階段用來提高衛星降水產品空間分辨率的主要手段[2]。概括來看,基于研究區域的地理、地形等特征而建立的統計降尺度模型在實際應用中效果較好,且理論依據完備。該類降尺度方法的基本假定是目標變量和解釋變量之間的相關關系具有空間平穩性,即二者之間的相關關系與空間尺度大小無關。地形指數由于地理穩定性較高,對區域特征的描述性較強,因而常被用作解釋變量。

現有研究多以TRMM降水產品為研究對象[3-5],對新一代衛星降水產品GPM的降尺度研究卻所見不多[6]。此外,目前研究中用于建立統計降尺度模型的方法較為單調,多為多元線性回歸[7-9]、高次多項式回歸[10]和地理加權回歸[11-13]等,而具有強大函數逼近能力的機器學習方法卻很少被用到,僅有的研究也主要集中在對隨機森林回歸方法的使用上[14-15]。

鑒于此,本文以2010—2019年的GPM衛星降水數據為研究對象,以地形復雜且氣象站點稀少的貴州省為研究區域,以經度、緯度、高程、坡度、坡向等地形因子為解釋變量,綜合使用多元線性回歸模型、地理加權回歸模型、極限學習機模型、支持向量機模型以及隨機森林回歸模型等來進行空間降尺度研究。

1 研究區概況與數據來源

1.1 研究區概況

貴州省地處中國西南內陸腹地,面積達17.61萬km2,地理位置介于N24°37′~29°13′,E103°36′~109°35′。地形上,貴州省地處云貴高原東部,境內地勢西高東低,從中部向東、南、北三面傾斜,平均海拔在1 100 m左右,全省地貌可分為高原、山地、丘陵和盆地等4種基本類型,其中92.5%的面積為山地和丘陵,平原面積極少。氣候上,貴州省屬亞熱帶濕潤季風氣候,降水豐富,雨熱同期,全省多年平均溫度為15 ℃左右,多年平均降水量在1 100~1 300 mm之間。貴州省主要氣象站點及高程分布如圖1所示。

圖1 貴州省主要氣象站點及高程分布Fig.1 Meteorological stations and elevation distribution in Guizhou Province

1.2 數據來源

根據反演算法的不同,GPM能夠提供3種級別的遙感數據產品,其中三級IMERG產品是由校準后的微波所生成的紅外降水估計,此外,還融合了地面觀測數據,目前已更新至V06B版本。IMERG產品中的 Final Run質量最高,最適合于科學研究,該產品的空間覆蓋范圍為S60°~N60°,空間分辨率為0.1°×0.1°,時間分辨率為0.5 h。本文使用的數據長度為2010年1月—2019年12月,共10個完整年,120個月份。

數字高程模型(digital elevation model,DEM)是目前用來描述區域地形地貌信息的主要手段。本文所用的DEM數據來自于地理空間數據云(http: //www.gscloud.cn/)提供的GDEMV2 30 m分辨率原始高程數據。

地面氣象站點觀測數據來自國家氣象科學數據中心(http: //data.cma.cn/)發布的《中國地面氣候資料月值數據集》。本文選用貴州省區域內的17個站點的2010—2019年間的月降水觀測值。貴州省內各氣象站點的基本信息如表1所列。

表1 貴州省內氣象站點基本信息Tab.1 Meteorological station basic information of Guizhou Province

2 研究方法

本文的具體建模步驟如下[16]:

1)基于30 m DEM數據,以網格為單元,對研究區域內的各個地形因子(高程、坡度、坡向)進行重采樣,分別采樣成0.1°×0.1°的低分辨率DLR和0.01°×0.01°的高分辨率DHR。

2)基于GPM衛星降水數據,對研究區域內各網格所對應的降水量PLR進行提取,其空間分辨率為0.1°×0.1°。

3)在0.1°×0.1°低分辨率下,建立研究區域內降水量PLR與地形因子DLR之間的映射關系,即

PLR=f(DLR)

(1)

4)以DHR為輸入,以f為映射關系,即可得到0.01°×0.01°高分辨率下研究區域內各網格的降水量PHR:

PHR=f(DHR)

(2)

如此,就把降尺度問題轉換成了回歸問題,研究的關鍵在于如何找出最適當的映射關系f?;貧w模型的建模方法眾多,本文主要使用了原理簡單的多元線性回歸、局部信息描述較好的地理加權回歸、函數逼近能力優秀的機器學習模型等。

2.1 多元線性回歸

多元線性回歸原理較為簡單,主要是利用統計學方法在多個變量之間建立如下的線性關系:

Y=a0+a1X1+a2X2+…+ak-1Xk-1+akXk

(3)

式中:X為解釋變量;Y為目標變量;a為各解釋變量所對應的偏回歸系數;k為解釋變量的個數。已有研究表明[17],疊加殘差后的多元回歸模型往往能夠表現得更好。

2.2 地理加權回歸

地理加權回歸是一種局部參數估計方法,相較于多元線性回歸,地理加權回歸假設解釋變量與目標變量之間的關系隨空間位置的變化而變化,通過估算研究區內每一位置的目標變量與解釋變量之間的參數來建立回歸模型,不同于線性回歸在整個研究區內通用一套回歸參數[18-20]。其原理可用以下公式進行描述:

(4)

式中:n為變量個數;yi為i點處的降水量,i=1,2,…,k; (ui,vi)為i點處的地理坐標;β0(ui,vi)為i點處的常數項回歸參數;βj(ui,vi)為第j個變量在i點處的回歸參數;ε(ui,vi)為i點處的殘差。

2.3 極限學習機

極限學習機是Huang等[21-22]提出的一種單隱含層前饋神經網絡。極限學習機的出現有效地解決了前饋神經網絡學習速度慢的難題,該算法只需要在網絡訓練前隨機生成輸入層和隱含層之間的連接權值和隱含層神經元的閾值,且整個訓練過程中無需更新調整。

目前,該模型實現代碼已公開發布,下載網址為https: //www.ntu.edu.sg/home/egbhuang/,用戶可根據需要免費下載使用。該模型用于回歸時,主要優選參數僅有一個,即隱含層的神經元個數。鑒于極限學習機運算效率較快,本文直接使用遍歷法來優選參數。

2.4 支持向量機

支持向量機是由Vapnik等[23]在統計學習理論的基礎上提出的一種新的機器學習方法,其在很大程度上解決了過學習、非線性和維數災等問題,為小樣本機器學習問題建立了一個較好的理論框架[23-24]。

本文基于LIBSVM V3.24開源工具箱來進行支持向量機的建模工作,該工具箱所涉及的參數調節較少,提供了很多默認參數。一般情況下,當采用RBF函數作為核函數時,需要優化的參數主要有懲罰系數c和RBF核函數的自帶參數g,LIBSVM V3.24工具箱內嵌了交叉驗證法來對參數c和g進行優選,但是考慮到epsilon-SVR模式中損失函數值p對模型的最終表現也有較大影響,故也將此參數作為待優選參數。由于遺傳算法具有強大且高效的全局優化能力,本文以其來對c,g,p等參數進行尋優。

2.5 隨機森林回歸

隨機森林是由Breiman[25]提出的一種基于決策樹的機器學習模型,與神經網絡算法相比,其計算量小且精度較高。該算法目前在多種環境下均可實現,如MATLAB,Python和R等,其中對模型結果影響較大的參數主要有決策樹數目ntree(默認值為500)和指定節點中用于二叉樹的變量個數mtry(默認值為輸入變量個數的二次方根或三分之一)。一般情況下,mtry的取值對模型效果影響不大,需要進行優選的參數就只有ntree。由于隨機森林模型也有極快的計算效率,故本文直接對ntree進行遍歷尋優。

2.6 評價指標

本文選用的評價指標主要包括有平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean square error,RMSE)以及皮爾遜相關系數R,前3個指標用來表征模型的模擬誤差,后一個指標用來描述空間一致性。各評價指標的計算公式如下所示:

(5)

(6)

(7)

(8)

3 研究結果

3.1 多年平均尺度

對2010—2019年間貴州省的多年平均、多年季節平均等時間尺度的降水量分別建立基于多元線性回歸、地理加權回歸、極限學習機、支持向量機、隨機森林回歸等降尺度模型,并將各情景下的降尺度前、后的降水量與相應的實測站點的降水量進行比較。

基于研究區域范圍,在0.1°×0.1°分辨率下共提取出1 991組有效樣本,每組樣本的輸入變量包括有網格的經度、緯度、高程、坡度、坡向等5個地形因子,輸出變量則為網格在指定時間尺度下的GPM降水量。在建立多元線性回歸模型和地理加權回歸模型時,以全部1 991組樣本計算模型,再利用該模型對新的輸入樣本進行模擬,最終得到0.01°×0.01°分辨率下的GPM降尺度結果。而在機器學習模型的建模過程中,通常需要先對模型的可行性進行驗證,進而才能對新的輸入樣本進行模擬。根據經驗,按照4∶1的原則進行樣本劃分,各時間尺度下的機器學習模型在建模時均取前1 600組樣本組成訓練集,剩余391組樣本組成驗證集。模型有效性以MAPE指標來進行評價,一般當MAPE≤20%時,說明模型表現較好,可以實際應用。

表2為3種機器學習模型MAPE結果,可以看出,除隨機森林回歸模型在多年冬季的驗證期內模擬誤差過大,其余各機器學習模型在各時間尺度下均建模成功,且模擬精度較高。

表2 機器學習模型的MAPE計算結果Tab.2 The MAPE of machine learning models (%)

表3—7給出各降尺度模型在多年平均、多年季節時間尺度下的降尺度效果評價,其中0.1°×0.1°分辨率表示降尺度前的GPM數據,0.01°×0.01°分辨率表示降尺度后的GPM數據。

表3 各時間尺度下多元線性回歸模型評價指標計算結果Tab.3 The results of multiple linear regression models under various time scales

表4 各時間尺度下地理加權回歸模型評價指標計算結果Tab.4 The results of geographical weighted regression models under various time scales

表5 各時間尺度下極限學習機模型評價指標計算結果Tab.5 The results of extreme learning machine models under various time scales

(續表)

表6 各時間尺度下支持向量機模型評價指標計算結果Tab.6 The results of support vector machine models under various time scales

表7 各時間尺度下隨機森林回歸模型評價指標計算結果Tab.7 The results of random forest regression models under various time scales

1)多元線性回歸模型。相較于降尺度前,降尺度后的結果不僅空間分辨率有了極大提高,觀測精度也有較大提升。在多年平均和多年季節時間尺度下,降尺度后的高分辨率數據不僅誤差減小明顯,與站點實測數據的相關性也有了明顯提高。在多年冬季時間尺度上,降尺度后的高分辨率數據與站點實測數據的相關性雖然沒有提高,但基本穩定。

2)地理加權回歸模型。從觀測誤差上來看,除了多年春季時間尺度基本保持不變,其余4種時間尺度下的觀測誤差均有明顯減小。從與站點實測數據的相關性上來看,相較于多元線性回歸模型,地理加權回歸模型在全部時間尺度下的相關性均表現出明顯的提高。

3)極限學習機模型?;跇O限學習機的降尺度模型也基本表現不錯,但相較于多元線性回歸和地理加權回歸模型仍有一定差距。多年平均和多年夏季時間尺度下,降尺度后的數據無論是觀測精度還是與站點實測降水的相關性,均有所提升; 多年春季時間尺度下,雖然觀測精度有所提高,但相關性有所減??; 多年秋季和多年冬季時間尺度下,不僅觀測精度有所下降,與站點實測數據的相關性也有所減小。

4)支持向量機模型?;谥С窒蛄繖C的降尺度模型整體表現較好,要優于極限學習機模型。在多年夏季和多年秋季時間尺度下,降尺度后的數據在精度和相關性上均有明顯提升; 多年平均和多年冬季時間尺度下,降尺度后的數據在觀測精度上有較大的提高,但與站點實測數據的相關性卻有所減??; 多年春季時間尺度下,降尺度后的數據在觀測精度和相關性兩方面均存在微弱下降。

5)隨機森林回歸模型?;陔S機森林回歸的降尺度模型表現不大理想。在多年夏季時間尺度下,降尺度后的數據在觀測精度和相關性上均有明顯提高; 在多年平均、多年春季時間尺度下,雖然觀測精度有一定程度的提高,但與站點實測數據的相關性卻有所減弱; 多年秋季和多年冬季時間尺度下,不僅觀測誤差上升,與站點實測數據的相關性也明顯減小,尤其是多年冬季時間尺度的表現最差。造成這一結果的原因是在建模過程中模型未通過可行性檢驗,導致模型失效。

綜合比較以上5種降尺度模型,可以發現多元線性回歸模型、地理加權回歸模型、極限學習機模型、支持向量機模型表現較好。進一步對比發現,多元線性回歸模型和地理加權回歸模型的降尺度效果整體上還是要優于極限學習機模型和支持向量機模型,可能的原因是在建模過程中前兩個模型利用了全部樣本信息(1 991組),而后兩種機器學習模型由于需要額外劃出一部分樣本來驗證模型的可行性,造成了學習樣本數(1 600組)減少,樣本學習信息不足,進而影響了降尺度結果。整體來看,多元線性回歸模型原理最為簡單、計算最為方便、效果也最為穩定。

圖2—6為多元線性回歸模型在多年平均和多年各季時間尺度下的降尺度前、后效果對比。

(a) 降尺度前 (b) 降尺度后圖2 多年平均年降水量空間分布Fig.2 Spatial distribution of average annual precipitation

(a) 降尺度前 (b) 降尺度后圖3 多年平均春季降水量Fig.3 Spatial distribution of average spring precipitation

(a) 降尺度前 (b) 降尺度后圖4 多年平均夏季降水量Fig.4 Spatial distribution of average summer precipitation

(a) 降尺度前 (b) 降尺度后圖5 多年平均秋季降水量Fig.5 Spatial distribution of average autumn precipitation

(a) 降尺度前 (b) 降尺度后圖6 多年平均冬季降水量Fig.6 Spatial distribution of average winter precipitation

圖7 研究區逐年降水量變化過程Fig.7 The change process of precipitation in the Guizhou Province from 2010 to 2019

3.2 年尺度

本文使用的GPM降水數據的時間范圍為2010年到2019年,采用算術平均法來計算研究區域的面平均降水量。圖7為研究區域在2010—2019年期間的逐年降水量變化過程??梢悦黠@看出,2011年為典型干旱年,2014年為典型濕潤年。

采用多元線性回歸模型分別對干、濕典型年的年降水量進行空間降尺度研究。表8為基于多元線性回歸模型的降尺度結果評價。

表8 干、濕典型年降水量降尺度效果評價Tab.8 Evaluation of downscaling results of typical annual precipitation of dry and wet

由表8可見,基于多元線性回歸的降尺度模型在干、濕典型年中均表現較好。降尺度后的GPM數據,無論是在觀測精度上還是在與站點實測數據的相關性上,均得到了不同程度的提高。此外,相較于典型干旱年,典型濕潤年的降尺度效果更優。

圖8—9為研究區域內典型干、濕年降尺度前、后的年降水量空間分布情況。

(a) 降尺度前 (b) 降尺度后圖8 典型干旱年年降水量Fig.8 Annual precipitation in a typical drought year

(a) 降尺度前 (b) 降尺度后圖9 典型濕潤年年降水量Fig.9 Annual precipitation in a typical wet year

3.3 月尺度

為了進一步驗證多元線性回歸降尺度模型在月尺度上的應用效果,分別對研究區域典型干、濕年的月降水量進行降尺度處理。并通過觀察降尺度前后降水的年內分配情況來檢驗模型的表現效果,結果如圖10和圖11所示。

(a) 降尺度前 (b) 降尺度后圖10 典型干旱年降水量月程分配Fig.10 Monthly distribution of precipitation in a typical dry year

(a) 降尺度前 (b) 降尺度后圖11 典型濕潤年降水量月程分配Fig.11 Monthly distribution of precipitation in a typical wet year

從圖10和圖11中可以看出,兩種典型年下,降尺度后的月降水量無論是在量值上還是在月程分配上均和降尺度前保持了較高的一致性,可以充分地說明基于多元線性回歸的降尺度模型在貴州省區域有著相當好的適用性與可靠性。

4 結論

本文以2010—2019年貴州省區域的GPM衛星降水數據為研究對象,借助經度、緯度、高程、坡度和坡向等地形因子來建立空間降尺度模型,主要取得以下結論:

1)在多年時間尺度的降尺度研究中,多元線性回歸、地理加權回歸、極限學習機、支持向量機等模型均表現較好,其中以多元線性回歸模型表現最好。鑒于多元線性回歸模型原理簡單、建模方便,且在所有模型中對觀測精度的提高最為明顯,故將其選為貴州省區域GPM衛星降水數據的最佳空間降尺度模型。

2)基于多元線性回歸模型,分別對研究區典型干、濕年的年降水量進行降尺度研究,相較于降尺度前,降尺度后的降水數據除了具有更高的分辨率外,還具有更高的觀測精度以及更好的相關性。典型干旱年下,平均絕對百分比誤差從11.62%下降到了11.23%,與站點實測數據的相關系數從0.72上升到了0.73; 典型濕潤年下,平均絕對百分比誤差從11.22%下降到了10.71%,與站點實測數據的相關系數從0.50上升到了0.62。

3)為了進一步檢驗多元線性回歸降尺度模型在月時間尺度上的應用效果,分別對典型干、濕年的月降水量進行了降尺度處理,效果仍然令人滿意。在提高降水數據空間分辨率的同時,無論是在量值上還是在月程分配上,均保持著較高的一致性。

機器學習模型在本次研究中的表現并未優于多元線性回歸模型和地理加權回歸模型,可能的原因是研究區域較小,可利用樣本數較少,模型無法得到充分的訓練,導致學習能力有限。隨著研究區域的擴大、樣本數的增多,在經過大數據訓練后的機器學習模型相信能獲得更好的降尺度效果。

本文在建立降尺度模型的過程中僅使用了地形因子變量,雖然在各個時間尺度上均能得到較好的應用效果,但并不表明沒有進一步提升的空間,如引入植被指數、地表溫度、土壤含水量等變量對降尺度效果是否會有改進,仍需要繼續開展研究。

猜你喜歡
學習機時間尺度降水量
時間尺度上帶超線性中立項的二階時滯動力方程的振動性
交直流混合微電網多時間尺度協同控制
時間尺度上完整非保守力學系統的Noether定理
降水量是怎么算出來的
極限學習機綜述
黃臺橋站多年降水量變化特征分析
基于極限學習機參數遷移的域適應算法
1988—2017年呼和浩特市降水演變特征分析
分層極限學習機在滾動軸承故障診斷中的應用
大連市暴雨多時間尺度研究分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合