?

顧及變量相關性的主成分分析法在森林蓄積量估測中的應用1)

2022-04-06 06:07崔博文佘濟云張廷琛劉兆華王瀟
東北林業大學學報 2022年2期
關鍵詞:方根反演線性

崔博文 佘濟云 張廷琛 劉兆華 王瀟

(中南林業科技大學,長沙,410004)

森林是地球上最重要的資源之一,是生物多樣性的基礎,人類生存發展的保障[1]。森林蓄積量是評判森林質量的重要指標,森林蓄積量指一定森林面積存在的林木樹干部分的總材積,能夠直接反映森林資源的豐富程度,所以,精準且迅速地對森林蓄積量進行預測具有非常重要的意義。

傳統的森林蓄積量統計雖然準確率較高,但是需要耗費大量的人力及物資,目前隨著計算機技術、遙感(RS)、地理信息系統等技術的逐漸成熟,通過將數學模型、遙感影像及部分實地數據聯合,從而對森林蓄積量進行反演的研究方法逐漸成為研究的熱點之一。

在進行森林蓄積量估測時,遙感變量的篩選尤為重要,過多的數據不僅會存在共線性問題,而且會增大計算量;選擇數據較少會造成數據沒有代表性,結果不準確的問題。目前在遙感因子篩選較為常用的方法主要是Pearson相關系數法及主成分分析法。劉明艷等[2]以老禿頂子自然保護區為研究區,采用Landsat8 OLI數據以及實地數據作為數據源,通過使用主成分分析法提取變量,構建了線性回歸估測模型,模型預估精度達到了92.18%;郝瀧等[3]以Landsat8 OLI為遙感數據源,森林資源二調數據為地面數據源,通過使用主成分分析法對數據降維并構建多元線性回歸模型,最終精度達到80.24%;周如意[4]以浙江省龍泉市作為研究區,通過使用Pearson雙變量相關性分析方法對自變量進行相關性分析,構建模型后估測精度達到74.96%。

由于Pearson相關系數法只能反映變量間線性關系的強弱[5],主成分分析法雖可以避免發生共線性問題,但容易造成數據冗余[6],本研究在原有2種篩選變量方法的基礎上增加了一種先采由Pearson相關系數法去除相關性較小的變量,再對剩余變量進行主成分分析的篩選方法(PCA-P)。通過將3種篩選方法所獲得的自變量分別構建多元線性回歸模型(MLR)、K最近鄰模型(KNN)、隨機森林模型(RF)、支持向量機模型(SVR)4種蓄積量反演模型,研究不同變量選擇方法及不同模型對蓄積量估測精度的影響,以期得到精度最高、擬合度最好的蓄積量反演估測模型。

1 研究區概況

選取湖南省懷化市靖州縣排牙山國家森林公園作為研究區,排牙山國家森林公園的地理坐標為109°27′8″~109°37′57″E,26°26′1″~26°35′20″N(圖1)??偯娣e3 745.41 hm2,以低山地貌為主,地勢中間高,兩邊低,呈帶狀延伸。森林公園屬亞熱帶季風濕潤氣候區,氣候溫和,雨量充沛,年均氣溫17.0 ℃,年均降水量為1 250 mm,無霜期為290 d左右。主要成土母巖為紫砂巖,土壤以紫色砂巖發育而成的紫色土為主。林分類型以杉木人工林為主,林場分類為以保護為主的生態公益型林場[7]。

圖1 研究區位置

2 研究方法

2.1 數據來源及處理

2.1.1 地面數據來源及預處理

樣地地面數據使用靖州縣森林資源二類調查數據為基礎。由于地面數據數量較大,樹種較為復雜,本研究所選用的蓄積量估測模型不足以支撐多樹種蓄積量共同反演,因此僅保留杉木樣本作為本次試驗的研究對象。使用標準差分析方法,剔除離散程度較大的樣地點,剩余110個樣地點作為試驗樣地點(圖2)。樣地蓄積量范圍為70.59~507.12 m3·hm-2,標準差為91.34 m3·hm-2,變異系數為0.35。

圖2 樣地點分布圖

2.1.2 遙感數據來源及處理

影像選用與森林資源二類調查同時期的Landsat8 OLI影像,通過地理空間數據云免費下載。對遙感數據進行輻射定標、大氣校正、正射校正、幾何校正、地形校正,再將數據矢量化,使單塊樣地的像元亮度值與蓄積量一一對應。

2.2 遙感變量提取與篩選

2.2.1 遙感變量的提取

試驗共提取遙感因子83個,包括6個Landsat8OLI單波段因子(由于B1波段用于觀測海岸線、B9為卷云波段所以不計入)、3×3窗口下的8個紋理特征值、通過單波段因子計算得到的69個植被指數。植被指數計算公式見表1,其中B2為藍波段、B3為綠波段、B4為紅波段、B5為近紅外波段、B6為短波紅外1、B7為短波紅外2;L為隨植被密度變化的參數,L為0.5時消除土壤反射率的效果較好[6]。

表1 植被指數

2.2.2 特征選擇方法

目前,Pearson相關系數法及主成分分析法在篩選變量時應用較為廣泛[8]。應用Pearson相關系數法分別對每個指標進行分析,其結果往往是孤立的,并不是綜合的,而盲目減少指標會損失很多可能有用的信息,容易出現錯誤的結論[8]。使用主成分分析法能有效地提取初始數據的信息,得到的特征根數量遠小于原始變量,每個特征根之間相互獨立,不會出現共線性問題,但如果將全部原始數據直接進行主成分分析,容易造成數據冗余,造成結果不準確[9]。為提高準確性,本研究在原有的2種篩選變量方法基礎上,增加了Pearson相關系數法聯合主成分分析法(PCA-P)篩選變量,即先使用Pearson雙變量相關系數法對原始數據進行篩選,保留相關性大于0.5的變量,再使用主成分分析法對其進行降維。使用這種方法可以綜合考慮所有變量,去除數據冗余的同時,保留數據的目標信息,提高估測精度。

2.3 蓄積量估測模型的構建

使用3種篩選方法提取的特征構建多元線性回歸、支持向量機、隨機森林法、K最近鄰4種回歸模型。多元線性回歸通常用來研究1個因變量和多個自變量的變化關系,主要是以多個主要影響因素作為自變量來解釋因變量的變化,當多個自變量與因變量之間是線性關系時,所進行的回歸分析就是多元線性回歸[10]。隨機森林算法屬于集成學習法中的套袋法,隨機森林模型采用自助法(Bootstarp)有放回地抽樣從原始數據中隨機選擇n個樣本構建CART決策樹,從所有原始變量中隨機抽取若干個特征變量用于決策樹構建,最終組成隨機森林模型。隨機森林算法的優點在于其結果不容易發生擬合且具有很好的抗噪聲能力,而構建模型的關鍵在于其決策樹的數量選擇[11-12]。支持向量機的基本原理是通過某種事先選擇的非線性映射將輸入向量x映射到1個高維特征空間,在這個空間中構造最優分類超平面,從而使正例和反例樣本之間的分離界限達到最大,優化模型的方法是使用結構風險最小化原則,其核函數的選擇將直接影響其估測結果[13-15]。K最近鄰屬于數據挖掘分類中的一種,其基本原理是使用一致類別的樣本作為參考,計算所有已知樣本與未知樣本的距離,最終選取出K個與未知距離最近的已知樣本,采用少數服從多數的投票法則來進行分類,其關鍵在于K值的選擇。在應用中可采用交叉驗證法來選擇最優的K值[16-18]。

本次試驗設置隨機森林法模型決策樹數目為100,K最近鄰模型K值從2循環到50,當K=13時,模型精度最好。因此選擇13作為本次試驗K值。

2.4 模型評價

本試驗采用檢驗模型的方法為留一交叉法,分別計算各模型的決定系數(R2),均方根誤差(RMSE),以及相對均方根誤差(RRMSE)3個指標對模型進行精度評價,指標計算公式如下:

(1)

(2)

(3)

式中:yi為估測樣地蓄積量;y為實測樣地蓄積量;N為樣地數目。

3 結果與分析

3.1 特征選擇結果

3.1.1 Pearson相關系數法特征選擇結果

將83個遙感變量進行Pearson雙變量相關性檢驗,在0.01顯著水平上,相關性大于0.5的遙感變量共17個[19-20]。為保證參與建模變量的準確性,引入方差膨脹因子(VIF)對遙感變量進行共線性分析,去除方差膨脹因子大于10的變量,得到的遙感變量為IB2(相關性0.716)、IMSR(相關性0.623)、IND25(相關性0.597)。

3.1.2 主成分分析法特征選擇結果

對83個原始變量進行主成分分析,分析結果如表2所示,得到3個主成分,累計貢獻率為93.42%,選擇這3個特征根作為主成分分析法反演蓄積量模型的自變量。

表2 主成分分析

3.1.3 PCA-P特征選擇結果

計算83個原始變量與蓄積量的Pearson相關系數,保留在0.1顯著水平上相關系數大于0.5的變量(表3),并對其進行主成分分析,分析結果如表4所示。共得到2個特征根,累計貢獻率達到88.992%,選擇這2個主成分作為PCA-P反演蓄積量模型的自變量。

表3 遙感變量與蓄積量的相關性

表4 PCA-P分析

3.2 構建模型結果

3.2.1Pearson相關系數篩選變量蓄積量估測模型構建

將通過Pearson相關系數法及方差膨脹因子得到的3個遙感變量構建蓄積量估測模型,參與構建的模型分別為多元線性回歸模型、K最近鄰模型、隨機森林模型、支持向量機模型。分別計算統計各模型的決定系數、均方根誤差、相對均方根誤差。

由表5可知,通過Pearson相關系數篩選得到的變量,在K最近鄰模型中取得了最好的效果,決定系數為0.50,均方根誤差為49.1 m3·hm-2,模型精度達到76.7%;線性回歸模型僅次于K最近鄰模型,其模型決定系數為0.48,精度達到75.9%;隨機森林模型效果最差,擬合度僅為0.37。K最近鄰模型蓄積量散點圖見圖3。

表5 Pearson篩選變量構建模型結果

圖3 K最近鄰模型蓄積量散點圖

3.2.2 主成分分析法篩選變量蓄積量估測模型構建

將通過主成分分析法得到的4個特征根參與構建多元線性回歸模型、隨機森林模型、支持向量機模型、K最近鄰模型,分別計算統計各模型的決定系數、均方根誤差、相對均方根誤差。

由表6可知,在全部變量參與主成分分析并構建模型的情況下,多元線性回歸模型效果最好(R2=0.47),其他3種機器學習法決定系數較低,且支持向量機模型決定系數為負值,說明冗余數據中存在內生變量的滯后值。多元線性回歸模型蓄積量散點圖見圖4。

表6 主成分分析法篩選變量構建模型結果

圖4 多元線性回歸模型蓄積量散點圖

3.2.3 PCA-P蓄積量估測模型構建

將通過PCA-P得到的兩個特征根參與構建多元線性回歸模型、隨機森林模型、支持向量機模型、K最近鄰模型,分別計算統計各模型的決定系數、均方根誤差、相對均方根誤差

由表7可知,通過PCA-P作為篩選方法所構建的模型精度且3種機器學習法結果優于多元線性回歸模型,其中隨機森林法效果最好,決定系數達到0.59,其均方根誤差為46.5 m3·hm-2,相對均方根誤差為22.1%;K最近鄰模型決定系數為0.52,精度為75.3%;支持向量機決定系數為0.46,精度為75.3%;多元線性回歸模型決定系數為0.40,其均方根誤差為24.3%。隨機森林法模型蓄積量散點圖見圖5。

表7 PCA-P篩選變量構建模型

圖5 隨機森林法模型蓄積量散點圖

3.3 研究區蓄積量反演結果

分別構建3種篩選方法中最優模型的蓄積量反演圖,即使用Pearson相關系數法構建的K最近鄰模型、使用主成分分析法構建的多元線性回歸模型組合、使用PCA-P構建的隨機森林模型。由圖6可知,3種篩選方法構建的蓄積量反演結果均體現出蓄積量主要分布在研究區東北部及中部,西南部分布較少。

圖6 排牙山林場蓄積量分布

4 結論與討論

本研究選取靖州縣排牙山國有林場作為研究區,使用Landsat8 OLI數據作為遙感數據源,結合森林資源二類調查數據,通過將Pearson相關系數法及主成分分析法結合得到一種新的篩選方法(PCA-P)并構建4種不同模型,為進行對比分析構建了Pearson相關系數法及主成分分析法的估測模型,并使用留一交叉驗證的方法對結果進行精度檢驗。

使用Landsat8 OLI數據提取的光譜變量與森林蓄積量具有較強相關性,所以使用Landsat8 OLI數據對森林蓄積量進行反演是可行的。將2種篩選方式結合可以有效去除數據冗余并保留目標信息,提高蓄積量估測精度。使用PCA-P結合隨機森林法模型達到了最高精度,其決定系數為0.59,均方根誤差為46.5 m3·hm-2,相對均方根誤差為22.1%。

本研究中發現,將Pearson相關系數法與主成分分析法聯合起來篩選特征能夠在降低維度的同時不丟失原有數據的大部分信息,且通過對比發現,使用不同篩選方法構建同一種反演模型時,模型擬合度及精度均有較大提高,如支持向量機模型在使用Pearson相關系數法、主成分分析法時,決定系數分別為0.42、-0.05,相對均方根誤差分別為25.9%、32.7%,但使用PCA-P作為篩選方式構建支持向量機模型,決定系數達到0.46,相對均方根誤差達到24.7%。PCA-P為利用衛星影像對森林蓄積量反演在篩選特征值這一關鍵步驟提供了一種新的思路。使用PCA-P作為篩選方法構建的隨機森林模型是否在北方林地也可以發揮較好效果,需要進一步驗證。由蓄積量反演圖可知,每公頃林分蓄積量大于300 m3時,反演模型出現飽和現象,如何解決光譜飽和問題需進一步驗證。由于研究區樹種主要為針葉林,所以本研究對針葉林蓄積量研究具有一定參考價值。

猜你喜歡
方根反演線性
反演對稱變換在解決平面幾何問題中的應用
關于非齊次線性微分方程的一個證明
我們愛把馬鮫魚叫鰆鯃
反演變換的概念及其幾個性質
非齊次線性微分方程的常數變易法
線性耳飾
基于ModelVision軟件的三維磁異常反演方法
數學魔術——神奇的速算
常數變易法的理論依據
數學魔術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合