?

運用最大熵模型和隨機森林模型對東北紅松分布的模擬1)

2020-04-10 05:55張勞模羅鵬龐麗峰唐小明
東北林業大學學報 2020年3期
關鍵詞:紅松物種精度

張勞模 羅鵬 龐麗峰 唐小明

(中國林業科學研究院資源信息研究所,北京,100091)

全球氣候變化使植物的分布區域也隨之發生改變,研究植被的潛在分布顯得越來越重要[1-4]。植被的分布主要受到生物因素和非生物因素的共同作用,其中以溫度和降水等非生物因素最為重要。近些年來,隨著數學方法和地理信息技術的發展,建立了多種潛在物種分布模型,其中主要以物種分布模型(SDMs)和數據挖掘模型應用最為廣泛。典型的物種分布模型主要有MaxEnt[5]、BIOCLIM[6]、PORSKA[7]、GAM[8]、GLM[9]、LANDIS[10]等。數據挖掘模型主要有隨機森林和分類回歸樹(CART)等。

在SDMs模型之中,最大熵模型(MaxEnt)是最可靠的模型之一[11-13]。MaxEnt模型是基于Jaynes于1957年提出的最大熵理論而建立的模型[14],而Philips將最大熵模型首次應用于物種分布[5]。MaxEnt模型在使用時,需要物種的分布數據和環境變量數據,一般使用經緯度來表征物種的分布點,而環境變量數據通常包括溫度和降水等氣候數據,也包含地形地貌和植被覆蓋等信息。利用MaxEnt模型模擬物種的潛在分布結果時,對于數據量的要求比較低,即使數據有部分缺少或者樣本容量很小的情況下,依舊可以模擬出較為合適的結果[15]。目前,利用MaxEnt模型對不同尺度范圍的物種潛在分布和適宜性評價均有研究[16-20],對MaxEnt模型本身模型精度和不確定性分析以及不同物種分布模型之間的差異也有相關研究[21-24]。

近年來,數據挖掘模型也是在物種潛在分布研究中運用較為廣泛的一類模型,其中以隨機森林的模型的運用最為廣泛。隨機森林模型是典型的弱分類器組合成為強分類器的模型,利用隨機森林模型進行分析時,樣本抽樣和特征數的選取都是隨機的,每棵樹自由生長,不進行修剪,結果依靠平均值或者投票獲得[25]。目前,隨機森林模型不僅對云南松和蕎麥等植物物種以及白冠長尾雉、中華穿山甲和藏酋猴等動物物種進行了潛在分布模擬,而且也對城市需水量預測、林火發生概率模擬等[26-30]。

目前,對于MaxEnt模型和隨機森林模型單獨的研究成果有很多,但是對于這兩個模型之間的對比研究還相對較少,為了探究這兩個模型之間對于某一物種潛在分布的預測結果的差異,我們利用東北紅松作為研究對象,討論兩種模型的精度差別和模擬結果的差異。

1 研究區概況

東北林區是我們國家最大天然林區,尤其是大興安嶺、小興安嶺和長白山地,森林資源十分豐富,林地面積和蓄積量分別占全國林地總面積和森林總蓄積量的27%和30%。該地區地形主要以山地和平原為主,海拔最高點是位于吉林省,海拔2 691 m。東北地區普遍緯度較高,冬長夏短,年均氣溫6 ℃,年降水量為400~1 000 mm。主要樹種為紅松(PinuskoraiensisSieb. et Zucc.)、落葉松(Larixgmelinii(Rupr.) Kuzen.)、蒙古櫟(QuercusmongolicaFisch. ex Ledeb)、水曲柳(FraxinusmandshuricaRupr.)和樟子松(Pinussylvestrisvar.mongolicaLitv.)等。紅松是我國重要的珍貴樹種,同時也是國家儲備林樹種之一。成熟紅松樹高可達40 m以上,胸徑1~2 m。由于特殊的地理和氣候條件,紅松主要分布在中國的東北部,即小興安嶺和長白山附近[31](見圖1)。近年來,由于氣候變化和人類活動增加,紅松的數量正在逐漸減少。因此,探究紅松可能的分布范圍和適宜區域,對于紅松的保護具有重要的意義。

2 研究方法

2.1 數據來源

在國家森林資源連續清查數據中收集了東北地區159個紅松分布點。國家森林資源連續清查,也叫做一類調查,是一種森林資源調查方法,調查內容包括土地利用與覆蓋、森林資源、森林生態狀況、林業生產和社會經濟情況調查等項目。國家森林資源連續清查數據為自然條件下生長的紅松數據,不包括人工種植以及移栽等其他因素獲得的數據。

氣候數據來源于世界氣象(http://www.worldclim.org),其中包括了19個環境變量(年平均溫度、晝夜溫差月均值、等溫性、溫度季節變化標準差、最暖月最高溫、最冷月最低溫、氣溫年變化范圍、最濕季度平均溫、最干季度平均溫、最暖季度平均溫、最冷季度平均溫、年平均降水量、最濕月降水量、最干月降水量、降水量變異系數、最濕季度降水量、最干季度降水量、最暖季度降水量、最冷季度降水量),這些數據是根據世界各地氣象站1950—2000年的觀測數據,通過空間插值實現的柵格數據集,被廣泛用于生態系統的相關研究,空間分辨率為1 km。地形數據是來源于地理空間數據云(http://www.gscloud.cn),分辨率為1 km的數字高程模型(DEM)數據,并利用軟件輸出坡向和坡度信息。土壤數據下載自來源于寒區旱區科學數據中心(http://westdc.westgis.ac.cn),該數據是聯合國糧農組織(FAO)和維也納國際應用系統研究所(IIASA)所構建的世界土壤數據庫(HWSD),空間分辨率為1 km,土壤因子包括上層土壤碎石體積分婁、上層土壤中沙體積分數、上層壤土質量分數、上層土壤黏土質量分數、上層土壤有機碳質量分數、下層土壤碎石體積分婁、下層土壤中沙體積分數、下層壤土質量分數、下層土壤黏土質量分數、下層土壤有機碳質量分數。

圖1 研究區與紅松分布位置點

2.2 模型精度判斷指標

判定最大熵模型和隨機森林模型本身建模精度的指標為AUC(曲線下面積)。AUC是ROC曲線與橫坐標之間所形成區域的面積,由縱坐標的特異性和橫坐標的敏感性構成。在圖2中,紅色曲線為ROC曲線,是以真陽性率(判定為正例,也是真正例的概率)為縱坐標,假陽性率(判定為正例,但卻不是真正例的概率)為橫坐標繪制的曲線,而曲線與橫坐標軸圍成的圖形面積(AUC),對于判斷模型本身預測能力和準確程度有著良好的應用成果,AUC通常為0.5~1.0。AUC為0.5~0.6,模型預測失敗,模型本身不具備預測能力;AUC為0.6~0.7,模型本身的預測能力很差,這種情況下的預測結果通常不予采納;AUC為0.7~0.8,預測能力一般;AUC為0.8~0.9,表示模型具備很好的預測能力;AUC為0.9~1.0是預測精度最高。

圖2 ROC曲線

2.3 模型構建

2.3.1 MaxEnt模型構建

MaxEnt生態位模型是通過收集物種的已知地理分布信息和相關環境因子,對物種的潛在適生分布區域及影響因子進行模擬分析的空間分布模型。利用MaxEnt模擬物種分布時,首先需要輸入物種在地理空間真實的點位分布數據,一般用經緯度來表示;其次需要輸入相關的環境數據,環境數據要求分辨率和分布范圍相同,否則模型會無法輸出預測結果。MaxEnt模型預測物種分布的基礎是合理的測試結果,此部分測試結果是從輸入數據中隨機抽選得到,一般來說,模型會默認從數據中選擇70%的數據集作為訓練數據,30%的數據集作為測試數據。此部分測試數據用于構建模型,模型是否合理,是否精度達標,直接影響著模擬的結果。如果測試數據集的結果精度較好,結果合理,則可以將環境數據代入模型中,進行物種潛在分布模擬。

2.3.2 隨機森林建模過程

隨機森林模型是典型的弱分類器組成為強分類器的例子,“森林”中每個個體都是一棵“決策樹”,每個決策樹單獨運作,但是最后的結果由整個“森林”決定。對于已知的N個分布數據和M個環境因子,N個分布數據中包含了實際分布的紅松點位數據和模擬的非紅松分布的點位數據,在建立模型時,首先需要從N個分布數據進行有放回地隨機抽取組成樣本集,得到n棵決策樹,在每棵決策樹進行節點分裂時,隨機抽取m(m≤M)個環境因子來與決策樹進行組合匹配,從而得到最為合理的分解組合;其次在每棵決策樹進行生長分裂時,外界不得進行干預和修剪,讓其完全自由“生長”,以確保建模結果的隨機性與合理性;最后,n棵決策樹組成的隨機森林的分類結果的眾數即為最后的結果。但是,在這一系列操作中,難免會有一些數據被遺漏,而這些經過了n次隨機抽樣依舊沒有被抽中的數據,我們將其稱為袋外數據(OOB),這些袋外數據組成測試數據,用來對樣本精度進行測試。建立隨機森林模型的關鍵參數是n和m,為了最大程度上得到合理的值,在本研究中,采用K折交叉檢驗法。具體來說,對原始數據進行隨機組合子集,數目是K個,這些子集互不相交,每一次過程中,一個子集作為目的子集,用于模型檢驗,其他子集是訓練樣本集,這樣進行K次運算。結合前人的研究成果,將K設置為10。經過10次運算,結果顯示,n=500,m=4,即生長的樹的數目是500,在每一個分裂節點處樣本預測器的數目為4最合理。

3 結果與分析

3.1 模型精度

根據模型預測能力和精度判斷指標(AUC)可知,MaxEnt模型,訓練數據為0.927,檢測數據AUC為0.865,均超過0.8,表明預測結果很準確,模型具備很好的預測能力。隨機森林模型的AUC為0.902,預測精度在最高區間,表明預測結果十分精確。從模型精度來看,MaxEnt模型和隨機森林模型的精度基本都在0.9左右,可以滿足模型使用的精度要求,MaxEnt模型的精度略低于隨機森林模型,但是差距較小。

3.2 重要環境因子排序

由圖3可知,MaxEnt模型的輸出結果顯示,各因子的重要性排序有明顯差距,年平均降水、降水量變異系數、溫度季節變化標準差等對于紅松的分布影響程度最大,其次是最濕季度降水量、最暖季度降水量、氣溫年變化范圍,其他的環境因子影響程度相對較小。3類環境要素對紅松分布的影響重要性順序為氣候要素大于地形要素大于土壤要素。

隨機森林模型的輸出結果顯示,各因子的重要性排序雖然也有明顯差距,然而排名靠前的幾個因素差距較小,以上層土壤黏土質量分數、下層土壤黏土質量分數、上層土壤有機碳質量分數、下層壤土質量分數、下層土壤有機碳質量分數和上層壤土質量分數等土壤數據,以及最冷月最低溫、最冷季度平均溫、年平均溫度、溫度季節變化標準差、氣溫年變化范圍和年平均降水等氣候數據,對于紅松的分布影響程度最大,并且影響能力相當。3類環境要素對紅松分布的影響重要性順序為土壤要素大于氣候要素大于地形要素。

圖3 不同模型輸出的環境變量對物種分布的影響程度排序

由圖4可知,在MaxEnt模型中,最重要的因子為年平均降水,年降水在400~900 mm,對于紅松分布的影響是呈正相關的關系,即降水越多,分布概率越大;降水量變異系數大約為98時,出現明顯拐點,小于拐點值時,函數趨勢略有增加,大于拐點值,則出現明顯的下降。溫度季節變化標準差為1 450時,出現明顯拐點,小于拐點值時,函數呈增加趨勢,但是趨勢較緩,大于拐點值,則出現明顯的下降,并且下降速度較快;最濕季度降水量小于650 mm時,函數曲線基本沒有變化,之后迅速增加至最大值,隨后保持不變。最暖季度降水量和氣溫年變化范圍的函數圖像十分相似,最暖季度降水量在270~650 mm、氣溫年變化范圍在35~65 ℃時,函數值持續增加,最后達到最大值后保持不變。

圖4 MaxEnt模型輸出的主要環境因子與紅松分布的關系

由圖5可知,在隨機森林模型中,排名靠前的土壤屬性為土壤黏土質量分數、土壤有機碳質量分數和土壤壤土質量分數,由于上層土壤和下層土壤的函數圖像基本一致,所以只輸出上層土壤的結果。選取年平均氣溫、年平均降水和最冷月最低溫對氣象數據進行詳細描述。上層土壤黏土質量分數小于5%、土壤有機碳質量分數大于21%、土壤壤土質量分數小于15%,有利于紅松的分布,否則,不利于紅松的生長。對于氣候因子,年平均氣溫在0 ℃以下時,年平均降水在600 mm以下,以及最冷月最低溫在-28 ℃以下時,有利于紅松的生長,否則,不利于紅松的生長。

3.3 紅松潛在分布模擬

由圖6可知,紅松最合適的分布區域為遼寧省東北部和吉林省東南部的交界區域,在黑龍江的南部也有一片相對較大適生區域,最小的一片適生區域分布在黑龍江省的中北部地區;整體上來看,MaxEnt模型所模擬的區域主要分布在東北地區的東部,西部地區基本沒有特別適合紅松生長的區域。隨機森林模型模擬結果可以看出,紅松的適生范圍主要分布在遼寧中北部和西南部分地區、吉林中東部,以及黑龍江省的中東部;隨機森林模擬的紅松潛在分布區域面積較大基本包含了MaxEnt模型模擬的潛在分布范圍。從整體上看,兩個模型對于紅松的模擬結果有著很大的重合度,主要集中于東北地區的中東部,說明東北地區的中東部最適合紅松的生長。

圖5 隨機森林模型輸出的主要環境因子與紅松分布的關系

圖6 紅松潛在分布模擬結果

圖7 東北地區年平均降水和年平均氣溫分布

圖8 東北地區氣候和土壤分布圖

4 結論與討論

本文利用MaxEnt和隨機森林兩種模型,結合東北三省氣候、土壤、地形數據和紅松分布樣點,分析了兩種模型在模擬紅松潛在分布時的共性與區別。結果表明兩個模型精度接近,模型模擬的紅松潛在分布結果有著很大的重合度,主要集中于東北地區的中東部,說明東北地區的東部最適合紅松的生長,但兩個模型的輸出的因子重要性排序結果卻有顯著差異。

MaxEnt模型認為重要性因子排序順序為氣候、地形和土壤,而且氣候中,年平均降水的重要性最大。由圖7可知,東北地區的降水空間差異較大,整體呈現由西向東、由北向南的遞增趨勢。溫度條件在該地區不是限制紅松分布的主要因子,降水的作用顯得更重要。所以紅松主要分布在東北地區的東部,這片區域溫度普遍都可以滿足紅松的生長要求,然而和西部地區相比,該地區具有充沛的降水量,水分條件成為主要限制因子。

隨機森林模型認為重要性因子排序順序為土壤、氣候和地形,但是因子的重要性程度相差無幾。由圖8可知,東北地區的土壤空間格局有很明顯的空間差異,西部平原區在各種土壤理化指標上都和其他地區有所差異,這種差異很可能導致了紅松的分布范圍偏向于中東部地區。而最冷月、最低溫、年平均氣溫和年平均降水等氣候數據顯示,氣候要素在東北地區的空間分布上也有一定差異,并且差異也非常明顯,所以氣候要素也成為限制紅松分布的重要因子。

MaxEnt模型和隨機森林模型預測物種潛在分布都有著良好的表現,無論是預測范圍還是精度要求都很合理。MaxEnt模型的輸入信息是物種的分布數據和環境數據,其中分布數據只包括實際分布的數據;而隨機森林中,輸入數據同樣是分布數據和環境數據,但是分布數據中不僅包括實際分布的數據,也包括非分布的數據,非分布數據的選取會對結果產生很大的影響,如果非分布數據的選擇十分合理,也確實選取的區域沒有紅松的生長分布,則會增加模型的精度,結果會更加準確,如果選取的數據有所偏差,則會適得其反。在本研究當中,非分布數據多采樣于遠離分布數據的其他區域,對于這些非分布數據,如果其所帶有的環境數據與分布數據差異較大,則可能成為限制因子,例如隨機森林中的土壤數據,解釋了為什么最終分布模擬結果大致類似,而環境要素重要性排序卻有顯著差異。在研究中,結合數據情況,兩種模型的因子重要性分析結果都有一定道理,而那種結果更符合實際情況則是我們接下來需要研究的內容。同時,不同類型的訓練樣本對于輸出結果會產生影響。因此,在構建物種分布模型時,需要考慮輸入樣本的合理性,分析樣本對預測物種分布可能造成的影響。

猜你喜歡
紅松物種精度
基于不同快速星歷的GAMIT解算精度分析
繞口令
熱連軋機組粗軋機精度控制
沒有紅松的紅松林
關于紅松育苗造林技術的探討
回首2018,這些新物種值得關注
電咖再造新物種
世界上的15個最不可思議的新物種
以工匠精神凸顯“中國精度”
瘋狂的外來入侵物種
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合