?

基于隨機森林的遙感影像雪冰云信息檢測方法

2022-04-02 08:06陳海洋孟令奎周
測繪地理信息 2022年2期
關鍵詞:冰凌灰度決策樹

陳海洋孟令奎周 元

1廣東省城鄉規劃設計研究院有限責任公司,廣東 廣州,510200

2武漢大學遙感信息工程學院,湖北 武漢,430079

冬、春季我國黃河寧夏、內蒙和山東河段極易形成不同程度的冰凌或雪冰災害,造成國家和人民的重大的經濟損失[1]。借助遙感影像時間和空間分辨率的優勢,快速高效地檢測黃河冰凌、雪災范圍、冰雪覆蓋范圍、雪水當量等信息對管理和預防雪冰災害具有重大意義。目前,國內外許多學者對遙感影像中雪冰的識別和監測進行了廣泛而深入的研究。任朝輝[2]依據海冰和海水灰度特征的差異性,采用決策樹算法檢測遙感影像中的海冰信息。丁海燕等[3]通過研究云雪的紋理特征,提出基于分形維數來自動識別和檢測全色影像中的云雪的方法。楊成林 等[4]以MODIS(moderate-resolution imaging spectroradiometer)為數據源通過分析雪冰光譜反射特征,借助輻射亮溫和歸一化植被指數理論,總結出基于數據挖掘的海冰信息反演方法。李成蹊等[5]將高分一號遙感影像3個時相的數據作為多個視圖,基于旋轉森林算法構建面向多時相的識別模型,設計出檢測多時相影像數據的積雪算法。Parajka等[6]針對MODIS雪冰覆蓋產品,依據云層覆蓋像素是否位于雪線區域范圍內,提出Sonw-l算法。關于影像中雪、冰、云及其中兩者的監測已經有很多,但對同時存在雪、冰、云信息的影像進行分類識別和檢測研究甚少。本文采用優化后的隨機森林(random forest,RF)算法,以海量遙感影像作為實驗數據,結合冰凌、雪、云的灰度、紋理和邊緣特征,實現高分辨率光學遙感影像雪、冰、云信息的精確快速識別檢測。

1 RF算法原理

RF算法是Breiman[7]提出的基于多棵決策樹對樣本進行訓練,并根據訓練得到的模型對待測樣本類別進行預測的一種監督學習分類算法。研究表明,RF可以快速處理高維屬性數據集和海量遙感影像,尤其是高維數據分類中,具有泛化能力強、魯棒性好、速度快、精度高等優勢[8-12]。因此,本文將其應用在遙感影像中雪、冰、云信息的分類監測中。RF算法分類流程如圖1所示。其主要步驟如下:

圖1 隨機森林分類流程圖Fig.Flow Chart of Random Forest Classification

1)采用bootstrap采樣。從原始樣本集中進行有放回的重復隨機采樣,生成n個與原始樣本大小相同的樣本子集,從每個樣本子集中計算某個特征統計量的bootstrap分布。

2)構造CART(classification and regression tree)決策樹。先從n個樣本子集的所有屬性中,隨機地挑選k個屬性特征,然后計算這k個屬性特征的Gini指數,哪個屬性特征的Gini指數最小,就將其作為節點的最佳分裂屬性,依次來構造每棵決策樹。

3)生成隨機森林。重復上述的步驟1)、步驟2)m次,即重復m次Bootstrap采樣和節點分裂,則最終構造了m棵CART決策樹,這些樹的集合即組建為隨機森林。

4)獲取分類結果。當新的待測數據進入隨機森林分類器中時,森林中每一棵CART決策樹分別進行類別判斷,判定這個樣本應該屬于哪一類,最終該新數據的類別由所有CART決策樹投票來決定,投票類別數多的則屬于此類別。

RF算法是基于多棵決策樹對樣本進行訓練,并根據訓練得到的模型,對未知待測樣本類別進行預測的一種監督學習分類算法[13]。相比單棵決策樹,RF無需進行繁瑣的剪枝,避免了過擬合的弊端,并且抗噪性能好、魯棒性強,訓練樣本選取的隨機性和節點分裂特征集合選取的隨機性,保證了RF具有很強的泛化能力。相比神經網絡和支持向量機,RF算法具有較少的訓練參數和訓練時間,具有較強的穩定性,即使部分數據丟失,也仍然可維持總體精度,且隨機森林訓練完成后,可排序特征變量的重要程度。相比于一般分類算法,RF算法放回抽樣是隨機的,每個訓練樣本是隨機的,每棵決策樹是隨機的,樹中每個節點的特征屬性集合是隨機選取的,在泛化能力、魯棒性方面更加優越,并且具有非線性處理能力。因此,本文選用RF算法作為雪、冰凌、云信息的檢測方法。

2 數據處理與分析

2.1 實驗數據介紹

隨著我國遙感技術的迅猛發展,國產高分辨率衛星數目日益增多,如高分一號、高分二號、資源一號02C星、天繪一號等,其高空間分辨率的優勢滿足實驗中提取有效紋理特征的需求,此外衛星影像的全色和 多光譜數據,保證檢測方 法的普適性[14,15]??紤]到我國冬春季黃河上游寧夏到內蒙的河套段及下游在山東段的入???,容易形成冰凌,因此實驗區選為黃河在寧夏、內蒙段和山東境內的河段,選取的影像時間為每年11月中旬至次年3月中旬包含冰凌信息的遙感影像。數據來源于水利部水利高分產品服務與分發子系統網站、天繪衛星產品查詢系統網站、中國資源衛星應用中心網站、資源三號衛星影像云服務平臺網站。實驗所用影像數據的詳細信息如表1所示。

表1 遙感影像信息Tab.1 Remote Sensing Image Information

本實驗主要使用的多光譜影像快視圖尺寸約為1 200×1 200像素,全色影像快視圖尺寸約為2 500像素,為了提高實驗效率,分別將多光譜和全色影像塊切分成16×16像素和32×32像素,如圖2所示。

圖2 多光譜和全色影像塊樣本Fig.2 Multi-spectral and Panchromatic Image Samples

2.2 雪冰云特征提取

由于雪冰云在影像中表現的多樣性及復雜性,本文選擇灰度特征、紋理特征和邊緣特征等多種特征組成多維特征矢量來全面描述雪冰云的特征,通過構建特征組合生成隨機森林分類器所需的特征矢量組合。

灰度可簡單理解為是色彩的深淺程度,也可表征亮度的深淺,實驗選取的雪冰云的灰度特征包括灰度平均值、灰度均方差、直方圖信息熵、平均梯度、一階差分。

紋理特征是一種全局特征,對噪聲具有較強抵抗能力,能刻畫出圖像區域所對應景物表面的性質特性,也具有旋轉不變的特性。本實驗主要通過灰度共生矩陣和分形維數提取影像紋理特征?;叶裙采仃嚹芊从硤D像灰度關于方向、相鄰間隔、變化幅度的綜合信息,在利用影像的紋理特征改善影像的地學目標分類效果上具有明顯優勢[14]?;叶裙采仃囍饕ㄟ^研究灰度的空間相關特性來表征紋理特性,利用灰度共生矩陣得到的特征統計量包括對比度、能量、相關性、逆差矩、熵。分形維數可描述圖像的自相似特征和粗糙度,度量圖像表面不規則度,表征圖像紋理整體與局部的相似度。計算分形維數計算方式有很多種,本文采用實用性強的盒維數得到特征統計量。

僅通過灰度特征和紋理特征檢測影像上的雪、冰、云效果會較差,雪、冰的邊緣特征較明顯,邊緣灰度梯度變化較大,而一般地物的邊緣較模糊,邊緣灰度梯度變化較緩慢,因此可利用邊緣特性提高檢測精度。Canny邊緣檢測能較精確估算出圖像邊緣的強度、梯度方向,具有定位準確、單邊響應和信噪比高等優勢[15],可選用Canny算子進行邊緣檢測。

2.3 雪冰云二次檢測

實驗檢測的是影像中的黃河冰凌和雪,由于雪和云在影像具有相似的特征,極其容易混淆,因此在檢測雪的同時也一并對云進行檢測,以提高檢測雪的精度??紤]到遙感影像中冰凌、雪、云與某些高亮地物存在“異物同譜”的現象,為了提高冰凌和雪的分類精度,將檢測影像雪、冰信息的實驗分為兩個階段。

第一階段如圖3所示,主要是進行RF模型訓練,然后再進行分類預測,其過程可大致分為以下幾個步驟:

圖3 雪冰云檢測流程圖Fig.3 Snow Ice Cloud Detection Flow Chart

1)選擇訓練影像數據集。本文選用高分一號、高分二號、資源一號02C星、天繪一號衛星影像快視圖,包括全色和多光譜影像。

2)挑選冰凌、雪、云和地物樣本。為提高分類檢測準確度,選取的樣本要盡可能包含各個類別的各種不同類型特征,且單個樣本盡量只包含單個類別,減少后續實驗提取特征的誤差。

3)裁剪樣本。將步驟2)選取的樣本裁剪成規則的正方形影像塊,用于訓練隨機森林模型,從而極大降低了計算的復雜性。

4)特征提取。采用特征提取方法提取每個影像塊的灰度、紋理和邊緣特征,得到對應的特征矩陣,通過對其所屬類別進行標記組成該樣本的特征矢量集。

5)訓練隨機森林分類模型。根據步驟4)得出的樣本特征矢量集訓練隨機森林模型分類器,得到用于區分影像中黃河冰凌、雪、云和地物的隨機森林分類模型。

6)檢測待分類影像。將待分類影像進行切分,提取每個小影像塊的特征。根據步驟5)得到的隨機森林分類模型,以影像塊為基本單元對每一幅影像進行檢測,初步得出影像上黃河冰凌、雪、云。

7)形態學操作。對步驟6)得到的結果進行膨脹操作,將孤立區域連成一片,再進行腐蝕操作,消除影像中冰凌、雪、云的“孤立”噪聲區域,得到影像中的冰凌、雪、云的分布區域。

8)邊緣分析。對合并后的各類別區域邊緣進行分析,如果兩種類別區域范圍有相交的情況,將該相交區域劃分為范圍區域較大的那一方,并根據預設的先驗知識規則,排除小于預設閾值的孤立小區域,如零星冰或只占幾個影像塊的冰區域。最終得到黃河冰凌、雪、云的初分類結果。

針對實驗過程中冰凌、雪、云和有效區域地物之間的錯檢,本文對實驗流程進行改進和優化,增加“二次檢測”流程來減少錯檢?!岸螜z測”指在第一次分類檢測結果基礎上,將錯檢的冰凌、雪、云和地物區域與第一次的樣本一起作為訓練樣本,通過影像切分、特征提取和隨機森林訓練,得到冰凌、雪、云與地物的RF分類器模型,利用這3個分類器模型對影像中冰凌、雪和云信息進行再次檢測。只有對影像塊第二次檢測結果和第一次檢測結果一致,才能判定它為冰凌、雪或云,否則均判定為地物。二次檢測實驗流程如圖4所示。

圖4 二次檢測流程圖Fig.4 Secondary Detection Flow Chart

3 實驗結果及精度分析

3.1 實驗參數

RF中決策樹的數量Ntree和節點隨機分裂特征子集候選特征數Mtry(即候選特征子集數)是影響RF模型分類性能和效率的主要因素[16]。本文設置決策樹最大數量Ntree為100,取候選特征子集數Mtry為1~8(本文實驗特征維數最大值為8),對同一訓練樣本反復進行實驗,得到模型的OOB(out-ofbag)誤差和創建隨機森林模型所需時間,實驗結果如圖5所示。設置候選特征子集數Mtry為3,從小到大改變Ntree的取值,對同一訓練樣本反復進行實驗,得到一系列RF模型的OOB誤差和創建RF模型所需時間,實驗結果如圖6所示。

由圖5(a)可知,OOB誤差隨著Mtry的增大整體呈現減小趨勢,當Mtry大于3時,OOB誤差趨于穩定,在1%以下;由圖5(b)可知,創建模型時間隨著Mtry的增大而增大,增長幅度不大。因此可以得出,分類誤差對于參數Mtry的設置并不敏感。一般情況下,Mtry為特征維數的平方根時效果較好。由圖6(a)可知,OOB誤差隨著Ntree增大呈指數型下降,當Ntree>100時,OOB誤差穩定在1%左右;由圖6(b)可知,隨著Ntree的增大,創建模型耗時也一直增大,且當Ntree>100時,構建RF模型時間增長很多,此時的RF模型也會變得龐雜難懂。因此當Ntree取值100時,RF的分類準確率和運算效率最優。

圖5 Mtry與OOB誤差和模型創建時間關系Fig.5 Relationship of Mtry and OOB Error and Model Creation Time

圖6 Ntree與OOB誤差和模型創建時間關系Fig.6 Relationship of Ntree and OOB Error and Model Creation Time

根據上述參數設置實驗,本文實驗參數為決策樹最大數量為100,決策樹最大深度為50,最大聚類數為8,節點最小樣本數為10,節點分裂特征子集候選特征數為8,OOB終止誤差率為0.01。

3.2 優化前后分類精度定性評價

使用RF算法檢測寧夏、內蒙段和山東境內河段的遙感影像冰凌、雪云(圖略),從優化前后冰凌檢測結果可以看出,全色和多光譜影像經過二次檢測后,冰凌的檢測結果更加精確,明顯減少了周圍白色高亮地物錯檢為冰凌的區域。雪云邊緣輪廓更加準確,減少了因形態學閉運算導致地物錯檢為雪云的區域。因此可以得出,二次檢測結果精度比第一次檢測結果精度有較大的提升。

將目視判讀結果與本文分類檢測方法所得的結果進行對比分析,誤差在±10%以內,則表示該景影像檢測結果合格,否則代表不合格。本文對優化前后的檢測結果先進行定性評價,得到如表2所示的各衛星一檢和二檢冰凌、雪、云分類檢測 精度。

表2 算法優化前后檢測精度對比Tab.2 Comparison of Detection Accuracy Before and After Algorithm Optimization

一般當分類檢測方法精度達到85%以上時,就可認為此方法具備工程實踐應用的價值。由表2可知,GF1和GF2影像第一次檢測的影像結果精度就達到了85%以上,說明本文基于隨機森林算法可有效地檢測出GF1和GF2影像上的冰凌、雪、云,具備實用意義;而“二次檢測”顯著提高了檢測精度,各衛星影像檢測結果精度均超過了85%,其中精度最高的GF1影像檢測精度達到93.1%。同時,二次檢測相比于第一次檢測,檢測時間增加不到20%,說明經過改進優化后的二次檢測方法檢測精度和效率均較高,可以在遙感影像災害監測、影像質檢等方面使用。

3.3 優化前后分類精度定量評價

以表2中GF1多光譜遙感影像檢測結果為例,對第一次檢測和優化后的二次檢測結果使用總體分類精度和Kappa系數進行定量的精度評價。表3為第一次分類檢測結果所得的混淆矩陣。由表3可知,優化前檢測結果總體分類精度為87.10%,Kappa系數為0.7186,檢測效果較好。但也存在較多地物錯檢為冰凌、雪、云的像元,各個類別之間的誤檢也較多,因此可在第一次隨機森林分類檢測方法基礎上進行優化改進。

表4為第二次分類檢測結果所得的混淆矩陣。由表4可知,優化后二次檢測的總體分類精度達到91.18%,Kappa系數達到了0.8以上,表明在第一次檢測結果基礎上進行改進和優化后,分類精度有了較大的提升。從表3和表4中的混淆矩陣可知,二次檢測后,各類別被正確分類的像元數均增多,地物誤檢為冰凌、雪、云的像元數減少,表明檢測的各類別區域與實際參考影像的各類別分布區域較吻合。因此可以得出結論,優化后的二次檢測方法可有效提升冰凌、雪、云的檢測精度和效率。

通過對比表3和表4可知,優化后的算法正確檢測地物的像素個數明顯提升,基本上類別錯分情況明顯下降。重點分析表4可以看出,錯分為雪的像素個數明顯高于錯分為其他地物的個數,這主要由于地勢復雜,積雪厚度不同,海拔較高的地方,積雪厚,海拔較低的地方,積雪薄,并且地面積雪交錯覆蓋,積雪呈塊狀不連續分布,與冰凌和云等分布不同,積雪分布更加多變,有些零碎分布,有些大片分布。對于小片零碎分布的較薄的雪,與地物相連較密切,容易將這類地物錯分為雪。同時,對于平坦地面,當積雪呈現大片分布,且厚度較薄時,易錯分為薄云,當積雪較厚,不管是大面積分布或是小面積分布,易錯分為厚云。由于研究區域為黃河,增加了雪冰同時存在的概率,兩者錯分為另外一方的像素個數均較多。

表3 優化前檢測結果混淆矩陣Tab.3 Pre-Optimization Detection Result Confusion Matrix

表4 優化后的結果混淆矩陣Tab.4 Optimized Detection Result Confusion Matrix

4 結束語

本文建立有效區分影像中冰凌、雪、云的特征組合,采用RF算法檢測影像中的雪冰云信息,并對分類的各區域進行形態學操作,得到初步的分類檢測結果,針對第一次分類錯檢結果,結合檢測樣本對分類檢測流程進行優化,增加對冰凌、雪、云的二次檢測。該算法實現對遙感影像中冰凌、雪、云信息的自動識別檢測,滿足自動化、高精度、高效率監測冰凌災害和雪冰災害監測要求。本文仍然存在誤檢結果,因此可以考慮結合地形及河流區域等輔助信息進一步提高檢測精度。

猜你喜歡
冰凌灰度決策樹
基于二值化灰度圖像的大豆蛋白液噴霧相對霧化程度的研究
天津港智慧工作平臺灰度發布系統和流程設計
Arduino小車巡線程序的灰度閾值優化方案
簡述一種基于C4.5的隨機決策樹集成分類算法設計
冰凌花
決策樹學習的剪枝方法
冰凌
冰凌
決策樹在施工項目管理中的應用
一種基于灰度分割的調焦評價函數
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合