?

融合學習模型的巖石光譜特征自動分類

2021-01-06 03:03賀金鑫任小玉陳圣波肖志強
光譜學與光譜分析 2021年1期
關鍵詞:決策樹反射率巖石

賀金鑫,任小玉,陳圣波,熊 玥,肖志強,周 孩

1. 吉林大學地球科學學院,吉林 長春 130061 2. 吉林大學地球探測科學與技術學院,吉林 長春 130061

引 言

在遙感地質領域,巖石光譜一直是熱門研究方向之一,主要包括成像光譜巖礦識別、巖石光譜特征分析、影響巖石光譜的因素以及巖石光譜分類。在巖石光譜分類方面,吳輝等基于AVIRIS航空高光譜遙感數據,首先將預處理后的數據進行最小噪聲分離,然后用PPI算法選擇研究對象,最后用線性光譜混合分類模型進行巖性分類研究[1]; 張翠芬等人將巖石單元的圖形紋理特征及光譜特征進行協同分類研究,用面對對象方法進行圖譜指數分割,然后用光譜指數提取巖石信息,劃分精度較好[2]; 徐清俊等人使用ASD光譜儀測量鉆孔巖心數據,利用ViewSpecpro軟件進行格式轉換,輸入到ENVI軟件建成光譜庫,與美國USGS光譜庫中典型礦物光譜曲線進行對比分析,進而識別巖性得出結論[3]; 周江將ASD光譜儀的光譜曲線與遙感影像通過ENVI軟件相結合對巖石等地物進行分類,與用神經網絡進行監督分類的結果相對比[4]??傊?,該領域目前的主要問題在于要么是將數據進行一系列復雜預處理后利用傳統模型進行分類; 要么因為巖石光譜的特殊性,沒有統一的光譜曲線標準,使得分類結果不夠準確。因此,本文擬在不對巖石光譜數據進行復雜預處理的前提下,構建一種基于融合多種機器學習模型的巖石光譜特征自動分類方法; 并與單一分類模型相對比,最終取得更高的分類準確率。

1 巖石光譜數據

1.1 研究區概況

研究區位于遼寧省興城市,區域地貌屬遼西山地黑山丘陵東部邊緣的海濱丘陵,海拔在20~500 m之間,相對高差200~350 m,地勢總體呈西北高而東南低,區內河流發育,有六股河、煙臺河等匯入遼東灣; 氣候屬于北半球暖溫帶亞濕潤氣候,氣候溫和,干濕相宜[5]。

興城地區出露的地層為典型的華北型,地層從太古宙到中—新元古界、古生界、中生界和新生界都有分布,發育較為齊全,主要巖石類型有花崗巖、砂巖、頁巖、白云巖、灰巖、安山巖、玄武巖等[5](如圖1所示)。

圖1 研究區巖性分布圖 1: 第四系: 礫石、黃土、粉質粘土; 2: 閃長巖; 3: 灰巖; 4: 花崗巖; 5: 砂巖; 6: 安山巖; 7: 玄武巖Fig.1 Distribution of rocks in the study area

1.2 巖石光譜測量

用于測量巖石光譜的儀器為美國FieldSpec-3型便攜式實測光譜儀,所測波長從350 nm的可見光范圍分布到2 500 nm的短波紅外范圍??梢姽獾墓庾V測量間隔為1.4 nm,分辨率約為3 nm; 短波紅外的間隔為2 nm,分辨率為6.5~8.5 nm[6]。

目前取得已命名巖石光譜類型有二長花崗巖、花崗斑巖、石英砂巖、中粒巖屑長石砂巖、白云質灰巖、鮞狀灰巖、燧石條帶白云巖等。將測量得到的光譜數據進行整合,最終得到灰巖類379條數據、花崗巖類147條數據、砂巖類82條數據,其余類別由于數據量過少,暫不予以分類研究(如圖2所示)。

1.3 巖石光譜特征

巖石光譜形狀與其成分、含量等等因素都密切相關。而同種巖石光譜形態基本相似; 實驗所得數據中,花崗巖和砂巖在1 400 nm左右處都存在水汽吸收帶(如圖3、圖5所示),在1 900 nm處,三類巖石光譜都存在較強吸收谷(如圖3—圖5所示); 花崗巖總體反射率在0~0.5之間,灰巖總體反射率在0~0.7之間,砂巖總體反射率在0~0.6之間(如圖3—圖5所示); 砂巖在900 nm處存在鐵離子吸收譜帶,灰巖在2 300 nm處產生碳酸根離子的特征吸收,石英砂巖、白云巖等幾類巖石在2 200 nm左右處有一個吸收谷,是由于羥基吸收所引起的[5]。

圖2 總樣品數據集的巖石光譜反射率Fig.2 Reflectance spectra of the whole samples

圖3 花崗巖光譜反射率Fig.3 Reflectance spectra of granite

圖4 灰巖光譜反射率Fig.4 Reflectance spectra of limestone

圖5 砂巖光譜反射率Fig.5 Reflectance spectra of sandstone

2 巖石光譜特征自動分類

2.1 決策樹模型

決策樹(decision tree,DT)是一個自上而下構建的樹形模型,包括根節點,父節點和子節點,一個分支就代表一個測試輸出。采用了決策樹模型中的CART算法,相比傳統數學統計方法分類更準確,且數據量越大越容易顯現其優越性。CART算法計算基尼系數來評判數據劃分前后的分類效果,基尼系數越小證明數據純度越高; 所以選擇能使分類后得到的基尼系數最小的特征,將其作為樹中節點[7]。用CART決策樹對三類巖石光譜數據的訓練集建模,然后用測試集檢驗分類效果。將樹的深度設置為10; 節點不純度小于0.02,即不再生成子節點,節點再劃分所需最小樣本數設為2。

2.2 隨機森林模型

為提高分類準確率,又選取了決策樹的升級模型——隨機森林(random forest,RF),它是基于bagging策略的集成學習,通過多棵樹對數據樣本分類。包含兩個隨機過程: 一是輸入數據隨機; 二是分類特征隨機選取。這樣就得到了多顆CART決策樹弱分類器,再將多個分類器采取投票法的策略,投出票數最多的作為最終結果[8]。RF的參數也分為兩部分: 一是隨機森林的Bagging框架參數,其中CART決策樹的最大迭代次數設置為1 000,劃分CART決策樹特征的評價標準選用基尼系數; 二是決策樹參數,深度25,劃分最大特征數為45,節點再劃分所需最小樣本數設為2。

2.3 K-最近鄰模型

隨機森林模型在數據噪音較大時易陷入過擬合,且數據特征過多時也會對模型準確率造成較大影響。而K-最近鄰模型(K-nearest neighbor,KNN)依據不同特征值間的距離進行分類,不存在訓練過程,只是將最近的劃分為一類。先將數據標準化; 然后算出輸入的數據與測試集的數據的距離,實驗采取的計算距離方法為閔可夫斯基距離; 找出距離最近的k個,這里k設置為1; 將出現最多的類別作為輸入數據的類別[9]。但KNN需要對每個樣本都予以考慮,當數據量大時計算量會很大,效率不高。

2.4 支持向量機模型

支持向量機模型(support vector machine,SVM)是通過在數據間找到距離最大處來工作的,而數據是否線性可分決定著是用硬間隔最大化還是軟間隔最大化[10]。由于巖石光譜數據非線性可分,因而將數據映射到新空間,使之線性可分。核函數選高斯核函數; 懲罰系數設為10; gamma值設定為1。

2.5 多種模型相融合

為進一步提高巖石光譜特征自動分類的準確率,采取了融合多個不同模型的辦法,即對不同模型的分類結果進行投票,選擇投票最多的作為最后分類結果。在此基礎上又分為硬投票和軟投票,硬投票是直接對模型投票而軟投票加入了權重,可以區分不同模型的重要度,但二者的基本原則都是少數服從多數。由于硬投票可在一定程度上減少過擬合現象的發生,更加適合分類模型,所以選用了硬投票方法。

3 結果與討論

將巖石光譜數據特征分別導入DT,RF,KNN,SVM以及融合模型(全部基于Python語言編程實現)之中,分類結果如表1所示??梢钥闯鲈谒姆N單一分類模型中: 效果最好的是支持向量機,分類準確率為98.76%; 其次是K-最近鄰,準確率為97.10%; 然后是隨機森林,準確率為93.80%; 最后是決策樹模型,準確率為88.84%。而將RF,KNN和SVM三種模型融合后得到的巖石光譜分類準確率可達到99.17%。

表1 不同模型的巖石光譜特征自動分類準確率Table 1 Classification accuracy of rock spectrabased on different models

4 結 論

在遼寧興城地區實測的不同巖石反射光譜數據特征基礎之上,分別利用DT,RF,KNN,SVM以及融合模型,進行了巖石光譜特征自動分類研究。從測試結果可以看出: 第一,如果不考慮影響巖石光譜特征的各種因素,直接從光譜數據特征本身入手,可以發現機器學習模型的分類能力相對于傳統的巖石光譜分類方式,效率更高、分類準確率更好; 第二,四種單一機器學習模型的分類準確率高低排序為: SVM>KNN>RF>DT; 第三,采用了多種模型融合學習的方法,進一步提高了巖石光譜特征自動分類的準確率,可達99.17%。在后續研究工作中,將繼續優化現有模型,使之不僅能劃分巖石大類,還能準確地對細類巖性進行劃分。

猜你喜歡
決策樹反射率巖石
影響Mini LED板油墨層反射率的因素
近岸水體異源遙感反射率產品的融合方法研究
具有顏色恒常性的光譜反射率重建
第五章 巖石小專家
3深源巖石
一種叫做煤炭的巖石
一種針對不均衡數據集的SVM決策樹算法
海藻與巖石之間
決策樹和隨機森林方法在管理決策中的應用
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合