?

基于巖石初分類體系的高光譜巖石分類研究

2024-03-07 01:51胡程浩吳文淵許林霞傅顯浩郎夏祎何博聞錢俊鋒
光譜學與光譜分析 2024年3期
關鍵詞:巖石光譜精度

胡程浩, 吳文淵, 2*, 苗 瑩, 許林霞, 傅顯浩, 郎夏祎, 何博聞, 錢俊鋒

1. 杭州師范大學信息科學與技術學院, 浙江 杭州 311100

2. 浙江省城市濕地與區域變化研究重點實驗室, 浙江 杭州 311100

3. 中國煤炭地質總局浙江煤炭地質局, 浙江 杭州 310017

4. 浙江省地質礦產研究所, 浙江 杭州 310000

引 言

高光譜遙感經過幾十年的發展, 技術手段逐漸成熟, 在巖石和礦物的識別和分類方面的應用吸引了眾多學者的關注和研究。 高光譜技術因為能提供更為豐富的地物信息, 具有突出優異的探測能力, 因此在巖石礦物識別和分類領域具有廣闊的應用前景。 例如利用實驗室和航空高光譜遙感技術確定金礦化的位置[1-2], 礦物填圖和區域地質調查[3-5], 對采礦區環境進行保護, 為礦區環境評價和污染治理提供依據[6]; 農業估算土壤物質環境監測[7]等領域也有應用。 表明高光譜遙感巖石礦物的識別分類在經濟和生態方面具有很強的實踐意義和應用價值。

自高光譜遙感技術誕生以來, 航空飛機平臺高光譜傳感器成為主要的數據獲取來源, 但是基以這種數據開展高光譜巖石礦物的識別分類存在一些困難, 例如研究區范圍內可能存在巖石單元混雜的情況, 巖石單元的混雜會給巖性填土時產生障礙[8]; 空間分辨率的局限會產生混合像元[9]; 野外大范圍中存在植被覆蓋和山體陰影, 蝕變作用、 生物作用以及人文活動的影響同樣也會加大研究的難度以及數據的精準度[10]。 其次對高光譜數據的處理, 涉及到遙感器定標、 大氣校正等一系列復雜處理過程, 同樣也增加了研究過程的復雜度[11]。

基于以上現狀, 更為理想的方法是依托實驗室平臺作為觀測環境來探尋多種巖性光譜特征。 高光譜分辨率的光譜儀在實驗室作為一種分析工具, 在前人研究中已被證實對礦物識別和光譜區分具有更好的效果[12-13]。 隨后先進的傳感器平臺等的研發, 有利于多種關于巖石礦物等的光譜庫的建立, 例如目前已有的巖礦HS光譜數據庫[14], 熱發射造巖礦物光譜庫[15], 美國地質調查局發布的USGS光譜庫[16], 以及包含0.4~15.4 nm的2 300種材料的光譜ASTER光譜庫2.0版[17]。 近幾年我國光譜與光譜庫的研究中, 已收集有全國522個巖礦標本的光譜庫, 還有學者建立了巖礦應用典型模型[18]。 光譜采集使用的儀器最早多是探測式光譜儀, 例如ASD光譜儀在對巖礦進行掃描時得到的是巖石表面單點的數據, 得到單一的曲線; 不過巖礦表面并非均質, 這種方法不利于更好地能代表巖礦進行識別和分類。 如今HySpex等新型成像光譜儀的研發, 有利于結合影像上多方位的光譜信息, 能夠更好地提升巖礦識別的精確度和分類效果。 但是, 很多巖石因為礦物成分相近導致光譜容易混淆, 分類精度不高, 有待對巖石光譜特性進行進一步研究, 對光譜相近的巖石進行重新歸類。

現有的高光譜影像處理方法, 在對高光譜影像預處理上, 例如主成分分析, 最小噪聲分離等降維技術[19]; 高光譜影像的分類方法, 例如最大似然法, 光譜角匹配, 神經網絡等[20-22], 這些方法應用于高光譜遙感巖礦識別與分類頗有成效[23-24], 同時新的機器學習分類方法涌現諸多研究成果。 柯元楚[25]等運用隨機森林方法和EO-1 Hyperion高光譜數據進行區域的巖性分類, 取得較好的效果。 陽昌霞[26]等在無人機高光譜遙感為農作物精細分類中發現最小噪聲分離(minimum noise fraction, MNF)降維變換后分類效率及影像分類精度均有提高, 同類影像隨機森林分類結果精度比支持向量機更高。 Hossein[27]將主成分分析與隨機森林算法結合組成完全組件選擇(fully component selection, FCS)與單純的隨機森林(random forest, RF)模型相比, 發現FCS方法大大提高了模型的性能。 竇世卿[28]等發現多特征融合降維后的高光譜數據使用隨機森林分類效果比主成分分析的效果更佳。 鑒于此, 本工作使用MNF的降維方法結合隨機森林算法, 對比MNF降維前后的高光譜分類精度效果。

在實驗室暗室雙光束標準燈光源條件下, 使用推掃式軌道結合HySpex高光譜傳感器成像儀對81種常見的巖漿巖和變質巖樣本進行掃描成像, 獲取到不同巖石樣本在短波紅外波段的光譜。 獲取影像之后需要對高光譜影像進行處理分析, 從影像的光譜曲線中對巖石進行相似度匹配和初步分類。 分類前對高光譜數據進行降維和特征提取, 應用最大似然法和隨機森林算法進行分類, 最后對分類的結果進行精度評價, 對比應用初分類前后以及兩種不同分類器模型的巖石分類精度差異, 得到效果最優的分類方法。

1 數 據

使用的數據來自于HySpex高光譜成像儀實驗室系統。 該實驗室系統在暗室環境下, 安裝HySpex傳感器以及用戶友好的桌面實驗室設置, 包括平移推掃式工作臺和VNIR-SWIR光源(圖1)。 HySpex SWIR-384高光譜相機是為野外、 實驗室和機載應用開發的最新并且先進的高光譜遙感相機。 其視場角為16°, 橫縱視場角0.73毫弧度, 數據化16位, 空間像素數384, 自動對焦, 光譜范圍涵蓋950~2 500 nm, 范圍內具有288個光譜段, 光譜分辨率為5.45 nm。

圖1 實驗的場景圖

所使用的巖石樣本如圖2所示, 標記序號為1—81, 總共81塊巖漿巖與變質巖樣本均為新鮮采集的樣本, 掃描影像中呈現的巖石表面均為新鮮剖面。

圖2 巖石樣本照片以及序號標注

各種巖石樣本序號對應的名稱信息如表1所示。

表1 巖石樣本序號

通過HySpex SWIR-384高光譜相機的推掃成像, 獲取了巖石樣本的影像和光譜數據(圖3), 還進行了巖石切面薄片的礦物成分分析, 用于參考樣本中礦物的比例和成分, 有助于后續的巖石所含礦物光譜分析以及初步分類。

圖3 HySpex假彩色合成圖像

2 實驗部分

研究的技術流程(圖4)包括利用HySpex高光譜相機掃描巖石樣本, 從而獲取HySpex高光譜影像數據; 對影像高光譜影像進行校正等預處理, 得到相應的巖石HySpex高光譜影像反射率影像; 在巖石反射率影像中, 通過光譜信息對巖石光譜曲線特征分析, 建立相應的巖石初分類體系并進行特征選擇與歸類, 對影像進行MNF降維使得相應的波段減少和維度降低, 便于后期的分類。 基于光譜特征分析的巖石初分類體系, 選擇相應巖石初分類類別并利用最大似然法和隨機森林分類模型等分類器算法進行巖性分類識別, 最后應用混淆矩陣等對分類結果進行精度評價。

圖4 研究技術路線

2.1 影像預處理

光譜影像的預處理過程包括影像輻射校正和白板反射率校正等。 白板反射率校正計算如式(1)

(1)

式(1)中,LTarget為目標觀測值,LWR為標準參考板測量值,ρWR為參考板校正因子。

通過輻射校正和白板反射率校正等預處理, 得到了巖石的HySpex高光譜影像的反射率影像。 在巖石反射率影像中, 可以獲取到每一塊巖石每一個點位上的巖石反射率光譜信息, 相比于ASD獲取到的光譜信息更加豐富, 同時也借助ASD掃描得到的光譜和HySpex一起作為分類的參考, 提高巖石的光譜信息的準確性, 以便于后續的初分類和特征波段的提取。 從巖石表面提取平均數量的樣本(ROI)計算影像校正后的每塊巖石的光譜曲線。

2.2 MNF降維

“最小噪聲分離”(MNF)變換是由Boardman和Kruse提出的一種與主成分相關的線性變換方法。 MNF變換可用于將數據空間分成兩部分: 一部分與大特征值和相干特征圖像相關聯, 另一部分與接近單位特征值和噪聲主導圖像相關聯[29]。 最小噪聲分離法便于確定數據的固有維度, 分離其中的噪聲, 并降低后續處理的計算工作量, 被廣泛應用于高光譜影像的預處理中, 例如處理高光譜航空航天等傳感器獲取到的數據都比較出色[30-31]。

運用ENVI軟件中MNF變換工具, 對預處理后的影像進行降維處理。 根據特征曲線以及影像噪聲, 選取的最佳分量數量為30。 影像降維處理后能使得波段減少, 更好用于后期的分類識別。

2.3 巖石初分類體系

預處理后的高光譜影像數據, 對81種巖石樣本分別進行光譜采集和求平均處理, 再結合ASD光譜數據進行巖石光譜分析。 巖石是礦物的集合體, 巖石的光譜也是和所含礦物成分的光譜相關。 很多種類不同的巖石因為礦物成分的相近, 導致光譜特征也非常相近, 例如一些變質巖是沉積巖變質而成, 另一些是由巖漿巖變質而成, 成分中與原巖會有較大的相似性, 也是光譜具有相似性無法區分的原因, 也是巖石分類的難點之一。 初分類過程中, 基于巖石中礦物成分含量及不同光譜曲線特征, 依據巖石光譜整體的相似度和局部的吸收反射等特征波段的分析, 將81種常見的巖石重新建立了光譜對應的初分類體系如表2所示。

表2 初分類體系

體系中主要將81種巖石分成9個大組類別, 即Ⅰ類(編號為R1—R9), R1—R9的大組類別下再根據光譜特征細分為28個小類別, Ⅱ類(編號為r1—r28)。 幾個大組類別中表現出ASD的光譜趨勢特征大體一致, 以及巖石成分和顏色表現近似, 同一大組下的小組之間主要表現出在HySpex光譜趨勢特征中的細微差異(圖5)。

圖5 初分類體系R1—R9巖石光譜(為了清晰起見, 光譜作了適當偏移)虛線表示為不同的小類, 橫坐標為波長./μm, 縱坐標為反射率, 為了顯示清晰運用了光譜偏移

工作中建立了光譜分析后的初分類體系, 用于后期分類訓練樣本的選擇。 但是在初分類過程中會出現成分顯示相近但是光譜特征不一致的情況。 例如R9大類中(9)玄武巖、 (10)氣孔狀玄武巖和(11)杏仁狀玄武巖, 同屬于玄武巖類但是實際樣本光譜有明顯差異, (9)玄武巖和(10)氣孔狀玄武巖的光譜特征較為相近, 但(11)杏仁狀玄武巖樣本由于受到其他充填物的影響因此光譜差異和前兩者較大, 因此呈現的光譜特征有所差異; 在實地考察中更應該關注這一類巖石的物質成分以及光譜特征。

2.4 分類器算法模型

最大似然法又稱作貝葉斯分類, 是以最大似然貝葉斯判決準則法作為判斷標準, 依據統計方法的分類方法。 最大似然法分類是目前遙感影像分類方法中常用的經典分類方法, 已有研究表明最大似然法在巖礦的高光譜遙感分類中效果表現出色[32]。

隨機森林(random forest, RF)是一種基于多棵決策樹的機器學習中集成學習算法。 其運算過程首先是從原始訓練樣本中利用自助法(bootstrap)重采樣技術得到新的訓練樣本集合訓練決策樹, 按以上步驟生成多棵決策樹, 這多棵決策樹模型就組成了隨機森林分類器, 再使用多顆決策樹對測試樣本集進行分類, 最終將分類樹結果進行匯總, 個別樹輸出的類別的眾數決定其輸出的類別(圖6)。 隨機森林算法在土壤以及土地利用信息的高光譜數據分類中表現出明顯的優勢[33-34]。 本研究利用Random Forest工具包進行預測分類,經過實驗, 分類前設置需要生成樹的數量參數為100, 節點分割的最小樣本設置為1, 最小混雜度設置為0。

圖6 隨機森林分類示意圖

以光譜分析后的初分類體系選取ROI巖石樣本類別, 使用最大似然法和隨機森林分類模型, 分別對原始的高光譜影像和MNF變換后的高光譜影像進行巖石分類。

2.5 分類精度評價

為了能夠對巖石填圖結果進行定量評價, 使用的精度評價方法為計算混淆矩陣(CM)和Kappa系數。

混淆矩陣(confushion martrix, CM): 又稱為分類誤差矩陣。 如果樣本的類別數為T, 那么混淆矩陣就是一個T×T的矩陣。 被正確分類的情況由主對角線上的元素個數決定, 其個數越多, 則最終分類效果越好。

Kappa(K)系數: Kappa系數表示了結果內部的一致性, 其中既包含了被正確分類的像素, 也包含了混淆矩陣主對角線上各種漏分和錯分錯誤, 更全面的反映了分類器的性能。 Kappa系數的公式為

(2)

3 結果與討論

以光譜分析后初分類體系為基礎, 每小類間取不同的類型ROI樣本, 在每塊巖石表面一方位置取數量均勻樣本, 另一方位置取驗證ROI樣本, 對比原始的分類方法和使用初分類模型以及最大似然法與隨機森林算法巖性分類的效果。

分類效果的評價方法采用計算混淆矩陣和Kappa系數得出每一種分類的精度(表3)。

表3 不同分類模型與分類算法的分類精度(%)/Kappa系數

從分類結果來看(圖7, 表3), 降維后的特征數據, 基于初分類體系的分類結果都要優于未進行初分類的分類結果。 其中最大似然法進行初分類后提高了2個百分點, 隨機森林法進行初分類后提高了6個百分點。 說明基于初分類體系的巖石分類能夠提高巖石分類的準確度, 巖石樣本間存在光譜特征相近并且可以歸并分類的巖石類別。 從分類算法上看, 最大似然法在初分類前后的精度分別為83.21%和85.46%, 而使用隨機森林分類效果達到83.63%和89.39%, 說明在分類類別較多和高維數據的情況下, 隨機森林能處理維度較高的數據, 具有決定類別的評估變數誤差的優勢, 總體優于最大似然算法。 隨機森林算法使用未降維的原始數據進行分類, 在初分類前后的精度分別為68.40%和78.88%, 與經過MNF的分類相比精度較低, 因此使用MNF能夠提升隨機森林分類器的精度與性能。

圖7 不同分類方法對應的分類結果影像

在基于初分類結果中(圖8), r4、 r3、 r6、 r9、 r12、 r15、 r18整體的生產者精度和用戶精度都很高, 即分類的效果最好, 分類精度達到95%以上甚至接近100%。 r5的分類精度較低為38%, 其次r22、 r24、 r25、 r27和r28的分類效果一般, 分類精度在60%~80%左右之間, 其余的小類分類精度都在80%以上。 說明初分類體系中r3、 r4、 r6、 r9、 r12、 r15、 r18有較高的類別內的相似性, 使用隨機森林分類算法能夠很好地將特征相似巖石進行歸類, 明顯減少了巖石分類中同一塊巖石分類結果容易混淆的現象。

圖8 基于初分類體系MNF降維后的特征數據隨機森林分類算法分類精度圖

3 結 論

高光譜巖性分類方法研究是高光譜研究領域中的一個重要方向。 本研究基于巖石的光譜特征角度, 利用HySpex高光譜成像儀實驗室系統, 對81塊常見的巖漿巖與變質巖巖石樣本進行了光譜提取和巖石分類試驗研究。

基于光譜特征初分類的MNF特征提取結果進行隨機森林算法分類, 與傳統的最大似然法模型分類進行對比, 通過分類精度評價得到未進行初分類的最大似然法、 初分類的最大似然法、 初分類的隨機森林算法的分類精度分別為83.21%、 85.46%和89.39%。 證明基于光譜特征的初分類結合隨機森林算法能夠很好的提升高光譜巖性分類的分類精度。

巖性混淆是巖石分類過程中較普遍存在的問題。 嘗試先對實驗室巖石樣本進行小類歸類, 其好處一是提高了整體巖石分類的精度; 二是可以挖掘巖石之間光譜的相似性, 找到其中光譜特征容易混淆的巖石, 為今后的巖性光譜分類提供參考。

實驗室環境下進行多種巖性光譜研究相比于室外的光譜研究具有更理想化的條件, 在實際野外高光譜影像大面積區域的巖性信息提取應用中, 還需要考慮更多的實際影響因素。 雖然隨機森林算法取得了較好的效果, 但在特征波段數量選取, 樣本選取和數量上存在一定的主觀性。 因此在分類前的信息波段選取、 樣本的選擇和樣本的數量有待討論。 巖石樣本只能代表該一類巖石中現實存在的一種巖性, 不同地區可能會出現同一類巖石具有不同的巖石成分組成和性質的情況, 未來可以采集巖性多樣化的同類巖石樣本進行研究。

猜你喜歡
巖石光譜精度
基于三維Saab變換的高光譜圖像壓縮方法
第五章 巖石小專家
3深源巖石
一種叫做煤炭的巖石
海藻與巖石之間
基于DSPIC33F微處理器的采集精度的提高
GPS/GLONASS/BDS組合PPP精度分析
星載近紅外高光譜CO2遙感進展
改進的Goldschmidt雙精度浮點除法器
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合