?

基于近紅外光譜技術的4種樟屬植物識別技術研究

2022-02-09 02:14涂白連謝陽志伍艷芳鄭永杰劉新亮張月婷徐海寧
南方林業科學 2022年6期
關鍵詞:識別率波段預處理

涂白連,謝陽志,伍艷芳,,鄭永杰,劉新亮,張月婷,徐海寧★

(1.江西農業大學·林學院,江西 南昌 330045;2.江西省林業科學院·國家林業草原樟樹工程技術研究中心,江西 南昌 330013)

樹種識別技術從來都是林學學科的重點研究內容[1]。傳統的樹種識別主要依靠樹木的形態學特征對其進行準確識別,需具備較為全面的專業知識和經驗,并對樹木分類學有著很深入的研究和認識[2]。除此之外,細胞學鑒定[3-4]、生物化學鑒定[5-6]、分子標記[7-9]等方法也可用于樹種識別。但以上幾種方法均存在一些弊端,如識別過程復雜、持續時間長、準確率難以保證等[10],因此多數研究者開始尋求一種更為便捷、快速、準確的樹種識別方法——近紅外光譜分析技術(NIRS)。

近紅外光譜分析技術是一種新型光學檢測技術,主要是由分子振動的非諧振性使分子振動從基態向高能級躍遷時產生的,記錄的主要是含氫基團X-H(X=C、N、O)振動的倍頻和合頻吸收[11]。不同基團(如甲基、亞甲基、苯環等)或同一基團在不同化學環境中的近紅外吸收波長與強度都有明顯差別,NIR光譜具有豐富的結構和組成信息,非常適合用于碳氫有機物質的組成與性質的測量。由于這些含氫基團的吸收特征性強,受分子內外環境的影響小,且光譜特性穩定,獲取光譜容易,因此近紅外光譜分析技術有著“分析巨人”之美譽[12]。植物鮮葉中的化學成分主要是水分和一些有機成分,化學式主要由C-H、O-H鍵組成,與近紅外光譜分子振動基團相符合。葉片是有機化合物的復雜組合,不同的物種因此會表現出不同的光譜特征,其內部結構和生化組分都會影響其光譜變化。楊玉杰等[13]利用PROSPECT模型[14]來模擬樟樹葉片在400~2 500 nm波段內的實測光譜,以分析植物葉片結構和組分對其反射光譜的影響,研究表明,葉綠素主要影響植物葉片反射光譜的可見光波段(400~780 nm),會形成“綠峰”和“紅邊”兩個獨特的光譜特征,但不影響近紅外和短波近紅外波段(780~2 500 nm),這與梁守真等[15]、郭利等[16]、王晶等[17]的研究結果均一致;植物葉片葉肉結構的變化會使葉片在400~2 500 nm全波段范圍內的反射率產生變化,但其改變并不會對葉片反射光譜的形狀和特征造成影響。因此,近紅外光譜分析技術可用于植物種類的鑒別,且目前近紅外光譜分析技術在植物種類鑒別方面已開展多項研究[10,18-19]。王逸之等[20]使用便攜式光譜儀結合偏最小二乘判別分析法(PLS-DA)對人面竹(Phyllostachys aurea)、矢竹(Pseudosasa japonica)、淡竹(Ph.glauca)、巴山木竹(Bashania fargesii)4個竹種葉片的野外實測光譜建立判別模型,利用所建模型對驗證集竹種葉片進行判別,識別率均為100%。汪紫陽等[2]利用PLS-DA結合多列識別變量矩陣對9種樹葉建模,識別準確率達到99.58%,進一步顯示了利用近紅外光譜技術識別樹種的可行性。目前,我國利用樹種葉片結合近紅外光譜分析技術進行樹種鑒別的研究并不多[2]。

猴樟(Cinnamomum bodinieri)、黃樟(C.parthenoxylon)、油樟(C.longepaniculatum)、銀木(C.septentrionale)均為樟科(Lauraceae)樟屬(Cinnamomum)植物,猴樟和銀木為我國特有種[21-22],4者皆為集材用、油用、觀賞、綠化等多功能于一身的優良樹種[23-25]。在形態方面,樟屬植物大都極為相似,一般人僅通過比較形態難以正確識別該屬植物,需具備一定的專業知識[26-27]。因此,本研究提出利用近紅外光譜儀采集猴樟、黃樟、油樟、銀木4種樟屬植物葉片的光譜信息,結合PCA聚類分析(PCA-Cluster)[28-29]和偏最小二乘判別分析法(PLS-DA),對這4種植物進行判別分析,以期為樟屬植物的快速準確識別提供一種新方法。

1 材料與方法

1.1 樣品采集與制備

試驗所用的樣品均來源于江西省林業科學院資源保存基地(28°44'41″N,115°48'46″E)。2021年7月,隨機選擇猴樟、油樟、黃樟和銀木4種植物的多年生成年植株各5株,每單株采集40片樹葉,每個樹種分別采集得到200片樹葉。采摘時選擇葉面完整、無蟲眼、無破損的當年生成熟期功能葉,采集后的樹葉及時帶回實驗室進行光譜采集。

1.2 近紅外光譜采集

光譜采集儀器為瑞士步琦(BUCHI)公司生產的傅立葉變換近紅外光譜儀NIRFlex N-500,及配套的Operator光譜采集軟件和NIRCal分析軟件,儀器光譜范圍為4 000~10 000 cm-1,分辨率為8 cm-1。研究表明,樹葉表面的灰塵會對光譜采集的反射率產生一定的影響[30-31],因此在進行光譜采集前,需將葉片表面的灰塵擦拭干凈,以免其影響模型效果。葉片有腹面和背面,光譜采集時,分別對葉片的腹面和背面進行光譜掃描,每個面取上、中(葉脈主脈上)、下3個部位進行光譜采集。每片樹葉得到6條光譜,取這6條光譜的平均光譜作為該葉片的表征光譜。

1.3 樣本集的劃分

剔除因保存不當等原因造成葉面破損的樣品及因操作不當等原因造成的異常光譜,最終掃描得到646條葉片的近紅外光譜信息。每個樹種隨機選取10片葉片作為未知樣品,用于模型的外部驗證,即外部驗證集。余下的樣品隨機劃分至建模集和驗證集,其中建模集樣品占所有樣品的2/3,驗證集樣品占1/3,驗證集樣品不參與建模,用于模型的內部驗證。樣品具體分布情況見表1。

1.4 定性鑒別模型的建立

1.4.1 PCA-Cluster判別模型

該步驟在儀器配套分析軟件NIRCal中完成。將采集得到的光譜數據導入配套軟件Management console中,對其賦值,賦值后的光譜導入軟件NIRCal中進行化學計量學分析。選擇NIRCal軟件中的聚類分析(Cluster)方法建立模型,主成分分析(PCA)算法將用于該模型的計算。選擇不同建模波段、不同預處理條件進行建模,根據模型評價指標屬性單一聚類(Cluster per Property)、光譜殘差值(Spectra Residual)、屬性殘差(Property Residual)3個指標和模型對建模集和驗證集樣品的識別率對模型進行評價[28]。屬性單一聚類等于1時,表示每個屬性只有一個聚類。光譜殘差值等于0時,表示無光譜殘差異常值。屬性殘差指屬性原始特性和預測特性之間的差異:其值為0時,表明全部樣品的光譜圖均被正確識別;其值為+1時,表明該光譜未被識別;其值為-1時,表明該光譜未被正確識別[28,32]。觀察比較這3個評價指標,確定最優鑒別模型。

表1 樣品信息及樣本集劃分Tab.1 Sample information and sample set division

1.4.2 PLS-DA判別模型

該步驟在Matlab 2018b軟件中完成。PLS-DA是一種用于判別分析的多變量統計分析方法。主要經3個步驟完成:1)建立建模集樣本分類變量;2)對分類變量和光譜數據進行PLS分析,建立PLS模型;3)根據建模集樣本建立的分類變量和光譜特征的PLS模型,計算驗證集樣本的分類變量值(Yp),根據Yp判定樣本類別,具體判定標準為:①Yp>0.5,偏差<0.5時,樣本屬于該類;②Yp<0.5,且偏差<0.5時,樣本不屬于該類;③偏差>0.5時,判別模型不穩定[33-34]。

2 結果與分析

2.1 光譜分析

以1 100 nm(約9 000 cm-1)為分界線,近紅外光譜可以劃分為短波近紅外光譜段和長波近紅外光譜段,波長大于1 100 nm的即為長波近紅外光譜段[35],本試驗光譜儀器所采集的樣品光譜范圍是4000~10 000 cm-1,屬于長波近紅外光譜段。長波近紅外光譜段主要是含氫基團的一級或二級倍頻吸收,常用于分析粉末、固體顆粒、織物等不規則樣品,適用于漫反射光譜分析,有利于開展葉片光譜分析[19]。

4個樹種樹葉的原始光譜如圖1所示??傮w看,4個樹種葉片近紅外光譜的整體變化趨勢基本相同,但可觀察到在4 400~4 800 cm-1、5 400~6 600 cm-1和7 800~10 000 cm-1這3個波段范圍內均有較高的反射率,且在4 400~4 800 cm-1、5 400~6 600 cm-1這兩個范圍內存在明顯的波峰,在5 200 cm-1、7 000 cm-1附近有非常明顯的波谷。

圖1 4種樟屬植物所有樣本原始光譜圖Fig.1 Original spectrograms of all samples of four Cinnamomum plants

2.2 主成分分析

以猴樟、黃樟、油樟和銀木4種植物的近紅外光譜信息為變量,運用PCA方法進行光譜數據降維,讓原先多維空間的大部分信息能夠由恰當的主成分數組成的二維或三維空間展示出來[28,32]。由圖2可知,主成分1(PC1)和主成分2(PC2)分別能解釋93.2%和4.4%的信息量,主成分3(PC3)解釋1.5%的信息量,前3個主成分的累積能解釋99.1%的信息量。觀察圖2,發現4種植物樣品均具有一定的聚集范圍,總體看4種植物樣品信息均存在重疊部分,尤其在二維空間,這表明在原始光譜上的PCA聚類效果不佳,不能清晰地區別4種植物,需對原始光譜進行預處理,以提高其聚類效果。

圖2 4種樟屬植物的主成分二維得分圖(左)和三維得分圖(右)Fig.2 Two-dimensional(left)and Three-dimensional(right)score chart of principal component of four Cinnamomum plants

2.3 PCA-Cluster判別模型的建立與驗證

采用NIRCal軟件選擇不同的預處理方法,對不同的波段范圍和主成分數分別建立定性鑒別模型,經過多種建模條件試驗,最終建立性能較好6個定性鑒別模型,結果如表2和圖3所示。由表2可看出,對于建模集樣品,所建模型均能準確識別,但對驗證集樣品存在一定的誤判。對比不同條件下所建模型對于驗證集樣品的識別率可以得出:在4 400~4 800 cm-1、5 400~6 600 cm-1、7 800~10 000 cm-1波段范圍內所建模型的識別率均高于90%,且經ds2(Segment 5 Gap5的3點二階泰勒求導)預處理后的模型識別率最高,為96.42%。圖3是不同條件下所建模型的評價參數屬性殘差結果圖,可看出,編號6條件下所建模型未被識別和未被正確識別的光譜圖最少,即該條件下所建的模型鑒定效果最佳。圖4和圖5分別表示的是編號6條件下所建模型的屬性單一聚類值和光譜殘差值。

表2 建立4種樟屬植物識別模型的條件和對應結果Tab.2 The conditions and results of four species of Cinnamomum recognition model

圖3 不同條件下所建模型的屬性殘差值Fig.3 Property residual values of the models under different conditions

圖4 屬性單一聚類值Fig.4 Cluster per property

圖5 光譜殘差值Fig.5 Spectra residual

用外部驗證集樣品對所建模型的實際鑒別能力進行檢驗,驗證結果如表3所示。由表3可知,模型對外部驗證集中的猴樟、黃樟、油樟的識別率為100%,均準確識別,僅對銀木樣品產生了一個錯判,未成功識別,總識別率達到97.5%。

表3 外部驗證結果Tab.3 External validation results

2.4 PLS-DA判別模型的建立與驗證

第一步根據樣品的實際類別特征,對建模集樣品賦予分類變量值,如表4所示。第二步利用PLS回歸方法對校正集樣品光譜和樣品對應的分類變量值進行回歸分析,建立近紅外光譜特征和樣品分類變量間的PLS回歸模型。

表4 4種樟屬植物樣品的分類變量Tab.4 Category variables of four species of Cinnamomum

對校正集樣品進行不同的預處理,并結合PLSDA方法建立判別模型,不同預處理下建立的判別模型的預測效果如表5和圖6所示。由表5可知,選擇4 000~8 000 cm-1波段,經一階導數和5點平滑兩種預處理方法相結合后所建模型效果最好,即該條件為最佳建模條件,其校正集相關系數最高,為0.9230,內部驗證均方根誤差最小,為0.1202,對校正集樣品識別率為100%。

圖6為建模集樣品分類變量的PLS預測值和實測值回歸圖。由圖6可看出,分散在參考分類(即實測值)等于1的線上的樟屬植物樣品點均能和參考分類等于0的線上的其余3個樟屬植物明顯分開,說明所建模型具有較高的可靠性,能夠清晰地區分4種樟屬植物。

表5 不同光譜預處理下的PLS-DA判別模型預測效果Tab.5 Predictive effect of PLS-DA discrimination model with different preprocessing methods

圖6 PLS-DA判別模型樣品分類變量的PLS預測值和實測值的回歸圖Fig.6 Regression plots of reference and prediction category variables of sample by PLS-DA model

選擇最佳建模條件建立PLS-DA判別模型,利用所建模型對未參與建模的外部驗證集樣品進行判別分析,結果如圖7和表5所示。圖7A為驗證集中猴樟樣品的預測結果,從圖中可看出,外部驗證集中猴樟所有樣品的預測值都在1附近,且偏差較小,而黃樟、油樟和銀木三類樣品的預測值均在0附近,偏差小于0.5。據1.4.2所述的判別準則可知,模型對猴樟樣品的識別率為100%,同理觀察圖7B、7C、7D可知,模型對驗證集中的黃樟、油樟和銀木樣品均能準確識別。由表5可知,最佳條件下所建模型對外部驗證集樣品的相關系數最高,為0.8960,預測均方根誤差最小,為0.1396,對外部驗證集樣品的識別率為100%。

圖7 外部驗證集中4種樟屬植物樣品的PLS-DA模型判別結果Fig.7 Discriminant results of four species of Cinnamomum in validation set by PLS-DA models

3 結論與討論

3.1 建模波段的選擇

該試驗光譜采集的波段范圍是4 000~10 000 cm-1,該波段主要是含氫基團(X-H,X=C、N、O等)的倍頻和合頻吸收帶,譜帶寬且信息量大。選用全光譜參與建模會在一定程度上影響建模的精確度和準確度[36-39],需要對全光譜波段進行特征波長選擇,從中提取包含有意義信息的光譜波段,除去噪聲光譜和無意義的光譜波段,提高建模效率和模型精度[40]。孫曉明等[41]選擇4 000~10 000 cm-1全光譜波段,建立了水蜜桃(Prunus persica)產地溯源模型;王澄林[28]通過軟件優化選擇5 000~10 000 cm-1波段成功建立了不同栽培方式金線蓮(Anoectochilus roxburghii)鑒別模型,本研究首先運用PCA-Cluster方法建模,經建模軟件NIRCal選擇不同波段范圍,進行多種嘗試,通過軟件自動優化,結果表明在4 400~4 800 cm-1,5 400~6 600 cm-1,7 800~10 000 cm-1組合波段內建立PCA-Cluster判別模型效果最好。運用PLS-DA方法建模時,同樣對不同的波段范圍進行建模,結果表明在4 000~8 000 cm-1范圍內建立的PLS-DA判別模型性能最佳。由此可得出,最佳建模波段并不是一成不變的,要根據不同的樣品和實際情況恰當的選擇建模波段,以獲得最優模型。

3.2 預處理方法的選擇

采集得到的樣品光譜包含了大量物理、化學和生物等信息,包含建模所需的相關信息和影響模型精度的無關信息,同時也包括了因光譜儀器、所處環境或操作人員等原因造成的光譜基線偏移、高頻噪音等偏差信息,這均會對模型的建立產生影響,增加近紅外光譜分析的難度[42-44],因此需要對原始光譜進行預處理。浦宇文等[45]通過先采用標準正態變量變換(SNV)再結合多元散射校正(MSC)預處理的方法建立機采名優茶識別模型,所建模型訓練集準確率達98.5%,驗證集準確率達98.1%;汪紫陽等[2]使用一階導數+平滑的預處理方法,使用單列識別變量矩陣的PLS-DA方法建立4個樹種的樹葉識別模型,模型準確率達100%。本研究中,通過采取不同的預處理方法對光譜數據進行處理,選擇ds2(Segment 5 Gap5的3點二階泰勒求導)結合PCA-Cluster方法建立最優識別模型,對未知樣品識別率達96.42%;選擇一階導數+5點平滑預處理方法建立PLS-DA判別模型,模型對未知樣品的識別率為100%。

3.3 關于方法改進和模型優化的探討

近紅外光譜分析技術是1980年代以來發展最快、最受關注的一項光譜分析技術,具有強大的分析能力[11],它在植物品種鑒定方面的應用,改善了利用形態學、細胞學等植物鑒別方法的不足之處,提高了植物鑒別的速度和準確度。但近紅外光譜分析技術本身存在一定的時限性,樣品所處時間和空間的改變可能會對模型的精度和準確度產生一定的影響,因此需要對模型進行不斷的維護和擴充[10],確保模型能夠更加適用于日常分析工作。本試驗用于建模的樣品均取自同一地點和時間,在后續的使用中,應當不斷的對模型進行升級和優化,收集來自不同地點和時間的樣品擴充模型,增加其適應性。除了本文所涉及的4種樟科植物外,筆者對樟科常見種香樟(C.camphora)5種化學型的近紅外光譜識別方法也進行了研究(尚未發表),初步建立了近紅外光譜識別模型。

應用近紅外光譜分析技術結合PCA-Cluster和PLS-DA兩種方法對猴樟、黃樟、油樟、銀木4種樟屬植物葉片光譜建立近紅外光譜識別模型,兩種方法均成功地建立了判別模型,結果顯示所建模型具有較高的識別能力,能夠準確識別校正集樣品。外部驗證方面,PCA-Cluster模型對外部驗證集樣品的識別率為97.5%,PLS-DA判別模型的識別率為100%,說明應用近紅外光譜分析技術能夠用于4種樟屬植物的識別。這對進一步利用近紅外光譜分析技術進行樟科植物的識別研究或者其他樹種樹葉的識別研究是具有一定的參考價值的。

猜你喜歡
識別率波段預處理
求解奇異線性系統的右預處理MINRES 方法
最佳波段組合的典型地物信息提取
高COD二噻烷生產廢水預處理研究
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
聽力正常青年人的低通濾波言語測試研究*
提升高速公路MTC二次抓拍車牌識別率方案研究
基于PLL的Ku波段頻率源設計與測試
小型化Ka波段65W脈沖功放模塊
基于預處理MUSIC算法的分布式陣列DOA估計
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合