?

基于LIBS與化學計量學的植物葉片分類研究

2021-02-03 10:08張大成王博文馮中琦劉旭陽朱江峰
光譜學與光譜分析 2021年2期
關鍵詞:女貞正確率樹葉

丁 捷,張大成,王博文,馮中琦,劉旭陽,朱江峰

西安電子科技大學物理與光電工程學院,陜西 西安 710071

引 言

激光誘導擊穿光譜(laser-induced breakdown spectr-oscopy,LIBS)是原子發射光譜技術,將高能量脈沖激光聚焦入射在樣品表面上時,可以使樣品聚焦區域獲得足夠高的能量而形成等離子體。隨著等離子體的膨脹,等離子體溫度快速降低,處于高能級的離子和原子會向低能級或基態躍遷,并輻射出特征譜線。通過特征譜線波長可以確定樣品所含元素,同時譜線強度與其所對應的元素含量之間存在定量關系[1]。這就是LIBS技術對樣品中的元素進行定性和定量分析的基本原理。LIBS技術是一種消耗樣品量極少(亞微克級)、非接觸、可實時在線的元素分析手段[2],目前已經被應用于玉石,液體[3]等物質成分分析領域中。

LIBS技術直接測量到的主要是元素的特征譜線。對于元素種類組成相似、譜線分布沒有明顯差異的有機物或復雜樣品等難以快速識別。將LIBS技術與化學計量學方法結合可以有效識別這些樣品的LIBS光譜特征。在過去的二十多年里,國際許多研究團隊將LIBS技術與化學計量學結合開展了大量的物質分類方面的研究工作。法國科學研究中心的Sirven等為模擬火星巖石樣品的遠程識別,將簇類獨立軟模式(soft independent modeling of class analogy,SIMCA)與偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)用于6塊巖石樣品的LIBS光譜分類,兩種方法的識別正確率分別達到77.5%和85.9%。在測試集里加入訓練集中不存在的巖石時,二者均表現出了很強的魯棒性,該結果對于火星的實地探測分析十分重要[4]。西班牙馬德里康普頓斯大學的Moncayo等測量了多個人的骨骼與牙齒樣本的LIBS光譜數據,利用骨骼或牙齒樣本光譜數據與人工神經網絡(artificial neural network,ANN)結合均能實現95%以上的識別精度。該技術可應用于災害遇難者的身份識別中[5]。美國麻省理工學院的Dingari等對布洛芬,葡萄糖胺,維生素C等藥物進行了LIBS分類的研究,比較了非線性方法支持向量機(support vector machines,SVM)和其他兩種傳統的線性方法SIMCA和PLS-DA的分類結果。研究表明這三種方法對測試集樣本的識別準確率都達到94%以上。但是在魯棒性測試中,SVM方法優于SIMCA和PLS-DA兩種方法。此方法可以為假藥的鑒別提供新技術[6]。捷克馬薩里克大學的Vítková等對考古中常見的材料(如貝殼、磚塊、陶瓷和骨頭等)進行了LIBS光譜分析,利用線性判別分析(linear discriminant analysis,LDA)和ANN對考古材料進行分類,識別正確率分別為75%和87.5%。該方法可以幫助考古研究人員快速分辨現場作業中發現的各種材料碎片[7]。美國特拉華大學的Celani等通過手持LIBS設備與K近鄰(k-nearest neighbor,KNN)和PLS-DA兩種方法結合,實現了對9種瀕危樹種92%以上的高識別準確率。該技術可以在海關口岸檢查瀕危樹種的非法貿易[8]。近年來,國內研究團隊也在LIBS分類方面開展了許多研究工作。北京理工大學的王茜倩團隊提出了分別利用主成分權重(important weights based on principal component analysis,IW-PCA)和隨機森林(random forests,RF)對LIBS光譜進行重要性分析,從而提取最優譜線用于分類器輸入的方法,然后結合SVM對6種典型病原菌進行了鑒別,兩種模型正確率分別達到95.79% 和96.51%[9]。哈爾濱工業大學的李曉暉等采集了5種豬肉組織的LIBS光譜,利用KNN和SVM兩種方法對脂肪、皮、肌肉達到99.83%的平均識別率。該結果可為分析臨床上微小組織變化、早期病變的診斷提供新方法[10]。有報道利用SVM和PLS-DA等算法對來自5個不同產地的和田玉樣品進行了分析,對產地分析的識別正確率分別達到了99.3%和97.8%[11]。

以上研究結果表明LIBS技術與化學計量學方法相結合是一種在物質分類和產地溯源等領域非常有應用前景的技術。有機物的分類對于食品溯源、爆炸物分析、藥品鑒別等諸多領域有著重要的意義。然而在元素組成相似度較高的新鮮有機物識別上,目前研究工作相對有限,分類效果仍有提升空間。本文開展了三種植物樹葉(女貞、珊瑚樹、竹子)的LIBS鑒別工作,探索了將PCA分別與LDA和SVM這兩種化學計量學方法結合以提高有機物分類正確率的可行性。

1 實驗部分

采用的LIBS實驗裝置如圖1所示。利用Nd∶YAG激光器(Dawa-300,Beamtech,CHN)作為燒蝕光源,激光脈沖寬度為6 ns,重復頻率為10 Hz,實驗中所用脈沖能量為30 mJ。用石英透鏡將激光束聚焦在樣品表面,通過一組平凸透鏡將等離子體發射光譜收集到光纖中,并傳輸至雙通道光譜儀(AvaSpec-ULS2048-2-USB2,Avantes,NLD)內進行光譜分析。光譜儀的測量范圍為220~432 nm,積分時間為2 ms。為減少連續輻射譜對元素光譜線的干擾,實驗中激光器和光譜儀均由數字信號延遲發生器(DG645,SRS Inc,USA)觸發,并將激光脈沖和光譜儀采集之間的延遲時間優化為300 ns。

圖1 LIBS實驗裝置示意圖Fig.1 Schematic diagram of LIBS experimental setup

實驗選擇了西安電子科技大學校園中常見的三種植物(女貞、珊瑚樹、竹子)的樹葉作為待測樣品。用蒸餾水浸泡樣品10 min,以清洗掉樹葉表明沉積的灰塵,經自然晾干后粘于樣品臺上。樣品臺固定在二維電控位移平臺上,按“弓”字形的方式運動。實驗測量時,以每片葉子的葉脈為軸,兩側對稱采集光譜。每種植物各采集100片葉子,1片樹葉只測量1組光譜,共得到300組光譜數據(女貞、珊瑚樹和竹子光譜的RSD分別為23.2%,24.3%和19.6%)。為降低激光脈沖能量波動對所測得的譜線強度的影響,每組光譜是100個激光脈沖作用得到的平均光譜。圖2為這三種樹葉的典型LIBS光譜,其譜線形狀表現出很高的相似性,難以直接區分。

圖2 三種樹葉的LIBS光譜Fig.2 LIBS spectra of three kinds of leaves

2 結果與討論

2.1 主成分分析

主成分分析(principal component analysis,PCA)是用來研究如何將多指標問題轉化為較少綜合指標(主成分)問題的方法,這些主成分是傳遞數據集中包含的主要信息的線性組合,其本質是一種降維的統計過程。PCA利用正交變換可以將可能具有相關性的譜線數據轉化為線性不相關的一組新變量(principal components,PCs)。這種轉化令第一主成分具有盡可能大的方差,意味著其包含盡可能多的信息量,并且后續每個成分在保持與前面成分正交的條件下選取方差最大的。

主成分得分圖上的散點分布可以表征光譜之間的相似性。圖3是300組光譜數據的第一主成分(PC1)和第二主成分(PC2)的得分圖,分別包含了81.70%和12.26%的方差信息,代表了原始光譜93.96%以上的主要信息??梢钥闯?,三種樹葉的各自類內聚類效果較為分散,竹子幾乎處于另外兩種的中間,重疊比較嚴重。說明三種樹葉的光譜數據具有較高的相似性,在元素組成和含量上非常接近。PCA方法雖然可以很大程度地壓縮數據并盡可能保留有效信息,但是難以通過光譜數據的主成分得分圖對樹葉種類做有效分類。為此,將PCA的特征提取作用進一步應用在LDA和SVM這兩種化學計量學方法上,研究這兩種方法對三種植物樣本種類的識別效果。

圖3 三種樹葉光譜的主成分得分圖(前兩個主成分)Fig.3 Scores of the first two principal components of three kinds of leaves

2.2 線性判別分析與支持向量機

將每種植物葉片的100組LIBS光譜數據中的70組作為訓練集,30組作為測試集,以PCA對原始光譜的2 000多個譜線數據中提取得到的前20個主成分(累計方差大于99.9%)作為樣本屬性數據,并為訓練集和測試集中同種樹葉的每組屬性值設定相同的標簽。將女貞、珊瑚樹、竹子的標簽分別標記為1,2和3。由此,訓練集中每個樣本數據就包括一組屬性值和一個標簽。分類時先根據訓練集中的屬性值和標簽建立識別模型,然后由模型根據測試集中待測樣本的屬性值預測出其對應標簽,將其與該樣本實際對應標簽對比得到正確率以檢驗模型。

2.2.1 線性判別分析

線性判別分析(linear discriminant analysis,LDA)是一種有監督的降維方法,被廣泛用于多元統計、模式識別和機器學習等領域中。其基本思想是將高維的樣本數據投影到最佳鑒別的低維矢量空間,以達到抽取分類信息和壓縮特征空間維數的目的。該算法的核心則在于尋找最能區分不同類數據的最佳投影方向,使得類間距離與類內距離的比值最大化。數據經過處理后在空間上表現出同一種類別數據的投影點盡可能接近,而不同類別的數據的投影點相互遠離的趨勢。

隨機選取每種樹葉的70組光譜數據用于建立判別模型。訓練集中的每組光譜數據經過模型分析后可得到一系列判別函數值,利用前兩個判別函數值可作出如圖4所示的散點圖。與圖3相比,圖4中三種植物樹葉的聚類效果更好,不同類樣本數據之間的間隔也更為明顯,未出現某個樣本處于其他種類植物樹葉樣本聚集區域的情況。由于LDA可以使所獲得的新數據中同種樹葉的數據相似性提高,不同種植物樹葉數據差異擴大。相對于PCA僅僅處理了數據間的相關性和冗雜性,LDA的判別能力更強。通過得到的判別模型對剩余每種樹葉的30個樣本(共90組數據)進行驗證分析,利用前兩個判別函數值可作出圖5??梢钥闯鐾环N類的樣本也都各自聚在一起,僅有個別不同種類的樣本間距較近。其中1個竹子樣本非??拷憳颖救旱倪吘?,2個竹子樣本幾乎處于三種樣本的交界中心。此外,還有2個珊瑚樹樣本離珊瑚樹樣本群和竹子樣本群的遠近程度相當。

圖4 訓練集樣本的前兩個判別函數的散點圖Fig.4 The scatter diagram of the firsttwo discriminant functions of training set samples

圖5 測試集樣本的前兩個判別函數的散點圖Fig.5 The scatter diagram of the first two discriminant functions of test set samples

為了定量表征測試集中的待測樣本屬于各種類的可能性,引入馬氏距離定量描述測試集中的未知樣本與訓練集每種樣本群的“相似程度”,將未知樣本劃入與其相似性最高的類別。馬氏距離是一種無量綱、與變量尺度無關且考慮了數據集相關性的廣義距離,它可以用來測量任一樣品點A與某一樣品集P之間的距離。其在計算過程中引入協方差矩陣,使得實驗中均值較高的變量影響減小,同時均值較低的變量影響增大,最終令所有變量對分類的貢獻趨于一致。為了明確各個樣品所屬分類,分別計算測試集中所有待測試樣本與三種植物葉片訓練集樣本群的馬氏距離,馬氏距離越小,說明其與對應類別相似性越高,反之相似性越低。如圖6所示,藍色,綠色和紅色標志分別表示該待測樣本與訓練集中女貞、珊瑚樹和竹子樣本集的馬氏距離。從圖6中可以看出待測樣本與其實際類別對應樣本集的馬氏距離大多接近于0,并且另外兩個馬氏距離遠大于0,距離差異很大,即相似性差異明顯。這表明經過LDA處理,光譜數據按類別在空間上完全分離開來。因此,選擇3個馬氏距離中最小值所對應的類別作為該樣品的預測類別。根據馬氏距離計算得到測試集分類結果如圖7所示,測試集中30個女貞樣本(1—30)和30個珊瑚樹樣本(30—60)全部分類正確;竹子樣本(60—90)中有2個被誤分為女貞,1個被誤分為珊瑚樹。最終,在90個測試集樣本中正確分類87個,平均正確率達到96.67%。

圖6 每個測試集樣本的3個馬氏距離Fig.6 Three Mahalanobis distances of each test set sample

圖7 測試集樣本分類結果圖Fig.7 Classification results of test set samples

2.2.2 支持向量機

支持向量機(support vector machines,SVM)是Cortes和Vapnik提出的一種較新的非線性分類方法[14]。SVM是定義在特征空間上的間隔最大分類器,通過將數據映射到在高維空間,利用兩類間距離最近的訓練點(支持向量)求得一系列對兩類分割的超平面。而所求的最佳超平面距兩類的支持向量一樣遠,使得不同類數據之間的分布間隔最大化,其本質是一種二分類模型。在應對多類問題時,采取“一類對其余”的方法,每次仍然解一個二分類的問題。SVM在分類數據集時不存在必須線性可分的限制,在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。

本工作使用了基于MATLAB的Library for Support Vector Machines (LISVM)工具箱[13]對三種植物葉片的LIBS光譜建模。其中,核函數為徑向基函數(RBF),由于工具箱中懲戒因子C,核參數g會直接影響對最優分類超平面的求解,因此,需要對C,g進行參數尋優才能建立更準確的SVM分類器模型。采用交互驗證法尋找最佳(C,g)??紤]到建模時間和準確性,將C與g的調節范圍均設置為(2-5,25),參數的步進值設為20.5。圖8是(C,g)的參數尋優圖,從圖8可以看出不同(C,g)對應的訓練集平均正確率,程序給出的最優參數(C,g)為(20.5,2-0.5),對應最高訓練集正確率為100%。利用該參數對應的分類器可對測試集每組屬性值的類別進行預測。圖9給出了測試集中90個待測樣本的預測類別與實際類別,竹子葉中有1個被誤分為女貞樹葉,而這個樣本在LDA中被誤分為珊瑚樹。結果中共89個正確分類,測試集的平均正確率達到98.89%。

圖8 SVM參數尋優圖Fig.8 SVM parameter optimization

圖9 SVM分類結果圖Fig.9 Classification results of SVM

3 結 論

采集了女貞、珊瑚樹和竹子三種植物葉片在220~432 nm波段的LIBS光譜。利用PCA對三種植物葉片的光譜數據進行可視化分析,在得分圖上得到的樣本點重疊嚴重,難以實現女貞、珊瑚樹、竹子的準確識別。將PCA提取的前20個主成分輸入LDA和SVM模型進行三種植物葉片光譜數據的分類。在測量結果中,LDA結合馬氏距離時,測試集90個待測樣本對訓練集中各類樣本集的距離差異明顯,僅對3個竹子樣品分類錯誤,女貞與珊瑚樹樣品全部正確歸類,平均正確率達到96.67%;SVM經過參數尋優后,得到的最優參數對應的模型在訓練集中得到了100%的分類正確率,而對于測試集樣本,僅有1個竹子葉片被誤分,平均正確率為98.89%。研究表明,將PCA與LDA、SVM這兩種有監督的化學計量學方法結合能夠實現對新鮮植物樣品LIBS光譜的準確識別,并且PCA與SVM結合的分類結果優于PCA與LDA方法結合的分類結果。該方法有助于LIBS技術在食品快速溯源、生物組織原位鑒別、有機爆炸物遠程分析等領域應用。

猜你喜歡
女貞正確率樹葉
女貞和烏鶇
門診分診服務態度與正確率對護患關系的影響
樹葉的不同稱呼
綠化用女貞樹上的果實,可以采來入藥嗎?
大葉女貞銹壁虱藥物防治試驗
生意
品管圈活動在提高介入手術安全核查正確率中的應用
鹽脅迫對金森女貞生理特征的影響
一片樹葉
生意
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合