?

近紅外光譜和支持向量機用于凌霄花產地鑒別

2022-07-13 07:29王燕李穎葉樺珍李泳寧徐杰林振宇
關鍵詞:凌霄花識別率產地

王燕,李穎,葉樺珍,李泳寧,徐杰,林振宇

(1. 福建衛生職業技術學院藥學院,福建 福州 350101; 2. 廈門海洋職業技術學院海洋生物學院,福建 廈門 361102; 3. 江蘇省食品藥品監督檢驗研究院,江蘇 南京 210019; 4. 福州大學食品安全與生物分析教育部重點實驗室, 福建省食品安全分析與檢測技術重點實驗室,福建 福州 350108)

0 引言

凌霄花原名紫葳,始載于《神農本草經》,為紫葳科植物凌霄或美洲凌霄的干燥花,具有活血通經、涼血祛風的功效,主要用于治療月經不調、經閉癥瘕、產后乳腫、風疹發紅、皮膚瘙癢和痤瘡等[1]. 凌霄花作為我國傳統中藥,來源廣泛,主產于我國東部和中部省份. 不同產地的凌霄花化學成分存在顯著差異,對其質量和藥效影響較大[2-4]. 因此,鑒別不同產地的凌霄花對其藥材的質量控制具有重要意義.

目前, 凌霄花產地鑒別的方法主要有高效液相色譜法[5]、高效液相色譜-串聯三重四極桿質譜[6]和膠束電動毛細管色譜法[7]等理化分析法,但這些方法均需對樣品進行破壞性處理, 檢測過程費時費力,且消耗試劑多. 近紅外光譜(near-infrared spectroscopy, NIRS)技術作為一種現代儀器分析方法,具有檢測快速、處理簡便、對樣品無破壞和無需化學試劑等優點,已被廣泛應用于中藥材的產地鑒定與質量評價[8-12].

本研究通過采集6個不同產地凌霄花的近紅外光譜數據,建立支持向量機(support vector machine,SVM)模型來鑒別不同產地凌霄花,并采用競爭自適應重加權采樣(competitive adaptive reweighted sampling,CARS)變量選擇方法篩選波長變量,以期實現對不同產地凌霄花的快速鑒別分析.

1 材料與方法

1.1 樣品的采集與制備

凌霄花藥材采集于山東(45份)、江蘇(99份)、河南(25份)、河北(52份)、云南(22份)和廣西(28份)6個省,共計271個樣品,用作建模分析. 所有樣品經福建中醫藥大學楊成梓教授鑒定,均為紫葳科植物凌霄的干燥花. 每個樣品利用超微粉碎機粉碎,過90 μm孔徑的篩網,置于60 ℃的烘箱中烘干至恒重,編號并置于干燥器中密封保存.

1.2 光譜數據的采集

實驗采用Antaris Ⅱ型傅里葉變換近紅外光譜儀(美國Thermo Fisher公司),光譜分辨率為8 cm-1,掃描范圍為4 000~10 000 cm-1,共掃描32次. 以空氣作為檢測背景,采集環境為室溫25 ℃,空氣濕度為60%. 每個樣品采集3條光譜,運用Matlab(R 2017a)編寫程序對掃描所得的光譜數據進行分析.

1.3 訓練集和測試集的劃分

采用Kennard-Stone算法將樣本按9∶1的比例劃分為訓練集樣本與測試集樣本,如表1所示. 訓練集樣本用于建立凌霄花產地鑒別模型,測試集樣本用于驗證模型對凌霄花樣品的預測能力.

表1 凌霄花產地來源及樣本集劃分

1.4 模型建立及特征變量篩選

SVM是由Vapnik[13]提出的一種用于分類和回歸分析的監督模式識別方法,具有良好的泛化性能和準確的預測能力. SVM算法將訓練數據映射到高維空間,在分類誤差最小的情況下尋找最優超平面. 利用特征空間中種類分布邊緣的訓練集樣本來定位最優超平面,并定義最大邊界超平面的訓練集樣本為支持向量, 而所有其他對超平面位置估計沒有貢獻的訓練集樣本都可以丟棄. 因此,SVM通過使用少量的訓練集樣本即可獲得較高的分類精度.

為實現原始數據到高維空間的映射,在SVM中引入核函數. 核函數包括線性函數、徑向基函數(RBF)、多項式和S型函數. 由于RBF在校準過程有效且快速[14],本研究采用RBF作為SVM分類的核函數. RBF核函數的公式如下:

其中:x和y分別表示不同樣本的測量數據;σd表示徑向基核函數的寬度,其值需要在模型優化過程中確定.

在建模的過程中,NIRS變量含有大量冗余信息,不僅增加模型的復雜程度,還降低模型預測的準確性. 當相關性不強的變量過多時,從大量的光譜變量中提取出對建模有用的特征變量,可簡化模型,提高模型的穩定性與準確性. CARS是一種提取特征變量的方法. 該方法模仿達爾文進化理論中的“適者生存”原則,根據CARS技術搜尋與所測性質相關的最優波長組合,從而達到簡化模型、提高模型預測能力的目的[15].

2 實驗結果與分析

2.1 光譜分析

圖1(a)為6個不同產地凌霄花在4 000~10 000 cm-1的近紅外平均光譜圖. 其中,4 400~4 800 cm-1的特征吸收峰是C—H伸縮振動與彎曲振動的組合頻、O—H伸縮振動的倍頻,5 000~5 100 cm-1的特征吸收峰是O—H伸縮振動與彎曲振動的組合頻,5 800~6 000 cm-1的特征吸收峰是C—H伸縮振動的倍頻,6 800~7 050 cm-1附近的特征吸收峰是O—H伸縮振動的倍頻. 如圖所示,不同產地的凌霄花樣品的峰強度差異可能是由于不同產地的凌霄花樣品中所含的主要活性物質,如麥角甾苷、環烯醚萜、三萜和黃酮等含量不同而造成的,但總體相似性很高,因此需要進一步建立模型進行判別.

2.2 光譜預處理

在建立模型之前,為消除樣品物理性質和噪聲等因素對樣品光譜的影響,需要對光譜進行一定的預處理. 本實驗分別采用多元散射校正、一階導數、標準化、均值中心化、矢量歸一化和標準正態變量變換方法對樣本的原始光譜進行預處理,最后選擇預處理效果最佳的一階導數作為光譜預處理方法,如圖1(b)所示.

圖1 凌霄花的光譜圖

2.3 主成分分析

圖2(a)為凌霄花樣品前兩個主成分(PC1和PC2)的得分聚類圖. 從圖中可以看出,訓練集和測試集的樣本整體呈均勻分散狀態,說明樣本集的劃分是比較合理的. 為觀察樣本是否可能聚類,對其進行主成分分析,結果如圖2(b)所示. 前3個主成分(PC1、PC2和PC3)的累積方差貢獻率達99.43%,說明前3個主成分可以代表近紅外光譜中99.43%的化學信息. 從圖中可看出,不同產地的樣品之間存在粗略的分離,但重疊仍然很明顯,分類效果不是很理想. 因此,需要進一步建立模型對凌霄花的產地進行鑒別.

圖2 凌霄花樣本的聚類圖

2.4 CARS-SVM模型構建

圖3 參數C和g優化結果的3D視圖Fig.3 3D view of the optimization results for parameters C and g

SVM的性能取決于懲罰參數C和RBF核函數參數g[14]. 本研究采用5折交叉驗證結合網格搜索技術來確定最優的C和g. 在5折交叉驗證中,將訓練集樣本平均分成5個子集. 然后隨機選取4個子集來構建模型,剩下的子集用于驗證. 因此,對每個實例進行一次預測,并以識別率來評價優化結果. 網格全局搜索算法是將待優化的參數先劃分為網格,通過遍歷網格上所有點對應的目標值,得出最優的目標值和最優值對應的參數值. 網格搜索優化的精度與參數范圍和區間大小有關. 增大參數范圍或者減小步長,都可以提高精度.C和g經過2-10~210范圍內的評估,設定步長為20.2. 圖3為采用5折交叉驗證結合網格搜索技術對參數C和g進行優化的三維視圖. 當C為6.062 9,g為0.082 5時,識別率最高. 以上述最優參數構建SVM模型,模型對6個產地凌霄花鑒別效果良好,其中訓練集識別率為98.36%,預測識別率為96.30%.

為剔除冗余光譜變量,提高模型的穩定性與準確性,運用CARS算法提取特征變量. CARS波長選擇過程中的波長變量個數、交叉驗證均方根誤差(root mean square error of cross validation, RMSECV)與回歸系數路徑的變化情況分別如圖4所示. 隨著運行次數的增加,RMSECV值開始下降,光譜中的冗余波長變量個數在減少. 當運行次數為24時,RMSECV達到最低點,此時的波長變量個數從1 557減少到52,達到最佳值. 以優化后的特征波長變量建立CARS-SVM模型,與SVM模型相比,訓練集的識別率從98.36%提高到100%,測試集的識別率從96.30%提高到100%. 結果表明,通過CARS提取特征變量后,CARS-SVM模型比SVM模型具有更強的準確性.

圖4 選定波長變量個數、RMSECV、各波長變量的回歸系數隨著運行次數的變化Fig.4 Variation of the number of selected wavelength variables, RMSECV and the regression coefficient of each wavelength variable with the number of runs

2.5 模型比較分析

為進一步說明CARS-SVM模型的鑒別效果,以52個特征波長為變量,分別構建線性判別分析(linear discriminant analysis, LDA)、偏最小二乘法判別分析(partial least squares discriminant analysis, PLS-DA)和簇類獨立軟模式識別(soft independent modelling of class analogy, SIMCA)模型. 表2為不同模型對不同產地凌霄花的鑒別結果. 從表格中可以看出,無論是訓練集還是測試集,CARS-SVM模型的鑒別效果均優于其他4種模型. 經分析,影響不同模型判別結果的因素可能如下:由于光譜數據的波長變量之間存在很強的相關性,降低LDA的分類精度[16]; SIMCA是在主成分分析基礎上對未知樣本進行識別,由于未知樣本雖然符合某種類型的主成分分析模型,但樣本可能會遠離該類的訓練集[17],從而使SIMCA模型的識別率偏低; CARS-PLS-DA模型的判別結果最差,因為PLS-DA模型是一種線性判別方法,當特征變量與分類目標之間存在非線性關系時,其識別率并不理想[18]; CARS-SVM模型的識別率優于其他4種模型,在樣品數量較少的情況下也具有較強的泛化能力,且能適用于復雜非線性光譜的分析[19],是一種有效鑒別不同產地凌霄花的方法.

表2 不同建模結果的比較

3 結語

本研究采用基于NIRS技術的SVM算法對不同產地凌霄花進行有效判別. 為消除冗余光譜變量,對模型進行簡化,采用CARS提取特征波長,建立CARS-SVM模型. 將該CARS-SVM模型與其他3種分類模型(LDA、PLSDA和SIMCA)進行比較,其判別準確率達到100%,明顯優于其他模型. 結果表明,與傳統的感官評價和理化試驗的鑒定方法相比,NIRS技術結合CARS-SVM模型可快速準確判別凌霄花的產地, 為凌霄花的真偽鑒別及質量評價提供一種新的方法.

猜你喜歡
凌霄花識別率產地
凌霄花
小小凌霄花
推動產地農產品追溯進入下游流通消費環節
凌霄和月季
詠凌霄花二首
印尼燕窩產地探秘
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
警惕“洗產地”暗礁
食物離產地越遠越好
檔案數字化過程中OCR技術的應用分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合