?

基于高光譜技術的杏品種判別

2024-01-15 08:14王潤潤張淑娟蘇立陽王林杰盧心緣孫海霞
農產品加工 2023年23期
關鍵詞:正確率波長預處理

王潤潤,張淑娟,蘇立陽,王林杰,盧心緣,孫海霞

(山西農業大學農業工程學院,山西晉中 030800)

杏的種類繁多,其營養成分和口感差異很大,因此需要探究一種快速、無損的品種判別方法,以滿足消費者對不同品種杏的消費需求。

光譜技術作為新型的無損檢測手段,在農產品品質檢測和品種判別等方面具有廣泛的應用。李翠玲等人[1]利用葉綠素熒光光譜結合反射光譜的分析方法鑒別甜瓜種子品種,判別正確率達到98.0%。趙旭婷等人[2]基于高光譜技術研究競爭性自適應重加權算法結合極限學習機對油桃品種進行判別,預測集相關系數為0.931。李雄等人[3]建立柚子品種判別模型,結果表明去差異化后750~930 nm 波段范圍判別模型的預測相關系數達到0.86。劉飛等人[4]基于油菜籽皮紅外光譜信息對油菜籽的品種和產地進行判別,最優判別正確率分別為97.9%和98.4%。張鵬等人[5]運用近紅外光譜技術,研究蘋果品種(嘎啦、喬納金、金冠、寒富) 的近紅外判別模型,對未知樣品判別正確率為85.00%~95.00%。楊春艷等人[6]基于傅里葉變換紅外光譜技術,利用逐步判別分析法對金銀花品種和產地進行判別研究,正確率依次達93.20%和96.13%。吳振等人[7]利用無機元素結合多元統計分析對我國5 類柚子品種進行有效區分。有研究采用熒光光譜的一階導數光譜建立判別模型,卓椒3 號、卓椒4 號、卓椒5 號辣椒種子的品種判別正確率均達到100.0%。

選取4 種不同品種的杏作為研究對象,采集其光譜信息;對比優選多種預處理方法;采用RC 和SPA 方法提取特征波長,結合PLSR 方法建模判別,為建立不同品種杏的種類判別提供參考,為杏產業鏈的發展提供技術支持。

1 材料和方法

1.1 試驗材料

以“6-1”杏、網紅杏、晉梅杏和扁杏4 種杏為試驗對象,試驗中所使用的樣本均為2022 年7 月份在山西省晉中市太谷區果樹所獲得。采摘時挑選形狀相近、成熟度統一、無病蟲害、質量均勻的杏。試驗共采集600 個樣本,“6-1”杏、網紅杏、晉梅杏和扁杏4 種杏樣本各150 個,根據Kennard-Stone(K-S)算法,按3∶1 的比例分別對4 個品種的試驗樣本劃分校正集與預測集,每個品種校正集樣本數為113 個,預測集樣本數37 個。校正集樣本總數452,預測集樣本總數148 個。

1.2 光譜信息采集

采用由北京卓立漢光有限公司開發的“Gaia Sorter”高光譜分選儀采集不同品種杏的光譜信息。

平均光譜曲線見圖1。

圖1 平均光譜曲線

由圖1 可知,4 種杏光譜反射率曲線整體趨勢一致,只存在吸收強度上的差異,可能與杏的品種、形狀、大小和質地有關。因此,推測杏的品種將導致其光譜的差異。光譜曲線分別在1 080,1 275 nm 附近存在突出吸收峰,而在985,1 211,1 462 nm 附近存在波谷。其中,985 nm 附近的波谷是由O-H 基團的二倍頻振動導致的;1 275 nm 附近的波峰則是與C-H 的3 倍頻伸縮振動有關。

1.3 數據處理方法及評價指標

1.3.1 光譜數據的預處理

由于獲得的原始光譜數據不僅會提取樣本的有效信息,同時也包含了儀器、背景、環境等與樣本無關的冗余信息,為了降低這些冗余信息的影響,研究采用的光譜預處理方法包括SG、MA、MF、Baseline、SNV、MSC。

1.3.2 提取特征波長

原始光譜數據包含波段范圍寬作為輸入模型計算時間過長,且存在信號譜帶重疊。因此,建模時需要篩選特征波長,從而減少建模時間、簡化建模過程、提高模型的穩定性。采用的方法主要有RC 方法、SPA 方法。

1.3.3 偏最小二乘回歸分析

偏最小二乘回歸(PLS) 可以進行多變量數據分析,其原理是:先將各種變量數據矩陣分解為多種主成分數據矩陣,并計算每個矩陣的貢獻率,再優選出貢獻率較大的成分進行回歸分析。

1.3.4 模型評價標準

采用決定系數R2和均方根誤差RMSE 2 個值來判別模型的效果。

計算公式為:

式中:yi——樣本的實測值;

n——樣本數量。

2 結果與分析

2.1 光譜數據的預處理

試驗采用SG、MA、Baseline、MF、SNV 和MSC共6 種預處理方法后建模,分析不同預處理所建模型的預測能力。

不同預處理建立PLSR 模型結果見表1。

表1 不同預處理建立PLSR 模型結果

由表1 可知,除MF 預處理外,其余5 種預處理建立的PLSR 模型的Rc2和Rp2都有所減小,RMSEC和RMSEP 都有所變大。MF 預處理后的Rc2和Rp2分別 為0.842 4 和0.840 2,RMSEC 和RMSEP 分 別0.443 1 和0.446 7,MF 預處理最優。

2.2 特征波長選擇

2.2.1 RC 方法提取特征波長

回歸系數法(RC) 是利用全波段光譜數據建立PLSR 模型,然后計算回歸系數,再利用局部極值法來確定特征波長,共選出10 個,分別為956,1 023,1 084,1 144,1 176,1 262,1 386,1 469,1 634,1 666 nm。

RC 提取特征波長見圖2。

圖2 RC 提取特征波長

2.2.2 SPA 方法提取特征波長

連續投影算法(SPA) 是通過計算樣本波長之間的投影,并將投影向量的最大值定為樣本的特征波長值。

特征參數數量與均方根誤差關系圖見圖3,特征參數優選分布圖見圖4。

圖3 特征參數數量與均方根誤差關系圖

圖4 特征參數優選分布圖

由圖3 可知,當最終選擇變量數為17 個時,均方根誤差最小,提取的17 個特征波長值分別是902,918,924,937,940,943,950,1 007,1 100,1 147,1 176,1 338,1 373,1 402,1 526,1 666,1 685 nm。

2.3 建模結果分析

將4 類不同品種的杏樣本進行賦值作為判別依據,“6-1”杏賦值為1;網紅杏賦值為2;晉梅杏賦值為3;扁杏賦值為4。在建立判別模型的過程中會出現非整數的情況,需要采用閾值進行判別。當判別值大于等于0.5,小于1.5 時判別為“6-1”杏;當判別值大于等于1.5,小于2.5 時判別為網紅杏;當判別值大于等于2.5,小于3.5 時判別為晉梅杏;當判別值大于等于3.5,小于4.5 時判別為扁杏;當判別值不在這些區間內則為判別錯誤。

基于全波段、RC 和SPA 的PLSR 判別模型見圖5。

圖5 基于全波段、RC 和SPA 的PLSR 判別模型

由表2 可知,通過比較NOR(全波段) -PLSR、RC-PLSR、SPA-PLSR 這3 種方法預測的建模效果,發現SPA-PLSR 的建模效果最好,預測集的綜合判別率高達84.44%。

表2 各模型判別結果統計

各模型判別結果統計見表2。

3 結論

通過采集“6-1”杏、網紅杏、晉梅杏和扁杏4 個品種的光譜信息,采用SG、MA、Baseline、MF、SNV 和MSC 共6 種預處理方法,建立PLSR 模型,MF 方法預處理效果最優。針對預處理后的光譜數據,采用RC 和SPA 方法選取特征波長建模。結果表明,SPA-PLSR 模型效果最佳,總判別率達到了84.44%,4 個品種的判別率分別達到了72.97%,91.89%,100.00%,72.90%。

猜你喜歡
正確率波長預處理
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
門診分診服務態度與正確率對護患關系的影響
基于預處理MUSIC算法的分布式陣列DOA估計
雙波長激光治療慢性牙周炎的療效觀察
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
日本研發出可完全覆蓋可見光波長的LED光源
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合