?

基于變量優選的蘋果糖分含量近紅外光譜檢測

2021-11-18 07:51張立欣楊翠芳王亞明
食品與機械 2021年10期
關鍵詞:方根波長預處理

張立欣 楊翠芳 陳 杰 王亞明 張 曉

(1.塔里木大學信息工程學院,新疆 阿拉爾 843300;2.南京理工大學理學院,江蘇 南京 210094)

消費者在購買水果時,除了注重顏色、大小、形狀等外部品質外,對內部品質口感也極為看重,其中糖分含量直接影響其口感。傳統糖分含量的檢測方法為破壞性或侵入性測量,不僅費時、費力,而且還破壞了水果的完整性。

近些年,近紅外光譜(near infrared spectroscopy,NIR)分析技術因具有快速、便捷、無損的優點逐漸被用于農產品檢測中,如蘋果[1-2]、葡萄[3-4]、水蜜桃[5]、紅提[6]、香梨[7]、滑皮金桔[8]等。在光譜分析中,經常會受到背景等隨機因素的干擾,因此需對光譜數據進行預處理[9],常用的光譜預處理方法有一階導數、二階導數[10]、標準正態變換[11]、多元散射校正[12]、平滑變換[13]、標準化、歸一化、中心化等。白鐵成等[14]采用不同的預處理方法對南疆沙塵區駿棗葉片的光譜數據進行預處理,分析發現不同方法對散射噪聲的處理能力存在差異。陳杰等[15]分別采用小波變換、多元散射校正以及二者結合的方法預處理數據,最后使用偏最小二乘法對3種方法預處理過的光譜數據建立羊肉水分含量的預測模型,結果表明,采用多元散射校正預處理方法建立的模型預測能力優于小波變換,采用2種結合的預處理方法建立的模型最優。為降低模型的復雜度,減少共線性的干擾,需要提取特征波段[16],常用的方法有連續投影算法[17]、競爭性自適應重加權算法[7]、主成分分析[18]、無信息變量消除法[19]、隨機蛙跳算法[20]等,成甜甜等[21]分別采用隨機青蛙、無信息變量消除法、競爭性自適應重加權法提取特征波長后建立偏最小二乘模型,結果顯示模型預測效果整體提升。程介虹等[22]提出了一種改進聯合區間的隨機蛙跳算法選擇特征波長,通過聯合區間偏最小二乘法對全譜進行變量初選,此時得到的波長對目標變量變化最為敏感,將其作為隨機蛙跳算法的初始變量子集,以解決其運行時間較長、效率較低的問題。袁凱等[23]采用3步混合策略,提出了間隔偏最小二乘、區間變量迭代空間收縮法和迭代保留信息變量聯用的特征變量選擇方法,對生鮮雞胸肉的近紅外光譜進行特征波長選擇,建立了雞肉水R分檢測模型。結果表明,建模波長數量經3步選擇后減少為全光譜建模的0.76%,但模型精確度和穩定性逐步提高。Fang等[7]將連續投影算法、競爭性自適應重加權算法、RELIEF 3種方法選取的特征變量組合起來建模,取得了很好的預測效果。在模型建立方面,有線性模型,如偏最小二乘回歸[21],也有非線性模型,如神經網路[24]、隨機森林[25]、遷移學習[26]、極限學習機[27]等。

盡管已有研究利用光譜技術和成分含量指標,取得了相對理想的預測效果,但是在對光譜數據進行分析時,一般只采用一種預處理方法,忽略了多種預處理方法相結合效果更優的可能性。選取特征波長變量時,一般只采取一種方法,或者多種方法串聯起來,逐步減少特征變量的個數,雖然模型簡化了,但是不同的波長選取方法各有側重點,如果有重要的特征變量在某一步中漏掉,將永遠不可能參與建模,影響模型的預測效果,而將多種特征變量組合起來建模的,目前鮮有報告。研究擬在總結前人研究的基礎上,基于近紅外光譜技術,以新疆阿克蘇的紅富士蘋果為研究對象,依據光譜數據和糖分含量的實測數據,采取多種組合方式對光譜數據進行預處理,采用不同方法選取特征變量,以選出的特征變量的組合作為輸入自變量,分別建立線性和非線性的糖分含量預測模型,重點研究不同的光譜預處理方法、特征變量和建模方法對預測結果的影響,以期為進一步研究糖分含量的便攜式檢測裝置提供理論參考。

1 材料與方法

1.1 材料與儀器

1.1.1 材料

以阿克蘇的紅富士蘋果為試驗對象,在試驗中所使用的蘋果均產自紅旗坡農場,挑選表面沒有缺陷、直徑范圍為65~85 nm且大小均勻的蘋果樣品,去除表面的污垢,放置在冰柜內保存,控制在4 ℃,試驗前分批拿出,待其恢復到室溫(20~25 ℃)后開始試驗。

1.1.2 主要儀器

糖度鹽度兩用儀:MASTER-BX/S28M型,日本ATAGO公司;

推掃式高光譜分選系統:Hyperspspectral Sorting System型,北京卓立漢光公司。

1.2 試驗方法

光譜測定范圍為900~1 700 nm(實際可測量到1 750 nm),光譜分辨率5 nm,光譜采樣點4 nm。選取果身中心前后左右4個方位,提取大小為20像素×15像素,4個面均進行提取,共1 200像素點,選取平均值為該樣本反射率。通過自帶的ENVI5.3 軟件提取ROI的光譜值,最后導出為Excel文件。選用糖度鹽度兩用儀,對蘋果采集了高光譜圖像的部位挖取適量果肉,深度為皮下0.5 cm左右,壓榨出汁水進行糖度測量,測量3次取平均值,以此來作為蘋果糖度的標準值。

1.3 數據預處理

采用的光譜數據預處理方法有一階導數(1-DER)、二階導數(2-DER)、標準正態變換(SNV)、多元散射校正(MSC)、SG平滑變換(SG)、標準化(STD)、最大最小歸一化(MMN)、中心化(CEN)。

1.4 提取特征波長

主要采用連續投影算法(SPA)、競爭性自適應重加權算法(CARS)來選取特征波長變量。

1.5 建模方法

偏最小二乘回歸法(PLS)集主成分分析、典型相關分析和多元線性回歸分析3種分析方法的優點于一身,可以避免數據非正態分布、因子結構不確定性和模型不能識別等潛在問題。并且能較好地解決樣本個數少于變量個數等問題,特別當各變量內部高度線性相關時,用偏最小二乘回歸法更有效。

極限學習機(ELM)是一種簡單易用、有效的單隱層前饋神經網絡學習算法,不同于傳統的訓練算法(如BP算法等),ELM算法對輸入層的權值和偏置進行隨機賦值,然后用求Moore-Penrose廣義逆矩陣的方法直接解出隱含層到輸出層的權值。ELM算法需要手動設置的參數只有隱含層結點個數,算法執行過程中不需要人工調整參數,避免了傳統訓練算法反復迭代的過程,快速收斂,極大地減少了訓練時間,所得解是唯一最優解,保證了網絡的泛化性能。

1.6 模型驗證

采用Kennard-Stone算法將數據集以3∶1的比例劃分為訓練集和測試集,依靠訓練集建立模型,測試集將通過已經建立好的模型進行驗證,以測試集的均方根誤差(RMSE)、擬合優度(R2)作為標準來評判模型的優劣,計算公式:

(1)

(2)

式中:

RMSE——均方根誤差;

R2——擬合優度;

n——樣本個數;

yi——第i個樣本的觀測值;

2 結果與分析

2.1 原始光譜分析

采集的紅富士蘋果高光譜數據中,剔除異常值后,共得到160個樣本,其原始光譜曲線如圖1所示。

近紅外光主要是對含氫基團X—H(X為C、N、O)振動的倍頻和合頻吸收,其中包含了大多數類型有機化合物的組成和分子結構的信息。選用連續改變頻率的近紅外光照射某樣品時,由于試樣對不同頻率近紅外光的選擇性吸收,通過試樣后的近紅外光線在某些波長范圍內會變弱,透射出來的紅外光線就攜帶有機物組分和結構的信息。從圖1可以看出,950 nm附近處有一個明顯的峰,這是O—H基團的3倍頻吸收帶,1 060 nm處的峰是N—H基團的3倍頻帶,1 180 nm處的波谷位于C—H的3倍頻帶,1 440 nm處的波谷是H2O 2倍頻吸收帶等。如果樣品的組成相同,則其光譜也相同,反之亦然。因此,近紅外光譜分析法是一種間接的分析技術。在對未知樣本進行分析之前,需要獲得樣品的光譜數據和用化學分析方法測得糖分含量的真實數據,建立光譜和糖分含量的關聯模型。如果建立了光譜與糖分含量的對應關系,那么只要測得樣品的光譜,就能很快預測其糖分含量。采用KS算法,以3∶1的比例劃分訓練集和測試集,訓練集用于建立光譜和糖分含量的關聯模型,測試集用于檢驗模型。訓練集和測試集的劃分結果如表1所示。

圖1 原始光譜圖

表1 訓練集和測試集的劃分結果

測試集和訓練集的第一主成分、第二主成分分布如圖2所示。

從圖2可以看出,測試集的主成分都落在訓練集的對應主成分范圍之內,說明數據的劃分是合理的。

圖2 訓練集和測試集的主成分分布

2.2 光譜數據的預處理

在近紅外光譜應用時,經常會受到背景等隨機因素的干擾,因此需對光譜數據進行預處理。根據預處理的效果大致分為基線校正、散射校正、平滑處理和尺度縮放4類。每一類又包含多種預處理方法,基線校正包括一階導數(1-DER)和二階導數(2-DER)等,散射校正包括標準正態變換(SNV)和多元散射校正(MSC),平滑處理是SG平滑(SG),尺度縮放包括標準化(STD)、最大最小歸一化(MMN)、中心化(CEN)等。對于光譜數據進行分析時,沒有普適的預處理方法,通過對已有預處理方法按照預處理的目的進行分類再排列組合是選擇最佳預處理方法的一種有效途徑[9]。因此,對于每一類中包含的預處理方法進行for循環,按照表2從上到下的順序一次從每類預處理方法中選擇一種(0代表不作此類變換),共得到3×3×2×4=72種組合的預處理方法。

表2 預處理方法

原始光譜數據分別經過這72種方法預處理之后,建立PLS模型,交叉驗證的均方根誤差(RMSECV)和擬合優度如圖3所示。

圖3 不同預處理的預測效果

從圖3可以看出,不同的預處理方法預測效果存在差異,剛開始,交叉驗證的均方根誤差有減小的趨勢,擬合優度有增加的趨勢;在第4種預處理到第26種預處理之間,交叉驗證的均方根誤差和擬合優度基本處于穩定狀態;在第27種預處理方式到第62種預處理方式之間,交叉驗證的均方根誤差有波動上漲的趨勢,擬合優度波動下降;從第63種預處理方式開始,交叉驗證的均方根誤差波動下降,擬合優度波動上升。這可能是由于在某些預處理過程中,波長變量的重要信息被屏蔽掉了,影響模型的預測效果。比較而言,第4種預處理方法對應的RMSECV最小,為0.898 9,擬合優度為0.772 2。為提高模型的預測效果,以下均采用第4種預處理方法,即中心化預處理方法。

2.3 特征波長選取

光譜能夠體現所含物質的成分及含量,但也包含大量的冗余信息,在利用光譜數據分析之前,需要提取特征波長變量,以減少共線性的影響,提高模型的穩健性[16]。分別采用連續投影算法(SPA)、競爭性自適應重加權算法(CARS)提取特征變量。采用SPA算法進行變量選擇,指定波長變量數為2~50,采用均方根誤差最小來確定最終變量個數,變量選取過程如圖4所示。

從圖4可以看出,隨著所選變量個數的增加,均方根誤差有遞減的趨勢,當所選變量個數為7時,均方根誤差為1.121 0,此后隨著所選變量個數的增加,均方根誤差并無明顯減小反而有遞增的趨勢。這是由于過少的變量參與建模,遺漏掉重要的解釋變量,導致模型的預測精度較低;過多的變量參與建模,又會引起變量之間的共線性。綜合分析,選取出7個特征波長變量,對應波長為:911.06,932.90,1 065.87,1 110.91,1 385.35,1 612.63,1 665.41 nm。

圖4 變量的選取過程

采用CARS算法選擇特征波長變量,迭代50次,以均方根誤差最小來確定波長變量數,選取過程如圖5所示。

從圖5可以看出,隨著迭代次數的增加,均方根誤差呈先減小后增加的趨勢,到第17次迭代時,均方根誤差達到最小為0.831 4,此時選出的52個特征波長變量,對應波長為:1 049.87,1 053.06,1 059.46,1 062.66,1 069.07,1 078.70,1 136.81,1 140.05,1 143.30,1 153.06,1 156.31,1 159.57,1 162.83,1 166.09,1 169.35,1 172.61,1 175.88,1 179.15,1 195.51,1 248.20,1 268.08,1 375.21,1 378.59,1 422.67,1 426.08,1 429.48,1 432.89,1 436.30,1 511.78,1 518.68,1 522.14,1 598.63,1 602.13,1 605.63,1 609.13,1 612.63,1 616.14,1 619.64,1 623.15,1 626.66,1 630.18,1 644.25,1 647.77,1 651.29,1 654.82,1 661.87,1 676.01,1 679.55,1 683.09,1 690.17,1 697.27,1 700.82 nm。

圖5 變量選取結果

SPA和CARS兩種方法選取的變量如圖6所示。從圖6可以看出,SPA和CARS方法選取的特征波長變量只有一個在1 069 nm處重合,其他波長變量并沒有重合。SPA算法選出的911.06 nm特征波長,它位于C—H基團的4倍頻吸收帶附近,CARS算法選出的1 049.87,1 179.15,1 429.48 nm的特征波長分別位于N—H基團的3倍頻、C—H的3倍頻、O—H的2倍頻吸收帶附近。SPA算法和CARS算法都只是選出了部分與物質成分相關的變量,為了使波長變量更全面地反映物質的成分信息,考慮將兩種方法選出的特征變量組合起來。

圖6 選取的變量

2.4 模型建立

分別以SPA選出的7個特征波長變量、CARS選出的52個特征變量、兩種方法選出的特征變量的組合共58個作為輸入自變量(重合的特征波長變量只計算1次),分別建立線性模型和非線性模型。

線性模型選用經典的PLS模型,模型的預測效果如表3所示。從表3可以看出,將SPA和CARS方法選取的特征變量組合起來作為建模的輸入自變量,比單一的一種方法選出的特征變量建模的精度高,這是因為不同的特征變量反映的物質內部品質結構不同,多特征變量組合參與建模,可以更全面地反映物質的組成結構。

表3 PLS模型的預測結果

采用非線性的ELM算法建模,分別以SPA選出的特征變量、CARS選出的特征變量、組合的特征變量參與建模,選擇sigmoid函數作為激活函數,通過反復嘗試,隱含層節點數分別取30,23,33,模型的預測效果如圖7所示。從圖7可以看出,組合的特征變量建模效果優于單一方法選出的特征變量的建模效果。與表4進行比較,可以發現,同樣的特征變量參與建模,ELM模型的預測精度更高,這是由于蘋果內部的結構復雜,除了線性結構外,還有其他的非線性結構,因此,非線性的ELM模型預測效果優于線性的PLS模型。

圖7 ELM模型的預測結果

3 結論

對于中心化預處理之后的蘋果光譜數據,將連續投影算法選出的特征變量和競爭性自適應重加權算法選出的特征變量組合起來,能夠更全面地反映物質的成分信息,建模效果優于單一方法選出的特征變量的效果。同樣的特征變量參與建模,非線性的模型比線性模型更能反映蘋果內部的復雜結構。后續將研究多種方法選取特征變量,討論對模型預測效果的影響。

猜你喜歡
方根波長預處理
求解奇異線性系統的右預處理MINRES 方法
隨機振動均方根加速度計算方法研究及應用
杯中“日出”
高COD二噻烷生產廢水預處理研究
環境溫度和驅動電流對LED的峰值波長的影響
LED峰值波長對多光譜組合白光色參數的影響
我們愛把馬鮫魚叫鰆鯃
基于預處理MUSIC算法的分布式陣列DOA估計
數學魔術——神奇的速算
基于膜過濾的反滲透海水淡化預處理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合