?

基于便攜式近紅外光譜儀的藍莓熱風干燥過程模型的建立

2023-09-01 01:36黃積微李洋袁迪張欣碩李國慶
食品與發酵工業 2023年16期
關鍵詞:藍莓波長預處理

黃積微,李洋,袁迪,張欣碩,李國慶

(東北林業大學 工程技術學院,黑龍江 哈爾濱,150040)

藍莓因其富含維生素,礦物質和植物活性物質如多酚、類黃酮、花青素等,被世界糧農組織列為五大人類健康食品之一,被譽為“漿果之王”[1]。但由于其一般采收期在高溫多雨的7、8月夏季,采后果實代謝活動旺盛,且富含水分,貯藏環境稍有不當,就會在短時間內迅速變質,喪失商品價值[2]。因此,將藍莓果實加工為果干制品,通過去除細菌、酵母和霉菌等微生物所必須水分,抑制果實內酶的活性,使得果實中各類營養成分能夠長期得到較好保存,且在眾多干燥方式中成本最低,應用最廣泛的干燥方式仍是熱風干燥,準確監測藍莓在干燥過程中含水量對于確保干燥過程中的食品安全十分重要。

相較于具有破壞性、需要較大樣本量、耗時間的傳統研究方法,非破壞性、快速、成本較低的光譜技術近年來備受關注[3]。其中,近紅外光譜因為具有實時、高精度、非破壞性和設備小型化等優勢,在食品工業領域有豐富應用場景[4]。國內外研究人員已經將近紅外光譜技術應用于監測評估多種食品的理化指標[5],劉小路等[6-7]先后基于近紅外光譜技術方法建立藍莓可溶性固形物、總酸、總黃酮及花青素的近紅外檢測模型,曾明飛等[8]和朱金艷等[9]先后建立藍莓近紅外光譜新鮮度模型和近紅外結合極限學習的藍莓貯藏品質模型。近紅外光譜技術能夠實現準確檢測藍莓各項理化指標,但以往模型多是通過光譜預處理來提高模型精度,沒有對特征波段進行系統分析,且參與建模變量過多難以達到快速檢測目的。對于干燥過程,MALVANDI等[10]通過便攜式近紅外光譜儀結合機器學習對蘋果干燥過程硬度實現實時監測,KAPOOR等[11]同樣通過便攜式近紅外光譜儀實現了涂膜蘋果片水分含量的實時監測。但是將近紅外光譜技術應用于藍莓干燥過程監測的研究還較少。近年來,便攜式或微型近紅外光譜儀因其相當低廉的價格,被普遍應用于檢測食品特性[12-13],雖然由于這些微型儀器存在性能差異,但這些微型近紅外光譜儀仍能夠對食品各種性質進行準確預測[14]。所以,便攜式微型近紅外光譜儀是果蔬品質實時監測分析的一種快速經濟的解決方案。

綜上,本文以藍莓為研究對象,以便攜式近紅外光譜儀作為工具監測藍莓熱風干燥過程,并評估近紅外光譜預處理及特征變量優選方法,將篩選出的特征變量作為模型輸入變量,在保證預測精度及穩定性的基礎上減少變量數目,開發一個藍莓干燥過程含水率多變量快速檢測模型。為在實際生產及日后研究中,精準監測預測藍莓多品質指標提供理論參考和依據。

1 材料與方法

1.1 材料

“藍豐”藍莓于2021年11月購于哈爾濱市紅旗鄉藍莓小鎮。八成熟果實。大小均勻一致、表面蠟質完整、無病蟲害、無機械損傷,聚乙烯小盒單獨包裝,當日運回放置在4 ℃冷藏庫中預冷待處理。在試驗前多次精確稱取適量藍莓果實,110 ℃烘至恒重后計算果實含水率,藍莓初始含水率平均為(85.05±1.4)%。

1.2 儀器與設備

LabSpec Pro FR/A114260便攜式物質成分分析光譜儀及配套軟件(350~2 500 nm),美國ASD公司;FA2004B電子分析天平,上海舜宇恒平科學儀器有限公司;101-3A鼓風干燥箱,上海昕怡儀器儀表有限公司。

1.3 實驗方法

在試驗前準確稱取適量藍莓果實均勻平鋪于物料盤,放入設定溫度為65 ℃,風速2 m/s的鼓風干燥箱中,烘干至恒重,過程共用時17 h。干燥過程中每1 h稱量藍莓整體質量計算其含水率,并每1 h隨機取樣5顆藍莓果實樣品,分別使用光譜儀鏡頭在距離果實果蒂部、尾部和果腹部2 mm處,對準中心位置,設定掃描次數為32次,分辨率1 nm,取平均值,截取900~1 700 nm光譜數據作為樣品光譜數值,光譜文件由ViewSpec Pro軟件進行預處理并輸出數據。

1.4 含水率及干燥速率測定

參照GB 5009.3—2016《食品安全國家標準 食品中水分含量的測定》方法對藍莓果實干燥過程含水率及干燥速率進行測定。

干基含水率的測定如公式(1)所示:

(1)

式中:M,t時刻物料的干基含水率,%;mt,t時刻藍莓果實質量,g;me,干燥至恒重的藍莓果實質量,g。

干燥速率的計算如公式(2)所示:

(2)

式中:DR,干燥速率,g/(g·h);M1,t1時刻藍莓果實干基含水率,%;M2,t2時刻藍莓果實干基含水率,%;t1、t2,藍莓果實干燥時間,h。

1.5 建模方法及模型評價

1.5.1 異常樣本檢測剔除

為保證模型預測精確度,在建模前應當剔除光譜數據中的異常樣本,常用的異常樣本檢測方法有:濃度殘差剔除法、馬氏距離法、蒙特卡洛隨機抽樣算法、杠桿值法等。本文選取蒙特卡洛方法(Monte-Carlo sampling,MCS)進行255個光譜數據異常值的檢測剔除。

1.5.2 光譜預處理方法

根據900~1 700 nm全光譜數據構建原始藍莓干燥過程水分含量偏最小二乘(partial least squares,PLS)模型,由于在光譜獲取過程中,為消除樣本背景高頻噪聲、基線偏移、光散射等對光譜穩定性有影響的不利因素,本文對光譜數據進行一階微分(first-order difference,FD)、二階微分(second-order difference,SD)、多元散射校正(multiplicative scatter correction,MSC)和標準正則變換(standard normal variate transform,SNV)等光譜預處理方法對采集的光譜數據進行處理。

1.5.3 干燥模式研究

主成分分析法(principal component analysis,PCA)可以通過正交變換降低光譜數據高維度特性[15],將復雜的原始變量歸納為數個成分(PCs)[16],可以定性地監測其干燥過程,監測藍莓干燥過程中水分損失模式。在剔除異常樣本后,將均值中心化的光譜數據應用PCA模型中,獲得藍莓干燥過程中含水率與干燥時間的大致關系。以累積貢獻率選取最佳主成分數(PCs),以選取主成分模型方差與總樣本方差比率評價模型質量。

1.5.4 特征波長選取

近紅外光譜能夠反映所測物質成分及含量,光譜數據從900~1 700 nm共包含801個數據點,不可避免存在不同物質間存在共線性問題以及樣本背景噪聲,這些都會影響模型擬合精度,減低預測成分貢獻度,造成模型欠擬合或過擬合,從而影響模型可信度。所以,有必要對光譜數據進行特征波長選擇,精簡優選參與建模的光譜數據,提升建模效率,提高模型精度。常見的特征波長篩選方法有:PCA、無信息變量消除法(uninformative variables elimination,UVE)、移動窗口偏最小二乘法(moving-window partial least square,MWPLS)、競爭性自適應重加權采樣算法(competitive adaptive reweighted sampling,CARS)等。

其中MWPLS的基本原理為創設一個沿光譜軸線連續移動的窗口,對逐個光譜波長點移動的窗口內數據建立模型,進行交叉驗證從而確定模型主因子數,并建立最優PLS模型。通過改變移動窗口寬度和主因子數,根據均方根誤差選擇與待測組分高相關性的光譜區間[17]。

CARS是通過自適應重加權采樣(adaptive reweight sampling,ARS)技術篩選出建立的PLS模型中具有較大回歸系數的光譜波長點。最后取較大回歸系數光譜波長與具有最低交叉驗證標準偏差(root mean square error of cross,RMSEC)的波長子集,從而最終確定與待測組分強相關性的數據組合[18]。

蒙特卡洛無信息變量消除法(Monte Carlo uninformative variable elimination,MCUVE)是通過蒙特卡洛方法對光譜矩陣進行隨機采樣,并建立PLS模型,計算每個模型回歸系數,并利用無信息變量方法定義計算每個變量的重要性指標Ci,然后從大到小排列每個變量重要性指標Ci的絕對值,依次求以其變量建立的PLS模型預測集的預測結果,并選取預測均方根誤差(root mean square error of prediction,RMSEP)最小時所對應的模型,將該模型最后加入的Ci作為閾值N,將大于閾值N的|Ci|所對應波長作為特征波長選取,將小于閾值N的|Ci|所對應波長作為無信息變量刪除[19-20],計算如公式(3)所示:

(3)

式中:|Ci|,模型第i個波長變量重要性指標的絕對值;mean(bi),采樣各波長集合均值;std(bi),采樣各波長集合標準差。

最后對上述3種方法中所篩選特征波長數目及其建立的PLS模型性能進行比較,選取性能最好的特征波長選取方法,將其選取變量作為模型輸入變量,降低矩陣維度,提升計算速率。

1.5.5 模型評價及模型評價

在常用近紅外光譜分析建模中,針對小樣本量、多變量和變量間相關性強的光譜數據,逐步增加信息、可以一定程度消除光譜噪聲的偏最小二乘回歸PLS法具有獨特優勢。偏最小二乘回歸是多元線性回歸和主成分回歸法的結合體,故本文選取PLS法進行建模分析,并采用蒙特卡洛交叉驗證方法(Monte-Carlo cross-validation,MCCV)進行原始樣本主成分選取。

將近紅外光譜數據導入化學計量學軟件UnscramblerX中進行預處理,然后在軟件Matlab R2021a中應用MWPLS、CARS和UVE 3種方法對近紅外光譜建立的PLS模型進行特征變量優選,比較模型選取波長數目及模型性能,選擇最優特征變量選擇方法建立藍莓干燥過程含水率近紅外偏最小二乘回歸模型。

(4)

(5)

1.6 數據分析

光譜數據導出及預處理在化學計量學軟件Unscrambler X中進行,數據存儲、計算、繪圖及建模在軟件Matlab R 2021a及Origin 2019b中進行。

2 結果與分析

2.1 藍莓果實干燥特性

如圖1所示為65 ℃熱風下藍莓果實干燥過程干基含水率和干燥速率變化曲線。如圖1-a所示,隨著干燥過程的進行,藍莓果實從最初5.22的干基含水率下降至恒重。如圖1-b所示,藍莓干燥速率在干燥過程中大致可分為3個階段,1~4 h為升速階段,5~8 h為恒速階段,9~17 h為降速階段。藍莓干燥是從外至內的水分散失過程,干燥初期果實與熱風對流較充分,干燥速率較快,且隨著果實溫度上升,干燥速率進一步上升。干燥中期,果實內部與外部形成水分差,果實內部水分向外擴散并被蒸發,干燥速率趨于平穩,干燥后期,隨著干燥過程的深入,果實內部水分階梯趨于平穩,水分擴散速度放緩,干燥速率逐步下降。此結果與李星琪等[21]結果類似。

a-干燥曲線圖;b-干燥速率圖

2.2 藍莓干燥過程近紅外光譜特征及異常樣本剔除

如圖2所示為藍莓干燥過程近紅外光譜反射率光譜(原始共255個樣本光譜,將每1 h光譜數據求均值展示)。所有時間段的近紅外光譜圖像均顯示出類似的光譜趨勢,O—H拉伸振動的一級倍頻在1 450 nm 處產生,而二級倍頻在960 nm產生峰值變化。1 200 nm反射波谷的出現主要是由于果實中糖類C—H鍵一級諧振。水分最后一個反射波谷是由于水中O—H鍵及碳水化合物O—H鍵重疊在1 450 nm左右。特別是,隨著干燥的進行,藍莓果實整體反射率向較高反射方向移動,其中1 450 nm處的反射波谷逐漸加深,主要可能是由于干燥過程中果實水分減少,而糖類和其他可溶性物質濃度升高,導致果實中整體氫鍵的減少。

圖2 藍莓干燥過程樣本近紅外光譜圖

MCS因具有可有效檢測多個異常值,且可同時檢測光譜異常值和理化參照值異常值等優勢,在檢測回歸分析異常樣本中的應用越來越多[22]。試驗參數設置為:對藍莓干燥過程原始近紅外光譜PLS模型進行MCCV驗證得到最佳潛在主成分數:11,并對模型進行均值中心化預處理;抽樣次數設置為2 500次,蒙特卡洛抽樣所得校正集與測試集比例為4∶1,并將預測誤差均值與標準差的2.5倍作為均值與標準差閾值,將閾值外的樣本視為離群樣本進行剔除[23]。如圖3所示為試驗所得藍莓干燥紅外光譜蒙特卡洛異常樣本檢測結果。

圖3 基于蒙特卡洛方法的藍莓干燥過程近紅外光譜異常樣本檢測結果

圖3中水平與垂直虛線為預測誤差均值與標準差閾值線。其中離群點為178、213、216、219、227、229、232、241、250、251、254號,共11個離群點。將剔除離群點后的光譜數據作為之后研究原始光譜數據,建立含水率PLSR模型,由MCCV計算原始光譜決定系數R2為0.859 0,RMSECV為0.079 2。說明原始數據預測模型效果較好,可信度較高,達到模型交叉驗證檢驗要求,可用于之后數據處理。

2.3 藍莓含水率定性監測

將PCA應用至光譜數據中,獲得藍莓果實干燥過程中每隔1 h的水分損失模式,定性地監測其干燥過程。如圖4所示,顯示了2個主成分數下的PCA分數分布圖,即只需要2個主成分就可以充分描述藍莓干燥過程的光譜變化。其中,PC1(97%)已經覆蓋絕大部分光譜數據,且隨著干燥過程發展,近紅外光譜在得分集從高含水率到低含水率(從左到右)展現出明顯分離。

圖4 不同時間間隔藍莓近紅外光譜得分圖

2.4 光譜預處理對全波長模型影響

如表1所示,對于藍莓干燥近紅外光譜進行預處理后,其中SNV預處理略微提升了原始PLS模型的性能,但FD、SD和MSC等預處理方法反而增大了模型均方根誤差,降低模型相關性。這說明光譜預處理方法并不一定會提升原始模型的性能,這是因為常用的光譜預處理方法一般應用于消除特定的光譜影響,不同的預處理方法是基于光譜數據影響因素的不同假設從而對光譜進行處理。對光譜數據進行預處理,會在一定程度上改變數據結構,從而影響模型預測結果。與第五鵬瑤等[24]關于預處理方法不僅和光譜數據有關還和待測組分有關,不存在普適性光譜預處理方法,選擇預處理方法也大多基于實驗者經驗和建模效果嘗試的結論類似。由于在本研究中原始光譜PLS模型比預處理后模型表現出更好性能,又由2.2節中模型所示,原始光譜數據剔除異常值后特征明顯,故在本文以下章節中,將基于原始光譜數據模型進行優化。

表1 不同光譜預處理后藍莓干燥過程含水量PLS模型結果

2.5 近紅外光譜特征波段選取

2.5.1 MWPLS

移動窗口偏最小二乘法通過提取相鄰波長點克服無關信息對模型預測干擾,使之能更有效地提取實際測量值中的樣本相關屬性。如圖5所示,光譜窗口寬度為40時,從所測光譜起點900 nm依次向右移動一個波長點至1 661 nm,對每個窗口建立PLS模型,對比每個窗格所建立模型RMSEP,最優窗格為926~965 nm,RMSEP最小值為0.058 4。

圖5 基于MWPLS的藍莓干燥近紅外光譜特征窗口篩選結果

2.5.2 CARS

通過CARS方法對藍莓干燥過程光譜進行特征變量篩選,結果如圖6所示。圖6-a~圖6-c分別表示在模型運行次數在50次下,CARS算法中樣本變量數目、RMSECV數值和變量回歸系數隨著運行次數的變化趨勢。

a-變量數目變化趨勢;b-RMSECV變化趨勢;c-變量回歸系數變化趨勢

圖6-a顯示模型采樣運行到50次過程中,藍莓干燥近紅外光譜參與模型的樣品變量數目呈由快至慢的遞減趨勢,這主要是由于CARS算法中指數衰減函數的存在。表明在采樣次數較少時,算法快速剔除無關信息變量,隨著采樣次數增加,算法剔除速率降低,進一步精簡樣本變量數目。

圖6-b表示模型采樣運行到50次過程中,模型RMSECV的變化趨勢。如圖6所示,采樣次數在36次,光譜數據中大部分包含無關信息的波長變量被去除,但在36次后,RMSECV數值一直處于上下波動狀態,這主要是由于采樣次數達到36次后一些關鍵信息也被剔除,導致模型性能變差;采樣次數達到39次后大量無關信息與部分關鍵信息被剔除,使模型趨于穩定;46次采樣后,最后關鍵信息也被去除,導致模型性能急劇下降。

圖6-c表示藍莓干燥近紅外光譜數據在算法采樣過程中回歸系數變化路徑,其中“*”號組成豎線表示在算法運行中所對應殘差值最小的采樣次數:36,即當采樣次數為36時,所獲得的特征變量集合建立的偏最小二乘回歸模型的RMSECV最小,由此篩選出11個關鍵特征變量。

如圖7所示,CARS法篩選出的特征變量為1 146、1 150、1 163、1 175、1 198、1 227、1 322、1 326、1 395、1 659、1 667 nm。

圖7 基于CARS的藍莓干燥近紅外光譜變量選取結果

2.5.3 MCUVE

MCUVE方法是在UVE的基礎上增加了蒙特卡洛隨機采樣原理,通過輸入變量對模型重要性指標決定變量是否選取。

如圖8所示,僅使用虛線以上的變量建立PLS模型。其中最優保留數目為33,絕大多數選取變量位于900~1 000 nm。選取波長如表2所示。

表2 基于MCUVE的藍莓干燥近紅外光譜變量選取結果

圖8 基于MCUVE的藍莓干燥近紅外光譜變量貢獻度結果

2.5.4 藍莓熱風干燥監測模型

表3給出MWPLS、CARS和MCUVE 3種特征波長選取方法對藍莓干燥過程含水率的波長選取結果及其建立的PLS模型性能。

表3 基于不同方法的藍莓干燥近紅外光譜變量選取數量及性能

如表3所示,其中3種特征波長選取方法均能提升PLS模型性能,減少變量數量,提升預測速度,其中CARS方法較之其他2種方法,特征波長數量最少,且能夠大幅提升原始PLS模型性能,使之達到定量研究目的。R2僅比MCUVE方法低0.008 1。MWPLS與MCUVE方法選取波長集中于光譜前段,并未完全覆蓋水分特征波段,只是達到局部最優,難以從存在信息重疊的光譜數據中有效消除無關組分影響。因此。CARS方法最適用于優選藍莓干燥近紅外光譜波長。

3 結論

本文以藍莓研究對象,建立了一種基于便攜式近紅外光譜的藍莓干燥過程含水量無損快檢模型。在主成分定性分析和蒙特卡洛離群點檢測法的基礎上,分別探討了導數法、多元散射校正、正交信號校正法和Savitzky-Golay卷積平滑法等光譜預處理方法對藍莓干燥光譜PLS模型的影響,比較了MWPLS、CARS和MCUVE 3種特征變量選取方法對PLS模型影響,最終確定基于CARS建立的藍莓干燥過程PLS模型選取具有相對最優性能,其特征波長個數最少為11,預測R2為0.946 5,預測誤差RMSEP為0.047 3。能夠滿足藍莓干燥過程含水率定量研究目標。為近紅外光譜快速監測藍莓品質指標提供了理論及應用指導。

猜你喜歡
藍莓波長預處理
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
藍莓建園技術
藍莓姑娘
基于預處理MUSIC算法的分布式陣列DOA估計
雙波長激光治療慢性牙周炎的療效觀察
西海岸的藍莓名片
甜甜的藍莓果
日本研發出可完全覆蓋可見光波長的LED光源
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合