?

基于無參數高效算法的近紅外光譜模型傳遞研究

2023-03-07 06:22劉翠玲徐金陽孫曉榮張善哲昝佳睿
農業機械學報 2023年2期
關鍵詞:酸值標樣方根

劉翠玲 徐金陽 孫曉榮 張善哲 昝佳睿

(1.北京工商大學人工智能學院,北京 100048;2.北京工商大學食品安全大數據技術北京市重點實驗室,北京 100048)

0 引言

近紅外(Near infrared,NIR)[1-2]光譜技術因其快捷、無損、綠色等特點,目前已廣泛應用于食品[3-5]、醫藥[6]和農業[7]等領域。但是,隨著近紅外光譜儀發展的多樣性,不同光譜儀間的多元校正模型無法實現共享,重新建立校正模型需要大量的人力和財力。解決這類問題的方法稱為模型傳遞[8](Calibration transfer),其核心思想是消除樣本在不同光譜儀器間測量信號的差異,從而實現校正模型的共享。

模型傳遞分為有標樣傳遞與無標樣傳遞[9]。近年來,國內外學者對有標樣模型傳遞算法應用進行了研究。溫曉燕等[10]利用直接標準化(Direct standardization,DS)和分段直接標準化(Piecewise direct standardization,PDS)算法對甲醇汽油進行模型傳遞研究;BROUCKAERT等[11]采用斜率偏差校正法(Slope/bias,S/B)對工業液體洗滌劑的成分進行模型傳遞研究。其次,國內外學者也對無標樣模型傳遞算法的應用進行了研究。宋海燕等[12]將有限脈沖響應(Finite impulse response,FIR)算法應用到土壤有機質的模型傳遞研究;WANG等[13]將穩定競爭自適應重加權采樣(Stability competitive adaptive reweighted sampling,SCARS)算法應用在樹葉葉綠素濃度模型傳遞的研究。以上算法均實現模型傳遞,但方式相對單一且獨立,只能選擇有標樣傳遞或無標樣傳遞的其中一種方式實現,無法將兩種方式聯合應用,導致傳遞模型的適用范圍較小。

無參數高效模型傳遞算法(Parameter-free and efficient calibration enhancement,PFCE)[14]根據有無標準樣品分為無標樣傳遞PFCE(Non-supervised PFCE,NS-PFCE)算法和有標樣傳遞PFCE(Full-supervised,FS-PFCE)算法。PFCE算法將兩種傳遞方式聯合應用,具有效率高、設置簡單的優點,并成功應用于藥品[14]、植物葉片[15]、水果[16]模型傳遞的研究。

本文采用PFCE算法結合偏最小二乘回歸(Partial least squares,PLS)建立傳遞模型,分別實現食用油酸值與過氧化值的有標樣與無標樣傳遞。并與經典的3種有標樣傳遞算法和2種無標樣傳遞算法進行對比,以期將模型傳遞更好地應用于近紅外光譜檢測。

1 材料與方法

1.1 實驗儀器

實驗在北京工商大學光譜技術與品質檢測實驗室完成,光譜檢測儀器為Bruker公司的VERTEX-70型傅里葉紅外光譜儀和MATRIX-F型傅里葉紅外光譜儀。儀器參數見表1。

表1 光譜儀器和參數

主機和從機分別對同一樣品進行光譜采集,采集范圍為9 000~5 000 cm-1;光譜采集參數設置:樣本掃描次數為32;背景掃描次數為32;光闌 6 mm;掃描頻率10 kHz。

1.2 實驗材料

為了構建食用油通用模型,選取北京古船食品有限公司的5種食用油樣品,共計129個,其中包含19個玉米油、25個芝麻香油、56個大豆油、5個橄欖油、24個小磨香油樣本。并依據文獻[17-18]測定所有食用油樣本酸值與過氧化值。

1.3 樣品劃分

在近紅外光譜模型傳遞分析中,通常把樣本劃分成訓練集和預測集。光譜-理化值共生距離(Sample set partitioning based on joint x-y distances,SPXY)[19]是一種有效的樣品集劃分方法,原理是分別采用光譜數據和樣本理化值作為參數特征計算樣品間距離,以保證最大程度表征樣本分布,增加樣本間差異性和代表性,并提高模型穩定性和準確性。

1.4 PFCE模型傳遞算法

根據使用場景不同,無參數高效模型傳遞算法(PFCE)分為NS-PFCE無標樣模型傳遞算法和FS-PFCE有標樣模型傳遞算法。NS-PFCE僅使用食用油樣本光譜信息實現模型傳遞,而FS-PFCE則需要食用油樣本的光譜信息與理化值信息共同作用實現模型傳遞。

1.4.1主機PLS多元校正模型建立

偏最小二乘回歸(PLS)[20]是一種經典的統計學方法,已經成為衡量校正模型效果的最佳標準。采用PLS方法建立食用油的多元校正模型,并通過選擇最佳潛在變量的數量來優化模型。

主機光譜儀采集的樣品光譜數據記為Xmaster并與樣本理化值y建立主機的線性回歸模型,并得到預測值,即

(1)

式中b0,master——主機模型截距

bmaster——主機模型回歸系數

e——和y之間的預測誤差

1.4.2NS-PFCE無標樣模型傳遞算法

從機光譜儀采集的樣品光譜數據記為Xslave,將主機模型截距b0,master和回歸系數bmaster代入NS-PFCE算法的成本函數,使從機模型盡可能接近主機模型,即:主機模型預測值與從機模型預測值誤差最小,從而尋找最優的從機模型截距b0,slave和回歸系數bslave,即

(2)

式中 corr(·)——bmaster和bslave間的相關系數運算函數

rthres——約束閾值

為了加快函數收斂速度并減少搜尋空間,在主機模型與從機模型的回歸系數間施加相關系數的約束閾值rthres,且為了防止出現欠擬合與過擬合的情況,將rthres設置為0.98。

1.4.3FS-PFCE有標樣模型傳遞算法

相比NS-PFCE無標樣模型傳遞算法,FS-PFCE有標樣模型傳遞算法不僅需要主機光譜數據Xmaster與從機光譜數據Xslave,還要食用油樣本理化值真實值y。相似地,通過FS-PFCE算法的成本函數得到最優的從機模型的截距b0,slave和回歸系數bslave,即

(3)

FS-PFCE算法的成本函數不僅計算了主機光譜與從機光譜的預測誤差,還計算了真實值與從機預測值的誤差。同樣,防止出現欠擬合與過擬合的情況,將rthres設置為0.98。

1.5 模型傳遞評價指標

模型的評價指標選擇決定系數(Correlation coefficient of cross-validation,R2)、訓練集均方根誤差(Root mean square error of calibration,RMSEC)和預測集均方根誤差(Root mean square error of prediction,RMSEP)。R2越接近1且RMSEC與RMSEP越小,表明模型傳遞效果越好。

2 結果與分析

如圖1所示,主機和從機所采集的食用油樣品的平均吸光度在波段9 000~5 000 cm-1之間,共2 074個波數點??梢钥闯鲋鳈C光譜和從機光譜存在明顯的非線性差異,吸光度差值在波段 9 000~8 750 cm-1存在較大偏差。

圖1 主、從機的食用油平均吸光度及光譜差值

2.1 樣本劃分

采用SPXY算法按照比例3∶1選取97個食用油樣本作為訓練集,32個樣本食用油作為驗證集,用于建立酸值和過氧化值定量分析模型。食用油樣本酸值和過氧化值的數據集劃分如表2所示,其中預測集的數值范圍均在訓練集之內,表明預測集可以對模型的性能進行驗證。

表2 食用油樣品數據集劃分

2.2 主機模型預測結果

為了消除噪聲干擾等因素對建模效果的影響,分別采用Savitzky-Golay(S-G)平滑卷積[21]、多元散射校正(Multiplicative scatter correction,MSC)[22]、標準正態變量變換(Standard normalized variate,SNV)[23]、一階導數和二階導數[24]共5種預處理算法處理光譜數據。選擇最優預處理算法后建立主機酸值與過氧化值偏最小二乘校正模型,不同預處理條件下主機PLS校正模型預測結果如表3、4所示。

表3 不同預處理條件下主機PLS校正模型酸值預測結果

表4 不同預處理條件下主機PLS校正模型過氧化值預測結果

從表3、4可看出,采用5種不同預處理算法處理食用油光譜的建模效果比直接使用原始光譜的建模效果均有提升。其中,主機酸值模型MSC算法預處理效果最優,預測集決定系數R2達0.948,預測值均方根誤差RMSEP為0.249 mg/g。主機過氧化值模型SNV算法預處理效果最優,預測集決定系數R2達0.954,預測值均方根誤差RMSEP為7.749 mmol/kg。

MSC和SNV算法的本質是消除樣品表面散射和光程變化等因素對光譜產生的影響,故二者算法不同程度地消除了食用油因液體表面張力引起的散射,所以預測效果優于其他算法,也有效提高了模型預測精度。

2.3 PFCE算法模型傳遞及預測結果

按照PFCE算法分類進行NS-PFCE無標樣模型傳遞算法與FS-PFCE有標樣模型傳遞算法。利用NS-PFCE與FS-PFCE算法得到的最優截距和回歸系數分別構建從機預測模型,并將從機的32個食用油樣本分別代入以上兩種模型進行預測,預測的食用油酸值散點圖如圖2、3所示,預測的食用油過氧化值散點圖如圖4、5所示。

圖2 主機與NS-PFCE算法預測食用油酸值散點圖

圖3 FS-PFCE算法預測食用油酸值散點圖

圖4 主機與NS-PFCE算法預測食用油過氧化值散點圖

圖5 FS-PFCE算法預測食用油過氧化值散點圖

食用油酸值與過氧化值建模及預測結果見表5。由表5可知,當從機樣品集未進行模型傳遞直接代入主機模型進行預測時,酸值預測集均方根誤差從原先的0.249 mg/g上升到0.613 mg/g,過氧化值預測集均方根誤差從原先的7.749 mmol/kg上升到16.153 mmol/kg,預測結果偏差較大,表明從機樣本不能直接應用于主機模型,需要對從機樣本進行模型傳遞。

表5 食用油酸值與過氧化值建模及預測結果

分別采用NS-PFCE無標樣模型傳遞算法與FS-PFCE有標樣模型傳遞算法進行傳遞后,模型預測效果均有明顯提升。NS-PFCE算法傳遞后,酸值的RMSEP下降到0.275 mg/g,過氧化值的RMSEP下降到9.523 mmol/kg。而FS-PFCE算法傳遞后,酸值的RMSEP下降到0.274 mg/g,過氧化值的RMSEP下降到8.945 mmol/kg。經兩種算法傳遞后的模型預測效果均有所改善,說明PFCE算法使得從機樣本能更好地適用于主機模型。且相比之下,FS-PFCE有標樣模型傳遞算法的傳遞效果優于NS-PFCE無標樣模型傳遞算法,說明有無標準樣品成為PFCE算法傳遞效果的關鍵。

2.4 標準化樣品數目對模型傳遞的影響

為了進一步探究標準化樣品數目對PFCE算法模型傳遞效果的影響,采用SPXY算法依次從原批次食用油樣本的訓練集中選取20、40、60、80、100個標準化樣品集,食用油酸值與過氧化值建模效果與預測均方根誤差如圖6所示。

從圖6a可知,經NS-PFCE和FS-PFCE算法傳遞后的酸值預測均方根誤差均與訓練集標準化樣品數目有關,且隨著標準化樣本數目的增加,預測集均方根誤差越小。當標準化樣品個數為100時,預測均方根誤差達到最小值,經NS-PFCE算法和FS-PFCE算法傳遞后酸值的RMSEP分別下降到0.283、0.276 mg/g。由圖6b可知,經以上兩種算法傳遞后過氧化值預測均方根誤差與訓練集標準化樣品數目呈相同規律,且當標準化樣品個數為100時,預測均方根誤差也達到最小值,傳遞后過氧化值RMSEP分別下降到9.498、8.945 mmol/kg。

圖6 不同標準化樣品數目預測均方根誤差

相比之下,經FS-PFCE算法傳遞后的預測集均方根誤差均小于NS-PFCE算法,說明FS-PFCE有標樣模型傳遞算法的傳遞效果優于NS-PFCE無標樣模型傳遞算法。

2.5 PFCE算法傳遞效果比較

為了評估PFCE算法的模型傳遞效果,研究比較S/B、DS和PDS有標樣模型傳遞算法,同時也比較FIR和SCARS無標樣模型傳遞算法。將從機32個樣本集分別代入以上經不同算法傳遞后的校正模型進行預測,4種有標樣模型傳遞算法與3種無標樣模型傳遞算法預測結果如表6、7所示。

表6 4種有標樣模型傳遞算法酸值與過氧化值模型預測結果

對比4種有標樣模型傳遞算法,均有效地降低酸值和過氧化值預測集均方根誤差,提升從機樣本對主機模型的適應能力。其中NS-PFCE算法傳遞效果最優,對比3種無標樣模型傳遞算法,也都有效地降低了酸值和過氧化值預測集均方根誤差。FS-PFCE算法傳遞效果仍是最優。

表7 3種無標樣模型傳遞算法酸值與過氧化值模型預測結果

2.6 討論

PFCE算法包含無標樣模型傳遞算法和有標樣模型傳遞算法,其傳遞效果均優于經典有標樣和無標樣算法,使模型傳遞算法不再局限于其中一種傳遞方式,提高了模型傳遞適用性和包容性。且相比之下,有標樣模型傳遞算法的傳遞效果優于無標樣模型傳遞算法,說明有無標準樣品成為模型傳遞算法效果的關鍵。另外,PFCE算法無參數,只需設置相關系數的閾值,模型傳遞效率高,使得從機樣本更接近于主機模型,從而實現了不同儀器間多元校正模型的共享。

3 結論

(1)經NS-PFCE算法傳遞后的從機樣本酸值預測模型RMSEP從0.613 mg/g降低到0.275 mg/g,過氧化值的RMSEP從16.153 mmol/kg降低到9.523 mmol/kg;而FS-PFCE算法傳遞后的從機樣本酸值預測模型的RMSEP降低到0.274 mg/g,過氧化值的RMSEP降低到8.945 mmol/kg。分別對比其余4種有標樣模型傳遞與3種無標樣模型傳遞,PFCE算法的預測效果最優,且FS-PFCE算法均優于NS-PFCE算法。此外,PFCE算法隨著標準化樣本數目的增加,預測集均方根誤差減小。

(2)聯合模型傳遞的有標樣傳遞算法和無標樣傳遞算法,采用PFCE中NS-PFCE無標樣算法和FS-PFCE有標樣算法分別實現了食用油的酸值與過氧化值在不同儀器間的傳遞。并與DS、PDS、S/B的有標樣算法和FIR、SCARS無標樣算法進行對比研究。PFCE算法有效地降低主機與從機之間的光譜差異,提高了從機樣本在主機模型的適應度,實現了不同光譜儀間的模型共享。

猜你喜歡
酸值標樣方根
方根拓展探究
火花源原子發射光譜法檢測鋼中硫元素時分析精度降低的原因探究和問題改善
自制標樣提高X射線熒光光譜儀壓片法曲線的準確度
柴油酸度和酸值測定結果差異性研究
優質橄欖油如何購買
我們愛把馬鮫魚叫鰆鯃
均方根嵌入式容積粒子PHD 多目標跟蹤方法
數學魔術
Al2(SO4)3/SiO2催化高酸值生物柴油原料降酸值研究
淺談化學檢測中標樣量值的準確性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合