?

大米蛋白粉多組分含量近紅外光譜快速檢測

2021-07-29 04:05關婷予黃詠梅周新奇
中國糧油學報 2021年6期
關鍵詞:蛋白粉光譜水分

關婷予 黃詠梅 林 敏 周新奇

(中國計量大學計量測試工程學院1,杭州 310018)(杭州譜育科技發展有限公司2,杭州 311305)

中國是世界上稻谷產量最大的國家,大米蛋白粉是大米的深加工產物。大米蛋白具有極高的營養價值[1],并且其氨基酸組成接近于 WHO/FAO 推薦的營養模式[2],與其他植物蛋白及乳清蛋白相比具有低敏性,可以免于過敏實驗[3]。隨著加工工藝的發展,改性大米蛋白被人們認可,逐漸發展成為嬰幼兒食品、運動營養劑的重要原料[4],并作為添加劑開發應用于食品工業[5]。

大米蛋白粉為加工產品,不同提取工藝及提取精度會影響大米蛋白粉品質,蛋白質、脂肪與水分的含量是衡量品質優劣的重要指標。傳統化學方法成分測定過程復雜且檢測時間長,處理過程對樣品具有破壞性,不能滿足現代質量檢測的需求,急需快速無損的檢測方法。近紅外光譜技術是一種無損檢測技術,具有檢測速度快的優點,已用于糧食作物[6]、食品成分含量分析中[7]。邱燕燕等[8]利用近紅外光譜技術結合偏最小二乘(PLS)快速檢測豆漿中蛋白質、脂肪和可溶性固形物含量;Joe等[9]應用近紅外光譜技術建立小麥中的水分、淀粉、蛋白質等的定量分析模型。大米蛋白粉中蛋白質、脂肪和水分由含氫基團構成,近紅外光譜主要反映了含氫基團倍頻和組合頻的吸收信息,因此可通過近紅外光譜結合化學計量學方法對其含量進行檢測。近紅外光譜建模方法大多采用PLS[10],是光譜數據處理軟件中的常用方法。但當待測樣品的光譜數據與理化值存在非線性關系時,PLS預測精度不高[11],需要探索新的化學計量學方法提高預測精度。本研究利用近紅外光譜技術結合自適應極限學習機(ELM)模型預測大米蛋白粉中蛋白質、脂肪和水分的含量,為大米蛋白粉中含量快速測定提供新方法,可實現加工廠家對加工原料中成分含量的快速分析。

1 材料與方法

1.1 樣品采集與處理

大米蛋白粉樣品采自福建省漳州市、安徽省滁州市、陜西西安、河南鄭州及湖北武漢等不同地區,采集不同存放時間、樣品各成分含量分布范圍較大的244份大米蛋白粉。將樣品密封存放于干燥、陰涼處并盡快進行近紅外光譜分析。

1.2 近紅外光譜采集

采集光譜所用儀器為杭州聚光科技有限公司生產的SupNIR-2720近紅外多功能采集儀,儀器采用全息數字式光柵和高靈敏度銦鎵砷檢測器相結合,采集范圍1 000~1 800 nm,采樣波長間隔1 nm,一個樣品800個光譜數據,光譜分辨率為10.9 nm,旋轉掃描次數30次,取平均作為測量光譜。實驗溫度(25±1) ℃,且避免陽光直射。采集光譜前儀器預熱30 min,傾倒大米蛋白粉使其自然填滿樣品盤,防止裝樣松緊度對測量光譜產生影響,并將樣品上表面刮平。儀器通過性能測試后,以白板作為參比,計算樣品吸光度,最終得到244份原始光譜數據。

1.3 理化值測定

光譜測量后將樣品分為3份,按國家標準分別測量蛋白質、脂肪和水分含量。蛋白質按照GB 5009.5—2016 《食品安全國家標準 食品中蛋白質的測定》中凱氏定氮法測量氮含量;脂肪按GB 5009.6—2016《食品安全國家標準 食品中脂肪的測定》索氏提取法開展實驗;水分按照國家標準GB 5009.3—2016《食品安全國家標準 食品中水分的測定》恒重法計算水分含量。最終得到表1大米蛋白粉中各成分含量。

表1 大米蛋白粉主要成分含量統計值

由表1可知,大米蛋白粉樣品中蛋白質、脂肪和水分的含量分布較廣,所選樣品有一定的差異和代表性,符合近紅外光譜建模要求。

1.4 近紅外光譜模型的建立

1.4.1 光譜數據預處理

為了消除光譜采集過程中不可避免的噪聲,減少外界因素的影響以及簡化數據分析中的計算,在建模分析前,先對數據進行預處理[12,13]。分別采用二階導數(2ndDer)、去除趨勢(Detrend)、標準正態變量校正(SNV)和小波變換(WT),選擇大米蛋白粉的預處理方法。

1.4.2 極限學習機建模

極限學習機(ELM)是一種單隱含層前饋神經網絡[14],因其學習速度快,泛化性較好而應用于定量預測[15]或定性分類[16]中。將預處理后的光譜數據及樣品理化值作為輸入,模型輸出為大米蛋白粉中蛋白質、脂肪和水分的預測含量,ELM模型如圖1所示。其中x1,x2,…,xm為m個樣品的光譜數據,h為隱含層節點,p為隱含層節點數,ωij為連接輸入層與隱含層的權重,bij為隱含層偏置;βij為需要訓練的輸出層權重,y1,y2,…ym為ELM模型預測的成分含量。人工調節p值后,通過權重βij及光譜數據xm可得成分預測含量ym。

1.4.3 自適應極限學習機

經典ELM模型初始參數輸入層權重(ω)和隱含層偏置(b)是隨機確定的,預測效果不穩定,因此先將ω和b進行自適應尋優,提高ELM的穩定性。另外ELM的隱含層節點數p決定了模型的精度及過擬合程度,隱含層節點數可選范圍較廣,且人工試驗方法無法直觀判斷出精度最高、過擬合最小的節點數,因此需要對其進行自適應尋優。本研究提出的自適應ELM優化過程如圖2所示。

初始化參數ω和b采用粒子群算法(PSO)[17]進行優化。PSO尋優時有多個粒子且信息互通,更易找到全局最優解。將ω和b作為PSO的粒子,隨著迭代次數的增加向著訓練集均方根誤差(RMSEC)減小的方向調整。

隱含層節點數p采用線性加權評價法確定。首先確定評價預測模型優劣的指標為預測精度及過擬合程度,接著根據指標的重要程度分配權重m,將不同隱含層節點數下ELM的輸出線性加權求和,最后根據線性加權求和結果,自適應的選取最優隱含層節點數。

圖1 極限學習機網絡模型

圖2 自適應ELM優化過程示意圖

1.4.4 模型評價

將大米蛋白粉樣品按照2∶1的比例分為訓練集和預測集,訓練集用來建立模型,預測集用來檢驗模型的預測能力。模型精度由預測集均方根誤差(RMSEP)及預測集決定系數(R2)[18]決定,過擬合程度由RMSEC與RMSEP之差的絕對值判斷。RMSEP表示預測值與實際值的差異,越接近于0越好,R2表示預測值與實際值的相關程度,越接近于1越好。

2 結果與分析

2.1 原始光譜

采用光譜儀對大米蛋白粉進行掃描測量,為了防止偶然誤差,由同一實驗員操作兩次取平均作為測量光譜,大米蛋白粉的原始光譜曲線如圖3所示。

圖3 大米蛋白粉原始光譜

近紅外光譜主要反映了有機物分子中C—H、O—H、N—H鍵基頻振動的倍頻和組合頻信息。大米蛋白粉樣品中蛋白質、脂肪和水分各成分含量不同,吸光度也不同,因此峰值高低與大米蛋白粉中的成分含量相關。大米蛋白粉在1 193、1 505、1 730 nm附近有三個吸收峰,蛋白質中N—H的伸縮振動一級倍頻在1 500 nm左右、脂肪中C-H振動的一級倍頻、二級倍頻分別在1 730、1 193 nm附近,水在1 730 nm及1 193 nm附近有的組合頻吸收[19]。不同成分的吸收峰有重疊,僅通過光譜曲線無法判斷各成分含量,因此需結合數據分析方法,建立光譜數據與成分含量的非線性關系模型。

2.2 光譜數據預處理方法

通過馬氏距離剔除4個異常樣品。剩余的240組數據分別采用不同預處理方法的結果如表2所示。

表2 不同預處理方法對大米蛋白粉各成分含量預測模型的影響

由表2可知, WT預處理方法效果最好。圖4a為任意選取的3個樣品的原始光譜,圖4b為利用小波變換系數進行重構的光譜曲線,由圖可知,WT可較好的還原原始光譜數據,小波系數重構光譜數據與原始光譜數據的均方根誤差為1.46×10-4。WT將800個原始光譜數據用52個小波系數代替,消除冗余的光譜數據,大大簡化了后續建模的復雜度,提高檢測的快速性。

圖4 大米蛋白粉光譜數據圖及預處理

2.3 樣品集劃分及數據特征

大米蛋白粉成分中的蛋白質含量較高,脂肪和水分的含量較低。利用光譜-理化值共生距離(SPXY)算法將樣品按2∶1比例劃分為訓練集和預測集,各成分含量的最大、最小值和標準差如表3所示。利用SPXY劃分訓練集和預測集使樣品具有較大的差異性,提高建模的穩定性。

表3 訓練集和預測集樣品成分含量的分布特征/g/100 g

2.4 自適應ELM模型

2.4.1 初始參數ω和b的優化

預處理后的光譜數據及理化值作為ELM模型輸入,將粒子群算法迭代200次后的ω和b作為ELM的初始參數。圖5為經典ELM與PSO優化的ELM分別運行10次的結果圖。由圖5可知,對ELM的ω和b進行改進,可提高預測的穩定性及精度。

圖5 ELM與PSO-ELM蛋白質含量預測結果比較

2.4.2 隱含層節點數的自適應選擇

ELM隱含層節點數的最優個數一般不會超過60個[20],合適的隱含層節點數應使預測模型的精度盡可能高,并且過擬合程度盡可能小。因此評價指標為RMSEP及|RMSEP-RMSEC| 2個指標。由于目的是檢測大米蛋白粉各成分含量,預測精度更重要,因此根據指標重要性賦予RMSEP的權重為0.6,|RMSEP-RMSEC|的權重為0.4。通過線性加權求和計算各個隱含層節點數p的得分Q。由于各指標均為極小型指標[21],所以Q越小說明該隱含層節點數越好,得到蛋白質、脂肪和水分ELM模型的最優隱含層節點數分別為24、18、14個。

2.5 模型檢驗

為了驗證模型的預測能力,使用未參與建模的預測集樣品對大米蛋白粉中蛋白質、脂肪、水分含量進行檢測,結果如表4所示,預測集樣品的預測值與實際值如圖6所示。

表4 預測集樣品檢驗結果

圖6 大米蛋白粉中各成分含量預測結果圖

分析表4及圖6發現,模型的決定系數R2均接近于1,RMSEP比較接近于0。大米蛋白粉中蛋白質含量最大值為86 g/100 g,脂肪和水分最高僅有11 g/100 g及7 g/100 g,對于不同含量,預測集樣品的預測值與實際值差異很小,說明近紅外光譜技術結合自適應ELM建模方法可以對未知大米蛋白粉樣品進行預測。

2.6 討論

大米蛋白粉中蛋白質、脂肪和水分的預測效果不同,外部檢驗決定系數分別為0.990 5、0.964 3、0.957 4。從訓練集的標準差來看蛋白質標準差為2.61,脂肪和水分的為1.39和1.03。蛋白質含量大小分布較廣,模型效果更好,說明樣品理化值大小的分布會影響模型的預測效果。

ELM是由前饋神經網絡演化而來,相比于線性PLS模型,其學習能力有所提升,可實現對多組分含量的預測。但ELM需要人工調參,且結果不穩定,本文提出自適應ELM自動尋找最優參數,將自適應ELM與經典ELM、PLS建模方法進行比較,如表5所示。

表5 三種建模方法比較

由表5可知,自適應ELM與PLS模型相比,大米蛋白粉中蛋白質、脂肪及含水量預測集R2更大,RMSEP分別降低了40%、28%、30%,預測精度有了較大提高。相比于經典ELM模型,經過優化的自適應ELM提高了模型的穩定性及預測精度,可實現大米蛋白粉中蛋白質、脂肪和水分的自動檢測。

3 結論

本研究利用近紅外光譜技術結合自適應ELM建模方法預測大米蛋白粉中蛋白質、脂肪和水分的含量。對采集的244份大米蛋白粉原始光譜數據進行小波變換預處理,數據壓縮比為93.5%。為了提高預測模型的精度,采用自適應ELM建模,ELM是單隱含層前饋神經網絡,將ELM的初始化參數用PSO進行優化,并利用線性加權評價方法自適應確定隱含層節點數,建立穩定性更高的自適應ELM模型。蛋白質、脂肪、水分模型的決定系數分別為0.990 5、0.960 7、0.957 4;預測均方根誤差為0.330 8、0.376 6、0.192 2,結果表明自適應ELM定量分析方法與PLS相比預測精度有較大提高,說明近紅外光譜技術結合自適應ELM能夠有效預測大米蛋白粉中各成分含量。該研究為大米蛋白粉中各成分含量的無損快速檢測提供一種新方法。

猜你喜歡
蛋白粉光譜水分
基于三維Saab變換的高光譜圖像壓縮方法
苯中水分的檢驗
蛋白粉“七問”
“高大上”的蛋白粉,您選對了嗎?
蛋白粉“七問”
亂補蛋白粉,腎很受傷
減鹽不如減水分
星載近紅外高光譜CO2遙感進展
完形填空Ⅳ
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合