?

基于隨機蛙跳和支持向量機的牛乳收購分級模型構建

2021-03-29 02:14肖仕杰王巧華李春芳趙利梅劉鑫雅盧士宇張淑君
智慧農業(中英文) 2021年4期
關鍵詞:牛乳支持向量機

肖仕杰 王巧華 李春芳 趙利梅 劉鑫雅 盧士宇 張淑君

摘要:蛋白質、脂肪含量和體細胞數量作為牛乳收購中的重要參考指標,決定了牛乳的品質和價格。為批量準確地對牛乳品質進行分級,提高乳企的生產效率,本研究以3216份荷斯坦牛牛乳樣本為研究對象,應用中紅外光譜技術實現對收購過程中4種不同品質牛乳的檢測分級。利用一階導數和一階差分對光譜進行預處理,并結合競爭性自適應重加權算法(Competitive Adaptive Reweighted Sampling ,CARS)和隨機蛙跳算法(Shuffled Frog Leaping Algorithm ,SFLA)篩選出能代表不同牛乳的有效特征變量,建立支持向量機(Support Vector Machine ,SVM)模型。其中,利用網格搜索法(Grid Search ,GS)、遺傳算法(Genetic Algo? rithm,GA)和粒子群算法(Particle Swarm Optimization ,PSO)對 SVM 模型的關鍵參數——懲罰參數 c 和核函數參數g 進行優化。結果表明,SFLA 算法總體上優于CARS 算法,PSO 優化SVM 模型的效果最佳。一階差分預處理后,利用 SFLA 算法篩選特征變量建立的PSO-SVM 模型,訓練集準確率、測試集準確率和曲線下面積(Area Under Curve ,AUC)分別為97.8%、95.6%和0.96489。該模型具有較高的準確率,在牛乳產業中具有實際應用價值。

關鍵詞:中紅外光譜;牛乳;收購分級;隨機蛙跳;支持向量機

中圖分類號: S37;O657.33文獻標志碼: A文章編號:202107-SA003

引用格式:肖仕杰, 王巧華, 李春芳, 趙利梅, 劉鑫雅, 盧士宇, 張淑君. 基于隨機蛙跳和支持向量機的牛乳收購分級模型構建[J].智慧農業(中英文), 2021, 3(4):77-85.

XIAO Shijie, WANG Qiaohua, LI Chunfang, ZHAO Limei, LIU Xinya, LU Shiyu, ZHANG Shujun. Construction of milk purchase classification model based on? shuffled frog leaping algorithm? and? support vector machine[J]. Smart Agriculture, 2021, 3(4):77-85.(in Chinese with English abstract)

1? 引言

蛋白質和脂肪是牛乳的重要營養組成成分,是決定牛乳品質和價格的關鍵因素。乳脂和乳蛋白含量一直作為牛乳的收購參考指標[1]。此外,SCC不高于20萬個時,奶牛身體為健康狀態[4];當超過此界限,SCC數量遞增的同時,牛乳的品質以及奶牛的產奶量均會下降;1 mL 牛乳中 SCC 高于50萬個時,奶牛有很大機率感染亞臨床乳房炎(乳腺炎),牛乳品質進一步降低[2];若 1 mL 牛乳中 SCC高于100萬個,奶牛很有可能患有臨床乳房炎[5]。

近年來,中紅外光譜(Mid-infrared Spectroscopy ,MIRS)被廣泛用于牛乳中各成分的無損檢測[6-9],因此MIRS技術為牛乳收購中鑒別不同等級牛乳提供了一種有效手段。然而,MIRS 的波長范圍廣,在包含豐富有效信息的同時,也包含很多冗余信息和背景噪聲,對模型造成干擾。因此,分析并揭示中紅外光譜的響應規律,篩選出最能代表不同等級牛乳的差異波段,對簡化 MIRS 模型、提高模型精度和效率具有重要意義。

篩選變量的方法可分為三大類:變量優化選擇法、變量區間選擇法以及變量信息選擇法。變量優化選擇法通過創造一個合適的目標函數以尋找最優變量組合,主要包括遺傳算法(Genetic? Algorithm , GA)[10]、粒子群算法(Particle? Swarm Optimization ,PSO)[11]、模擬退火算法(Simulated Annealing Algorithm ,SAA)[12, 13]等。變量區間選擇法通過篩選多個光譜區間作為有效變量區間組合,區間數目的選擇直接影響模型的結果,包括間隔偏最小二乘法(Interval Partial? Least Squares ,iPLS)[14]、前向間隔偏最小二乘法(Forward Interval PLS ,FiPLS)[15]、后向間隔偏最小二乘法(Backward Interval PLS ,BiPLS)[16]和移動窗口最小二乘法(Moving Window Partial? Least Squares ,MWPLS)[17, 18]。變量信息選擇法將信息變量作為描述變量在模型中所起作用大小的指示變量,其中競爭性自適應重加權算法(Competitive? Adaptive?? Reweighted?? Sampling, CARS)[19]、無信息變量消除法(Elimination of? Uninformative Variables ,UVE)[20]和連續投影法(Successive Projections Algorithm ,SPA)[19]是較為流行的幾種算法。另外,一些新型的組合優化算法如隨機蛙跳算法(Shuffled Frog Leaping Al‐gorithm,SFLA)[21,22]被廣泛應用于農業工程。此外,主成分分析(Principal Component Analy‐sis ,PCA)等算法也用于壓縮數據,但一般不用來做直接的特征提取而是用來做特征矩陣的降維[23]。與 CARS 、SFLA算法等直接篩選代表性變量相比,主成分各個特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強。

本研究以河北地區9個牧場的牛乳為研究對象,分析牛乳收購中不同等級牛乳的光譜特征,利用 CARS算法和 SFLA算法篩選特征變量,建立 SVM模型,為MIRS技術在牛乳收購過程中提供支持。

2? 材料與方法

2.1 試驗材料

研究采用的3216份牛乳樣本均來源于河北省9個牧場的荷斯坦牛。奶牛飼養于平均環境溫度為10~29℃ 、相對濕度為45%~78%的可連續取水的牛棚。2019年 11月~2020年 10月(不包括2月)期間,從晨乳中收集樣本。每個月采集一次樣本,當天上午5:30開始采集,上午采完。使用全自動轉盤擠奶設備逐頭精確采集每頭奶牛40 mL 的牛乳,然后將牛乳放入從奶牛群體改良(Dairy Herd Improvement ,DHI)檢測實驗室獲得的全新特定采樣瓶中,并依次編號。共采集3216份牛乳樣本。為防止牛乳變質,在每個采樣瓶中加入了專用防腐劑布羅波爾3.2~3.4μL 后,立即放入冰箱保存(4℃),并于第二天進行光譜采集。

2.2 試驗方法

2.2.1?? 光譜采集、乳成分及SCC檢測設備:乳成分分析儀MilkoScanTM FT+(傅

里葉變換中紅外光譜儀 FTIR),體細胞檢測儀FossomaticTM7。

所有牛乳均在河北省DHI檢測中心完成數據采集。具體步驟為:將電熱恒溫水浴鍋預熱至(42±0.2)℃,將牛乳分批放入,加熱15~20 min 后搖晃均勻,使用MilkoScanTM FT+采集光譜以及蛋白質和脂肪含量測定。

此外,使用FossomaticTM7測定牛乳中的體細胞數。

2.2.2? 收購分級標準

T/HLJNX 001-2018《黑龍江省食品安全團體標準》為黑龍江省乳制品企業牛乳收購和質量監督的參考依據,以此標準為參考標準,結合 SCC進行分級。分級標準如表1所示。

2.2.3? 樣本劃分

以表1 為依據對牛乳分級。所有牛乳中,特級牛乳數量為940份,一級牛乳數量為826份,二級牛乳數量為537份,低質量牛乳數量為913 份。按照約7:3的原則利用隨機劃分 RS (Random Selection)算法將樣本集劃分為訓練集和測試集。樣本集的劃分情況如表2所示。

2.3 數據處理

2.3.1?? 特征變量篩選

CARS算法以降低無信息變量為出發點,模型運行過程中,以PLS回歸系數為衡量標準,根據交叉驗證均方根誤差(Root Mean Square Error of Cross-Validation ,RMSECV)對應的位置選擇最優的子集代表特級、一級、二級和低質量牛乳中紅外光譜差異的特征變量組合。

SFLA算法將全局搜索性能良好的粒子群算法和局部搜索能力較強的元算法進行結合,從而可以獲得強大的尋優能力。

2.3.2? 基于參數尋優的支持向量機模型

支持向量機(Support? Vector ?Machine,SVM)[24]是基于機器學習方法的強大多元技術,由Vapnik和 Burges 首次引入[25,26]。簡單來說,SVM 利用核技巧將輸入向量映射到更高維的特征空間中,然后構造最大邊距分離超平面進行特級、一級、二級和低質量牛乳的分類。在本研究中,使用徑向基函數(Radial Basis Function,RBF)構建模型,利用網格搜索法(GridSearch,GS)、GA 和 PSO 對 RBF核函數的兩個重要參數懲罰參數 c 和核函數參數 g 進行優化,分別建立GS-SVM 、GA-SVM和PSO-SVM模型。

2.3.3? 模型評估

利用準確率作為模型的主要評價指標,訓練集準確率與測試集準確率越高且兩者越接近,表明模型的精度高,可靠性好。

準確率=???????????????????? ×100%??? ( 1)

3? 結果與討論

3.1 不同牛乳的光譜分析

特級、一級、二級和低質量牛乳在MIRS范圍內的原始吸收曲線如圖1 ??梢钥闯?,牛乳的光譜曲線嚴重重疊,由于水的干擾, 1597~1712 cm-1和 3024~3680 cm-1左右的區域信噪比低[27],無法用于建模。不同牛乳的平均光譜曲線走向趨勢相似(圖2),表明它們的內部化學成分基本一致,但同時它們的光譜又存在差異,表明4類牛乳的化學成分含量存在差異。其中,一級牛乳和二級牛乳的平均光譜十分接近,通過肉眼難以區分,特級和低質量牛乳則與它們存在一定差異。根據福斯公司提供的乳成分的吸收情況可知,1754 cm-1左右的波峰主要與脂肪中 C =O鍵的伸縮振動有關,2857 cm-1左右的波峰主要與脂肪酸鏈中的飽和 C-H 鍵的伸縮振動有關,1470 cm-1左右的波峰主要與脂肪酸鏈中飽和C-H 鍵的彎曲振動有關,1538 cm-1主要與N-H鍵的彎曲振動有關。

3.2 光譜預處理和特征變量選擇

選擇925~1597 cm-1 和1712~3024 cm-1 的敏感波段組合作為全光譜,分別利用一階差分和一階導數預處理。

預處理后的全光譜信息得到增強,但光譜維數過多,會導致 SVM 模型收斂速度慢,全光譜中還存在與牛乳分級不相關的變量,直接用于建模會對模型造成干擾。使用 CARS算法、SFLA 算法分別進一步提取有用變量,剔除無信息變量,找出能夠代表特級、一級、二級和低質量牛乳的變量組合,簡化模型,提高預測精度。

3.2.1?? 采樣 CARS 算法篩選特征變量建立 SVM模型

本研究利用5折交叉驗證,將重采樣率設置為0.8。將 CARS 的重采樣次數分別設為50、100和 200次,對比了不同重采樣次數對 SVM 模型效果的影響,最終將重采樣次數定為100次。以一階導數預處理后的光譜數據為例闡述 CARS算法進行變量選擇的過程。圖3 (a)為被選取的特征變量數隨著重采樣運行次數的變化曲線。由圖3 (b)可知,在100次重采樣中,當重采樣次數為62時,對應最小交叉驗證均方根誤差值為0.5441,此時各變量的回歸系數位于圖3(c)中豎線位置,取得最優變量組合。

如表3所示,利用 CARS算法對全光譜、一階導數光譜和一階差分光譜篩選的特征變量數分別為 30、 17和 19,依次建立 GS-SVM 、GA-SVM 和 PSO-SVM 分級模型。與全光譜數據相比,一階導數處理后建立的分級模型預測性能均得到提升,而一階差分處理后的分級模型預測性能均有所下降,三種模型均在一階導數處理后獲得最高的分級準確率,GS-SVM模型的效果優于 GA-SVM 模型和PSO-SVM 模型,其訓練集準確率為95.4%,測試集準確率為94.5%。

3.2.2? 采樣 SFLA 算法篩選特征變量建立 SVM 模型

本研究中設置 SFLA 運行次數 N 為10, 000,最大潛在變量數A 為6 ,抽樣變量的初始數量 Q 為2。利用概率的大小作為變量篩選的評價指標,在圖4 中,橫坐標代表每一維光譜變量的編號,縱坐標代表被選擇的概率。波峰越高,表明變量被選中的可能性越大。以一階差分處理后的515 維光譜為例,將515個變量被選的概率排序,以0.1為閾值,最終得到位于圖中虛線上方的146個最優變量組合。

如表4所示,利用 SFLA算法對全光譜、一階導數光譜和一階差分光譜篩選的特征變量數分別為 23、77和 146,依次建立 GS-SVM 、GA- SVM和PSO-SVM分級模型。一階導數和一階差分處理后的分級模型性能均得到顯著提高,三種模型在一階差分處理后獲得最高的分級準確率。其中,PSO-SVM 模型的效果優于 GS-SVM 模型和 GA-SVM 模型,訓練集準確率和測試集準確率分別為97.8%和95.6%。

對比發現,未處理的全光譜結合CARS算法建立的模型測試集準確率為93.8%~93.9%,預處理后的全光譜結合CARS算法建立的模型測試集準確率為93.6%~94.5%(表3)。未處理的全光譜結合 SFLA算法建立的模型測試集準確率為90.0%~90.8%,預處理后的全光譜結合 SFLA算法建立的模型測試集準確率為 94.2%~95.6%(表4)。無論是采用一階導數還是一階差分預處理,與未處理的全光譜相比,SFLA算法對模型性能的提升明顯優于CARS算法。

SFLA算法建立的3種最佳模型均優于CARS算法建立的模型。其中,通過一階導數-CARS算法篩選的特征變量數僅占全光譜的3.29%,一階差分-SFLA算法篩選的特征變量數占全光譜變量數的28.29%,因此,SFLA算法篩選的有效變量更多,更具代表性,模型的預測能力更強。

3.3 三種SVM模型對比

確定一階差分-SFLA算法建立的模型效果最優后,對比不同的尋優算法對SVM模型的影響。同時,通過受試者工作特征(Receiver Operating? Characteristic ,ROC)曲線和 ROC 曲線下面積(Area Under Curve ,AUC)[28]進一步評價三種 SVM 模型。ROC 曲線可以反應分類器在某個閾值時對樣本的識別能力,曲線越趨近坐標軸左上方位置,曲線下方與X軸圍成的面積AUC越大,模型的性能越好。由圖5可知,GS-SVM 、GA- SVM 、PSO-SVM 模型 ROC 曲線的 AUC 分別為0.95786、 0.95935和 0.96489, PSO-SVM 優于 GS-SVM和GA-SVM模型。

對比發現,通過GS得到的c值較大,g值較小,而通過GA和PSO算法得到的c值較小,g值較大。其中,c與 SVM算法對奇異點的重視程度有關,c值不宜過大或過小,否則會對模型精度造成影響; g與 SVM算法的收斂速度有關,g越大,支持向量越少,模型收斂越快[29]。PSO 尋優算法建立的 SVM模型訓練集準確率、測試集準確率和 AUC 值均優于GS 和 GA算法(表5)。對比訓練時間,GS 遠大于 GA 和 PSO算法,因此,綜合考慮準確率、AUC值和訓練時間,最終選擇一階差分-SFLA-PSO-SVM 模型為最佳牛乳收購分級模型。

3.4 多分類預測結果混淆矩陣可視化

將一階差分-SFLA-PSO-SVM 模型的預測結果以混淆矩陣的形式表示(圖6)。其中,混淆矩陣主對角線上的綠色方框表明了特級、一級、二級和低質量牛乳預測正確的樣本數和在總樣本中所占的比例,紅褐色方框則表明4類牛乳預測錯誤的樣本數和在總樣本中所占的比例,下、右的深灰色矩形框分別表示對應樣本屬性預測召回率和精準率。召回率即為正確預測為特級牛乳占全部實際為特級牛乳的比例、正確預測為一級牛乳占全部實際為一級牛乳的比例、正確預測為二級牛乳占全部實際為二級牛乳的比例以及正確預測為低質量牛乳占全部實際為低質量牛乳的比例。精準率即為正確預測為特級牛乳占全部預測為特級牛乳的比例、正確預測為一級牛乳占全部預測為一級牛乳的比例、正確預測為二級牛乳占全部預測為二級牛乳的比例以及正確預測為低質量牛乳占全部預測為低質量牛乳的比例。

由圖6可知,測試集的964個樣本中,特級、一級、二級和低質量牛乳的召回率分別為97.9%、94.8%、92.5%和 96.0%,精準率分別為95.5%、95.5%、92.0%和 98.1%,誤判數量分別為6、13、12和11個。藍色方框為模型預測準確率,為95.6%。

4? 結論

本研究以河北省9個牧場的3216份荷斯坦牛牛乳樣本為研究對象,分別測定牛乳中的脂肪、蛋白質含量和體細胞數量并采集中紅外光譜,構建了牛乳收購分級模型。主要結論如下:

(1)對特級、一級、二級和低質量牛乳的原始光譜和平均光譜進行分析并去除噪聲波段和無貢獻波段后,選擇925~1597 cm-1? 和1712~3024 cm-1 的敏感波段作為全光譜用于后續建模。

(2)對全光譜進行預處理后,為了剔除光譜冗余信息,克服維數災難,結合 CARS 算法和 SFLA算法進行特征變量篩選。結果表明,當利用CARS算法篩選特征變量時,一階導數為最佳預處理算法,當利用 SFLA算法篩選特征變量時,一階差分為最佳預處理算法,SFLA算法總體上要優于 CARS算法。最終選擇一階差分-SFLA-PSO-SVM 模型為牛乳收購分級的最佳模型,訓練集準確率、測試集準確率和AUC 分別為97.8%、95.6%和0.96489。

(3)對比了GS 、GA和PSO三種參數尋優算法的訓練時間,結果表明 GS的訓練時間遠長于 POS和GA算法。

參考文獻:

[1]朱海明, 程啟方. 瑞典牛奶檢測分級付款系統簡介[J].中國奶牛, 1997(4):52-54.

ZHU? H,? CHENG? Q. Brief introduction? of? Swedish milk testing grading payment system[J]. China DairyCattle, 1997(4):52-54.

[2]史慧茹, 姜瞻梅, 田波. 牛乳體細胞數的檢測方法[J].畜牧與飼料科學, 2008(2):86-88.

SHI H, JIANG Z, TIAN B. Method for detecting so‐matic cell count in bovine milk[J]. Animal Husbandryand Feed Science, 2008(2):86-88.

[3]陳賀, 王帥, 陳紅玲. 烏魯木齊地區生鮮牛乳質量分級研究[J].農村科技, 2017(8):60-62.

CHEN H, WANG? S, CHEN H. Study on the qualityclassification? of fresh milk? in Urumqi? area[J]. RuralScience & Technology, 2017(8):60-62.

[4] SMITH K L. Standards for somatic cells in milk: Phys‐iologicaland? regulatory[J].? IDF? Mastitis? Newslett,1995, 144(21):7-9.

[5] KOLDWIJ E, EMANWLSON U. Relation of milk pro‐duction? lossto milk? somatic? cell? count[J]. ACTA VetScand, 1999, 40:47-56.

[6] GONDIM C, JUNQUEIRA R G, VITORINO C D S S,et al. Detection of several common adulterants in rawmilk by MID-infrared spectroscopy and one-class andmulti-class multivariate strategies[J]. Food Chemistry,2017, 230:68-75.

[7] TOFFANIN, V, PENASA, M, MCPARLAND, S, et al.Genetic parameters for milk mineral content and acidi‐ty predicted by mid-infrared spectroscopy in Holstein-Friesian cows[J]. Animal, 2015, 9(5):775-780.

[8] SOYEURT H, DEHARENG? F,? GENGLER N,? et? al.Mid-infrared? prediction? of? bovine? milk? fatty? acidsacross multiple breeds, production systems, and coun‐tries[J]. Journal of Dairy Science, 2011, 94(4): 1657-1667.

[9]李巧玲, 劉峰, 宋思遠, 等. 中紅外光譜法快速測定牛奶中非蛋白氮類物質[J].食品工業科技, 2014, 35(22):73-75, 80.

LI Q, LIU F, SONG S, et al. Fast determination of non‐protein nitrogen content in milk based on mid-infraredspectroscopy? method[J]. Science? and? Technology? ofFood Industry, 2014, 35(22):73-75, 80.

[10] 吳珽, 梁龍, 朱華, 等. 海南制漿樹種中主要成分的近紅外分析與模型優化[J].光譜學與光譜分析, 2021,41(5):1404-1409.

WU T, LIANG L, ZHU H, et al. Near-infrared analysisand models optimization of main components in Pulp‐wood of Hainan province[J]. Spectroscopy and Spec‐tral Analysis, 2021, 41(5):1404-1409.

[11] 花晨芝, 趙凌, 宋建軍, 等. 粒子群算法選擇特征波長在紫外光譜檢測COD中的研究[J].西華師范大學學報(自然科學版), 2019, 40(1):81-85.

HUA C, ZHAO L, SONG J, et al. Selection of wave‐length for UV-visible spectroscopy based on BLS com‐bined with PSO[J]. Journal of China West Normal University (Natural Sciences), 2019, 40(1):81-85.

[12] 石吉勇, 鄒小波, 王開亮, 等. 模擬退火算法用于食醋總酸含量近紅外光譜模型的波數點優選[J].食品科學, 2011, 32(10):120-123.

SHI J, ZOU X, WANG K, et al. Simulated annealing algorithm based wavenumber? selection? for total? acid content analysis in vinegar by near infrared spectroscopy[J]. Food Science, 2011, 32(10):120-123.

[13] 劉冬陽, 孫曉榮, 劉翠玲, 等. 拉曼光譜結合模擬退火的小麥粉灰分含量檢測[J].中國糧油學報, 2019, 34(5):128-133.

LIU D, SUN X, LIU C, et al. Detection of ash control of wheat flour based on Raman spectroscopy combined with simulated annealing[J]. Journal of the Chinese Cereals and Oils Association, 2019, 34(5):128-133.

[14] 周孟然, 孫磊, 卞凱, 等. iPLS波段篩選方法在食用油品上快速檢測研究[J].激光雜志, 2020, 41(7):13-17.?? ZHOU M, SUN L, BIAN K, et al. Band screening of iPLS for laser-induced fluorescence spectrum of edible oil[J]. Laser Journal, 2020, 41(7):13-17.

[15] 張烝彥, 葉沁, 劉曉穎, 等. 傅里葉變換衰減全反射紅外光譜結合向前區間偏最小二乘法快速測定食用油中總極性化合物 [J].浙江農業科學 , 2019, 60(6):1003-1007.

ZHANG Z, YE Q, LIU X, et al. Fourier transform attenuated? total? reflection? infrared? spectroscopy? combined with forward interval partial least squares method for rapid determination of total polar compounds in edible oil[J]. Journal of Zhejiang Agricultural Sciences, 2019, 60(6):1003-1007.

[16] 王拓,戴連奎, 馬萬武. 拉曼光譜結合后向間隔偏最小二乘法用于調和汽油辛烷值定量分析[J].分析化學, 2018, 46(4):623-629.

WANG? T,? DAI? L,? MA W. Quantitative? analysis? of blended gasoline octane number using Raman spectroscopy with backward interval partial least squares method[J]. Chinese Journal of Analytical Chemistry, 2018, 46(4):623-629.

[17] 史智佳, 李鵬飛, 呂玉, 等. 移動窗口偏最小二乘法優選豬油丙二醛近紅外光譜波段[J].中國食品學報, 2014, 14(11):207-213.

SHI Z, LI P, LYU Y, et al. Region optimization in FT- NIR? spectroscopy? for? determination? of MDA in? lard with moving window partial least? squares[J]. Journal of Chinese Institute of Food Science and Technology, 2014, 14(11):207-213.

[18] 許良, 閆亮亮, 塞擊拉呼, 等. 近紅外光譜結合可移動窗口偏最小二乘法對克霉唑粉末藥品的定量分析[J].計算機與應用化學, 2016, 33(4):415-418.

XU L, YAN L, SAIJLAHU, et al. Quantitative analysisof Clotrimazole powder drugs by using moving win‐dow partial least square method combined with near-in‐frared spectroscopy[J]. Computers and Applied Chem‐istry, 2016, 33(4):415-418.

[19] 李慶旭, 王巧華, 馬美湖, 等. 基于可見/近紅外光譜和深度學習的早期鴨胚雌雄信息無損檢測[J].光譜學與光譜分析, 2021, 41(6):1800-1805.

LI Q, WANG Q, MA M, et al. Non-destructive detec‐tion of male and female information of early duck em‐bryos based on visible/near infrared spectroscopy anddeep learning[J]. Spectroscopy and Spectral Analysis,2021, 41(6):1800-1805.

[20] 付丹丹, 王巧華, 高升, 等. 不同品種雞蛋貯期 S-卵白蛋白含量分析及其可見/近紅外光譜無損檢測模型研究[J].分析化學, 2020, 48(2):289-297.

FU D, WANG Q, GAO S, et al. Analysis of S-Ovalbu‐min content of different varieties of eggs during stor‐age? and? its? nondestructive? testing? model? by? visible-near infrared spectroscopy[J]. Chinese Journal of Ana‐lytical Chemistry, 2020, 48(2):289-297.

[21] 韓毅, 蔡建湖, 周根貴, 等. 隨機蛙跳算法的研究進展[J].計算機科學, 2010, 37(7):16-19.

HAN Y, CAI J, ZHOU G, et al. Advances in shuffledfrog leaping algorithm[J]. Computer Science, 2010, 37(7):16-19.

[22] 孫晶京, 楊武德, 馮美臣, 等. 基于隨機蛙跳和支持向量機的冬小麥葉面積指數估算[J].山西農業大學學報(自然科學版), 2020, 40(5):120-128.

SUN J, YANG W, FENG M, et al. Estimation of winterwheat leaf area index based on random leapfrog andsupport? vector? regression? approach[J].? Journal? ofShanxi Agricultural University (Natural? Science? Edi‐tion), 2020, 40(5):120-128.

[23] 王巧華, 梅璐, 馬美湖, 等. 利用機器視覺與近紅外光譜技術的皮蛋無損檢測與分級[J].農業工程學報,2019, 35(24):314-321..

WANG Q, MEI L, MA M, et al.Nondestructive testingand grading of preserved duck eggs based on machinevision and near-infrared spectroscopy[J]. Transactionsof the CSAE, 2020, 40(5):120-128.

[24] 黃平捷, 李宇涵,俞巧君, 等. 基于 SPA 和多分類SVM 的紫外-可見光光譜飲用水有機污染物判別方法研究[J].光譜學與光譜分析, 2020, 40(7):2267-2272.

HUANG P, LI Y, YU Q, et al. Classify of organic con‐taminants in water distribution systems developed bySPA and multi-classification SVM using UV-VIS spec‐troscopy[J]. Spectroscopy and Spectral Analysis, 2020,40(7):2267-2272.

[25] Vapnik V N. An overview of statistical learning theo‐ry[J]. IEEE Transactions on Neural Networks, 1999, 10(10):988-999.

[26] Burges C J C. A Tutorial on support vector machinesfor pattern recognition[J]. Data Mining and Knowledge Discovery.1998, 2(2):121-167.

[27] BONFATTI V, MARTINO G D, CARNIER P. Effec‐tiveness? of mid-infrared? spectroscopy? for the prediction? of detailed protein? composition? and? contents? of protein genetic variants of individual milk of Simmental? cows[J]. Journal? of Dairy? Science, 2010, 94(12):5776-5785.

[28] 代芬, 邱澤源, 邱倩, 等. 基于拉曼光譜和自熒光光譜的柑橘黃龍病快速檢測方法[J].智慧農業, 2019, 1(3):77-86.

DAI F, QIU Z, QIU Q, et al. Rapid detection of citrusHuanglongbing? using? Raman? spectroscopy? and? auto-fluorescence spectroscopy[J]. Smart Agriculture, 2019,1(3):77-86.

[29] 胡翼然, 李杰慶, 劉鴻高, 等. 基于支持向量機對云南常見野生食用牛肝菌中紅外光譜的種類鑒別[J].食品科學, 2021, 42(8):248-256.

HU Y, LI J, LIU H, et al. Species identification of com‐mon wild edible bolete in Yunnan by Fourier transformmid-infrared spectroscopy coupled with support vectormachine[J]. Food Science, 2021, 42(8):248-256.

Construction of Milk Purchase Classification Model Based on? Shuffled Frog Leaping Algorithm and Support Vector Machine

XIAO Shijie1, WANG Qiaohua1,2*, LI Chunfang3,4, ZHAO Limei4, LIU Xinya4,LU Shiyu4, ZHANG Shujun3*

(1. College of Engineering, Huazhong Agricultural University, Wuhan 430070, China;2. Key Laboratory of Agricul‐tural Equipment in the Mid-Lower Reaches of the Yangze River, Ministry of Agriculture and Rural Affairs, Wuhan?? 430070, China;3. Key Laboratory of Animal Breeding and Reproduction of Ministry of Education, Huazhong Agricultural University, Wuhan 430070, China;4. Hebei Animal Husbandry Association, Shijiazhuang 050031, China)

Abstract: Protein, fat and somatic cells are three important reference indicators in milk purchase, which determine the quality and price of milk. The traditional chemical analysis methods of these indexes are time-consuming and pollute the environment, while the mid-infrared spectrum has the advantages of fast, non-destructive and simple operation. In order to realize the rapid classification of milk quality and improve the production efficiency of dairy enterprises, 3216 Holstein milk samples were chosen as the research objects and mid-infrared spectroscopy technology was applied to realize the detection and classification of 4 different quality milks during the purchase process. The spectrum was preprocessed by using the first derivative and the first difference, and combined with the algorithm competitive adaptive reweighted sampling (CARS) and the shuffled frog leaping algorithm (SFLA), the effective characteristic variables that could represent different milks were selected, and the SVM model was established. Among them, the penalty parameter c and the kernel function parameter g which were the key parameters of the SVM model were optimized by using the grid search method (GS), genetic algorithm (GA) and particle swarm algorithm (PSO). The training time of GS, GA and PSO algorithms were compared, the results showed that the training time of GS was much longer than that of GA and PSO algorithms.The SFLA algorithm was generally better than the CARS algorithm, and the PSO optimized the SVM model the best. After the first-order difference preprocessing, the PSO-SVM established by using the SFLA algorithm to filter the characteristic variables, the accuracy of the training set, the accuracy of the test set and the AUC were 97.8%, 95.6% and 0.96489, respectively. This model has a high accuracy rate and has practical application value in the milk industry.

猜你喜歡
牛乳支持向量機
愚人集牛乳
高效液相色譜法在牛乳整體蛋白檢測中的應用
牛乳的滋氣味與調香初探
基于改進支持向量機的船舶縱搖預報模型
基于SVM的煙草銷售量預測
動態場景中的視覺目標識別方法分析
論提高裝備故障預測準確度的方法途徑
基于熵技術的公共事業費最優組合預測
基于支持向量機的金融數據分析研究
牛乳中摻假物質的快速檢測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合