?

短波近紅外光譜結合ν-SVM法快速無損鑒別淀粉種類

2013-05-05 11:28鄒婷婷竇英王瑩宋煥祿龐小一陶菲菲張秋晨
食品與發酵工業 2013年3期
關鍵詞:馬氏短波種類

鄒婷婷,竇英,王瑩,宋煥祿,龐小一,陶菲菲,張秋晨

1(北京工商大學食品學院,北京,100048)2(天津科技大學理學院化學系,天津,300457)3(吉林省產品質量監督檢驗院,吉林長春,130022)

食用淀粉主要包括薯物淀粉、谷類淀粉、豆類淀粉等,其中玉米淀粉占有重要位置,目前應用最多且價格較為低廉。而大米和小麥因為價格高,且是主糧而相對用作加工淀粉及深加工較少,薯類淀粉中紅薯淀粉和馬鈴薯淀粉價格相對偏高。因為不同種類淀粉顆粒的感官性狀和物化指標差別不明顯,難以辨認,部分生產者便在薯類淀粉和谷類淀粉中添加價廉的玉米淀粉出售,以賺取更高的利潤。國家食品質量安全監督檢驗中心開展的“我國食用淀粉種類的鑒別技術研究”科研項目,采用經典方法,提取了24種不同植物來源的食用淀粉顆粒,運用掃描電鏡技術,對不同種類食用淀粉顆粒的超微形貌特征進行了分析,建立了不同種類食用淀粉的定性分析方法[1],此種方法相對來說儀器價格較高。

近紅外光譜是由于分子振動的非諧振性使分子振動從基態向高能級躍遷時產生的,記錄含氫基團X—H(X C、N、O)振動的倍頻和合頻吸收[2]。近紅外光譜技術具有樣品前處理簡單、無需化學試劑、儀器操作簡單、檢測速度快,穩定性好、可實現在線分析等優點,在食品領域有廣泛研究和應用[3-4]。光譜學上通常將780~1 100 nm稱為短波近紅外光譜區,由于分子在該譜區的波頻和吸收信號均較弱,譜帶多且相互重疊,需借助于更強大的化學計量學方法分析處理數據。支持向量機(support vector machine,SVM)是一種新的機器學習算法,具有一定的處理高維有限數量的非線性數據的能力,有研究將聚類分析和SVM方法應用于淀粉分類[5]和葛粉摻假問題取得良好效果。

本研究引入一種新型SVM方法,即ν-SVM[6],建立淀粉種類鑒別模型,通過比較不同光譜預處理方法優化模型,并通過未知樣品對模型性能進行評價。

1 材料與方法

1.1 試驗材料

紅薯淀粉、馬鈴薯淀粉和玉米淀粉,共112個樣本,隨機分為訓練集和預測集。其中,訓練集包含78個樣本,測試集包含34個樣本。

表1 淀粉樣品分布的統計結果Table 1 The statistical results of the starch samples

1.2 儀器與軟件

尼高力6700傅立葉紅外光譜儀及積分球、樣品杯等附件。SVM算法使用網絡共享軟件libsvm,由Chih-Chung Chang 和 Chih-Jen Lin 提供[7]。

1.3 測量條件

淀粉樣品不作任何處理直接進行近紅外光譜采集。測量時將樣品裝入樣品杯,采用漫反射光譜法,掃描范圍10 000~12 799 cm-1,分束器 CaF2,分辨率8 cm-1,掃描次數為64次。每個樣品重復掃描3次,取平均值。圖1為112個淀粉樣品的短波近紅外光譜圖,由于短波近紅外光譜的譜帶較寬且靈敏度較差,吸收峰重疊嚴重,其相似性很難以肉眼判斷,須借助化學計量學方法。

圖1 112個淀粉樣品的短波近紅外光譜圖Fig.1 Short-wave NIR spectra for 112 starch samples

1.4 C-SVM和ν-SVM概述

SVM最大的優勢是根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,能較好地解決小樣本情況下模型可靠性預測問題。SVM優良的推廣性能實現,同模型中參數C、γ等有很大的關系,如何根據訓練樣本集選擇合適的模型參數,以保證建立好的模型有很好的推廣性能,成為建立SVM分類模型的關鍵一步。

在C-SVM中,有兩個相互矛盾的目標:最大化間隔和最小化訓練誤差。其中的常數C起著調和這2個目標的作用,C值的選取常常比較困難。Scholkopf[6]提出了一種新型支持向量機ν-SVM,該支持向量機中參數ν能夠控制支持向量的數目和訓練誤差的大小。本研究中分別使用C-SVM和ν-SVM 2種類型的支持向量機。C-SVM對正負類樣本采用不同的懲罰函數Cp和Cn;ν-SVM在支持向量和錯誤訓練的比率上相關性更好,C-SVM的參數C取值范圍在[0,+∞],而ν-SVM的參數ν取值范圍在[0,1]。

2 結果與分析

2.1 數據預處理方法

儀器采集的原始光譜中除包含與樣品組成有關的信息外,同時也包含來自各方面因素所產生的噪音信號。平滑是濾除噪音最常用的方法,微分能有效消除光譜漂移,二者都是常用的光譜預處理方法。多元散射校正(multiplicative scatter correction,MSC)處理可以消除光譜在吸光度軸上的差異,從而消除散射效應的影響。本研究比較了4種光譜預處理方法,即平滑、一階微分、二階微分、多元散射矯正對所建模型的影響,見表2。

2.2 C-SVM和ν-SVM模型的建立與評價

類似于其他多元校正方法,SVM模型的泛化性能也是依賴于幾個參數的恰當選擇之上的,關鍵是在所給定的數據集上找到最佳的參數設置。經驗表明高斯核函數具有良好的學習能力,這里也選用高斯核函數。其他3個參數的選擇可以根據經驗,自舉法,交叉驗證等方法進行確定,其中最常用的方法就是交叉驗證法(Cross-Validation)。在建模中,采用全局尋優方式得到SVM的參數優化值,參數優化結果見表3。采用交叉驗證正確率作為交叉驗證的檢驗指標,以正確率來考察所建模型的性能和預測效果,最后用測試集數據對訓練模型進行測試,結果如表2。

表2 C-SVM和ν-SVM鑒別淀粉種類的正確率比較Table 2 Different correct ratio of starch category of C-SVM and ν-SVM models

表3 C-SVM和ν-SVM參數優化Table 3 Optimized parameters used for construction of C-SVM and ν-SVM models

表2中數據顯示,平滑、多元散射矯正、微分3種預處理方法后,ν-SVM的建模效果最好,訓練集交叉驗證正確率和測試集正確率均達到100%。

2.3 馬氏距離判別分析結果比較

馬氏距離判別分析法作為一種線性方法,也常用于近紅外光譜的結果分析。但短波近紅外光譜與屬性間常常存在非線性關系,處理這樣的光譜,采用馬氏距離判別分析方法有一定的局限性。為了和非線性分析方法支持向量機作比較,本實驗采用馬氏距離判別分析法建立了紅薯淀粉、馬鈴薯淀粉、玉米淀粉的識別模型,用主成分分析(principle component analysis,PCA)法將原始數據降維,消除眾多信息共存中相互重疊的信息部分后,采用較少變量計算判別。在原始光譜的全波數段范圍內,比較了4種光譜預處理方法,即平滑、一階微分、二階微分、多元散射矯正對所建模型的影響,同時對34個未知樣品進行預測。馬氏距離判別分析方法結果如圖2和表4。

圖2 馬氏距離判別分析模型的樣品分布圖Fig.2 Sample distribution of Mahalanobis distance models

表4 馬氏距離判別分析法鑒別淀粉種類的正確率Table 4 Different correct ratio of starch category of Mahalanobis distance models

3 結論

ν-SVM法同短波近紅外漫反射光譜法結合,鑒別淀粉種類是可行的,同馬氏距離判別分析法比較建模效果更好,且無須對樣品進行處理,操作簡單,可實現快速無損鑒別淀粉種類的目的。

[1] 我國淀粉種類鑒別技術研究獲突破[N].中國質量報,2010-04-06.

[2] 陸婉珍,袁洪福,徐廣通,等.現代近紅外光譜分析技術[M].北京:中國石油化工出版社,2000:2-5.

[3] 李燕萍,錢瑩,段鋼.采用近紅外光譜測定木薯乙醇發酵液中乙醇、甘油和葡萄糖含量[J].食品與發酵工業,2009,35(8):117-121.

[4] 熊成,董慶利,曾靜,等.近紅外光譜分析技術在肉品品質檢測中的應用[J].食品與發酵工業,2010,36(12):141-145.

[5] 孫曉榮,劉翠玲,吳靜珠,等.SVM方法在淀粉分類問題中的應用[J].食品工業科技,2011,32(11):431-433.

[6] Scholkopf B,Smola A J,Williamson R C,et al.New support veuor algorithms[J].Neural Computation,2000,12(5):1 207-1 245.

[7] Chang C C,Lin C J,臺灣大學,2012.http:/www.csie.ntu.edu.tw/_cjlin/libsvm.

猜你喜歡
馬氏短波種類
一類時間變換的強馬氏過程
有環的可逆馬氏鏈的統計確認
關于樹指標非齊次馬氏鏈的廣義熵遍歷定理
種類豐富的酒具
消防車種類知多少
一致可數可加馬氏鏈不變測度的存在性
鏡頭像差的種類
樂海短波
工運短波
工運短波
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合