?

基于多標記ML—kNN算法的食用植物油檢測研究

2017-06-01 23:42周海琴張紅梅靳小波
電腦知識與技術 2017年8期
關鍵詞:混合油甘油油脂

周海琴 張紅梅 靳小波

摘要:隨著信息科學技術的發展,多種智能處理方法已凸顯出自己的優勢。食用植物油高效液相色譜法與支持向量機、AdaBoost.RMH、ML-LVQ算法相結合的食用油檢測方法已有所應用。本文將甘油三酸脂組成成分指紋譜數據與多多標記ML-kNN算法相結合,用于食用植物油的分類識別與摻偽檢驗。首先進行甘油三酸脂組成成分指紋譜特征提取,然后構建多標號分類器,接著進行試驗并評價其系統的性能。通過8種食用植物油及其混合油的測試結果表明,該算法能有效的應用于食用植物油的定性分類與定量分析。

關鍵詞:多標記學習;ML-kNN算法;甘油三酸脂組成成分指紋譜;食用植物油脂鑒別

中圖分類號:TPl81 文獻標識碼:A 文章編號:1009-3044(2017)08-0265-04

食用油脂不僅是人體生理代謝所需的能量和碳來源,也是必需脂肪酸、甾醇、維生素等營養素的來源。長期以來,學者們致力于食用油脂研究,并取得了大量的研究成果。而且,各種研究成果對指導農業種植、工業生產、合理膳食起到了積極的作用。但是,油脂作為重要的食品及食品原料,因產品質量與安全引發的一系列問題,對油脂品種鑒別和摻偽檢驗方法的要求越來越高。

從食用油脂品種鑒別和摻偽檢驗方法的相關文獻報道來看,2004年之前,利用油脂品種特有成分或物性檢測的方法較多。2004年以后,陸續有關于利用質譜、核磁共振譜、X-衍射等技術以及拉曼光譜、紅外光譜、近紅外光譜等光譜與化學計量學結合方法的報道。2008年以后,陸續有關于色譜分析方法與化學計量學結合方法的報道。其中,化學計量學方法主要有主成分分析法(PCA)、判別分析法(DA)、聚類分析法(CA)、SIMCA法、人工神經網絡法以及常用來于定量分析的偏最小二乘法(PLS)、多元線性回歸法(MLR)等。

近年來,多標號學習算法在文本分類、圖像識別、蛋白質功能分類及食用油脂品種鑒別方面的應用已有報道。Qua-gong Huo,Xiao-Bo Jin and Hong-mei Zhand采用多標號Ada-Boost.RMH算法和帶元標號分類器的改進多標號AdaBoost.RMH算法,對食用油脂的高效液相色譜指紋圖信息進行處理,9種246份純油脂樣和124份混合樣分類結果表明,該方法能有效地對食用植物油定性分析,還能有效地對其定量分析。陳景波采用多標號學習矢量化算法對食用油進行分類,也取得了理想的效果。

本文將多標號學習ML-kNN算法應用于食用植物油檢測中,ML-kNN算法將貝葉斯定理與kNN算法相結合構建分類器,通過最大化后驗概率(MAP)的方式推理未見事例的標記集合。最終的分類器是T個弱分類器的加權平均。每一次迭代,都要對權重進行更新,更新的規則是:根據分類效果減小弱分類器分類效果較好的數據的權值,增大弱分類器分類效果較差的數據的權值,能簡單而有效的應用于多標簽分類問題。與AdaBoost.RMH方法相比,具有錯誤率低且方法簡單的特點。

1實驗材料與方法

1.1食用植物油脂樣品

大豆油35份、菜籽油59份、花生油39份、芝麻油37份、棉籽油16份、玉米油20份、葵花籽油32份、棕櫚油27份?;ㄉ?大豆混合油9份、花生/葵花混合油9花生/玉米混合油2份、花生/棕櫚混合油9份、芝麻/花生混合油20份、大豆/玉米混合油3份、大豆/葵花混合油3份、大豆/棕櫚混合油8份、芝麻/大豆混合油21份、芝麻/葵花混合油21份、芝麻/菜籽混合油9份、芝麻/棕櫚混合油9份。

1.2高效液相色譜分離方法

C18色譜柱;乙腈-二氯甲烷流動相,流速1ml/min,梯度洗脫;蒸發光散射檢測器,漂移管溫度70℃,氮氣流量0.71/min;色譜數據處理方法面積歸一法。

1.3多標記算法

1.3.1多標記學習結構

Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其算法本身是通過改變數據分布來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓練數據特徵,并將關鍵放在關鍵的訓練數據上面。

該算法其實是一個簡單的弱分類算法提升過程,這個過程通過不斷的訓練,可以提高對數據的分類能力。整個過程如下所示:

1)先通過對N個訓練樣本的學習得到第一個弱分類器;

2)將分錯的樣本加權后和新數據一起構成一個新的N個的訓練樣本,通過對這個樣本的學習得到第二個弱分類器;

3)將第二個弱分類器都分錯了的樣本加上其他的新樣本構成另一個新的N個的訓練樣本,通過對這個樣本的學習得到第三個弱分類器,依次類推;

4)使用加權的投票機制代替平均投票機制,將弱分類器聯合起來,讓分類效果好的弱分類器具有較大的權重,而分類效果差的分類器具有較小的權重。即某個數據被分為哪一類要通過T個弱分類器多數表決,最終經過提升的強分類器。

1.3.2評價準則

多標記學習問題中,評價指標可分為兩種類型,即基于樣本的評價指標和基于類別的評價指標,對分類問題來說采用基于樣本的評價指標較合適,對于檢索問題來說采用基于類別的評價指標較合適。故本文采用基于樣本的五個指標如下:

(1)Hammingloss:該指標旨在考察樣本在單個標記上的誤判率,其值越小則該分類器性能越優,最優值為hlosss(h)=0。

(2)One-error:該評價指標旨考察在訓練樣本類別標記序列中,排在最前端的類別標記不屬于相關標記集合的情況。其值越小則該分類器性能越優,最優值為one-errors(h)=0。

(3)Coverage:該評價指標旨在考察覆蓋所有在樣本類別標記排序過程中的搜索深度的情況。其值越小則該分類器性能越優,最優值為。

(4)Ranking loss:該評價指標旨在考察在樣本類別標記排序序列中出現排序錯誤的情況,即無關標記排在相關標記之前的情況。其值越小則該分類器性能越優,最優值為rlosss(h)=0。

(5)Averageprecision:該評價指標旨在考察訓練樣本的類別序列中,排在相關標記前的標記也是相關標記的情況。其值越小則該分類器性能越優,最優值為avgprecs(h)=1。

1.3.3多標記ML-KNN算法

其中x、y為訓練樣本集和類別標記集,T為循環次數,

2結果與討論

2.1甘油三酸脂組成成分指紋譜處理方法

按照高效液相色譜分離方法,采集各類油脂樣品的甘油三酸脂組成成分指紋譜,結果如圖1、2、3、4所示。由于油脂的甘油三酸脂成分非常復雜,而高效液相色譜的分離效能有限,甘油三酸脂成分的同分異構體達不到完全分離,甚至達不到基本分離。為了保證不同樣品指紋譜中特征峰保留時間的穩定性,比較各種油脂樣品的HPLC譜圖,確定甘油三酸脂色譜峰定性窗口為1%。甘油三酸脂成分含量計算方法為峰面積歸一法。

2.2實驗和結果

本文的實驗是基于Motlab實現的,隨機抽取實驗樣本中的2/3(即純油樣本數目為171、混合油樣本數目82)作為訓練樣本,剩余的作為測試樣本。下表1以檢測花生油摻混有大豆油為例,其混合大豆油百分比不同其檢測率稍有差別。

本實驗k的選擇是通過在訓練集上采用2折交叉檢驗法,所得最優值k=15,迭代次數T取50時,對數據集運行10次,取其平均值各評價準則如表2所示。

表2的實驗數據表明,ML-kNN算法與AdaBoost.RMH算法相比較,有四個指標優于后者只有覆蓋所有在樣本類別標記排序過程中的搜索深度不如AdaBoost.RMH算法好;Hammingloss是樣本在單個標記上的誤判率,ML-kNN算法分類識別準確率為純油98.90%、二元91.58%,能有效的應用于食用植物油的定性分類與定量分析;運行時間比AdaBoost.RMH節約了近1/3。

3結論

針對當今社會存在的調和油成分檢測困難、地溝油濫用、油脂摻偽以及食用油質量監督管理問題,本文采用多標記ML-kNN算法用于食用植物油分類識別與摻偽檢驗,該方法是結合食用油的甘油三酸脂的高效液相指紋譜信息分類識別準確率為(純油98.90%、二元91.58%),可以在快速地進行有效檢測,與市場監管需求相契合。本文是首次將多標記ML-kNN算法應用于食用油檢測中,其對二元檢測精準度還有待提高,算法運行時間復雜度還有待降低,下一步工作著重于對系統的進一步優化和應用于對多元的鑒別。

猜你喜歡
混合油甘油油脂
基于Ansys Fluent混合油導流仿真分析
煤系針狀焦生產中混合油的粘流特性與分子結構間關聯性的FTIR解析
A taste of Peking duck
飼用油脂在仔豬料中的應用
Al-Zr-CeO2固體酸催化劑的制備及其油脂環氧化性能
中國油脂
歡迎訂閱2019年《中國油脂》
HPLC-ELSD法測定麗水薏苡仁中甘油三油酸酯的含量
雙金屬改性的Ni/SiO2催化劑甘油催化重整制合成氣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合