?

中紅外和近紅外數據融合的香型風格判別

2021-02-03 10:07沙云菲劉太昂岳寶華李敏杰尤靜林謝雯燕
光譜學與光譜分析 2021年2期
關鍵詞:投影圖香型煙葉

沙云菲,黃 雯,王 亮,劉太昂,岳寶華,李敏杰,尤靜林,葛 炯*,謝雯燕*

1.上海煙草集團有限責任公司技術中心,上海 200082 2.上海大學化學系,上海 200444

引 言

中式卷煙風格的重要構成因素之一是烤煙香型,這也一直是煙草行業的研究熱點??緹熛阈屯ǔ7譃榍逑阈?、中間香型和濃香型3大類[1]。近年來,隨著對烤煙香型研究和認識的進一步加深進而細分成清香型、清偏中型、中偏清型、中間型、濃香型、濃偏中型和中偏濃型七大類。早期對于烤煙香型分類一般都是通過評吸人員進行感官評價,后來不少研究希望通過煙葉化學成分或近紅外光譜數據建立烤煙香型的判別模型。邱昌桂[2]等利用煙葉中的68種致香成分結合數據分析和模式識別技術,提出了一種基于煙草致香成分和遺傳算法-支持向量機算法的烤煙香型自動識別方法;郭東鋒[3]等利用煙葉中常規化學成分結合人工神經網絡算法建立烤煙香型評價模型。宋楠[4]提出了一種改進局部線性嵌入非線性降維算法首先對煙草近紅外數據進行降維,然后建立了香型風格投影模型和判別模型。在前期研究中,無論是利用煙葉化學成分或者是近紅外光譜數據,可能是包含的信息量還不夠多,因此模型還有進一步優化的空間。在文獻調研中發現中紅外在快速檢測中得到了應用[5-6]。劉巖[7]等運用三級紅外宏觀指紋圖譜法對三種不同香型的白酒進行了鑒定;中紅外光譜攜帶有大量信息,可以用食品類香型的快速識別。本研究嘗試將中紅外和近紅外光譜進行數據融合,用來建立烤煙香型風格快速識別模型。并與僅僅利用中紅外、近紅外光譜數據建立煙葉香型風格模型的準確率進行對比。

1 實驗部分

1.1 材料

選取2018年清香型、中間香、型濃香型的煙葉樣本共189個,其中清香型81個,中間香型45個,濃香型63個。

1.2 煙葉中紅外光譜

稱取1 g 烘干后的煙葉粉末于試管中,加入10 mL正己烷,超聲混勻靜置一段時間,抽取5 mL經濾膜過濾至小試管中,靜置揮發三天,利用ThermoFisher公司的Nicolet iS50傅里葉變換紅外光譜儀掃描得到中紅外光譜,掃描范圍4 000~650 cm-1,分辨率為4 cm-1,掃描次數16次。煙葉中紅外光譜如圖1(a)所示。

圖1 煙葉中紅外光譜(a)和近紅外光譜(b)Fig.1 MIRs (a) and NIRs (b) of tobacco samples

1.3 煙葉近紅外光譜

將15 g 60 目的煙葉粉末,放置在內徑為5 cm樣品杯中,壓實后,利用ThermoFisher公司的Antaris FT-NIR分析儀掃描得到近紅外光譜,掃描范圍3 800~10 000 cm-1,分辨率為4 cm-1,掃描次數16次。煙葉近紅外光譜如圖1(b)所示。

1.4 化學計量學方法

主成分分析法[8](principal component analysis,PCA)通過線性變換將煙葉中紅外光譜數據或者近紅外光譜數據投射到一些新的主成分變量(principal components,PCs),這些主成分變量之間依次正交,每一個主成分都是由中紅外光譜數或者近紅外光譜數據線性組合而成,利用PCA可以考察樣本在空間分布情況。

遺傳算法[9](genetic algorithm,GA)是一種模仿生物界的進化規律(適者生存,優勝劣汰)演化而來的自適應全局優化搜索方法。與其他變量選擇算法相比,GA直接對研究對象操作,不需要求導和連續函數,具有全局尋優、自適應調整尋優方向等特點。

后退法[10]則是首先將所有變量都用在建模方程中,然后刪除偏相關系數最小的變量,隨后重復這一選擇過程直到不再刪除變量為止。

支持向量機分類算法[11-12](support vector classification,SVC)的核心內容是在進行建模分類過程中,構建出一個最優分類面,此最優分類面可以將樣本正確分開,而且要使兩類的分類空隙最大。對于構建最優分類面過程即為求函數全局最優解的過程。在利用支持向量機分類算法建立分類模型的過程中懲罰參數c是一個重要的影響參數,對于建立的分類模型的準確率和預報能力影響顯著。

2 結果與討論

2.1 預處理

為了提高信噪比,對中紅外和近紅外譜圖數據進行一階導數和Savizky-Golay平滑。選取煙葉中紅外光譜數據21個和近紅外光譜數據13個特征波數對應的吸光度值作為影響因素。如圖2所示。

圖2 (a)中紅外一階導數圖和(b)近紅外一階導數圖Fig.2 (a)The first derivative MIR spectra and (b)The first derivative NIR spectra

2.2 香型風格特征投影分析模型結果

圖3分別是基于中紅外數據(21個影響因素)、近紅外數據(13個影響因素)及中紅外和近紅外融合數據(34個影響因素)的煙葉清香型、中間香型、濃香型三種香型的PCA投影圖。

圖3 (a)基于中紅外數據的PCA投影圖;(b)基于近紅外數據的PCA投影圖和(c)基于中紅外和近紅外融合數據的PCA投影圖Fig.3 (a) PCA projection plot based on MIR;(b) PCA projection plot based on NIR and (c) PCA projection plot based on MIR and NIR

由圖3可見,基于中紅外和近紅外數據PCA投影圖中三種香型混淆嚴重,區分界面不清晰?;谥屑t外和近紅外融合數據的PCA投影圖清香型、中間香型和濃香型數據分類清晰,有比較明顯的區分界面。

2.3 中紅外和近紅外融合數據的變量選擇

中紅外和近紅外融合數據共有34個影響因素,分別用后退法和GA進行變量選擇。圖4是基于34個全部影響因素、后退法選擇的24個影響因素(中紅外14個,近紅外10個),GA選擇的19個影響因素(中紅外11個,近紅外8個)的清香型、中間香型、濃香型三種香型風格的PCA投影圖。

圖4 (a)基于34個變量的PCA投影圖;(b)基于24個變量的PCA投影圖和(c)基于19個變量的PCA投影圖Fig.4 (a) PCA projection plot based on 34 varieties;(b) PCA projection plot based on 24 varieties and (c) PCA projection plot based on 19 varieties

由圖4可以看出:對比全部34個變量、后退法選擇的24個變量和GA選擇的19變量的PCA算法投影圖,可以看出GA即使選擇了比較少的變量,但三種香型風格的煙葉分類效果還比較好。因此利用GA對中紅外和近紅外融合后數據進行變量選擇,可以剔除對煙葉香型分類影響小的因素。

2.4 煙葉香型分格分類判別的SVC模型

選取上述189個三種香型煙葉樣本,隨機提取20%共38個樣本作為預報集,剩余80%共151個樣本作為建模集,以GA選擇的19個變量輸入變量,建立煙葉香型風格判別的SVC模型,在SVC建模過程中選擇線性核函數,懲罰因子C取10。該模型的建模結果、留一法結果和預報結果如表1所示。

由表1可以看出:基于GA選擇的中紅外和近紅外融合數據的19個變量輸入變量,建立的煙葉香型風格判別的SVC模型,其建模結果、留一法結果和預報結果都有著比較高的準確率,整體準確率都高于85%。

表1 SVC模型準確率Table 1 The accuracies of the SVC

3 結 論

由于中紅外和近紅外融合數據提取了更多的特征信息,對于煙葉香型風格的分類效果更佳。利用GA算法對融合后的數據進行變量選擇,刪除了中紅外和近紅外融合數據的冗余信息,雖然選擇比較少的變量,但煙葉香型風格的分類效果還較好。進一步利用以GA選擇的變量,對189個三種香型煙葉樣本建立煙葉香型風格判別的SVC模型,模型的建模結果、留一法結果和預報結果的準確率都大于85%。以上結果表明中紅外和近紅外數據融合可以提取更多特征信息,利用這些信息可以建立煙葉香型風格的分類判別模型,為煙葉香型風格快速鑒別提供幫助,減少專業人員的感官評吸工作量。

猜你喜歡
投影圖香型煙葉
基于分裂狀態的規范偽括號多項式計算方法
本期卷首
中國白酒香型概念的提出及演化發展
關于新形勢下煙葉生產可持續發展的思考
煙葉主要真菌病害的發生與防治
Wendt操作對紐結和鏈環影響的若干規律
圖解荒料率測試投影圖及制作方法
虛擬鏈環的Kauffman尖括號多項式的Maple計算
一種降低造紙法再造煙葉平滑度的方法
湘西上部煙葉化學成分特征及聚類分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合