?

基于高光譜成像和外觀特征的祁門工夫紅茶質量數字化評判

2024-01-12 11:33尹玲玲吳瑞高鈺敏卜宜彬李勁丁小莉衛志辰張雨茹任廣鑫
中國茶葉加工 2023年4期
關鍵詞:色澤紅茶紋理

尹玲玲,吳瑞,高鈺敏,卜宜彬,李勁,丁小莉,衛志辰,張雨茹,任廣鑫

(淮南師范學院生物工程學院,安徽淮南 232038)

紅茶是世界上最受歡迎的無酒精飲料之一,由茶樹的幼嫩枝葉加工而成[1]。 近年來,隨著紅茶的藥用價值和保健作用得到實驗的進一步證實,全球紅茶消費量持續增長[2]。工夫紅茶作為紅茶的主要品類之一,是中國特有的一種茶品。其緊細的外形和醇厚的口感深受消費者的喜愛[3]。 一般來說,茶葉的品質與特定的感官特征如顏色、香氣、滋味、紋理和形態特征高度相關。茶葉按品質的差異可以劃分為不同等級,這取決于其生長條件、收獲季節和加工工藝[4]。 在茶產品的實際流通銷售中, 大多數消費者無法準確的評估茶葉的質量[5],這為不法商家提供了銷售假貨或以次充好的可能,給消費者帶來了經濟損失,也造成了消費者與商家之間的不信任。因此,茶葉質量的穩定性和規范化一直受到消費者的關注。

幾十年來, 茶葉質量評價主要采用兩種傳統方法,即感官品質分析法和濕化學法。感官質量分析是依靠訓練有素的評茶員的經驗來實現的,缺乏客觀的量化[6]。 濕化學分析通過使用精密的儀器,準確測定茶葉中各種化學成分的含量[7]。然而,化學分析具有設備昂貴、樣品制備復雜、使用大量化學試劑、成本較高、耗時較長的局限性[8],開發快速、穩定、準確的茶葉品質評價技術勢在必行。

目前,基于單一外形色澤、紋理等特征無創判別茶葉質量的評價方法被大量報道[9-12]。 將茶葉色澤和紋理特征進行特征數據融合, 全面衡量祁門工夫紅茶品質的方法至今少有文獻報道。因此,有必要建立一套基于紋理和色澤等融合特征的茶葉品質快速評價體系與智能感知的新方法。

綜上, 探索一種流通過程中工夫紅茶外觀品質的快速判別方法, 對實現品質等級與外觀質量的實時控制至關重要。 祁門紅茶的紋理與色澤特征是形成其外在品質的主要指標, 也是重要的感官品質描述語,直接影響其在貿易中的銷售價值。而高光譜成像(Hyperspectral imaging, HSI)技術正適用于不同等級祁門工夫紅茶外觀品質指標與融合數據特征的快速無創檢測。

1 材料與方法

1.1 實驗材料

研究以祥源茶業股份有限公司提供的祁門櫧葉種祁門工夫紅茶的七個等級茶產品標準樣(特級、一級、二級、三級、四級、五級和六級)為研究對象, 七個等級工夫型紅茶樣品的主要品質成分含量和感官審評結果分別通過標準方法化驗和專業評茶員把關。紅茶樣品數共計700 份,每個等級茶樣數分別為100 份。 樣品的七個不同等級(特級、一級、二級、三級、四級、五級和六級)分別以T、C1、C2、C3、C4、C5 和C6 表示。樣品的水分含量控制在7%左右。 分析前,將樣品存放在真空壓縮的鋁箔袋中,并在恒溫干燥器中保存待用。

1.2 高光譜成像信息采集與處理

采集HSI 數據時, 每個樣品稱取15±0.5 g 均勻鋪于培養皿(φ×h: 9 cm×1 cm)中。 為了獲得清晰的圖像,分別設置輸送帶速度、CCD 相機曝光時間和鏡頭與樣品垂直距離三個調試參數為0.98 mm/s、30.01 ms 和23.5 cm。 將茶葉樣品放置在移動平臺上,通過行掃描的方式進行圖像采集。為了去除相機內的噪聲和暗電流等因素的干擾, 在進行HSI 數據分析前,需對原始圖像進行黑白校正,校正公式如下:

其中Ic是校正后的圖像,Iraw是原始圖像,Idark是通過完全覆蓋攝像頭鏡頭獲得的暗參考圖像(幾乎為0%的反射率),Iwhite是通過反射一個標準的特氟龍白瓷磚獲得的白色參考圖像(>99.9%的反射率)[13]。

為降低HSI 數據的空間維度, 優化茶樣原始圖像, 實現冗余數據的消除和數據運行速度的提升, 主成分分析 (Principal component analysis,PCA)被引入,用于數據降維和特征信息提取。 該法將數據以線性變化的方式通過求解最大協方差,由高維度向低維度投影,獲得與原始變量線性組合的新變量。由于新變量間相互獨立,可消除相鄰波長間存在的數據冗余[14]。 高光譜特征波長圖像的確定是由前二至三個主成分(Principal component, PC)圖像的方差貢獻率決定,通過選取PCA 變量線性組合的最大權重系數, 進而在PC 圖像中優選出相應波長對應的圖像。 HSI 數據的校正和PCA 均由ENVI 4.7 軟件實現。

1.3 紋理和色澤特征提取

茶葉的紋理特征和色澤特征能夠直接反映其外觀品質。 研究采用ENVI 4.7 軟件的PCA 模塊提取圖像紋理信息。 總的來說,PCA 的前幾個PCs對圖像總體信息做出了主要貢獻。首先,計算出前兩、三個PC 的累積方差貢獻率,得到總變量貢獻率大于95%的PC 對應的載荷曲線。 然后,將相應PC 載荷曲線的拐點(即波峰和波谷)作為特征波長,保存特征波長處的灰度圖像。 最后,采用灰度統計矩陣 (Grey-level gradient co-occurrence matrix, GLGCM)和灰度共生矩陣(Gray-level cooccurrence matrix, GLCM)兩種矩陣統計方法對茶葉圖像的紋理特征進行提取和計算[13,15]。GLCM 法提取了指定圖像在特征波長下的六個不同的統計參數(即平均值、標準差、相關性、對比度、同質性和能量)。GLGCM 法基于灰度梯度的二階統計量,計算得到圖像的四個紋理統計值(熵、三階矩、一致性和平滑度)。將獲得的上述八個紋理參數和兩個統計參數(平均值和標準差)作為茶葉紋理特征變量,用于建立后續的紋理數據鑒別模型。上述紋理參數提取均通過MATLAB R2019b 軟件實現。

采用MATLAB R2019b 軟件選取樣品高光譜RGB 圖像中200×200 的像素區間為該圖像的感興趣區域 (Region of interest, ROI), 通過RGB、CIE Lab 和HSV 間的顏色模型變換[10,16],分別提取該區域內的紅色(R)、綠色(G)和藍色(B)通道均值,明度(L*)、紅綠度(a*)和黃藍度(b*)分量均值以及色調(H)、飽和度(S)和亮度(V)均值九個色澤評價參數作為樣品的外觀顏色特征值, 用于后續的樣品質量評價模型的構建。 利用HSI 系統提取色澤特征示意圖如圖1 所示。

圖1 利用HSI 系統提取色澤特征示意圖Fig.1 Schematic diagram of color features extraction using HSI system

1.4 多元分析方法

為使模型具備良好的泛化性能, 采用Kennard-Stone (K-S) 方法對樣本集特征進行劃分。該算法將所有的樣本作為校正集的候選樣本,計算所有樣本的歐氏距離, 選取距離最近和最遠的兩個樣本劃入校正集。重復上述步驟,直到獲得滿足要求的樣品數量[17-18]。利用該法可優選出具有代表性的樣本劃入校正集, 余下的樣品劃入預測集。

在模型構建中, 研究選用非線性的支持向量機(Support vector machine, SVM)、兼具線性功能的最小二乘支持向量機 (Least squares support vector machine, LSSVM) 和隨機森林(Random forest, RF)算法進行建模,并對判別模型效果進行比較,探索出評價茶葉品質的最優模型。

SVM 法是數據分析中常用的多分類器。 該算法基于結構風險最小化原則,試圖提高泛化能力,降低預期風險[8]。 SVM 鑒別器以徑向基函數(Radial basis function, RBF)為核函數,通過優化兩個參數(即懲罰參數c和核參數g)獲得良好的預測。參數c用于獲得最小訓練誤差和簡化模型;核函數g描述了輸入空間到隨機高維特征空間的非線性映射[19]。 該方法的具體步驟概述如下:(1)采用留一法交叉驗證來優化核心參數 (c和g);(2)采用網格搜索法確定最佳參數對(c和g);(3)根據預測集中正確判別率 (Correct discriminant rate, CDR)的最高輸出,建立最佳的SVM 分類模型。

LSSVM 是一種有效的非線性智能學習算法,能夠快速解決線性和非線性模式識別問題[7]。該法重點研究了機器學習損失函數, 并將第二范數應用于目標函數的優化問題。 算法使用等式約束代替不等式約束, 將優化問題轉化為對一組線性方程組的求解[20-21]。對于任意已知輸入輸出的非線性樣本集, 可以通過探索合適的非線性變換來建立LSSVM 模型,其表達式如下:

在LSSVM 模型中,核函數的選擇起著重要的作用。 其核心思想是利用核函數將線性不可分的樣本映射到高維空間,解決維數的困擾??紤]特征空間的結構完全由核函數決定, 核函數選擇對分類器的開發具有重要意義。在本研究中,RBF 是由專家根據最小誤差和先驗知識來選擇的。 內核函數的描述公式如下:

其中x為m維輸入向量,xi為第i個徑向基函數的中心,與x具有相同的維數。 γ 為徑向基函數核函數的參數。 利用網格搜索法優化了RBF 的正則化參數gam(γ)和sig2(σ2)[4]。 該方法簡化了SVM 優化問題的求解,提高了計算效率,促進了SVM 的應用和發展。

RF 算法是基于回歸樹和分類樹的多個決策組合而構建的模型集成方法[22]。 當算法的運行,每棵決策樹均進行分類。 以所有決策樹中分類結果最多的類別作為最終結果[23]。 算法提出了兩個關鍵參數: 一是決策樹的數量 (Number of decision trees, nDT); 二是用于構建決策樹的采樣特征的數量。 RF 具有不要求變量服從特定統計分布、訓練樣本少、對過擬合靈敏度低、能夠對特征的重要性進行排序等優點[24]。 該方法可以簡單概括為如下三個步驟:(1)使用Bagging 方法隨機生成T個訓練數據子集;(2)每個訓練樣本被用來生成相應的決策樹。 在每個子節點選擇屬性之前,從M個屬性中隨機選擇m 個屬性作為當前節點的拆分屬性集, 在M個屬性中以最佳拆分方式拆分節點;(3) 每一棵樹在不修剪的情況下充分生長,用來測試預測集X中的相應類別,利用T決策樹的多數票,對X進行集合分類決策。

為評價判別模型的性能, 用校正集和預測集的CDR 來評估模型的預測能力。 一般來說,一個優秀的判別模型應有較高的CDR 值,其計算方法如下:

其中,NCDR為校正/預測樣本的正確估計數,Nt為校正/預測樣本的總數。 上述建模算法均由MATLAB 2019b 軟件在Windows 8 平臺下自主開發。

2 結果與分析

2.1 樣品外觀品質特征

七個不同等級 (即T、C1、C2、C3、C4、C5 和C6) 的700 份祁門工夫紅茶的九個顏色參數(R、G、B、L*、a*、b*、H、S 和V) 的變化情況如圖2 所示。 結果顯示,隨著樣本等級的降低,其外觀色調(H)和飽和度(S)值降低,其它七個指標值則呈增長的趨勢。 結果表明,茶樣的等級品質越低,其色澤越暗,純度越低。祁門紅茶樣本的紋理特征值的提取過程是利用ENVI 軟件中PCA 方法提取前兩個PC 圖像的累計方差貢獻率達95.85%(PC1=92.19%,PC2=3.66%)(見圖3), 前兩個PCA 載荷曲線的波峰與波谷處的波段被篩選為圖像特征波長。 從PC1 和PC2 中獲得了三個最佳波長(696.74 nm、752.86 nm 和975.91 nm)。 因此,基于GLCM 和GLGCM 法從上述三個最佳波長的圖像ROI 中提取圖像紋理特征。 GLCM 法獲得的紋理參數包括兩個統計值(均值和標準差)×三個波段+四個紋理指標×三個波段×四個方向 (0°、45°、90°和135°),即54 個紋理特征。 GLGCM 方法可得到12 個紋理數據(四個紋理特征×三個波段),總計66 個紋理值,用于后續模型構建。

圖2 不同等級祁紅樣品的色澤特征的分布情況Fig.2 Distribution of the color characteristics of different grades of black tea samples

圖3 主成分分析的權重系數、載荷和樣品的最佳波長的選擇Fig.3 PCA weight coefficient, loadings and the selected optimal wavelengths of the samples

2.2 樣品集劃分與主成分分析

利用K-S 方法將校正集和預測集樣本以2∶1的比例進行劃分,得到校正集樣品數為467,預測集樣品數為233。樣品集的二維PC 空間分布情況見圖4。 圖4 結果顯示,祁紅樣品的單一特征(色澤或紋理) 與融合特征的校正集和預測集樣品的空間分布相對分散, 且校正集樣品分布包含了預測集樣品的分布范圍。 表明樣品集的劃分是合理的。

圖4 校正集和預測集樣本在二維主成分空間中的分布Fig.4 Distributions of the samples from the calibration set and the prediction set in the two-dimensional principal components space

不同等級祁紅樣品的二維PC 空間分布情況如圖5 所示。不同等級樣本的單一特征(色澤或紋理)與融合特征PC 得分分布顯示,不同等級的樣本間重疊性較強, 無論是單一特征還是融合特征均無法將不同等級的樣本區分開, 有必要引入線性或非線性的分類算法, 以實現對樣本品質等級的準確判別。

圖5 七個等級的樣本二維主成分分布圖Fig.5 Two-dimensional PC distribution of seven grades of the samples

2.3 外觀品質評價模型建立

基于SVM、LSSVM 和RF 智能算法的祁門紅茶外觀色澤、 紋理及特征融合數據的等級評判模型結果見表1。 模型結果顯示,基于色澤、紋理與特征數據融合的祁門紅茶等級最優LSSVM 分類模型在校正集和預測集中的CDR 分別為70.88% 、72.96% 、83.51% 、86.27% 和 93.15% 、94.85%。 使用融合特征建立的最佳判別模型性能優于單一紋理與色澤特征所建的模型,且紋理數據的建模效果高于色澤數據構建的模型識別精度。此外,融合數據建立的所有模型的CDR 均高于使用相同分類算法的紋理或色澤模型。實驗結果表明,特征融合能夠更為有效地反映祁紅樣本的外觀品質屬性, 建模精度較基于單一特征(紋理或色澤)的模型更高,對樣本的解析更加有優勢。

表1 基于色澤、紋理與數據融合特征的祁門工夫紅茶等級最佳判別模型結果Table 1 Results of the optimal models of Keemun Congou black tea samples based on color,texture,and data fusion features

3 總結與討論

研究基于HSI 技術和化學計量學算法, 開發出一套快速、無損的工夫紅茶外觀品質(色澤、紋理和融合數據)的評判方法。探討了不同機器學習算法對七個等級的祁門工夫紅茶標準樣單一外觀特征和多信息特征融合的預測能力, 以探求評價模型的最優化。

利用HSI 技術獲得祁門紅茶樣品的色澤和紋理特征數據,比較了基于SVM、RF 和LSSVM 算法對上述茶產品標準樣的單一外觀特征和融合特征的等級判別模型性能。結果表明,基于融合數據的建模性能優于基于單一特征屬性(色澤或紋理)的模型。由單一外觀特征的模型性能可知,紋理特征模型精度最高,色澤特征數據的建模效果最差。利用LSSVM 算法構建的特征融合評價模型對祁紅樣品的預測準確度最高, 預測集判別率達到94.85%。 利用特征融合數據所建模型具有更優的預測能力, 為工夫紅茶產品外觀品質的快速評判提供了一種行之有效的方法。

在所有分類模型中, 色澤數據模型的預測性能較差。 有可能是對祁門紅茶樣本外觀的等級劃分標準更加側重于對茶葉嫩度高低的審定。 紅茶樣品的持嫩度不同,其紋理差異較大。色澤特征主要與紅茶發酵程度關系緊密。 在標準化的紅茶加工工藝模式下,發酵工序具有嚴格的參數控制,其品質具有較強一致性。因此,不同等級的紅茶產品的色澤變化程度沒有紋理特征的差異性大, 進而導致色澤數據模型的性能較紋理特征差。

從分類算法的角度看,LSSVM 模型的預測效果優于SVM 模型和RF 模型。LSSVM 模型的優化可以理解為等式約束, 解決了基于訓練誤差平方的線性方程問題[7]。 在SVM 算法的基礎上建立和開發的LSSVM 方法, 能夠得到一個更為簡單、有效、穩健的模型。 根據相關文獻[20],LSSVM 分類器能夠有效提高茶葉品質評價模型的計算速度和分類精度。 此外,RF 算法對于輸出數值較多的屬性可能會產生誤差。 綜上,LSSVM 分類工具能夠提供更好的解決線性和非線性問題的方案, 更加有效地簡化問題的復雜性,增強模型性能。

猜你喜歡
色澤紅茶紋理
《幸福的紅茶時光》
人生的色澤
T-501色澤分析方法的建立
基于BM3D的復雜紋理區域圖像去噪
蜜香紅茶
使用紋理疊加添加藝術畫特效
TEXTURE ON TEXTURE質地上的紋理
紅茶與綠茶有什么區別?
消除凹凸紋理有妙招!
臭氧水對羅非魚片色澤影響分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合