?

基于多特征融合的茶葉鮮葉等級識別的方法研究

2021-08-13 01:28張金炎曹成茂李文寶王二銳劉光宗
安徽農業大學學報 2021年3期
關鍵詞:鮮葉紋理灰度

張金炎,曹成茂,李文寶,王二銳,孫 燕,劉光宗

基于多特征融合的茶葉鮮葉等級識別的方法研究

張金炎1,2,3,曹成茂1,2,3*,李文寶1,2,3,王二銳1,2,3,孫 燕1,2,3,劉光宗1,2,3

(1. 安徽農業大學工學院, 合肥 230036;2. 安徽省智能農機裝備工程實驗室,合肥 230036;3. 農業農村部南方農業裝備科學觀測實驗站,合肥 230036)

茶葉鮮葉等級直接影響優質綠茶成品的等級,如果在鮮葉階段就茶葉的芽葉數量進行等級識別,并將不同等級鮮葉分離出來,制作不同等級的綠茶成品,從一定程度上解決了優質綠茶鮮葉采摘環節的難題。提出基于茶葉形態、紋理和HOG特征的鮮葉分級方法,采集鮮葉樣本圖片,對樣本圖片進行預處理操作,再提取鮮葉形態和紋理特征等特征參數,建立機器學習模型支持向量機、隨機森林和線性判別法K-最近鄰對新鮮茶葉樣本進行分類,得到各等級的茶葉識別結果。試驗結果表明,單獨使用一種特征分類效果不佳,也不符合茶葉本身的復雜性。將多種特征融合有更好的分類效果;3種算法中,隨機森林算法有較高的優越性,準確率達97.06%。該研究提取的多特征參數和分類模型,為實際鮮葉的生產加工等級識別提供參考。

特征融合;隨機森林;機器學習;鮮葉等級識別;HOG特征

茶葉是世界三大飲料之一,在我國具有重要的文化、健康和經濟價值[1]。本研究選用的茶葉樣本為綠茶,因其色澤翠綠,香氣清鮮持久且富含人體所需氨基酸而深受人們喜歡[2]。目前,綠茶的等級識別和分級加工生產主要針對干茶,鮮見對機采茶鮮葉進行有效研究。本研究提出通過機器視覺對茶葉鮮葉進行精準等級識別,為分選出名優茶提供新的解決思路。

近年來機器視覺和深度學習被廣泛地應用于農業生產領域[3-8]。利用機器視覺對農產品進行等級識別也是當前的熱門研究內容[9-12]。Khan等[13]提出基于強相關和遺傳算法進行特征選擇的蘋果病害分割與分類優化方法,還提出了機器視覺系統在谷物中的適用性,能夠將不同谷物有效的分類開。在茶葉識別領域,Li等[14]提出了基于多傳感器數據融合和嗅覺可視化系統的綠茶質量評價系統,選出最優方案PCA-SVM;Cai等[15]利用近紅外光譜,建立了用于茶葉分類的自組織神經網絡模型,相比于傳統的神經網絡提高了分類的準確率;Li等[16]建立近紅外光譜的快速無損鑒別特級綠茶評價系統。但是基于外設紅外光譜、高光譜和傳感器等難以對茶葉外形做出準確的評價,且大多數外設成本高昂不利于推廣使用。國內研究學者,如董春旺等[17]、Dong等[18-19]和Zhu等[20]提出基于機器視覺和工藝參數對針芽形綠茶外形進行品質評價;宋彥等[21]針對祁門紅茶的等級識別,選出形狀特征直方圖的LS-SVM的最優評估模型;Zhu等[22]通過過程特征和圖像信息,建立BP-MLP模型和RBF神經網絡模型進行綠茶感官品質評價。

但上述研究工作大多基于單一特征,且大多數研究對象為干茶,忽略了茶葉本身特征的復雜性。本研究提出基于茶葉鮮葉的形態特征描述子與紋理特征描述子相融合并通過建立支持向量機、K-近鄰和隨機森林3種分類模型與提取的HOG特征相比較,選擇最優鮮葉等級識別模型。

1 材料與方法

1.1 試驗材料

本試驗所需的茶葉鮮葉樣本采自于安徽省合肥市林業輻照中心種植的綠茶,選擇春季時期的茶葉鮮葉,春茶受蟲害侵擾少、芽葉細嫩且顏色翠綠。同時,春天氣溫普遍較低,發芽數量有限,生長速度較慢,符合采摘標準的產量較少。拍攝圖像時,保持光線均勻,采用背景色為藍色,樣本具體包括鮮葉的全芽、一芽一葉和一芽兩葉各200片。樣本采集流程圖如圖1所示。

圖1 茶葉鮮葉樣本流程圖

Figure 1 Fresh leaf sample of tea leaves

1.2 試驗方法

本研究的試驗樣本取3種等級的茶葉鮮葉共600多片,在光照均勻且樣本相互無遮擋條件下采集圖像樣本。提取茶葉鮮葉的形態特征、紋理特征和HOG特征,通過建立支持向量機、隨機森林和K-最近鄰3種分類模型,選擇最優鮮葉等級識別模型,實現對茶葉鮮葉等級識別。

1.3 圖像預處理和形態特征建立

對采集到的圖像樣本進行預處理,相機采集保存的圖像為BMP格式,將批量讀取的樣本圖像進行OSTU法的二值化處理、圖像分割、濾除小粒子、邊緣提取和確定區域連通域,實現葉片與背景的分離。具體特征提取流程圖如圖2所示。

為準確識別鮮葉等級,本研究所需要的復雜形態特征描述子包括對角線長度、緊湊度、圓形度、矩形度、包含茶葉外接圓的直徑、周長、長軸、短軸和細長度。采用區域邊界周圍每個像素對之間的距離來計算周長,區域中的實際像素數為面積,葉片橢圓主軸為長軸,次軸為短軸。圓形度、矩形度、細長度和緊湊度為4個相對形態特征,鮮葉所需要的形態特征定義及計算公式具體如表1所示。

圖2 特征提取算法流程圖

Figure 2 Pre-processing algorithm flowcharts

表1 形態特征參數

注:公式中的Dia、J、E、R、D、T、C、Lx、Sx、L、S和A分別代表對角線長度、緊湊度、圓形度、矩形度、直徑、細長度、周長、長軸長、短軸長、最小外接矩的長、最小外接矩的寬和面積。

1.4 紋理特征建立

灰度共生矩陣(GLCM)統計法是在假定圖像中各像素間的空間分布關系,包含了圖像的紋理信息,是具有廣泛性的紋理分析方法。在茶葉鮮葉圖像中,灰度共生矩陣從任意一點(x,y)及偏離它的一點(x+a,y+b)(其中a,b為整數)構成點對。設該點對的灰度值為(f1,f2),假設圖像的最大灰度級為L,則f1與f2的組合共有L×L種。對于整幅圖像,統計每一種(f1,f2)值出現的次數,然后排列成一個方陣,再用(f1,f2)出現的總次數將它們歸一化為出現的概率P(f1,f2),將所有估計的值表示成一個矩陣的形式。對于茶葉鮮葉圖像上紋理變化較為緩慢,其灰度共生矩陣對角線上的數值較大。本研究提取了對比度、能量、熵、逆差距和相關性5個紋理特征。

本研究提取茶葉鮮葉灰度共生矩陣的5個特征,即對比度、能量、熵、逆方差和相關性。

(1)對比度,度量矩陣的值的分布和圖像中局部變化的多少,反映了圖像的清晰度和紋理的溝紋深淺。紋理的溝紋越深,反差越大,效果越清晰。

(2)能量,能量變換反映了圖像灰度分布均勻程度和紋理粗細度?;叶裙采仃嚨脑刂迪嘟?,則能量較小,表示紋理細致。

(3)熵,茶葉鮮葉的熵值表明了圖像灰度分布的復雜程度,熵值越大,圖像越復雜。

(4)逆方差,逆方差反映了圖像紋理局部變化的大小,鮮葉圖像紋理的不同區域間較均勻,變化緩慢,逆方差會較大。

(5)相關性,度量圖像的灰度級在行或列方向上的相似程度,因此值得大小反映了鮮葉局部灰度相關性,值越大,相關性也越大。

其中,G(,)為灰度生矩陣,(,)為灰度對;

選取全芽、一芽一葉和一芽兩葉樣本各200個,提取鮮葉灰度共生矩陣的5個特征,取均值如表2所示。

1.5 HOG特征建立

圖像的HOG(方向梯度直方圖)特征用來進行物體的特征描述子,通過計算和統計圖像局部區域的梯度方向直方圖來構成特征。本研究所用圖像分辨率為658×492,將圖像尺寸調整為細胞單元的最近整數倍,每16×16個像素劃分為一個細胞單元cell,2×2個細胞單元劃分為一個方向直方圖block,采用重疊的方式求出方向直方圖的特征。

表2 灰度共生矩陣的均值特征

(1)批量讀取圖片,對圖像進行預處理并采用伽馬校正法對圖像顏色空間標準化處理,如式(6)所示。

(2)計算圖像每個像素的梯度,捕獲輪廓信息,梯度方程如下式所示;

Figure 3 Variance contribution rate statistics for the main component of the sample

(3)將圖像化分成cell,將每4個cell組成一個方向直方圖,每個block內所有cell的特征描述子累加;

(4)將圖像內所有的方向直方圖的HOG特征描述子累加,得到目標圖像的HOG特征描述子,送入分類器進行分類。

數據降維處理可以有效減少過擬合的發生。由于本研究每個茶葉樣本集特征數據集都提取了包括形態、紋理和HOG的多個特征,特征較多,數據的維度較高,會帶來數據處理慢,硬件消耗大等問題,同樣高維度還會出現“維度災難”,但又很難直接選擇。為避免特征維度較高帶來嚴重的過擬合現象,對3種特征進行PCA。

從圖3中可以看出,3種類型的特征參數均有貢獻率極小的特征,對后期的識別結果影響不大,可以去除累計貢獻率<99%的特征。

2 分類器模型建立

選擇600個茶葉鮮葉樣本,將提取的特征向量隨機劃分,80%用于訓練,20%用于測試。并采用10折交叉驗證選擇分類模型的最優參數,防止過擬合現象。本研究設計的3種分類模型,基于核函數的支持向量機(SVM)、K-最鄰近算法(KNN)和隨機算法(Random Forest)。將前述提取的形態、紋理特征和HOG特征送入分類器分類,統計分類模型的準確率。通過比較3種模型對茶葉分級的效果,選取最優模型。

表3 不同核函數的準確率評價指標

圖4 核函數準確率指標

Figure 4 Kernel function accuracy indicator

圖5 特征對比

Figure 5 Feature comparison

2.1 SVM算法

SVM作為一種經典的算法,在模式識別和圖像處理等諸多領域中應用廣泛,在茶葉鮮葉分類問題中有廣泛的使用性。支持向量機分類模型屬于有監督學習范疇。其原理是尋找一個最優超平面,能夠將目標進行有效的分類。SVM分類器的好壞在于核函數和核函數參數的選擇。

設數據集為(X,Y),∈ [1,480]、=1,2,3,…,14, X為第個樣本,為X的第個樣本的第個特征;Y={1,2,3}為標簽值,其中1為全芽,2為一芽一葉,3為一芽兩葉。超平面方程如式(11)所示。

Figure 6 K-Nearest Neighbor Accuracy Indicator

圖7 K-最近鄰下的特征對比

Figure 7 Characteristic comparison under K-Nearest Neighbor

為了使超平面能準確的劃分樣本空間,對超平面方程進行約束,約束條件如式(12)和(13)所示。

其中480組為訓練集,120組為測試集。根據不同核函數的SVM,得到如表3所示。分析多特征和不同數據集影響3種不同核函數SVM的性能,建立不同樣本下和對多特征的模型驗證,得到結果如圖4和圖5所示。

經過訓練集和數據集的驗證,3種核函數的平均準確率為91.85%、92.7%和93.58%??紤]鮮葉實際情況的復雜性,選擇二次核函數(Cubic SVM)模型。且從圖4可知,形態特征對于分類的影響較大,HOG特征最小。

圖8 試驗曲線

Figure 8 Test curve

圖9 特征對比

Figure 9 Feature comparison

2.2 K-最近鄰算法

K-最近鄰算法是從訓練集中找到和新數據最接近的k個樣本,根據其主要分類來決定新數據的類別。K-最近鄰算法的主要因素為分類決策規則、距離度量方式或相似的衡量和k值的選取。本研究采用加權歐式距離度量法,計算公式如下:

其中w為距離權重。

輸入訓練集T={(1,1), (2,2),…, (n,n)},其中x=1,2,…,150,y={1,2,3}為標簽值,其中1為全芽,2為一芽一葉,3為一芽兩葉。輸出所屬的類別。根據給定的距離度量,在訓練集T中找到與距離最近的個樣本,涵蓋著個點的領域記為N(x);在N(x)中根據分類規則確定的類別y。根據上述規則,對分類模型進行優化,提高模型準確率。如圖6和圖7所示。

2.3 隨機森林算法

建立鮮葉3個等級的數據集包含全芽、一芽一葉和一芽兩葉各200個樣本。數據集包含鮮葉的形態特征和紋理特征,通過隨機森林模型,確定這些特征和鮮葉之間的關系,從而實現鮮葉等級。輸出選擇單一標簽作為輸出,根據名優綠茶品質標準,用1和2分別表示符合條件的鮮葉全芽和一芽一葉,3表示一芽兩葉。學習樣本為,各200個,屬性個數為,14個。

隨機森林算法的設計規則如下:利用Boostrap有放回采樣法,隨機產生個訓練1,2,3……T;利用每個訓練集生成對應的決策樹1,2,3……C在每個非葉子節點上選擇屬性前,從個屬性中隨機抽?。ā埽﹤€屬性作為當前節點的分裂屬性集,并以這個屬性中最好的分裂方式對該節點進行分裂;每棵樹都完整成長,而不進行剪枝;對于數據集樣本,利用每個決策樹進行測試,得到對應的類別1(),2(),3()……C();采用投票的方法,將個決策樹中輸出最多的類別作為測試機樣本所屬的類別。將600個樣本隨機產生訓練集和測試集共5份,按4∶1的比例進行訓練。隨機森林隨機每次抽取的訓練集和測試集不同,運行模型5次得到準確率評價指標,提高模型的泛化能力,如圖8所示。并驗證隨機森林模型下,各類參數對分類效果的影響,準確率指標圖9所示。

表4 3種識別模型的混淆矩陣

表5 3種不同分類算法不同評價指標的得分表

表6 HOG特征分類結果

3 結果與分析

3.1 識別模型比較

本試驗針對茶葉鮮葉等級識別,提取了形態和紋理的共14個特征,設計了SVM、K-最近鄰和隨機森林3種機器學習模型,并與HOG特征模型相比較。不同分類模型的分類真實準確率結果和3種模型的混淆矩陣如表4和表5所示。

表5以4種不同評價得分表為評價指標??梢钥闯?,隨機森林的4種評價指標,識別率較高且誤識率最低,識別性能最好,分類的綜合性能要優于SVM和K-最近鄰,最高達到97.06%。在復雜特征的情況下,SVM構造的超平面難以將數據很好地分類開,而K-最近鄰在計算復雜特征的距離時,也難以提高準確率。

圖 10 不同算法茶葉等級識別結果

Figure 10 Different algorithms tea grade recognition result

隨機森林的決策樹之間相互獨立,樣本進入分類模型時,每一顆決策樹進行分類,在針對大樣本和多特征問題時,有一定優勢。同時,由表4分類模型可看出,提取的能量特征、熵特征、相關性及對比度特征提高模型分類的性能,更符合鮮葉本身的復雜性。

3.2 HOG與分類模型

將上述經PCA降維后的HOG特征建立特征數據集,在3種分類模型下建立準確率評價指標。如表6所示。

結果表明,隨機森林下的HOG特征識別率最高,但SVM和K-最近鄰模型下的鮮葉的HOG特征識別效果較差。降維后的HOG特征仍保留22個主成分特征分量,說明特征數量會影響分類模型的分類效果,同時在多種特征的比較下,隨機森林算法的識別準確率都優于SVM和K-最近鄰,證明了隨機森林的優越性。

為分析3種分類模型的性能和分析提取的特征對鮮葉等級識別影響,對鮮葉做等級識別標定處理,為實際鮮葉加工生產提供參考。隨機森林模型能夠準確的識別全芽和一芽兩葉,圖10(b)中存在同片葉遮掩的一芽一葉也被有效的分類。SVM和K-最近鄰模型中存在少量未被標記的鮮葉。

4 結論

本研究對茶葉鮮葉的形態特征描述子、紋理特征描述子和HOG特征下,全芽、一芽一葉和一芽兩葉的等級進行識別。通過建立SVM、K-最近鄰和隨機森林3種分類模型,選擇最優分類結果。得到研究結論如下:

(1)本研究針對茶葉鮮葉等級識別問題,提取鮮葉的形態特征復雜描述子包括細長度、緊湊度、圓形度、矩形度、對角線長度等9個形態特征和對比度、相關性、能量、熵和逆方差5個紋理特征。經過分類模型分析,這14個特征對鮮葉等級識別是有效的。

(2)相比于經典的SVM和K最近鄰分類模型,隨機森林算法模型具有較高的優越性,識別率最高為97.06%。隨機森林在多特征和識別鮮葉多等級分類問題上能夠計算特征權重,具有良好分類效果,在后期移植算法到嵌入式設備中,具有一定應用前景。

[1] 李蘇玲. 我國茶葉出口影響因素實證研究 : 基于貝葉斯VAR模型分析[D]. 武漢: 華中師范大學, 2019.

[2] 林昱星, 肖澤豐, 田璧瑞, 等. 安吉白茶愈傷組織增殖培養及茶多酚的積累[J]. 河北大學學報(自然科學版), 2017,37(6): 614-620.

[3] FANG C, HUANG J D, CUAN K X, et al. Comparative study on poultry target tracking algorithms based on a deep regression network[J]. Biosyst Eng, 2020, 190: 176-183.

[4] 陳進, 顧琰, 練毅, 等. 基于機器視覺的水稻雜質及破碎籽粒在線識別方法[J]. 農業工程學報, 2018,34(13): 187-194.

[5] 劉鴻飛, 黃敏敏, 趙旭東, 等. 基于機器視覺的溫室番茄裂果檢測[J]. 農業工程學報, 2018,34(16): 170-176.

[6] MISRA T, ARORA A, MARWAHA S, et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging[J]. Plant Methods, 2020, 16: 40.

[7] LIU Z, WANG J, TIAN Y, et al. Deep learning for image-based large-floweredcultivar recognition[J]. Plant Methods, 2019, 15: 146.

[8] KOIRALA A, WALSH K B, WANG Z, et al. Deep learning for real-time fruit detection and orchard fruit load estimation: benchmarking of ‘MangoYOLO’[J]. Precis Agric , 2019, 20(6): 1107-1135.

[9] RAZMJOOY N, MOUSAVI B S, SOLEYMANI F. A real-time mathematical computer method for potato inspection using machine vision[J]. Comput Math Appl , 2012, 63(1): 268-279.

[10] WU A, ZHU J H, YANG Y L, et al. Classification of corn kernels grades using image analysis and support vector machine[J]. Adv Mech Eng , 2018, 10(12): 168781401881764.

[11] SABERIOON M, CíSA? P, LABBé L, et al. Comparative performance analysis of support vector machine, random forest, logistic regression and k-nearest neighbours in rainbow trout () classification using image-based features[J]. Sensors (Basel), 2018, 18(4): E1027.

[12] LIU L, LI Z K, LAN Y F, et al. Design of a tomato classifier based on machine vision[J]. PLoS One, 2019, 14(7): e0219803.

[13] KHAN M A, LALI M I U, SHARIF M, et al. An optimized method for segmentation and classification of apple diseases based on strong correlation and genetic algorithm based feature selection[J]. IEEE Access, 2019, 7: 46261-46277.

[14] LI L, XIE S, NING J, et al. Evaluating green tea quality based on multisensor data fusion combining hyperspectral imaging and olfactory visualization systems[J]. J Sci Food Agric, 2019, 99(4): 1787-1794.

[15] CAI J X, WANG Y F, XI X G, et al. Using FTIR spectra and pattern recognition for discrimination of tea varieties[J]. Int J Biol Macromol , 2015, 78: 439-446.

[16] LI C, GUO H, ZONG B, et al. Rapid and non-destructive discrimination of special-grade flat green tea using Near-infrared spectroscopy[J]. Spectrochim Acta A Mol Biomol Spectrosc, 2019, 206: 254-262.

[17] 董春旺, 朱宏凱, 周小芬, 等. 基于機器視覺和工藝參數的針芽形綠茶外形品質評價[J]. 農業機械學報, 2017, 48(9): 38-45.

[18] DONG C, LIANG G, HU B, et al. Prediction of congou black tea fermentation quality indices from color features using non-linear regression methods[J]. Sci Rep, 2018, 8(1): 10535.

[19] DONG C W, ZHU H K, ZHAO J W, et al. Sensory quality evaluation for appearance of needle-shaped green tea based on computer vision and nonlinear tools[J]. J Zhejiang Univ Sci B, 2017, 18(6): 544-548.

[20] ZHU H K, LIU F, YE Y, et al. Application of machine learning algorithms in quality assurance of fermentation process of black tea: based on electrical properties[J]. J Food Eng , 2019, 263: 165-172.

[21] 宋彥,謝漢壘,寧井銘,等. 基于機器視覺形狀特征參數的祁門紅茶等級識別[J].農業工程學報,2018,34(23): 279-286.

[22] ZHU H K, YE Y, HE H F, et al. Evaluation of green tea sensory quality via process characteristics and image information[J]. Food Bioprod Process , 2017, 102: 116-122.

Study on the method of recognition of fresh leaf grade of tea based on multi-feature fusion

ZHANG Jinyang1,2,3, CAO Chengmao1,2,3, LI Wenbao1,2,3, WANG Errui1,2,3, SUN Yan,LIU Guangzong1,2,3

(1. School of Engineering, Anhui Agricultural University, Hefei 230036;2. Anhui Province Engineering Laboratory of Intelligent Agricultural Machinery Equipment, Hefei 230036;3. Scientific Observing and Experimental Station of Agriculture Equipment for the Southern China Ministry of Agricultural, Hefei 230036)

Tea fresh leaf grade directly affects the grade of high-quality green tea finished products, if the number of buds and leaves of tea in the fresh leaf stage for grade identification, and different grades of fresh leaves separated, the production of different levels of green tea finished products, to a certain extent to solve the high-quality green tea fresh leaf picking link of the problem. In this paper, the fresh leaf grading method based on tea morphological, texture and HOG features is proposed, the fresh leaf sample picture is collected, the sample picture is pre-processed, the features parameters such as fresh leaf morphological and texture feature situ, and the machine learning model supports the vector machine, the random forest and the linear discrimination method K-nearest neighbor to classify the fresh tea sample, and gets the tea recognition results of each grade. The experimental results show that the use of a feature classification alone is not effective and does not conform to the complexity of the tea itself. The fusion of various features has a better classification effect, and among the three algorithms, the random forest algorithm has higher advantages, with an accuracy rate of 97.06%. The multi-featured parameters and classification models extracted in this study provide reference for the identification of the production and processing level of actual fresh leaves.

feature fusion; random forest; machine learning; fresh leaf grade recognition; HOG features

TS272.2;TP181

A

1672-352X (2021)03-0480-08

10.13610/j.cnki.1672-352x.20210706.007

2021-7-7 11:42:52

[URL] https://kns.cnki.net/kcms/detail/34.1162.S.20210706.1641.014.html

2020-05-12

安徽省科技重大專項(18030701195)和安徽農業大學2020年度研究生創新基金項目(2020ysj-74)共同資助。

張金炎,碩士研究生。E-mail:2285990651@qq.com

曹成茂,博士,教授,博士生導師。E-mail:caochengmao@sina.com

猜你喜歡
鮮葉紋理灰度
采用改進導重法的拓撲結構灰度單元過濾技術
基于灰度拉伸的圖像水位識別方法研究
基于BM3D的復雜紋理區域圖像去噪
使用紋理疊加添加藝術畫特效
TEXTURE ON TEXTURE質地上的紋理
基于最大加權投影求解的彩色圖像灰度化對比度保留算法
基于灰度線性建模的亞像素圖像抖動量計算
不同嫩度茶鮮葉原料稀土元素含量的變化
消除凹凸紋理有妙招!
氣溫對日照茶鮮葉適制性的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合