基于殘差網絡和注意力機制的恩施玉露茶品級分類

2024-02-21 06:42毛騰躍歐陽德維

湖北科技學院學報 2024年1期

毛騰躍,歐陽德維

(1.中南民族大學計算機科學學院,湖北武漢 430074;2.湖北省制造企業智能管理工程技術研究中心,湖北武漢 430074)

恩施玉露是湖北省著名的茶葉品牌,深得人們的喜歡,且不同品質的茶葉價格也有極大的不同[1]。目前,對于茶葉品質高低的判別,國家制定了《GB/T 23776-2018 茶葉感官審評方法》,主要是對茶葉的外形、湯色、香氣、味道等方面進行判定。根據審評標準,茶葉的外形特征是分級檢測的重要參考方向之一。茶葉的外形評定包含了茶葉的條索、色澤、凈度以及嫩度等方面的評定,其中嫩度是從白毫多少來鑒別,條索的好壞主要從茶葉的松緊、整碎、曲直來判斷,色澤主要從茶葉的顏色和光澤上來判斷,凈度則主要觀察茶葉中是否混有茶梗等雜物?，F階段對于茶葉品質評審方法主要有感官評審、成分檢測和新興技術[2-3]。而對于購買茶葉時的品級判斷,個人感官判斷是最為普遍的感官檢測方法,但是這種方式主觀性較強,對人們評茶經驗要求高。因此基于新興技術提出一種準確、快速、低成本的恩施玉露茶品級分類方法很重要。

隨著計算機視覺技術的發展,對物體分類研究也取得了一定的進步[4-7]。傳統機器學習需要手動地提取特征,并利用這些特征信息來進行圖片分類。目前,國內外利用計算機視覺結合傳統機器學習對茶葉的分類研究較多,也取得了較好的效果。成都大學周敬結合計算機視覺技術提出了一種結合茶葉顏色、形狀以及雜質的相關特征提取算法,運用K均值聚類算法,準確率達到92.5%[8]。余洪建立了基于PCA-GA-BP神經網絡和PCA-PSO-LSSVM支持向量機的計算機視覺茶葉品質分級模型,對碧螺春和婺源綠茶品質進行分類準確率分別達到92%和91.5%[9]。劉鵬采用中值濾波和拉普拉斯算子對茶葉圖像進行預處理,提取茶葉的顏色特征和紋理特征,使用監督正交局部保持投影(SOLPP)的降維方法,用不同神經網絡作為分類模型,準確率達到93.75%[10]。

目前利用卷積神經網絡對茶葉品級進行分類的研究應用較少,但已在農業領域中有了較多應用。例如張怡提出基于ResNet卷積神經網絡的綠茶種類識別模型,通過結合ResNet-18結構與SGD優化算法,建立了一個新的模型,能對復雜背景下的茶葉圖片進行分類,準確率達到90.99%[11]。韓旭,趙春江提出了一種基于注意力機制及多尺度特征融合的分類方法,在DenseNet的基礎上引入了注意力機制及多尺度特征融合結構,選擇性的強調信息特征并對特征進行精準定位,對番茄葉片缺素的平均識別準確率可達95.92%[12]。陳思偉和戴丹在ResNet152V2的基礎上引入遷移學習和注意力機制,將對核桃果仁等級分類的準確率提升了2.04%[13]。

以上研究表明,目前關于成品茶葉的分類研究較多且分類效果較好,但大多數都是采用的傳統機器學習的算法進行分類,分類速度較慢,并不是十分適用于恩施玉露品級評定場景。本文通過對主流的圖像分類模型ResNet進行分析研究,首先在殘差模塊里面添加注意力模塊,讓圖像的特征表達更鮮明[14-16],然后在最后兩個殘差模塊里面引入深度可分離卷積代替常規卷積,降低模型的參數量,防止網絡過擬合。通過引入注意力機制與深度可分離卷積相結合的方式,設計出一個適用于恩施玉露茶品級分類的網絡模型,避免消費者在選購恩施玉露時對品質分級存疑的問題。

一、ResNet與CBAM

1.ResNet

深度殘差網絡是目前應用在圖像分類領域中最為主流的一種CNN網絡模型。CNN網絡中,更深層次的網絡模型具有更高的特征提取能力,而網絡層次過深則會帶來梯度爆炸和梯度消散問題。ResNet通過在網絡結構中加入殘差模塊,讓網絡學習恒等映射,一定程度上抑制了這些退化問題,它使得網絡模型不僅具備了較深的網絡層數,也讓其有了更高的精確度[17-18]。如表1所示,ResNet網絡有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152多種不同的層數。ResNet18是ResNet系列網絡中層數最少的網絡,它相比于其他網絡不僅模型較小、對于單張圖片的識別較快,而且準確率也有一定保證。故選擇ResNet18作為基礎的網絡模型。

表1 ResNet結構

2.CBAM

注意機制是人們在機器學習里面嵌入的一種特殊結構,能自適應的學習和計算出輸入數據對輸出數據影響的權重大小。CBAM體積較小,相比于其他注意力機制模塊節省了參數量和計算資源,而且能夠很方便的插入到各式各樣的網絡中去[19]。CBAM結構如圖1所示。CBAM由通道注意力和空間注意力并行組成,通道注意力模塊主要關注輸入特征中有意義的特征信息, 讓網絡先在通道的維度上自適應學習出特征在通道上的權重系數M,將通道權重系數乘以輸入特征,就可得到加權后的新特征?？臻g注意力模塊關注的是目標的位置信息,讓網絡在空間的維度上自適應的學習出特征在空間上的權重系數K,將經過通道注意力加權后的特征乘以空間權重系數,即可得到最終輸出特征。

圖1 CBAM注意力機制模塊

3.深度可分離卷積

深度可分離卷積常用于一些輕量級的網絡模型中,如MobileNet和Xception結構,它能夠有效減少網絡模型的大小,防止網絡過擬合,加快網絡模型的處理速度[20-21]。如圖2所示,深度可分離卷積由深

度卷積和逐點卷積構成,相比于普通卷積,深度可分離卷積能夠有效減少模型參數量,降低運算成本。如圖a所示深度卷積采用與輸入特征圖通道數相同的卷積核數量,且卷積核的通道數為1,這樣可以對輸入特征圖的每個通道做單獨的卷積運算,分割輸入特征圖在不同通道間的聯系。如圖b所示,逐點卷積采用大小為11的卷積核,能將新生成的特征矩陣做一個深度方向的加權操作,這樣生成的特征圖大小,與經過常規卷積后的特征圖大小相一致。

二、改進的ResNet18網絡

1.增加注意力機制

自然拍攝的恩施玉露茶圖片往往會帶有無關背景,且背景信息復雜多變,這給圖片在ResNet18網絡中進行分類時帶來了困難。在ResNet18網絡中,圖像經過第一層卷積層進行特征提取后,就會進入殘差結構,殘差結構使得較低維的特征也能在較高維度得以使用,減少了圖像在傳播過程的特征損失。因此本文結合注意力機制的特點,在ResNet18的殘差模塊中加入CBAM注意力模塊,這種方式可以在一定程度上抑制較低維度的無關背景特征,增強低維度里面的相關茶葉特征,也能讓茶葉信息特征可以通過殘差結構傳遞到更高維度,讓其得以重復利用。通過這種在殘差網絡中添加CBAM注意力機制的方式,能夠加強ResNet18網絡在各種各樣的復雜背景中獲取更多的茶葉信息的能力,讓其忽視與之無關的背景信息,提高模型的分類的準確率。CBAM的計算公式為:

F'=Mc(F)*F

(1)

F"=Ms(F')*F'

(2)

其中F代表輸入特征圖,F'代表經過通道優化后的特征圖,F"代表經過通道和空間優化后的特征圖,Mc表示通道注意力模塊一維卷積,Ms表示空間注意力模塊二維卷積,*表示逐個像素相乘。

改進后的殘差網絡結構如圖3所示,將CBAM模塊添加殘差模塊的尾端。通過前面的卷積操作能提取到更多的信息特征,將提取到的特征圖放入CBAM中,讓網絡自適應的獲取和恩施玉露茶相關的通道信息和空間信息。將輸出的加權特征信息矩陣與輸入特征信息矩陣相加以此來降低卷積過程中損失的相關特征信息,最后再將相加的特征圖經過一次Relu非線性激活后得到最終輸出結果?；谕ǖ篮涂臻g注意力機制的殘差模塊中的計算公式為:

XL+1=f(XL+H(F(XL,WL),ML))

(3)

其中XL+1和XL分別代表著第L個殘差單元的輸出與輸入,F是殘差函數,表示學習到的殘差,f是Relu激活函數,W代表了殘差模塊里面的卷積操作,H為CBAM注意力函數,M代表CBAM模塊里面的卷積與池化操作。

2.深度可分離卷積替換常規卷積

在網絡模型的標準卷積層中,數量較多的單一卷積核能提取到更復雜的信息特性,但也意味著更多的參數量。通過使用深度卷積和逐點卷積組合的方式來代替標準卷積已經在不少網絡模型中得到了應用,深度可分離卷積在犧牲極小準確率的基礎上,能極大程度降低模型的參數量和計算量,這為網絡模型應用到移動端提供了可靠依據。因此我們可以將殘差模塊中的第二層標準卷積替換為深度可分離卷積,這樣不僅能保證第一層標準卷積能提取到更多的原始特征信息,而且還可以極大程度的降低殘差模塊的參數量。引入深度可分離卷積后的殘差結構如圖4所示。其中常規卷積與深度可分離卷積的參數量計算公式分別為公式4和公式5:

圖4 基于深度可分離卷積和CBAM注意力機制的殘差模塊

params1=C0×(Kw×Kh×Ci)

(4)

params2=(Kw×Kh×1)×Ci+(1×1×Ci)×C0

(5)

在卷積層的參數計算量公式中,其中C0表示輸出通道數,Ci表示輸入通道數,Kw表示卷積核的寬,Kh表示卷積核高。

從公式5中可以發現,深度可分離卷積的參數量僅為標準卷積的參數量的1/C0+1/Kw×1/Kh,參數量做到了極大的減少。在ResNet18網絡中,每個殘差模塊中的卷積核大小都相同,卷積核寬Kw和卷積核高均為3,所以逐點卷積的參數量均為標準卷積的1/9。但輸出通道數C0會隨著成殘差模塊所在的位置而成倍增加, 從第一個殘差模塊到最后一個殘差模塊,經過標準卷積所輸出的通道數分別為64、128、256、512,使用深度卷積替換標準卷積,能將參數量分別降至為原始的1/64、1/128、1/256、1/512。從中可以發現,替換較高維度殘差模塊中的標準卷積層,所減少的參數量也就越多,模型大小也就減少的越明顯。但替換標準卷積數量過多也會造成訓練參數減少,帶來精度損失的問題。在前面兩個殘差結構中,由公式4可知,因為輸出通道數Ci和輸出通道數C0較少,故殘差模塊所占內存也較小,使用深度可分離卷積替換,會造成低維特性信息的損失,且內存減少不顯著。替換最后兩個殘差模塊中的標準卷積,這種方式既能保留低維的特征信息,也能減少高維空間中多余的訓練參數,避免模型過擬合,且最后兩個殘差模塊內存較大,內存大小減少顯著。

三、實驗

1.實驗總體流程

本實驗總共分為四個步驟,整體實驗流程如圖5所示。第一步先對數據集進行格式化處理,再在原始數據集的基礎上進行圖像裁剪、翻轉以及加入不同噪聲的方式對數據集進行擴充,提高數據的泛化性,避免數據集太少而帶來的過擬合問題。第二步先對數據集進行預處理,將其縮放成224×224格式,然后選用不同網絡模型進行消融實驗,選取模型準確率以及模型大小最為合適的網絡作為基礎網絡模型,經實驗結果得出ResNet18為最優模型。第三步為提高模型準確率,分別在網絡中引入不同的注意力模塊進行消融實驗,判斷哪種注意力模塊能對網絡產生較好的影響。最后為方便將模型應用到移動端,也為避免模型訓練參數過多而帶來的過擬合問題,采用深度可分離卷積對模型進行輕量化處理。為驗證添加位置的合理性,分別在網絡中的不同位置添加深度可分離卷積進行消融實驗,實驗得出替換最后兩個殘差模塊中的傳統卷積效果最佳。

圖5 實驗整體流程圖

2.數據集

本研究中,實驗采用自建數據集訓練與預測,茶葉由來自于湖北省恩施市鶴峰縣上的茶廠所提供,且茶葉經過專業評鑒師評鑒且標注過,茶葉分為四類不同的品質,共有12 421張。如圖6所示,其中特級品質茶葉圖片共3 236張、高級品質茶葉圖片共3 150張,中等品質茶葉圖片共3 283張、低等品質茶葉2 752共張。對所收集的圖片數據進行隨機裁剪,隨件翻轉以及添加高斯噪聲和椒鹽噪聲4種圖像增廣操作后,如圖7所示,共得到張58 395茶葉圖片。對增廣后的圖片按照8∶2比例將數據集分為訓練集與驗證集。

圖6 恩施玉露茶樣本

圖7 圖像增廣操作

3.實驗環境與模型訓練

本實驗基于windows平臺通過python語言實現,操作系統選擇的是windows11,硬件配置中CPU為12th Generation Intel?CoreTMi5-12400F@4.4GHz,顯卡為NVIDIA GeForce RTX 3060,學習框架選用pytroch。

模型訓練時,選取47 806張圖片作為訓練集,11 634張圖片作為測試集,對模型輸入的圖片大小設置為224×224,批處理的圖片數量設置為32,損失函數選擇的是交叉熵損失函數,優化器為Adam優化器,學習率的初始值設置為0.000 1。

在模型訓練過程中,loss可以用來衡量模型的預測值與真實值的不一致的程度,loss越小,模型的魯棒性就越好。在模型訓練過程中,損失函數曲線如圖8所示,從圖中可以觀察到,在前10個epoch時,loss下降的比較快,在訓練了30個epoch后,loss下降比較慢,訓練了40個epoch時,loss已經趨于平穩,模型已經到達收斂。

圖8 損失函數曲線

4.評價指標

本研究通過準確率、模型大小這兩個方面的均衡性來衡量模型的性能。準確率是圖片分類中最常用的度量單位,用于評價模型分類效果的好壞?？紤]到未來在移動端使用,模型大小也是一個重要的評價指標,模型越小識別圖片的速度也就越快。因此需要在保證模型準確率的情況下,減小模型的內存占用空間。準確率計算公式為:

(6)

其中TP表示將正樣本成功預測為正;TN表示將負樣本成功預測為負;N表示預測樣本總數。

5.試驗分析

(1)不同分類模型的分類性能對比

為了驗證選取分類模型的合理性,故設計了消融實驗。通過對比VGG16、GoogleNet、ResNet18、ResNet34、ResNet50、ResNet101這些主流的分類網絡模型對恩施玉露茶的分類準確率、模型內存占用空間這兩方面進行評估。從圖9中可以看出,在epoch次數相同的情況下,在準確率方面, ResNet系列網絡都對恩施玉露茶有較好的分類效果。在模型內存占用空間方面,從表2中可以看出,ResNet18和GoogLeNet在分類網絡中所占內存最少。而其他ResNet網絡模型隨著網絡層數的增加,對圖片的分類準確率幾乎保持不變,且都占用了較大的內存,并不能很好地滿足在移動端使用的場景,因此在確保準確率的情況下最后選擇ResNet18作為基礎的分類模型,ResNet18的內存大小僅為42.72MB,為VGG16大小的8.34%,RestNet50的47.46%,ResNet101的26.25%。其中ResNet18分類結果的混淆矩陣如圖10所示。

圖9 不同網絡模型分類結果

圖10 ResNet18分類結果混淆矩陣

表2 不同網絡模型的識別效率和大小

(2)不同注意力方法對比

為了驗證選取的注意力機制的合理性,分別選用了4種注意力機制來進行消融實驗,將不同注意力模塊分別加在殘差模塊的后面,通過增強和抑制部分特征信息,讓其側重關注于提取后的相關茶葉信息。其中實驗Ⅰ添加的是SE注意力機制模塊,讓網絡模型在通道上投入更多的注意力,實驗Ⅱ添加的是CA注意力機制模塊,CA模塊通過將位置信息嵌入到通道注意力里面,加強了網絡模型在通道上提取關鍵特征信息的能力,實驗Ⅲ添加的是CBAM注意力機制模塊,通過讓網絡先后通過通道和空間注意力模塊,讓網絡在空間和通道這兩個維度對投入更多的注意力以進行特征自適應優化,實驗Ⅳ添加的是SimAM注意力機制模塊,通過從當前的神經元中推斷出空間維度和通道維度,然后以反向優化神經元的方式來優化網絡。通過表3可知,不同的注意力模塊對ResNe18網絡有著不同的影響,其中ResNet18+SE提升了1.18%,ResNet18+CA提升了0.35%,ResNet18+CBAM提升了3.90%,而ResNet18+SimAM卻下降了0.21%。

表3 不同注意力的準確率和提升大小

這表明CBAM模塊對ResNet18網絡有較好的優化性,CBAM對要關注的茶葉信息會分配較高的權重,對一些無關的背景信息則分配較低的權重,從而讓網絡模型能夠將注意力集中在需要重點關注的茶葉信息區域,從而提升了分類的準確率。其中ResNet18+CBAM的分類結果混淆矩陣如圖11所示。

圖11 ResNet18+CBAM分類結果混淆矩陣

(3)深度可分離卷積添加位置對比

對于殘差網絡隨著網絡層數的加深,網絡能提取到更多的特征信息,但也需要更多的參數,這容易導致過擬合問題。通過使用深度可分離卷積替換標準卷積,可以有效降低模型參數,防止模型過擬合。但使用深度可分離卷積替換標準卷積過多,也會降低模型提取信息特征的能力,導致模型準確率下降。為驗證添加深度可分離卷積位置的合理性,分別替換不同位置殘差結構中的標準卷積來進行消融實驗,其中實驗Ⅰ為替換最后一個殘差結構中的標準卷積,實驗Ⅱ為替換最后兩個殘差結構中的標準卷積,實驗Ⅲ為替換最后3個殘差結構中的標準卷積,實驗Ⅳ為全部替換殘差結構中的標準卷積。從表4的實驗結果中可以發現,替換越高維度的標準卷積,減少的模型參數效果也就越明顯,替換過多也會造成模型精度損失過大。實驗Ⅰ中替換第四層殘差結構中的標準卷積,準確率雖然降低不多,但模型仍有過擬合問題。實驗Ⅳ中替換所有殘差結構中的標準卷積,盡管模型大小顯著降低,但準確率卻損失過多。實驗Ⅲ通過替換后面兩個殘差結構的標準卷積,讓網絡在較低維度提取到更多的信息特征,也降低了網絡的過擬合,這種方式不僅減小了模型的大小,且準確率仍得到了保留。故最終選擇實驗2中的網絡模型ResNet18+CBAM_DW作為最終的網絡模型。

表4 深度可分離卷積不同添加位置的準確率和模型大小

四、結論

本文以四種不同等級的恩施玉露茶圖片作為實驗樣本,對其進行圖像裁剪、圖像翻轉、添加噪聲等圖像增強操作來實現數據集擴充。在ResNet18的基礎上,提出了一種基于空間和通道注意力機制結合深度可分離卷積的茶葉分類網絡,并對不同的分類方法、不同的注意力機制以及嵌入不同位置深度可分離卷積的有效性進行了驗證。首先通過實驗對比出不同分類網絡對恩施玉露茶的分類效率,得出Resnet18不僅在內存方面占用較小僅為42.72MB,且分類準確率也較高,達91.62%。通過在ResNet18的殘差模塊里面加入空間和通道注意力機制讓網絡能夠自適應的關注茶葉的有效特征信息,提高模型準確率。為避免模型的過擬合,減少模型參數,在最后兩個殘差模塊里面引入深度可分離卷積,降低模型內存大小。實驗結果表明,本文選用的方法能有效提高ResNet18網絡對于恩施玉露茶的品質分類性能,最高準確率可以達到95.48%,能有效解決現實生活中消費者對于復雜背景下的恩施玉露茶品質分級的存疑的問題。

基于殘差網絡和注意力機制的恩施玉露茶品級分類

一、ResNet與CBAM

二、改進的ResNet18網絡

三、實驗

四、結論

一、ResNet與CBAM

二、改進的ResNet18網絡

三、實驗

四、結論