?

基于改進YOLOv5的茶芽檢測

2024-03-04 03:03吳思妃
福建茶葉 2024年2期
關鍵詞:茶芽網絡結構分支

吳思妃

(浙江農林大學 數學與計算機科學學院,浙江 杭州 311300)

茶葉產業在中國的經濟中占有重要地位,據統計,2022年全國茶園面積達4995.40萬畝,同比增加99.31萬畝,增幅2.03%;全國干毛茶總產量為318.10萬噸,同比增長10.8萬噸,增幅3.85%;全國干毛茶總產值再創歷史新高,達到3180.68億元,同比增加252.42億元,增幅8.62%。茶葉產業為中國提供了大量的就業機會和財政收入。茶芽作為制作茶葉的重要原料之一,其產量對茶葉產業的影響是非常重大的。當前茶芽的采摘主要依靠人工,費時費力,且效率較低,更無法實現準確的產量估計與管理。自動化采茶無需人工操作,能夠有效解決人工采茶勞動強度大、效率低等問題,在大幅提高生產效率的同時,能夠實現信息集成和共享,及時準確的為決策與管理服務,保證茶園的優化配置和高效運轉。因此,實現茶芽采摘的自動化和智能化對于提高茶葉產量有重要意義[1]。而茶芽檢測是實現茶芽采摘自動化和智能化的基礎。

隨著深度學習技術的發展,其在智慧農業,尤其是自動化、智能化產業上得到了廣泛的應用。通過使用深度學習算法,可以進行茶芽的自動檢測,提高檢測精度和效率,為實現茶葉茶芽的自動化采摘提供技術支持。YOLO系列算法作為當前主流的深度學習目標檢測算法之一,在識別小目標圖像上已被證明具有較高的準確性與可靠性。其中,YOLOv5算法運算速度快、精度高、模型小,在嵌入式設備上的應用前景非常廣泛。

因此,本文提出了一種基于改進YOLOv5模型的茶芽識別算法,旨在提高茶芽識別的準確性,實現對茶芽的快速高效檢測,為將來在嵌入式設備上實現茶芽識別、自動采摘提供參考。

1 改進的YOLOv5模型的結構設計

1.1 YOLOv5

YOLOv5是YOLO系列目標檢測模型較穩健的版本,具有非??斓膱D像推理速度,可以達到0.007秒,即每秒可處理140張圖像,滿足圖像實時檢測需求。與YOLOv4、YOLOv3等相比,YOLOv5使用了更深層次的網絡結構和自適應數據增強等技術,從而提高了模型檢測精度。此外,YOLOv5的網絡結構里的所占權重數據文件內存大小僅為27 MB,網絡體量大大減小。網絡結構方面,其輸入部分使用Mosaic數據增強、自適應錨框計算和自適應圖像縮放,對小目標檢測效果更好;主干部分引入了Focus結構執行切片操作降低計算復雜度,提高了檢測速度[2]。

綜上所述,YOLOv5具有檢測速度快、準確率高、易于訓練和部署等優點,可以實現定制化的檢測任務。相比于YOLOv4等,YOLOv5引入了更深的網絡結構、自適應數據增強等技術,進一步提高了模型的性能。

1.2 注意力機制

注意力機制是一種讓模型更加關注輸入信息中重要部分的技術[3][4],可以分為通道域、空間域和混合域,它們關注圖像中的目標和上下文信息,從而提升小目標檢測的效果,可以提高模型的性能和效率。坐標注意力機制是一種同時考慮了空間和通道維度的注意力機制,本研究提出了在YOLOv5算法的頸部網絡施加坐標注意力機制的方法,增強對目標對象的識別能力。

坐標注意力機制通過一個二維卷積層來生成兩個不同方向的坐標向量,并將它們相乘得到最終的權重矩陣,使得位置信息可以被保存下來,增強模型的性能。其具體操作可以分為坐標信息嵌入和坐標注意力生成兩個步驟。為了克服全局池化在保留位置信息方面的不足,坐標嵌入部分采用了一種并行的一維特征編碼方法,即沿著水平和豎直方向分別對每個通道進行(H,1)和(1,W)的池化核編碼,從而得到輸出表示如公式(1)和公式(2)所示:

坐標注意力生成的過程是通過坐標信息嵌入操作,將全局感受野和精確位置信息融合到特征表示中,從而形成注意力圖。具體而言,該步驟將坐標嵌入操作輸出的兩個特征圖沿空間維度串接起來,然后通過一個共享的1×1卷積層得到公式(3)所示的輸出:

其中,[zh,zw]表示空間維度上的拼接操作,F1表示1×1卷積層,fh∈RC/r×(H+W)為水平和豎直方向編碼空間信息的中間特征圖。將f沿著空間維度切分成fh∈RC/r×(H+W)和fw∈RC/r×(H+W),此處,r是用于控制塊大小的縮放比例。再利用兩個1×1卷積Fh和Fw分別將fh和fw變換為與輸入的通道數相同,服從公式(4)和公式(5):

gh和gw分別展開并作為注意力權重使用。最后的輸出可以寫成:

1.3 RepVGG Block

RepVGG Block是一種簡化的網絡結構,它將VGGNet和ResNet的思想結合起來,通過一種結構重參數化的方法,在訓練時使用多分支模塊,而在推理時使用單分支模塊,從而提高效率和精度。

VGGNet和ResNet是卷積神經網絡中的兩個經典模型。VGGNet探索了卷積神經網絡的深度與其性能之間的關系,證明了增加網絡的深度能夠在一定程度上影響網絡最終的性能,使錯誤率大幅下降。其使用的全部都是3x3的小卷積核和2x2的池化核,通過不斷加深網絡來提升性能,特點是網絡結構簡單,但是參數量大,訓練時間長。ResNet通過殘差學習解決了深度卷積神經網絡訓練過程中的梯度消失問題。其通過引入跨層連接(shortcut connection)實現了讓輸入直接跨過若干層傳到后面的層,以給非線性的卷積層增加直連邊的方式來提高信息的傳播效率,使得網絡可以更深,性能也更好。相比之下,VGGNet的優點是結構簡單易懂,缺點是參數量大;ResNet的優點是可以訓練非常深的網絡,缺點是網絡結構比較復雜。

而RepVGG作為VGGNet和ResNet的結合,是一種由三個分支組成的卷積塊,其中一個分支是3×3的標準卷積,另一個分支是1×1的卷積,還有一個分支是恒等映射(identity mapping)。在訓練階段,這三個分支都會參與計算,并且通過加法操作進行融合。在推理階段,這三個分支會被轉化為一個等價的3×3卷積,從而減少計算量和參數量。YOLOv5s是一種輕量級的目標檢測模型,它使用了多尺度特征金字塔(FPN)和深度可分離卷積(Depthwise Separable Convolution)來提高效率 。使用RepVGG Block替換YOLOv5s的卷積塊可以讓YOLOv5s在保持原有精度的同時能夠提速。具體來說,就是將YOLOv5s中所有的3×3卷積替換為RepVGG Block,并且在訓練結束后對RepVGG Block進行重參數化,將旁支的1×1卷積融合到3×3的卷積中。在訓練時,該方法的實現方式是為每一個3x3卷積層添加平行的1x1卷積分支和恒等映射分支,構成一個RepVGG Block。集成坐標注意力機制和RepVGG Block后的整體主干網絡結構框圖如圖1所示。

圖1 改進算法的主干網絡結構

2 實驗結果及分析

2.1 實驗環境

本文網絡訓練使用的硬件環境為騰訊云服務器,配置為Intel Xeon Cascade Lake 8255C(2.5 GHz),10核vCPU,40GB內存和1顆Tesla V100-NVLINK-32。操作系統為Ubuntu20.04,使用Python3.8 為計算機語言,并以Pytorch1.10.2作為深度學習框架。訓練時的批量大小設置為64,初始學習率設置為0.01,訓練輪次300輪。

2.2 數據集制作

本文實驗所用數據集均由實地拍攝獲得,包含大小為1008×1512像素的JPEG圖像245張,如圖2。為了提高檢測的泛化能力,采用平移、鏡像、拼接、灰度化等方法對數據進行增強處理。最終獲得增強后的圖像980張。使用labelImg圖像標注軟件對數據集進行標注,存儲為YOLO格式。由于本文的研究對象為茶芽,將每張圖像中的茶芽標簽設置為“shoot”。

圖2 部分茶芽數據集例子

2.3 評價指標

本文采用mAP、精確率(P)、召回率(R)這三個指標來評估模型的精度,采用參數量與模型大小來評估模型的輕量化效果,對比分析改進前后的YOLOv5算法在茶芽上的識別性能。由于本文只有“shoot”一個標簽,本實驗中的mAP等于AP。相關公式如下:

其中,TP表示預測為茶芽實際也是茶芽的樣本數量,FN表示預測為茶芽實際不是茶芽的樣本數量,FN表示預測不是茶芽實際也不是茶芽的樣本數量。

2.4 實驗結果與分析

本文將改進后的算法稱為YOLOv5-CARV,改進前后的實驗結果如下表。

由表1可知,改進后的YOLOv5算法相較改進前mAP提升了4.22%,召回率提升了8.07%,盡管精確率降低了1.94%,但參數量由7062718大幅降低至5500541,模型大小由14.5MB降低至11.3MB。本文算法之所以能取得更高的檢測精度,得益于坐標注意力機制的引入,使網絡的關注點更集中于未被遮擋的小目標上。同時,由于使用RepVGG Block替換原網絡中的卷積塊,并且在訓練結束后對RepVGG Block進行重參數化,將旁支的1×1卷積融合到3×3的卷積中,大大減少了計算量和參數量,實現模型參數量降低至原模型77.88%,模型大小也較原模型減少了22.06%。綜上所述,本文的改進方式在有效提升模型準確性的同時,大幅降低了計算量,達到了較好的輕量化效果,較好地實現了本文的研究目標,能夠為將來在嵌入式設備上實現茶芽識別、自動采摘提供有效參考。

表1 YOLOv5算法改進前后對茶芽檢測結果

3 結語

本文以YOLOv5算法作為茶芽檢測的框架,在其頸部網絡引入坐標注意力機制,并將卷積塊替換為RepVGG,使模型能夠更加關注到復雜背景下的小目標并大大減少了計算量。本文提出的YOLOv5-CARV算法在茶芽檢測上表現更加出色,有著更高的識別精度、更小的模型體積和更少的計算量。本文方法因為具有對硬件設備要求低和計算量小的特點,更適合嵌入式設備末端部署。如何在嵌入式設備部署本文方法是今后研究的重點。

猜你喜歡
茶芽網絡結構分支
基于Faster R-CNN復雜背景的茶芽檢測
北緣茶區秋季修剪對茶樹越冬及次年茶芽萌發影響的探討
巧分支與枝
一類擬齊次多項式中心的極限環分支
我坐在窗前
上帝的糖
基于互信息的貝葉斯網絡結構學習
知識網絡結構維對于創新績效的作用機制——遠程創新搜尋的中介作用
滬港通下A+ H股票網絡結構演化的實證分析
復雜網絡結構比對算法研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合