?

基于改進YOLOv5網絡的輪胎規格字符識別*

2024-02-29 14:27魏鴻磊楊祎寧
組合機床與自動化加工技術 2024年2期
關鍵詞:字符識別準確率卷積

趙 慶,魏鴻磊,楊祎寧,黃 萌

(大連工業大學機械工程與自動化學院,大連 116034)

0 引言

汽車輪胎是汽車安全性的重要組成部分,其設計、制造和使用都需要嚴格的標準和規范[1]。輪胎的生產過程中會涉及到大量的字符標識,如規格、型號、批次等信息,這些信息對于輪胎的質量控制和追溯具有重要意義。傳統的人工識別輪胎字符方法費時費力、效率低下且錯誤率較高,而采用機器視覺的輪胎字符識別比傳統識別方式進一步提高,但對識別環境要求較高,條件也較為苛刻。因此,研究一種自動化的輪胎標識的方法具有非常重要的現實意義。

目前,基于機器視覺系統的字符識別已取得了很多成果。王浩楠等[2]提出一種基于機器視覺的輪胎膠料表面字符識別,通過字符定位、字符分割、形態學處理、模板匹配等方法實現字符識別。彭祺等[3]提出一種鋼板板坯噴標字符識別系統,由圖像傳感器實時采集圖像,百度飛漿Paddle-OCR字符識別算法,實現字符自動識別。陳甦欣等[4]提出一種離合器飛輪多行字符識別方法,首先,對離合器飛輪圖像進行預處理,并提取邊緣坐標;其次,用DBSCAN聚類算法定位圓環區域后,采用像素投影法進行字符分割;最后,利用LBP和支持向量機進行識別。采用傳統機器視覺的方法,對圖像的要求更高,通用性較差,當環境發生變化時識別效果也會發生變化。

隨著深度學習技術的發展使得目標檢測和識別技術得到了極大的提升,其中YOLO(you only look once)系列算法是一種快速、準確的目標檢測算法[5]。通過改進YOLOv5模型結構,引入新的數據增強技術等,實現了更高的檢測速度和更好的準確率。YOLOv5技術也得到了廣泛的應用。宮鵬涵[6]提出了一種基于YOLOv5的鋼印字符識別方法,首先對圖像進行預處理擴充數據集,用YOLOv5進行訓練,最后用訓練好的模型進行字符的識別,該方法改進了訓練數據依賴性的問題,但在訓練中需要大量的計算資源來訓練和運行。張繼凱等[7]提出一種基于改進YOLOv5網絡的車號罐號檢測識別方法,在網絡中添加注意力機制和GBN模塊增強特征提取能力提高檢測速度,實現對車號罐號的識別,該方法加入注意力機制提高了準確率,但會增加模型是的計算量,導致過擬合。LAROCA等[8]提出一種端到端、高效且獨立的基于YOLO模型的自動車牌識別系統,包含統一的LP檢測和布局分類方法,該系統在準確性和速度之間實現了權衡,在該方法中用到CNNs需要大量的標記數據進行訓練,在處理一些場景的能力較差。

為提高汽車輪胎規格字符識別精度和準確率,本文提出一種基于YOLOv5改進的汽車輪胎字符識別算法。在原YOLOv5網絡中添加解耦頭、C3-Faster模塊替換C3模塊、WIOU替換CIOU的方法,提高網絡對汽車輪胎規格字符識別精度和準確率。

1 改進YOLOv5網絡

本文主要對網絡做了3個方面的改進:①將檢測和分割任務的特征提取和輸出分離出來,加快模型的收斂速度提高算法精度;②改進FasterNet Block提出C3-Faster減少卷積操作次數,提高計算速度;③使用WIoU-Loss作為損失函數,衡量預測邊界框與實際標注之間的相似度。

1.1 YOLOv5解耦頭

解耦頭[12]是一種將卷積層和全連接層分開的技術,它可以減少計算量和模型大小,從而提高模型的速度和效率。傳統的YOLOv5檢測頭是一個耦合頭[13],通常包含一個全連接層,將卷積層輸出的特征映射轉換為一個預測向量。這個全連接層通常與卷積層一起訓練,因此需要較大的計算資源和更長的訓練時間。在本文中將解耦頭添加到YOLOv5中,主要思想是將分類和定位的兩個分支分離,從而減少計算資源和訓練時間,解耦頭如圖1所示。首先,對輸出的特征圖做1×1卷積降低模型復雜度,在調整特征圖尺寸的同時,減少輸入數據的通道數達到降低模型計算量的目的,隨后將卷積處理后的結果分為兩個分支,分別做3×3的卷積處理,將第1個分支再進行一次1×1卷積處理獲得目標分類的分支,將第2個分支繼續分為2個分支,分別進行1×1卷積計算,分別得到目標坐標的分支和目標置信度的分支。

圖1 解耦頭

解耦頭實現了將分類和定位分支分開處理,減少了模型中需要計算的參數數量和計算量,大大加快模型的訓練和推理速度,提高模型對于不同尺度的目標特征的感知能力,從而提高模型的魯棒性和準確率,減少過擬合的發生。

1.2 改進FasterNet Block提出C3-Faster

在YOLOv5中通過C3模塊[14]增加網絡的深度和感受野,提高網絡的特征提取能力,C3模塊如圖2所示,由3個3×3的卷積核和若干個Bottleneck模塊組成。其中,第1個是步長為2的1×1卷積核將特征圖的尺寸減半,減少參數量的同時增加網絡的感受野,第2個和第3個是步長為1的1×1卷積核,不改變特征圖的大小保留更多的局部信息,進一步提取特征,增加網絡模型的深度和感受野。在Bottleneck模塊中,先由一個步長為1的1×1卷積核將圖像的通道數減小一半,再通過一個步長為3的1×1卷積核將圖像的通道數加倍,最終圖像的通道數不變,網絡的參數減少,深度得到增加。

圖2 C3模塊

在運行一次C3模塊時,需要使用5次卷積操作,產生過多的參數需要消耗過多的內存,進一步限制模型的運行效率,延長訓練時間,影響模型的處理速度。為進一步提高網絡模型對輪胎字符識別的速度和精度,在本文中改進了FasterNet Block[15]提出C3-Faster模塊,并將其添加到YOLOv5網絡結構中。C3-Faster模塊如圖3所示,由1個3×3PConv和2個1×1Conv組成。首先,特征圖經過第一個PConv計算,其中PConv可以減少計算中的冗余信息和內存占用,然 后依次經過2個1×1的卷積核,獲得特征圖的有效信息,最后將有效信息輸出進行下一步操作。

圖3 C3-Faster模塊

1.3 改進回歸損失函數

IoU-Loss作為損失函數,用于衡量預測邊界框與實際標注之間的相似度,更加注重預測結果與真實標注之間的重疊關系[16]。是最廣泛使用的度量邊界框之間相似性的指標,但在輪胎標志的識別中,字符相對較小,使用IoU會出現預測邊框(bounding box)和真實邊框(ground truth)不相交的情況,此時IoU為0,導致無法進行優化;GIoU[17]增加了預測邊框和真實邊框的最小外接矩形框,解決了IoU為0的問題,但當預測邊框和真實邊框等寬高且處于同一水平或同一垂直線時GIoU退化為IoU;DIoU[18]是在GIoU的基礎上加入了,兩邊界框中心點之間的歐式距離和最小矩形框兩對角頂點之間的歐式距離的計算,但DIoU存在兩框中心點重合但寬高比不同時,DIoU退化為IoU的問題;在YOLOv5中使用CIoU[19]最為損失函數,CIoU在DIoU的基礎上考慮了預測框與真實框之間長寬比的一致性的問題,增加了長寬比的懲罰項,但由于用到了復雜的函數計算,在計算過程中會消耗大量算力,增加訓練耗時。在WIoU[20]中提出了動態非單調的聚焦機制,使用“離群度”替代IoU對錨框進行質量評估,采用了梯度增益分配策略,不僅降低高質量錨框的競爭力,也減小了低質量錨框產生的有害梯度,這使得WIoU可以聚焦于低質量的錨框,并提高檢測器的整體性能。

2)不同鈣硫比條件下粉煤灰的化學形態分析(圖5)。由圖5可知,添加固硫劑CaCO3后粉煤灰成分與未添加固硫劑時基本一致。隨固硫劑添加量增加,CaO與Ca(OH)2的衍射峰逐漸增強,說明粉煤灰中CaO與Ca(OH)2含量逐漸增加。同樣,對不同鈣硫比下的粉煤灰進行XPS定量分析,結果見表2和圖6。由表2可知,Ca元素含量逐漸增加,說明鈣化合物量逐漸增多。對應圖6,可以推斷為未反應的固硫劑分解產生。由于固硫劑進入爐膛后首先進行分解,即CaCO3=CaO+CO2,這一反應為吸熱反應,因此加入固硫劑會影響爐膛溫度場,進而影響鈣元素的形態。

WIoU有3個版本,其中WIoUv1構造了基于注意力的邊界框損失,在v1的基礎上通過添加梯度增益來附加聚焦機制的方法獲得WIoUv2和WIoUv3,圖4為標注框、預測框和最小外接矩框的示意圖。

圖4 標注框、預測框和最小外接矩框的示意圖

其中,WIoUv1損失函數的計算公式LWIoUv1,如式(1)~式(3)所示。

(1)

(2)

LWIoUv1=RWIoULIoU

(3)

WIoUv2損失函數的計算公式LWIoUv2,如式(4)所示。

(4)

WIoUv3損失函數的計算公式LWIoUv3,如式(5)、式(6)所示。

(5)

(6)

式中:β為非單調聚焦系數,α、δ為超參數。

2 實驗

2.1 模型訓練

在模型訓練中主要對數據集進行采集并標注以及網絡訓練參數的設置。

(1)數據集處理。在停車場隨機選擇汽車輪胎進行圖像采集,使用標注工具Labelimg對數據集標注,導出YOLO格式標注文件,為下一步的訓練做準備。

(2)網絡訓練參數設置。本實驗中,操作系統為Windows11,GPU為NVIDIA GeForce RTX 3060,編程語言為Python 3.9。網絡訓練參數如表1所示,訓練中選擇模型較小的YOLOv5s模型。

表1 網絡訓練參數

2.2 評價指標

經過訓練后的模型需要對檢測的準確性進行評價,在本實驗中采用準確率P(precision)和平均精度mAP(mean average precision)評估算法性能。

(7)

(8)

式(7)計算準確率,TP為真陽性,FP為假陽性;式(8)計算平均精度,AP(j)為第j類缺陷的平均精度,j為缺陷類別數,j=0,1,2,…,n。

2.3 對比實驗

為驗證改進后的C3-Faster在YOLOv5網絡模型中對訓練結果的影響,進一步找到訓練速度和精度的最優方案,分別將C3-Faster替換到Backbone和Head中的8個C3模塊,采用上述數據集和網絡訓練參數訓練,得到C3-Faster模塊不同替換位置的對比實驗結果如表2所示。

表2 C3-Faster模塊不同替換位置的對比實驗

表2中實驗1~4分別將C3-Faster替換到Backbone中的4個C3模塊中,實驗1為單獨替換Backbone中的第1個C3模塊,實驗2為第2個,依次類推。實驗5~8分別將C3-Faster替換到Head中的4個C3模塊中,實驗5為單獨替換Head中的第1個C3模塊,實驗6為第2個,依次類推。實驗9為不加改進的原始YOLOv5模型。通過實驗結果可以看出,前4組實驗中與原始YOLOv5訓練耗時相比都有所減少,當C3-Faster替換第1個C3時耗時最少,但平均精度在替換第3個C3時最高,準確率在替換第4個C3時最高,在保證訓練精度的同時提高訓練速度,決定將Backbone中的第3和4個C3模塊替換為C3-Faster;同理,分析第5~8組實驗得出在5和6中表現較好,決定將Head中的第1和第4個C3模塊替換為C3-Faster。

為對比GIoU、DIoU、CIoU、WIoUv1、WIoUv2和WIoUv3在幫助優化模型參數,提高模型的準確性等方面的差距,設立了對照實驗,采用上述數據集和訓練參數,采用YOLOv5s模型分別對6種損失函數進行實驗,不同損失函數對比實驗結果如表3所示。

表3 不同損失函數對比實驗結果

分析實驗結果,使用WIoU loss在mAP、Precision都有提升,同時訓練耗時也進一步縮短,其中使用WIoUv1 loss在Precision上效果最好,使用WIoUv3 loss在mAP和訓練耗時上表現最好,在Precision上與WIoUv1loss相差并不大,為達到輕量化網絡,提高汽車字符識別的速度和準確性,在本文中使用WIoUv3 loss代替原YOLOv5中的CIoU loss。

2.4 消融實驗

為驗證改進后解耦頭、C3-Faster和WIOU在YOLOv5網絡中帶來的性能上的提升,進行消融實驗,共設立5組實驗,分別使用原YOLOv5s網絡、YOLOv5s+解耦頭+C3-Faster網絡、YOLOv5s+解耦頭+WIOU網絡、YOLOv5s+C3-Faster+WIOU網絡和YOLOv5s+解耦頭+C3-Faster+WIOU網絡,在同一設備相同參數下進行實驗,得到改進YOLOv5不同模塊的消融實驗結果如表4所示。

表4 改進YOLOv5s不同模塊的消融實驗結果

在汽車輪胎數據集上進行消融實驗,改進后的YOLOv5網絡優于原網絡模型,其mAP為96.9%,Precision為95.2%,相比于原模型,訓練耗時變換不大,但其他指標均有所提升,mAP提升3.7%,Precision提升2.1%。

2.5 不同算法對比

在字符識別任務中,CNN(convolutional neural networks)可以直接處理原始圖像像素,并通過卷積和池化層來提取特征;RNN(recurrent neural networks)可以接收字符序列,并使用循環連接來建立字符之間的依賴關系;LSTM(long short-term memory)可以通過學習字符序列中的長期依賴關系來提高分類精度;GRU(gated recurrent unit)可以在保持一定的模型性能的同時降低模型的計算復雜度。為進一步檢測本文算法,與主流字符識別算法進行性能對比,不同算法對比結果如表5所示。

表5 不同算法對比結果

從表5中可以得到,在所測試的算法中改進YOLOv5s的mAP值最高,為96.9%;GRU網絡的Precision值最高,為95.7%,高于改進YOLOv5s的95.2%,但在mAP和訓練用時上低于改進YOLOv5s;LSTM網絡訓練的時間最短,但mAP和Precision值較低。本文改進后的算法雖在Precision值和網絡訓練用時上略低于GRU網絡和LSTM網絡,但mAP值比其他網絡更好,符合輪胎字符識別的要求。

3 方法驗證

最后用原YOLOv5網絡與本文改進的網絡做進一步驗證,用消融實驗得到的網絡模型測試,選用相同的圖片,測試結果對比如圖5所示,其中圖5a和圖5c使用的原YOLOv5網絡圖5b和圖5d使用的改進YOLOv5網絡,通過對比發現本文改進的網絡在識別精度和準確率更高,識別效果更好,實現了汽車輪胎字符識別速度和精度的平衡。

(a) 改進前橫向識別 (b) 改進后橫向識別

4 結論

本文為提高汽車輪胎規格字符識別的效率和準確率,對YOLOv5s網絡模型進行改進,添加解耦頭,使用C3-Faster模塊替換部分C3模塊,用WIoU損失函數替換CIoU損失函數。最終,以Precision和mAP值評估輪胎規格字符識別網絡模型的性能,將改進后的網絡模型與主流字符識別方法進行性能對比,該網絡模型在識別效率和準確率更優。在消融實驗中,改進的YOLOv5網絡優于其他網絡模型,相比于原網絡mAP提升3.7%,Precision提升2.1%。通過方法驗證,改進后的網絡模型輪胎規格字符識別速度更快,復雜條件下的識別能力更強,在識別速度和精度上達到平衡,有效提升了輪胎規格字符的識別能力,證實了該方法的有效性,滿足實際的應用需求。

猜你喜歡
字符識別準確率卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
從濾波器理解卷積
高速公路車牌識別標識站準確率驗證法
基于傅里葉域卷積表示的目標跟蹤算法
一種改進深度學習網絡結構的英文字符識別
儀表字符識別中的圖像處理算法研究
基于CUDA和深度置信網絡的手寫字符識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合