?

改進YOLOv5的汽車齒輪配件表面缺陷檢測

2024-03-12 08:59朱德平姚景麗
計算機工程與應用 2024年5期
關鍵詞:配件齒輪注意力

朱德平,程 光,2,姚景麗

1.北京聯合大學北京市信息服務工程重點實驗室,北京 100101

2.北京聯合大學前沿智能技術研究院,北京 100101

隨著現代工業的發展和技術的進步,汽車行業已成為全球經濟的重要組成部分。汽車齒輪作為傳動系統中不可或缺的部件,其性能和可靠性對整個車輛的運行和駕駛體驗至關重要,確保齒輪配件的質量和完整性成為汽車制造商和用戶關注的焦點。齒輪配件的表面缺陷對其功能和壽命產生直接影響,這些缺陷可能導致齒輪的早期故障和性能下降。因此,及早發現和準確評估齒輪配件表面缺陷對于確保汽車的安全性、可靠性和經濟性至關重要。傳統的齒輪配件表面缺陷檢測方法主要依賴于人工目視檢查,這種方法存在主觀性高、效率低、易出錯等問題。近年來,隨著計算機視覺和圖像處理技術的快速發展,自動化的表面缺陷檢測方法逐漸成為研究和應用的熱點。

隨著工業4.0[1]的到來,制造業正朝著數字化制造[2]的轉型邁進,這一轉型對于工業產品的質量檢測任務提出了更高的精度要求。為了應對這一挑戰,基于深度卷積神經網絡的深度學習在缺陷檢測領域取得了很大的突破。深度卷積神經網絡(CNN)等深度學習模型通過從大量標注圖像中學習特征表示和分類規則,能夠高效地檢測和識別不同類型的缺陷。這些方法在自動化程度、檢測準確性和處理速度方面都取得了顯著的改進,為齒輪配件制造商提供了一種更可靠和高效的缺陷檢測解決方案。然而深度學習方法在齒輪配件缺陷檢測領域仍存在一些挑戰和待解決的問題。例如,樣本不平衡、多類別缺陷的檢測、小尺寸缺陷的識別等仍然是需要關注的問題。此外,深度學習模型的可解釋性和魯棒性也是需要進一步研究的方向。

本文旨在研究和探索汽車齒輪配件缺陷檢測領域的最新進展和挑戰,提出一種YOLO-CNF模型,并將其應用于齒輪配件表面的缺陷檢測。

1 相關工作

人工視覺檢測一直是汽車齒輪配件缺陷檢測中最早且最常用的方法之一。然而,該方法存在主觀性高、檢測速度慢以及由于操作員疲勞而導致的誤判等問題。此外,人工視覺檢測也受限于操作員的經驗和專業知識,因此需要更準確、快速和自動化的方法來替代或輔助。隨著計算機視覺技術的不斷發展,基于圖像處理和特征提取的自動化缺陷檢測方法逐漸在實際生產中得到應用。這些方法通過邊緣檢測、閾值分割和形態學操作等圖像處理算法對缺陷圖像進行預處理、分割和特征提取,然后利用統計學方法或支持向量機(SVM)[3]、決策樹等機器學習算法對提取的特征進行分類,以檢測和定位缺陷。Jian等人[4]提出了基于差分投影的聯合缺陷識別方法和改進的模糊C 均值聚類(ⅠFCM)算法。前者消除了環境光線變化對待測圖像灰度的影響,后者能夠從噪聲圖像中分割出具有模糊灰色邊界的缺陷。然而,該方法非常依賴于模板圖像。Zhang 等人[5]將離散傅立葉變換(DFT)和最佳閾值引入缺陷檢測中,通過DFT中的譜殘差法確定缺陷位置并對其進行突出顯示,通過多次迭代確定缺陷區域分割的最佳閾值。Huang等人[6]提出了一個完整的基于機器視覺的手機面板表面缺陷檢測框架,該框架由不同的特征提取算子和SVM分類器組成,該方法在精度和速度方面都取得了不錯的效果。

傳統的基于圖像處理和特征提取的方法在處理復雜的產品圖像和缺陷場景時存在一定的局限性。近年來,深度學習技術在目標分類[7]、目標識別[8]、目標跟蹤[9]以及自動駕駛[10]等領域取得了良好的效果。由于神經網絡模型可以自動從數據中學習到最具有區分性的特征,而無需手動設計和提取特征,這使得深度學習在缺陷檢測領域具有巨大潛力,并為提高檢測準確性和效率提供了新的機遇。因此,許多研究人員開始采用深度學習方法來解決缺陷檢測問題。Ding 等人[11]提出了一種基于卷積神經網絡(CNN)的印刷電路板缺陷檢測方法,與傳統檢測方法相比,具有較高的檢測性能。Chen 等人[12]將深度學習技術引入供電系統中接觸網支架裝置上緊固件缺陷檢測領域,提出了一種基于改進的SSD網絡自動檢測方法,可以快速而準確地檢測出緊固件的缺陷。He等人[13]提出一種基于Faster R-CNN的端到端的鋼表面缺陷檢測方法,該方法將取局部特征與全局特征相結合來提高檢測性能。Bao等人[14]使用改進的YOLO模型檢測輸電線路中的部件缺陷,該方法用雙向特征金字塔網絡(BiFPN)[15]取代了原有的PANet 特征融合框架,使網絡更加關注對輸出特征貢獻更大的特征映射。

綜上所述,深度學習技術已經被引入缺陷檢測領域,并取得了很好的效果。然而,目前應用深度學習技術檢測齒輪配件表面缺陷的研究還很少。為此,本文提出一種新的YOLO-CNF 模型,并將其應用于汽車齒輪配件的缺陷檢測。

2 本文方法

YOLOv5是一種出色的通用目標檢測模型,它具有更小的參數量和更快的訓練速度,在自動駕駛、醫療影像分析、機器人導航等領域得到了廣泛應用。本文將YOLOv5應用到汽車齒輪配件表面缺陷檢測領域,并改進YOLOv5以解決對微小缺陷檢測效果不佳的問題。

本文的所提出的方法是通過改進YOLOv5s的網絡結構實現的,命名為YOLO-CNF,如圖1 所示。它由骨干網絡、中間層和預測層共三個部分組成。骨干網絡主要用于提取輸入圖像的特征,在骨干網絡的P2 層引入CBAM(convolutional block attention network)模塊[16],可以增強模型對微小缺陷的特征提取能力。

圖1 YOLO-CNF模型結構Fig.1 Model structure of YOLO-CNF

中間層主要用于融合多尺度的特征,為了進一步提高缺陷位置的感知能力,本方法在原有PAN結構[17]的基礎上額外融合了P2層的特征信息。最后的輸出層使用三個不同尺度的特征圖對缺陷目標進行分類和回歸定位。針對ⅠoU 對微小缺陷定位偏差的敏感性,利用NWD 對回歸損失進行優化,從而改善模型對微小缺陷定位的準確性。

2.1 CBAM模塊

CBAM 注意力模塊的通道注意力機制允許模型自動學習并聚焦在輸入特征圖的重要通道上。對于汽車齒輪表面缺陷檢測來說,不同類型的缺陷可能在不同通道中有不同的視覺特征表現,例如顏色、紋理等。CBAM能夠自適應地增強與缺陷相關的通道,從而提高了模型對缺陷特征的感知能力,使算法更加敏感和準確。

此外,CBAM模塊中的空間注意力機制有助于模型捕捉輸入特征圖中不同位置的相關性。在齒輪表面缺陷檢測中,缺陷可能出現在不同位置和尺度上。通過引入空間注意力,模型可以更聚焦于可能存在缺陷的區域,降低誤檢的風險,提高檢測的可靠性。

因此,為了增強模型對微小缺陷的關注和識別能力,在骨干網絡中加入了CBAM 模塊(convolutional block attention network)。該模塊由兩個關鍵部分組成,即通道注意力模塊和空間注意力模塊,如圖2所示。

圖2 CBAM模塊Fig.2 Convolutional block attention network

通道注意力模塊的結構如圖3所示。首先,輸入特征F經過全局平均池化和最大池化操作,以獲取每個特征通道的全局信息。然后,通過兩個全連接層對這兩組池化后的信息進行加權求和,再使用Sigmoid 激活函數對這個結果進行激活處理。最終得到了通道注意力特征圖M′,其中包含了對輸入特征F不同通道的關注程度的信息。其計算方式見式(1):

圖3 通道注意力模塊Fig.3 Channel attention module

空間注意力模塊的結構如圖4所示。首先,特征圖F′ 經過最大池化和平均池化操作,以捕捉其空間信息。接下來通過一個7×7 的卷積操作,將F′降維為一個通道,以便進行后續計算。然后,使用Sigmoid函數生成空間注意力特征圖M″,計算方式見式(2)。其中,F′是原始輸入特征圖F與通道注意力特征圖M′ 的乘積。類似地,也可以計算得到F″,其計算方式與F′相同。通過空間注意力模塊,可以獲得對輸入特征圖F的空間關注程度的信息,并得到相應的特征圖表示。

圖4 空間注意力模塊Fig.4 Spatial attention module

微小缺陷目標往往具有較低的信噪比和較弱的表現形式,這使得它們難以被常規的特征提取方法準確捕捉到。CBAM 模塊通過對特征圖進行通道注意力和空間注意力的加權處理,來提升模型對重要特征的關注和提取能力。將CBAM 模塊引入到骨干網絡的P2 層中,使得模型能夠更好地捕捉微小缺陷的特征,進而提高了對微小缺陷的識別能力,同時也有助于提升模型的檢測和分類準確性。

2.2 淺層特征融合

通過多次連續的下采樣處理,YOLOv5的SPP結構生成了大、中、小三個不同尺寸的特征圖,這些特征圖被輸入到特征融合網絡中用于目標識別。這種結構的設計使得YOLOv5 能夠更好地捕捉目標在不同尺度上的特征,但對于微小缺陷樣本而言,它們的尺寸較小,因此在連續下采樣的過程中會丟失掉它們的關鍵位置特征信息,導致微小缺陷的檢測效果不夠理想?;谔卣鹘鹱炙W絡[18]的思想,經過深度卷積后的特征圖攜帶了豐富的語義信息,但多次卷積可能會導致目標位置信息的丟失,所以不利于小目標的檢測,而淺層卷積產生的特征圖能夠提供更準確的目標位置信息,但在語義信息方面不夠豐富。

為了解決齒輪配件缺陷檢測任務中小目標特征信息不足的問題,本文設計了F2C 模塊,如圖5 所示。該模塊能夠增強淺層特征圖中小目標的特征信息。在YOLOv5的檢測頭中,將經過F2C模塊增強后的特征信息與原有特征信息進行融合,從而獲得更準確的小目標位置信息,如圖6 所示。通過這種方式,能夠在保持語義信息的同時增強目標位置信息,從而改善小目標的檢測效果。這種策略能夠提升模型的準確性,在齒輪配件表面缺陷檢測任務中具有重要的意義。

圖5 F2C模塊Fig.5 F2C module

圖6 改進前后檢測效果對比Fig.6 Comparison of detection effects

2.3 損失函數改進

在齒輪配件表面的缺陷檢測中,有一部分的缺陷的尺寸非常小,僅包含少數像素。而在YOLOv5 中,基于交并比(ⅠoU)的相似度度量對微小目標的位置偏差非常敏感,這會極大地降低針對小目標缺陷的檢測能力。為了解決這個問題,引入了一種新的評估標準——歸一化Wasserstein 距離(normalized Wasserstein distance,NWD)[19]。該方法使用二維高斯分布來對目標的邊界框進行建模,并通過它們之間對應高斯分布的相似度來計算預測目標和真實目標之間的相似度,對于檢測到的目標,無論它們是否重疊,都可以通過分布相似度來衡量。歸一化瓦瑟斯坦距離的計算方式如式(3)所示:

其中,C是一個與數據集密切相關的常數,(Na,Nb)是一個距離測度,計算方式如式(4)所示。Na和Nb是由真實框A=(cxa,cya,wa,ha)和預測框B=(cxb,cyb,wb,hb)建模的高斯分布。

由于NWD 對目標的尺度不敏感,因此更適合衡量小目標之間的相似度。在回歸損失函數中添加NWD損失可以彌補ⅠoU 損失在小目標檢測中的不足,同時將ⅠoU 與NWD 損失之間的比例調整為8∶2,如式(5)所示。對損失函數進行以上的改進有助于提高模型對微小缺陷的檢測能力。

3 實驗

在本章中,對所提出的模型進行了全面的消融分析,包括注意力模塊、多尺度融合金字塔結構和損失函數設計,驗證了改進模型的有效性。接著,比較了該模型與其他主流模型之間的性能差異。

本實驗使用了一臺NVⅠDⅠA Quadro P5000 16 GB GPU 進行模型訓練,軟件環境為Ubuntu 20.04,Python 3.8.13,PyTorch 1.9.0 和Cuda11.1。超參數batch_size 設置為32,學習率設置為0.01,隨機梯度下降(SGD)的動量設置為0.937。所有實驗均在相同的訓練輪數(200 epoch)下進行訓練。

3.1 數據集

使用的齒輪配件數據集來自公開的國內某汽車制造企業在生產加工中的真實齒輪配件數據,所有數據由人工在生產流水線中拍攝而得。數據集中的圖片均為真實缺陷齒輪的平面展開圖,并由專業人員標注。圖6展示了3 種缺陷標注后的例圖和正常圖像的例圖,包括:齒面黑皮(hp_cm)、齒底黑皮(hp_cd)、磕碰(kp)。

該數據集包含1 398張帶有缺陷的圖像和602張無缺陷的正常圖像,由于真實場景中缺陷數據量偏少,所以對原數據集使用翻轉、色彩抖動、尺度變換、添加噪聲等方式進行隨機擴充,擴充后的數據集共有3 530 張,表1 展示了最終的數據集所包含的缺陷實例數量。所有的圖像按6∶2∶2 的比例進行劃分,其中訓練集2 118張,驗證集和測試集各706張。

表1 缺陷類型與數量Table 1 Classifications and quantity of defects

3.2 評估指標

本文使用準確率(precision,P)、召回率(recall,R)和平均精度均值(mean average precision,mAP)作為評價指標。準確率指的是所有被判定為正例的樣本中,真正為正例的樣本所占的比例;召回率指的是所有真正為正例的樣本中,被正確判定為正例的樣本所占的比例;mAP是對所有類別的平均精度(AP)進行平均得到的指標。它們的計算公式分別為:

其中,XTP表示模型正確檢測到的目標數量,XFP表示網絡模型錯誤檢測到的目標數量,XFN表示模型未檢測到的目標數量,c表示類別數。AP 表示單個目標類別的平均精度,其計算公式為:

3.3 實驗結果分析

圖7 展示了本文所設計的網絡和原始YOLOv5s 網絡在相同配置下進行200輪訓練的mAP曲線。在圖中,紅色曲線代表本文模型訓練時的mAP 曲線,藍色曲線代表原始YOLOv5s 網絡訓練時的mAP 曲線。橫坐標表示訓練的迭代,縱坐標表示mAP值。從圖7的結果可以觀察到:與YOLOv5s的原始網絡結構相比,本文設計的網絡模型能夠更快速地收斂。在相同的訓練輪數下,本文設計的網絡模型能夠達到更高的精度。

圖7 mAP@0.5曲線Fig.7 mAP@0.5 curve of model

模型的PR 曲線(precision-recall curve)如圖8 所示,其表示精確率(precision)和召回率(recall)之間的關系。圖中藍色的曲線表示原YOLOv5 網絡模型的多類別平均精度,紅色曲線表示本文改進后的網絡模型的多類別平均精度。從圖中可以看出,紅色曲線幾乎將藍色曲線完全包裹住,說明本文改進后的模型性能要優于原YOLOv5s模型。

圖8 模型P-R曲線圖Fig.8 P-R curve of model

本文在測試集上使用NVⅠDⅠA Quadro P5000 對YOLOv5和改進后的網絡模型進行推理測試,并將結果記錄在表2中。與YOLOv5模型相比,改進后的模型在精確率方面提升了5.6個百分點,召回率提升了4.9個百分點,mAP@0.5提升了3.2個百分點。三個指標均顯示出改進后的模型優于YOLOv5s 模型,這意味著改進后的模型在齒輪配件缺陷檢測任務中能夠更準確地定位和識別缺陷。

表2 實驗結果對比Table 2 Comparison of experiments 單位:%

圖9 展示了YOLOv5s 和本文改進后的網絡模型在測試集上的檢測效果對比。由圖可知,YOLOv5s 模型能夠檢測出大多數缺陷目標,但在尺寸較小的缺陷目標上存在漏檢的情況。相比之下,本文改進后的網絡模型具有更高的準確性和魯棒性,它能夠更精確地檢測出缺陷目標區域,減少了漏檢的情況,尤其是尺寸較小的缺陷目標,使得模型能夠更可靠地識別出真正的缺陷目標。檢測效果表明本文改進后的網絡模型能夠提高缺陷檢測系統的性能,并在實際應用中取得更好的效果。

圖9 缺陷示意圖Fig.9 Defect diagram

3.4 消融實驗

為驗證本文提出的YOLO-CNF中的各個改進方法的有效性,設計了5 組實驗,每組實驗在不同條件下進行。實驗設置如下:

(1)使用原始的YOLOv5模型,作為消融實驗的基線;

(2)E1 在骨干網絡的P2 層中引入CBAM 模塊,以增強特征表示能力;

(3)E2使用F2C模塊對淺層特征進行融合,以提取更全面的目標特征信息;

(4)E3 在回歸損失中增加NWD 損失,以進一步優化目標位置的精度和準確性;

(5)將本文模型與以上實驗結果進行對比,以評估綜合效果。

實驗結果如表3所示,實驗結果展示了各項改進方法對模型性能的影響。

表3 消融實驗對比Table 3 Comparison of ablation experiments單位:%

首先,添加CBAM模塊使得mAP提升了1.4個百分點。這表明CBAM注意力模塊通過自適應地增強通道和空間信息的關注度,提高了YOLOv5模型的特征提取能力和對象檢測性能。接著,添加F2C特征融合模塊使mAP提升了1.6個百分點。這證明了本研究提出的F2C模塊對淺層卷積產生的特征進行了有效增強,進一步提升了模型對缺陷檢測的性能。此外,添加NWD 損失函數使得mAP提升了2.4個百分點。這表明NWD損失函數有效分配了邊界框中不同像素的權重,在訓練過程中能夠更好地引導模型學習目標的表示和定位。最后,將這三種改進方法綜合應用的本文模型使得mAP提升了3.2 個百分點,最終證明了各個方法在提高模型性能方面的互補作用。

3.5 與其他模型對比

為了客觀評價本文模型在齒輪配件表面缺陷檢測方面的性能,本文與現有的具有較高綜合性能的目標識別模型進行了對比實驗,包括SSD[20]、Faster RCNN[21]、Vision Transformer[22]以及YOLO系列[23-25]其他模型。所有實驗均在相同的設置下進行200 次迭代訓練。實驗結果見表4。與早期的SSD 和Faster RCNN 檢測模型相比,本文模型在各個性能指標上都遠超它們。與YOLO系列的X、v7、v8s 模型相比,mAP 分別提升了2.4、0.8、5.1 個百分點。此外,本文模型的參數大小為7.32 MB,僅略有增加,遠遠小于其他檢測模型。改進后的模型的檢測速度為43 幀/s,基本滿足檢測要求。通過一系列的實驗對比,得出結論進一步驗證了本文模型在齒輪配件缺陷檢測問題上的優越性和可行性。

表4 不同模型實驗對比Table 4 Experimental comparison of different models

除此之外,本文選取北京大學智能機器人開放實驗室公開的PCB缺陷數據集對模型的性能做進一步驗證,該數據集一共包含6類缺陷,是典型的小目標缺陷數據集。實驗結果如表5所示。與基線YOLOv5相比,本文提出的YOLO-CNF算法的召回率和mAP值均優于基線模型。其中召回率提升了1.9個百分點,mAP提升了1.5個百分點。上述對比實驗進一步驗證了本文方法的有效性和可靠性。

表5 在PCB數據集上的實驗對比Table 5 Experimental comparison on PCB dataset單位:%

4 結束語

針對汽車齒輪配件表面缺陷檢測存在缺陷尺寸較小、缺陷對比不明顯、易造成漏檢誤檢、檢測效率低且精度差等問題,本文提出了一種YOLO-CNF 缺陷檢測模型。在原YOLOv5 的骨干網絡加入CBAM 注意力機制,使模型更加關注小尺寸缺陷的特征表達;使用F2C模塊將P2 層的特征與特征金字塔進行融合,增強模型對于缺陷的定位能力;引入歸一化Wasserstein距離來優化現有的回歸損失函數,減少尺度差異對檢測結果的影響,提升模型對微小缺陷的檢測能力。實驗結果表明,該模型可以達到86.7%的mAP值以及每秒43幀的檢測速度,相較于其他模型具有明顯的精度和速度優勢,可以滿足復雜工業環境中的檢測需求。未來的研究方向是繼續提升本文模型的檢測精度,減少模型參數量提高檢測速率,使該模型能夠滿足在工業設備上進行實際部署和應用的需求。

猜你喜歡
配件齒輪注意力
原材配件
讓注意力“飛”回來
東升齒輪
你找到齒輪了嗎?
異性齒輪大賞
齒輪傳動
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
妝發與配件缺一不可
原材配件商情
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合