?

基于改進Faster R-CNN的CRTSⅡ型軌道板裂縫檢測方法

2023-02-15 18:50許貴陽張詩泉白堂博
中國鐵道科學 2023年1期
關鍵詞:錨框查準率像素

許貴陽,張詩泉,白堂博

(1.北京建筑大學 機電與車輛工程學院,北京 100044;2.北京建筑大學 城市軌道交通車輛服役性能保障北京市重點實驗室,北京 100044)

目前,我國是高鐵運營里程最長、在建規模最大、運營動車組最多、商業運營速度最快的國家。在此背景下,針對鐵路基礎設施的檢測極為重要,軌道板是列車運行的基礎,其健康狀態直接影響運營安全、養修成本及乘客舒適度[1],確保軌道板的安全狀態對鐵路正常運行有重要意義。軌道板的裂縫分布整體呈現一定的隨機性,但其分布與橋梁、公路等裂縫相比則更有規律,其位置主要分布在軌枕邊緣以及軌道板連接處,并且裂縫檢測工作在夜晚進行,導致檢測質量更易被積水、亮度等因素影響。近年來,國內外學者在裂縫檢測領域做了深入研究,但在軌道板裂縫檢測領域使用機器視覺的方法較少。王登濤等[2]基于熱成像原理進行軌道板表面裂縫的檢測,該檢測手段受環境溫度影響較大,環境溫度越高、裂縫檢測效果越好。Li等[3]基于紅外熱像儀對最常見的裂紋進行檢測,當溫度大于15 ℃時,可以很好地檢測出寬度不小于0.2 mm 的裂紋。這些研究結果表明,基于熱成像的裂縫檢測精度依賴于檢測溫度,對溫度的抗干擾性較弱。

采取圖像處理的方式可以避免溫度對檢測結果的影響,寇東華[4]基于圖像識別和線結構激光測量技術研制了一種軌道板裂縫自動檢測裝置,該裝置對采集到的軌道板離縫點云數據進行分析,提高了檢測效率。薛峰等[5]提出一種圖像處理方法,對采集到的圖片通過二值化、裂縫合并、噪聲剔除等手段處理后,對裂縫位置進行定位。許薛軍等[6]研究了基于數字圖像的橋梁裂縫檢測方法,深入分析評價了圖像灰度化、棋盤格角點求解像素率、濾波除噪、邊緣檢測等圖像處理算法,實現了基于視頻或圖像的橋梁裂縫寬度計算,并用15 幅橋梁裂縫圖像驗證了其裂縫檢測精度。肖創柏等[7]對鋼軌裂縫進行檢測,對目標區域進行分析后,通過系列操作提取單像素寬縫隙目標,并通過計算像素點數得出裂縫長度,試驗在鋼軌裂縫數據集上平均準確率達到63.87%。李良福等[8]提出一種分類模型,用于橋梁裂縫的識別,將模型結合改進的滑動窗口算法對裂縫進行診斷,結果顯示該算法有更好的識別效果與泛化能力。Wang等[9]根據裂縫的寬度信息對不同程度的裂縫進行分類,使用正交投影法對訓練數據進行預處理,根據嚴重程度對裂縫圖像分為3個不同的嚴重等級,其結果對不同光強具有很高的適應性。Liu 等[10]研究了基于圖像處理的板坯連鑄縱向裂紋視覺檢測方法,結果表明縱向裂紋引起的異常區域呈線性和垂直分布。該方法為檢測縱向裂紋提供了一種直觀、簡便的方法。王磊[11]研究了HOP+LBP組合的特征參數用于路面劣化等的分類識別算法,同時引用了YO?LOv3 模型,進一步提升了路面裂縫目標識別定位的準確率。

目前針對軌道板裂縫的傳統圖像處理方法受亮度、拍攝角度等外部因素影響,存在錯檢、漏檢、裂縫定位不夠準確等問題。

本文結合裂縫的特征情況,提出一種基于改進Faster R-CNN 的CRTSⅡ型軌道板裂縫檢測方法,通過對Faster R-CNN 網絡[12]進行針對性改進,將改進后的Faster R-CNN 網絡應用于無砟軌道板的裂縫檢測試驗,提高了軌道板裂縫檢測的定位精度以及識別準確率。該方法滿足軌道板表面裂縫檢測的要求。

1 改進的Faster R-CNN網絡

軌道板裂縫位置分布隨機,檢測目標較小,而Faster R-CNN 算法以其針對小物體高精度的特性在工業實踐上廣泛應用,所以本文采用Faster RCNN 算法并對其進行針對性改進。Faster R-CNN網絡主要分為3 個部分:基于殘差網絡[13]的特征提取網絡、區域候選網絡及Fast R-CNN網絡。

1.1 整體網絡結構

改進后的Faster R-CNN 結構如圖1 所示。首先經過主干網絡提取輸入圖像的特征圖,該特征圖應用于后續的區域候選網絡和全連接層。提取后的特征圖進入用于生成區域建議的區域候選網絡。在原始特征圖的基礎上,使用位置預測分支和形狀預測分支分別對錨框的位置和形狀進行預測,將位置和形狀信息結合得到錨框;然后對特征圖進行裁剪過濾后通過Softmax 判斷錨框屬于前景或者后景;同時,另一個回歸分支修正錨框邊界,形成較精確的區域建議;最后進入檢測網絡,該層將區域建議與特征提取網絡最后一層提取的特征圖疊加,得到帶有區域建議的特征圖,并利用全連接操作來進行目標識別和定位,利用Softmax 進行具體類別的分類,同時完成回歸操作獲得物體的精確位置。

圖1 改進的Faster R-CNN結構

1.2 區域候選網絡改進

區域候選網絡(Region Proposal Network,RPN)的作用是在特征圖上生成推薦裂縫,使用滑動窗口在特征圖上進行滑動將其映射到低維特征,這個低維特征被輸入到2 個分支:邊框回歸分支(Bounding Box regression,bbox reg)及分類分支(Classification,cls)。reg 的卷積輸出是檢測裂縫的回歸偏移量,預測裂縫坐標需要利用回歸偏移量進行調整。cls 的輸出為裂縫區域是前景或背景的概率得分,在后續過程中將Softmax 函數與這個得分結合在一起進行二分類操作,然后輸出結果。

RPN 會產生多個推薦區域,將滑動窗口產生的推薦窗口數量記作k個錨框,邊界回歸分支需要4k個輸出用來記錄回歸信息,分類層需要2k個輸出記錄分類信息,整個網絡的損失由分類損失和回歸損失2部分構成,RPN結構整體損失L計算式為

式中:i為錨點索引;pi為錨點i被預測為目標的概率;為對應的標注窗口預測概率;ti為預測得到的邊框坐標;ti*為真實的邊框坐標;Ncls為最小的批處理數量;Nreg為錨框位置的數量;λ為加權求和參數,控制Ncls和Nreg在式中的比重;Lcls為ti和ti*的對數損失;Lreg為回歸損失函數。

若第i個錨點與標注窗口間的閾值小于0.2,則認為該錨點為負,值為0。相反地,若第i個錨點與標注窗口間的閾值大于0.8,則認為該錨點為正,值為1。

針對RPN 做2 種改進:①對錨框生成算法進行調整,選用引導錨框(Guided Anchor)以適應尺寸差異較大的裂縫并提高檢測效率;②為提高重疊處裂縫的檢測效果,對非極大抑制(Non-Maxi?mum Suppress,NMS)算法做出調整。

改進后的RPN 網絡結構如圖2 所示。圖中:dw為像素的橫向偏移量;dh為像素的縱向偏移量。

圖2 改進的RPN網絡結構

1.2.1 融合引導錨框的區域候選網絡

軌道板裂縫對象與常規檢測目標相比,橫縱比更加不固定,根據該情況對錨框的改進采用2 種方法:其一是預定義更多不同橫縱比和比例尺的錨框以提高錨框整體數量,但這會導致RPN 網絡運行效率大幅下降,因為其中有大量錨框未使用卻消耗了大量的計算資源;其二是采取引導錨框的方法,在本文中引導錨框即為可根據裂縫特征而自動做出調整的錨框,該方法在達到上述效果的情況下具有更高的效率,減少無用錨框的同時能夠做到精準定位。

為適應尺寸差異較大的裂縫并增強算法的魯棒性,在此引入引導錨框(Guided Anchor[14]),其可由裂縫的位置以及上下文信息學習得到。改進后的RPN 網絡生成1 個預測圖,圖中每個點只生成1個錨框,其中每個點代表對應特征圖上的點存在裂縫的概率,改進后的RPN 網絡坐標定位分支對特征圖使用1 個1×1 卷積,然后在每個像素上使用sigmoid 函數得到裂縫的概率值。RPN 網絡中的形狀預測分支輸出dw和dh,然后根據映射式(2)和式(3)的非線性變換映射到(w,h),并將偏移量輸出到回歸分支,利用該方法回歸得到錨框的坐標和形狀,與預先設置的錨框相比,極大地提高了裂縫檢測精度以及裂縫檢測效率。

式中:σ為經驗比例因子;s為步幅度。

1.2.2 采用Soft-NMS算法解決裂縫重疊問題

在試驗前期網絡測試過程中發現,Faster RCNN 在處理部分圖片時檢測準確率下降嚴重。分析得到,當CRTSⅡ型軌道板上裂縫出現交叉時會導致該情況發生,而這種交叉的多自由度裂縫會嚴重危害軌道安全。結合該問題對Faster R-CNN 網絡進行分析發現,RPN 結構中的NMS 算法將錨框按照概率得分從大到小進行排列,選中得分最高的錨框并對與該框重疊的其他框進行抑制,該過程不斷地被遞歸應用于剩余錨框,這就導致原有網絡在處理相接近的檢測目標時總會對一部分進行抑制從而無法產生良好的檢測效果。根據數據集上的軌道分布特點可知,CRTSⅡ型軌道板裂縫多為橫縱紋路,但在軌道板寬接縫處多呈現為不規則狀裂縫,部分裂縫集中分布,且有交叉現象,所以NMS 算法會將與檢測裂縫所在錨框的重疊度(Intersection over Union,IOU)大于某個閾值的其他目標全部舍棄,從而出現當裂縫密集分布或產生交叉時往往只能識別出其中1條的情況。

為解決該問題,將RPN 網絡中裂縫提議階段的NMS 算法調整為Soft-NMS[15],該算法不會簡單地濾掉所有大于閾值的目標,而是基于重疊部分的大小為相鄰檢測框設置1個衰減函數,把該目標的置信度降低并代替原有分數,取代NMS 算法的舍棄操作。即當2 個檢測框重疊時,置信度會隨著重疊面積增大而降低,當2 個檢測框只有小部分重疊,原有檢測框概率得分幾乎不變,從而針對重疊裂縫提高檢測效率,改進后的網絡綜合考慮了先驗框的得分與IOU。

Soft-NMS算法采用的計算式為

式中:Si為第i個建議框的概率得分;I為檢測裂縫所在錨框的重疊度值;D為經過Soft-NMS 抑制后的建議框坐標集合;M為按照得分從高到低排列的建議框集合;bi為待處理框,其存儲的信息為待處理的建議框坐標。

2 數據處理

計算機硬件環境為GTX3090 顯卡,32 GB 內存,CPU 為Core i7-10700,軟件運行環境為py?thon3.6,pytorch1.7.0以及Open CV 4.5.1。

2.1 數據采集

采用的圖像采集設備為北京某公司設計制造的新型軌道巡檢儀,訓練數據為夜間采集到的某高速鐵路CRTSⅡ型軌道板圖像,采集分辨率為(4 096×4 096)像素,圖像通過激光線陣相機于夜間連續拍攝,并對左右軌圖像進行了拼接。

2.2 數據集構建

本文檢測裂縫為單一檢測目標,所需數據集的最小數目較易實現。模型訓練前對數據集進行初步分析,通過分析后發現存在圖像亮度分布不均、圖像大小不一致及數據重復等問題,因此對數據集進行了二次篩選并采用,從中挑出500 張具有裂縫的CRTSⅡ型軌道板圖片,將數據按照訓練集和測試集7∶3 的比例進行劃分,訓練集中的30%作為驗證集。

初始訓練集中有350 幅缺陷樣本,這些缺陷樣本的標注格式參照VOC2007,為了使數據集更加健壯,本文采用了數據擴充。通過對數據集中的350 幅圖像進行分析,其中276 幅像素大小為4 096×4 096 的灰度圖,有74 幅像素為512×731的RGB 圖像。首先對276幅像素為4 096×4 096的灰度圖像進行切割,將切割后的照片作為原始訓練集,能夠有效改善圖片調整過大所帶來的信息丟失問題;其次將切割后的276 張圖片和剩余的74 張圖片轉換像素為600×600 的灰度圖,可以在保證精度的情況下兼顧檢測速度;最后,基于GPU 硬件測試情況,將原始訓練集擴充到3 500 幅以解決數據樣本量不足的問題。每個圖像會產生幾幅新的圖像,通過幾種合理的隨機方法對圖像進行增強處理,包括:水平翻轉、垂直翻轉、高斯濾波、亮度調整倍率范圍[0.8,1.2]和仿射[16]等。一些增強的圖片如圖3所示。

圖3 圖像增強

本數據集檢測類別為裂縫(crack)類別,圖像編號及其標簽如圖4所示。

圖4 圖像標注

測試部分與訓練部分的處理相同,讀取150 幅圖像,其中104 幅(4 096×4 096)像素的灰度圖像,46 幅(512×731)像素的RGB 圖像,其次將150 幅圖像轉換為(600×600)像素的灰度圖像,以匹配模型輸入的大小。

3 試驗與結果分析

3.1 評價標準

對軌道板裂縫檢測的參數調優過程中參考指標為查全率R和查準率P,以此作為裂縫檢測的評價標準。查準率表示為正確的裂縫定位結果除以總檢出裂縫數目,查全率表示為正確的裂縫定位結果除以總裂縫樣本數目,即

式中:TP為正確的裂縫定位結果;FP為誤判斷為裂縫的定位結果;FN為未檢出的裂縫定位結果。

試驗預設的裂縫種類閾值為0.8,經過網絡判斷,當識別目標的置信度大于0.8 時認為它是對應種類,否則不識別該檢測目標。

3.2 訓練操作

使用從原始訓練數據集中分離出的訓練集和驗證集進行訓練,并在測試集上對模型進行評價。性能指標為二分類交叉熵損失函數,并在模型的基礎上增加了早期停止操作以及隨機丟棄方法(Drop?out)防止過擬合,采取凍結訓練提高整體效率,預訓練權重選用VOC 2007數據集的訓練權重。

為分析不同模型參量設置對訓練精度的影響,獲得最高的網絡檢測精度,分別設置不同的批尺寸(Batchsize)、學習率(靜態學習率、等間隔調整學習率、余弦退火學習率)及優化器參數值進行對比分析。在其他參數不變的前提下,將Batchsize 分別設置為1,16,32 進行訓練精度對比;在靜態學習率和動態學習率中采用不同的衰減方案進行訓練精度對比;優化器分別采用SGD 和Adam 進行訓練精度對比。訓練結果見表1。

表1 模型與參數設置對訓練結果的影響

由表1可以得到以下結論。

(1)試驗設置的Batchsize 大小對訓練精度沒有明顯影響;Batchsize=1 時為在線學習,收斂速度極慢,當數據量增大時訓練時間明顯變長,綜合考慮訓練速度與訓練得分后,設置Batchsize=16;考慮到進一步提高訓練速度,后續采用凍結訓練。

(2)當初始學習率為0.1 時動態學習率明顯優于靜態學習率,在靜態學習率、余弦退火(Co?sine Annealing LR)和等間隔調整(Step LR)學習率衰減方案中確定選用余弦退火算法,通過調整余弦退火算法參數找到學習率為0.1 時算法效果最佳。

(3)Adam 優化器以其自適應性,在試驗中取得了更好的精度和更高的速度,所以選擇在本模型上表現更加出色的Adam優化器。

3.3 損失函數

為方便分析訓練批次與損失曲線的關系,截取前300 批次繪制成損失曲線,如圖5 所示。由圖5可見:在100 批次時由于學習率改變導致loss 曲線大幅度下降;在訓練超過200 批次時訓練損失和測試損失已經基本收斂并且相差很小,證明網絡訓練過程可靠。

圖5 損失曲線

3.4 消融試驗

為證明對Faster R-CNN 改進的有效性,采用消融試驗加以驗證,試驗以原Faster R-CNN 網絡為基礎,在構建的數據集上進行訓練與測試,結果見表2。

表2 消融試驗結果

在引入Soft-NMS 時可見查準率和查全率都有所提升。分析因為改進非極大抑制算法是為了解決裂縫重疊問題,所以查全率相對提升較大提升為2.6%;由于裂縫重疊的情況在數據集上有限,查準率僅提升了0.8%,如果后續數據集中重疊樣本量增多,模型將會有更高的查準率。同時還測試了單獨引用引導錨框對整體網絡精度的影響。改進的錨框更加適應裂縫特征,可對裂縫尺寸和橫縱比進行聯合估計產生更精準的錨框,較改進前查準率提升2.0%,查全率提升3.5%;在同時引用Soft-NMS和引導錨框時效果達到最好。

經過試驗證明,本文提出的改進方法取得一定成效。

3.5 結果分析

選取部分CRTSⅡ型軌道板裂縫圖片,使用原始網絡和改進網絡分別進行預測,定位結果以及置信度對比如圖6 所示,圖中crack 表示置信度。由圖6可見:單目標改進后,置信度明顯從0.89提升到0.99 并且過濾掉誤檢的裂縫目標,減小了定位誤差;處理雙目標問題時也提高了檢測效果,改進后更加準確地表示出裂縫位置,左側檢測位置置信度從0.89 提升到0.96,右側從0.97 提升到0.99,且更加適配檢測裂縫的尺寸。

圖6 定位結果及置信度對比

軌道板裂縫情況復雜,在裂縫高度密集以及發生交叉時,采用原始Faster R-CNN 網絡所得出的裂縫檢測效果并不理想,裂縫的置信度明顯下降,無法識別全部裂縫,基于改進的Faster R-CNN 網絡則較好地解決了這個問題,效果如圖7 所示。由圖7 可見:改進后的網絡將小范圍內的裂縫準確定位,說明采用Soft-NMS 算法和引導錨框對網絡的改進取得成效。

圖7 裂縫密集處定位結果及置信度對比

為了檢測算法的性能,同時還將本文方法與較為常用的R-FCN[17],YOLO-v5,Faster-RCNN及YOLOx[18]進行對比以評估性能。在評估性能前分別對上述網絡進行訓練并調整參數得到最優方案,評估結果見表3。由表3可知:YOLO-v5檢測效率最高,檢測速度較本文方法可提高近1倍并且查準率接近改進前的二階段算法,可考慮應用于實時檢測,但在追求高精度檢測效果的情況下不如本文方法;YOLOx 采用無錨框設計,由于其解耦頭的存在導致檢測效率變慢但精度提升;R-FCN 在注重速度的同時損失了一部分精度,而本文方法對錨框提取部分做出修改,極大地提升了提取候選區域的速度,在提高了Faster R-CNN 檢測速度的基礎上取得了最高的查準率以及查全率,并針對裂縫重疊處的檢測做出優化,在裂縫較多處取得更好的檢測效果;最佳模型的裂縫查準率可達95.9%,查全率達89.6%,與其他算法相比分別提高了約2%~4%和2%~6%,說明漏檢的情況更少,同時裂縫識別準確率也有所提高。

表3 不同訓練方法對比

4 結語

本文提出的針對CRTSⅡ型軌道板裂縫的檢測方法不僅具有更快的檢測速度,同時能夠準確有效地從軌道板圖像上定位裂縫位置,并提高了針對裂縫重疊處的檢測精度。該方法與采用熱成像方法比,在保證精度的同時具有更強的抗干擾能力,與R-FCN,YOLO-v5等檢測方法相比具有更高的識別準確率,最終查準率為95.9%,查全率為89.6%。

后續研究考慮在不降低識別準確率的情況下,對檢測圖像進行分割和定量化分析,按照高速鐵路無砟軌道線路維修規則對裂縫傷損等級進行判定,同時對裂縫擴展情況進行跟蹤,研究裂縫變化情況,研究結果將為CRTSⅡ型軌道板裂縫維修工作提供幫助。

猜你喜歡
錨框查準率像素
基于YOLOv3錨框優化的側掃聲吶圖像目標檢測
錨框策略匹配的SSD飛機遙感圖像目標檢測
基于SSD算法的輕量化儀器表盤檢測算法*
像素前線之“幻影”2000
基于GA-RoI Transformer的遙感圖像任意方向目標檢測
“像素”仙人掌
基于數據挖掘技術的網絡信息過濾系統設計
大數據環境下的文本信息挖掘方法
éVOLUTIONDIGAE Style de vie tactile
基于深度特征分析的雙線性圖像相似度匹配算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合