?

基于單目視覺的石化作業區外因明火感知與測量方法

2024-04-26 15:48段志偉豆全輝邵女
化工自動化及儀表 2024年2期
關鍵詞:注意力機制圖像處理

段志偉 豆全輝 邵女

基金項目:國家自然科學基金(批準號:51474069)資助的課題。

作者簡介:段志偉(1980-),副教授,從事測控技術與儀器的研究。

通訊作者:豆全輝(1996-),碩士研究生,從事工業自動化與智能儀器的研究,18325795623@126.com。

引用本文:段志偉,豆全輝,邵女.基于單目視覺的石化作業區外因明火感知與測量方法[J].化工自動化及儀表,2024,

51(2):199-206;318.

DOI:10.20030/j.cnki.1000-3932.202402008

摘 要 針對目前石化作業區外因火災監測方法大都沒有火源定位功能的現狀,提出基于單目視覺的外因明火感知與測量方法。首先改進YOLO v7深度學習網絡的SiLU激活函數,并引入注意力機制CBAM,使感知網絡獲得更好的準確性、互適性;隨后基于相機成像原理建立物距與像素、分辨率等因子的多元關系測量模型進行距離預測。實驗表明:優化后的網絡mAP_0.5值提升了2.2%,Precision值提升了5.0%,預測距離誤差率絕對值小于3.1%。

關鍵詞 單目視覺 明火感知 YOLO v7深度學習 圖像處理 注意力機制 多元關系

中圖分類號 TP393.08?? 文獻標志碼 A?? 文章編號 1000-3932(2024)02-0199-09

石化產業為我國現代化建設、科技化發展提供了有力支撐,但也存在著一定的安全問題[1]。因此,采取有效的石化作業區外因明火感知與定位具有重要意義。石化作業區外因明火主要來自機器熱源或人為活動導致。前期小火源如果不能被及時發現,極易擴大,因此實時感知并定位石化作業區明火,能夠及時為消防人員和智慧消防系統提供信息反饋,有效防止火災的發生。傳統的明火識別與預警模塊由感溫、感煙等傳感器組成,監測范圍有限、檢測速度滯后,并且沒有測量定位功能[2]。筆者借助深度學習圖像處理網絡

YOLO,利用二維圖像結合深度信息源途徑模擬并完成單目視覺明火感知與測量作業,以實現可視化并降低成本,為石化、造紙、紡織等場所的外因明火提供更準確的感知、定位和較準確的距離反饋。

1 算法原理

1.1 明火感知算法

1.1.1 YOLO v7網絡架構

YOLO v7網絡主體由輸入端(input)、骨干網絡(backbone)、檢測頭(head)3部分組成,輸入端對圖片進行預處理對齊成640×640×3規格的RGB圖片,由骨干網絡層得到3層輸出,在檢測頭層通過骨干網絡繼續輸出3層不同大小的特征圖,經過Rep-VGG block和卷積對圖像進行分類、前后背景分類和邊框預測后,最終輸出檢測結果[3,4]。

1.1.2 激活函數

激活函數位于骨干網絡層,作用是將神經網絡非線性化。骨干網絡整體結構由ELAN、MP-Conv、CBS模塊組成。SiLU激活函數位于CBS模塊中,CBS模塊由CBS-Conv(卷積層)+BN(Batch Norm)+SiLU組成[5]。從圖1所示的CBS模塊結構可以看出,該模塊里有3種顏色,3種顏色對應的卷積核k和步長s不同。

合適的激活函數能加快網絡的學習速度和性能。對比SiLU和Mish激活函數,兩者都具有4個特點:

a. 無上界,防止網絡飽和。

b. 有下界,能夠提高網絡的正則化效果。

c. 平滑。首先,與ReLU相比,在零值點連續,可以減少一些不可預測的問題;其次,可以使網絡更容易優化,提高泛化性能,一些較小的負輸入可以保留為負輸出,以提高網絡的可解釋性和梯度流。

d. 非單調。相對于ReLU,Mish具有連續可微特性,能夠有效避免奇點,更好地執行梯度優化。

雖然SiLU激活函數和Mish激活函數都具有一致的特性和很相似的函數曲線,但是SiLU激活函數存在計算量大、網絡性能不穩定的問題。如圖2所示,在一階導上界平滑過程中,Mish不僅表現出更小的閾值θ(圖2中θ、θ分別表示SiLU′激活函數和Mish′激活函數的上界閾值,不難看出θ<

θ),并且Mish表現出更快的平穩度r(圖2中r、r分別表示SiLU′激活函數和Mish′激活函數從峰值逐漸趨于平穩時的長度,不難看出r<r)。文獻[6]也提到,Mish激活函數在深度卷積層中表現出了更好的穩定性,并且準確度分別比SiLU和ReLU高出0.5%和1.7%[6]。

圖2 SiLU和Mish函數一階導數對比

1.1.3 CBAM注意力機制

為了提高YOLO v7網絡對外因明火目標特征的提取效果,引入注意力機制是必要的。CBAM是一種前饋卷積神經網絡簡單而有效的注意模塊,即在給定輸入一個中間特征圖(Input Feature),該模塊會沿著兩個獨立的維度(通道和空間)依次推斷注意力圖,即通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spartial Attention Module,SAM),這樣的好處是不僅節約了參數和計算力,還保證它能夠作為即插即用模塊集成到現有網絡架構[7],CBAM注意力機制結構如圖3所示。

本優化算法是以YOLO v7網絡為基礎架構,為適應石化作業區外因明火目標的特征學習,提高檢測性能和精度,將YOLO v7原CBS模塊中的SiLU激活函數替換為Mish激活函數,并加入CBAM(Convolutional Block Attention Modul)注意力機制。優化后的網絡模型如圖4所示,綠色部分即為優化部分。

1.2 單目視覺測量模型

單目攝像頭成像可以簡化為小孔成像模型,相當于被拍攝物體的像通過小孔投影到感光元件CCD/CMOS上,即可得到倒立的實像,經由傳感器將光信號轉換為模擬信號后發送至A/D轉換器,經過數字信號處理器處理后將數據傳輸給CPU由LCD顯示出來或由MCU存儲圖像,此時即為人眼看到的像素圖像[8]。

單目視覺成像原理如圖5所示。

本研究使用的HBV-1714單目攝像頭具有80°視場角、3 mm可變焦距、支持無畸變拍攝、搭配OV9750傳感器(1/3英寸(1英寸=25.4 mm))、CMOS感光芯片(感光面長4.8 mm、寬3.6 mm),并且OV9750傳感器能夠在SXGA (1 280×960)分辨率下工作,具有60幀/秒(即FPS=60)的10位輸出,或45幀/秒的12位輸出。

根據單目視覺成像原理,攝像頭將拍攝的目標從三維場景映射到二維平面上,圖6所示為單目視覺多元關系測量模型,該模型共涉及3個平面[9]:

a. 所示目標位于原平面①;

b. 成像平面②,單目攝像頭透鏡中心點O所在水平光軸交②于點O′;

c. 像素平面③,長a、寬b(分辨率a×b=1280×960),目標錨框長w(像素)、寬h(像素)。

YOLO v7網絡以平面③左上角為坐標原點建立像素坐標系O(u,v),目標錨框左上點的像素坐標為(u,v),右下點的像素坐標(u,v),令目標錨框中心點坐標為(u,v)。

由圖6可知,△ABO∽△A′B′O,所以AB/A′B′=BO/B′O。因為AB=H,BO=Zc,A′B′=(0.5h+|v-0.5b|)·K,B′O=(v+Δi),Δi=O′B′為水平偏移參數,隨著目標橫坐標u的變化而變化,Δi=|u-0.5a|·K。綜上可得:

Zc=(1)

由圖6和式(1)可知,首先要根據實驗環境求出參數V。模擬實驗,在高為50 cm處固定無俯仰角攝像頭,通過給定目標位于光軸中線Zc=

200 cm時,使用模型進行檢測并輸出目標錨框框選信息:目標錨框高h=58(像素),目標錨框左上點坐標(u,v)=(612,606),目標錨框右下點坐標(u,v)=(670,664),得到的目標框中心點坐標

(u,v)=((u-u)+u,(v-v)+v)=(641,635),代入式(1)求得V≈541695K。

考慮由于人為測量導致的偶然誤差和機械誤差,引入糾正系數η,得V=(541695±η)·K。

2 實驗與結果分析

2.1 準備工作

實驗條件:模擬石化作業區外因明火條件,于室內安全器皿內點燃紙張產生明火;實驗選用聯想R7200拯救者筆記本,Intel(R)Core(TM)i5-7300HQ CPU,8 GB內存,NVIDIA GeForce GTX 1050Ti 4G獨立顯卡;在Windows 10 64位操作系統安裝Pytorch深度學習框架訓練檢測模型,版本python 3.6,CUDA Version為11.7,torch為1.10,編譯器Pycharm。

深度學習網絡數據集準備:使用Make Sense平臺將開源明火數據集640×640的2 471張圖片進行標注,并將訓練集、驗證集、測試集按照0.75:0.15:0.15分配。

實驗以mAP_0.5、精確率P(Precision)及FPS(幀/秒)等指標作為明火感知模型性能的評價指標[11]。為更快獲得檢測模型幀率,設置檢測批大小為32(即每次驗證batchsize=32個樣本,實現32個樣本每幀)。

2.2 明火感知

如圖7所示, YOLO v7每次迭代學習300輪(即Epoch=300輪),在步長20(即step=20),藍色柱狀圖表示mAP_0.5值,紅色柱狀圖表示抬升值:迭代學習0~20輪內mAP_0.5值抬升最明顯,從10.7%抬升至62.1%,抬升值為51.4%;迭代120~140輪內mAP_0.5值抬升幾乎為零;迭代140~300輪內mAP_0.5值抬升值為負,出現過擬合現象。

圖7 mAP_0.5值變化統計圖

進一步觀察兩個損失指標val/box_loss和

val/obj_loss值(val/box_loss是一種常見的機器學習指標,用于評估模型在驗證集上的性能和訓練過程中預測的目標錨框損失情況;val/obj_loss常用于評估訓練過程中的損失情況),損失指標

val/box_loss和val/obj_loss的表現如圖8所示。

圖8 損失指標val/box_loss和val/obj_loss的表現

觀察圖8a中val/box_loss值的表現,在迭代100~150輪學習區間,預測的目標錨框損失值早已趨于穩定。觀察圖8b中val/obj_loss值的表現,在迭代學習100~150輪時也已趨于穩定,隨后出現了抬升;從而進一步判斷出過擬合區間。綜合考慮,固定迭代周期為120輪/次。

原模型與優化后的模型對比數據見表1。在Epoch為120輪時,優化激活函數對比其他激活函數的實驗結果,相比于其他激活函數,改進了Mish激活函數網絡的mAP_0.5值和P值最高,分別為75.2%和81.3%,mAP_0.5值優于原網絡0.3%,P值優于原網絡5.8%;對于不同注意力機制的對比實驗,在Epoch為120時,更改激活函數為Mish函數,并在Head層加入注意力機制,相比于CA注意力機制,加入CBAM注意力機制的mAP_0.5值和P值最高,分別為77.1%和80.5%,mAP_0.5值和P值分別優于CA注意力機制1.6%和6.2%。

圖9所示為優化前、后mAP_0.5值與P值對比結果,經平滑處理后,mAP_0.5值和P值變化為紅色曲線,其結果均較好于原網絡藍色曲線。

圖9 優化前、后mAP_0.5值與P值對比結果

以上實驗證明,在Epoch為120輪、優化激活函數為Mish、在Head層加入CBAM注意力機制,相比于最初的網絡模型有很大提升,優化后的mAP_0.5值從74.9%抬升至77.1%,提升了2.2%;P值從75.5%抬升至80.5%,提升了5%;并且優化后的網絡模型FPS值提高為原網絡FPS值的28.4%,表明改進方法能夠為石化作業區外因明火提供更準確的感知。

2.3 單目視覺測量驗證

模擬實驗作業區,在固定攝像頭高度H為

50 cm時,根據圖6像素平面內坐標系O(u,v)和目標在世界坐標系中的大小,可知Zc預測值的影響因子主要來自橫坐標u0的水平偏移和縱坐標v0的變化?,F基于優化后的明火感知網絡,測試單目測距模型,驗證以下兩種情況:

a. 情況一,目標位于所在平面中線(straight);

b. 情況二,目標位于所在平面中線兩側(左側bias_left、右側bias_right),由于目標位于平面兩側情況相同,在式(1)中|u0-0.5a|得以體現,因此本實驗只需驗證右側即可。

如圖10所示的驗證結果,目標分別位于平面中線和右側;將實際距離與預測距離的誤差繪制為條形統計圖,如圖11所示。

針對情況一(圖10a),straight在80~200 cm,實驗驗證了2×13組,即A1和A2兩組各13種不同位置,在Zc為80~200 cm、位置步長10 cm(step=10)時的預測情況,預測距離與實際距離存在的誤差如圖11a的straight=80~200 cm誤差統計所示;針對情況二(圖10b),bias_right在90~160 cm,

圖10 目標分別位于平面中線和右側預測情況

驗證了2×8組,即B1和B2兩組各8種不同位置,在Zc為90~160 cm、相同位置步長時的預測情況,預測距離與實際距離的誤差如圖11b的bias_right=90~160 cm誤差統計所示。

圖11 目標分別位于平面中線和右側

預測誤差統計

分析圖11a:由A組的預測表現可知,誤差范圍在-1.4~5.4 cm,最大誤差率不大于3.1%;分析圖11b中B組的預測表現可知,誤差范圍在-1.9~4.7 cm,最大誤差率不大于2.9%,基本滿足短距離內目標測量的可接受誤差。

2.4 消融實驗

現用消融實驗驗證優化后的感知網絡對比YOLO v5中不同權重文件5s、5m、m6的學習結果,詳見表2,可以看出,改進后的YOLO v7網絡的mAP_0.5值、P值、FPS值均優于YOLO v5網絡。

進一步對比加入單目測距模型后的優化網絡與原始網絡的性能,明火目標分別位于所在平面中線左側bias_left=120 cm、平面中線straight=130 cm、平面中線右側bias_right=120 cm時,原網絡/優化后網絡模型感知與測距效果對比結果如圖12所示。

分析圖12,通過對比第1組,在bias_left=

120 cm時,原模型目標預測值mAP_0.5=74%、Zc=117.8 cm,優化后的模型目標預測值mAP_0.5=32%、Zc=120.0 cm;對比第2組,在straight=130 cm的原模型出現了漏檢情況,而優化后的模型目標預測值mAP_0.5=69%、Zc=132.2 cm;對比第3組,在bias_right=120 cm時原模型目標預測值mAP_0.5=74%,Zc=119.5 cm,優化后的模型目標預測值mAP_0.5=65%,Zc=120.2 cm,以上3組對照實驗表明優化后的網絡模型降低了漏檢率且距離感知更為準確。

由以上實驗結果可知,筆者提出的感知與測量方法對外因明火目標的感知體現了更好的感知效果,對目標錨的框選體現了較好的定位能力。

3 結束語

筆者通過模擬石化作業區外因明火初期火情,提出基于單目視覺的化工作業區外因明火中心感知與測量系統。經過對目標位于兩種情況——兩組21個不同位置的驗證,實驗表明優化后的YOLO v7網絡在加入了多元關系測量模型后,對外因明火感知有更好的適應性,能夠做到明火目標框中心定位和測量的可視化,可為石化、造紙、紡織等場所作業區等,明令禁火場所的消防工作提供可視化感知與明火定位和較好的距離反饋的積極參考。

參 考 文 獻

[1] 王志芳,謝文奮,李大寶.煉油裝置報警優化治理[J].化工自動化及儀表,2022,49(3):394-397;400.

[2] 王一旭,肖小玲,王鵬飛,等.改進YOLO v5s的小目標煙霧火焰檢測算法[J].計算機工程與應用,2023,59(1):72-81.

[3] 李淑娟,任朋欣,薛丁丹,等.基于YOLOv3目標檢測的液位測量方法研究[J].化工自動化及儀表,2022,

49(3):280-285.

[4] 吳興輝,何赟澤,周輝,等.改進YOLO v7算法下的監控水域環境人員識別研究[J/OL].電子測量與儀器學報:1-11[2023-04-21].

[5] MUNIR A, SAGHEER A,AREEJ F, et al.Deep Tran-

sfer Learning-Based Animal Face Identification Model Empowered with Vision-Based Hybrid Approach[J].Applied Sciences,2023,13(2):1178-1197.

[6]?? MISRA D. Mish:A Self Regularized Non-Monotonic Activation Function[J].arXiv:Machine Learning,2019.

10.48500/arXiv.1908.08681.

[7]?? LUO M L,XU L H,YANG Y L,et al.Laboratory Flame Smoke Detection Based on an Improved YOLOX Algorithm[J].Applied Sciences,2022,12(24):12876.

[8] 盧偉,鄒明萱,施浩楠,等.基于YOLO v5-TL的褐菇采摘視覺識別-測量-定位技術[J].農業機械學報,2022,53(11):341-348.

[9] SHI Z,XU Z M,WANG T X.A method for detecting pedestrian height and distance based on monocular vision technology[J].Measurement,2022. https://www.medsci.cn/sci/show_paper.asp?id=b9eac1c3e7965099.

[10] 王冠寧,陳濤,米文忠,等.基于凸殼理論的監控攝像頭部分遮擋場景下火焰定位方法[J].清華大學學報(自然科學版),2022,62(2):277-284.

[11] 李善誠.石化真火模擬訓練裝置池火模擬效果評價[J].消防科學與技術,2021,40(3):398-401.

(收稿日期:2023-04-23,修回日期:2023-05-16)

Sensing and Measurement Method for External Causesincurred Open Flames in Petrochemical Operation Area Based on Monocular Vision

DUAN Zhiwei, DOU Quanhui, SHAO Nv

(School of Physics and Electronic Engineering, Northeast Petroleum University)

Abstract?? Considering the fact that most external fire monitoring methods for petrochemical areas have no fire sourcepositioning function, an external causesincurred fire sensing and measurement system based on monocular vision was proposed. Firstly, having SiLU activation function of YOLO v7 deep learning network improved and attention mechanism CBAM introduced to raise sensing networks accuracy and interoperability; secondly, having the camera imaging based to establish multivariate relationship measurement model of the object distance, pixel, resolution and other factors so as to predict the distance. Experimental results show that, the mAP_0.5 value and Precision value of the optimized network can be increase by 2.2% and 5.0%, respectively, and the absolute value of predicted distance error rate is less than 3.1%.

Key words?? monocular vision, open fire sensing, YOLO v7 deep learning, image processing, attention mechanism, multiple relations

猜你喜歡
注意力機制圖像處理
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于圖像處理的機器人精確抓取的設計與實現
機器學習在圖像處理中的應用
Bayesian-MCMC算法在計算機圖像處理中的實踐
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
改進壓縮感知算法的圖像處理仿真研究
InsunKBQA:一個基于知識庫的問答系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合