?

基于VGG16網絡的火災圖像識別方法研究

2023-07-26 09:13徐柯王保云
電腦知識與技術 2023年16期
關鍵詞:殘差準確率卷積

徐柯,王保云,2★

(1.云南師范大學 數學學院,云南 昆明 650500;2.云南省高校復雜系統建模及應用重點實驗室,云南 昆明 650500)

0 引言

火災作為常見的災害之一,對人民生命和財產構成巨大威脅。據應急管理部消防救援局2022 年11 月1 日發布的視頻,2022 年前三個季度全國共接報火災63.68 萬起,死亡1441 人,受傷1640 人,直接財產損失55億元。因此,對火災的快速、高效地檢測并預警顯得尤為重要。傳統的感煙和感溫型火災探測方法對于小空間范圍適用性較好,但在大空間范圍內,這種火災識別方法具有一定的局限性。相比于傳統的感煙和感溫火災識別方法,圖像型火災識別可以很好地避免這一缺點 。李建文等人[1]通過對核電站場所內火災發生的特點進行分析,結合圖像分析技術的優勢,降低了核電站的火災探測誤報率;王媛彬等人[2]通過提取火災火焰圖像的特征,對是否有火焰產生實現了判斷。馬越豪等人[3]利用無人機技術,通過圖像的顏色特征檢測火災區域,提出了一種火災檢測方法。Kandil等人[4]提取火焰小波變換后的圖像特征,通過使用BP 神經網絡進行火焰的識別。然而,以上這些基于圖像處理的火災識別方法均屬于傳統的圖像處理方法,需要人工提取特征,易受干擾且效率較低。

隨著深度學習[5]的發展,卷積神經網絡(CNN) 已經在手寫字符識別、語音識別[6]、圖像識別等領域得到了成功應用。與傳統的機器學習圖像識別算法相比,卷積神經網絡具有無須人工提取特征,局部區域連接以及權值共享特點。本文基于改進的VGG16 網絡模型,對圖像進行發生火災和未發生火災的分類,借助深度學習的方法,讓計算機通過大量樣本訓練提取到火災特征,對火災進行識別,并將該網絡與ResNet34網絡和VGG16網絡進行對比,測試網絡在火災數據集上的性能表現。

1 數據和模型

1.1 數據來源

本文采用的火災樣本數據集來自公開數據集“Fire Image Data Set for Dunnings 2018 study - PNG still image set”靜態火災圖像數據集。為保證樣本的平衡,選取火災圖像4 000 張,非火災圖像4 000 張。將發生火災的圖像標注為0,未發生火災的圖像標注為1,訓練集和測試集按照7:3的比例進行劃分,數據庫中的部分圖像如圖1所示。

圖1 數據庫部分樣本

1.2 網絡模型

本文分別采用VGG16、ResNet34 以及改進的VGG 網絡模型對數據集進行訓練和測試。其中VGG16[7]是由牛津大學和Google公司共同研發的一個卷積神經網絡結構。VGG16網絡是由13個卷積層和5 個池化層組成,最后由3 個全連接層作為分類層。在本文中,考慮到火災識別是一個二分類問題,不需要復雜的分類層,故保留VGG16 網絡中的特征提取層,重新設置分類層,采用2層全連接層[8]。VGG16網絡的特點是采用連續的3×3 的卷積核代替較大卷積核,相比直接使用大尺度卷積核訓練,訓練量大大減小,通過增加通道數提高了網絡特征識別能力,并且VGG16網絡的非線性能力增強,增加了卷積神經網絡特征提取能力。

殘差神經網絡[9](ResNet)是由何愷明等人提出的,并在ILSVRC2015比賽中取得冠軍。ResNet34是由33層卷積層和1層全連接層組成的神經網絡模型。殘差網絡主要由殘差塊構成,這種殘差塊的輸入會經過一個跳躍結構輸出到殘差塊的輸出,避免了網絡退化的問題,同時緩解了在深度神經網絡中增加深度帶來的梯度消失問題。

改進的VGG網絡模型是在原來的VGG16模型的基礎上添加了殘差塊結構,改進的VGG 網絡結構見圖2。

圖2 改進的VGG16網絡示意圖

三個網絡的激活函數均使用Rule函數,選擇Rule函數是因為在一定程度上解決了梯度消失的問題,加速梯度下降的收斂速度,并且Rule 函數計算簡單,更加高效。

三個網絡在經過對圖像的特征提取和分類后,通過使用Softmax 函數將兩個目標類別給出的輸出數值轉化為相對概率。關于Softmax 函數的定義表達式為:

其中,i表示數據集的類別索引,vi是分類器對第i類的輸出。數據集總的類別個數為C。Si為第i類的輸出的指數與數據集所有類輸出的指數的比值。

2 實驗結果與分析

2.1 實驗環境及超參數設置

模型的訓練與測試均在PyTorch框架下完成。硬件環境:Intel(R) Xeon(R) Platinum 8157 CPU @2.30GHz,NVIDIA GeForce RTX 3090 GPU;軟件環境:Ubuntu18.04 操作系統, Python 3.8, CUDA 11.3,Py-Torch 1.11.0,以及圖像相關的第三方庫。

模型訓練時使用GPU加速,具體訓練設置如下:最大訓練數設置為100 個epoch,batch size 設置為64,學習率設置為0.001。損失函數為交叉熵損失函數(Cross Entropy Loss) ,交叉熵函數可以完美解決均方誤差函數權重更新慢的問題,在誤差大時權重更新快,在誤差小時,權重更新慢。交叉熵損失函數的表達式為:

其中,a為

優化方法為隨機梯度下降法(SGD) ,該算法是通過迭代運算不斷優化參數,使損失函數最小化。

2.2 訓練結果

為比較3種網絡的性能,在數據集上進行實驗,得到實驗結果,繪制了以下圖像。

訓練迭代100次,圖3是在訓練過程中,網絡模型的損失值隨著迭代次數變化的曲線圖。觀察圖3的損失值曲線發現,隨著迭代次數的增加,3種網絡模型的損失函數均呈遞減形式,并最終都穩定在一個數值;從圖3還可以看出,改進后的VGG模型在損失方面要優于其他兩個網絡。

圖3 損失值變化曲線

在測試集上的準確率如圖4 所示。觀察圖4 發現,隨著訓練迭代次數的增加,3種模型的準確率均呈遞增形式,并最終收斂;除此之外,改進后的VGG模型在準確率上明顯優于其他兩個網絡。

圖4 準確率變化曲線

2.3 性能評估

為了評價算法對火災的識別能力,本文通過召回率、準確率、受試者操作特征曲線(ROC) 以及AUC 四個指標,對網絡性能進行評價。

首先,給出實驗結果匯總后得到的混淆矩陣?;煜仃囀且环N精度評價模型,主要比較預測值和實際值在不同類別上的表現。表1為3種網絡在測試集上的混淆矩陣。通過觀察表1 混淆矩陣發現,改進的VGG 模型對有火發生的識別能力要優于無火災發生的識別能力。并且改進的VGG 模型對有火發生的識別能力要優于另外兩個網絡。

表1 混淆矩陣

其中,TP(True Positive):代表有火檢測出有火;

FN(False Negative):代表有火檢測出無火;

FP(False Positive):代表無火但檢測出有火;

TN(True Negative):代表無火檢測為無火。

接著,根據表2給出的混淆矩陣,計算得到三個網絡的各性能指標值,見表2。通過表2 可知,改進的VGG 模型的有火召回率為86.33%,優于其他兩個網絡,這說明改進的VGG模型在識別有火災發生的能力要強于另外兩個網絡。改進的VGG 模型的無火召回率為81.33%,優于VGG16 模型,但不如ResNet34 模型。通過表2還可以發現,改進的VGG模型的準確率為81.21%,優于另外兩個網絡。

表2 準確率和召回率

其中準確率是有火和無火中預測正確數量占總數量的比例,用公式表示為:

有火召回率是被預測正確的有火占實際有火樣本的比例。用公式表示為:

無火召回率是被預測正確的無火占實際無火樣本的比例。用公式表示為:

為了進一步驗證模型的可靠性,根據實驗結果繪制了三種模型的ROC曲線,如圖5所示。改進的VGG模型,VGG16 模型以及ResNet34 模型的AUC 值分別為0.879、0.866、0.846,這說明三種網絡模型都具有一定的準確性,且改進后的VGG模型相比其他兩種網絡具有更好的識別能力。

圖5 ROC曲線圖

3 結束語

針對傳統火災探測器檢測局限性、檢測率低的問題,本文提出了一種改進的VGG網絡的圖像型火災識別方法。本文選取公開數據集上的4 000張火災照片和4 000張未發生火災的照片,保證了樣本的平衡,并將數據集按7:3分為訓練集和測試集,對改進的VGG模型進行實驗,得到的火災識別模型分類準確率為81.21%,AUC 值為0.879,網絡性能優于VGG16 網絡和ResNet34 網絡,說明了該網絡可以應用于火災識別,且具有準確的優點。

猜你喜歡
殘差準確率卷積
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
高速公路車牌識別標識站準確率驗證法
基于傅里葉域卷積表示的目標跟蹤算法
平穩自相關過程的殘差累積和控制圖
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合