?

基于改進注意力網絡的轉爐煉鋼狀態判別

2022-07-29 06:17賀雨霞
計算機與現代化 2022年7期
關鍵詞:池化煉鋼殘差

賀雨霞,曹 國

(南京理工大學計算機科學與工程學院,江蘇 南京 210094)

0 引 言

轉爐煉鋼是在高溫作用下發生的一系列物理化學反應。轉爐煉鋼終點控制的好壞直接反映了成品鋼材的品質好壞。經過多年的發展,終點控制的發展經歷了人工經驗控制、靜態控制、動態控制和自動化控制等[1]階段。人工經驗控制是操作者根據初始條件和終點目標,并結合吹煉過程中爐口火焰、聲音等變化,憑借經驗判斷轉爐煉鋼的終點,常見方法有拉碳補吹法[2]和直吹增碳法[3];靜態控制是指借助靜態模型、冶煉材料和化學平衡原理進行一系列的計算和指導,確定終點;動態控制是在靜態控制的基礎上,吹煉過程中對參數進行干預,使其滿足煉鋼要求,控制煉鋼終點;自動控制是在動態控制的基礎上,應用智能識別技術,對吹煉過程中得到的信息在線進行修正,實現自動控制煉鋼操作。因此煉鋼狀態判別對于終點自動控制有很重要的意義。

煉鋼廠常用的判別手段有幾種。副槍直接測量法[4],可以獲得鋼水溫度、碳含量等信息,這種方法的優點是能夠一次性檢測多項指標參數,方便判斷,缺點是設備容易磨損,使用成本高。除了設備直接接觸的方法,還有人工觀察法,觀察者通過爐口火焰形狀、顏色和噴出的鋼液來判斷爐內情況。但是這種方法人工成本高,主觀性強。因此,最近幾年圖像分類的火焰判別方法越來越多。如劉輝等人[5]通過不同冶煉階段的火焰形狀和紋理采用廣義回歸神經網絡建立了火焰圖像和冶煉階段之間的分類模型。該方法對彩色火焰的分割和單幅圖像的識別還不夠精確。劉輝等人[6]還發現火焰的紋理粗糙度與吹煉所處的階段有密切的聯系,提出基于灰度差分統計的提取方法,通過傳統圖像處理的方法得到各個特征的表達,以此來判斷煉鋼狀態。該方法對火焰紋理復雜度特征提取有很好的效果,但是計算很耗時。李超等人[7]提出一種多趨勢二進制編碼彩色紋理特征表述方法,通過顏色通道融合策略和多尺度非均勻采樣策略得到火焰紋理的特征表達,在碳含量預測實驗中有很好的效果。

隨著計算機技術和人工智能的高速發展,將深度學習應用到轉爐煉鋼中具有重要意義。江帆等人[8]提出了基于深度學習的卷積神經網絡對轉爐煉鋼終點進行判斷,通過端到端的訓練,減少人工提取圖像特征的誤差;使用灰度差分統計[6]的特征提取方法,識別精度和實時性都有很大提升。龐殊楊等人[9]提出的基于殘差神經網絡的狀態判別方法,不同于上述文獻將吹煉狀態分為前中后3種狀態,而作者將其分為8種不同的狀態,采用殘差網絡進行端到端的訓練,其數據集的識別精度可以達到98.73%,并且能達到實時性要求。Han等人[10]提出了一種基于光譜信息的深度學習方法,時間序列下產生的光譜波形和冶煉狀態有一定的關系,而雙向遞歸多尺度神經網絡模型使預測更加準確,并建立了一套靜態和動態聯合的模型,實現一鍵式煉鋼控制。

相比其他方法,本文將時序信息加入到網絡訓練中,對視頻進行端到端的訓練。根據操作者的經驗,火焰波動頻率和鋼渣噴濺速度也是非常重要的信息。因此本文基于爐口火焰視頻提取的鋼液、鋼渣和火焰特征建立狀態判別模型。該模型在應用中具有很多實際意義:1)通過利用現場的攝像設備提取的連續火焰特征,經過模型計算可實現煉鋼狀態的在線測量,為轉爐的終點控制提供保障;2)與基于火焰圖像的判別方法相比,本文方法加入了時序信息,模型訓練更加全面;3)與副槍[2]、光學方法[11]等其他檢測工具相比,這種方法成本低,容易實施,適應一般的煉鋼廠;4)通過計算機操作代替了技術人員觀察,解放了人力,還可以消除技術人員在煉鋼現場的安全隱患。

本文分析我國轉爐煉鋼的狀態判別技術的現狀,提出適應性強、成本節約、預測率高的狀態判別模型,對降低人工成本、提高煉鋼效率有很大幫助。本文的主要工作如下:1)確定基準模型,對比火焰視頻測試集的F1分數和準確度,選擇最優的模型;2)引入三維空間注意力模塊來實現空間特征強化學習;3)引入改進的通道注意力模塊在通道上進行特征提取,融合最大池化和平均池化的特征信息,以加強通道注意力的學習能力。

1 相關工作

1.1 視頻分類方法

結合二維卷積核的雙流神經網絡是視頻分類中常用的方法。Simonyan等人[12]提出將視頻中的動作信息單獨提取出來,也就是堆疊光流幀結合RGB幀的信息通過2D CNN進行識別。Feichtenhofer等人[13]提出將雙流CNN和殘差網絡進行結合,實驗顯示殘差網絡的加入對2D CNN的動作識別是有效的。Ji等人[14]提出應用3D卷積核可以從視頻中提取時空特征。Tran等人[15]在實驗中發現3×3×3的卷積核有較好的性能,提出了C3D的動作識別方法。Hara等人[16]將殘差網絡與3D CNN相結合,發現該網絡有更好的識別動作。卷積神經網絡在視頻分類中取得了很好的效果,尤其是3D卷積神經網絡,不僅可以獲取圖像幀的信息,還可以抓取時空信息。實際的圖像識別工作表明,CNN的網絡層數越高,識別精度越好,但是用于視頻識別的3D CNN由于參數較多,導致訓練難度大。殘差網絡的出現可以緩解深度網絡的優化問題,將殘差網絡結構應用到3D CNN能夠進一步提高識別性能。Qiu等人[17]提出的偽3D殘差網絡,將3×3×3分解成1×3×3和3×1×1卷積,可以減小參數數量和計算量。

1.2 注意力機制方法

注意力在人類感知中起著非常重要的作用。人類的視覺系統在捕捉整個畫面信息時,總會選擇性地聚集在突出部分,而忽略一些背景信息,不會對整個場景進行處理。Hu等人[18]首次提出了SE(Squeeze-and-Excitation)網絡,SE網絡先對卷積得到的特征圖進行壓縮(squeeze)操作,得到通道級的全局特征,并使用全局平均池化的方法,對全局特征進行激勵(excitation)操作,學習各通道間的關系。

Woo等人[19]在SE模塊的基礎上,提出了卷積塊注意力模塊CBAM。卷積塊注意力模塊包含了通道注意力模塊和空間注意力模塊,并且使用平均池化和最大池化聚合特征。GSop[20]引入二階池化,用以實現更有效的特征聚合。GE[21]利用深度卷積探索空間擴展來集合特征。Wang等人[22]提出了一種非局部操作作為一個泛型族的構建塊捕獲長期依賴,該方法受到了計算機視覺中非局部均值方法的啟發,將某一位置的響應計算為所有位置特征的加權和。Wang等人[23]提出了ECA注意力機制,闡明避免降維對學習通道注意的重要性,并且適當地跨通道互動可以在保持性能的同時顯著降低模型的復雜性。

2 改進注意力機制的3D殘差卷積網絡

卷積神經網絡是多層感知機的變種,早期由貓視覺皮層的研究發展而來。1998年出現的LeNet[24]定義了卷積神經網絡的基本構架和卷積層的概念。卷積神經網絡可以端到端地輸入輸出圖像數據,避免了傳統圖像識別算法中復雜的特征提取和數據重建過程。3D卷積神經網絡與2D卷積網絡的區別在于卷積核和池化層的維數,具有3D卷積核的網絡能夠直接從視頻中提取時空特征以進行視頻識別。

2.1 殘差模塊

隨著網絡層數越來越深,特征表現能力也更加出色,但是層數越深的網絡越容易出現網絡退化的現象。ResNet[25]通過跳躍連接實現了一個簡單的恒等映射,緩解了梯度消失的問題。相比普通的網絡,ResNet中每2層間增加了短路機制,短路機制將網絡的梯度從后面的層流向前面的層,簡化了對深度很深的網絡的訓練,形成了殘差學習。f(x)是殘差函數,通過對f(x)的優化,使得f(x)→x,

x→f(x)+x→x

(1)

以此達到一個恒等映射的關系。ResNet殘差模塊帶有快捷連接(shortcut connection)以及降采樣層。

2.2 注意力機制

注意力機制是根據人類注意力的研究而提出的,其本質是關注突出的或者動態的信息,而忽略掉背景或者靜態的信息。注意力模塊會重新分配權重參數,用來強調處理對象的重要信息,并抑制無用信息。

SE網絡[18]中,使用全局平均池化來提取通道特征,是一種有效的通道注意力學習機制。這種注意力機制讓模塊可以更加關注信息量最大的通道特征,而抑制不重要的通道特征,并且對神經網絡的性能有一定的提升。文獻[23]作者發現,SE網絡在激勵(excitation)操作時,對通道進行了降維操作,雖然該操作能夠降低計算復雜度和參數量,但是這樣會破壞通道和其權重之間的關系。文獻[23]提出了2點對建立通道注意機制的重要性,其一是避免降維,其二是局部跨通道信息交互。具體操作是:對輸入的特征進行平均池化后得到一個高度×寬度×通道的向量,通過一維卷積可以完成跨通道間的信息交互,從而實現性能上的優化。

CBAM注意力[19]模塊結合了空間和通道的注意力模塊,在通道注意力模塊中,作者驗證了使用最大池化和平均池化的融合可以推斷出更精細的通道特征??臻g注意力模塊中,文獻[26]驗證了沿著通道軸應用池化操作針對提取空間突出信息是有效的;在通道軸上應用平均池化和最大池化并將其連接成一個特征描述符??臻g注意力模塊工作流程如圖1所示。針對這個級聯特征描述符,應用卷積層來生成空間注意圖,對強調或抑制的地方進行編碼。公式如下:

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))

=σ(f7×7([Favg;Fmax]))

(2)

其中,σ表示sigmoid函數,f7×7表示卷積運算,過濾器大小為7×7,s特指空間注意力。

圖1 空間注意力模塊工作流程

2.3 注意力機制的改進

本文改進的注意力機制結構如圖2所示,整體結構是將通道注意力和空間注意力串行,放在殘差模塊中下采樣層的上面。

圖2 加入注意力機制的殘差塊

數據在進入殘差網絡后,通過2次卷積層訓練得到全局的數據信息,然后分別通過全局平均池化和最大池化得到2個1×1×C(高度×寬度×通道)的向量,其中全局平均池化可以得到整體特征信息,最大池化能夠聚合局部重要信息。將2個向量進行逐元素求和合并,通過一個可以權重共享的一維卷積進行學習,并還原到原始尺寸,生成最終的通道注意力特征圖。其中一維卷積涉及超參數k,也就是卷積核尺寸,它代表了局部跨通道交互的覆蓋率。

(3)

(4)

(5)

其中,st函數指squeeze()函數和transpose()函數,具體操作是刪除寬度和高度尺寸,交換通道和深度的位置,方便一維卷積工作,通過卷積操作后,需要重新交換通道和幀尺寸位置,增加寬度尺寸以恢復原本的尺寸。在一維卷積中,輸入維度是[batch_size,seq_len,input_size],因為卷積發生在最后一維,所以需要將通道交換到最后一維。ts函數是st的還原操作,Mc的下標c特指通道注意力,Conv1D表示一維卷積操作。

通道注意力機制可以提取到通道中的關鍵信息,接下來是將得到的通道關鍵信息的數據輸入到空間注意力機制。先將通道進行壓縮,然后對數據分別應用平均池化和最大池化,并將2個向量合并成一個2通道的特征描述符。針對這個級聯特征描述符,應用7×7的卷積層生成空間注意圖。通道注意力模塊流程如圖3所示。

圖3 通道注意力模塊工作流程

3 實 驗

為了驗證基于改進后的注意力模塊的3D殘差網絡對轉爐煉鋼狀態識別的效果,本文將煉鋼廠采集的火焰視頻作為訓練數據集,并用此數據集進行實驗測試和結果分析。

3.1 數據集處理

本文使用的是某煉鋼廠采集的視頻數據集,根據煉鋼大師的經驗判斷,將火焰視頻分為4種狀態:正常、噴濺、返干、甩渣。每個視頻樣本時長10 s。觀察爐口火焰連續的狀態能夠判斷出爐內煉鋼的情況,并且針對不同狀態做出對應的操作,保證煉鋼過程穩定進行,提高鋼水質量。數據集共有4700個視頻樣本,其中正常的有2045個樣本,甩渣的有1655個樣本,返干的有500個樣本,噴濺的有500個樣本。按照6:2:2的比例分為訓練集、驗證集和測試集。

視頻數據集中圖的原始大小為1920×1080,幀率為25 幀/s。如圖4所示,由于火焰信息大部分集中在視頻中間,本文將四周邊緣的黑色背景裁剪掉,生成1600×400大小的圖像,并且將生成的長方形數據從中間裁剪,上下拼接在一起,生成800×800大小的正方形數據集。這是因為模型輸入要求圖像尺寸長寬相等,若直接從原始圖像調整成224×224大小的圖像,火焰紋理特征會變形、模糊,信息也會丟失。

(a) 原始圖

3.2 模型訓練

訓練采用具有動量的隨機梯度下降對輸入的10 s視頻(幀率為25 幀/s)進行網絡訓練,并對視頻中隨機生成的訓練樣本進行數據增強。輸入數據的選擇是先通過均勻采樣在視頻中選擇時間點,然后在時間點周圍生成16 幀剪輯。視頻幀調整為224×224像素的尺寸。

在訓練中,使用交叉熵損失并對它們的梯度進行反向傳播。訓練參數包括針對動量的0.001和0.9的權重衰減。在沒有預訓練模型的情況下訓練網絡時,學習率初始值為0.1,每50 epoch減少至原來的1/10。一共訓練200個epoch。

3.3 評估方法

因為在轉爐煉鋼中,返干和噴濺情況出現概率較低,數據集類別比例不均衡,因此不直接使用準確度作為判斷標準,結合F1分數和準確度作為評估指標。F1分數是精確率和召回率的調和平均數,范圍為[0,1]。

(6)

精確率(precision)指被分類器判為正例中的正樣本的比重。

(7)

召回率(recall)指的是被預測為正例的占總的正例的比重。

(8)

準確度(accuracy)指全部樣本中預測正確的占全部樣本的比例。

(9)

以上公式中,TP表示分類器判定為正例,實際是正例;TN表示分類器判定為負例,實際也是負例;FP表示判定為正例,但是實際是負例;FN表示判定為負例,但是實際為正例。

3.4 訓練結果分析

本文實驗基于Pytorch框架實現,運行環境:操作系統Ubuntu18、Python 3.6、Pytorch 1.5.0、Nvidia顯卡GeFore RTX2080、GPU驅動版本為Cuda10.0。將數據集進行預處理后,對本文的模型和加了不同注意力模塊的模型實驗結果進行分析和對比。

3.4.1 基準模型選擇

如表1所示,本文嘗試了4種不同層數的殘差網絡模型[10]以及偽3D殘差網絡[12]進行訓練,其中18層的殘差網絡的準確度為87.65%,F1分數為88.29%,優于其他模型。本文改進方法的實驗對比的是基于18層網絡的。

表1 不同模型的實驗結果

3.4.2 注意力模塊評價實驗

根據實驗結果表2顯示,本文提出的模型3d-resnet-our的F1分數為89.32%,準確度為88.71%。相比添加SE模塊的F1分數提高1.77個百分點,準確度提高了1.6個百分點;和ECA模塊相比,F1分數提高0.65個百分點,準確度提高了0.64個百分點;和CBAM模塊相比,F1分數提高0.8個百分點,準確度提高了0.74個百分點;而與未添加注意力模塊的模型相比,F1分數提高1.03個百分點,準確度提高了1.06個百分點。

表2 不同注意力機制的實驗結果

3.4.3 消融實驗

針對添加的改進通道注意力機制和空間注意力機制進行消融實驗。3d-resnet-sa是對添加了空間注意力機制的3D-ResNet模型網絡進行訓練,3d-resnetca是對添加了改進后的通道注意力機制的3D-ResNet模型網絡進行訓練。

根據實驗結果表3顯示,改進的通道注意力機制相比之前的通道注意力機制效果更好。單獨增加空間和通道注意力機制的效果并沒有將其串行的效果好。

表3 消融實驗結果

3.4.4 實驗結果分析

本文方法召回率的混淆矩陣如表4所示。

表4 3d-resnet-our混淆矩陣(括號內表示該類的召回率)

其中噴濺類的召回率很高,噴濺表示有鋼液噴出爐口下方,相比其他類更容易被識別出來。甩渣的召回率較低,是因為甩渣是指鋼渣快速的跳出爐口,速度快,并且因為鋼渣小,在輸入網絡之前,視頻幀縮小時,鋼渣信息都被壓縮掉了。返干類別中沒有鋼渣鋼液,是根據火焰頻率來判斷,很容易和正?;煜?。

4 結束語

本文將基于改進注意力的3D殘差卷積神經網絡模型應用到轉爐煉鋼狀態的識別中。相比基于火焰圖像的識別算法,本文的算法能夠捕獲火焰震動頻率,鋼渣、鋼液噴濺速度等現象,更具有參考價值。本文提出了添加空間注意力機制和改進的通道注意力機制,并將其串行放進殘差模塊中,其中改進后的注意力機制相比原本的效果更好。通過對不同注意力機制的實驗對比,本文的注意力機制效果更好。下一步筆者將分析火焰視頻中的時序信息以及鋼渣的檢測,以實現更準確的狀態判別。

猜你喜歡
池化煉鋼殘差
基于高斯函數的池化算法
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
轉爐煉鋼降低鋼鐵料消耗的生產實踐
超高硅鐵水煉鋼工藝的研究及開發
卷積神經網絡中的自適應加權池化
AISI3130抽油桿用鋼的煉鋼工藝控制
AI煉鋼術
基于殘差學習的自適應無人機目標跟蹤算法
基于深度卷積的殘差三生網絡研究與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合