?

基于改進U-net 的少樣本煤巖界面圖像分割方法

2024-03-02 13:37盧才武宋義良
金屬礦山 2024年1期
關鍵詞:煤巖注意力界面

盧才武 宋義良 江 松,3 章 賽 王 懋 紀 凡

(1.西安建筑科技大學資源工程學院,陜西 西安 710055;2.西安市智慧工業感知、計算與決策重點實驗室,陜西 西安 710055;3.西安優邁智慧礦山研究院有限公司,陜西 西安 710055;4.陜西財經職業技術學院大數據與人工智能學院,陜西 咸陽 712000)

實現綜采工作面的“無人化”開采是煤礦智能化建設的重要內容之一,采煤機作為綜采工作面的核心設備,其智能化程度對于實現綜采面“無人化”起著決定性作用[1]。 采煤機通過自動判別煤巖分布情況獲取煤巖分界線,實現智能調節截割軌跡并代替人工操作,因此對綜采面煤巖分布的自動判別技術是實現采煤機智能化作業的關鍵技術之一[2-5]。 目前,采用機器視覺方法進行煤巖界面識別的研究主要通過目標檢測或語義分割技術對煤巖圖像中的煤層和巖層進行自動化識別。 這些技術的研究主要基于深度學習方法,需要使用大量樣本數據來訓練網絡模型。 在機器視覺技術應用于煤巖界面識別的研究中,缺乏大量已標注的煤巖圖像數據,從而限制了深度學習網絡模型的訓練效果。 因此,解決煤巖圖像數據不足的問題成為當前研究的關鍵[6-8]。

近年來,隨著煤礦智能化的不斷發展,國內外已有學者對基于機器視覺技術的煤巖界面識別方法進行研究。 楊瀟等[9]針對煤礦獲取的圖像缺乏標注信息等問題,提出了一種雙對齊網絡模型,該模型分別從特征級和像素級對圖像進行處理,可以有效降低煤礦監控圖像受到紋理、光照等復雜環境的影響,提升煤礦監控圖像的語義分割效果。 張斌等[10]將目標檢測算法YOLOv2 與線性成像模型相結合進行煤巖識別與定位,設定實際坐標與計算坐標進行對比分析,反映出該方法可以快速準確地識別煤巖。 孫濤等[11]提出了一種基于卷積神經網絡和煤巖智能語義分割混合的煤巖識別系統,構建了用于煤巖圖像識別的CA-Poly-DeepLab v3+網絡模型,通過進行數據增強等處理可以取得較理想的煤巖界面圖像語義分割效果。 DONG 等[12]通過改進邊緣檢測Canny 算法進行煤巖界面圖像邊緣特征提取,據此進行煤層和巖層分界線識別。 伍云霞等[13]通過使用字典學習和最大池化稀疏編碼技術對煤巖圖像特征信息進行提取,并進行了煤巖界面識別。 司壘等[14]提出一種基于改進的U-Net 網絡模型進行煤巖界面識別,并通過井下現場試驗驗證了其可行性。 孫繼平等[15]提出了一種二進制十字對角紋理矩陣對煤巖圖像的紋理特征進行提取和分析,并通過煤層與巖層的不同紋理特征識別了煤巖界面。 孫傳猛等[16]提出了一種融合改進YOLOv3 與三次樣條插值的煤巖界面識別方法,通過使用深度可分離卷積運算對原算法進行改進,有效提升了煤巖界面的識別精度和效率。 閆志蕊等[17]提出了一種基于改進DeepLabv3+和遷移學習的煤巖界面圖像識別方法,并對實際煤巖圖像進行試驗,驗證了改進模型的有效性。 上述研究表明:機器視覺技術在煤巖界面識別方面的研究取得了一定的進展,但目前尚未出現公開的煤巖圖像數據集,此外由于煤礦實際場景較為復雜,難以采集較高質量的煤巖界面圖像,并且獲取圖像后需要耗費大量人力對數據集進行標注,因而可用于機器視覺算法訓練的數據集較少。 基于深度學習的機器視覺算法往往是通過大量已標注的圖像數據進行訓練,可用的煤巖圖像數據較少導致該類算法在煤巖界面識別方面的研究與應用受到一定的影響。

本研究通過對U-net 網絡進行改進,并使用遷移學習方法訓練模型,實現在使用煤巖圖像數量較少的小樣本數據集進行訓練的情況下,提升煤巖界面檢測精度。 研究反映出,通過少樣本數據集訓練能有效解決煤巖圖像語義分割中存在的數據不足問題,有助于推動機器視覺技術在煤巖界面識別方面的應用。

1 基于改進U-net 的煤巖界面圖像語義分割網絡設計

1.1 U-net 網絡模型改進

U-net 網絡模型結構呈“U”形,由編碼器和解碼器兩部分組成[18],其模型結構如圖1 所示。 編碼器部分經過多次卷積操作和池化操作對輸入的圖像進行特征提取,多個卷積層和池化層可以更有效地提取豐富的語義信息,同時將數據空間逐漸縮小[19]。 解碼器由多個卷積層和上采樣層構成,將編碼器部分提取的特征映射還原到原始分辨率,并生成分割結果。在編碼器和解碼器之間建立跳躍連接,用于將編碼器部分的高層次、語義豐富的特征傳遞到解碼器中,以幫助解碼器對前面網絡丟失的部分信息進行一定的補充,從而使得分割結果更精確[20]。

圖1 U-net 網絡模型結構Fig.1 Structure of U-net network model

針對現有的機器視覺算法在網絡模型訓練時受到圖像數據數量限制的問題,本研究對經典的語義分割模型U-net 網絡進行改進。 U-net 模型因其出色的網絡結構設計使其在小樣本數據集的語義分割中表現優異,但針對不同的數據集和應用場景,模型實際性能可能存在一定的差異。 因此,對于具體的煤巖界面圖像,要取得理想的分割效果,有必要對網絡結構進行有針對性的調整和優化。

本研究改進的U-net 模型網絡結構如圖2 所示。在U-net 網絡結構的編碼器部分,將U-net 的骨干網絡替換為裁剪后的VGG16 特征提取網絡,裁剪后的VGG16 共有5 個塊結構,主要由卷積核為3×3 的卷積層(Conv-3)、Relu 函數和最大池化層(Maxpool)組合而成。 改進后的模型增加了網絡深度,同時減少了參數量,對骨干網絡的替換提高了模型的特征提取能力,降低了由小樣本訓練引起的過擬合風險。 另外,在解碼器部分引入兩類注意力機制模塊,在跳躍連接層添加了注意門機制(Attention Gate)并在解碼器部分的上采樣模塊中添加了卷積塊注意力模塊(CBAM)來提高模型對關鍵信息的感知能力,降低圖像中噪聲或無關信息對模型的干擾。

圖2 改進U-net 網絡模型結構Fig.2 Structure of improved U-net network model

1.2 骨干網絡替換

采煤機智能化作業的實際應用場景需要對煤巖分布狀況進行精確快速的自動識別。 因此,本研究改進模型在使用小樣本煤巖界面圖像數據集進行模型訓練時,要求具有較強的特征提取能力,即需從有限的圖像數據中提取盡可能多的煤巖特征信息[21]。 同時,為達到快速識別,本研究盡可能減少模型參數量,參數量較小的模型在進行訓練和預測時不僅可以減少所需的計算資源,還有助于降低過擬合風險,更易于訓練和部署。 本研究對經典U-net 網絡結構的主干網絡部分進行改進,使用裁剪后輕量化的VGG16特征提取網絡替換經典U-net 網絡編碼器部分的主干特征提取網絡[22]。 本研究所使用的VGG16 特征提取網絡參數如圖3 所示,圖像以512×512×3 大小輸入,圖中“Conv-3”表示卷積網絡層,該網絡中的卷積層全部為3×3 的卷積核,“MaxPool”代表池化網絡層。

圖3 VGG16 特征提取網絡參數Fig.3 Parameters of VGG16 feature extraction network

1.3 遷移學習訓練方法

在模型訓練時,樣本數據集太小會使模型出現過擬合問題。 因此,本研究采用遷移學習方法,將模型在大規模數據集上進行預訓練,有效提高了模型的泛化能力,可以更好地適應新的煤巖圖像數據集,避免出現過擬合現象。 同時,使用預訓練模型的便利在于可以采用已經學到的特征和知識加速訓練過程,提高模型性能和運行效率[23]。

本研究遷移學習訓練流程如圖4 所示。 具體步驟為:① 在Pascal VOC 2007 數據集上對VGG16 模型進行預訓練,獲得預訓練參數,再根據預訓練權重對煤巖界面圖像數據集的特征進行微調,以更好地適應煤巖識別任務;② 凍結U-net 網絡模型的骨干網絡部分,使用煤巖界面數據集對模型進行訓練,監控模型性能并根據需要微調模型以適應煤巖圖像的數據分布特征;③ 解凍模型的骨干網絡部分,再次使用煤巖界面數據集進行訓練,選擇預測結果最佳的模型進行保存,完成預訓練之后獲取權值文件,再使用改進的U-net 模型對煤巖界面數據集進行訓練,導入預訓練權重文件完成知識遷移。

圖4 遷移學習訓練流程Fig.4 Training process of transfer learning

1.4 引入注意力機制

注意力機制的加入可以更加準確地定位感興趣的目標區域,減少誤差和漏檢情況,提高煤巖圖像分割精度。 此外,注意力機制的加入可以減少網絡對無關區域的關注,有助于減少計算量、提高計算速度和效率。 考慮到在經典U-net 網絡上采樣過程中存在信息丟失和模糊的問題,通過添加注意力機制模塊有助于提高網絡對特定區域的關注度,提升對圖像邊緣信息等細節特征的提取能力[24]。 本研究針對圖像語義分割模型特點,結合相同數據集和模型架構下不同注意力機制的表現,在經典U-net 模型基礎上進行改進,在3 處上采樣和跳躍連接部分加入Attention Gate注意力機制模塊[25],在編碼器上采樣處加入CBAM注意力機制模塊[26]。

CBAM 注意力機制結構如圖5 所示。 CBAM 包含2 個連續的子模塊,分別是通道注意力模塊和空間注意力模塊,輸入的特征層按順序依次獲得通道注意力特征和空間注意力特征。 輸入特征層首先在通道注意力模塊進行最大池化(Maxpool)和平均池化(Avgpool);然后通過一個共享卷積層(Shared MLP)計算每個通道的權重,再將輸出的特征進行元素相加(Element-wise addition),并通過Sigmoid 激活函數獲得1 個權重向量,即通道注意力特征權重(Mc),將該權重與輸入特征層進行相乘運算獲得加權特征層。將該特征層繼續輸入到空間注意力模塊,首先經過最大池化(Maxpool)和平均池化(Avgpool),然后將獲得的2 層特征層進行向量拼接后進行卷積操作,最后經過Sigmoid 激活后輸出得到1 個權重向量,即空間注意力特征權重(Ms),將其與輸入特征層相乘獲得加權特征層并輸出加權后的特征層。 Attention Gate 注意力機制結構如圖6 所示。 其中,2 個輸入特征層分別為編碼器當前層x和解碼器下一層g,輸入特征層通過1×1 卷積使2 個特征層通道數一致,再進行元素相加操作。 將通過元素相加所獲得的特征向量依次通過Relu 函數、1×1 卷積和Sigmoid 函數后獲得注意力系數,再通過Resample 模塊將特征層尺寸大小進行還原,最后將獲得的注意力系數α對特征層x進行加權并輸出加權后的特征層。

圖5 CBAM 注意力機制結構Fig.5 Structure of CBAM attention mechanism

圖6 Attention Gate 注意力機制結構Fig.6 Structure of Attention Gate attention mechanism

2 試驗與分析

2.1 試驗準備

本研究試驗所使用數據集有2 個,用于預訓練的數據集是網絡公開數據集Pascal VOC 2007,可直接通過網絡下載獲取;用于訓練本研究模型的數據集是自制的煤巖界面圖像數據集,如圖7 所示。 將實地拍攝的煤巖圖片首先進行初步篩選,去除由各種因素導致的內容無法辨識的圖片;然后將圖片進行裁剪使圖片大小統一為512×512;再使用Lableme 對數據集進行標注,將圖片中的像素分別標記為coal(煤)、rock(巖)、background(背景)3 個類別,制作完成的數據集共有625 張圖片。

圖7 煤巖界面圖像部分數據示例Fig.7 Part data examples of coal-rock interface images

本研究試驗平臺具體配置參數見表1。 考慮到試驗平臺性能,在模型訓練中采用具有動量更新和自適應學習率的Adam(Adaptive Moment Estimation)優化器對網絡模型進行優化,初始學習率為0.01,迭代次數為100,批量處理大小為8。

表1 試驗平臺配置參數Table 1 Configuration parameters of experimental platform

本研究采用準確度(Accuracy)、平均交并比(Mean Intersection over Union,MIoU)、類別平均像素準確率(Mean Pixel Accuracy,MPA)以及模型推理時間(Inference Time)等指標進行模型性能檢驗。 其中,平均交并比是計算真實標簽和模型預測結果的交并比,類別平均像素準確率是每個類別在進行預測時像素被正確進行分類的比例。 計算公式分別為

式中,i為真實值;j為預測值;Pii為預測正確個數,Pij表示i預測為j即預測錯誤的像素個數;k為除背景外預測類別的數目。

2.2 骨干網絡性能驗證試驗

為驗證骨干網絡的替換對改進U-net 網絡性能的影響,分別使用深度學習中常用的特征提取網絡ResNet-50、VGG16 作為骨干網絡對U-net 模型進行改進,并與未更換骨干網絡的經典U-net 模型進行煤巖界面分割試驗對比。 試驗中使用相同的煤巖圖像數據集進行訓練,采用精確度和訓練用時作為評價指標,衡量不同骨干網絡模型的預測精度和運行速度。

試驗結果見表2。 由表2 可知:VGG16 網絡作為U-net 模型的骨干網絡進行煤巖界面圖像分割時在精確度及運行速度等方面均優于其余骨干網絡。 在精確度方面,使用VGG16 作為骨干網絡的模型達到了92.08%,高于ResNet-50 骨干網絡,相較于經典U-net模型提升了1.93%。 在訓練用時方面,使用VGG16作為骨干網絡的模型訓練時間為37.31 幀/s,相較于ResNet-50 骨干網絡訓練速度更快,訓練速度相較于經典U-net 模型提升了8.78%。 試驗反映出:VGG16作為骨干網絡可以提升原模型精確度,更好地提取煤巖界面圖像特征,從而更精確地分割圖像;使用VGG16 網絡的模型訓練用時更少,模型訓練效率更高。 可見,VGG16 網絡在保證高精確度的同時,也具有較好的運行速度。 因此,本研究采用VGG16 作為改進U-net 模型的骨干網絡。

表2 骨干網絡性能對比結果Table 2 Comparison results of backbone network performance

2.3 遷移學習方法消融試驗

為驗證遷移學習方法對于本研究改進模型性能的影響,將改進的U-net 模型分別在采用遷移學習方法與不采用遷移學習方法的情況下進行訓練,并對模型訓練過程進行分析。

試驗所得平均交并比(MIoU)曲線如圖8 所示。由圖8 可知:采用遷移學習方法的MIoU值一直高于未采用遷移學習方法的情況,在訓練的前10 個輪次,不論是否采用遷移學習,模型MIoU均在快速增長,訓練輪次為10~20 次時,未使用遷移學習方法的MIoU曲線出現下降波動,在25 次左右開始繼續增長最后達到平穩收斂;采用遷移學習時未使用遷移學習MIoU曲線一直呈現增長趨勢,在訓練輪次達10 次以后開始逐漸達到平穩收斂。 因此,采用遷移學習方法可以使模型更快速地收斂,減少模型訓練用時。 此外,通過MIoU值對比也表明使用遷移學習方法進行訓練時模型分割精度更高。

圖8 遷移學習方法消融試驗對比結果Fig.8 Comparison results of ablation test with transfer learning method

2.4 注意力機制模塊消融試驗

將注意力機制加入U-net 網絡模型中可以對不同部分特征層的信息進行加權,從而減少噪聲和無關信息的干擾并突出目標的相關特征。 為了驗證注意力機制加入對模型性能的影響,使用更換了VGG16作為骨干網絡的改進U-net 模型在小樣本煤巖圖像數據集上進行訓練,對引入注意力機制前后的2 種情況進行訓練并分析。 試驗結果如表3 所示。

表3 注意力機制消融試驗對比結果Table 3 Comparison results of attention mechanism ablation experiments %

由表3 可知:引入注意力機制時模型的各項指標均高于未加入注意力機制的模型,添加注意力機制后的模型準確度提升了5.62%,平均交并比提升了2.09%,類別平均像素準確率提高了5.31%。 試驗結果表明:注意力機制有助于模型更好地關注圖像中的重要區域,從而提高模型的分類準確率和分割性能。 加入注意力機制后,模型準確度、平均交并比(MIoU)和類平均像素(MPA)等指標均得到提升,反映出注意力機制的添加提升了模型對于小樣本煤巖界面數據集的分割效果。

2.5 不同網絡模型對比試驗

為了檢驗本研究改進的U-net 網絡模型在小樣本煤巖圖像數據集中的實際應用效果,將該模型與現有常用的一些網絡模型進行對比分析。 分別將本研究改進的U-net 網絡模型、經典U-net 網絡模型、DeeplabV3+網絡模型、HRNet 網絡模型和PSPNet 網絡模型在自制的煤巖界面數據集上進行訓練,以模型訓練過程中的準確度、平均交并比(MIoU)、類別平均像素準確率(MPA)、檢測速度(幀/s)以及損失函數作為評價指標,對各模型性能進行對比分析。

由于本研究試驗數據集較小,在不進行遷移學習的情況下直接進行訓練會導致網絡性能較差,缺乏對比性。 因此,本研究在網絡模型對比試驗階段,均使用了遷移學習方法優化網絡模型性能。 同時通過設置125 張圖片集(a組)作為小樣本數據集和625 張圖片(b組)作為正常數據集的2 組試驗,分析本研究改進的網絡結構對小樣本數據集的語義分割效果。試驗過程中的平均交并比曲線和損失函數值曲線如圖9 所示,各個網絡模型的性能指標取值見表4。

表4 各網絡模型性能對比Table 4 Performance comparison of various network models

圖9 模型訓練性能曲線Fig.9 Curves of model training performance

通過對比各網絡模型在a組和b組的試驗結果可以看出,雖然各模型的MIoU曲線都呈增長趨勢,并隨著訓練輪次增加逐漸平穩,但在少樣本訓練情況下,所有網絡對煤巖界面圖像的分割性能均有不同幅度下降。 通過經典U-net 網絡在a組和b組樣本的性能對比可知,模型在使用了小樣本數據集進行訓練后,U-net 網絡的分割準確度下降了3.43%,平均交并比下降了4. 46%,類別平均像素準確率下降了1.92%。 由a組小樣本煤巖圖像分割性能檢驗結果可以看出,本研究改進的U-net 網絡模型在相同的小樣本數據集情況下,相較于經典U-net 模型準確度提升了1.84%,平均交并比提升了5.34%,類別平均像素準確率提升了0. 48%。 同時,與HrNet、PspNet、DeeplabV3+相比,本研究改進的U-net 網絡模型在小樣本煤巖界面數據集上有著更為顯著的語義分割性能,模型在檢測速度上略低于PspNet 、DeeplabV3+,但相較于經典U-net 模型有所提升。 試驗結果反映出,本研究改進U-net 模型在小樣本煤巖界面數據集上的綜合性能最優。

進一步采用圖7 案例中的原圖作為測試集進行語義分割預測,獲得的語義分割預測結果如圖10 所示。 由圖10 可知:雖然參與測試的所有網絡模型都可以對煤巖界面進行分割,但是HrNet 、PspNet、DeeplabV3+和經典U-net 模型在煤巖邊緣處的分割效果并不理想,HrNet 和PspNet 在分割煤巖分界面時靈敏度較低,導致分割的邊緣不夠精確,預測分界線與實際界面有著許多不匹配之處,DeeplabV3+和經典Unet 模型相較前兩者雖然分割精確度有所提高,但是在圖像細節方面精確性依然不理想。 由圖10(a)和圖10(b)可知:經典U-net、HrNet、DeeplabV3+和Psp-Net 模型在煤巖邊緣分割時,存在將煤巖間陰影較深的部分識別為背景的情況,導致分界線不夠精確。 由圖10(c)可知:DeeplabV3+在識別時出現較大部分的誤判,將煤層中亮度較高的部分識別為巖石,在本研究改進的U-net 模型中可以看到識別結果較為準確和完整,圖像上部面積較小的煤層區域也能夠識別。由圖10(d)可知:經典U-net、HrNet、PspNet 模型對煤巖界面的識別存在邊緣不匹配真實情況的問題,相較之下,本研究改進模型的識別結果更符合實際情況。由上述試驗可知:本研究改進的U-net 模型對煤巖邊界的識別更準確,在同樣使用小樣本訓練集進行訓練的情況下能夠獲得較理想的識別結果。

圖10 5 種模型煤巖界面圖像分割效果對比Fig.10 Comparison of the segmentation effects of coal-rock interface images of 5 models

3 結 論

(1)針對現有的機器視覺方法進行煤巖界面識別中存在的煤巖圖像數據集不足的問題,提出了一種基于改進U-net 模型的小樣本煤巖界面圖像分割方法。 在U-net 模型基礎上使用VGG16 更換原有骨干網絡,并將Attention Gate 和CBAM 兩類注意力機制模塊添加到U-net 網絡解碼器部分,在訓練過程中采用遷移學習方法,使得模型在小樣本煤巖圖像數據集訓練下取得較好的分割效果。

(2)通過試驗驗證了模型改進的有效性,使用VGG16 作為改進U-net 模型的骨干網絡相較于經典U-net 模型在準確度上提升了1.93%,引入Attention Gate 注意力機制和CBAM注意力機制模塊后,精確度相較經典模型提升了5.62%,反映出改進模型在較少煤巖圖像數據訓練情況下的分割精度優于經典模型。 此外,在采用相同小樣本煤巖界面數據集訓練的情況下,改進模型相對于DeeplabV3+、HRNet、PSPNet 等模型,綜合性能依然占優勢。

(3)本研究從優化小樣本訓練能力角度對U-net模型進行了改進,為煤巖圖像分割技術研究與應用提供了新思路。 后續工作中,需要針對井下低照度環境對模型進行適當優化,同時擴充數據類型,使其具備更精準的判別能力。

猜你喜歡
煤巖注意力界面
層理煤巖浸水前后力學性質研究
讓注意力“飛”回來
國企黨委前置研究的“四個界面”
基于FANUC PICTURE的虛擬軸坐標顯示界面開發方法研究
“揚眼”APP:讓注意力“變現”
人機交互界面發展趨勢研究
A Beautiful Way Of Looking At Things
半煤巖巷金屬支架錨桿聯合支護在白源礦應用
綜掘機在大坡度半煤巖巷中的應用
基于測井響應評價煤巖結構特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合