?

基于ERNIE-BiGRU-CRF模型的煤礦安全隱患命名實體智能識別研究

2024-03-06 07:52劉飛翔李澤荃趙嘉良
煤炭工程 2024年2期
關鍵詞:煤礦安全命名實體

劉飛翔,李澤荃,趙嘉良,李 靖

(1.華北科技學院 礦山安全學院,北京 065201;2.華北科技學院 經濟管理學院,北京 065201;3.中國礦業大學(北京)能源與礦業學院,北京 100083)

作為煤炭生產和消費大國,煤礦安全開采一直受到國家重點關注。由于全國大部分礦區地質條件復雜多變,在煤炭開采過程中經常伴隨著各類災害風險,如果企業安全管理不到位、政府監管不及時可能會出現嚴重安全生產事故,如今年2月22日位于內蒙古阿拉善左旗的新井煤業發生了大面積邊坡坍塌事故,導致50多人死亡。該煤礦為露天礦,一般情況下發生重特大事故的可能性相對較小,卻造成了嚴重的人員傷亡。據統計,在2018—2022年的5年間,全國因煤礦事故造成的死亡人數達1300人,且重大特大事故時有發生,可以看出我國的煤礦安全生產形勢依然嚴峻,煤礦企業的安全管理工作仍是重中之重。

對于煤礦企業的安全監管,在制度層面國家礦山安全監察局等相關部門出臺了一系列規定,如建立煤礦安全生產標準化管理體系、執行嚴格的安全生產管理制度等等,但由于執行不到位等原因,這些制度的實施并未從根本上遏制事故的發生。近年來,隨著“智慧礦山”的提出和推進,物聯網、云計算、大數據、人工智能等技術逐漸被應用到煤礦安全管理工作中,其中以文本挖掘為代表的自然語言處理技術為提升煤礦安全管理水平提供了新思路。對煤礦安全專業知識和日常隱患排查記錄進行文本挖掘,抽取其中關鍵信息,可以幫助煤礦安全管理人員系統掌握隱患分布規律、快速獲取風險信息并精準定位事故的潛在因素,進而采取應對措施以避免事故的發生。而在信息抽取過程中,命名實體識別是重要環節,其識別效果決定著信息抽取的準確性。因此,進行煤礦安全隱患的命名實體識別研究,不僅可以幫助安全管理人員獲取隱患重要信息,也可以實現對煤礦事故、人員、設備、操作及環境的智能化管理。

1 相關研究

命名實體識別(NER)是信息抽取的基礎任務,指在從給定的一段文本中識別出具有特定類型的專有名詞,比如:人名、地名、組織名稱等。自Rau[1]于1991年首次提出命名實體識別任務以來,大概經歷了三個階段。

第一階段NER任務主要是基于詞典和規則的方法。YANG等人[2]通過手工構造詞典,在JNLPB公共數據集上取得68.48%的F1值;COHEN[3]通過結合5個數據庫來豐富生物醫學領域詞典內容,大大提升了實體識別性能;Narayana-Swamy等人[4]基于手工設計規則模板提高了蛋白質名稱檢測的精度;閆丹輝等人[5]根據越南語語言特點,制定出越南語命名實體識別規則,達到了90%以上的識別準確率。然而,此類方法對人工專業知識水平要求較高且模型的泛化性較差,目前應用范圍相對較窄。

第二階段的NER任務是基于統計機器學習的方法。主流的機器學習算法有隱馬爾可夫模型(HMM)、支持向量機(SVM)和條件隨機場(CRF)等模型。樂娟等人[6]采用HMM模型標注文本,在識別京劇機構名稱能達到99%的準確率;薛征山等人[7]結合詞性特征和校正規則,采用HMM算法準確的識別出中文旅游景點。LEE等人[8]提出一種基于支持向量機的兩階段命名實體識別器,在GENIA語料庫上進行實體邊界識別,F1值達到了74.8%。宓林暉等人[9]基于CRF模型對歷年臨床醫囑數據進行實體識別研究工作,提高了臨床醫療的工作效率。

第三階段的NER任務主要依賴深度學習技術?;谏疃葘W習的方法通常將命名實體識別視為序列標注任務來處理,目前主流的深度學習神經網絡有循環神經網絡(RNN)、卷積神經網絡(CNN)、Transformer模型及它們的變種。為了學習上下文距離依賴關系,HAMMERTON[10]首次將LSTM(RNN神經網絡變種)應用到命名實體識別任務中??紤]到單向獲取序列信息有限,LAMPLE等人[11]提出了雙向長短時記憶網絡結構,即BiLSTM,通過向前向后兩個方向對句子進行分析,后接入CRF來約束實體標簽,命名實體識別的性能得到了顯著提升。為了能夠充分利用計算機GPU的并行計算能力,并且增加卷積核的感受野,STRUBELL等人[12]提出了迭代擴張卷積神經網絡(IDCNN)結構,在保持與BiLSTM-CRF模型相當準確性的同時,實現了8倍更快的測試速度。2017年,谷歌提出了Transformer模型[13],該模型結構既能解決RNN并行能力弱的問題,又能解決CNN無法捕獲長距離依賴的問題。隨后基于Transformer結構的BERT[14]、ERNIE及ALBERT等預訓練語言模型成為命名實體識別主流方法。如張智源等人[15]提出一種基于BERT和多窗口門控CNN的電機領域命名實體識別模型,利用BERT模型動態微調電機領域文本字向量,所提模型F1值高達90.16%。王權與等人[16]在詞向量的表示學習層采用BERT預訓練語言模型實現文本特征的遷移學習,利用BiGRU-CRF結構提取上下文特征及標簽解碼,在小規模巖土工程語料上進行實體識別,取得了精確率為90.94%,召回率92.88%,F1值91.89%的優異效果。而在安全隱患領域,艾新波等人[17]提出一種適用于安全隱患描述的ERNIE-CRF序列標注模型,發現ERNIE-CRF模型比ERNIE模型在F1指標上有0.3%的優化。潘理虎等人[18]采用ALBERT-IDCNN-CRF模型對煤礦事故案例進行了實體識別研究,該模型在有效提升識別性能的同時減少了訓練時間。王向前等人[19]通過建構煤礦事故領域詞典,將ALBERT語言模型、BiLSTM和CRF算法結合,對比BiLSTM-CRF、BERT-BiLSTM-CRF等三組基線模型,模型性能評價指標均有所提高。

目前中文命名實體識別技術已相對成熟,在一些通用領域,如金融、醫學、新聞等領域已經達到很好的識別效果,但由于煤礦安全隱患文本在語言、術語和結構等方面存在較強的領域特性,并且缺乏訓練模型所需的語料庫,所以基于深度學習技術的命名實體識別研究工作還相對較少。為了豐富煤礦安全領域的命名實體識別方法,論文基于ERNIE-BiGRU-CRF模型對煤礦安全隱患文本開展了命名實體識別研究。

2 煤礦安全隱患文本命名實體標注方法

2.1 煤礦安全隱患實體類別定義

由于安全隱患文本內容多是根據煤礦領域相關標準規范記錄,因此基于相關標準規范對煤礦安全隱患實體類別進行定義具有通用性。依據《煤礦安全規程》(2022版)、《煤礦重大事故隱患判定標準》(2021版)以及各類隱患防治細則,對隱患內容描述中的有關術語進行實體類別定義,具體定義說明見表1。

表1 煤礦安全隱患實體定義說明Table 1 Definition of hidden danger entities in coal mine

2.2 煤礦安全隱患實體標注方法

命名實體識別有BIO、BIOSE和BMESO等多種標注策略。本實驗采取最常用的BIO標注方式,其中B表示實體的起始位置,I表示實體的中間或結束位置,O表示為不關注的字。根據上述實體類別定義,將實體的第一個字符標注為B-(實體類別),實體的其余字符表示為I-(實體類別),非實體字符均標注為O。采用YEDDA[20]工具,由煤礦安全領域專家進行人工標注,標注樣式如圖1所示。最終形成的15個實體標簽說明見表2。

圖1 標注樣式Fig.1 Annotation style

表2 實體標簽說明Table 2 Entity labels description

3 煤礦安全隱患命名實體識別模型

3.1 模型結構

煤礦安全隱患命名實體識別模型如圖2所示,其結構共包括3個模塊,分別為ERNIE詞向量表示層、BiGRU語義特征提取層和CRF標簽解碼層。具體計算過程如下:文本輸入模型后,首先利用ERNIE預訓練語言模型對文本進行字符編碼,得到具有字向量和位置向量的詞向量表示;然后利用BiGRU結構提取文本向量序列的上下文語義信息;最后將經過全連接層的句子序列輸入到CRF層進行全局優化標簽解碼,輸出煤礦安全隱患文本描述的實體類別。

圖2 ERNIE-BiGRU-CRF模型結構Fig.2 Structure of ERNIE-BiGRU-CRF model

3.2 ERNIE模型

ERNIE[21]是百度于2019年提出的語義表示模型,它通過詞語級別和實體級的掩碼策略將訓練數據中的詞法結構、語法結構和語義信息進行統一建模,增強了通用語義的表示能力。ERNIE模型具有雙向多層Transformer編碼器結構,而Transformer編碼器的核心是多頭注意力機制,單個注意力機制目標函數為:

式中,Q,K,V均為輸入字向量矩陣,dk為向量維度。

另外,編碼器采用了“多頭”機制,將多個注意力值進行拼接和線性映射,得到該層的拼接輸出結果y。

y=concat(H1,H2,…,Hn)W0

(3)

3.3 BiGRU層

上下文特征提取層采用的是BiGRU結構。BiGRU為雙向的GRU,其是在LSTM基礎上簡化出來的一類循環神經網絡。GRU內部結構與LSTM相似,都是為了解決文本序列長期記憶問題而設計,但GRU模型參數更少且可以有效解決長序列中反向傳播中梯度消失或爆炸問題,具有結構簡單、訓練效率高的優點。GRU細胞單元[22]主要由更新門zt和重置門rt兩部分組成,t時刻輸入向量xt,最終輸出隱藏狀態為ht,計算過程為:

zt=σ(Wz[ht-1,xt]+bz)

(4)

rt=σ(Wr[ht-1,xt]+br)

(5)

3.4 CRF層

BiGRU層能根據文本的詞句特征進行標簽解碼,但無法處理標簽之間的依賴性問題,即容易出現不合理的標簽序列。通過加入CRF層,可以將給定的隨機變量輸入求解并輸出隨機變量的條件概率分布,通過考慮標簽之間的相鄰關系,獲得全局最優標簽序列,以改善預測標簽出現的不合理情況。CRF是一種判別式條件概率分布模型。對于輸入序列X={x1,x2,…,xn},經過上述BiGRU層標注的句子序列Y={y1,y2,…,yn},其條件概率表示為:

式中,Pxi,yi為單詞xi映射到標簽yi的概率,構成狀態矩陣P;Ayi,yi+1為標簽yi到標簽yi+1的轉移概率,構成轉移矩陣A。預測標簽序列Y進行歸一化后的概率公式為:

4 實驗過程及分析

4.1 數據預處理

利用在煤礦隱患排查信息系統上收集到的1600條煤礦隱患排查記錄,通過對文本進行語法檢查、去重去噪處理以及格式轉換,構造出1500條煤礦安全隱患命名實體標準數據集??紤]到模型是小樣本學習,將標準數據集按照8∶2的比例劃分為訓練集和測試集。經統計,各實體數量分布見表3。

表3 各實體數量統計Table 3 The statistic of every entity

4.2 實驗環境與超參數設置

實驗環境為PaddlePaddle深度學習框架,ERNIE的權重模型為ernie-3.0-base-zh版本,根據測試,網絡模型的最佳超參數設置如下:最大句子長度為128,GRU隱藏層維度為256,批大小為32,學習率為2,迭代次數為50,優化器為AdamW。另外,論文采用精確率(Precision)、召回率(Recall)和F1值作為模型性能評價指標。另外,為評價ERNIE-BiGRU-CRF模型的準確性,將其與BERT、BERT-CRF、BiLSTM-CRF、BiGRU-CRF、BERT-BiGRU-CRF模型進行對比驗證。

4.3 實驗結果分析

4.3.1 模型收斂對比

在模型訓練過程中,損失函數曲線可以真實反映預測值和真實值的差距,即模型能否充分學習到文本中的序列標注知識。6種模型在訓練集上損失值隨迭代次數的變化情況如圖3所示。由圖3可知,BERT模型收斂的速度最快,BERT-CRF模型次之,說明CRF模塊的加入會降低序列標注模型損失收斂的速度。在BERT-CRF模型的基礎上加入BiGRU模塊以及在BiGRU-CRF模型上嵌入ERNIE字向量模型表示層,學習速度進一步變慢,說明序列標注模型的損失收斂速度會隨模型結構的復雜度而逐漸變慢。另外,可以看出BiLSTM-CRF和BiGRU-CRF模型相比于其他模型在訓練開始時損失值較大,說明預訓練語言模型更能準確的學習到序列標注知識。在第3次迭代時,BiGRU-CRF模型的收斂速度明顯快于BiLSTM-CRF模型,驗證了GRU神經單元通過加入重置門機制顯示出高訓練效率優點。

圖3 不同模型損失函數變化曲線Fig.3 The loss of every model

4.3.2 模型性能對比

在訓練集上學習到模型的最佳權重后,在測試集上評估各模型的性能。為保證實驗的嚴謹性,進行三次隨機實驗并取各評價指標平均值,具體結果見表4。以BiLSTM-CRF為基線模型,BiGRU-CRF模型的F1值提高了1.55%,說明BiGRU-CRF模型在提高模型訓練速度的同時,也提高了模型的實體識別準確率。相比于BiLSTM-CRF模型,BERT、BERT-CRF、BERT-BiGRU-CRF和ERNIE-BiGRU-CRF4種模型的F1值分別提升了8.42%,8.67%,9.12%,9.83%,說明基于BERT和ERNIE的預訓練語言模型能大幅提升實體抽取的準確性。另外,ERNIE-BiGRU-CRF模型較于BERT-BiGRU-CRF模型精確率和F1值分別提高了0.38%和0.71%,說明基于知識增強的ERNIE模型在表征煤礦安全隱患文本詞向量時要優于BERT模型。

表4 模型性能實驗結果對比Table 4 The comparison of different models performance

測試集部分實體識別結果見表5。序號1、3、4預測結果與真實標注結果完全相同;序號2在實際標注時,“溫度”是“Attribute”實體類別,“傳感器”是“Thing”實體類別,而模型將“溫度傳感器”識別為“Thing”,差別也相對較小。同樣可以看出,ERNIE-BiGRU-CRF模型在序列標注任務上有著可觀的效果。

表5 預測結果Table 5 The prediction results

4.3.3 消融實驗

為了研究各模塊對ERNIE-BiGRU-CRF模型性能的影響程度,在ERNIE模型的基礎上分別加入CRF層和BiGRU層,并在煤礦安全隱患數據集上進行對比實驗,實驗結果見表6。

表6 消融對比實驗結果Table 6 The comparison of ablation experiment

ERNIE-CRF模型比ERNIR模型在F1指標上有0.13%的提升,同樣BERT-CRF模型比BERT模型在F1指標上也有0.25%的提升,驗證了CRF模塊在實體抽取時能夠加強標簽間的依賴關系,可有效獲得全局最優序列。另外,在ERNIE-CRF模型上引入BiGRU模塊,ERNIE-BiGRU-CRF模型的F1值提高了1.09%,表明BiGRU結構可以更好的捕獲上下文語義依賴關系,對實體識別產生了積極影響。

5 結 論

1)根據煤礦行業相關標準規范,并結合領域知識,將收集到的煤礦安全隱患記錄進行錯誤檢查以及去重去噪處理,形成1500條煤礦安全隱患文本集。另外,根據自定義實體類別,采用YEDDA標注工具和BIO標注規范對煤礦安全隱患文本進行了實體標注。

2)針對煤礦安全領域非結構化文本上下文語義復雜、實體抽取困難等問題,基于ERNIE-BiGRU-CRF算法模型在自建的煤礦安全隱患數據集上開展了命名實體識別研究。計算結果表明,比BiLSTM-CRF基線模型,精確率、召回率和F1值分別提高了6.85%、13.74%和9.83%,獲得了較好的實體識別效果。

3)雖然ERNIE-BiGRU-CRF算法實體識別效果最優,但其識別性能還有較大的提升空間,可以考慮采用主動學習、增加煤礦安全隱患標注語料或構建領域詞典等策略來提高模型的識別效果。另外,ERNIE-BiGRU-CRF模型訓練收斂速度較慢,后續研究可以考慮對模型結構進行改進,以提高訓練速度。

猜你喜歡
煤礦安全命名實體
命名——助力有機化學的學習
前海自貿區:金融服務實體
強化憂患意識,推動全國煤礦安全生產形勢持續穩定向好
抓煤礦安全基礎建設四大支柱
有一種男人以“暖”命名
為一條河命名——在白河源
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
關于煤礦安全事故責任追究問題的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合