?

基于LDA和ARIMA模型的煤礦安全隱患數量預測研究

2024-03-13 08:34劉飛翔趙嘉良
2024年3期
關鍵詞:特征詞隱患煤礦

詹 平,劉飛翔,趙嘉良

(1.山西潞安集團 潞寧煤業有限責任公司,山西 忻州 036700;2.華北科技學院 礦山安全學院,北京 東燕郊 065201)

隨著煤礦數字化與智能化進程逐步推進,煤礦安全隱患管理系統已經在全國煤礦大范圍使用,這給煤礦事故隱患排查治理工作帶來了非常大的便利[1-3]。然而,在煤礦建設工作的進一步智能化要求面前,安全隱患管理系統中記錄、統計、過程管控等基本功能已經不能滿足日漸提升的智能化要求,缺少行之有效的深度分析方法,對積累的大量安全生產隱患數據分析深度不足[4]。

目前,已有研究對煤礦隱患挖掘和預測進行多次探索。趙作鵬等[5]建立煤礦隱患數據挖掘模型,分析挖掘算法及隱患多維數據間的聯系;陳運啟[6]利用支持度-置信度-Kulczynski度量模式發現因素間關聯規則,為輔助性決策提供了有利依據;楊中等[7]對有限煤礦事故樣本統計并進行灰色關聯處理,建立相應的灰色預測模型;趙丹等[8]通過支持向量機建立分類預測模型預測爆炸危險等級,協助危險性評估工作的開展;蘭建義等[9]建立SCGM(1,1)_c預測模型,對我國煤礦事故百萬噸死亡率成功進行了預測;王玉麗、李闖等[10-11]改進馬爾科夫預測模型,并將其與時間序列預測模型及灰色預測GM(1,1)進行對比,證明了預測模型在煤礦瓦斯事故數量、頂板事故致死人數預測中的精確程度與實用性。

然而,現有研究大多是對結構化數據進行分析研究,對于非結構化文本數據研究相對缺乏。因此,如何從海量隱患文本數據中獲取有價值信息,進而指導安全管理,是目前亟待解決的問題。本文利用LDA主題模型對煤礦安全隱患文本中的主題類型進行挖掘與分析后,結合ARIMA時間預測模型對煤礦隱患數量趨勢進行預測,可為煤礦安全生產管理人員日常隱患管理及決策提供輔助決策支持,保障煤礦安全生產的順利進行。

1 LDA模型及ARIMA預測模型構建

1.1 LDA模型

LDA(Latent Dirichlet Allocation)模型是基于概率的統計模型。該模型分為文檔層、主題層和詞匯層,如圖1所示。LDA主題模型理念認為,文檔是由許多具有明確意義的特征詞組成的,其應用的意義就在于通過顯化文檔和特征詞,計算其中隱含的主題信息。

圖1 LDA模型拓撲結構示意

以LDA主題模型觀點來看,每篇文檔中存在某些隱含主題,這些主題分別由某些在某方面高度相關的詞匯組成。其特征值表示對應詞匯在該主題下出現的頻率。該頻率與詞匯、主題關聯性成正相關。同時,整篇文檔又由高度差異化的各類主題構成。一個特征詞可以出現在多個主題下,但是由于分布概率差異,每個特征詞大概率會被歸類至與其關聯程度最高的主題,從而實現特征詞分類。

煤礦事故隱患文本含有大量專業詞匯,且記錄人員較為繁雜,記錄規范程度較低,煤礦積累的事故隱患文本數據量較大,因此使用LDA主題模型從煤礦事故隱患臺賬和隱患文本特征詞中探尋煤礦事故隱患的隱含主題,具有一定可行性。

在建立LDA主題模型前,需要提前確定該語料下包含的主題個數,因此需要考慮最佳主題數的選取,從而使聚類結果達到最優。最佳主題數選取一直是聚類問題的核心,也是影響和評價聚類結果關鍵性因素之一[12]。

本文采用困惑度來確定最佳主題個數。計算中,LDA主題模型的最終質量和困惑度大小成負相關。困惑度的計算公式為:

(1)

式中:分母為文檔集M的總長度。分子中的p(wd,i)為文檔集M中第d篇文檔出現第i個單詞的概率,計算公式為p(wd,i)=p(z|d)×p(w|z),其中p(z|d)為任意主題在某文檔中出現的概率,p(w|z)為任意特征詞在某主題下出現的概率。

1.2 ARIMA預測模型

ARIMA(自回歸差分移動平均模型)是將一個非平穩時間序列經過差分操作從而消除其局部趨勢后,使其符合ARMA模型要求,從而可以進行時序預測的方法。該模型有3個基本參數:p,d,q.分別為自回歸項階數、差分次數、移動平均的項數[13-15]。

煤礦隱患數量變化趨勢既受外在人機環管等因素的影響,又由于監管原因受到自身歷史值影響,因此采用ARIMA模型對煤礦隱患數量趨勢進行預測是可行的。

建立基于ARIMA的隱患預測模型步驟如下:

第1步,獲取被觀測系統時間序列數據。根據時間順序將目標序列依次排列,計算其ACF(自相關系數)與PACF(偏自相關函數)并進行繪圖,根據其圖像對數據的平穩性進行檢驗。

第2步,對該非平穩時序數據進行差分將序列平穩化處理。利用t與t-1時刻差值進行繪圖,再根據繪制圖形繼續進行多次差分處理,直至圖像趨于平穩,完成平穩化處理。

第3步,根據識別規則(見表1)建立相應模型并求解p,q.其中ACF反應了同一序列在不同時刻取值的相關性,PACF反應了某時刻序列與該序列歷史值的相關關系。截尾是指該函數在某階后突然衰減,從而導致95%點落在置信區間內的性質。

表1 ARIMA模型識別原則

第4步,根據AIC(赤池信息準則)或BIC(貝葉斯信息準則)對模型參數定階。

第5步,對歷史數據訓練集進行假設檢驗,診斷其可行性。根據第4步得到的參數建立ARIMA模型并得出結果,診斷模型精度。若模型精度較低,則重新選擇模型參數。

第6步,若模型通過上述各項檢驗,則使用歷史數據測試集對其進行檢驗,對比模型預測結果和實際數據。ARIMA模型構建流程如圖2所示。

圖2 模型構建流程

2 實例分析

2.1 數據集介紹

通過收集整理某煤礦安全生產信息系統中隱患排查記錄信息,得到其在2011年6月—2019年9月的歷史記錄。經過分析與篩選,保留了其中有數據挖掘價值的信息,其中包括:檢查時間、班次、隱患內容、整改措施等,相關的字段信息如表2所示。

表2 數據集相關字段信息

2.2 數據預處理

以一條隱患文本數據“8513回風巷部分風管接頭處漏風”為例,本文選用中文領域內的Jieba分詞器對目標事故隱患文本進行分詞。其初步分詞結果為:“8513/回風/順槽/部分/風/管/接頭/處/漏風”。上述的分詞結果中存在對文本分析無作用的單字,如“風/管接頭”、“回風/順槽”等專有名詞被錯誤的分割,所以需要設置停用詞庫處理無意義詞匯,同時設置自定義詞庫以正確分割專有名詞。

另外,煤礦事故隱患文本中的專業詞匯較多,在分詞之前,首先對自定義詞典進行配置,從而提高分詞準確率。在本文中,自定義詞典來源于搜狗詞庫中的《采礦工程》、《礦山工程》、《煤礦工作》、《煤炭分析庫》和自定義詞匯五部分。本文構建一份包括2 139個煤礦專業名詞的煤礦事故隱患自定義詞典。在使用煤礦事故隱患定義詞典,同時通過手動自定義建立停用詞庫之后,得到的分詞結果為:“8513/回風順槽/風管/接頭/漏風”。

將分詞完成的隱患文本構建為文本向量,并作為詞典保存,為隱患文本聚類奠定相應的基礎。

2.3 煤礦安全隱患文本聚類研究

2.3.1 確定主題數量

在文本向量轉化完畢之后,就可以開始通過計算機程序構建隱患文本主題模型。首先通過計算困惑度的方式估計最佳主題個數。令主題數K依次取10,20,30……,將處理完畢的語料庫帶入構建的python程序,得到當LDA主題模型取不同主題個數時對應的困惑度變化圖像,如圖3所示。最小困惑度對應的主題個數就是計算得到最優主題數的估計值,即圖中拐點K=24.

圖3 主題數量困惑度曲線

2.3.2 LDA主題模型應用

確定最佳主題后,代入參數,選擇迭代次數1 000次,對煤礦事故隱患文本主題進行挖掘,經LDA主題模型計算得到24類主題,每個主題包括概率最高的前15個詞。根據《安全生產法》規定,進一步去除噪聲主題,篩選出優質主題,最終確定14類隱患主題,主題與其關鍵詞如表3所示。

表3 隱患主題及其關鍵詞

將挖掘完畢的主題與對應關鍵詞匹配至原隱患文本,通過Python程序統計得出各類隱患在歷史發生情況中的時間分布并保存,用于下文的預測。根據以上主題挖掘模型可得出,在煤礦安全生產過程中,共有以上14類事故隱患較容易發生。因此,根據每個主題對應的特征詞,可以總結出各類事故隱患對應的排查要點,具體內容如表4所示。

表4 各類事故隱患排查要點

2.4 煤礦安全隱患數量預測研究

2.4.1 數據平穩性處理與檢驗

在確定了煤礦的主題類別后,從中選擇生產設備類隱患的關鍵詞統計數據為例,對該煤礦進行生產設備類隱患數量的趨勢預測。本文通過整理該礦生產設備類月隱患數量,共計得到101個月的時序數據。部分原始數據如表5所示。

表5 生產設備類隱患數量

在對隱患數據進行時序預測之前,需要對檢驗數據平穩性。對原始隱患統計數據進行單位根檢驗(ADF檢驗),其檢驗值如表6所示。從表中可以看出,原數據進行一階差分后,其中P值遠小于0.05,此時數據平穩性已經滿足模型要求,可以在下一步的建模中使用一階差分后的數據。

表6 序列變換操作及各項參數

2.4.2 確定模型參數

將上述一階差分變換后的數據作自相關與偏自相關系數圖像,進而確定ARIMA預測模型的參數范圍,如圖4所示。

圖4 ACF與PACF圖像

根據圖4可知,ACF和PACF圖像都成振蕩狀態,呈現出較好的拖尾性,因此,一階差分變換后的序列數據符合ARIMA模型。同時由于模型階數通常不會超過預測數據的1/10[16],因此確定p、q的取值范圍為[0,10]。在p、q確定的范圍內進行循環遍歷計算,來計算不同模型的赤池信息值,如圖5所示。

圖5 赤池信息值熱力圖

根據圖5可以看出,赤池信息值最小值為935.55,從而選擇模型參數最優解為p=9,q=4,d=1,但由于7次自回歸模型相對較復雜,考慮到模型簡化問題,因此選取赤池信息值為942.30時,即p=0,q=6,d=1作為模型參數。

2.4.3 數據擬合及檢驗

將101個月的煤礦生產設備隱患類時序數據分為訓練集(90個月)和測試集(21個月)兩部分。利用ARIMA預測模型計算得到相應的擬合效果圖,如圖6所示。

圖6 擬合效果圖

同時,利用Python中的診斷函數對擬合出的模型進行模型診斷。診斷圖如圖7所示。在圖7中,由標準化殘差圖7(a)可以看出,該模型預測值與實際值的殘差不存在周期性規律,基本成白噪聲形狀。該結論可以通過殘差分布直方圖7(b)特性佐證,且殘差分布直方圖的的殘差紅色KDE線與正態分布曲線基本重合。同樣,理論-實際分布圖7(c)表示,殘差分布遵循標準正態分布。自相關系數圖像圖7(d)表明,該時間序列殘差與其本身的滯后值不具有明顯相關性。綜上所述,本文建立的ARIMA預測模型滿足殘差檢驗條件,可以對煤礦生產設備類的隱患進行預測。

圖7 模型精度檢驗

2.4.4 隱患預測

應用本文所建立的ARIMA預測模型,對該煤礦2019年10月和11月煤礦生產設備類隱患數量進行預測,計算結果分別為66和90起。在煤礦下一步的隱患排查治理過程中,需要煤礦安全生產管理人員加強隱患治理相關的培訓,同時加強該煤礦生產設備類隱患的排查與治理,切實提高煤礦的隱患排查治理能力,保障煤礦的安全生產。

3 結 語

本文在收集某煤礦歷史隱患數據基礎上,建立了LDA主題模型與ARIMA預測模型,并在該煤礦進行了相關應用研究,得出如下結論:

1) 利用已構建的LDA主題模型對煤礦非結構化安全隱患信息進行了主題信息挖掘,揭示了隱患內容與隱患類型之間的關系。本文確定了該煤礦14類較容易發生事故的隱患,并根據每個主題對應特征詞,總結出14類事故隱患對應的排查要點,為煤礦現場管理人員提供參考并提升煤礦隱患排查治理能力。

2) 運用ARIMA算法模型對該煤礦近2個月的生產設備類隱患進行了趨勢預測,從圖中可以看出,近兩個月的隱患數量有增加的趨勢,需要煤礦的相關管理人員加強隱患方面的培訓力度,加大煤礦安全隱患的管理,預防和控制生產設備隱患的發生,保障煤礦安全生產的順利進行。

猜你喜歡
特征詞隱患煤礦
隱患隨手拍
隱患隨手拍
互聯網安全隱患知多少?
隱患隨手拍
基于改進TFIDF算法的郵件分類技術
產品評論文本中特征詞提取及其關聯模型構建與應用
大型煤礦自動化控制系統的設計與應用
面向文本分類的特征詞選取方法研究與改進
上半年確定關閉煤礦名單513處
去年95.6%煤礦實現“零死亡”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合