?

基于3種機器學習模型的巖爆類型預測

2023-12-28 12:48詹術霖黃明清陳霖蔡思杰
關鍵詞:巖爆預處理機器

詹術霖, 黃明清, 陳霖, 蔡思杰

(1. 福州大學紫金地質與礦業學院, 福建 福州 350108; 2. 紫金礦業集團股份有限公司, 福建 廈門 361016)

0 引言

巖爆, 是一種巖體中聚積的彈性變形勢能在一定條件下突然猛烈釋放, 導致巖石爆裂并彈射出來的現象, 不僅影響工程進度, 更是給地下工程作業人員帶來巨大安全隱患, 造成不必要的損失[1-2]. 隨著礦山開采和地下工程規模的不斷擴大, 巖爆問題日益突出, 因此, 探明巖爆類型預測方法顯得尤為重要.

巖爆類型預測是防治和控制巖爆災害提前發生最有效的方式之一, 主要分為單因素預測方法和多因素綜合預測方法. 單因素預測方法[3-5]大多基于特定的工程背景, 因此單因素預測方法的準確度通常較低, 泛化能力較弱[6]. 多因素綜合預測方法主要有數學方法與智能算法兩類. 數學方法[7-9]通常需要人為確定指標權重, 受人為主觀影響明顯, 無法客觀預測巖爆類型[10], 而智能算法中的機器學習算法具有模型泛化能力強和適用于小樣本等優點, 引起國內外學者的興趣.

李明亮等[2]采用6種機器學習算法結合交叉驗證建立巖爆預測模型, 但未將訓練集與測試集分開進行標準化處理. 湯志立等[6]對原始數據集進行預處理后建立9個巖爆預測模型, 預測結果好于傳統理論判據預測結果. 吳順川等[11]基于巖爆案例數據建立PCA-PNN巖爆類型預測模型, 模型收斂速度快, 預測結果合理. 田睿等[12]以獨立4因素為訓練樣本構建DA-DNN模型, 模型避開指標權重的確定問題, 實現更加客觀的預測巖爆類型. Zhou等[13]采用10種有監督學習算法進行巖爆類型預測, 并采用準確率與Kappa等指標對比不同算法的預測性能. 已有研究中, 在對訓練集與測試集預處理時往往存在訓練集信息泄露, 模型的可靠性與泛化能力不足.

為了提高模型預測的可靠性與準確率, 本研究通過文獻檢索建立397組巖爆工程案例樣本, 并選用最近鄰(KNN)、 支持向量機(SVM)、 決策樹(DT)等3種在巖爆類型分類性能上表現較好的機器學習算法作為預測模型進行訓練, 通過規范化的數據預處理方式避免訓練集信息泄露, 提高預測模型的可靠性. 首先, 分析主成分分析法(principal component analysis, PCA)對3種機器學習模型的適用性, 并通過可視化降維后的數據分布解釋主成分分析失效原因; 其次, 為降低原始數據集的不平衡性, 采用SMOTE過采樣進行預處理, 并與原始數據集預測效果進行對比; 最后, 分析3種機器學習模型低估或高估巖爆類型的情況, 并對3種機器學習模型的分類性能進行評估, 選出最適合巖爆類型預測的機器學習模型.

1 數據與方法

1.1 指標分析與數據來源

1) 指標分析. 巖爆評價指標的選取是巖爆類型預測的關鍵[12], 以往研究通常選取巖石的最大切向應力σθ、 單軸抗壓強度σc、 單軸抗拉強度σt與彈性能量指數Wet作為巖爆評價指標. 湯志立等[6]還考慮了深度, 但深度與單軸抗壓強度等指標具有一定的相關性[14-15], 故深度指標的引入無法為數據集提供更多信息. 同時, 為了能夠從不同角度反映巖爆特征信息, 在σθ、σc與σt等指標的基礎上構建組合式指標, 例如最大切向應力與單軸抗壓強度之比Scf(σθ/σc)、 脆性系數B1(σc/σt)、 應力系數B2[(σc-σt)/(σc+σt)]. 因此, 本研究共選取上述7個指標作為巖爆類型預測指標. 巖爆預測結果通常根據巖爆發生的劇烈程度及破壞特征, 將巖爆劃分為4類: 無巖爆(none, N)、 弱巖爆(light, L)、 中等巖爆(moderate, M)與強巖爆(strong, S).

2) 數據來源. 為了衡量各種機器學習算法的性能與適用性, 本研究使用的397組巖爆案例均來自于已發表文章, 其中331組來自Zhou等[16]、 46組來自Dong等[17]、 20組來自周科平等[10]. 將巖爆數據集的各類別分別按8∶2的比例隨機分為訓練集(317組)與測試集(80組)兩個子集.

1.2 數據描述與數據預處理

1) 數據描述. 對于巖爆評價指標, 397組巖爆案例的7個評價指標統計參數見表1. 從該表可以看出, 隨著指標σθ、σc、σt與Wet均值的增加, 巖爆類型總體逐漸從N變化到S, 但4個指標標準差較大, 且Scf、B1與B2這3個指標與巖爆類型并無明顯規律, 增加了巖爆類型預測的難度, 無法直接根據單一指標判定巖爆類型.

從巖爆預測指標相關性矩陣(表2)可以看出, 部分預測指標間具有較強的相關性, 這是由于傳統巖爆判據基于圍巖應力參數進行預測, 而Scf、B1與B2是基于圍巖應力參數進行組合構建. 因此, 有必要嘗試對7個巖爆預測指標進行PCA預處理, 消除指標間的相關性, 并將預測結果與原始數據集的預測結果進行對比.

從巖爆樣本分布(圖1)可以看出, 巖爆類型為中等巖爆的數量最多, 為140例; 類型為強巖爆與無巖爆的數量最少, 分別為69例與73例, 樣本存在一定的不均衡性. 而機器學習模型通常以最大化總體準確率為目標函數, 不平衡問題會導致算法過多關注多數類, 降低模型對少數類的分類性能. 因此, 本研究采用SMOTE過采樣對訓練集進行預處理, 消除樣本不均衡性.

圖1 巖爆樣本分布Fig.1 Distribution of rockburst samples

2) 數據標準化. 為消除各指標量綱不一致對模型預測的影響, KNN與SVM模型需要在輸入巖爆預測指標前對數據進行標準化處理, 即首先對訓練集進行標準化, 再利用訓練集的均值與標準差, 對測試集進行標準化. 而對于DT模型, 特征的劃分與信息熵的變化有關, 與指標特征大小無關, 故該模型無需對數據進行標準化.

3) 主成分分析PCA. 從表2可以看出, 部分指標之間相關性較強, 如最大切向應力與Scf相關系數為0.77、B2與B1相關系數為0.75, 巖爆預測指標之間存在較為明顯的相關性. 因此, 在模型訓練前可以采用PCA對訓練集進行降維處理.

4) 過采樣SMOTE. 通過隨機采樣訓練集中少數類生成的合成樣本而非實例的副本, 從而緩解過擬合問題, 并且不會損失有價值的信息. 故本研究選用SMOTE過采樣技術對不平衡數據集進行預處理.

1.3 機器學習算法

機器學習算法類型較多, 其中, 偏最小二乘判別分析、 樸素貝葉斯與AdaBoost等有監督機器學習算法預測準確率低于50%; 因此, 本研究只采用準確率較高的KNN、 SVM與DT模型實現對巖爆類型的預測.

1.4 模型評價方法與指標

1) 模型參數優化. 為了提升模型的泛化能力, 防止模型過擬合, 在訓練集上采用5折交叉驗證的方法確定模型參數. 同時, 模型訓練過程中采用網格搜索進行模型參數優化, 以獲得5折交叉驗證下算法的最優參數.

2) 性能評價指標. 為了評估本研究所建立的3種分類模型的泛化性能, 借助準確率、 精確率、 召回率與F1值等指標衡量模型泛化能力. 對于多分類問題, 還涉及宏平均與微平均指標.

2 實驗結果與討論

2.1 PCA及SMOTE適用性分析

1) PCA對3種機器學習模型的預測準確度對比. 采用訓練集的317組樣本進行主成分分析, 各主成分方差貢獻率及累計貢獻率見表3. 由于前3個主成分的累計貢獻率為85.39%, 故將前3個主成分作為模型的輸入. 表4為對應主成分系數矩陣.

表3 主成分分析處理結果Tab.3 Results of principal component analysis

表4 主成分系數矩陣Tab.4 Principal component coefficient matrix

根據主成分系數矩陣(表4), 可以得出主成分I1、I2、I3與7個巖爆預測指標之間的關系為

I1=0.42σθ+0.11σc+0.49σt+0.26Scf-0.44B1-0.45B2+0.31Wet

(1)

I2=0.38σθ-0.52σc-0.38σt+0.65Scf+0.14B1+0.05B2+0.01Wet

(2)

I3=-0.34σθ-0.52σc-0.02σt-0.11Scf-0.40B1-0.45B2-0.48Wet

(3)

利用式(1)~(3)對80組測試集數據進行線性轉換后作為模型的輸入進行巖爆類型預測, 有無采用PCA預處理的模型預測準確率如表5所示. 從表5可以看出, PCA預處理略微提高SVM模型的預測準確率, 降低了KNN與決策樹模型在測試集上的預測準確率. 因此, 主成分分析對該樣本集提高模型預測準確率并無顯著效果.

表5 預處理對模型預測準確率對比Tab.5 Comparison of data preprocessing on model prediction accuracy (%)

原始數據集存在7個巖爆預測指標, 采用PCA預處理可以在保留原始信息的前提下將7維數據通過線性轉換投影到低維空間, 降維后的數據集如圖2所示.

圖2 降維后樣本分布圖Fig.2 Sample distribution after dimension reduction

從圖2可以看出, 無論是二維還是三維空間, 數據集存在較大擾動, 不同巖爆類型的樣本之間不具有較為明顯的分類邊界, 因此PCA無法有效提高巖爆類型預測準確率.

2) 過采樣SMOTE對3種機器學習模型的預測準確度對比. 采用SMOTE過采樣算法后, 樣本量由原訓練集的317組增加至448組(4類巖爆類型均為112個). 從采樣前后部分巖爆預測指標箱型圖(圖3)可以看出, 過采樣前后數據集整體分布較為一致, 故可以采用過采樣后的樣本對機器學習模型進行訓練. 從SMOTE對3種機器學習模型預測準確率對比表(表5)可以看出, SMOTE過采樣預處理可以明顯提升DT模型算法的準確率, 預測準確率從原始數據集的65%提高至過采樣預處理后的77.5%.

圖3 過采樣前后部分巖爆評價指標箱型圖Fig.3 Box diagram of some rockburst evaluation indicators before and after oversampling

2.2 3種機器學習模型預測結果分析

2.2.1模型訓練與預測

根據2.1節分析可知, SMOTE過采樣能夠明顯提高決策樹模型的預測準確率(A), 故本文采用SMOTE算法預處理的SMOTE-DT模型及僅對原始數據集進行標準化處理的KNN、 SVM模型.

結合5折交叉驗證與模型參數優化, 可得各模型在不同參數下的5折交叉驗證結果如圖4所示. 從圖4可以看出, SVM模型中的懲罰系數(C)的最佳值為256、 SMOTE-DT模型中決策樹最大深度(dmax)的最佳值為10、 KNN模型中的參考最相似標簽值的個數k_neighbor(K)最佳值為1.

圖4 3種機器模型五折交叉驗證結果Fig.4 5-fold cross validation results of three machine models

2.2.2模型預測結果準確率分析

利用訓練后的模型對測試集進行測試, KNN、 SVM、 SMOTE-DT模型預測準確率分別為68.75%、 57.50%與77.50%, 遠高于4分類問題隨機分類時的25%. 為了更加直觀看出3種機器模型對4種巖爆類型預測情況, 將N、 L、 M與S類型編號為1、 2、 3、 4, 采用(預測類型-真實類型)作為縱坐標, 測試集樣本序號作為橫坐標, 繪制3種機器模型的預測結果, 如圖5~7所示.

圖5 KNN預測結果Fig.5 KNN prediction results

圖6 SVM預測結果Fig.6 SVM prediction results

圖7 SMOTE-DT預測結果Fig.7 SMOTE-DT prediction results

從圖5~7可以看出, 3種模型高估巖爆類型的次數分別為13、 14與7次, 低估巖爆類型的次數分別為12、 20、 11次. 高估巖爆類型雖然會造成一定的資源浪費, 但生產安全性可以得到較好的保障, 而低估巖爆類型不僅會影響施工進度, 而且容易造成人員傷亡及經濟損失. 總之, SMOTE-DT模型的預測準確性與安全保障性均優于KNN與SVM模型.

2.2.3不同類別巖爆分類性能

為獲取3種預測模型對不同類別巖爆樣本的分類性能, 采用精確率P、 召回率R、F1值、 宏平均與微平均指標進行計算, 3種機器學習算法性能評價如表6所示. 從宏平均與微平均指標來看, SMOTE-DT模型相較于KNN與SVM模型對不同類別巖爆樣本的分類能力較強, KNN模型次之, SVM模型表現最差. 從3種算法的性能指標可知, SVM模型的強巖爆類型召回率低于50%, 說明被SVM模型預測為強巖爆類型的測試集中有50%以上實際并非強巖爆類型, 模型對于強巖爆類型的預測十分不可靠. SMOTE-DT模型在4種巖爆類型上的分類性能均優于KNN與SVM模型, 同時SMOTE-DT模型對于4種巖爆類型的F1值均大于0.7, 分類性能穩定可靠.

3 工程應用案例

3.1 工程概況及地質條件

山西紫金金礦為2016年發現的大型斑巖型礦體, 主礦體為BK1、 BK2礦體, 礦體中間厚大連續, 開采標高610~950 m, 最低生產中段610 m中段開采深度大于700 m, 接近于深部開采. 因此, 強烈的開采擾動會對深部巖體產生較強烈的影響, 尤其是硬巖巖爆與斑巖型礦體的開拓、 開采、 支護等生產安全密切相關.

3.2 巖爆類型預測

采用3種機器學習模型對山西紫金巖爆類型進行預測. 為了確定山西紫金的巖爆類型, 在礦山目前已開拓的830、 890、 950 m中段取多組巖芯, 結合地應力實測結果及巖石力學室內試驗確定各中段巖石力學指標的取值. 研究以3個中段部分工程位置為例進行巖爆類型預測, 具體巖爆類型評價指標見表8.

將山西紫金3個中段部分區域的評價指標數據(表7)作為模型的輸入, 得到模型預測結果如表8所示.

表7 890 m中段巖爆類型評價指標Tab.7 Prediction indicators for rockburst typesat 890 m level

表8 各中段部分巷道巖爆類型預測結果Tab.8 Prediction results of rock burst typesat various levels

從表8可看出, 830 m石門、 890 m中段沿脈運輸巷道與950 m階段運輸巷與穿脈交界處, 斑巖型金礦的巖爆傾向性基本為“無巖爆”和“弱巖爆”類別, 在該區域開采時基本不可能發生強烈巖爆. 預測結果與現場的觀測結果一致, 以上中段的各類井巷工程完整性較好, 未發現明顯的片幫、 冒頂等現象.

4 結語

1) 結合397組巖爆工程案例, 利用KNN、 SVM與決策樹模型進行巖爆類型預測, 結果表明主成分分析預處理對預測準確率并無改善, 采用過采樣SMOTE算法僅對決策樹模型有明顯的提升, 故使用采用SMOTE算法預處理的SMOTE-DT模型及僅對原始數據集進行標準化處理的KNN、 SVM模型, 3種模型的預測準確率分別為68.75%、 57.50%與77.50%, 表明3種算法均能通過原始數據集進行有效訓練.

2) SMOTE-DT與KNN模型低估巖爆類型的次數明顯低于SVM模型, 模型預測更加安全保守, 且SMOTE-DT出現高估巖爆類型的情況較其他兩種模型少, 預測準確性與安全保障性均優于KNN與SVM模型. 同時, SMOTE-DT模型對于4種巖爆類型的F1值均大于0.7, 分類性能穩定可靠, 而SVM模型在強巖爆類型的召回率低于50%, 因此首選SMOTE-DT模型作為巖爆預測模型.

3) 基于本文構建的KNN、 SVM與SMOTE-DT巖爆類型預測模型, 分析了山西紫金金礦830 m石門、 890 m中段沿脈運輸巷道與950 m階段運輸巷與穿脈交界處的巖爆類型, 模型預測結果與現場實際觀測情況相一致, 進一步驗證了預測模型的可靠性.

猜你喜歡
巖爆預處理機器
某引水隧洞深埋段花崗巖巖爆演化規律研究
機器狗
機器狗
使用聲發射測試結果預判巖爆等級
未來機器城
基于預處理MUSIC算法的分布式陣列DOA估計
開繞一號公路隧道巖爆強度評判
引漢濟渭工程秦嶺隧洞巖爆數值模擬與巖爆預測研究
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合