?

Gradient Boosting 算法在典型淺埋煤層液壓支架選型中的應用

2020-07-27 09:48謝黨虎蔡維山劉清洲龍晶晶
煤礦安全 2020年7期
關鍵詞:決策樹阻力液壓

張 杰,孫 遙,謝黨虎,蔡維山,劉清洲,龍晶晶

(1.西安科技大學 能源學院,陜西 西安710054;2.陜西涌鑫礦業有限責任公司,陜西 榆林719407;3.甘肅廠壩有色金屬有限責任公司,甘肅 隴南742500)

近年來,大采高綜采技術在淺埋煤層開采中得到了廣泛應用,已成為煤礦開采主要方向[1]。而由于采高加大,導致采場礦壓顯現劇烈,極易引發冒頂、壓架及片幫等事故,故此,支架阻力的合理選型具有積極意義。目前,支架阻力的選型方法主要有理論計算法、相似模擬法、數值模擬以及神經網絡法等。其中理論計算方法[2-4]過于理想化,同實際覆巖有一定差異;數值模擬[5-7]的各項參數同地質條件相關,準確參數難以獲??;相似模擬[8-10]對材料要求較高,難以準確模擬實際地質條件;神經網絡法[11-12]綜合考慮各影響條件,但其對數據量要求較高,極易過度學習,普適性差?;诖?,提出梯度提升(GBRT)算法來預測支架阻力,避免了以上方法的不足。但模型的預測精度和泛化能力受參數的影響明顯,因此采用改進的邏輯斯諦(Logistic)算法對參數進行優化,建立支架阻力預測的LR-GBRT 模型。

1 研究方法

1.1 基于邏輯斯諦算法的特征選擇

邏輯斯諦是1 種速度快,能夠快速吸收新數據并更新模型的適合分類問題的算法模型[13]。選擇該模型對樣本進行特征預處理。對于樣本訓練集A=(xi,yi),i=1,2,3,…,N,其中:xi,為影響支架阻力yi的特征向量,單個樣本訓練集的代價函數(cost function)cost(hθ,y)為:

在L2中選擇權值系數之差小于0.5 的閾值,L1中選擇其權值為0 的特征集組合成1 個新的集合,并將L1中的權值平均分配給該新集合中的特征值。將經過L1和L2正則化后的數據集作為梯度提升決策樹的原始數據進行回歸預測。

1.2 梯度提升決策樹算法

GBRT 在每次迭代時通過對其損失函數最小化,在殘差減少的梯度方向上新建立1 棵弱決策樹。最后將所有的弱決策樹累加起來得到強決策樹得到最終預測結果[14]。

將液壓支架的阻力用y 表示,影響液壓支架阻力的變量用x 表示,N 表示用于訓練的樣本數。算法過程如下。

1.2.1 定義算法中默認的損失函數L(yi,f(xi))

式中:f(xi)為預測液壓支架阻力值,i=1,…,N。

初始化強學習器f0(x)為:

式中:ρ 為只有1 個根節點的樹,來估計使損失函數極小化的常數值。

1.2.2 迭代m=1,2,3,…,M 次后的負梯度值

式中:I 為指示函數,滿足條件x 落入葉子節點區域時取1,否則取0。

該算法最終模型由數個子模型集成所得,當模型訓練速度較大時,會忽略一些樣本信息,容易過擬合?;诖?,加入參數來控制子算法模型的學習速率,則式(7)變為:

1.2.3 M 次迭代后得到集成算法模型

根據上述分析以及樹的最大分裂節點和最大樹深關系,選取樹深3 為GBRT 樹深參數。LR-GBRT算法流程圖如圖1。

圖1 LR-GBRT 算法流程圖Fig.1 Flowchart of LR-GBRT algorithm

2 液壓支架阻力預測模型的建立與評價

2.1 影響因素以及樣本選取

選擇樣本數據首先應確定所研究問題的影響因素。根據前人研究表明,影響工作面支架阻力的主要因素有[15-17]:煤層埋深、工作面長度、頂板巖石抗拉抗壓強度、頂板厚度、來壓步距。樣本選擇時數據應選取代表性樣本,避免數據集中化,樣本越具有代表性,模型越具有普適性。在通過現場調研及文獻查閱,選取43 組具有代表性的淺埋煤層工作面數據。其中,隨機選取28 組作為訓練數據,15 組作為預測數據。部分數據見表1。

表1 部分數據Table 1 Partial data

2.2 模型的建立與評價

為消除參數的量綱不同對預測精度的影響,調用Python-Sklearn 庫的Proprocessing.MinMaxScaler函數進行歸一化處理。

為驗證基于LR-GBRT 預測模型的預測能力,搭建并調試決策樹(DTR, 樹深取3)、線性回歸(LR)、彈性網回歸(ENR)以及支持向量機(SVM,核函數取rbf,C=1×103,γ=0.2,其中,C 是懲罰系數,即對支架阻力預測結果誤差的寬容度,γ 為rbf 核函數自帶參數,該值決定了預測后的支架阻力數據映射到新的特征空間后的分布)等常用算法的預測模型至最優狀態,并用訓練樣本集分別訓練以上模型進行預測比較。

為了驗證各模型的阻力預測結果,采用平均絕對誤差(MAE)、均方誤差(MSE)和擬合度(R2)3 個指標來評價各模型在測試集上的預測效果,其中平均絕對誤差和均方誤差越接近0,擬合度越接近于1,說明模型擬合性能越好,支架阻力的預測準確率越高。

式中:yi為第i 個測試樣本的支架阻力真實值;為其對應的支架阻力預測值;為測試樣本均值;i=1,2,3,…,N;N=45。

為獲取預測支架阻力的3 種指標值,減少隨機誤差,采用了10 折交叉檢驗法[18]來總體評價模型的預測能力。在k 折交叉檢驗中(本文取10),樣本被分割成k 個大小相等的樣本子集,保留1 個子樣集作為驗證數據,剩余k-1 個子樣集訓練模型,將該過程重復k 次,每個子樣本僅用作驗證數據1 次。最后,將來自每次所得結果值進行平均,可得到1 個總體性能評價指標。

2.3 預測結果分析

基于支架阻力訓練樣本集,對上述各算法模型調試至最優態,將其在測試集上的支架阻力預測結果同實際阻力值進行比較,預測模型結果如圖2。

圖2 預測模型結果Fig.2 Prediction model results

由圖2 可知,DTR 和SVR 的擬合趨勢較好,偏差相對較??;LR 和EN 誤差相對較大,原因可能是因為用于訓練的數據集較少;LR-GBRT 預測模型對數據預測效果最好,擬合度高,更適用于小樣本數據情況;6 折交叉驗證結果見表2。表2 結合不同評價指標描述了上述預測模型在測試集上的支架阻力預測性能。對比模型交叉驗證結果可知,LR-GBRT的可解釋變異和擬合度相較于其它4 個模型的值最接近1,均方誤差和平均絕對誤差的值相較于其它4個模型值最小。LR-GBRT 模型表現最優,體現了LR-GBRT 回歸模型在預測液壓支架阻力上具有較好的預測精度。由此也可看出,支架阻力同各影響因素支架具有復雜的非線性關系特點。

表2 6 折交叉驗證結果Table 2 Results of 6-fold cross validation

3 工程應用

Qt 是C++跨平臺應用程序框架,該框架受到廣泛應用。例如,Itasca 公司在該框架下開發了FLAC、PFC 以及UDEC 等多款數值模擬軟件。Python 同其結合為PyQt,在PyQt 環境下,將訓練好的模型封裝并進行GUI 開發,以便工程實際應用。

為了驗證開發后的系統在預測最大液壓支架阻力的實際效果,分別對南梁煤礦1-2煤工作面和韓家灣煤礦3302 工作面采用在線式KJ513 型礦壓監測系統在工作面上部、中部和下部分別布置3 條測線,以工作面距開切眼100 m 位置處開始觀測。工作面上中下3 部分支架工作阻力隨工作面推進的變化曲線如圖3。在此過程中南梁礦發生12 次周期來壓,韓家灣礦發生10 次。最大來壓分別為8 439 kN和12 003 kN,GBRT 預測結果分別為9 024 kN 和12 320 kN,工作阻力和預測最大阻力比值分別為:93.5%和97.4%,實踐證明,該系統能較好的對液壓支架阻力進行預測,達到現場應用要求。

4 結 論

1)基于梯度提升理論,通過選取煤層埋深、工作面長度、覆巖抗拉抗壓強度、直接頂厚度和來壓步距等7 個主要影響因素作為液壓支架阻力選型的判別指標,結合43 組淺埋煤層樣本數據,利用Python3.6 建立了液壓支架阻力預測的GBRT 模型,并限制其學習速率,防止模型過擬合。

2)利用DTR、SVR、EN、LR 和LR-GBRT 構建的預測模型,對樣本的支架阻力預測進行交叉檢驗以檢驗其可靠度。結果表明,用LR-GBRT 模型預測本文樣本的擬合度最高,同比其余4 種算法具有較高的精確度??梢?,該模型對預測支架阻力是行之有效的,它為支架阻力的選型確定提供了1 條新途徑。

圖3 支架工作阻力隨工作面推進的變化曲線Fig.3 Variation curves of support working resistance with working face advance

3)基于PYQT 進行GUI 開發,能更好的將其應用于工程實踐;需要指出的是,該于液壓支架阻力的預測中還只是初步嘗試,模型的預測結果很大程度上取決于指標的選取。今后的研究工作中,將進一步研究影響支架阻力的因素,如構造應力、地下水作用以及掘進速度等,考慮更多的影響因素并建立云數據平臺囊括更多數據,以期進一步增強模型的泛化能力,為支架阻力選型提供1 個新途徑。

猜你喜歡
決策樹阻力液壓
鼻阻力測定在兒童OSA診療中的臨床作用
零阻力
上支承輥平衡缸液壓控制系統的設計改進
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
別讓摩擦成為學習的阻力
液壓扭矩扳手的不確定度評定
露天液壓鉆車
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合