?

譜聚類結合LIF在礦井突水水源類型識別中的應用

2021-02-03 10:06周孟然宋紅萍來文豪王錦國
光譜學與光譜分析 2021年2期
關鍵詞:突水水樣砂巖

周孟然,宋紅萍,胡 鋒,來文豪,王錦國

安徽理工大學電氣與信息工程學院,安徽 淮南 232001

引 言

隨著煤礦開采深度的增加,礦井突水問題越來越嚴重[1],一旦發生礦井突水事件,帶來的不只是經濟損失,更嚴重的是造成井下人員傷亡。因此,建立突水預警模型和水樣識別模型已經成為治理突水的關鍵。目前突水水源類型識別方法主要利用水化學分析法[2-3]和智能算法[4-5]等。利用水化學方法來識別突水水源類型,需要檢測pH值和電導率等,獲取這些變量通常需要較長的時間,雖然可以比較準確地檢測出礦井突水的水源類型,但是不適合在現場建立水樣識別模型。激光誘導熒光技術具有分析精度高、速度快等特點,在化工、醫學、環境等領域有很多的應用[6-8]。近些年來,也有許多人將激光誘導熒光技術應用于突水水源類型的識別,具有很好的應用效果。如:文獻[9]使用激光誘導熒光技術、間隔偏最小二乘法(interval PLS,iPLS)結合粒子群(particle swarm optimization,PSO)聯合支持向量分類算法(PSO-SVC)對突水水源的類型進行識別,先用iPLS對水樣的熒光光譜進行波段選取,然后使用PSO-SVC對選取的波段進行識別,實現對突水水源類型的識別。此外還有使用主成分分析法[10](principal component analysis,PCA)等算法建立水樣識別模型對突水水源的熒光光譜進行識別,然而這些模型都是在突水水樣熒光光譜進行均勻分組的基礎上進行識別,并沒有對不均勻分組進行討論,也沒有針對不均勻分組建立水樣識別模型。只有在理想情況下,每種樣本的數量才會是均勻分組的。在實際的工程應用中,采集的每種樣本數量有很大可能是不均勻的,因此本文在不均勻分組上建立模型更具有工程應用指導意義。

譜聚類[11](spectral clustering,SC)屬于無監督學習,可以實現對任意形狀的數據集的聚類,計算量較小、實現簡單、聚類效果好并能很快收斂于全局最優解。文獻[12]是使用模糊估計譜聚類實現對癌癥的檢測。飛蛾撲火算法[13](moth-flame optimization,MFO)是近幾年提出來的優化算法,具有參數少、計算精度高等特點。

本文提出一種將激光誘導熒光與MFO-SC算法相結合建立水樣識別模型,先建立MFO-SC水樣識別模型,然后與其他模型進行性能對比,最后在其他不均勻數據上進行驗證。MFO-SC水樣識別模型在不需較多的先驗知識前提下,不需要對突水水源熒光光譜進行去噪、降維、波段篩選等處理,過程簡單,可以直接對不均勻分組的突水水樣熒光光譜進行識別,準確率高,具有很強的泛化能力。

1 實驗部分

1.1 材料

根據淮南謝一礦突水水源的特點,科學的選取了危害性較大的老空水、砂巖水以及按一定體積比的老空水和砂巖水的混合水作為實驗的研究對象,并對水樣進行密封和遮光處理,帶回實驗室。以2019年7月7號在淮南某礦區采集到的老空水、砂巖水并按一定體積比混合后得到5種實驗樣本,依次為老空水與砂巖水體積比為2∶1的混合水(以下簡稱“混合水1”)、老空水與砂巖水體積比為1∶1的混合水(以下簡稱“混合水2”)、老空水與砂巖水體積比為1∶2的混合水(以下簡稱“混合水3”)、老空水和砂巖水。

1.2 儀器

實驗所選用的光譜儀是USB2000+光譜儀,光譜儀檢測熒光光譜的波長范圍為340~1 021 nm,激光由405 nm激光器提供。激光通過石英光纖由FPB-405-V3型熒光探頭垂直浸入實驗水樣中,激光誘導水樣發出的熒光由熒光探頭接收傳送給光譜儀。實驗采集熒光光譜的實驗示意圖如圖1所示。

圖1 激光誘導熒光實驗示意圖Fig.1 Schematic diagram of laser induced fluorescence experiments

1.3 算法原理

1.3.1 SC算法

譜聚類(SC)是一種無監督學習算法,不需要樣本的標簽信息、不需要對樣本進行去噪、降維、波段選取等處理且能在任意形狀的樣本空間上聚類且收斂于全局最優解。譜聚類將聚類轉化為圖的最優劃分,主要思想是將樣本看作圖中的點,用邊將點連接組成圖,計算兩點之間的邊權重,最后對圖進行分割,分割后不同子圖間的邊權重和盡可能的低,子圖內的邊權重和盡可能的高,從而完成聚類。

譜聚類的算法流程:

輸入:樣本集D=(X1,X2,…,Xn),相似矩陣的計算方式,劃分準則,標簽映射的方法,類別數K。

過程:

Step 1:根據輸入的相似矩陣的計算方式構建樣本的相似矩陣S。

Step 2:根據相似矩陣S構建鄰接矩陣W,構建度矩陣D。

Step 3:構建拉普拉斯矩陣L,根據輸入的劃分準則對L進行規范化得到矩陣L′。

Step 4:計算矩陣L′最大的K個特征值各自對應的特征向量f。

Step 5:將各自對應的特征向量f組成矩陣F,F按行標準化得到特征矩陣F′。

Step 6:將F′的每一行作為一個新樣本,用輸入的聚類方法進行聚類,聚類的類別數為K。

Step 7:得到簇劃分C(C1,C2,…,Ck)。

輸出:簇劃分C(C1,C2,…,Ck)。

1.3.2 MFO算法

飛蛾撲火算法(MFO)是一種元啟發式優化算法,它的靈感來源于自然界中飛蛾的橫向定位導航方法。根據飛蛾與火焰保持固定的飛行角度的行為建立合理的數學模型。每個飛蛾都是潛在的最優值,飛蛾在解空間中的位置是所求問題的解,飛蛾圍繞火焰尋優并通過迭代的方式更新位置,直至得到問題解的最優值。使用SC算法對礦井突水水源熒光光譜數據建立模型后,使用MFO算法對熒光光譜數據進行尋優的實驗框圖如圖2所示。

圖2 MFO優化SC的實驗框圖Fig.2 Experimental block diagram of MFO optimized SC

2 結果與討論

2.1 采集水樣原始熒光光譜

利用激光誘導熒光實驗設備采集實驗水樣的熒光光譜,實驗在遮光、同等溫度和濕度的環境下進行,5種水樣采集的組數各不相同,混合水1采集75組、混合水2采集80組、混合水3采集80組、老空水采集30組以及砂巖水采集135組。

圖3為400組的實驗水樣的原始熒光光譜圖,1—75為混合水1、76—155為混合水2、156—235為混合水3、236—265為老空水、266—400為砂巖水。從圖3上可以很明顯的看到不同實驗水樣的熒光光譜有所不同,差異主要集中在400~650 nm之間,并且老空水熒光光譜與其他實驗水樣的差異比較明顯,混合水1、混合水2、混合水3和砂巖水熒光光譜的差異相對較小。因此,很難通過觀察去區分實驗水樣的類別,需要研究實驗水樣的熒光光譜,利用智能算法建立水樣識別模型對實驗水樣進行識別。

圖3 原始熒光光譜圖Fig.3 Original fluorescence spectra

2.2 MFO-SC水樣識別模型的建立

本文在建立模型時,通過大量實驗發現標簽映射更能影響SC算法的性能,因此建立模型時需要先確定標簽映射的方式,最后確定相似矩陣的計算方式和劃分準則。

由于K-Means具有原理簡單、實現方便和收斂速度快等優點,所以選用K-Means作為標簽映射的方法。實驗對比了常見的6種核函數作為譜聚類的相似矩陣計算方式的性能最終選擇高斯核函數作為相似矩陣的計算方式,模型的劃分準則選擇ncut。建立MFO-SC模型時高斯核函數的參數σ設為5,使用MFO-SC模型對實驗水樣的熒光光譜進行識別,圖4是實驗100次模型準確率的變化圖。準確率在47.75%到96.25%之間來回波動,雖然均值為86.29%,但是波動的幅度較大。原因是模型在進行識別時,隨機選擇初始聚類中心導致模型最終的聚類中心不準確從而影響聚類的效果,因此模型需要固定初始聚類中心,選擇準確率為96.25%的聚類中心作為模型的初始聚類中心,初始聚類中心如表1所示。

圖4 未固定初始聚類中心的MFO-SC模型準確率的變化圖Fig.4 Change diagram of accuracy of MFO-SC model without fixed initial clustering center

表1 MFO-SC模型初始聚類中心Table 1 Initial clustering centers of MFO-SC model

高斯核函數的參數σ對MFO-SC模型的準確率息息相關,使用MFO尋優算法對高斯核函數的參數σ進行尋優。MFO進行參數尋優時,MFO的飛蛾數設為10,火焰數設為10,選擇合理的尋優范圍,最大迭代次數設為50次。得到高斯核函數的參數σ最優值為1.745,并且模型的準確率達到100%。

2.3 MFO-SC水樣識別模型與之比較

2.3.1 MFO-SC水樣識別模型與K-Means水樣識別模型對比

使用MATLAB軟件建立K-Means水樣識別模型。針對實驗水樣,使用K-Means水樣識別模型和MFO-SC水樣識別模型對其進行識別,實驗100次。兩個模型平均準確率、最優準確率和準確率方差如表2所示。

從表2我們可以看到K-Means水樣識別模型的最優準確率可以達到99.75%,但是平均準確率只有79.57%,而MFO-SC水樣識別模型的最優準確率可以達到100%,而且平均準確率也達到了100%,通過比較可以看出MFO-SC水樣識別模型穩定性更好,識別率更高。

表2 K-Means模型和MFO-SC模型性能比較Table 2 Performance comparison of K-Means model and MFO-SC model

2.3.2 MFO-SC水樣識別模型與監督學習水樣識別模型對比

針對實驗水樣建立了兩種基于監督學習算法的水樣識別模型,分別是SVM水樣識別模型和MFO-SVM水樣識別模型,在建立模型之前需要合理的將實驗水樣劃分成訓練集和測試集,經過多次實驗,最終將5種共400組實驗水樣按3∶2的比例劃分為訓練集和測試集,訓練集和測試集的劃分結果如表3所示。

表3 實驗水樣數據集的劃分Table 3 Classification of experimental water sample data sets

先使用MATLAB軟件的libsvm工具箱建立SVM水樣識別模型,SVM的懲罰系數和核函數參數g使用默認值。然后使用libsvm工具箱建立MFO-SVM水樣識別模型,使用MFO尋優算法對SVM的c和g參數進行尋優,飛蛾數設為10,火焰數設為10,最大迭代次數設為100次,c參數的范圍設為[0.01,50],g的參數范圍設為[0.01,50],得到參數的最優值c=0.374 2,g=0.01。最后使用SVM水樣識別模型和MFO-SVM水樣識別模型對實驗水樣的熒光光譜進行識別,兩種模型的訓練集準確率和測試集準確率如表4所示。

表4 SVM模型和MFO-SVM模型的性能比較Table 4 Performance comparison of SVM model and MFO-SVM model

從表4我們可以看到使用SVM水樣識別模型對實驗水樣的熒光光譜進行識別,訓練集的準確率為80%,訓練集的準確率較低說明模型的參數選擇不合理。SVM水樣識別模型的測試集準確率也為80%,如圖5所示模型之所以將不屬于砂巖水的實驗水樣誤識別為砂巖水,是因為400組實驗水樣中砂巖水有135組,訓練模型時訓練集的240組實驗水樣砂巖水有81組,不均衡分組導致訓練好的模型在識別時更加傾向把實驗水樣分到訓練集中實驗水樣組數更多的類型,導致測試集的準確率不理想,建立的模型不合理。而使用MFO-SVM水樣識別模型對實驗水樣的熒光光譜進行識別時,使用MFO對參數進行尋優,使得訓練集的準確率達到100%同時測試集的準確率也達到了98.75%。SVM水樣識別模型和MFO-SVM水樣識別模型在對不均勻分組的實驗水樣進行識別時都需要合理的劃分測試集和訓練集,過程復雜,需要較多的先驗知識并且兩種模型的準確率都小于MFO-SC水樣識別模型的準確率。

圖5 SVM水樣識別模型測試集的分類結果Fig.5 Classification results of SVM model test set

2.3.3 在其他不均勻分組實驗水樣上的驗證

合理的對采集好的5種水樣進行分組,并且保持實驗水樣的總組數為400組,得到3組不同的實驗水樣即水樣1、水樣2和水樣3。使用建立好的四種水樣識別模型分別對水樣1、水樣2和水樣3進行識別,實驗100次,其平均準確率如圖6所示,使用SVM和MFO-SVM建立的水樣識別模型的平均準確率是指測試集與訓練集分類正確的實驗樣本與總實驗樣本數的比值。

圖6 四種模型平均準確率對比圖Fig.6 Comparison chart of average accuracy of four models

從圖6我們可以看到在3組水樣數據集上MFO-SC水樣識別模型的平均準確率都是最高的,K-Means水樣識別模型的平均準確率都是最低的,并且在水樣1上MFO-SVM水樣識別模型的平均準確率高于SVM水樣識別模型而在水樣3上SVM水樣識別模型的平均準確率要高于MFO-SVM水樣識別模型。針對3組水樣,4種模型的平均準確率都出現波動,MFO-SC水樣識別模型的波動最小,MFO-SVM水樣識別模型次之,K-Means水樣識別模型和SVM水樣識別模型的平均準確率波動最大,說明K-Means水樣識別模型、SVM水樣識別模型和MFO-SVM水樣識別模型的泛化能力比MFO-SC水樣識別模型較弱,MFO-SC水樣識別模型的穩定性更好。

3 結 論

根據淮南煤礦突水水源的特點,選取老空水、砂巖水以及按一定體積比的老空水和砂巖水的混合水作為實驗的研究對象,先選取MFO-SC算法針對不均勻分組的水樣熒光光譜建立水樣識別模型,然后將MFO-SC水樣識別模型與另外三種水樣識別模型進行了比較。通過實驗可以發現:第一,建立合理的MFO-SC水樣識別模型可以很好的識別出不均勻分組的水樣熒光光譜,并且識別率可以達到100%;第二,MFO-SC和K-Means都屬于無監督學習算法,都不需要劃分數據集,與K-Means水樣識別模型相比,使用MFO-SC水樣識別模型的穩定性更好,準確率更高。使用監督學習算法SVM和MFO-SVM建立水樣識別模型相對于MFO-SC水樣識別模型來說需要合理劃分數據集,過程復雜,并且識別的準確率都要低于MFO-SC水樣識別模型的準確率;第三,通過驗證,使用MFO-SC建立水樣識別模型對其他不均勻分組的水樣熒光光譜的識別率均達到99%以上,明顯高于其他三種水樣識別模型,說明MFO-SC水樣識別模型具有更好的泛化能力。實驗證明了使用MFO-SC算法建立水樣識別模型具有可行性,對識別礦井突水水源以及礦井安全生產有重大意義。本文采用的MFO-SC水樣識別模型不僅可以用于老空水、砂巖水以及按一定體積比的老空水和砂巖水的混合水的水樣識別,也可以用于其他突水水源熒光光譜的識別,同時也為激光誘導熒光技術在其他領域上的應用提供了一種簡單、有效的方法。

猜你喜歡
突水水樣砂巖
礦井突水水源的判別方法
礦井滯后突水機理探討
CSAMT法在柴北緣砂巖型鈾礦勘查砂體探測中的應用
火星上的漩渦層狀砂巖
砂巖:黏結在一起的沙子
我國相關標準水樣總α、總β放射性分析方法應用中存在的問題及應對
平行水樣分配器在環境監測中的應用
水樣童年
李雅莊礦滯后突水主控因素分析
賀蘭口砂巖吸水率的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合