?

基于圖形識別的壓裂工況智能標注方法研究

2024-04-06 12:49張德君魏偉張聞晨何小東朱智華鄭光慧劉明艷楊航
電腦知識與技術 2024年3期
關鍵詞:壓裂深度學習

張德君 魏偉 張聞晨 何小東 朱智華 鄭光慧 劉明艷 楊航

關鍵詞:壓裂;深度學習;數據降噪;音頻特征提??;工程監控

中圖分類號:TP3 文獻標識碼:A

文章編號:1009-3044(2024)03-0036-03

1 基礎理論

1.1 曲線圖形的降噪處理

知識在處理壓裂參數數據曲線時,有時會遇到一些異常的數據,這些數據無價值且會影響正常算法,因此需要進行降噪處理。Savitzky-Golay濾波器最初由Savitzky和Golay于1964年提出[1]。其廣泛地運用于數據流平滑除噪,是一種在時域內基于局域多項式最小,二乘法擬合的濾波方法。這種濾波器最大的特點在于濾除噪聲的同時可以確保信號的形狀、寬度不變,它對信號的操作是在時域內對window_length內的數據進行多項式擬合。而從頻域上看,這種擬合實際就是通過低頻數據而濾掉了高頻數據[2]。這種濾波其實是一種移動窗口的加權平均算法,但是其加權系數不是簡單的常數窗口,而是通過在滑動窗口內對給定高階多項式的最小二乘擬合得出。信號的最小二乘平滑的基本思想可以通過圖1來說明。

1.2 曲線圖形相似度判斷

在實際施工過程中,因為有各種各樣的因素會影響現場施工情況,使得參數曲線并不一定和壓裂設計一致。所以在判斷壓裂施工工況時,只從一些參數指標去判斷,往往無法達到預期效果。因此,本文引入圖形識別的方法,根據真實施工曲線和設計施工曲線的相似情況判斷。如果曲線整體趨勢是偏向標準模型,就認定是當前工況。

DTW (Dynamic time warping) 算法是可以度量兩個獨立時間序列的相似度的一種方法,曾被廣泛應用在單詞音頻的匹配上,該方法主要用來解決在兩段序列時長不同的情況下進行相似度的判斷[3]。

圖2中,左側時長相等,可以逐一進行歐式距離的計算.右側則時長不等,經過DTW之后得到的結果,可以看出來兩個序列并不一一對應。

如圖3,要得到序列1與序列2的相似度,可以看出,兩個序列有經過平移的跡象,直接用一一匹配的方法顯然不合理。要得到圖3的對應效果,就需要用DTW方法。

計算后的值放到DP矩陣中,為了更加直觀地理解,對這兩個序列繪圖如圖4。

2 案例與分析

2.1 模擬平臺搭建

為方便進行數據分析并將分析結果直觀展示,本文搭建了分析平臺。具體使用的技術選型如下,前端采用VUE架構,并使用VUEX、vue-rounter等VUE技術框架,自底向上增量開發的設計,讓數據響應時間更短。后端采用時下最流行的Spring cloud框架,無縫銜接新疆油田云平臺。不僅如此,在數據處理方面,對靜態數據和動態數據分類型處理,分別利用click?house 數據庫對時序數據支持的能力和Oracle數據庫穩定性分別儲存動態傳輸數據和靜態結果數據,為智能算法賦能。同時在數據讀取時,將數據進行預處理,將參數異常項過濾掉,減少運算壓力,增加算法準確度。建設相關的系統架構如圖5。

平臺模擬了橋塞,暫堵和連續油管三種不同的工藝施工情況,針對不同的施工工藝分別整理了兩口不同的施工井,確保訓練素材的普適性。

2.2 模擬平臺搭建

自行建立數據發送程序,將秒點數據從Excel表格中發送到數據庫中,再從數據庫中提取數據。

預處理數據時采用了Savitzky-Golay 濾波器,對數據進行濾波處理,減少異常數據入庫。

在對數據庫設計時,設計數據庫模型來存儲用戶、數據集、訓練任務和模型等相關信息。使用JPA(Java Persistence API) 或其他ORM(對象關系映射)工具來簡化數據庫操作。結合壓裂數據的數據特性,我們選擇Oracle和Tdengine數據庫,充分利用Oracle數據庫和Tdengine數據庫的技術特點,提高訓練平臺的穩定性和速度性。

規范API接口,設計和實現RESTful API接口,用于管理數據集、創建和管理訓練任務、獲取訓練進度和結果等,可以使用Spring MVC來構建API接口。

神經網絡訓練邏輯,根據壓裂工程方面特性選擇的神經網絡類型和訓練算法,實現相應的訓練邏輯。

結果展示和模型部署,設計和實現結果展示頁面,以展示訓練任務的進度和結果。在訓練完成后,提供模型保存和部署的功能,同時也使用Web技術,跨平臺實現不同操作系統的界面展示,讓用戶直觀看到訓練成果,同時也可讓用戶可以使用訓練得到的模型進行預測和推斷。

2.3 模型訓練

CNN由紐約大學的Yann LeCun于1998年提出。CNN本質上是一個多層感知機,其成功的原因在于它所采用的局部連接和共享權值的方式。

由于各種施工工藝決定了施工參數的走向,而且工藝類型數量較少,只需稍加訓練模型,就能提高工藝的識別準確度,進而標注出對應的施工階段。收集帶有工況標簽的數據集。壓裂施工數據集應包含施工數據和對應的標簽,確保數據集的標簽與施工數據對應。對壓裂施工數據進行預處理。這可能包括壓裂施工數據的采樣率調整、時域和頻域的特征提取、值域數據增強、干擾信號去除等,預處理有助于提高模型的訓練效果和魯棒性。根據前期選定好的模型方向進行訓練,確定輸入數據的維度和特征。對于圖像數據,通常是二維的圖像矩陣,對于壓裂施工數據,可以使用短時傅里葉變換(STFT) 將壓裂施工數據圖像轉換為時頻圖,引入卷積操作來提取圖像或音頻數據的局部特征[4]。通過設置不同的卷積核數量和大小,可以捕捉到不同層次的特征,可以使用多個卷積層進行層級特征提取。在卷積層之后,引入非線性激活函數,如ReLU(Recti?fied Linear Unit) ,用于增加模型的非線性表達能力。通過池化操作(如最大池化或平均池化)減少特征圖的維度,同時保留重要的特征。池化操作有助于減少模型的參數數量和計算復雜度。引入批歸一化操作可以提高模型的穩定性和訓練速度。該層用于對每個批次的數據進行標準化處理,有助于加速模型的收斂和改善模型的泛化性能。通過全連接層將卷積層的輸出映射到最終的輸出類別,全連接層通常包括多個神經元,可以進行特征的組合和分類。

使用CNN模型提取壓裂數據的特征表示。將音頻數據輸入CNN模型中,獲取卷積層輸出的特征圖。對于壓裂施工數據,可以使用短時傅里葉變換(Short-Time Fourier Transform,STFT) 等技術將壓裂施工轉換為時頻表示,作為輸入特征使用帶有標簽的壓裂施工數據集對CNN模型進行訓練,將提取的音頻特征和對應的標簽輸入模型中,計算預測結果,并通過反向傳播算法更新模型的權重[5]。使用驗證集評估訓練好的模型的性能。計算模型對音頻樣本的預測準確率、分類精度或其他指標,可以使用混淆矩陣、準確率、召回率等評估模型在不同類別上的表現。

改進的CNN模型采用五層網絡結構,選取Relu 為激活函數,添加dropout層,利用交叉熵來定義損失,在經過多次調整參數后,選定學習率為0.000 1,drop?out率為0.15時效果較好。訓練次數為2 000次時的loss值變化如圖6所示,在經過約300次的訓練loss值已經降低到很小。

2.4 模標注結果

使用模型訓練的算法去判斷施工階段,已經可以非常準確地判斷施工類型,即使在非常大的數據干擾下也依然可以準確判斷。以JLHW2001井17-8壓裂段為例,施工階段的6個類型均能準確判斷,并識別出對應的標注名稱,如圖7所示。

在壓裂施工數據同CNN進行結合時,使用了多種結合方式、多種特征的提取方式,最終認為使用和音頻數據識別的信號特征提取方式一致,使用了短時傅里葉變換技術,音頻信號和壓裂施工數據有著一些相似的地方,從而完成對CNN模型的訓練,達到實現壓裂施工數據的工況識別。

3 結束語

智能算法處理數據是大數據背景下必不可少的工具,使用CNN模型訓練后的深度學習算法在處理模糊不清的數據時更加精準。大數據提供了更多樣化、更全面的數據資源。傳統研究可能只能依賴有限的數據樣本,而大數據能夠涵蓋更廣泛的領域、更多的觀測和測量結果,使研究人員能夠獲得更全面的數據,從而更好地理解和解釋現象。通過大數據處理技術,可以處理大規模數據集,并應用更復雜的算法和模型進行分析。這有助于發現更深入的模式、趨勢和關聯關系,從而提高研究的準確性和可靠性,幫助研究人員發現新的洞見。通過分析大規模數據集,可以發現意想不到的關聯、非線性關系和新穎的模式,從而推動研究的前沿。傳統的研究方法可能需要花費大量時間和資源來處理有限的數據集,而大數據技術可以更快地處理大規模數據,并實時或幾乎實時地提供分析結果,從而加快研究進展??傊?,批量的數據在智能算法的幫助下變得更加清晰透明,也為研究員提供了幫助,從而提高工作效率和生產效率。

【通聯編輯:代影】

猜你喜歡
壓裂深度學習
錦45塊蒸汽驅壓裂引效技術試驗與推廣
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
側鉆井試油工藝淺談
高壓防硫雙筒除砂器研制及應用探討
電纜傳輸定方位射孔工藝的研制與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合