?

燃氣輪機故障知識圖譜構建方法與應用研究*

2023-12-12 02:13王明達吳志生朱光輝李云飛
中國安全生產科學技術 2023年11期
關鍵詞:燃氣輪機本體圖譜

王明達,吳志生,朱光輝,李云飛,張 榜

(1.中國石油大學(華東) 機電工程學院,山東 青島 266580;2.國家石油天然氣管網集團有限公司 山東省分公司,山東 濟南 250002)

0 引言

近年來,天然氣在我國工業生產和民用生活中大規模普及[1]。燃氣輪機作為天然氣集輸站場的核心動力設備,其運行狀態直接影響著整個長輸管道的安全[2-3]。然而,燃氣輪機一旦發生故障,極易引起系統停機并導致重大安全事故的發生。燃氣輪機經過多年的運行維護和故障檢修,已積累大量的故障文本數據,但這些故障文本數據具有分布廣泛、數據量龐大、格式規范化不統一等特點,且文本中存在描述不規范等問題,加重故障知識的復雜性,導致維修人員難以利用現有的文本知識數據進行故障診斷[4-5]。因此,本文引入知識圖譜技術,將燃氣輪機故障文本知識結構化,以實現對燃氣輪機故障的快速分析與診斷。

目前國內外許多領域已開展故障知識圖譜構建研究工作。Liu等[6]通過構建鐵路操作故障因果知識圖譜,揭示故障的潛在規則,并據此提出預防措施;Tang等[7]構建多源異構電力設備知識圖譜,提高電力設備的管理效率,為故障診斷的應用奠定知識基礎;Qu等[8]構建電力無線專網使用終端故障信息知識圖譜,實現故障診斷與決策制定;盛林等[9]利用知識圖譜將旋轉機械領域內零散的知識、案例和專家經驗關聯,并將其用于故障原因推理,輔助解決旋轉機械故障問題。上述研究利用知識圖譜技術解決數據之間信息孤立問題,并利用圖數據庫將非結構化數據規范儲存,提升領域內故障知識的利用率。然而上述研究大多僅對實體進行識別,且針對燃氣輪機故障領域,目前尚鮮有相關的知識圖譜構建研究。

因此,本文以燃氣輪機多維故障文本數據為例,梳理燃氣輪機故障文本知識體系,構建基于深度學習的燃氣輪機故障知識圖譜,進行燃氣輪機故障實體及實體關系抽取,實現非結構化數據的結構化存儲與管理,通過Neo4j圖數據庫進行可視化分析,并將其運用于輔助故障診斷,以期為故障維修人員提供知識支持。

1 燃氣輪機故障知識圖譜構建

1.1 故障知識圖譜構建框架

知識圖譜是1種基于圖模型描述知識與客觀事物間的關聯關系的技術手段,由節點和邊組成[10]。知識圖譜的構建需要結合具體的領域場景、語義模型與業務模型,其構建方式分為自頂向下和自底向上2種[11]。燃氣輪機故障知識圖譜構建采用自頂向下和自底向上相結合的方式,如圖1所示。

圖1 故障知識圖譜構建流程Fig.1 Process of fault knowledge graph construction

燃氣輪機故障知識圖譜的構建分為2層,即模式層構建和數據層構建。首先,根據數據源的種類不同將其分為設備結構知識、故障分析知識與設備維護知識3類,并根據領域數據的特點建立故障知識的本體表達模型,此工作即知識圖譜模式層的構建。然后,在設備資料等外部知識的指導下完成對抽取的半自動化標注以減輕人力和時間的消耗,并利用自然語言處理從故障文本中進行實體與關系的抽取,完成知識抽取即數據層的構建工作。最后,將實體與關系按照本體層的模式存入Neo4j圖數據庫,可視化并完成知識圖譜的相關應用。

1.2 燃氣輪機故障知識來源

燃氣輪機故障領域知識包括設備結構知識、設備維護知識、故障分析知識3類,具體選用要素如表1所示。設備結構知識包括設計原理圖、使用說明書等資料,從中提取的結構知識可為燃氣輪機的故障診斷與日常維護工作提供支持;設備維護知識包括設備工作狀態、故障診斷知識、維修經驗等,從中提取的維護知識可為現場的設備維護與故障診斷工作提供輔助決策;故障分析知識包括專家經驗知識、FMEA、故障案例、FTA等,從中提取的分析知識能夠為現場設備維修人員提供知識支持。

表1 燃氣輪機故障多源數據Table 1 Multi-source data of gas turbine fault

1.3 故障知識本體概念類別劃分

故障知識本體概念類別劃分主要是針對故障部件及其屬性類別的劃分和定義,根據故障分析(FMECA)數據,故障知識本體O由1個或多個零部件故障F構成,其結構信息可描述為式(1):

O∈{∑Fc∪∑Ftr∪∑Ftl∪∑Fs}

(1)

式中:Fc為復雜型零部件故障;Ftr為反向樹形零部件故障;Ftl為正向樹形零部件故障;Fs為單串鏈形零部件故障。

1個完整的部件故障信息F由5個要素組成,其結構描述如式(2)所示:

F∈{E,T,R,I,L}

(2)

式中:E為故障設備;T為故障模式;R為故障原因;I為故障影響;L為風險等級。

1.4 故障知識本體層次定義

故障知識本體是指與燃氣輪機故障知識有關的概念與屬性的規范化定義[12]。知識圖譜的模式層通常使用本體庫進行管理,本體中的概念與關系決定知識圖譜中的概念節點和關聯關系,是構建知識圖譜的重要依據,相當于知識庫中的模具。

常用的本體構建方法有TOVE法、骨架法和七步法等[13]。本文結合骨架法與七步法2種本體構建流程,構建多維故障知識本體表達模型,其構建的具體過程包括:1)確定燃氣輪機故障領域的研究范圍、本體需求;2)檢查是否存在燃氣輪機故障本體,并考慮是否可以重用。如可重用,則可在已有本體模型基礎上進行擴展補充,反之則需要重新構建本體模型;3)對領域知識進行分類,并使用統一的術語描述概念;4)定義概念間的層次關系,明確其層次結構;5)定義類的屬性和約束關系,包括對象屬性與數據屬性;6)對構建的燃氣輪機故障領域本體模型質量進行評估,包括本體的語義沖突和領域知識相符2方面,此過程依賴于專家(人工)檢查以保證本體中知識表示的準確性;7)實例填充以完成知識管理系統的底層構建。經過此過程,最終構建1個具有實用性、通用性的燃氣輪機故障知識本體模型,具體如圖2所示。

1.5 故障知識抽取技術

知識抽取技術包括命名實體識別與關系抽取,目的是從文本中提取關鍵信息的技術,在知識圖譜構建過程中指抽取文本中的目標實體、屬性與關系等信息[14]。

1.5.1 命名實體識別

燃氣輪機故障文本中包含大量有用的知識信息,而實體識別的目的就是將文本中有價值的實體信息識別并標注[15]。按照上文定義的實體概念類型進行識別和標注,本文采用基于混合神經網絡的BERT-BiLSTM-CRF命名實體識別模型,其模型架構如圖3所示。圖3中Ei指輸入的字;Ti為模型輸出結果;Trm(Transformer)為編碼模塊;ht為LSTM單元的輸出結果;pt為隱;Y={Y1,Y2,…,Yt}為標簽序列。

圖3 BERT-BiLSTM-CRF命名實體識別模型Fig.3 BERT-BiLSTM-CRF named entity recognition model

BERT-BiLSTM-CRF模型包括4部分:1)預處理文本數據,包括文本清洗、去停用詞等步驟;2)引入BERT模型作為故障文本的字符向量化表示,表示結果用于BiLSTM層的輸入;3)采用BiLSTM模型獲取上下文的特征向量,輸出命名實體識別的結果,并作為CRF層的輸入;4)使用CRF模型輸出預測實體類別結果。其中,對一部分的故障文本數據的文本預處理流程具體如下:1)文本清洗:即分詞,采用Jieba分詞工具,并結合自構建的燃氣輪機設備故障專業詞庫,確保分詞結果的準確性;2)去停用詞:即去除文本中的空格、標點符號等干擾數據,以及去除無實際意義的字符,如“的”、“在”、“了”等,從而提升模型訓練的效率;3)實體標注:本文采用BMEO序列標注法,部分標注標簽類型如表2所示。以故障設備(fault equipment,EQU)為例,“B”為“Begin”,表示實體的第1個字符;“M”為“Middle”,表示實體字符中部的字符;“E”為“End”,表示實體字符的最后1個字;“EQU”表示該實體的名稱縮寫標簽。

表2 實體標注示例(部分)Table 2 Example of entity annotation (part)

1.5.2 關系抽取

完成實體抽取后,需要建立實體間的關系和實體屬性間的關系,從故障文本中抽取得到關系的過程即為關系抽取[16]?;谏疃葘W習的關系抽取方法在提高關系分類效率與準確度方面具有很大的優勢,因此本文在前者命名實體識別模型的基礎上,引入Attention模型替代CRF模型來實現關系抽取。

與實體識別模型類似,用于關系抽取的數據源于已經完成實體識別的數據。根據知識圖譜“<實體-關系-實體>”和“<實體-屬性-屬性值>”的表述方式,將故障訓練語料按照“頭實體-關系-尾實體”的形式整理,基于關系抽取的故障文本預處理規程,具體如表3所示。

1.6 知識融合

從文本中抽取得到的知識一般含有大量的模糊和冗余的信息,且存在較多的語義相似,如“壓縮機”,雖在不同文本中表述相同,但是具體屬性、規格等信息不同,實質表示2種不同實體。

本文采用計算概念名稱相似度、屬性相似度和綜合相似度相結合的方式計算燃氣輪機故障文本中實體的相似度,通過設定閾值判斷實體是否具有相同含義,實現知識融合,其對應的計算步驟如下。

1)步驟1:計算概念名稱相似度。

本文采用ISub字符串映射算法判斷全局本體概念與局部本體概念的名稱相似度如式(3)所示。對于給定的全局本體概念cG和局部本體概念cL,首先對其進行序列化與去冗余處理,然后進行相似度計算。

(3)

(4)

式中:bG表示全局本體中概念字符串;bL表示局部本體中概念字符串;comm(bG,bL)表示概念字符相同的部分;diff(bG,bL)表示概念字符不同的部分;winkler表示修正系數。

2)步驟2:計算實體的屬性相似度。

(5)

式中:SA為屬性相似度;wi是屬性權重。

3)步驟3:計算實體綜合相似度。

在名稱相似度算法與屬性相似度算法的基礎上,提出綜合相似度(SF(cL,cG))算法,具體計算如式(6)所示,以提升實體融合的準確性。

(6)

式中:WN為名稱相似度權值;WA為屬性相似度權值。

查找目標實體的概念,計算概念名稱相似度、概念綜合相似度與屬性相似度,對知識抽取得到的實體信息與屬性信息進行融合,并設定閾值,若2個實體的綜合相似度大于設定閾值,則進行融合,否則將這2個實體分別儲存。

1.7 Neo4j圖譜構建

本文使用圖數據庫Neo4j實現對燃氣輪機故障文本數據的存儲工作。相較于傳統關系型數據庫,Neo4j圖數據庫能夠高效地實現節點與關系查詢,且基于Cypher語言的查詢與管理機制,能夠較為容易實現Web端的開發與應用[17]。

2 燃氣輪機故障知識圖譜構建實例及應用

2.1 知識抽取結果

本文采用的燃氣輪機故障文本數據集由600份故障記錄文本和960條故障分析文本組成。將數據語料按照4∶1∶1的比例劃分為訓練集、測試集和驗證集,即隨機選取400份故障文本與560條故障分析記錄用于訓練BERT-BiLSTM-CRF命名實體識別模型與BERT-BiLSTM-Attention關系抽取模型。

抽取結果準確性的評價方法采用深度學習領域常用的正樣本與負樣本評價方法,評價指標包括精確度(precision)、召回率(recall)和綜合評價指標F1值,計算公式如式(7)所示:

(7)

式中:TP表示模型預測正確且標注正確的樣本數量;FP表示模型預測錯誤但標注正確的樣本數量;FN表示模型預測錯誤且標注錯誤的樣本數量。

為驗證基于深度學習的BERT-BiLSTM-CRF命名實體識別模型對燃氣輪機故障文本中實體識別的有效性,本文選取BiLSTM-CRF模型,BERT-CRF模型和Word2Vec-BiLSTM-CRF模型進行對比分析。實驗過程中,均使用相同的訓練數據、測試數據和相同的實驗環境,不同模型的實驗結果如圖4所示。

圖4 各模型耗損收斂對比Fig.4 Comparison of depletion convergence of each model

由圖4可知,4種模型迭代次數在30~50次時趨于穩定,且本文構建的BERT-BiLSTM-CRF模型較之于BiLSTM-CRF等對比模型訓練LOSS值更低,性能更高,其模型的精確度、召回率和F1值的平均值分別達到93.84%,95.07%,94.44%,實體抽取對比如表4所示。

與BiLSTM-CRF模型相比,BERT-BiLSTM-CRF的F1值提高7.98個百分點,這是因為BERT模型能夠獲取動態字符,在一定程度上增強BiLSTM模型獲取上下文的能力,因而能夠最大程度提取文本中的復雜特征。而與Word2Vec方式相比,BERT-BiLSTM-CRF模型的F1值提高0.89個百分點,這可能與實驗過程中引入燃氣輪機故障詞庫的原因有關。同時,基于BERT模型的字符嵌入是1種動態嵌入方式,相較于Word2Vec的靜態嵌入方法,能夠有效解決一詞多義的問題。

BERT模型是1種預先訓練的神經網絡模型,不同于Word2Vec需要依靠大量訓練才能生成準確的詞向量,在文本數量有限的情況下,該模型就能取得較好的訓練效果。BERT-CRF模型的精確度達到81.22%,而增加雙向長短期記憶網絡的BERT-BiLSTM-CRF模型,進一步提取上下文序列特征,其精確度等指標均有10個百分點左右的提升。因此,本文提出的命名實體識別模型較對比模型的實驗效果好。

同時,為驗證本文提出的BERT-BiLSTM-Attention關系抽取模型的準確性,進行1組對比實驗。BERT模型在已公開的數據集知識抽取實驗中已取得顯著效果,但在燃氣輪機故障數據關系抽取工作中還未開展應用,故本文選擇BiLSTM-Attetion模型、BiLSTM-CRF模型與研究模型進行對比實驗,實驗結果如表5所示。

表5 關系抽取模型對比實驗分析Table 5 Comparative experimental analysis of relation extraction models 單位:%

由表5可知,相較于BiLSTM-CRF,BiLSTM-Attention,BERT-BiLSTM-Attention模型能夠更好地捕捉文本中的長距離依賴關系,因此在處理長文本任務時可能具有更高的準確性。BERT-BiLSTM-Attention模型較BiLSTM-CRF模型、BiLSTM-Attention模型取得更好的結果,其F1值分別提高8.49個百分點和5.73個百分點。

BERT-BiLSTM-Attention關系抽取具體結果如表6所示。由表6可知,本文提出的BERT-BiLSTM-Attention模型能較好地對故障文本中的實體關系進行抽取,尤其對“從屬”、“原因”、“位于”類型的關系抽取效果較好,這可能與引入燃氣輪機故障專業詞匯信息有關。

表6 BERT-BiLSTM-Attention模型關系抽取結果Table 6 BERT-BiLSTM-Attention model relation extraction results

2.2 知識融合結果

按照知識融合算法流程,參考關鍵字檢索方法,實驗中將融合結果分為3類。A類:實體融合正確,即相同含義的實體全部融合;B類,實體融合錯誤,即融合2個不同含義的實體;C類:實體未融合,即相同含義的實體未被融合。以“故障處理措施”和“故障設備”2類實體進行融合為例,經過多次實驗表明,相似度計算閾值w=0.6時效果最好,實驗結果如表7所示。

表7 關鍵字融合與相似度融合結果對比Table 7 Comparison of keyword fusion and similarity fusion results

2.3 基于知識圖譜的輔助故障分析

將燃氣輪機故障文本中抽取得到的實體與關系,分別作為Neo4j圖數據中的節點與連接節點的邊,以完成燃氣輪機故障知識圖譜的構建工作。

燃氣輪機故障知識圖譜由設備結構知識、設備維護數據和故障分析數據3類數據文本組成,能夠提供故障處理經驗、設備可靠性等多方面的知識,因而能夠應對大型復雜機械設備的故障診斷任務。以PGT25+SAC/PCL800系列燃驅壓縮機組輔助組成系統中“壓氣機異常振動”故障為例獲取有關故障信息的多維數據,得到該故障的圖譜如圖5所示。圖5中包含導致壓氣機異常振動的可能原因、發生概率以及對應的故障處理措施。

通過圖5可逐個分析故障原因,如通過檢查X20-3號端子的輸出電壓大小來判斷是否為傳感器損壞導致的異常震動,同樣的方式可以判斷信號回路是否故障。但有些故障原因無法提供故障數據,如閥門的故障率。因此,有必要參考設備的故障率輔助故障診斷,尤其是當僅靠傳感器數據不能確定部分設備故障原因時,可參考歷史故障率。

綜上,本文構建的燃氣輪機故障知識圖譜能夠為現場工作人員的故障處理工作提供多維的綜合數據支持,輔助現場工作人員對設備進行綜合故障分析,在一定程度上使人員擺脫對知識、經驗的依賴,降低知識獲取的門檻。同時,減少故障發生對設備的停機時間的影響。

3 結論

1)以燃氣輪機多維故障文本數據為對象,分析并構建燃氣輪機故障知識本體,研究多維故障文本數據知識圖譜構建方法。

2)提出的燃氣輪機領域知識實體與關系抽取方法,能夠對非結構故障文本自動化知識抽取,同時解決傳統故障知識庫構建中人工依賴度強、代價高且規模有限的問題,提高領域內故障知識的利用率和共享率。

3)采用Neo4j數據庫將燃氣輪機故障知識圖譜進行可視化分析,可以進行快速的數據查詢與分析,大大提高人工檢索的效率。

4)本文所構建的故障知識圖譜還存在一些不足,如FMECA數據和故障文本僅依靠集輸站場提供,導致知識的全面性有所下降。在后續的研究中,還將進一步擴展數據來源并動態更新知識圖譜,并研究知識圖譜在燃驅壓縮機組故障診斷領域的應用。

猜你喜歡
燃氣輪機本體圖譜
Abstracts and Key Words
繪一張成長圖譜
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
《我應該感到自豪才對》的本體性教學內容及啟示
《燃氣輪機技術》2014年索引
SGT5-4000F(4)燃氣輪機夏季最大負荷研究及應用
輕型燃氣輪機LM6000PC與重型燃氣輪機PG6581B研究與對比分析
50MW級SGT-800型西門子燃氣輪機的性能驗證
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合