?

煤礦標準文件知識圖譜構建與應用

2024-01-29 08:43劉鵬曹新晨耿念魏微孟磊
情報工程 2023年5期
關鍵詞:條文圖譜要素

劉鵬 曹新晨 耿念 魏微 孟磊

1. 徐州高新區安全應急裝備產業技術研究院 徐州 210000;

2. 礦山互聯網應用技術國家地方聯合工程實驗室 徐州 221008;

3.中國礦業大學信息與控制工程學院 徐州 221116

引言

隨著煤礦安全生產技術進步和國家政策推進,煤礦安全形勢有所好轉,但煤礦災害仍處于高發態勢,煤礦建設生產面臨的安全隱患不容小覷[1]。煤礦標準文件作為煤礦生產管理者必須遵循的最低要求,是煤礦能夠安全建設生產的保證,更是政府部門監管的依據。目前,煤礦標準文件的數據信息服務仍處于初級階段,多數煤礦企業仍使用傳統的紙質版、電子版標準文件,標準文件數據庫以PDF、圖片等形式存儲,缺乏系統、高效的煤礦標準文件知識存儲利用手段,不利于煤礦標準化、信息化發展。知識圖譜是一種結構化的語義網絡[2],用于描述真實世界的概念、實體及其相互關系[3]。知識圖譜對知識單元及其間關系有良好的表達,提供了更好地組織管理海量信息的能力[4],在語義搜索、問答系統、智能推薦等應用廣泛[5]。在煤礦領域,吳雪峰等[6]構建了煤礦巷道支護領域知識圖譜,有利于實現巷道支護智能化管理;曹現剛等[7]構建了煤礦裝備維護知識圖譜,助力煤礦裝備智能化動態管理;潘理虎等[8]結合本體技術構建了煤礦領域知識圖譜,并開發了煤礦安全監測監控系統;李哲等[9]構建了煤礦機電設備事故知識圖譜,可應用于煤礦機電設備事故診斷、風險管理。

現階段研究人員已將知識圖譜應用于煤礦領域,但由于煤礦標準文件的數量內容繁多、專業跨度大,對煤礦標準的智能化研究少有涉足。而在通用標準文件領域,張慧等[10]從標準文件的“前言”和“規范性引用文件”等共性要素入手,構建標準文獻知識圖譜。劉慧琳等[11]使用知識圖譜的模式對標準文件進行語義組織,提供了一種標準文件的知識圖譜組織模式。郝文建等[12]定義了標準文件基本要素和關鍵要素,分析了標準文件知識圖譜構建方法。秦麗等[13]分析了食品安全國家標準中三元組類型,構建了食品安全國家標準圖譜。趙偉等[14]解析了標準文件特點及結構,分析了標準文件的知識關聯關系,構建了標準文件知識圖譜RDM 模型。李臻等[15]提出了一種標準文件知識圖譜構建流程,定義了標準要素實體和標準文件間關系,分析了標準文件知識圖譜的應用場景。楊躍翔等[16]分析了標準文件的共性結構要素的概念和關系,構建本體層,將標準文件轉換為XML 文檔解析,構建標準文件知識圖譜??傮w上,標準文件知識圖譜構建的相關研究主要針對標準文件數據中共性要素的解析,對于標準文件的核心技術內容主要采用按章節結構分解的方式,缺少對標準條文內容的深度挖掘。

本文在分析煤礦標準文件特點、內容和結構的基礎上,創新性地建立了“標準文件-標準核心要素-標準條文”三層煤礦標準文件知識模型;然后根據每層數據的特點設計不同的知識抽取方案,利用圖數據庫存儲煤礦標準知識,完成了煤礦標準文件圖譜構建;最后探討了煤礦標準文件知識圖譜的應用價值。

1 煤礦標準文件

1.1 煤礦標準文件概念及特點

標準文件的定義是通過標準化活動,按照規定的程序經協商一致制定,為各種活動或其結果提供規則、指南或特性,供使用者共同使用或重復使用的文件。廣義的標準文件是標準化活動相關的所有文獻資料。本文中煤礦標準文件指與煤礦生產、建設、安全等相關的國家標準、行業標準及其分類資料、檢索工具等。

標準文件的內容、形式及適用范圍等方面具有與一般文本不同的特點,具體表現在:

(1)編排規范。標準文件具有特定的編排格式和起草規則,文本整齊規范。

(2)協調性。一個標準化對象盡可能集中在一個文件中,標準文件間避免重復和不必要的差異。

(3)時效性。標準文件是標準化對象的底線和門檻,隨著經濟的發展、科技水平的提高,標準文件會不斷地修訂、補充、替代或廢止。

(4)準確性。標準文件是規范性文件,其內容需專業、確切、規范,不應有錯誤和缺失。

標準文件前兩個特點使其能夠利用知識圖譜技術進行結構化重組,同時也由于標準文件圖譜的時效性與準確性,圖譜的構建方法必須易于更新存儲,同時能滿足標準文件圖譜的準確性需求。

煤礦標準文件主要包括煤礦國家標準(GB)、煤炭行業標準(MT)、能源行業標準(NB)和煤礦安全標準(AQ),標準類別包括基礎標準、產品標準、試驗標準、方法標準、管理標準等類型,涉及煤炭資源、煤礦地質、煤礦生產、煤礦運輸貯存、煤礦設備、煤礦安全等專業內容,種類繁多,內容復雜,難以歸納定義完整的有普適性的煤礦領域本體模型。因此,煤礦標準文件知識圖譜構建需要從標準文件的共性要素入手,構建標準知識圖譜本體框架,技術要素等差異化內容依附于本體框架各自建立概念。

1.2 煤礦標準文件結構分析

煤礦標準文件由標準要素組成,根據GB/T 1.1—2020《標準化工作導則第1 部分:標準化文件的結構和起草規則》,依據要素的作用和位置,可將標準文件中的要素劃分為規范性要素和資料性要素:規范性要素可劃分為規范性一般要素和規范性技術要素;資料性要素可劃分為資料性概述要素和資料性補充要素。標準要素的表述形式有條文、圖、表、數學公式、示例、腳注、引用等。標準要素信息如表1 所示。

表1 標準要素信息

資料性要素是標準文件理解和使用的附加信息,其內容與格式相對統一、固定;規范性要素是界定文件范圍或設定條款的要素,內容和格式相對繁多、復雜。以往的標準文件知識圖譜的構建重點多在于對資料性要素和規范性一般要素的挖掘,而構建完整的煤礦標準文件知識圖譜,數據內容須覆蓋所有規范性要素。

標準層次依據文件內容的從屬關系將標準內容劃分為相對獨立的單元,采用部分、章、條、段、列項和附錄的形式。部分是針對一個標準對象的文件因需求或編制目的不同而編制成若干部分;章、條、段和列項是文件層次劃分的單元,每一章均應有章標題,有下屬層次的條應有條標題,層級之間逐級細分、層層嵌套。將標準層次標題作為煤礦標準規范性技術要素的層次實體建立層次概念,可保留標準的行文邏輯和標準條文的上下級關系。

標準條文是由條或段表述文件要素內容所使用的文字和文字符號,即標準正文內容,可劃分為描述性條文和規定性條文。描述性條文是對標準化對象的描述,例如定義、分類、型號、方法等;規定性條文是標準化對象的具體規定,例如要求、規程、指標等。

2 煤礦標準文件知識建模

煤礦標準文件知識模型的構建關鍵是知識單元的劃分。通用文檔知識圖譜[17]是對文本關鍵詞及其關系的挖掘,只能反映文本的主題或提綱,造成的知識損失較大,而標準文件知識圖譜的知識單元劃分應盡量保證文件語義完整,知識單元的粒度應滿足知識圖譜檢索與應用的需求。標準文件知識圖譜中加入要素、條文等段落、句子的實例形式,同時對條文進行深度挖掘,表現全面完整的標準文件知識內容。根據標準文件的要素作用和編排層次的分析結果,本文創新性地解析煤礦標準文件知識圖譜架構,將其劃分為標準文件SD(Standard Documents)、標準核心要素SE(Core Elements of Standard)、標準條文SP(Standard Provisions)三個層次的知識單元,建立標準文件知識圖譜D-E-P(Documents-Elements-Provisions,標準文件-標準核心要素-標準條文)知識模型。標準文件層與標準核心要素層、標準核心要素層與標準條文層之間為包含關系。煤礦標準文件知識圖譜結構如圖1 所示。

圖1 煤礦標準文件知識圖譜結構

(1)標準文件層

標準文件層以一個標準文件作為一個知識單元,包含標準文件的全部屬性和標準文件間的關系。標準文件層知識單元定義為SD=(D,C,R,A), 其中D(Documents) 為標準文件實體;C(Concepts)為標準文件相關實體對象的集合,如人員、單位機構等;R(Relationships)為標準文件間關系,包括引用關系、替代關系等;A(Attributes)為標準文件自身屬性,如標準分類、發布日期、歸口信息、適用界限等。

標準的資料性要素和規范性一般要素中包含大量標準文件屬性和標準文件間關系,標準文件層中主要概念、屬性(關系)和所屬要素如表2 所示。以GB 25974.1-2010《煤礦用液壓支架 第1 部分:通用技術條件》(以下簡稱GB 25974.1-2010)為例,標準文件層實例如圖2 所示。

圖2 標準文件層實例

表2 標準文件層主要概念和屬性(關系)

(2)標準核心要素層

標準核心要素層以一篇標準文件下的一個核心技術要素作為一個知識單元,定義為SE=(D,L,P,R),其中D(Documents)為標準文件實體,L(Levels)為標準層次實體,P(Provisions)為標準條文實體,按照標準的“章”層次進行劃分,“章”層次下的“條”或“段”作為標準條文實體,“章標題”和“條標題”作為標準層次實體;R(Relationships)為實體間層次關系,包括上下位關系、繼承關系等。標準核心要素知識單元中包含全部的標準層次實體、標準條文實體以及實體間的層次關系,保留了完整的核心要素知識和標準文件著者的原始邏輯。標準文件層次和實體如表3 所示。以GB 25974.1-2010 為例,標準核心要素層實例如圖3 所示。

圖3 標準核心要素層實例

表3 標準文件層次和實體

(3)標準條文層

標準條文層以一個標準條文句作為一個知識單元,對條文的標準化對象與標準化內容進行深度挖掘。標準條文層知識單元定義為SP=(P,V,S,R,A),其中,P(Provisions)為標準條文實體,按照標準條文內容可分為描述型條文實體和規定型條文實體;S(Subject)為標準條文主體,即該標準條文的標準化對象;V(Value)為標準條文值,即該標準條文的標準化內容;R(Relationships)為標準條文關系,即標準條文主體與標準條文值間的關系,如表4 所示;A(Attributes)為標準條文屬性,包括條文類型、所屬要素層次等。

表4 標準條文層關系模式

其中描述型條文包含描述主體和描述值,規定型條文包含規定主體和規定值。如GB 25974.1—2010 中,條文“支架powered support以液壓為動力實現升降、前移等運動,進行頂板支護的設備”為描述型條文,包含的三元組為:(支架)-(英文名)->(powered support)、(支架)-(定義)->(以液壓為動力實現升降、前移等運動,進行頂板支護的設備);條文“支架內的行人通道的寬度應不小于0.6m,高度應不小于0.4m”為規定型條文,包含的三元組為:(支架內的行人通道的寬度)-(范圍)->(不小于0.6m)、(支架內的行人通道的高度)-(范圍)->(不小于0.4m)。標準條文層實例如圖4 所示。

圖4 標準條文層實例

3 煤礦標準文件知識圖譜構建

3.1 知識抽取

知識抽取是指從多種數據源中提取知識并存入知識圖譜,是知識圖譜構建的基礎[18]。煤礦標準文件的數據源包括半結構化數據、非結構化數據,針對標準文件模式層數據的特點采用不同的抽取方式可提高抽取效率,煤礦標準文件知識抽取流程如圖5 所示。

圖5 煤礦標準文件知識抽取流程

(1)數據預處理。在國家標準文件公開、行業標準信息服務等網站獲取煤礦相關標準文件數據,并根據知識單元定義對數據進行劃分。

(2)半結構化數據抽取。標準文件層數據的結構規范書寫邏輯嚴謹,標準核心要素層數據具有嚴格的層次編號,均可視為半結構化數據。在分析文件層各屬性關系和標準核心要素結構位置信息的基礎上,采用基于規則模板的抽取方法,構建標準文件層抽取規則,獲取標準文件層知識及標準核心要素層知識。

(3)非結構化數據抽取。標準條文層數據多為文本數據,沒有固定的特征,是非結構化數據,構建規則模板成本高且泛用性低。因此,采用基于深度學習的方法進行抽?。簩藴蕳l文數據輸入到BERT-BiLSTM-CRF 模型中,利用Bert 模型構成的字嵌入層將字轉為詞向量,利用BiLSTM(Bi-directional Long Short-Term Memory,雙向長短期記憶網絡)層提取序列特征,利用CRF(Conditional Random Field,條件隨機場)層預測標簽,得到標準條文層知識。

(4)數據整合。對各層知識單元數據抽取結果進行整理,整合為CSV 表格形式。為保證抽取數據的準確性,抽取完成后的結果需人工對抽取結果進行審查校正,以滿足標準文件的準確性需求。

3.2 知識存儲

知識圖譜存儲主要采用關系型數據庫、RDF(Resource Description Framework,資源描述框架)和圖數據庫方式實現[19]。關系型數據庫需要大量表連接實現實體關系表示,運算開銷大;RDF 三元組需事先制定特定領域RDF 詞匯表,且需借助特定RDF 工具實現管理。而圖數據庫使用節點和邊表示實體關系,且利用內置管理工具實現靈活、高效的存儲和查詢。因此,煤礦標準文件知識圖譜選用Neo4j 圖數據庫存儲方案,其中標簽對應標準文件圖譜知識模型分層,節點及其屬性對應實體及其屬性,邊對應實體間關系,存儲方案如表5 所示。

表5 煤礦標準文件知識圖譜存儲方案

圖數據庫操作可利用Neo4j 查詢語言Cypher 實現。本文使用Python 中py2neo 庫執行Cypher 語句實現數據庫增刪改查操作,常用語句包括:Node、Relationship 類創建節點及關系;find、match 語句查詢節點或關系;push 語句更新節點;run 語句執行Cypher 語句等。

將獲取的標準文件各層知識單元數據存儲到Neo4j 數據庫后,形成的煤礦標準文件知識圖譜共包含節點16257 個,關系22581 條。圖譜數據統計信息如表6 所示。

表6 煤礦標準文件知識圖譜統計信息

3.3 圖譜構建效果評估

我們已組織專業人士,針對煤礦標準知識圖譜數據進行了均勻隨機采樣檢測,對圖譜質量進行了總體評估,并進行了針對性的修改優化,基本保證了圖譜的專業性和準確性。需要指出的是,從業界目前研究現狀看,圖譜質量評估方法和指標體系尚處于研究初期,缺乏行之有效的手段,實踐可行性比較低。而且煤礦標準圖譜構建是個復雜的系統工程,目前整體系統還在完善中,后續隨著研究工作進展,我們將不定期邀請領域專家,從專業性、嚴謹性、易用性等角度對圖譜進行持續質量評估。

4 煤礦標準文件圖譜特點與應用

4.1 圖譜特點

本文研究的煤礦標準文件知識圖譜,以煤礦標準文件為切入點進行知識建模,創新性地提出并構建了“標準文件-標準核心要素-標準條文”三層知識單元模型,與其他知識圖譜對比特點如表7 所示。

表7 知識圖譜對比

4.2 圖譜應用

基于標準文件知識模型構建的煤礦標準文件知識圖譜可以為標準制定、檢索、閱讀等提供標準文件、標準核心要素、標準條文三種粒度知識單元的知識服務,有利于標準的推廣應用。利用知識圖譜相關技術開發的煤礦標準文件知識圖譜應用平臺可實現標準可視化、智能檢索問答、標準信息服務等應用。

(1)標準可視化

傳統的標準文件數據庫以PDF 圖片或標準全文方式存儲標準,煤礦從業者在閱讀多篇標準文件時難以找到所需的核心內容,閱讀過程中難以實現文檔間的自由切換。標準文件知識圖譜可視化可利用多種可視形式為用戶提供更好的閱讀體驗。通過標準文件知識圖譜展示可以直接體現各標準知識單元間的關系;利用數據分析方法將知識圖譜內容以柱狀圖、餅狀圖等圖表的形式展現出來,有助于標準數據統計研究;利用智能圖書館的文檔表現形式可以全面系統地展示標準文件知識,使用超鏈接跳轉查閱方式實現用戶的自由探索。標準可視化效果如圖6 所示。

圖6 煤礦標準圖譜可視化效果

(2)智能檢索問答

現階段標準文件檢索系統多數只能實現對標準名稱、標準編號的簡單檢索,搜索過程和結果中缺少標準文件內部信息,致使煤礦從業者難以快速、準確地定位所需標準文件,耗費時間精力研讀標準全文尋找所需信息。借助標準文件知識圖譜開發的智能檢索問答系統可以為用戶提供多級的、深層次的檢索方式,利用智能問答技術理解用戶檢索語義和意圖,提供自然語言問答交互功能。智能檢索問答應用流程如圖7 所示。

圖7 智能檢索問答應用流程圖

(3)標準信息服務

利用標準文件知識圖譜重組標準文件后,可為煤礦標準化活動提供多種標準信息服務。條文內容的細粒度抽取可將多次出現的關鍵知識共享重用,發掘標準文件的公共性和一致性,同時能對現有標準內容進行沖突性檢測;利用高質量標準形成標準文件模板輔助標準文件編寫,為標準編寫者提供涉及標準相關信息參考,保證標準的準確性;利用自然語言處理技術實現實際指標與標準文件圖譜內容比對,輔助煤礦標準實施監督檢查、達標檢測、指標評價等活動,提高監督人員效率,指標比對流程如圖8 所示,指標比對效果如圖9 所示。

圖8 指標比對流程

5 結語

本文在解析標準文件要素、層次和條文的特點的基礎上,創新性地提出并構建了包含標準文件、標準核心要素和標準條文的三層知識單元模型,將標準文件知識進行重組,保留了標準要素內容的層次邏輯和復雜語義,對標準條文知識進行了細粒度挖掘;依據標準文件知識模型,通過規則模板和深度學習方法對不同類型數據進行了知識抽取,存儲到Neo4j 圖數據庫中,完成煤礦標準文件知識圖譜構建;探討了煤礦標準文件知識圖譜的應用價值,為煤礦標準化、數字化發展提供了可借鑒思路。后續筆者計劃在煤礦標準文件知識圖譜內容的融合更新及深度應用方向開展更進一步研究。

猜你喜歡
條文圖譜要素
《中華人民共和國安全生產法》有關條文修正前后對照表(七)
桂苓味甘湯及加減方證條文辨析
繪一張成長圖譜
掌握這6點要素,讓肥水更高效
對《機車信號信息定義及分配》條文修改的分析
觀賞植物的色彩要素在家居設計中的應用
論美術中“七大要素”的辯證關系
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
也談做人的要素
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合