?

基于敘詞表的油藏構造知識圖譜

2020-04-23 13:36滿,褚冰,肖
吉林大學學報(信息科學版) 2020年1期
關鍵詞:詞表油藏本體

袁 滿,褚 冰,肖 垚

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

0 引 言

在石油領域,隨著油氣田向縱深方向開發,人們對油藏構造的認識更加深刻。在對油藏構造的認知過程中,積累了越來越豐富的構造知識,這是指導油田實施油田精準開發的重要依據。然而,由于歷史原因,這些知識以多種數據類型的形式分布存儲在不同的機構部門,導致“知識孤島”現象泛濫,嚴重阻礙其在不同專業與部門間共享。為此,多年來,石油領域一直在努力整合這些“知識孤島”,但礙于缺乏標準和科學的整合手段,一直沒有很好地解決這一難題。知識圖譜技術的正式提出,為油藏構造知識的整合提供了一種科學手段。

知識圖譜源于多學科領域,其融合了應用數學、圖形學和信息科學等學科。20世紀80年代即出現了把人類的常識編碼建成知識庫的理念。隨后,這個想法以著名的Cyc項目而得到實現,該項目名源自英文單詞“百科全書”(encyclopedia),這就是最早的知識圖譜。近年來,“語義網”的提出快速推動了知識圖譜的發展,進而知識圖譜被應用到各個領域。此外,在知識管理和共享等方面,也存在知識圖譜的研究。國外關于知識圖譜的應用研究比國內超前且研究范圍更加寬泛。Jose等[1]認為可通過知識圖譜進行知識推理,從而發現新的知識,進而可利用知識圖譜做決策。知識圖譜提供了一種更好的組織、管理和理解互聯網信息的能力,可用于語義搜索、智能問答和個性化推薦等,在社交和電子商務等領域實現其價值[2]。知識圖譜的快速應用,可進一步解決常用的知識表示在可視化、檢索和推理等方面尚未實現簡單直觀的問題。知識圖譜可簡單直觀獲取和解析數據間存在的內在關聯關系,挖掘隱藏在大數據深層次的規律和知識。知識圖譜由本體構成的模式層和數據構成的實例層兩部分構成。筆者重點針對如何將石油主題詞表中的油藏構造敘詞精準地轉換成知識圖譜的模式層,即油藏構造本體,并闡述當下相關領域的研究進展。

在地質及相關領域,譚永杰[3]指出,地質數據在不斷積累的過程中,信息技術的應用有效地提供了地質信息服務;朱月琴等[4]提到,地質數據具有海量和種類繁多等特點,是名副其實的“大數據”;周樹理等[5]構建了石油勘探開發領域本體三維模型,將石油勘探開發本體分為主題域、知識域和本體域;張瑩等[6]分析了地理本體的特征和構建方法,區分了地理本體的空間特征與屬性特征并分別對其構建,對解決地理信息建模、語義互操作、空間數據重用、知識共享和數據挖掘等問題有重要意義;李媛媛等[7]借助本體在其他領域的構建方法,利用勘探開發領域業務模型的統一標準的數據資源,提出此領域的業務過程本體的構建方法。

本體構建是一件耗時費力的工作。在本體構建方法上,國內外研究最多的當屬本體工程和詞表資源轉換。本體工程存在工作量大的明顯缺點,而敘詞表較其他詞表具有更加清晰的語義結構。敘詞表是一種規范化的詞表,本體是對概念的形式化說明,兩者都通過詞匯描述某一領域的概念[8]。目前已經有十余種敘詞表被成功轉化為相應的領域本體[9],可為領域本體中概念、關系及實例的創建提供指導[10],因而得到廣泛的關注和研究。聯合國糧農組織(FAO:Food and Agriculture Organization of the United Nations)的項目小組利用RDFS(Resource Description Framework Schema)將Agrovoc敘詞表轉化為農業本體[11];Qin等[12]為教育資料網關(GEM:Gateway to Educational Materials)中的受控詞表轉換成本體的原理和原則框架提供解決方案;SWAD Europe的研究小組對各種敘詞表進行分類,提出了基于RDFS語言的本體組織體系SKOS(Simple Knowledge Organization System)[13]。文獻[11]詳細探討了將敘詞表詞匯及詞間關系轉化為本體論數據庫格式KAON,實現敘詞表向本體轉化;文獻[14]詳細分析了傳統的敘詞表和本體的概念及其應用特點,闡明了二者的區別與聯系主要表現在邏輯表達形式和組織結構等方面;文獻[15]提出了基于《海洋主題詞表》的構建方法,構建海洋領域本體,以有效解決協調和信息共享問題,促進海洋信息管理的發展;曾新紅[16]在借鑒國外相關研究成果的基礎上,提出用OWL(Ontology Web Language)表示《中國分類主題詞表》的具體方案,并就詞表中存在的大量復合概念的深層語義揭示提出了解決意見;此后,由敘詞向本體OWL的快速轉化算法[17]被應用于各個領域。

敘詞表在轉化為本體時,主要方式為手動抽取數據構建及利用快速轉化算法進行半自動構建。在將敘詞表轉化為本體OWL的傳統方法上,對于敘詞和敘詞詞間關系的映射,將“Y”、“D”指引項直接映射為等價類,或將“S”、“F”、“C”指引項直接映射為屬性,都會增加檢索過程的工作量。而在實際應用過程中,有些敘詞,既可作為一個類,亦可作為另一個類的屬性;另外,表示屬性的敘詞,還可劃分為對象屬性類型和數據屬性類型兩種。在映射過程中,若不考慮這些問題,會造成數據冗余或敘詞概念粒度劃分較粗。當前,地質知識普遍借助本體進行表示,但對標準采用不足或采用的標準存在差異,所構建的本體很容易導致在數據共享上存在困難。而且,針對不同領域的敘詞表不能直接應用現有方法且在行業內缺乏明確的標準。針對以上問題,筆者通過對敘詞表中敘詞及詞間關系的充分研究,在將敘詞表轉化為本體時,先對敘詞及詞間關系添加標注和明確的說明,進而標準化敘詞表向本體轉化的過程,提出了基于敘詞表構建油藏構造知識圖譜的流程、預標注、映射規則及其轉換算法等。最后,筆者依據所提方法構建油藏構造知識圖譜,結果驗證了該方法的可行性。

1 知識圖譜構建流程

在傳統敘詞表向本體OWL映射,進行知識圖譜展示時,對其無法實現自動區分對象屬性和數據屬性類型敘詞的問題,筆者對敘詞表進行前期處理后再進行映射,具體流程如圖1所示。

圖1 知識圖譜構建流程

通過對敘詞表的加參標注處理,區分敘詞表中敘詞類型,生成新標注敘詞表作為輸入文件。當標注敘詞表再向本體映射時,通過筆者提出的新映射算法,就可將敘詞自動轉化為對應的表示類的敘詞、對象屬性類型敘詞及數據屬性類型敘詞等,從而生成新的領域本體,進而進行可視化展示等。

1.1 標注敘詞表定義

在將敘詞表轉換成本體前,對各敘詞進行加參標注以區分數據屬性和對象屬性類型敘詞等。雖增加了構建成本,但在實際應用時,特別對不了解本領域的使用者,可快速清楚各敘詞含義。筆者提出如下四元組TK表示標注敘詞表結構。

定義1 標注敘詞表TK=〈TK-Table1,TK-Table2,TK-Table3,TK-Table4〉

定義2 敘詞類型表TK-Table1=〈ID,DC,PropertyID〉

定義3 詞間關系表TK-Table2=〈ID,DCi,TR〉

定義4 敘詞“C”關系表TK-Table3=〈ID,IDC,DC,CID〉

定義5 “C”關系表TK-Table4=〈CID,CE,CN〉

其中ID為敘詞的標識符;IDC為與ID指代敘詞具有“C”關系的敘詞標識符;DC為敘詞,即經過規范化處理,以基本概念為基礎表達信息內容的詞和詞組;DCi為與敘詞DC進行對比的敘詞;TR為相關項種類,即敘詞詞間關系,如“Y、D、S、F、Z、C”等;CID為“C”關系類型的標識符;CE為“C”關系英文名;CN為“C”關系中文名;PropertyID為標注標識,用以區分敘詞類型,即表示該敘詞是表示對象屬性類型、數據屬性類型或非屬性類型敘詞的標識符,具體返回結果分別為10,01,00。其中01表示對象屬性類型,10表示數據屬性類型,00表示非屬性類型。

表1 敘詞類型表TK-Table1

根據上述定義,結合油藏構造相關敘詞,各表的具體示例如表1~表4所示。

表2 詞間關系表TK-Table2

表3 敘詞“C”關系表TK-Table3

表4 “C”關系表TK-Table4

1.2 本體定義

根據前面提出的標注敘詞表TK,筆者提出六元組TO表示本體:

定義6 本體TO=〈C,P,I,R,F,A〉

其中C為類;P為屬性,包括對象屬性PO和數據屬性PD;I為類的實例;R為關系,即領域內概念間的交互作用;F為函數,即一類特殊的關系;A為公理。

1.3 標注敘詞表向本體映射形式化描述

依據定義1和定義2,再結合文獻[18],給出定義1和定義2中元素對應映射的形式化描述如下。

定義7 類映射。當PropertyID為00時,集合DC中元素DCi與集合C中元素Ci相對應,記為f(DCi)→Ci;

定義8 對象屬性類型敘詞映射。當PropertyID為01時,集合DC中元素DCi與集合P中元素POi相對應,記為f(DCi)→POi;

定義9 數據屬性類型敘詞映射。當PropertyID為10時,集合DC中元素DCi與集合P中元素PDi相對應,記為f(DCi)→PDi;

定義10 關系映射。集合TR中元素TRi與集合R中元素Ri相對應,記為f(TRi)→Ri。

2 標注敘詞表向本體OWL映射

在將敘詞表中敘詞向本體中的類映射前,需根據實際應用需求,確定本體中的類。因此,筆者在映射過程中,主要選取油藏構造領域的相關詞匯。實現敘詞表到本體的映射主要包括:1)敘詞表中敘詞及其指代的非敘詞映射為本體中的類;2)敘詞表中敘詞詞間關系映射為本體類間關系。

2.1 敘詞向本體OWL類映射

在本體構建過程中,敘詞和非敘詞在本體OWL中均視為類。在映射時,主要采用“〈owl:Class〉”標簽表示這些敘詞。例如,油藏構造本體中的幾個類:“帶”、“油氣田”、“油氣藏”和“油藏儲量”等,通過OWL表示為

〈owl:Class rdf:ID=“帶”〉〈/owl〉

〈owl:Class rdf:ID=“油氣田”〉〈/owl〉

〈owl:Class rdf:ID=“油氣藏”〉〈/owl〉

〈owl:Class rdf:ID=“油藏儲量”〉〈/owl〉

2.2 敘詞關系向OWL映射

OWL已定義了Part-of、Kind-of、Attribute-of和Instance-of 4種基本語義關系。其中Part-of表達概念之間整體和局部的關系;Kind-of表達概念之間的繼承關系;Attribute-of表達一個概念是另一概念的屬性;Instance-of表達概念和概念的實例關系。然而,實際上,概念間存在的關系遠不止這4種。因此,在將敘詞表轉換為本體時,需明確這些關系。在將敘詞轉換本體過程中,除上述4種基本關系外,還存在等同關系、屬分關系和相關關系。

1)等同關系映射?!癥(用)”、“D(代)”項表示等同關系,該關系表示在概念上相同或相近的一組敘詞,在敘詞表中一般表示一組正式主題詞和其對應的非正式主題詞,包括單向等同和雙向等同兩種等級關系。

在敘詞表中,存在大量含義相同或相近的敘詞,這些詞在映射到本體OWL時視為等價類,用〈owl:equivalentClass〉標簽描述,如:

〈owl:Class rdf:about=“#油氣聚集帶”〉

〈owl:equivalentClass rdf:resource=“#油氣富集區”〉

〈owl:Class〉

2)屬分關系映射?!癝(屬)”、“F(分)”和“Z(族)”項表示敘詞間的等級關系,主要體現為上下位關系,即揭示敘詞的上位類和下位類。由于敘詞表中各敘詞根據其專業范疇劃分,其中存在表示實例的敘詞,因此該關系中包含實例關系,此外還有整體-部分關系和類屬關系。

屬分關系主要用〈owl:subClassOf〉標簽描述,如:

〈owl:Class rdf:about=“氣藏”〉

〈rdfs:subClassOf〉

〈owl:Class rdf:about=“油氣藏”/〉

〈rdfs:subClassOf〉

〈/owl:Class〉

3)相關關系映射?!癈(參)”項表示相關關系,主要指敘詞間存在語義關聯的詞間關系。包括矛盾關系、互補關系、動作關系和因果關系等。

2.3 敘詞向本體OWL轉化算法

依據1.3節給出的映射和本節的結合具體序列化語言OWL的映射,給出敘詞表向OWL本體轉換的算法,從而實現標注敘詞表向本體OWL自動轉化。其中輸入為TK,輸出為標注敘詞表的本體TO。通過此算法可實現知識圖譜模式層的自動構建。

敘詞向本體OWL轉換算法

輸入:聲明本體的一個頂層類“Thing”;

Read:TK-Table1

Do

Get一個敘詞元組from TK-Table1;

While

If TK.PropertyID=00

敘詞映射為本體的一個類;

If TK.PropertyID=01

敘詞映射對應類的對象屬性;

If TK.PropertyID=10

敘詞映射對應類的數據屬性;

Until TK-Table1最后一行;

Read:TK-Table2

Do

Get一個敘詞元組 from TK-Table2;

While

If TK.TR=“C”

Read數據from TK-Table3和TK-Table4

If TK.TR=“Y‖D”

Return對應敘詞的同義屬性;

If TK.TR=“Z、S、F”

Return類;

Until TK-Table2最后一行;

Print敘詞表的本體OWL文件。

3 知識圖譜驗證

《石油漢語主題詞表》總計收錄主題詞10 405條,其中正式敘詞8 858條,非正式敘詞1 547條,包含了除煉油外的石油天然氣工業的各個專業范疇。原型系統選用了該敘詞表中油藏構造部分的敘詞進行油藏構造知識圖譜的構建,筆者主要選取油氣田、油氣藏和帶為例構建知識圖譜。其中油氣田包括油田和氣田;油氣藏包括油藏和氣藏;帶包括凍土帶、沉降帶、油氣聚集帶和隆起帶。依據筆者給出的構建流程,首先對該專業涉及的敘詞表進行標注,并將標注的敘詞逐一存儲到關系表中;然后依據第2.3節給出的轉換算法形成OWL本體文件;最后基于上述過程生成的OWL本體文件,油藏構造知識圖譜的示例如圖2所示。

圖2 油藏構造知識圖譜

由圖2可見,油藏和油田之間有相關關系,這里是因果關系,即若是油田,則存在油藏。而油田有具體實例“大慶油田”與“青海油田”,因此可推理出:“大慶油田”與“青海油田”有油藏。由圖2中亦可獲知兩者的面積及產量等信息。

4 結 語

筆者針對將敘詞表轉化為本體時存在的不足,提出了對敘詞表預處理的細粒度標注,并給出了敘詞表向本體映射的規則,基于這些規則與OWL給出了敘詞向OWL本體自動化轉換的算法。該算法通過對敘詞表的前期處理,將敘詞及詞間關系進行分類標注,克服了傳統的手工或半自動將敘詞轉化為本體時,對敘詞概念粒度劃分較粗或干脆不對敘詞進行類型劃分標注等問題,實現了標準化的構建流程。最后,以石油主題詞表中油藏構造部分的敘詞為例,利用所提算法構建了油藏構造知識圖譜,表明了所提方法的可行性。該方法亦可用于其他領域的敘詞表轉化為領域知識圖譜中,其優勢在于所構建的知識圖譜具有標準化特征,為領域知識的科學組織、語義集成以及知識發現等研究奠定了良好的基礎。

猜你喜歡
詞表油藏本體
編制受控詞表的著作權侵權風險及其應對策略
頁巖油藏提高采收率技術及展望
復雜斷塊油藏三維地質模型的多級定量評價
眼睛是“本體”
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
近十年國內外專業學術詞表建立文獻綜述*
基于本體的機械產品工藝知識表示
潛山裂縫型油藏井網模式優化及開發實踐:以渤海海域JZ25-1S油藏為例
青海探明單個油藏儲量最大整裝油氣田
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合