?

基于語義推理的文本信息關聯關系分析技術*

2014-09-28 12:09陳天瑩蘇智慧
電訊技術 2014年1期
關鍵詞:本體關聯檢索

陳天瑩,蘇智慧

(中國西南電子技術研究所,成都610036)

1 引言

基于文本信息的數據挖掘和知識發現是當前信息處理的一大熱點。文本信息中蘊含的潛在信息非常豐富,信息之間既具有語義性又具有關聯性。文本信息的無結構性導致計算機對其理解、處理、分析較為受限,目前主要依托人工閱讀、編輯、分析的方式來進行處理。因此,如何快速從文本信息中找到信息之間的所有直接和潛在關聯,并快速對關聯信息進行分析是輔助文本信息分析人員工作的重要技術。

關聯關系屬于知識發現的范疇,分別在數據挖掘和文本挖掘中有不同的內涵和處理技術,針對不同領域、不同信息處理對象其涉及的關鍵技術也大有不同。

在數據挖掘中的關聯分析主要是指關聯規則挖掘,它由 Agrawal等人[1-2]提出,其處理對象主要是海量的有結構的數據庫數據。關聯規則挖掘主要是在有結構化的數據集上發現數據集中項之間的聯系?,F已發表的研究論文包括確定性關聯規則的挖掘、量化關聯規則的挖掘、增量式關聯規則的挖掘、廣義關聯規則的挖掘等。最著名的關聯規則算法是Apriori[3]算法,其思想是通過多次迭代找出所有的頻繁項目集。關聯規則主要運用于交易數據庫中發現各數據項之間的關聯關系,從而生成形如“X Y”的規則。

文本挖掘中的關聯分析主要是指知識關聯,它是利用各項智能分析技術對非結構化文本進行信息提取、存儲、分析后獲取有用知識和信息的技術。文本信息中的關聯性指對象之間的關聯性,如(A和B相關)、(B和C相關)、(C和D相關);檢索希望實現A到D的查詢,推理希望告訴用戶A和D具有路徑關聯關系,這是人們基于語義的一種推理過程。同時,知識之間存在很多有用的關聯性,在知識組織中,如果將知識視為一種網狀結構,那么這種特定意義上的知識就是由眾多的結點(知識)和結點間關系組成的[4]。有人將知識關聯定義為,知識關聯就是指大量的知識點之間存在的知識序化的聯系,以及所隱藏的、可理解的、最終可用的關聯,它超出信息檢索的范疇,主要是揭示知識之間隱含的關聯與寓意,發現更有價值的知識[5]。

文本信息的潛在關聯關系分析技術主要引入語義技術,將信息抽取處理的結果采用本體進行知識表示,并結合知識檢索技術、推理技術來實現文本信息挖掘。當前,國內研究將文本挖掘的方法集中在分類、聚類、機器學習等傳統技術上,對信息抽取的結果采用關聯規則提取的方式完成文本信息的挖掘,而本技術在信息抽取結果表示、處理上均采用語義技術,保留數據間的語義關系,在語義關系上進行知識檢索和推理實現潛在關聯關系發現。

2 文本信息中目標的關聯關系分析

技術以文本信息的關聯關系分析為研究對象,主要模擬文本信息處理和分析人員的需求,將信息的關聯關系分析限定為目標的關聯關系分析和潛在關聯關系發現。目標是指進行作戰或者采取行動時需要考慮的一個實體或者一個物體,它可以是為支持指揮員作戰目標與作戰意圖所采取行動而識別出得地域、集群、設施、部隊、裝備、能力、功能、個人、人群、系統、實體或者行為[6],研究的目標主要是文本信息中的個人、設施、地域、機構。為了完成文本信息中目標的關聯關系分析,首先,采用基于本體的信息抽取技術對文本內容進行信息提取,獲取語義關系;其次,將提取的信息和關聯關系存儲到知識庫中;最后,在知識庫上進行知識檢索和推理完成兩種關聯關系的分析。

2.1 關聯數據抽取

本技術采用基于本體的信息抽取技術來完成關聯數據和關聯關系的獲取。關聯關系抽取首先要確定抽取信息的范疇,即確定哪些信息是有價值的。抽取對象是目標對象及目標對象之間的關系。經過仔細分析,在文本信息中目標對象之間的關聯關系通常是和目標的動向情況進行直接關聯的。目標動向事件是指目標的行為,例如目標的參與活動、發表言論等,將動向事件簡稱為動向。研究的范疇定義如下:

因此,“目標-動向”是目標關聯的重要信息,其關系圖及示例如圖1所示。

圖1 目標對象-事件”關系圖及示例Fig.1 Diagram of target-event relationship with an example

由圖1可以看出,目標的關聯關系包括“目標-動向”、“動向-時間”、“動向-地點”以及間接的“目標-時間”、“目標-地點”、“目標-目標”6種關系。文本采用基于本體的信息抽取技術來提取關聯關系,流程如圖2所示。

圖2 關聯關系抽取流程Fig.2 Relationship extraction workflow

信息抽取首先對待處理文本進行目標實體識別,將目標實體識別的位置和分句結果相結合選取候選事件,為保證動向事件的可讀性和完整性,我們將一個完整的包含動向事件的語句作為一個動向;在候選動向事件中進行語義分析,語義分析主要包括語法分析和句法分析,當候選動向事件包含的要素滿足事件定義時,將其確定為動向事件,簡稱動向;將動向事件按照本體模型進行關聯關系提取;最后將提取出來的關系按照本體模型的schema進行存儲。

2.2 關聯本體模型構建

本體模型的構建是信息抽取、知識庫存儲、知識檢索和知識推理的依據。下面重點介紹如何對文本信息中的目標對象及目標對象關聯關系進行建模。

首先,確定領域本體的建模范圍,即建模對象(概念)有哪些,并對其關系進行描述和建模。本研究中的概念和關系如下:

其次,分別對Concept概念和關系進行建模。本體模型分為兩個部分:一個是對概念及概念之間關系的描述,在描述邏輯中通常稱為TBox;另一個可以簡單看成是對TBox進行實例化后的關系模型,稱為ABox。采用Topbraid Composer本體建模工具進行建模。

(1)概念模型

概念模型按照本體構建的標準和規范,主要定義了Class,以及Class之間的分類關系。由圖3可看出,我們定義了目標、動向2個Class,并在目標下細分人物、機構、設施、地點4個子類。如此層層細分,將我們所需要研究的概念分層分類進行表示。

圖3 概念模型圖Fig.3 Diagram of conceptual model

(2)關系模型

圖4 關系模型圖Fig.4 Diagram of relation model

如圖4所示,關系模型同樣是在本體構建得標準和規范下,定義每個Class之間的關系,以及這些關系的數據模型和邏輯描述模型。所有定義規范遵循W3C的規范標準,同時引用了RDF/RDFs、OWL標準。關系模型表如表1所示。

表1 關系模型表Table1 Table of relation model

2.3 關聯檢索及推理

關聯檢索及推理是在知識庫的基礎上,運用知識檢索技術和知識庫推理技術來對知識庫中的知識進行關聯關系挖掘和發現的一種基于業務驅動的應用性技術。關聯分析主要解決目標的知識檢索、目標的路徑關聯分析和目標的潛在關聯關系發現三個方面。

目標的知識檢索區別于關鍵詞檢索的不同在于,關鍵詞檢索使用戶只能查詢哪些文本中出現了該目標,返回的結果集大,從結果集中需要人工定位后通過上下文獲取到該目標的信息;目標的知識檢索是從目標出發,在網狀結構的知識中將目標關聯的所有事件聚合后返回給用戶。因此,目標的知識檢索是基于語句的檢索,而關鍵詞檢索是基于文章的檢索,目標的知識檢索返回的結果更加精確。同時,在知識檢索的結果上可以按時間、地點排序和統計,以實現對目標的簡要分析,如目標動向、目標活動軌跡以及活動預測等。圖5用某人物為示例展示了知識檢索和關鍵詞檢索的結果及可擴展的分析能力。

圖5 知識檢索和關鍵詞檢索結果對比圖Fig.5 Comparison between knowledge search result and keyword search result

目標的關聯關系分析分為路徑關聯分析和潛在關聯關系發現兩種,前者主要是基于知識檢索進行的路徑關聯查詢,后者是基于知識推理規則進行的知識發現。下面我們將根據一個實際的示例來主要描述潛在關聯關系發現得的分析方法和模型及結果。首先示例ABox用triples形式描述如圖6。

圖6 事件描述及抽取關聯關系Fig.6 Event description and extraction relationship

目標對象的潛在關聯關系發現模型及示例如下:

(1)關聯規則1定義:如果兩個目標A和B在同一時間、同一地點出現,則目標對象A和B具有潛在關聯。

Prolog規則模型如圖7所示。

圖7 規則1描述圖Fig.7 Description diagram of rule 1

(2)關聯規則2定義:如果兩個目標對象A和B,分別檢索并得到A和B的直接關聯目標對象集合,直接目標對象中超過兩個以上相同,則A和B具有潛在關聯性。

Prolog規則描述如圖8所示。

圖8 規則2描述圖Fig.8 Description diagram of rule 2

3 系統主要流程

信息關聯分析系統主要實現基于語義的知識檢索,并在知識檢索的結果上進行知識分析;在信息知識庫的知識上通過基于語義的知識推理來完成目標對象的路徑關聯分析和目標對象的潛在關聯關系發現。系統處理流程如圖9所示。

首先將文本信息接入到系統,系統通過本體模型中的概念來確定需要在該文本信息中識別和提取哪些目標,以及判別這些目標實體的類型;通過目標實體識別結果、類型及位置來獲取候選事件集;將候選事件集進行語法、句法分析來進行檢測,選取符合條件的事件;在抽取的事件集中,結合本體模型的關系模型來提取目標實體之間的關聯關系;將抽取的目標實體關聯關系存儲到實例知識庫中;在實例知識庫、本體知識庫上進行知識檢索;在實體知識庫、本體知識庫和規則庫上進行知識推理;最后給出關聯分析的結果。

圖9 系統流程圖Fig.9 Diagram of system workflow

文本關聯關系分析技術其目的在于為文本信息處理人員提供快速的關聯關系檢索,并輔助其完成關聯關系發現。結合工程系統應用,本技術對接入的文本信息中人物目標的相關信息進行提取,在抽取結果上引入語義技術進行人物目標的信息聚合,采用知識檢索技術實現人物目標關聯信息的快速檢索,運用知識推理技術完成指定人物目標的潛在關聯人物發現等功能,為信息分析人員進行人物跟蹤監控、多人物間關系分析等提供輔助決策信息。

4 結論

文本關聯關系分析技術針對文本信息處理領域中文本信息的關聯關系自動提取、快速檢索、潛在關聯關系發現等重大處理需求進行研究和設計,采用語義技術抽取并表示文本信息的關聯關系,運用知識檢索和推理技術實現信息聚合檢索和潛在關聯關系發現?;谡Z義進行文本信息的挖掘是一個新的研究方向,仍需要對每個處理環節進行持續研究,包括如何提取有價值的關聯信息,如何更加合理、靈活地保留其語義信息和表示,語義信息的推理技術是否可以有效結合非語義數據從而演變新的技術來滿足業務的處理需求等。

[1]Gao J.Resolution and accuracy of terrain representation by grid GEMs at a micro scale[J].International Journal of Geographical Information Science,1997,11(2):199-212.

[2]湯國安,楊勤科,張勇,等.不同比例尺DEM提取地面坡度的精度研究——以在黃土丘陵溝壑區的試驗為例[J].水土保持通報,2001,21(1):53-56.TANG Guo-an,YANG Qin-ke,ZHANG Yong,et al.Research on Accuracy of Slope Derived From DEMs of Different Map Scales[J].Bulletin of Soil and Water Conservation,2001,21(1):53-56.(in Chinese)

[3]吳強,劉宗田,強宇.基于本體的知識庫推理研究[J].計算機應用研究,2005,21(1):55-57.WU Qiang,LIU Zong-tian,QIANG Yu.Ontology based knowledge reasoning research[J].Application Research of Computers,2005,21(1):55-57.(in Chinese)

[4]曹錦丹.基于文獻知識單元的知識組織—文獻知識庫建設研究[J].情報科學,2002,20(11):1187-1189.CAO Jin-dan.The knowledge organization based on the document knowledge unit[J].Information Science,2002,20(11):1187-1189.(in Chinese)

[5]盧寧.面向知識發現的知識關聯提示及其應用研究[D].南京:南京理工大學,2007.LU Ning.Knowledge discovery oriented knowledge relationship reveal and application research[D].Nanjing:Nanjing University of Science and Technology,2007.(in Chinese)

[6]中國電子科技集團公司第十研究所.聯合情報[J].電訊技術,2012,52(suppl.1):1-132.The 10th Institute of CETC.Joint Information[J].Telecommunication Engineering,2012,52(Suppl.1):1-132.(in Chinese)

[7]于龍,蹇強.面向主題的信息抽取需求描述與分析[J].計算機工程,2012(23):57-59.YU Long,QIAN Qiang.Theme oriented information extraction requirement description and anaylsys[J].Computer Engineering,2012(23):57-59.(in Chinese)

[8]高強,游宏梁.事件抽取技術研究綜述[J].情報理論與實踐,2013(4):118-121,132.GAO Qiang,YOU Hong-liang.Summery of event extraction technology research[J].Information Studies:Theory& Application,2013(4):118-121,132.(in Chinese)

猜你喜歡
本體關聯檢索
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
眼睛是“本體”
“一帶一路”遞進,關聯民生更緊
奇趣搭配
基于本體的機械產品工藝知識表示
智趣
專利檢索中“語義”的表現
專題
Care about the virtue moral education
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合