?

基于知識圖譜的人物關系設計和實現

2021-01-29 03:06羅潤雨安徽理工大學
數碼世界 2020年12期
關鍵詞:分詞張三搜索引擎

羅潤雨 安徽理工大學

互聯網時代,手握搜索引擎即可將世界一系列信息一覽無余,比如在輸入框中輸入搜索詞,便可以得到相關的搜索結果。2012年,搜索巨頭谷歌率先闡釋“知識圖譜”概念,使得搜索結果產生重大變化。比如在搜索引擎之中輸入數學表達式可以獲取所需要的網頁。還可以在搜索之中輸入“張三的爸爸的弟弟的生日”,根據知識圖譜獲取該人物與張三的關系,從而找出此人的生日時間。若輸入“蘋果”,由于蘋果可以表示水果中的蘋果,也可以表示是蘋果公司。依據知識圖譜影響力與關聯性,其呈現出的信息數據同樣各有差異。借助搜索引擎的方式,能夠基于知識圖譜展開進一步延伸,實現功能的豐富與拓張。知識圖譜不僅僅是各種信息的堆砌,同時亦蘊藏著實體抽取等先進技術,能夠統籌歸納用戶需求目標形成一種觀點關系展示出來。

1 數據采集層

1.1 結構化數據導入

系統數據在格式方面具備顯著復雜性,其來源更是極其分散。結構化數據主要包含了oracle、mysql、txt、excel。非結構化數據則主要以極具普及性的txt以及word為主。由于結構化數據差異,與之關聯的適配器亦有差別,因而應當確保數據導入環節分門別類,更具契合度。比如某個數據庫某個數據表中有9千萬條數據,應用sqlserver格式,數據則是需要囊括頭字段名,比如QQ號是2個字段,郵箱號是1個字段,備注信息文本是1個字段。若web進行消息傳輸時需要用到worker,那么此時workersql獲取任務指令,即選擇動態讀取數據的方式,首先讀取100萬條數據并且保存為csv文件,其于hbase表形成記錄一項,同時于Recod表形成記錄一項,在此之后,傳輸消息至worker,當workerimp完成接受之時,針對抽取方式展開相應識別。其中兩大重要元素郵箱以及QQ無需進行抽取,備注則是應當展開分詞抽取,根據每個分詞結果,對已有類庫的規則進行匹配,并且標上標簽。隨后于orientdb范圍之中對于抽取實體進行儲存處理。隨后展開后續流程,最終即可有效達成sqlserver導入目標。

1.2 靜態文本數據監聽導入

文本數據一直以來都是系統范疇具有重要影響力的數據源泉,每一條數據格式是json,其中還包括了data、detip、srcip等字段。每個文件有將近有1萬條數據,系統會不斷的進行文件更新,針對這些數據的來源需要在mongodb數據庫之中導入這些數據。導入過程中可能會存在的問題是部分數據寫一部份數據被讀取,從而導致數據導入不完整。無法監聽所有的文件。

1.3 mongodb存儲原始數據

在大數據時代,原本根深蒂固關系型數據庫難以應對海量的數據搜索、存儲,索引,要解決此問題首要任務就是提高可擴展性,實現高效存儲。sql層面很難解決此問題,但是nosql可以解決,sql在關系層面有著業務優勢,而nosql在數據存儲與數據擴展性方面有著巨大的優勢。nosql數據庫包含混合數據庫、圖數據庫、文檔型數據庫等。

1.4 實體抽取

當前具備影響力與有效性的分詞方案堪稱雙峰插云,由中科院設計的ICTCLAS分詞系統以及哈工大設計的LTP平臺,均圍繞非結構化文本實體抽取這一重要技術展開,對于結果進行系統分析之后進行抽取分析,是實體抽取技術FLP的有效呈現。FLP其針對LTP特征,以及難以有效踐行號碼類范疇任務等問題進行針對性補充。主要利用了數字自動機正則引擎,實現對于包括hanLP各項名稱進行識別,隨后利用基于數字類實體進行的一系列抽取等等展開,應用范圍極其廣布。ICTCLAS系統則是圍繞中文自然語言進行分詞,其基礎在于詞性界定,隨后即可完成對于目標名詞的識別,進而判定姓名,書名,商品名,企業名等等,并將其歸入用戶詞典范疇,完成識別過程中的詞匯無需重復分詞。

2 知識圖譜應用

數據展示需要依靠底層知識圖譜,不同實體建立起一系列關聯,將其進行集合即可獲取網狀結構,可視化含義是把許多的信息、數據以及知識轉化成一種人類的可視化,知識圖譜的作用在于幫助人們以宏觀視角完成對于目標事物的識別與了解,進而提升查詢效率以及記憶程度。借助分析數據的方式可以找到數據關聯聯系,從中找到直接測算數據難以精準得出的其他關聯,實現認知水平的有效趨升?,F如今可視化研究發展愈發廣泛性與先進性,知識圖譜作為其中最具關鍵性的分支未來前景愈發可觀。

2.1 基于搜索引擎的關聯查詢

知識圖譜有著廣泛的運用,甚至被譽為未來搜索引擎的靈丹妙藥。在搜索欄中輸入“張三”,可以顯示出有關“張三”的基本信息,還包括“張三”的個人經歷,朋友關系等信息,以及其他的一些人員信息。這一類信息并非屬于張三直接信息,不過借助知識圖譜,能夠以“張三”為核心進行輻射,找到與其關聯的實體,隨后完成對于相關數據的歸納構設。倘若外延程度更廣,捕捉到的實體信息亦將愈發繁雜,不過科學指出查詢應當限制在六層之內,原因在于以外數據不具備過高借鑒價值。

2.2 可視化關聯分析圖

關鍵資源的分析圖是知識圖譜之中一個重要內容。知識圖譜的關鍵點在于把握實體之間的關聯差異。應當認識到,關聯分析圖通常需要基于分組展開,兩實體與整體并不屬于直接關聯狀態,其主要依據分組節點的方式完成相應關聯。舉例而言,小賈與小譚是同學關系,小賈與小陳同樣亦是同學關系,此時借助“相關人員”這一節點完成整體串聯,小賈關聯相關人員,相關人員則是分別延伸至小賈與小譚。

3 知識圖譜查詢管理

知識圖譜的出現,使得語義搜索重綻生機,在語義網絡中知識圖譜有著巨大的作用。從某種角度而言,知識圖譜屬于傳統搜索引擎的科學升級,搜索引擎通過語義網絡實體之間的關系從而優化搜索,從某一個人物出發從而找出人物之間的關系,以此遞歸下去,隨著遞歸次數增加,重要性也就降低。知識圖譜在關聯關系查詢方面有著很大運用,可以在數據繁雜的數據群體中有效識別數據存在的關聯性。在關系網中,和張三有關聯關系的人主要是來自于知識圖譜,張三有朋友,親人,老婆,父母,每一個人物能夠逐次打開,同時繼延伸。通過定性與定量分析,從而完整地展示知識圖譜體系。

4 結語

隨著知識圖譜的飛速發展,Google便是基于知識圖譜展開深層次的搜索升級,使得無論輸入什么搜索關鍵詞,都可以提取到需要的信息,給予用戶高質量體驗。隨著知識圖譜技術的不斷更新,幾乎全部的搜索引擎都不斷地靠近知識圖譜,輸入任何一個關鍵詞,從而得到自己想要的結果,然而需要意識到,知識圖譜無論功能效果多顯著多領先,其核心都需要圍繞知識庫展開,因此未來對于知識庫的選擇與審視同樣不容小覷。

猜你喜歡
分詞張三搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
分詞在英語教學中的妙用
世界表情符號日
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
你不敢告我
下車就跑
尋找張三
我的名字叫張三
基于Lucene搜索引擎的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合