融合BabelNet的多語言智能信息檢索模型

2020-04-23 13:44于再富

吉林大學學報(信息科學版) 2020年1期

于再富,袁滿

(東北石油大學計算機與信息技術學院,黑龍江大慶 163318)

0 引言

信息檢索是人們獲取信息和知識的主要途徑,隨著網絡的高速發展和普及,當今社會已經進入智能時代和大數據時代,信息已從以前的單一性,變為多元化、海量化。如今人們對信息的需求急劇增加,如何能在最短的時間內得到全面、準確的結果,成為人們關注的焦點。與此同時,隨著經濟全球化的發展以及世界各國頻繁交流溝通,各種文化彼此之間相互交流、相互融合。人們如何快速準確的得到并理解非母語的信息成為傳統信息檢索面臨的難題。因此跨語言信息檢索(CLIR:Cross-Language Information Retrieval)隨之產生,跨語言信息檢索是指以一種語言檢索出其他語言信息資源的檢索方法[1]。在國外,康奈爾大學早在1969年就進行了跨語言信息檢索實驗,但是該術語首次出現在文獻標題中則是計算機情報檢索專家Salton教授在1973年發表的一篇論文[2]。后來,Monti等[3]通過知識驅動的方法建立了一種基于本體的跨語言信息檢索系統,其可半自動地將自然語言映射到形式語言,實現了多種語言的自然語言查詢翻譯。Di等[4]研究設計了在特定語言的本體中映射數據和元數據,并用英語和意大利語做實驗,驗證了方法的可行性。國內,對于跨語言信息檢索的研究主要集中在構建語義模型方面,鄭德權等[5]根據本體和統計學的方法構建了語義模型,并利用NTCIR-3 workshop中英數據集進行試驗,取得了不錯的結果。司莉等[6]通過本體及檢索功能模塊設計并建立了一個基于數字出版領域本體的中英跨語言信息檢索模型,并且試驗成功。

目前,國內外對跨語言信息檢索系統實現方法雖然多種多樣,但大部分主要以本體論和統計學的方法構建跨語言信息檢索模型?；诮y計學的方法主要可以解決源語言與目標語言映射時的歧義問題,但不能保證具有語義性,由于本體可以在語義層面對概念進行描述,因此筆者綜合了兩種方法,結合統計學和本體論各自的優點建立跨語言信息檢索模型。

1 跨語言信息檢索相關技術研究

1.1 信息檢索中的多語言翻譯技術研究

1.1.1 跨語言信息檢索的實現方法

不同語言之間的匹配問題,即如何將源語言與目標語言建立準確的映射關系是跨語言信息檢索的難點問題。目前,跨語言信息檢索中提問詞與文檔匹配技術主要分為4類[7]。

1)文檔翻譯。此方法是將文檔翻譯成為用戶輸入的查詢源語言。此方法解決了用戶對目標文檔不能閱讀理解的問題以及語境問題。由于翻譯文檔工作量巨大,雖然這個方法在實驗環境下效果優于提問式翻譯,但實際并不適用[8]。

2)中間語言翻譯。此方法利用中間語言將用戶的輸入和檢索文檔轉換為同一邏輯格式,或轉換為第3種語言,避免了直接翻譯導致的語義偏離。一般當源語言與目標語言不能直接互譯時采用此方法,但此方法需要大量的轉換計算,因此響應性和可靠性相對較低。

3)提問式翻譯。此方法是指將用戶輸入的概念語言翻譯成文檔的語言,然后再進行單語言信息檢索。此方法的優點在于實現時經濟簡單,難點在于如何解決消岐、建庫問題以及用戶對于目標文檔的閱讀理解問題。

4)不翻譯。目前不翻譯的方法主要是構建雙語或多語訓練集,再進行分析獲得文檔與提問詞的映射關系,然后進行單語言信息檢索。目前主要有語義標注的方法、本體的方法和同源匹配的方法等。

不同的實現方法有不同的規則和優點,但同樣也面臨不同的問題?；谔釂柺降男畔z索面臨的問題主要是當用戶使用信息檢索系統時,通常輸入的都是關鍵詞或簡短的句子,沒有上下文有關語境支持,信息檢索系統很難做出語義關聯性判斷,并不能很好的表達用戶的需求想法,因此檢索系統反饋的結果也不盡人意。因此查詢擴展(Query Expansion)一詞被提出,查詢擴展結合了計算機語言學和信息學等多種技術方法,將用戶輸入的原始概念進行擴展、修正得到新的概念,然后把新的概念作為輸入檢索系統的查詢初值,利用查詢擴展這種方法可以彌補用戶輸入的缺陷。

1.1.2 源語言與文檔翻譯技術

通過上述跨語言信息檢索的實現方法可知,跨語言信息檢索的核心主要是翻譯,翻譯是實現跨語言信息檢索的核心,目前國內外相關跨語言信息檢索的實現與應用中,主要有以下4種翻譯方法。

1)基于機器翻譯的方法?；跈C器翻譯目的就是將用戶的提問語言翻譯為目標文檔語言或將目標文檔翻譯為用戶提問的語言,然后再進行單語言信息檢索[9]。由于機器翻譯是基于計算機語言學等原理設計的,但因各種語言對應不同的語法規則,所以翻譯的質量也參差不齊。隨著基于統計學的機器翻譯不斷地完善,目前翻譯的可靠性相對較高,并且容易使用。

2)基于詞典翻譯的方法?；谠~典的翻譯方法主要是利用雙語或多語詞典將用戶的提問語言與目標語言建立映射。該方法雖然準確率提高很多,但雙語詞典或多語詞典的構建周期太長,費時費力,很難構建出面向領域全面并且實時更新的詞典。

3)基于語料庫的方法。語料庫是指將大量相關信息經過半自動或自動整理構建的可以被計算機使用的數據集合。語料庫一般分為平行語料庫和可比語料庫,基于語料庫的方法需通過平行語料庫中的互譯對、可比語料庫相似主題詞組的映射關系,提取出翻譯結果或者過濾翻譯后產生的歧義翻譯項[10]。語料庫的建立初期目的是為了自然語言處理和機器翻譯,所以將其用于跨語言信息檢索所得的效果相對較差。

4)詞典與語料庫混合方法。該方法結合了基于詞典翻譯和基于語料庫翻譯兩種方法各自的優點。首先對基于提問式方法采用詞典進行翻譯,翻譯后可能會出現多個結果或結果模棱兩可的情況,此時,再利用專業語料庫中相關術語過濾翻譯結果。該方法雖然具有基于詞典翻譯和基于語料庫翻譯各自的優點,但構建詞典和語料庫都是浩大工程。

筆者在基于提問式翻譯的基礎上采用統計機器翻譯?；诮y計機器翻譯實現跨語言信息檢索的方法就是源語言使用經過大量平行語料訓練建立的統計機器翻譯模型得到翻譯結果即目標語言,從而實現跨語言信息檢索。但是機器翻譯不能對源語言和目標語言在語義層面進行擴展,因此語義關聯性較差。針對以上問題筆者在基于提問式統計機器翻譯的基礎上引入本體,本體包含大量語義關系,可以解決語義關聯度問題以及結果反饋的準確性問題。

1.2 信息檢索中的語義關聯度算法研究

1.2.1 詞匯本體

本體可以理解為概念及概念之間關系的規范化、形式化、可共享和明確化的描述[11],可以從概念的層次讓機器理解和處理用戶的輸入。由于本體具有豐富的語義概念關系,可以保證概念之間通過概念鏈、關系鏈互相連接,因此可以用來查詢擴展。另外,王惠等[12]在漢語框架網絡本體的研究中,指出語義型詞典作為語言信息處理的基礎,應用于機器翻譯、自然語言接口、文獻檢索、信息自動提取、語音識別與合成、文字識別、中文輸入、詞義消歧、文本校對、語料庫加工等多種處理領域。并將例如WordNet、HowNet、同義詞詞林、漢語言框架此類語義型詞典稱為詞匯本體。它們和傳統的按字母順序組織詞匯信息的詞典不同,其更多地從詞匯的概念角度出發,將具有相同、相近含義或具有一定關聯度的詞匯聚集在一起,從單詞、句法的層面提取語義信息,并將這些信息以網狀形式呈現,使計算機能像人一樣的理解和利用其中的信息[13]。下面是對WordNet、同義詞詞林以及BabelNet的簡單闡述。

1)WordNet。WordNet是由Princeton大學的心理學家、語言學家和計算機工程師等聯合設計的一種基于認知語言學的英語詞典[14]。WordNet是根據詞義而不是詞形組織詞匯信息的,因此可以說WordNet是一部語義詞典,其中包含同義關系、反義關系、上下位關系和整體部分關系等,因此可以稱之為詞匯本體。WordNet將詞匯分為5類：名詞、動詞、形容詞、副詞和虛詞(功能詞)。其中名詞包含11個基本類如表1所示,動詞包含15個基本類如表2所示,形容詞主要分為兩類：描寫性形容詞和關系性形容詞。

表1 WordNet名詞基本類表

表2 WordNet動詞基本類表

目前WordNet已經達到3.1版本,包含155 327個字和175 979個同義詞組合,總共207 016個字檢測對[15],各個概念之間通過復雜的詞匯關系、語義關系等相互關聯形成龐大的語義網絡。

圖1 同義詞詞林5層結構

2)同義詞詞林?！锻x詞詞林》最初是由梅家駒等人于1983年編纂而成的,后由哈爾濱工業大學信息檢索研究實驗室更新修改后并發布《哈工大信息檢索研究室同義詞詞林擴展版》1.0版,其共含有77 343條詞語,是目前涵蓋漢語詞匯量最大的本體詞匯表[16]。該詞匯表按照樹狀的層次結構組織詞條,將77 343條詞語分成12個大類,97個中類以及1 400個小類。每個小類中,根據詞義的遠近和相關性分為若干個段落,然后又細分成若干行,同一行的詞語詞義相近或相關性較強。同義詞詞林5層結構如圖1所示。

《同義詞詞林》按3層編碼規則組織,編碼規則如表3所示,第8個編碼位有3種表示,“=”表示相等、同義關系。末尾的“#”表示不等,屬于詞群中的相關詞語。末尾的“@”代表獨立在詞典中既沒有相關詞,也沒有同義詞。

表3 同義詞詞林編碼規則

3)BabelNet。BabelNet是由羅馬大學計算機科學系的計算語言學實驗室所創建的,其將維基百科鏈接到WordNet以自動映射的方式構建了多語詞匯語義網絡和本體,如圖2所示。BabelNet(v3.7)已覆蓋了271種語言并且包含了大約1 400萬個同義詞集和7.46億個詞義,目前已經為4.0版本,涵蓋284種語言,包含近1 600萬個同義詞和大約8.33億個詞義[17]。BabelNet提供了多種語言的概念和命名實體,并包含了它們之間的豐富的語義關系,在處理語義相關性、多語詞義消岐、自然語言處理和神經網絡訓練等方面均發揮強大作用。

圖2 BabelNet構建圖

1.2.2 語義關聯度算法實現

本體包含大量的概念之間的關系,如相等關系、上下位關系和互斥關系等,因此筆者使用多本體解決查詢擴展中語義偏離的問題。利用多本體設計語義關聯度算法并構建語義權重模型,再將語義權重模型結合下文中的Okapi BM25F模型實現語義關聯排序算法。語義關聯度算法實現步驟如下：

Step1 將用戶輸入初始詞a賦予最高權值au；

Step2 a的翻譯結果b按照在各個翻譯器出現的頻率依次賦予不同的權值{b1,b2,…,bu}；

Step3 將a經過同義詞林擴展的結果c按照語義相似度依次賦予不同的權值{c1,c2,…,cu}；

Step4 將b經過WordNet擴展的結果d按照語義相似度進行依次賦予不同的權值{d1,d2,…,du}；

Step5 將c,d經過BabelNet處理依次賦予不同的權值{e1,e2,…,eu}。

通過以上方法,即可根據擴展詞匯之間不同的語義關聯程度賦予不同的權值,詞匯帶有的權值即可表示為與用戶原始輸入的相關程度,再將帶有權值的詞輸入到信息檢索模型,最后排序結果反饋給用戶。

2 跨語言智能檢索信息模型及排序算法

2.1 跨語言信息檢索模型

檢索系統中的檢索模型用來確定一個文檔相對于一個查詢的相關度,檢索模型在檢索系統中通常處于核心地位[18]。根據以上研究,筆者提出基于提問式統計機器翻譯融合多本體的多語言信息檢索模型,模型主要包含用戶輸入、查詢擴展、數據組織、檢索排序及結果展示5個部分。模型整體架構如圖3所示。

圖3 跨語言信息檢索架構圖

1)查詢擴展首先是對用戶的輸入使用IKAnalyzer進行分詞,IKAnalyzer是Java語言開發的開源輕量級中文分詞器,其特有正向迭代最細粒度切分算法,支持細粒度和智能分詞兩種分詞模式,并且用戶可自定義擴展詞典,而且其擁有高速切分處理能力。

2)分詞后再對分詞結果使用統計機器翻譯,本模型共使用谷歌、百度、歐米、愛詞霸、騰訊、有道、搜狗和Trycan8種機器翻譯,目的是保證全面和準確的映射。

3)將翻譯結果與兩個詞匯本體結合進行擴展并賦予權值,目的是為了保證語言映射的過程中減少語義損失。

4)將擴展結果結合BabelNet增加語義關聯進一步改變權值,被賦予權值的結果使用BM25F信息檢索模型進行檢索匹配,將結果排序反饋給用戶。

2.2 排序算法

筆者排序算法是將上文的語義權重模型與基于概率檢索Okapi BM25F模型進行整合改進。傳統的Okapi BM25F是在Okapi BM25模型的基礎上將結構化數據拆分為各個域,例如：一篇新聞拆分為標題、記者、新聞事件、落款,顯然標題是對整篇報道的總結概括,因此將標題域權重升高。經過查詢拓展之后得到的拓展結果,與用戶初始輸入的關鍵詞已經有語義距離,因此對查詢拓展后的結果使用基于多語本體的語義權重模型進行權重調整,再將其架構在Okapi BM25F模型上,從而得到排序結果。Okapi BM25F計算方式如下

(1)

(2)

(3)

通過以上方法構建的排序算法保證了檢索反饋的結果與用戶的理想結果較高的契合度。使用BabelNet和Okapi BM25F模型減少了查詢拓展后語義的損失,增加了信息檢索過程中輸入與目標文檔的關聯匹配程度,使結果更符合用戶的需求。

3 跨語言智能信息檢索原型系統及檢索結果評價

3.1 原型系統實現及測試

筆者的原型系統是基于Lucene搭建的Java Web工程,lucene是一套開源的用于全文檢索的程序,它提供了完整的索引引擎以及查詢引擎,并采用基于Scrapy+Selenium+BeautifulSoup的爬蟲方法,爬取Wiki中100個國家的中英文對應介紹,共兩百個文檔對該系統進行測試。當用戶輸入“俄羅斯”時系統反饋結果如圖4所示。

圖4 檢索結果

然后通過傳統的基于機器翻譯的跨語言信息檢索模型與筆者的基于統計機器翻譯和本體的跨語言信息檢索模型的對比分析,驗證該模型的有效性。實驗中,選取“日本”、“美國”、“俄羅斯”、“中國”、“法國”、“英國”和“意大利”等7個詞語作為輸入關鍵詞進行實驗分析。

3.2 實驗結果及分析

現有的信息檢索系統主要的評價指標包括查全率(召回率)、查準率、系統對用戶的友好程度等。查全率和查準率的計算公式分別如下

W=(Rn+Wn)×100%

(4)

A=(Rn+Sn)×100%

(5)

其中W為查全率,A為查準率,Rn為檢索出的符合用戶要求的相關結果數,Wn為檢索庫中的符合用戶要求的總信息量,Sn為檢索出的信息總量。

查全率和查準率通常保持一種相反關系,因此通常在評價IR系統時保持兩者中的一個為適當的值,改變另一個條件,以觀察IR系統的參數變化。目前TREC和CLEF對于跨語言信息檢索的評價指標為平均查準率(MAP:Mean Average Precision)[20]。其計算公式為

圖5 檢索結果效果對比圖

(6)

其中M為平均查準率,Q為提問式的數量,A(q)表示第q個查詢的平均查準率。平均查準率可以反映出IR系統對系統用戶的貢獻價值。

通過實驗,得到筆者的基于本體論的方法與傳統的基于機器翻譯的方法查準率對比如圖5所示,通過數據可以直觀地看出無論查準率還是平均查準率,筆者方法均優于傳統基于機器翻譯的方法。

4 結語

筆者針對傳統跨語言信息檢索中的語義關聯性較差等問題,將本體引入提問式統計翻譯的跨語言信息檢索模型,從而構建了基于本體的提問式統計翻譯的跨語言信息檢索模型。該方法將WordNet、同義詞詞林、BabelNet本體引入,從而豐富了信息檢索中的語義關聯性；最后通過爬蟲獲取wiki中有關100個國家的200條中英文對照數據進行試驗,并通過平均查準率對該模型與原始信息檢索模型進行對比分析,結果顯示,筆者提出的基于提問式統計翻譯并融合本體的跨語言信息檢索模型優于傳統的基于機器翻譯的跨語言信息檢索模型。