?

注入圖情領域知識的命名實體識別模型*

2023-08-08 09:32王志紅曹樹金
圖書館論壇 2023年7期
關鍵詞:圖情命名語料

王 娟,王志紅,曹樹金

0 引言

人工智能正逐漸走向數據和知識雙驅動的認知智能[1]。命名實體作為基本信息元素,是正確理解文本的基礎,也是實現認知智能的知識引擎[2]。此外,隨著通用領域和特定領域網絡信息資源的豐富,從海量、非結構化的文本中識別出相應的命名實體,對網絡信息資源的序化和有效利用具有重要價值。相比于通用命名實體,領域命名實體的數據來源更偏向于垂直領域,語料的構建也更加嚴密,這為實體識別帶來兩個挑戰。首先,領域命名實體的名稱、指代內容及對應的類別等會隨著技術的快速更新而不斷變化,很難快速有效地根據特定領域或任務場景設計相應特征;其次,面向垂直領域的實體識別需要具有一定領域知識的人員進行語料標注,增加了語料構建的難度和成本。圖情領域具有高度跨學科性[3],面向圖情領域的實體識別具有較好的代表性以及較大的難度。因此,為滿足在領域數據量小、人工標注成本高的情況下提升實體識別效果的要求,本文提出基于ERNIE(Enhanced Representation through Knowledge Integration,知識增強的語義表示)[4]的LISERNIE模型,以及面向命名實體識別的LISERNIE+BiGRU(Bi-directional Gated Recurrent Unit,雙向門控循環單元)+CRF(Conditional Random Fields,條件隨機場)模型。提出的LISERNIE 模型通過在ERNIE預訓練階段注入圖情領域知識,增強模型對領域文本的語義理解能力,從而解決通用預訓練模型因缺乏下游特定領域知識而效果不佳的問題[5]。在命名實體識別和開放域關系抽取對比實驗中,本文提出的LISERNIE+BiGRU+CRF模型的實驗性能均優于對比模型,驗證了該模型的有效性和可行性,也為下游任務如知識圖譜構建、語義檢索、問答系統等提供可借鑒的思路。

1 相關研究

不同研究對實體的定義不同,主要體現在實體類型的粒度上,如醫療領域對疾病、藥品、治療方法等的識別[6-7],軍事領域對軍職軍銜、軍事裝備、軍用物資等的識別[8-9]。在圖情領域,現有研究[10-13]主要針對可公開獲取的文摘或論文全文數據集上的情報分析方法和情報學研究方法等單一類別實體的識別;也有文獻[14-15]面向中文古籍構建歷史事件實體的識別任務。實際上,圖情領域實體復雜多樣,圖書館、情報機構配置或使用的設備、不同角色的人才組成、各種會議等都是很有價值的實體類別。因此,根據圖情領域的特點,合理劃分命名實體的類別,并基于開源數據構建標注語料,是實現圖情領域命名實體識別的關鍵步驟,也為進一步構建知識圖譜等提供數據支撐。

由于中文命名實體結構復雜、形式多樣,有效的實體識別方法仍然非常重要且具有挑戰性。隨著深度學習的興起,無需復雜特征工程的深度學習方法成為命名實體識別研究的主流。Huang等[16]提出將人工設計的拼寫特征和BiLSTM(Bidirectional Long Short-Term Memory,雙向長短期記憶網絡)與CRF 融合起來進行實體識別;李麗雙等[17]利用CNN(Convolutional Neural Network,卷積神經網絡)訓練得到字符級向量,并輸入到BiLSTM+CRF 模型中進行生物醫學命名實體識別;楊培等[18]結合注意力機制、BiLSTM 和CRF 來識別化學藥物命名實體。然而,這些方法主要采用傳統的Word2Vec[19-20]靜態詞向量來表示模型,對不同語境的適應能力較差。2018 年Google 推出BERT 模型(Bidirectional Encoder Representations from Transformer,基于Transformer的雙向編碼器表示),隨后出現越來越多的動態預訓練語言模型(Pretrained Language Models,PLM),并逐漸得到廣泛應用。這種動態PLM利用大規模無標注的文本語料進行預訓練以獲得通用特征表示,再通過微調將學習到的語義關系傳遞到下游任務中。但由于學習到的通用特征表示太泛化,導致模型往往在垂直領域表現不佳,尤其當訓練的源任務領域文本和目標任務領域文本所對應的領域不同時,模型效果下降非常明顯[21]。為增強PLM在垂直領域的應用效果,研究人員開始對如何使用領域知識來增強PLM進行探索[22-25]。結果表明,這種在預訓練階段注入知識來提升PLM性能的方法具有有效性。

目前圖情領域語料還十分稀少,因此如何為PLM注入領域知識,增強模型在垂直領域的應用效果是本文的研究重點。本文將根據圖情領域特征,對其實體分類、識別和應用展開一些基礎性研究,旨在通過同時利用知識、數據、算法和算力4個要素來構造更強大的人工智能[26]。

2 圖情領域實體分類

不同領域文本具有不同的文本特征。為比較圖情領域文本和其他領域文本的差異性,本文選取3個特定領域語料庫,分別是醫療、司法和金融領域的預訓練數據集,如表1所示。圖情領域數據集是通過自主采集圖情領域相關的百科、新聞網、高校網、協會網以及博客整理得到的,其他3個領域的數據集均為網上公開的實體識別數據集。

表1 4個特定領域文本數據集說明

本文對這4個領域做了詞匯重疊度分析[21]:隨機抽取4個領域各1,000條數據,使用Python的jieba庫對數據進行分詞處理,并過濾掉停用詞,對各領域剩下的詞統計前500個高頻詞,然后進行重合比對分析。從圖1可看出,圖情領域文本和其他3個領域的文本重合度不高,與醫療文本的領域相似度最低,只有0.033,與金融領域相似度稍高,達到0.26,這主要是因為圖情和金融領域文本中都有一些比較通用的詞匯,如“公司”“傳統”“共同”“保障”。不同領域詞分布的不同會導致語言模型在相應領域語料中獲取到的語言表征不同,因此,針對不同領域特點需要設計不同的命名實體分類和識別方法。

圖1 不同領域間的詞匯重疊度

領域命名實體的分類一般是利用標注數據集中實體內部的結構特征[27]或者知識庫定義來描述類別[28-29]。對第一種方法,有學者[30]認為實體的類別往往會以短詞的方式直接出現在實體的末尾,但本文通過統計清華大學推出的通用知識圖譜XLORE[31]中出現的圖情領域相關實體,發現這種依靠實體結構特征來獲取實體類別的方法并不可行。如表2所示,在1,602個實體中,只有17.8%的實體內部包含類別指示詞。據此,本文采用第二種方法,即基于知識圖譜定義的類別描述方法。具體而言,利用XLORE中高質量的結構化數據來擴展圖情領域的命名實體類別。通過解析XLORE發現,其層級結構關系中主要包含實體和類目兩類節點,以及類目之間的上下位關系subclass-of 和實體、類目之間的從屬關系instance-of。由于一個節點可以包含多個上位節點和下位節點,使得這個類別層級結構不是嚴格意義的樹形結構。為了把XLORE中圖情領域相關的實體節點及其對應的類目節點一一聯系起來,本文借鑒廣度優先遍歷算法(Breadth First Search,BFS)的思想,指定類目節點“圖書資訊科學”作為類別路徑[32]的起始位置,并標記為已訪問;然后從該節點出發,沿著subclass-of和instance-of 這兩類關系,訪問下位節點c1,c2,……和實體節點e1,e2,……,并均標記為已訪問;再按c1,c2,……的次序,訪問這些類目節點的所有未被訪問的下位節點和實例節點;如此循環,直到所有與(其他)節點有路徑相通的節點均被訪問為止。至此,一個沒有多余路徑和回路的類別層級結構形成。該層級結構共10層,包含75 個類目節點和1,584 個實體節點,部分示例見圖2[1]。

圖2 類別路徑示例(部分)

表2 樣本數據中類別指示詞的統計結果

在類別路徑構建過程中,筆者發現部分實體和其上位詞的語義關系較弱。比如,實體“圖書館員”“儲存裝置”“博物館資訊交換聯盟”的上位詞是“圖書資訊科學”,“國際博物館日”的上位詞是“博物館學”,這些實體和其上位詞之間都沒有遵從嚴格的上下位語義關系,無法從中獲得實體所屬類別的有效信息。為了彌補在構建嚴格意義的類別層級結構時可能誤刪掉的與實體節點更相關的類目節點,對類別路徑上的1,584個實體找出其在XLORE中所有的直接上位詞,共計3,005個。部分實體及其所有直接上位詞如表3所示。分析表3發現,相對于類目“圖書資訊科學”和“博物館學”,類目“職業”與實體“圖書館員”、類目“國際紀念活動”與實體“國際博物館日”更具有語義相關性。這樣,通過對3,005個類目進行人工修改無效類目、合并相似類目,最終形成9大類圖情領域命名實體,分別是:人(Person,Per)、組織(Organization,Org)、圖書館(Library,Lib)、技術(Technology,Tec)、設備(Device,Dev)、文檔(Document,Doc)、職位(Job)、事件(Event,Eve)以及地點(Location,Loc)。這些實體類別在本文LISNER數據集的標注如圖3所示。

圖3 圖情領域命名實體類別示例

表3 實體節點及其直接上位詞(部分)

3 基于LISERNIE的命名實體識別模型

動態PLM一般被劃分為兩階段:第一階段的預訓練過程主要包含遮蔽語言建模(Masked Language Modeling,MLM)和下一句預測(Next Sentence Prediction,NSP)兩個基本任務;第二階段使用微調處理下游任務。ERNIE預訓練的語料集主要來自中文百科類網站,這種基于通用語料上的預訓練并不能很好地適配特定領域的NLP任務。為此,本文提出基于LISERNIE的命名實體識別模型,通過在ERNIE預訓練階段注入圖情領域知識,來提升ERNIE對圖情領域文本的語義理解能力。

3.1 LISERNIE預訓練模型

總結已有模型在知識注入時所用策略,發現大部分模型或多或少修改了傳統PLM 的結構。例如,K-BERT[22]在BERT 嵌入層增加可視層;ERNIE-THU[26]使用K-Encoder 模塊將字嵌入和來自知識圖譜的實體嵌入進行融合。與上述模型不同,本文提出的LISERNIE模型不需要改變ERNIE原有結構,僅在預訓練和微調之間引入一個中間階段,以便使用領域知識對ERNIE進行繼續預訓練。如圖4所示,PLM“預訓練+微調”兩階段被調整為“基于通用語料的預訓練+基于圖情領域知識的預訓練+在命名實體識別任務上的微調”三階段。第一階段使用大量無標注的通用文本語料進行預訓練,訓練任務為MLM和NSP。第二階段直接加載第一階段預訓練好的模型,基于圖情領域知識進行無監督訓練,訓練任務仍為MLM和NSP。第三階段利用自建的小規模標注領域文本集,針對命名實體識別任務進行微調。兩階段流程被調整為三階段流程,需要消耗一定的預訓練資源,但獲得的知識是全局性的[33],能讓預訓練模型更好地應用于語義理解任務。

圖4 基于LISERNIE的命名實體識別模型

預訓練模型主要從非結構化的文本信息中獲取知識,然而目前主流的知識注入方法是將知識圖譜信息注入PLM中。相對于非結構化的文本信息,形如三元組或有向圖的知識圖譜所蘊含的是結構化的信息,需要對其進行轉換以融入預訓練模型中。如果無法進行良好的融合,所融入的知識圖譜信息不僅不會提升性能,反而會降低預訓練模型的效果?;诖?,本文選擇從CNKI下載圖情相關的期刊論文作為第二階段使用的圖情領域知識來源。學術期刊是科學知識的主要載體之一,蘊含著大量專業知識且比較新穎,將特定領域文獻作為語料引入到預訓練過程中也是最近的一個研究方向。SCIBERT的預訓練語料來自Semantic Scholar上的110萬篇文章[34],BioBERT則在PubMed摘要和PubMed Central全文文章上進行預訓練[5]。因此,本文使用易獲取的圖情相關文獻來進行后續預訓練。首先,在CNKI中檢索2007-2021年與“圖書情報”主題相關的中文期刊論文,并對結果中含有“HTML閱讀”的7,329篇論文的文本內容進行采集。然后,將作者、摘要、關鍵詞、參考文獻等信息剔除,只保留題名和全文文本內容??紤]到訓練代價大,本文僅隨機選取1,000篇進行分句處理,共切分出114,513個句子組成二次預訓練的數據集。由于注入的是與ERNIE訓練數據形式相同的同構知識,不需要考慮外部知識與原有的非結構化文本信息融合的問題,使用起來比較便捷。

3.2 面向命名實體識別任務的三層模型

本文將實體識別作為一個序列標注任務,模型輸入字序列X={x1,x2…xn},其中n代表句子中包含的字數,xn表示第n個字,輸出為對應的實體標簽序列Y={y1,y2…yn}。整個命名實體識別模型由輸入表示層、上下文編碼層和輸出解碼層3 個模塊組成。字序列的輸入向量如圖5 所示,由字嵌入、句嵌入和位置嵌入3部分求和而成。

圖5 模型輸入示例

將相加后得到的嵌入表示E={e1,e2…en}輸入到LISERNIE層。LISERNIE層中最重要的結構單元就是Transformer(Trm)編碼器。通過Trm編碼器計算得到的字的表征,既蘊含字本身的含義,也蘊含該字與其他字的關系,更具全局表達能力。為了進一步提取文本的語義特征,可以在LISERNIE 層后接入RNN(Recurrent Neural Network,循環神經網絡)或者LSTM(Long Short-Term Memory,長短期記憶網絡)、GRU(Gated Recurrent Unit,門控循環單元)等RNN改進模型。與LSTM相比,GRU具有更低的模型復雜度和更高的訓練效率。因此,本文采用由前向和后向GRU組合得到的BiGRU獲取范圍更廣的上下文依賴特征。

對于序列標注問題,需要在獲取文本特征后預測當前輸入序列的標簽。雖然BiGRU層也能預測當前序列的標簽,但它只考慮字詞自身特征,忽略了標簽之間的約束關系。因此,本文在BiGRU的輸出后面接入CRF層,以有效約束預測標簽之間的依賴關系,對標簽序列進行建模,從而獲取全局最優序列。

4 實驗和結果分析

4.1 小規模標注數據集

本文標注數據來自自建的LISNER數據集中的228篇文檔,共7,537個句子。采用半自動化標注方法,首先通過文本標注工具BRAT進行標注。由于本文采用BIO標記法,對于每個實體,首個字標記為“B-實體類別”,中間字或結尾字標記為“I-實體類別”,其他非實體標記為“O”,所以預處理標注后的數據就被分成9 類實體19 種標簽。然后,通過人工審查并修正標注結果,生成實驗用的小規模標注數據集,部分數據展示見表4。將數據集按“6∶2∶2”拆分成訓練集、測試集和驗證集,這些實體在評測數據上的分布見表5。

表4 圖情領域的小規模標注數據集

表5 實體在評測數據中的分布

4.2 模型搭建和參數設置

實驗采用Tesla V100 的GPU,32GB 的Video Mem,實驗語言為Python3.7,實驗模型采用PaddlePaddle2.1.2搭建。預訓練階段,模型超參設置如下:LISERNIE隱藏層維度為768維,batch size為64,學習率采用自定義算法,范圍為[1×10-5,1×10-4],dropout設置為0.1,優化算法使用AdamW[35]。微調階段,BiGRU隱藏層維度為256維,模型由15個Epoch進行訓練,學習率范圍設置為[6×10-5,1×10-4],其余參數的設置與預訓練階段保持一致。

4.3 評價指標

本文使用實體級別的準確率(Precision,P)、召回率(Recall,R)及其調和平均數F1來評價模型效果,具體計算公式如下:

4.4 實驗設計與分析

為了驗證基于LISERNIE的圖情領域命名實體識別模型的有效性,本文設計了4組實驗。第一組為使用不同PLM 的實體識別效果對比實驗,用來檢驗注入領域知識的PLM相比其他PLM 是否取得更好的性能;第二組為不同類別的實體在不同規模數據集上的識別效果對比實驗,用來檢驗本文模型在小規模標注數據集上的性能是否穩定;第三組為消融實驗,用來驗證本文模型中各個模塊的有效性;第四組實驗將模型應用到實體關系抽取中,以驗證模型的可行性。

(1)不同PLM的對比實驗。分別使用Word2Vec、BERT[36]、ERNIE、RoBERTa[37]、ALBERT[38]及本文的LISERNIE等PLM得到句子的語義表示向量,再接入BiGRU和CRF兩層,實體識別結果見表6。本文提出的基于LISERNIE的識別模型效果最好,F1 值達到75.46%,相較于基于ERNIE的模型,提高了1.08%,表明為預訓練模型注入領域知識能夠提升實體識別效果。而ERNIE的F1值又略高于BERT,這是由于在預訓練語料方面,ERNIE不僅使用百科類語料,還使用新聞資訊類、論壇對話類語料來訓練模型;相比于BERT僅使用百科類語料,ERNIE可獲得更好的語言表征,也進一步驗證了注入外部知識有利于提高模型的語義表示能力?;趥鹘yWord2Vec 的效果最差,可見“預訓練+微調”的動態PLM比靜態PLM具有更大優勢。此外,從運行時間來看,各個模型相差不大,對于可以離線計算的任務而言是可接受的。

表6 不同PLM的識別效果對比

(2)不同類別的實體在不同規模語料(數據集)上的對比實驗。將數據集規模劃分為四分之一、三分之一、二分之一、三分之二、四分之三和全部數據集,基于LISERNIE+BiGRU+CRF的命名實體識別模型在不同規模數據集上的識別效果如圖6所示??梢钥吹?,同一個模型對不同類別實體的識別效果也有一定的差距,但總體上,實體的F1值和數據集的規模呈現一定的正相關。隨著語料規模的減少,實體的識別效果下降較為平緩,說明本文模型在小規模數據集上的性能比較穩定。Person實體的F1值基本在85%以上,主要原因是對于Person這類通用命名實體,預訓練階段已經取得很好的效果,即使在標注數據很少的情況下,識別性能也不會受到很大影響。但占比較少的Document、Device、Technology和Event這4類實體識別效果都出現急劇下降情況,說明測試數據太少還是會導致深度學習模型難以有效學習,識別效果大打折扣。

圖6 不同類別實體在不同規模數據集上的實驗結果

(3)消融實驗。為更好地分析模型各個部分的作用,本文還進行了模型消融實驗,即在原始模型基礎上分別去掉BiGRU層、CRF層,以及同時去掉這兩層。另外,為了檢驗BiGRU層的效果,還采用BiLSTM作為替換模型進行了實驗。觀察表7 可以看到,模型各個部分都起到了作用,模型1、2、3 的F1 值分別比本文模型低2.1%、1.19%和1.09%,說明去掉BiGRU層和CRF層的任何一層都會造成性能下降,并且同時去掉BiGRU層和CRF層,比單獨去掉其中一層效果下降更加明顯。比較模型2和4以及本文模型和模型5,發現用BiGRU替換BiLSTM后的效果和運行速度均有所提升??梢?,相對BiLSTM模型,BiGRU 模型參數更少、網絡結構更加簡單,使得整個模型計算速度更快,在小數據集上的泛化效果也更好。

表7 不同模型的識別效果對比

(4)基于LISERNIE的實體關系抽取實驗。面向開放域的關系抽取可以掙脫預定義關系的束縛,識別句子中實體與實體之間的關系,抽取出實體關系三元組。為分析LISERNIE模型對其他NLP 下游任務性能提升起到的積極作用,從LISNER數據集中隨機取出166個句子,將基于LISERNIE實現的關系抽取方法和現有的CORE(Chinese Open Relation Extraction,中文開放關系抽取)[39]系統進行對比。CORE系統共抽取出22個句子中的38個三元組,經人工校對,3個正確,準確率為7.89%。本文方法共抽取出134個句子中的277個三元組,85個正確,準確率為30.69%,部分抽取結果如表8所示。

表8 抽取結果對比(部分)

CORE系統采用基于依存句法分析的關系抽取方法,只抽取由動詞或名詞引導的介導關系,大量有用的關系實例被過濾掉,導致準確率大大降低。本文采用流水線方法,首先基于LISERNIE+BiGRU+CRF模型對句子中的實體進行識別,接著過濾掉句中“實體數<2”的句子,最后抽取句子中實體對之間的文本作為關系。例如,句子“國家古籍保護中心在組織開展古籍數字資源發布的同時,全國古籍‘摸家底’工作也取得重要進展?!苯涍^模型識別出一個Org實體“國家古籍保護中心”,但因為句子中的“實體數<2”,該句被過濾掉。又如,表8中的句子1經過本文模型識別出Eve實體“中華古籍保護計劃”、Tec實體“中華古籍資源庫”和“全國古籍普查登記基本數據庫”以及Lib實體“國家圖書館”,所以實體“中華古籍保護計劃”和實體“中華古籍資源庫”之間的文本被抽取出來,形成三元組["中華古籍保護計劃","重要階段成果","中華古籍資源庫"]。這種抽取處理簡單,不受限于限定模式,準確率較CORE系統有較大的提高。

當然,本實驗主要是為了驗證LISERNIE+BiGRU+CRF模型在關系抽取中的可行性。實現方法僅是在Riedel等[40]假設的基礎上放松抽取限制,認為如果實體對存在某種關系,那么存在該實體對的句子反映了該關系,并針對每一個實體對進行關系抽取,這樣會造成大量信息冗余,降低準確率。但本文方法無需預先定義實體關系類型,只需少量標注實體的預訓練語料,對于后續開展開放域的實體關系抽取研究具有一定的借鑒意義。

5 結語

針對圖情領域內標注數據少、相關知識庫缺失等問題,本文利用知識圖譜中的實體節點及其類別層級結構,科學確定了圖情領域的實體類別,并構建了一個基于領域知識注入的預訓練語言模型LISERNIE。在隨后開展的命名實體識別實驗和開放域關系抽取實驗中,相比于基線模型,本文提出的基于LISERNIE+BiGRU+CRF的命名實體識別模型能更有效地識別出實體及其關系,可以更好地支撐后續諸如知識圖譜構建、問答系統、機器閱讀等自然語言應用的開展。未來可關注:一是在預訓練階段,過多的知識注入可能帶來噪聲,造成模型損失,但注入的知識不足則對于提高模型對文本的語義理解力幫助不大,后續研究可探討把什么樣的知識以什么樣的方式注入預訓練模型中,使模型在下游任務上有更好的表現;二是采用流水線方法進行開放域關系抽取會產生大量冗余信息,今后可以嘗試結合語義、語法信息實現實體關系的有效抽??;三是將知識驅動的人工智能和數據驅動的人工智能兩種范式結合起來,是人工智能發展的必經之路[26],后續研究可以思考如何將數據和知識融合,以實現更好的效果。

猜你喜歡
圖情命名語料
數字時代圖情檔學科教育的數據化創新
命名——助力有機化學的學習
新文科建設背景下的圖情檔學科建設(筆談)“新文科”呼喚圖情檔成為“硬”學科
聚青年學者之睿智 窺圖情檔學科之未來
——寫在《圖書與情報》“圖情檔青年學者專輯”出版之前
有一種男人以“暖”命名
為一條河命名——在白河源
基于語料調查的“連……都(也)……”出現的語義背景分析
中國盲人數字圖書館服務情況及展望
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合