?

數字人文視域下面向歷史古籍的信息抽取方法研究

2022-12-02 05:28韓立帆季紫荊陳子睿王鑫
大數據 2022年6期
關鍵詞:文言文實體工作者

韓立帆,季紫荊,陳子睿,王鑫

1. 天津大學智能與計算學部,天津 300350;

2. 天津市認知計算與應用重點實驗室,天津 300350

0 引言

數字人文旨在將傳統人文研究與現代計算機技術相結合,在我國,其研究多集中在圖書情報領域,尤其是古籍的數字化研究方面。史書古籍不僅是文化的延續,還蘊含著豐富的信息,是歷史研究和學習的重要基礎,如“二十四史”中包含著海量的歷史人物和事件,但由于其寫作語言為文言文,與現代大眾所使用的白話文區別較大,往往不易于閱讀和理解。如果能準確高效地抽取出其中蘊含的實體和關系等知識信息,并形象展示,則能夠有效推動人文領域的研究。

在眾多知識表示方式中,知識圖譜(knowledge graph,KG)作為一種語義網絡,擁有極強的表達能力,可以靈活地對現實世界中的實體、概念、屬性以及它們之間的關系進行建模。相比于其他結構知識庫,知識圖譜的構建及使用都更加接近人類的認知學習行為,因此對人類閱讀更加友好。知識圖譜旨在組織并可視化知識,其基礎是命名實體識別(named entity recognition,NER)和關系提?。╮elation extraction,RE)這兩項自然語言處理(natural language processing,NLP)任務。

近年來,自然語言處理技術的快速發展使人類使用自然語言與計算機進行通信成為可能。與此同時,深度學習(deep learning,DL)技術被廣泛應用于各個領域,基于深度學習的預訓練模型將自然語言處理帶入一個新時代。預訓練語言模型(pre-trained language model,PLM)極大地提升了語言信息表示的效果,成為目前自然語言處理領域的重要研究方向。預訓練模型的目標在于使預訓練好的模型處于良好的初始狀態,在下游任務中具有更好的性能表現,同時減少訓練開銷,配合下游任務實現更快的收斂速度,從而有效提高模型性能,尤其是對一些訓練數據比較稀缺的任務。

BERT(bidirectional encoder representations from transformer)[1]模型是預訓練語言模型的代表之一,旨在通過聯合調節上下文來預訓練深度雙向表示,主要分為兩個階段:預訓練(pretraining)和微調(fine-tuning)。預訓練階段模型通過兩種預訓練任務來訓練無標注數據,包括遮蔽語言模型(mask language model,MLM)任務和下一句話預測(next sentence predict,NSP)任務。模型在微調階段使用預訓練階段的參數初始化,然后使用下游任務的標注數據來微調參數。由于BERT模型結構簡單且有效性高,因此陸續出現了眾多在其基礎上進行改進的模型,對于英語外的其他常用語言,研究人員也提出了針對不同語言的預訓練模型。

針對中文的預訓練語言模型研究近年來引起廣泛關注,現有的中文預訓練模型處理中文的能力已經在BERT模型的基礎上得到進一步提升。然而,現有的中文預訓練語言模型大多集中在白話文上,且現有的文言文預訓練語言模型僅使用文言文語料進行預訓練,沒有針對性地修改模型結構和優化訓練過程。因此,本文面向文言文特點構建了一個預訓練語言模型,在BERT模型的基礎上對預訓練任務和模型結構進行優化,從而進一步提高預訓練語言模型處理文言文的性能。

此外,目前現有的中文理解測評基準及數據集大多為白話文,無法針對性地微調模型使之適應文言文任務,同時無法準確評測模型處理文言文任務的性能?,F有的文言文NER任務數據集來自第十九屆中國計算語言學大會(the nineteenth China national conference on computational linguistics,CCL2020)“古聯杯”古籍文獻命名實體識別評測大賽,其標注數據僅包含“書名”及“其他專名”兩類實體,且規模有限。因此,本文設計并構建了一個眾包標注系統,結合群體智慧與領域知識實現標注的高效性和準確性,實現歷史古籍文本中實體和關系的高精度抽取。根據系統獲得的標注結果生成了文言文知識抽取數據集,包括建立在相應數據集上的細粒度NER任務和RE任務,數據集可用于微調當前自然語言處理主流的預訓練語言模型,并評估模型,處理文言文的性能,同時能夠為中國古代歷史文獻知識圖譜構建提供數據支持。本文的整體技術框架如圖1所示,在眾包標注系統所得數據集上的實驗證明了本文提出模型的有效性。

圖1 整體技術框架

1 相關工作

1.1 數字人文視域下的文化遺產眾包

數字人文是人文學科與計算機科學交叉研究衍生出的一個新領域,強調通過數字化重構的方式,以開放、共建和共享的形式將各類人文資源呈現于公眾面前,近年來逐漸受到學術界和工業界的廣泛關注,大量基于數字人文的文本挖掘、地理信息系統(geographic information system,GIS)、情感分析、可視化等應用開始出現。對文化遺產大數據的梳理離不開社會各界的共同努力,在數字化浪潮與文化建設需求的雙重推動下,對文化遺產資源進行數字化、結構化、關聯化等一系列運作,以開放數據的形式提供數字化服務,實現從靜態資源保護向動態文化傳承的轉變,在保護和傳播文化遺產的基礎上讓文化遺產資源得到有效利用。

眾包一詞最早由Howe J[2]提出,其核心含義是一家公司或機構將傳統上由員工履行的職能以公開召集的形式外包給廣泛而不確定的群體。早期的眾包模式應用主要集中在商業領域。近年來,文化記憶機構逐漸意識到眾包模式的價值,嘗試引入眾包模式開展一系列實踐 探索[3-4]。例如,利用大眾力量進行各類文化遺產數據采集、標注或分類的工作。

從發起者角度來看,文化遺產眾包項目可分為兩大類:社會驅動型和組織驅動型。其中,社會驅動型項目數量不多且較少受 到關注[5];相較而言,組織驅動型項目更加廣泛成熟。組織發起文化遺產的眾包活動主要基于文化遺址和文化習俗的記錄、保護與傳承的需要。

根據文化遺產資源類型的不同,組織驅動型文化遺產眾包項目主要可細分為3類:館藏資源建設型、文化遺址和景觀保護型、非物質文化遺產保護型。其中,館藏資源建設型文化遺產眾包項目是指文化記憶機構在數字資源建設中引入眾包模式,使公眾深度參與這些特色資源的組織、交流和管 理過程[6-7]。具體而言,眾包模式在館藏資源建設中的典型應用包括增加數據價值(如標記、評論)、提高數據質量(如數據更正)和補充數據內容(如創建并上傳用戶原創內容)。

然而,由于在數據化組織與管理、語義化分析、長期存儲和開放獲取等方 面存在瓶頸[8-9],文言文數字化轉型之路困難重重,由一人或者一個小型團隊獨立完成的模式難以滿足數據量大量增長的現實需求。而 且經研究表明[10],在共享文化環境和互動協作方式的眾包模式下,非物質文化遺產的記錄和保護獲得了有力支持。鑒于此,本文通過設計構建一個眾包標注系統,實現“二十四史”語料中實體和關系的高精度抽取,為文言文的保護與傳承提供可行路徑。

1.2 基于預訓練模型的信息抽取

預訓練模型是指預先設計好模型的網絡結構,對輸入數據進行編碼訓練,然后解碼輸出,提高模型的泛化能力。預訓練完成后的模型可以根據下游任務的實際需要進行微調,相比從零開始訓練模型節省了大量的開銷。信息抽取是一種從文本數據中抽取特定信息的技術,主要包括兩個子任務:命名實體識別和關系抽取。

早期的預訓練模型技術基于傳 統的詞向量嵌入[11-12],2013年Mikolov T等人[13]提出的 Word2vec模型對詞嵌入向量進行了優化,包括了連續詞袋模型(continuous bag-of-words model,CBOW)和跳字模型(continuous skip-gram model,Skipgram)兩種訓練模式。相比傳統詞向量嵌入模型,Word2vec具有更低維度、更快運算速度、更具通用性等優點,但同時也存在無法針對具體下游任務進行動態調整等缺點。

近年來,預訓練模型占據信息抽取的主導地位,并取得最新成果?;谏舷挛牡念A訓練模型開始流行,CoVe(contextualized word vectors)[14]模型可以從網絡模型中獲得上下文向量,并與詞向量結合以提升模型性能。ELMo(embedding from language models) 由Peters M等人[15]首次提出,并應用動態詞向量方法實現復雜的語義表示,根據詞所在語境上下文對詞向量進行相應調整,動態生成詞向量,解決了一詞多義的問 題。

Vaswani A等人[16]在ELMo模型和注意力(attention)機制的基礎上提出了Transformer模型。該模型完全依賴于attention機制,沒有使用諸如循環神經網絡(recurrent neural network,RNN)和卷積神經網絡(convolutional neural network,CNN)等較為流行的神經網絡結構。attention機制一方面可以很好地處理較長序列,另一方面可以并行地處理數據。Transformer模型采用經典的編碼器-解碼器(encoder-decoder)結構,在編碼器結構中將輸入文本序列處理為一個連續的輸出序列,在解碼器結構中將這個輸出序列進行處理,并輸出結果。

Transformer模型在諸多任務中的應用效果表明,它的特征提取能力強于長短期記憶(long short-time memory,LSTM)[17]神經網絡結構,因此Radford A等人[18]基于Transformer模型提出了GPT(generative pre-training)模型,該模型利用了Transformer模型中的Decoder結構,并且訓練階段與ELMo相同,均采用兩階段訓練模式,先通過大量語料完成模型預訓練,再針對具體下游任務完成第二階段的微調訓練。

ELMo和GPT模型均為自回歸模型,ELMo雖然使用了雙向長短時記憶(bidirectional long short-term me mory,Bi-LSTM)[19]網絡獲取雙向語義信息,但其將方向相反的兩個網絡進行疊加的做法不能真正實現對文本的雙向語義理解。谷歌(Google)在2018年提出了BERT模型,該模型基于Transformer模型的Encoder結構,使用完全雙向的語言模型結構,同樣采用預訓練和下游任務兩階段的訓練模式。BERT模型的出現大幅提升了自然語言處理任務的效果?;趯ER T模型的優化,RoBERTa[20]模型將BERT模型中的靜態掩碼替換成了動態掩碼,即對每次輸入的句子進行隨機掩碼,并移除BERT模型中的下一句話預測任務,進一步增強了模型在文本推理任務中的表現。同時,基于B ERT模型衍生的許多預訓練模型[21-22],為自然語言處理任務中大量缺乏標注數據的任務提供了 新的思路。2019年 Cui Y M等人[23]提出的BERT-wwm模型將全詞掩碼(whole word masking,WWM)的方法應用至中文預訓練模型,取得了更優的實驗效果。

王東波等人[24]以《四庫全書》為訓練集構建的SikuBERT和SikuRoBERTa預訓練語言模型在古文NLP任務上表現出了優秀的學習與泛化能力。但是,目前基于預訓練模型完成文言文信息抽取的研究工作仍然還有很大的提升空間。本文基于BERT預訓練語言模型構建了一個面向文言文語義特點的預訓練語言模型,通過優化BERT模型的預訓練任務和模型結構,提高預訓練語言模型處理文言文的性能,并在此基礎上進一步完成文言文語言理解數據集上細粒度的NER任務和RE任務。

2 基于預訓練模型的知識抽取

2.1 預訓練任務

BERT模型采用遮蔽語言模型和下一句話預測這兩個任務對模型進行預訓練。具體來說,遮蔽語言模型任務對輸入文本中15%的字進行隨機遮蔽,遮蔽部分以80%的概率將其改變為“[MASK]”標簽,以10%的概率將其替換為隨機字,以10%的概率保持不變,之后讓模型對遮蔽的內容進行預測。下一句話預測任務則從語料庫中抽取一個語句,再以50%的概率抽取它之后緊接著的語句,以50%的概率隨機抽取一個其他的語句,讓模型判斷這兩個語句是否是相鄰語句。兩個任務分別學習輸入文本的詞級別信息和句子級別信息,目前已被證明均有提升空間。遮蔽語言模型采用類似完形填空的方式讓模型學習預測缺失字,但沒有考慮到詞語邊界信息;而下一句話預測任務難度較小,由于抽取到的兩個語句很可能并不屬于同一話題,因此較容易識別其是否銜接,不利于模型學習句子之間的聯系。

本文針對文言文語料的特點對原始的預訓練任務進行了優化,分別采用詞級別隨機長度遮蔽任務、句子級別句子順序預測任務以及文檔級別標題內容匹配任務以充分捕獲多級語義。具體來說,文言文中單字往往可以表達完整含義,無須對其進行分詞,因此本文采用一種已被證明簡單有效的隨機長度遮蔽任務,并隨機選擇長度為1到最大長度的目標進行遮蔽。如果將最大長度定義為N,則遮蔽片段長度為1~N,此時遮蔽片段長度為n的概率如式(1)所示:

其中,n和k的取值范圍均為1~N。在本文中,最大長度N為3。

此外,本文使用句子順序預測任務代替BERT模型的下一句話預測任務。該任務將來自同一文檔的兩個連續文段作為正例,以50%的概率將兩個連續段落的順序交換作為反例,避免文段主題的差別,促使模型專注于學習句子間的連貫性。

最后,為了學習到更高級別的語義信息,本文提出文檔級別標題內容匹配任務。具體來說,考慮到古代詩詞往往篇幅較短、標題通常包含詩詞主題的特點,該任務將中國古代詩詞數據集作為訓練語料。該任務是一種類似于句子順序預測任務的二元分類任務,用于捕獲高級語義信息。具體來說,該任務將標題和內容匹配的詩詞作為正例,將50%的概率打亂詩詞的標題與內容之間的匹配作為反例,使模型學習標題與內容的語義關聯,捕獲更高級別的語義信息。

2.2 模型結構

首先,模型對于輸入語料中的每個文字生成3個部分詞嵌入,即目標詞嵌入、段嵌入以及位置嵌入,疊加后輸入類似于BERT模型結構的Transfomer編碼器進行處理。

對于輸出的詞向量,為了獲得更多可學習的表示,本文引入一個卷積層,將預訓練語言模型生成的語料表示輸入該卷積層,使用激活函數非線性地將詞嵌入轉換為更高級別的特征。對于字符向量xt,經過卷積層生成的詞嵌入定義如式(2)所示:

其中,Wt表示權重矩陣,bt表示偏置向量。

此外,為了進一步增強詞表示,本文利用滑動窗口機制,設計了句子級聚合,以有效地獲取相鄰字符信息。具體來說,本文人工設置窗口大小,窗口在目標句劃定的范圍內滑動,從窗口第一次包含目標字符開始,到窗口最后一次包含目標字符結束,所有經過的詞及目標字符本身都被視為目標字符的鄰居。在滑動過程中需要考慮兩種特殊情況,即如果目標詞是句子中的第一個或最后一個詞,則窗口滑動范圍等于窗口大小。出于簡潔性考慮,在實驗中使用平均聚合方法,在給定窗口中聚合詞向量的鄰居信息。本文將聚合過程定義為AGG函數,則字符向量xt在窗口尺寸w下的聚合結果htw定義如式(3)所示:

其中,xj是鄰居字符向量,pt和pj分別表示字符向量和鄰居字符向量的位置,s表示句子的長度。由線性變換得到xt的新表示ht定義如式(4)所示:

其中,Ws是一個可學習的權重矩陣,σ是一個激活函數,如ReLU函數。

3 基于眾包系統的知識抽取數據集構建

3.1 眾包系統設計與實現

本文針對歷史古籍標注任務專業性較強的特點,設計并構建了一個眾包標注系統,引入“二十四史”的全部文本,允許工作者標注其中的實體和關系。不同于現有的眾包系統,由于該標注任務需要工作者具備領域知識,因此本文將工作者專業度引入系統,以得到更準確的標注結果。具體來說,工作者初次登錄系統時,系統需要對其進行專業度判斷,同時在答案整合和眾包激勵分配的階段均將專業度納入考慮。此外,目前的眾包系統大多注重任務的分配,系統中的標注任務多以題目的形式呈現,并盡可能通過任務分配算法交給能夠準確作答的工作者。而本文的系統中,標注任務以文本的形式呈現,并向每名工作者開放相同任務,即“二十四史”的全部內容均在系統中呈現,工作者可以自行選擇感興趣的章節,也可以對同一文本進行不同的標注,最大限度地發揮群體智慧。

眾包系統的工作者標注界面如圖2所示,每位工作者可以從左側的樹形目錄中選擇感興趣的篇章進行標注,系統支持實體和關系的標注,并將標注出的實體用帶有背景色的方框顯示,標注出的關系用斜體并加下劃線顯示。每一頁對應歷史古籍文本中的一個段落,在每個結束標點處換行,方便工作者進行閱讀和定位。

圖2 眾包系統的工作者標注頁面

由于本系統涉及的標注任務具有較強的專業性,需要在工作者初次登錄系統時就對其專業能力進行判斷,以了解該工作者是否能夠勝任本系統開放的標注任務。因此,本系統引入了大多現有眾包系統未納入考慮的工作者專業度,并定義了兩種工作者類型,即“專家工作者”和“普通工作者”,同時定義了兩種判斷方法。

對于已知的專業度較高的工作者,如高校的教師、學生等,在將其信息錄入數據庫時,可以直接將其類型定義為“專家工作者”。而對于未知工作者,如社會上的歷史愛好者等,系統準備了具有標準答案的測試題目,要求工作者首次登錄系統時進行作答,根據工作者的答題準確率和題目難度綜合計算該工作者的專業度,具體計算方式如下。①選取若干志愿者(在本文中均為歷史或計算機專業的學生),準備若干具有標準答案的題目請志愿者進行作答,根據其答題情況為每道題目賦難度初始值,難度定義為答錯的志愿者數量與參與答題志愿者總數的比值(取值范圍為[0,1])。②工作者進入系統后,題目難度動態變化,計算方式仍然為答錯的工作者總數與參與答題工作者總數的比值,此時的工作者總數為注冊工作者的數量和志愿者數量的總和。③題目的分數與難度值成正比,定義為難度值乘10并向上取整,將所有題目分數之和定義為總分。如果工作者得到的分數能夠高于總分的60%,將其定義為專家工作者,反之,則將其定義為普通工作者。

眾包系統中的專業度測試頁面如圖3所示,工作者首次登錄系統時將跳轉到該頁面進行專業度測試,完成頁面的題目后點擊“提交”按鈕,系統返回工作者得分占總分的百分比及工作者類型。

對于同一題目,若工作者具有不同的回答,現有系統往往采用投票策略,以多數工作者的作答為最終結果。后續也有很多研究工作將工作者在系統中完成標注任務的準確率納入考慮,以獲取更加準確的結果,而對于本文系統中定義的歷史古籍中的實體和關系標注任務,專業度高的工作者更有可能做出正確的標注。因此,不同于現有方法,為了確保結果的準確性,本系統在答案整合階段充分考慮了工作者專業度。

具體來說,系統允許工作者修改頁面上的現有標注,并在工作者進行標注時將工作者ID、標注時間以及標注內容等信息均錄入數據庫。如果多名工作者對同一個實體或實體對有不同的標注,在頁面上會展示最新的標注結果,而在數據庫中將分別保存它們,即出現新的標注并不會覆蓋之前的標注。在下載數據時,若對應同一文本存在多條標注記錄,即同一文本存在不同的標注內容,則將進行基于工作者專業度的答案整合。具體來說,系統為專家工作者賦予雙倍于普通工作者的權重,并采用加權多數投票策略來獲得最終結果,而特別的是,若工作者將頁面上的現有標注刪除,系統同樣會將該操作錄入數據庫,并認為此工作者對該文本的判斷為非實體或實體對不存在關系。

大多現有眾包系統在計算工作者的獎勵時考慮了其標注數量及準確率,而本文在該基礎上,將工作者專業度納入考慮,提出了一種新的眾包激勵機制,并以固定的周期結算獎勵。具體來說,簡單地將答案整合后的最終結果視為正確結果,如果工作者的標注與正確結果相同,則給予獎勵,否則不給予獎勵。此外,認為專家工作者做出正確標注的可能性更高,因此為了激勵其積極進行標注,給予其雙倍于普通工作者的獎勵。最后,為了調動工作者盡可能準確地完成更多的標注,該系統還對標注的數量和正確率設置了閾值,對超過該閾值的用戶給予多倍獎勵。

例如,若將一次實體標注或關系標注的單價設為p,標注數量閾值設為at,標注準確率閾值設為ct,這時如果一名普通工作者在某一獎勵分配周期內完成了n個標注,其中正確標注m個,且該工作者的標注數量與標注準確率均超過了系統設定的閾值,則該工作者將獲得的獎勵reward計算方式如式(5)所示:

3.2 知識抽取數據集構建

基于眾包標注系統的實體和關系標注結果,構建了一個由NER和RE任務及其相應數據集組成的文言文知識抽取數據集。細粒度NER任務數據集由文本文件和標簽文件組成。文本文件與標簽文件逐行對應,共定義6類實體:人名(RER)、地名(LOC)、職位名(POS)、組織名(ORG)、書名和戰爭名。在標簽文件中,采用BIO標注法對文本進行標注,對標注為實體首字的文本賦予“B-”標簽,對標注為實體中間字或尾字的文本賦予“I-”標簽,對非實體的文字賦予“O”標簽。NER任務數據集的統計信息見表1。

表1 NER任務數據集的統計信息

RE任務數據集的統計信息見表2,共包括7類關系:組織名-組織名、地名-組織名、人名-人名(PER-PER)、人名-地名(PER-LOC)、人名-組織名(PERORG)、人名-職位名(PER-POS)和地名-地名?;谠紨祿?,本文可以生成一個由句子和關系文件組成的關系分類數據集,該數據集中,句子文件和關系文件逐行對應,表示每一個句子及其所包含的關系。此外還可以生成一個類似于NER任務數據集的序列標記數據集,該數據集同樣由文本文件和標簽文件組成,但這時,生成的標簽不再是實體類別標簽,而是標志其是某關系的主體或客體的標簽。

表2 RE任務數據集的統計信息

4 實驗及結果分析

4.1 參數設置及評價指標

在微調階段,除批量大?。╞atch size)、學習率(learning rate)和訓練輪數(epoch)外,其他超參數均與BERT預訓練階段所使用的超參數相同。實驗結果表明,能夠在微調階段獲得較好效果的超參數取值如下:batch size取32;learning rate取5×10-5、3×10-5、2×10-5;epoch取3~10。

本文在實驗中將F1值作為衡量模型性能表現的評價指標,它綜合考慮了精確率和召回率。如果模型能夠在測試集上取得較好的性能,可以考慮使用模型自動抽取未標注文本中的實體和關系,以進一步擴展數據集;否則,迭代從系統中獲取新標注的實體和關系再對模型進行微調,直到模型能夠在文言文任務上取得出色表現。

4.2 數據集

本文除了采用由眾包系統中獲取的數據構建的數據集外(介紹詳見第3.2節),還采用了CCL2020“古聯杯”古籍文獻命名實體識別評測大賽主辦方提供的GulianNER數據集,該數據集定義了書名(BOOK)和其他專名(OTHER)兩類實體,數據集的統計信息見表3。

表3 GulianNER數據集的統計信息

4.3 實驗結果與實驗分析

本文在基準測試中評估了以下預訓練模型:BERT-Base、BERT-wwm、RoBERTa-zh和Zhongkeyuan-BERT(以下簡稱ZKY-BERT),簡要介紹如下。

● BERT-Base:谷歌人工智能研究院于2018年10月提出的預訓練模型,是NLP發展史上具有里程碑意義的模型成果。

● BERT-wwm:采用全詞遮蔽任務,引入詞邊界信息,由遮蔽隨機譯字(token)改為分詞后對完整的詞進行遮蔽。

● RoBERTa_zh:使用更大的模型參數,更大的bacth size和更多的訓練數據。此外,在訓練方法中,去除了下一句預測任務,采用了動態遮蔽方法,加強了訓練實例的隨機性。

● ZKY-BERT:使用殆知閣語料和唐詩宋詞數據集等文言文語料進行進一步的預訓練,將最大句子長度從128修改為512。另外,設立了受限波束搜索以排除非法轉換。

在6類實體數據集上的實驗結果如圖4所示??梢杂^察到,在處理細粒度NER時,本文模型能夠取得最好的性能表現,在文言文語料庫上訓練的ZKY-BERT模型表現和適應中文特點的BERT-wwm模型也能取得較好性能,模型之間的性能表現差距較大。

圖4 在6類實體數據集上的實驗結果

由于戰爭名和書名兩類實體數量較少,為了進一步提升模型的性能,本文采用了去除這兩類實體的數據集進行實驗,結果如圖5所示??梢杂^察到,由于實體類型減少,預訓練模型均表現出了相對較好的性能,且模型之間的性能差距縮小。

圖5 在4類實體數據集上的實驗結果

在GulianNER數據集上的實驗結果如圖6所示,由于該數據集中包含的實體類型較少且數據規模較大,模型均能取得較好的性能表現??梢杂^察到,本文模型依然能取得最佳性能,在文言文上訓練過的ZKY-BERT模型次之,模型之間的性能差距縮小。

圖6 在GulianNER數據集上的實驗結果

對于RE任務,本文將其拆分為兩個子任務:關系分類和序列標記。實驗表明,基線模型在關系分類任務上可以達到47.61%的準確率,而由于關系類型較多且數據較為分散,在序列標注任務上各模型都不能取得較好的性能表現。

5 結束語

為了基于預訓練模型實現歷史古籍中實體和關系數據的抽取,助力傳統人文研究,并為知識圖譜的構建提供數據基礎,本文提出基于BERT模型對其預訓練任務和模型結構均進行優化的方法。針對文言文知識抽取任務的特點設計多級預訓練任務,并添加卷積層及句子級聚合等結構進一步優化詞表示。同時,構建了一個基于工作者專業度的眾包標注系統,以實現對古籍文本中實體和關系的標注,從而構建一個文言文上的語言理解測評基準,對模型的性能進行評估和微調。實驗證明了本文提出的模型相較于其他基線模型在處理文言文任務的性能上有所提高。

由于基準集數據量較小,本文的模型在知識抽取任務上的性能表現仍有較大提升空間。在未來工作中,筆者將探索如何高效獲取更多標注數據,并進一步探索如何提升模型在文言文上的性能表現,以推進傳統人文領域的研究。

猜你喜歡
文言文實體工作者
關愛工作者之歌
小題精練(二) 文言文翻譯
小題精練(一) 文言文翻譯
致敬科技工作者
我們
——致敬殯葬工作者
前海自貿區:金融服務實體
普法工作者的“生意經”
會背與會默寫
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合