面向新詞義原推薦的相似性判別方法

2024-03-26 02:39王之光張桂平

中文信息學報 2024年1期

白宇,田雨,王之光,張桂平

(1. 南京航空航天大學計算機科學與技術學院,江蘇南京 210016;2. 沈陽航空航天大學人機智能研究中心,遼寧沈陽 110136)

0 引言

《知網》(HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫[1]。HowNet的構建秉承還原論思想,即所有詞語的含義可以由最基本的、不再分割的最小語義單位構成,而這種語義單位被稱為“義原”(Sememe)。義原是構成概念描述的核心部件。目前,《知網》構建了包含約2 200多個義原的精細的語義描述體系,并為約14.8萬概念標注了義原。例如,“小米”在HowNet中的定義即Def被描述為: {material|材料: MaterialOf={edible|食物},material={crop|莊稼}},如圖1所示。

圖1 新概念發現及義原推薦示例

HowNet自問世以來,受到自然語言處理領域的廣泛關注,國內外學者在詞匯語義消歧[2-3]、相似度計算[4-6]、文本分類[7]等方面探索了 HowNet 的重要應用價值。近年來,相關研究[8-9]表明,HowNet通過統一的義原標注體系直接刻畫語義信息,且每個義原含義明確固定,可被直接作為語義標簽融入機器學習模型,使自然語言處理深度學習模型具有更好的魯棒可解釋性。然而,與其他依靠人工構建的知識庫系統一樣,HowNet存在著規模有限、更新擴展維護成本高的問題。沒有HowNet背景知識和未經專門訓練的人員難以較好地完成義原預測任務[10]。這導致HowNet潛在的巨大應用價值與其自身規模有限、語義資源稀疏且難擴展的矛盾,解決這個矛盾的一個可行的途徑就是開展HowNet的自動或半自動構建技術的研究,其核心問題之一就是為新概念的描述選擇合適的義原。

隨著時代發展,新詞匯和舊詞新用的概念不斷涌現。新詞義原推薦(或預測)任務就是在HowNet已有義原集合中選擇出適合構建其概念義項Def描述的義原子集。例如,在現有HowNet知識庫中,“小米”的概念義項Def描述包含的義原集合為{material|材料,edible|食物,crop|莊稼}。然而,在目前實際語言環境中,“小米”除了具有一種農作物的概念外,還可以描述為一個公司名或電子產品的品牌。因此,其義原集合中還應該包含{InstitutePlace|場所}或{SpeBrand|特定牌子}等義原。

通常,語義相似的詞語或概念之間會共享相同的義原,因此,解決新詞概念義原推薦問題,可以借鑒協同過濾(Collaborative Filtering,CF)的主要思想: 即利用HowNet已有概念的Def描述中的義原集合來預測當前新詞概念的Def描述最可能使用的義原集合,其關鍵在于度量新舊詞語或概念之間的語義相似性。

近年來,基于詞的分布式表示方法已成為計算詞語相似度的主流方法,但是,這些方法采取的詞語表示學習過程與HowNet對詞語或概念描述的形成過程存在著本質區別,這導致了“相似性異構”問題。為了直觀地說明該問題,我們在HowNet中隨機抽取了兩組中心詞語,并獲取了HowNet中與其語義相似的詞語集合,對于該集合中的全部詞語再通過基于Word2Vec[11]算法獲取其對應的詞向量,通過對詞向量進行可視化來展示基于詞的分布式表示方法得到的詞語之間語義距離關系。如圖2所示,其中,a組詞語以“神經束膜”“團委”“原生質”為中心詞,b組詞語以“豐田”“分理處”“猶太教堂”為中心詞,HowNet中語義相近的詞語在圖中使用相同符號進行了標記。圖中相同符號的點的聚集性越明顯,則語義距離的度量結果的一致性越好。

圖2 基于詞向量與基于HowNet的詞語相似關系比較HowNet中的語義相近的詞語使用相同符號表示

從圖中顯示的結果可見,基于詞的分布式表示方法與基于HowNet義原的相似度度量方法之間存在差異,表現為詞語之間語義距離的度量結果的不一致。為了更好地為新詞概念選擇合適的義原,需要建模一種新的相似度計算方法,使其計算得到的度量結果能夠逼近基于HowNet義原的相似度計算結果,即達到“相似性同構”?；谶@種假設,本文提出一種融合義原注意力的預訓練語言模型優化方法SaBERT。在判別新詞與HowNet詞表詞之間的語義相似性的過程中,該方法利用詞表詞已知概念描述義原序列的注意力分布,以相似性同構為目標,對基于BERT+CNN的相似性判別模型進行優化,從而為義原推薦任務提供相似概念集合。實驗結果表明,本文方法可有效解決未登錄詞與詞表詞的相似性判別問題。在基于協同過濾框架的義原推薦任務中進行的實驗表明,相似性同構程度與義原推薦效果成正相關,本文方法能夠有效解決候選義原的選擇問題。

1 相關概念與模型

1.1 HowNet的義原標注體系

HowNet通過事件、萬物、屬性、屬性值、部件、空間、時間等7個維度進行世界的描述,示例如表1所示。

表1 知網7個維度的概念示例

1.2 預訓練語言模型

隨著深度學習的發展,卷積神經網絡(CNNs)[12],遞歸神經網絡(RNNs)[13],圖神經網絡(GNNs)[14]和Transformer[15]等神經網絡模型被廣泛應用于解決自然語言處理(NLP)任務[16]。相比于非神經網絡模型方法嚴重依賴于離散的手工特征,神經網絡方法通常使用低維稠密向量隱式表示語言的語法或語義特征。近年來,大量的研究表明,使用大規模文本語料庫進行訓練得到的預訓練模型(PTMs)可以學習近似通用語言表示[17-19],在對特定任務的小數據集微調后,可在顯著降低單個自然語言處理任務的難度的同時提升系統性能。

在詞語相似度計算方面,由于分布式表示方法可以通過將單個詞表示為低維稠密實數向量,捕捉詞語間的關聯信息。因此該方法可在低維空間中高效計算詞語間的語義關聯,有效解決數據稀疏問題[11]。雖然以Word2Vec為代表的詞語表示學習模型已經在詞語相似度計算任務中取得了較好的效果。然而,Word2Vec中每一個詞語被映射到一個唯一的稠密向量,它無法處理一詞多義(Polysemy)問題。此外,現有的根據詞語的上下文分布來學習詞語的表示向量的表示學習模型,不能有效地對于出現次數較少或未登錄的詞語進行表示學習,這成為影響詞語分布式表示方法在相似度計算任務上發揮作用的主要障礙。

相比于Word2Vec為代表的分布式表示方法,BERT[18]的一個比較突出的優勢就是詞語表示的動態性,能建模一詞多義的現象。在新詞概念的義原推薦任務中,對于未登錄詞(OOV)的分布式表示需求普遍存在,為了減緩OOV的影響,一種普遍的方法是擴大詞典規模,以提升模型訓練過程中詞匯的覆蓋度,但該方法不能從根本上解決OOV問題。

采用基于字的預訓練語言模型,例如可利用BERT編碼后對應位置的字的隱層向量得到當前詞語的向量。然而,簡單地將詞看作字的序列來計算詞向量的方法的效果并不理想。此外,在HowNet中,概念相似性的度量關鍵是計算概念對應的義原序列之間的相似度。在序列語義相似度(如句子相似度)計算方面,采用孿生BERT網絡結構的句子嵌入方法Sentence-Transformers(S- BERT)[20]表現出了良好的性能。該方法將句子對輸入到參數共享的兩個BERT模型中,將BERT輸出句子的所有字向量進行平均池化后獲得每個句子的句向量表示。因此,本文嘗試利用詞表詞已知概念描述義原序列的注意力分布,以相似性同構為目標,對基于BERT的相似性判別模型進行優化。

1.3 義原協同推薦框架

在HowNet中,由義原向上構建概念,由概念向上定義詞,詞語、義項、義原的關系如圖3所示。這里以詞語“小米”為例,由“material|材料”、“edible|食物”和“crop|莊稼”等義原及其關系構成的概念義項的描述為: DEF={material|材料: MaterialOf={edible|食物},material={crop|莊稼}(senseID: 177381),再由這個概念義項定義詞語“小米(millet)”。

圖3 詞語、義項、義原的關系示例

如上所述,HowNet中,每個詞語對應一個或多個概念義項的定義(Def),每個Def包含一個或多個義原。任一概念的描述中的義原之間通過體現概念與概念和概念的屬性與屬性之間的相互關系連接,通常一個義原可能存在于多個概念義項的定義之中。在對多個詞語的語義關系進行建模時,就形成了“詞語-義項-義原”關系網絡。

我們期望利用“詞語-義項-義原”關系網絡的結構特征和基于協同過濾機制發現詞語的新概念并為其推薦相關義原。

協同過濾機制是推薦系統所采用的最為重要的技術之一[21]。其基本原理是假設兩個用戶如果具有相類似的購買行為,則他們對同一類商品感興趣的程度也就會比較接近,那么當前用戶很有可能會對另一個相似用戶所喜歡的商品感興趣。在語義相似性度量方面,結合HowNet中對概念描述方式的規定,可以認為,語義相似的概念應具有相似的義原關聯集合。因此,在義原推薦的任務中,采用協同過濾機制是一種可行的途徑?；驹硎歉鶕嗨频母拍盍x項所包含的義原來推薦當前詞語尚未被標記但在實際語言環境中很可能表達其某方面語義信息的義原。

利用相似詞語對應的概念獲得待推薦義原的集合。如圖4所示,首先,在HowNet詞表詞集合中,通過相似性判別模型選擇與新詞(未登錄詞)相似的詞語構成相似詞集合;其次,基于上述全部詞語、詞語對應的概念義項及其義原,構建局部“詞語-義項-義原”關系網絡;最后,基于網絡節點重要性排序方法進行義原節點的選擇。

圖4 義原協同推薦框架

這里使用兩種中心性(Centrality)的度量方法評估義原節點的重要度,并以此重要度作為義原選擇排序的依據。度中心性(Degree Centrality)是在網絡分析中刻畫節點中心性(Centrality)的最直接度量指標。一個節點的節點度越大就意味著這個節點的度中心性越高,該節點在網絡中就越重要。標準化度中心性測量如式(1)所示。

Cd(vi)=∑jxij/max(Cd(vj)),i≠j∈N

(1)

其中,xij=1表示節點i與節點j之間存在直接聯系,否則,xij=0;N為網絡中全部節點的集合。由于節點的度(Degree)的計算過程沒有考慮圖中鄰接節點的重要性,不能很好地體現詞語之間對義原的共享特征。因此,需要從路徑這個維度來度量節點的中心性,這里引入基于介性中心度(Betweenness Centrality)的中心性度量方法。計算網絡中任意兩個節點的所有最短路徑時,如果這些最短路徑中有很多條都經過了某個節點,那么就認為這個節點的介性中心度高。介性中心度測量如式(2)所示。

(2)

其中,σst表示從節點s到t的最短路徑數,∑st(vi)表示從節點s到t經過vi的最短路徑數。節點的介性中心度是以經過某個節點的最短路徑數目來刻畫節點重要性的指標。一個義原節點的介性中心度越高,說明其被相似詞語共享的可能性越大。

結合義原節點的標準化度中心性和介性中心度,計算義原節點的推薦指數如式(3)所示。

R(vi)=Cd(vi)×log(Cb(vi)+1)

(3)

在協同推薦的框架下,以相似詞語集合為橋梁建立了未登錄詞與義原的關聯關系,基于上述義原節點的推薦指數完成未登錄詞的候選義原的排序選擇。

2 相似性判別模型

新詞概念義原推薦任務的目標是為HowNet中未登錄的概念推薦合適的義原,因此,需要找到一種義原未知概念與義原已知概念之間的相似度計算模型。由于概念以詞的形式表現,上述問題可轉換為未登錄詞語與詞表詞的相似度計算問題。

與一般的詞語相似度計算不同,一方面,基于相似性同構假設,相似性的判別是以基于HowNet的詞語相似度計算結果為標準;另一方面,參與相似性判別的詞語由未登錄詞(OOV)和HowNet詞表詞(IV)構成,對于IV而言,構成其概念描述Def的義原集合是已知的,可以被用來提升模型的收斂性。

相似性判別模型的整體框架如圖5右側部分所示。該模型把輸入的新詞和詞表詞對應的字序列分別輸入到兩個SaBERT模型,獲得融入義原序列信息的語義表示向量,向量拼接后通過CNN分類模型完成未登錄詞與詞表詞的相似性判別。

圖5 SaBERT2+CNN模型

其中,義原注意力模型SaBERT的結構如圖6所示,SaBERT首先將詞表詞的概念描述Def所對應的義原樹進行先序遍歷,得到義原中文詞序列SL;然后將義原序列SL經S-BERT(固定參數,distilue-base-multilingual-cased)得到其向量表示ESL;將ESL與詞語中每個字經過BERT后得到的隱藏層向量hci進行拼接,然后再接一個激活函數為tanh的全連接層,其中參數矩陣w1∈R2d×n,并通過Softmax得到各個字向量的權重向量α;最后通過向量加權和得到詞語的最終向量表示e。

圖6 義原注意力SaBERT模型

a=Softmax(tanh(w1[ESL;hci]))

(4)

(5)

在模型訓練過程中,為了使模型的預測結果能夠逼近基于知網義原的相似度計算結果,即達到“相似性同構”的目的,本文利用了經典HowNet語義相似度計算模型[4]作為相似性判別的標準模型。經典HowNet語義相似度計算結果為[0,1]連續實數,對其計算結果的分析發現,相似詞語之間計算相似度的結果值在[0.9,1.0]、[0.8,0.9)、[0.7,0.8)和[0.0,0.7)區間上的比例約為6∶2∶1∶1。由于本文進行詞語相似度計算的目的是面向候選義原集合的構建進行相似詞語的選擇,因此,為提高相似詞選擇的質量,這里我們將相似性判別問題看作以0.9為分類閾值的二分類問題,通過離散化處理將連續相似度值轉換為相似程度判別標記,采用交叉熵損失函數完成模型訓練。

3 實驗與分析

3.1 實驗設置

3.1.1 數據集

將相似詞判別問題作為二分類任務?；贖owNet經典相似度計算方法構建詞語相似度矩陣A。將相似度大于或等于0.9的詞對作為正類,其余作為負類。矩陣A中,刪除義原預測測試數據集合中包含的詞語對應的行和列后,形成矩陣B。在B矩陣的元素中選取27 000組詞對按8∶1∶1劃分為相似詞選擇模型的訓練數據集、驗證集和測試集。

為了驗證本文相似性判別方法對義原預測結果的影響,將基于SaBERT的相似性判別方法與當前主流的基于預訓練語言模型的方法以及HowNet標準模型進行比較。義原預測實驗使用的數據集從HowNet知識庫中抽取產生。首先,按照概念描述所涉及的義原數量將HowNet知識庫中的詞語分成11類,實例如表2所示。其次,從各類中抽取若干詞語,數據分布及實例如表2所示,該測試數據集合計包含1 069個詞語。

表2 義原推薦任務測試數據集實例

3.1.2 對比模型

采用的對比模型及模型對應的輸入信息如表3所示。我們使用準確率P、召回率R和F1值作為詞語相似性判別的評測標準。

表3 相似性判別對比模型

3.2 實驗結果分析

以HowNet詞語語義相似度作為標準,表4列出了基于我們提出的模型和其他對比模型的詞語相似性判別結果。

表4 不同模型的P、R、F1值比較

續表

由表4可知: ①在與新詞的相似性判別結果中,基于詞表詞義原信息的相似性判別結果普遍優于僅使用詞表詞的結果。②在基于詞表詞義原信息的相似性判別結果中,基于共享參數的模型普遍優于使用非共享參數的模型。③模型SaBERT2+CNN取得了最好的詞語相似性判別結果。

為了比較不同相似性判別模型對基于中心性的義原選擇模型的影響,采用了如表5所示的4種基本模型及其組合模型對相似性判別模型進行性能評估,其中,相似性差別模型為義原選擇模型使用的關系網絡的構建確定了相似詞集合。

表5 基于中心性的義原選擇模型

使用F1值和MAP值作為義原推薦的評測標準。

(6)

其中,K為詞語的義原數量,pk為第k個正確義原在推薦序列中的位置。

表6列出了分別基于獨立模型(BERT)、非共享參數的模型(BERT+CNN)、共享參數的模型(SaBERT2+CNN)對不同義原推薦模型效果的影響情況?？芍?義原推薦效果與相似性判別結果正相關,即模型的相似性判別結果與基于HowNet的相似度計算結果越一致,義原推薦效果就越好,這表明了本文以相似性同構為模型優化目標的合理性。

針對不同義原數量情況的模型表現對比如圖7所示,圖中縱坐標為不同義原預測模型取得F1值的算數平均,橫坐標為義原數量。該結果表明,在對具有不同義原數量的詞語進行義原預測時,SaBERT2+CNN模型均表現出良好的效果。

圖7 針對不同義原數量情況下的模型對比

4 相關工作

隨著互聯網應用的普及,文本大數據中大量的新詞不斷出現,同時現有詞語的含義被延伸和擴展,因此有必要對以義原為基礎的語義知識庫進行持續地修正和擴充。

在詞匯進行義原自動標注方面,Xie等人[22]提出了義原預測任務,并基于詞嵌入(Word Embeddings)和義原嵌入(Sememe Embeddings)提出了多種義原預測模型,借助協同過濾和矩陣分解的方法,從已有的人工標注數據集學習詞匯與義原的通用的關系,從而自動構造出新詞的義原。依賴詞語外部上下文信息的語義表示方法無法有效處理低頻詞或未登錄詞。Jin等人[23]提出了基于詞語內部字信息和外部上下文信息的義原預測框架,通過將內部模型和外部模型融合,提升了低頻詞義原預測的效果。為了克服低頻詞嵌入質量差,義原預測準確性不高的問題,Li等人[9]提出了基于字和多標記分布序列到序列模型(Label Distributed Seq2Seq Model),利用詞的定義和描述信息進行義原預測。張磊等人[24]基于多標簽分類模型架構,通過將句子中的詞作為模型輸入,減小了用字作為最小單位的歧義性。杜家駒等人[25]提出了義原相關池化模型,利用局部語義相關性來預測義原,該方法依賴于定義文本的獲取質量。在低資源的情況下,解決義原推薦問題的關鍵在于計算新詞與HowNet詞表詞之間的語義相似度。

詞語相似度計算方法可以分為基于語料庫的方法[26]和基于知識庫的方法[27]。目前,大量主流的詞語語義相似性計算方法可以歸類為基于語料庫的方法。這些方法基于分布假設,從大型文本集合中學習單個詞語之間的關聯。如果兩個詞語的上下文環境越相似,或者它們在一起出現的頻率越高[28],則假定它們的語義相似程度越高。通常,詞語的分布式表示通過詞語在語料庫中的共現信息獲得,其中一種最經典的基于詞相鄰關系的表達方式就是Word2Vec,每個詞語被映射到一個唯一的稠密向量。BERT相比以Word2Vec為代表的詞嵌入方法,使用Transformer中的編碼器作為特征抽取器,這種方法對上下文有很好的利用,能夠動態建模一詞多義的現象。上述方法均以字或詞的分布式表示為基礎,忽略了基于詞向量與基于HowNet義原信息的詞語相似關系不一致問題,不適合基于協同框架的義原推薦任務。

5 結論

本文提出了語義相似關系的異構問題,假設與HowNet基于義原的語義相似性度量具有一致性的詞語相似度判別模型能更有效地為新詞推薦義原?；谶@種假設,以相似性同構為目標,融合義原注意力對預訓練語言模型進行微調。實驗結果表明,本文方法可以有效解決未登錄詞與詞表詞的相似性判別問題。在基于協同過濾框架的義原推薦任務中進行的實驗表明,相似性同構程度與義原推薦效果正相關,表明了上述將相似性同構作為模型優化目標的合理性。