?

融合標簽語義嵌入和圖卷積的短文本特征擴展及分類方法

2024-03-04 06:05李榮臻
廣東工業大學學報 2024年1期
關鍵詞:標簽卷積單詞

張 靈,李榮臻,鄭 蘇

(1.廣東工業大學 計算機學院, 廣東 廣州 510006;2.寧夏大學 教育學院, 寧夏 銀川 750001)

隨著眾多社交媒體平臺的蓬勃發展,如新浪微博和微信等被大量用戶使用。社交平臺帶來的便利豐富了用戶生活,但短文本數據也在瘋狂地增長。因為短文本有著易于閱讀、內容簡短的特性,能提取的特征也比較稀疏且很容易不準確,如何更好地處理短文本數據,挖掘其中存在的商業價值是長期被關注的焦點,因此,對海量數據進行正確分類有一定必要性。

在文本分類任務中,有很多人為了更好地捕獲文本語義信息,使用循環神經網絡[1]、長短期記憶網絡[2]、門控循環單元[3]和卷積神經網絡[4]等結構,如長短期記憶網絡能夠根據文本數據的序列關系建模,把生成的新特征作為文本的最終特征投入訓練任務進行學習。類比圖像處理方法,Kim[5]使用卷積來捕捉文本內部單詞間的局部語義關系,將最后一層網絡的特征代表整個文本特征進行預測分類任務。近年來,圖卷積網絡(Graph Convolution Network,GCN)[6]在處理文本任務上的出色能力受到廣泛關注,是一種可以通過連接節點的邊傳遞信息來捕獲圖節點之間的全局依賴關系[7]的模型。Kipf等[8]提出的基于圖卷積進行半監督分類方法,正式成為GCN的開山之作,之后Yao等[9]正式將GCN用于文本分類,取得了很好的效果。由于圖結構的特性相對于傳統神經網絡模型更有利于文本處理,詞節點能夠通過不同的搭配來學習更準確的表示。

雖然圖結構能通過捕獲長距離詞節點交互,但直接應用于短文本分類時,性能也會不可避免地下降,這是因為短文本分類中的瓶頸問題就是文本中的關鍵詞存在嚴重的稀疏性和特征表達模糊。

針對上述問題,本文首先為短文本數據集構建了一個包含局部及全局關系的大型文本圖,其中包含作為節點的文檔和單詞,考慮到單詞對整個數據集的重要性,對于文檔節點和單詞節點的關系權重,在傳統算法上做了改進;之后考慮到文本與標簽存在的語義相關性,構建了特征空間對文本進行特征選擇,將得到的新特征嵌入到文本圖中的文檔節點,增強了文檔節點的特征表示,單詞節點則利用了預訓練模型捕捉上下文語義學習得到,有效地緩解了短文本存在的語義表達不充分、模糊的問題。

本文的貢獻概括如下:基于傳統的詞頻統計(Term Frequency-Inverse Document Frequency,TFIDF)算法,提出了改進方法來定義文本圖中文檔節點和單詞的關系,重新考慮了單詞對所屬文本及全局語料庫的重要性。提出了融合標簽語義嵌入的圖卷積網絡的方法,利用文檔與標簽存在的近義關系進行特征選擇,聯合標簽語義和提取的近義詞嵌入作為文本圖中文檔節點特征表示。根據4個英文短文本數據集上的實驗結果顯示,本文提出的方法與對比模型相比,達到了最好的分類效果。

1 相關工作

文本分類是自然語言處理(Natural Language Processing,NLP) 的一項核心任務,主要體現在文本特征表示和分類模型上,已經被用于許多現實應用,如垃圾郵件檢測[10]和意見挖掘[11]。有很多深度學習模型被廣泛應用于文本分類,但在長文本數據分類領域上效果相對更好,短文本分類上未能得到特別滿意的效果。

針對短文本特征不足的問題,Bouaziz 等[12]用維基百科語料訓練主題模型,然后通過得到主題以及主題在詞語上的分布來作為擴展短文本的語料庫,之后用來進行特征擴展的選擇。方澄等[13]為了豐富微博數據的特征,將數據集中的表情和顏文字等按照設置的詞表進行替換,但是純文字形式的句子存在無法擴展的局限性。崔婉秋等[14]在利用微博數據做搜索任務的研究中,使用了超大型的知識密集型網絡倉庫,將短文本標題生成一些相關的地點、時間或事件等關鍵詞詞集來擴展特征,以達到用戶能夠搜索到更多相關話題的目的。Wang等[15]提出了標簽嵌入注意模型,該模型將標簽和單詞引入到同一個聯合空間中,使用注意力機制[16]作為標簽與單詞向量溝通的橋梁進行文本分類。張萬杰[17]用一維卷積取代了Wang等[15]模型中的注意力機制,并去掉了之后的加權求和,使文本內每個詞表達獨立化,用于多標簽文本分類的預測任務。

以上方法一定程度上雖能對短文本的稀疏特征有所優化,但其效果主要還是受外部語料庫質量以及只能捕捉到文本局部特征的影響。

最近,圖神經網絡[18]的研究熱潮引起廣泛關注,在短文本分類任務中,首先將文檔數據轉為圖數據,不僅包含著文本局部信息,還包含了多文檔之間的全局信息,獲得了較好的效果。之后鄭誠等[19]提出將雙項主題模型應用于短文本數據,把訓練出的文檔集潛在主題作為一種節點嵌入到圖結構中用于輔助分類。辛媛[20]根據數據集分別構建了包含整個數據集的文本圖和將文本圖拆解后的子圖集兩種文本圖,分別使用同構圖神經網絡和異構圖神經網絡算法進行文本分類。申艷光等[21]針對文本分類任務中標注數量少的問題,提出了一種基于詞共現與圖卷積相結合的半監督文本分類方法,用詞共現方法統計語料庫中單詞的詞共現信息并采用了過濾。鄭誠等[22]針對文本上下文信息和局部特征不足的問題,提出了利用雙向長短時記憶網絡和卷積神經網絡提取文本信息豐富圖卷積網絡的文本表示。除了利用詞共現關系,為了探索來自不同類型圖的異構信息的效果,Liu等[23]提出的文本圖張量模型還引入了語義與句法關系,由此構建了3種規則下的文本異質圖,分別經過圖卷積網絡學習單圖中節點的信息后再聚合特征,效果相較于只使用共現圖有所提升,但是這種多圖的方式同時也占用了很大的存儲資源。

隨著圖神經網絡的發展,陸續出現了通過改變網絡內部結構和計算方式的一些圖神經網絡的變種。Wu等[24]提出了簡化的圖卷積模型,消除了隱藏層之間的激活操作,將中間過程轉換為簡單的線性變換。Zhang等[25]提出的歸納型圖卷積模型,減少了模型學習過程中的遺忘,將門控機制添加進圖神經網絡[26]來學習文本圖信息。也有人認為不同的節點具有不同的影響力,提出采用一層前饋神經網絡來計算節點間注意力分數作為節點間的鄰接權值的圖注意力網絡(Graph Attention Networks,GAT) 模型[27],由于單層注意力關注力度不夠,Ding等[28]提出了超圖注意力網絡模型,使用雙重注意力機制的方式學習文本圖上的多方面的特征表達,其中,模型使用的歸納型文本圖一定程度上減少了計算消耗。

以上方法在短文本分類上都取得了很不錯的效果,但是只考慮短文本自身特征是不夠的。區別于其他圖神經網絡在文本分類上的研究,本文首先在建模數據集時,綜合考慮了文檔與單詞之間和單詞在全局語料庫中的重要性,改進了文本圖邊權值的計算方式;然后利用文本與所屬標簽之間存在的相關性信息,對所有訓練集對應的文檔節點做特征增強,在更新了文本圖的信息后再送入模型中去;最后,學習Lin[29]的做法,結合預訓練模型和圖卷積網絡模型學習到的特征做分類預測。

2 基于標簽語義嵌入的圖卷積網絡

最初定義的圖神經網絡,是通過邊連接來捕獲圖節點之間的信息。因此,在圖神經網絡訓練工作中,需要將數據集轉為一種圖數據的形式,文本數據可以根據各文檔之間的關系來構造一個文本圖。

整體實現流程主要包括文檔-單詞共現文本圖的構造、標簽信息的嵌入、短文本特征擴展,整體流程如圖1所示。

圖1 融合標簽語義嵌入和圖卷積的短文本特征擴展與分類的整體框架Fig.1 The whole framework of short text feature extension and classification based on semantic embedding and graph convolution

2.1 文檔-單詞共現文本圖的構造

圖神經網絡的數據輸入是一種圖數據,因此需要根據數據集構造文檔-單詞文本圖,圖中包含文檔節點和單詞節點,文本構圖的方法首先會參考TF-IDF和正點互信息(Positive Pointwise Mutual Information,PPMI) 算法。

對于構建單詞與單詞之間的關系,PPMI與點互信息(Pointwise Mutual Information,PMI)都使用詞關聯度量來計算單詞與單詞之間的相關程度,并將其作為單詞與單詞之間的邊的權重,兩個單詞之間的PMI值越小,說明單詞對的語義關聯度就越低。PPMI為避免出現負無窮的情況,執行判斷最大值的操作,將小于0的PMI值都設為0。

在構建文檔與單詞之間的關系時,傳統的TFIDF方法中,單詞的重要性會隨著它在文本中出現的次數呈正向增加,但也會隨著它在整個數據集中出現的頻率反向下降,往往不能有效地反映單詞的重要程度和特征詞的分布情況。對于短文本數據來說,這種判斷并不是完全正確的,而且還會存在關聯特征丟失的問題。因此,為了降低語料庫中同類型文本對單詞權重的影響,提出了詞頻統計加權(Term Frequency-Inverse Document Frequency- Weighting,TF-IDF-W)方法,一定程度上解決了權值過小的問題,如式(1) 所示。

2.2 標簽信息的嵌入

在傳統的文本分類模型中,標簽信息的使用只出現在輸出層之前,構建好的文本圖進入圖卷積神經網絡之前,文檔節點使用只含有0和1的one-hot向量作為初始特征,文本圖中的單詞節點最初沒有特征表示,之后本文會通過預訓練模型賦予其基于上下文的唯一表達。

在大部分情形下,對全部特征進行采集將會是極其耗時耗力高開銷的或者是不可能的,而且有些特征判別性并不強且存在冗余,導致選擇的特征不具有較強的代表性,在為節點增加更多鄰域信息的同時也會引入與分類無關的噪聲信息,影響模型的性能。因而,為了充分利用標簽與文本信息,將使用合適的先驗數據賦予文本及標簽初始特征,之后以更合適的相似度閾值進行近義詞性質上的特征篩選及融合,再將新的特征嵌入到文檔節點增強特征表達并參與到后續的神經網絡訓練。這種設定下,只針對可選擇的特征進行采集,減少待處理的數據量的同時降低冗余特征的影響,有助于進一步分析處理數據。

為了在相同的向量空間中學習單詞和標簽,需要得到單詞-標簽的相似度,利用單詞和標簽之間的相似性構建另一個新的嵌入向量,即由圖1中的每條訓練文本所含單詞與對應標簽的共同特征空間模塊得到。

圖2 單詞-標簽特征空間Fig.2 Feature-space of word-label

圖2中,首先使用大規模數據集下預訓練好的靜態詞向量包賦予文本內所有單詞與標簽單詞初始特征,之后將文本和標簽特征放入共同的特征空間內,近義詞性質的特征篩選工作采用注意力機制中余弦相似度的方法。

計算方式概括如下:如某條訓練文本可以表示為一個向量集合S(J) ={w1,w2,···,wj},J為某條文本的索引,j為文本內單詞索引,取值范圍從0到文本長度-1。賦予文本中單詞預訓練詞向量之后,以同樣的詞嵌入,使用預先訓練的詞向量賦予標簽語義信息,作為初始輸入向量集合Y(J) ={Y1,Y2,···,YJ},J的定義同上,wj∈Rd、YJ∈Rd意味著單詞和標簽特征都是一個d維向量。有些標簽是多個單詞組成的,數據集“web_snippets”中的一種類別標簽,如文化藝術類“culture-arts-entertainment”就是由3個單詞組成,這時可以先對3個單詞的單詞向量取平均值,再作為標簽的特征進行表示。在相同的向量空間中得到單詞和標簽的融合特征的方法如式(2) 所示。

式中:E[c]為第c條文本對應標簽的特征向量,Q[c,b]為第c條文本中第b位置的單詞的特征向量,similarity()為計算向量相似度的函數,文本內所有單詞都要與所屬標簽向量通過循環語句進行計算,k為相似度篩選閾值,取值范圍為[0.5,0.9],超過所選閾值后融合這些特征。最后還需根據聚合的關鍵詞數目,對所得的E[c]采取均值之后再嵌入到文本圖中對應的文檔節點。

2.3 圖卷積網絡(GCN)

在圖神經網絡的應用中,文本數據是以文本圖的形式進入圖卷積神經網絡的。如圖3所示,以D為文檔節點,以W為單詞節點,R(X) 為X經過“hidden layers”的嵌入式表示。為了避免類別之間的混亂,選取了不同顏色裝飾。

圖3 圖卷積內文本圖消息傳播方式Fig.3 Message propagation mode of text graph in graph volume

第1層GCN的輸出特征矩陣計算為

式中:L為輸入到圖卷積網絡的特征矩陣,W(1)為第1層圖卷積的權值矩陣,A~為式(4) 中歸一化拉普拉斯矩陣,ReLU() 為激活函數。

房地產金融行業健康穩定的發展對整個金融行業的穩步發展有著重要作用,房地產行業的發展又直接影響著房地產金融行業的發展,發展房地產離不開政府的宏觀調控政策。所以,政府對房地產行業有力的宏觀調控對房地產金融行業發展同樣十分重要。然而,當前的政府宏觀調控政策與當前的房地產市場發展還存在不適應的情況。如房地產行業相關法規建設還不完善,市場資源配置不夠優化,供求兩端調控效果存在差異等。這些都在很大程度上抑制了房地產行業的發展,并為其發展帶來一定的風險。另外,政府對于房地產金融行業的潛在風險的預判能力還不足,還需要加強對房地產金融市場的有效監管以及其發展狀況和趨勢的掌握。

式中:A為圖的鄰接矩陣,D為圖的度矩陣,I為單位矩陣,A+I為圖中節點增加自連接,A~為歸一化拉普拉斯矩陣。

圖4中所示的圖結構,A為圖的鄰接矩陣,0和1代表有無連接關系,對應所有節點之間連接信息,D為圖的度矩陣,每個數字對應A中行的和,代表著對應頂點的度總數。

圖4 圖結構、鄰接矩陣及度矩陣示例Fig.4 Examples of graph structure, adjacency matrix and degree matrix

第h層GCN的輸出特征矩陣計算為

GCN的輸出被視為文檔的最終表示,然后它被輸入到softmax層進行分類。兩層GCN的相關計算為

式中:L包含文本圖所有節點信息,W(1)為第1層圖卷積的權值矩陣,W(2)為第2層圖卷積的權值矩陣,A~為式(4)中歸一化拉普拉斯矩陣。輸入一個GCN模型得到的最終表示會被輸入到softmax層,softmax函數表示如式(7)所示。

式中:Z為一個矩陣向量,e,p為元素索引,Zp和Ze都是其中的一個元素,exp() 為指數函數。softmax第一步就是將模型的預測結果轉化到指數函數上,這樣保證了概率的非負性。為了確保各個預測結果的概率之和等于1,將轉化后的結果除以所有轉化后結果之和,可以理解為轉化后結果占總數的百分比,這樣就得到近似的概率。

2.4 特征擴展

本文雖然使用了詞頻改進算法、嵌入標簽信息等方法篩選出最有效的特征,但圖卷積神經網絡在表示文本時往往會忽略掉單詞的上下文信息,而經過預訓練模型提取的特征信息,語義上的表達相對會更好,因此,本文參考了Lin等[29]提出的融合不同模型的方法,選擇了Bert風格(如Bert和RoBerta)的預訓練模型的輔助分類器來優化圖卷積網絡,然后通過融合多個特征,使得這種網絡所提取的特征更具有表征能力,模型也能擁有更好的泛化能力。

最后得到的特征有帶標簽嵌入的信息、通過圖卷積網絡得到的ZGCN和Bert風格的輔助分類器獲得的輸出ZB。為了融合這兩個部分,設置了一個平衡參數ε,用來平衡兩種特征。

式中:Z'為最終特征,ε=1為只使用結合了標簽信息的圖卷積神經網絡模型,而ε=0為只使用Bert風格的預訓練模塊。當ε∈(0,1) 時能夠平衡不同方法的預測。最終輸入結果為經過式(7) 的激活層之后再利用損失函數計算的損失,模型所用的損失函數為交叉熵損失函數,具體如式(9) 所示。

式中:b'為批次的樣本數,i',j'為序列號,n'為類別數,T為相應的標簽指示矩陣,Z'為來自式(8) 的結果,softmax為激活函數。通過計算神經網絡每次迭代的前向計算結果與真實值的差距,指導下一步的訓練向正確的方向進行。

3 實驗

3.1 數據集

本文在4個英文數據集上分別進行了實驗,參數包括類別、總數、訓練集數、測試集數以及平均長度。詳細如表1所示。

表1 本文采用的數據集Table 1 Datasets in this paper

3.2 實驗環境及相關參數

所有的實驗是在Inter(R) Xeon(R) CPU E5-2690 v4和P40 GPU上運行,本實驗基于PyTorch框架實現,基線模型使用的是相應的原始論文和復現中的默認參數設置。

實驗中,Bert類預訓練模型學習率為0.00 001,GCN學習率為0.001,dropout率為0.5,平衡參數ε范圍為[0,1],epochs范圍為[30,50],相似度閾值范圍在[0.5,0.9]。

3.3 對比模型

本文所采用的的對比模型包括:(1) 根據共現規則使用圖結構的文本分類模型(TextGCN)[9];(2) 基于詞共現并結合注意力機制的圖卷積模型(Word Cooccurrence and GCN,WC- GCN)[21];(3) 利用雙向長短期記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM) 和卷積(Convolutional Neural Network,CNN) 豐富GCN的文本表示的分類方法(BiLSTM+CNN+GCN)[22];(4) 通過挖掘文檔級潛在主題特征并結合圖卷積網絡的模型(Biterm Topic Model GCN,BTM_GCN)[19];(5) 采用子圖形式的圖卷積模型(InducGCN)[20];(6) 插入了標簽節點的圖卷積網絡(Label-incorporated GNN)[20];(7) 構建了含有句法依賴、語義與句法關系的3種異質圖的文本分類模型(TensorGCN)[23];(8) 隱藏層之間的激活操作轉換為簡單的線性變換的圖卷積網絡模型(Simple Graph Convolution,SGC)[24];(9) 添加了門控機制的圖神經網絡(TextING)[25];(10) 基于雙重注意機制進行歸納分類的超圖神經網絡(HyperGAT)[28];(11) 采用靜態掩碼的Bert預訓練模型輔助的圖卷積網絡模型(Bert_GCN)[29];(12) 采用動態掩碼的RoBerta輔助圖卷積網絡模型(RoBerta_GCN)[29];(13) Bert_GAT[29];(14) RoBerta_GAT[29]。

3.4 本文的模型算法

本文提出的融入標簽嵌入的圖卷積網絡模型算法:(1) LBGCN(Label-embedding+Bert Graph Convolution Network) :采用類標簽嵌入和Bert預訓練模型。(2) LRGCN(Label-embedding+RoBerta Graph Convolution Network) :采用類標簽嵌入和RoBerta預訓練模型。

3.5 實驗結果

表2~表5展示了本文算法與對比模型在短文本數據集上的評估結果,分類的評價標準采用了3種方法:準確率a、召回率r和F1,表中加粗項表示最優結果。

表2 數據集web_snippets測試集上的結果Table 2 Result of web_snippets on test set %

從表2 中可以得出如下結論:(1) 本文提出的模型從3個評估指標整體來看性能最佳。(2) 在所有模型中,SGCN結果表現最差, 可能原因在于激活函數改為線性后,雖然計算速度會有提升,但降低了神經網絡的表達能力,不能更好地擬合目標函數,所以不能達到很好的效果。(3) 在考慮標簽特征的算法中,LBGCN模型的性能優于BTM_GCN和Label-incorporated GNN,可以看出圖結構和特征初始化手段的不同因素對分類效果會有一定程度的影響。(4) 融合了預訓練模型的圖神經網絡的整體性能優于其他模型,證實預訓練模型在提取大規模數據集的特征信息上確實具有較強的優勢。

表3展示了本文模型和其他對比模型在MR數據集上的表現。從表中可以看出,本文模型通過捕捉文本與文本標簽之間存在的近義關系得到新的文檔節點的嵌入以及通過預訓練模型得到單詞節點關系后,再結合圖卷積網絡的方法,比其他方法獲得了更好的預測性能,也顯示了其在大規模情感數據集的情感標簽關系建模上面也具有一定的優勢。另外,從表3中可以看出,加入了BiLSTM和Bert類模型的圖卷積神經網絡的性能整體優于Text GCN,其可能原因在于序列型神經網絡在識別和提取大規模數據集的語義特征上具有較大的優勢。

表3 數據集MR測試集上的結果Table 3 Result of MR on test set %

表4展示了LBGCN和LRGCN模型與其他對比模型在R8數據集上的表現。從表中可以看出,相對于前兩個數據集,所有模型算法在這個較長的數據集上都能發揮出較大的優勢。其中,TensorGCN模型,不同于其他只使用共現規則下的文本圖的模型,還基于語義和句法規則另外構建了兩種文本圖,效果相對于Text GCN較好,但在模型訓練上存在內存消耗大以及訓練效率變慢的問題,因此,在這3種規則文本圖的應用方面值得進一步優化。

表4 數據集R8測試集上的結果Table 4 Result of R8 on test set %

由表5的數據可以看出,本文提出的模型的分類結果均為最高,并且相較于TextGCN模型有著明顯的提升。從評估方法來看,可能因為在所有實驗數據集中,R52包含的類別最多以及各類別的數量存在不太均衡或采用數據量較少,雖然數據集平均長度最長,但分類準確率與召回率和F1值一直相差很大。另外,基于圖的歸納式文本分類的模型有InducGCN、TextING和HyperGAT等基本都有著不錯的結果,歸納式文本圖在一定程度上減少了內存的消耗,但由于欠缺對詞關系的進一步考慮,性能受到了一些限制。除此之外,HyperGAT使用了基于雙重注意力機制的方法,只關注了節點之間的連接關系,并沒有考慮邊權值初始關系,很大程度忽視了整體文本中的結構特征。通過實驗表明,使用了RoBerta模型融合圖卷積網絡的模型效果普遍比使用了Bert模型的效果要更好,并且在所有的對比模型中達到最好的效果。

表5 數據集R52測試集上的結果Table 5 Result of R52 on test set %

3.6 消融實驗

為了進一步驗證本文所提出的融入了標簽嵌入的圖卷積模型的有效性,進行了消融實驗,其結果如表6所示,其中“/”表示刪除了模型中的該模塊。

表6 所有數據集在測試集上的準確率Table 6 Accuracy of all datasets on test set %

由表6可知,刪除相應模塊后的模型的實驗效果相較于總模型均存在一定程度的下降,這恰恰說明了模塊之間的作用是相輔相成的,從中還可以觀察到不同的模塊在不同的數據集中有著不同的作用。例如,在不使用Bert類預訓練模型和圖卷積神經網絡模型對文本進行初始化的情況下,基本上都取得了最壞的分類結果。這是因為Bert類預訓練模型能夠捕獲文本的上下文語義信息進而提取到更具體的特征信息,從而幫助模型更好地分類預測。對比消融實驗中LRGCN總模型實驗和刪除標簽嵌入實驗的結果,可以看出刪除標簽嵌入實驗的準確率比總模型低,引入標簽數據模塊,在定義相似度閾值以篩選標簽與文本特征融合的設定下,可為標簽節點選取較優的特征表示并嵌入到文本圖中作為網絡的一部分一起參與訓練,說明了融合多個特征可以取得更好的效果,從而說明了該模塊的有效性。

3.7 參數分析

為了探究特征擴展模塊中兩個不同模型的融合參數ε、圖卷積網絡層數layer的變化和引入標簽特征模塊中相似度閾值k對分類效果的影響,以測試集準確率為指標,在各個數據集上,使用LRGCN模型分別進行實驗。

圖5為平衡參數ε對測試準確率的影響。由圖5可知,本文所用方法在不同數據集上,融合參數的最優取值是變化的。例如,對于R52數據集來說,ε最優值約為0.7,表示式(8)中圖卷積模塊和Bert風格的模塊在分類決策中的比例約為7:3。而對于R8數據集來說,其平衡參數ε基本保持不變。說明不同數據集的特征表現不同,但通過使用雙信息模型,特征之間的相關性得到了補充,更加具有表征能力。

圖5 基于平衡參數變化的測試準確率Fig.5 Test accuracy based on feature fusion parameter changes

圖6為圖卷積層數layer對測試準確率的影響。在圖卷積為2層的情況下,所有數據集上基本都達到最好的效果。隨著層數的增加,有數據集的分類效果出現一直下降的現象,原因為訓練過程中出現過平滑現象,所有節點與鄰域節點會變得特征相似而降低了模型對文本準確分類的能力。

圖6 基于圖卷積層數變化的測試準確率Fig.6 Test accuracy based on the change of layers number of GCN

圖7為相似度閾值k對測試準確率的影響。數據集R8和R52,因為文本內容相對較長,影響波動不大。短文本數據集web_snippets在相似度閾值設為0.7后,模型分類效果達到最好,超過0.7后,訓練結果和測試結果趨于零。

圖7 基于標簽數據相似度閾值變化的測試準確率Fig.7 Test accuracy based on tag similarity threshold

為了增加模型分類結果的可信度,圖8為MR數據集在迭代訓練過程中,2種類別在測試集上所得的精確率變化圖。隨著迭代次數遞增,2種類別預測結果不相上下。

圖8 MR測試集中各類別的精確率Fig.8 Precision of two different categories in MR dataset

4 結論和展望

本文提出了一種融入標簽嵌入的圖卷積網絡模型進行文本分類的方法,將所用的數據集構建成一個文檔-單詞圖,從而使文本分類問題轉化為一個文檔節點分類問題。本文綜合考慮了單詞對所屬文本及全局語料庫的重要性,在傳統的TF-IDF 算法基礎上,提出了新的詞頻統計方法定義文檔-單詞的邊權值;在不考慮外部資源的情況下,綜合考慮標簽的貢獻,通過計算得到一種近義詞嵌入到文本圖中,解決由于信息傳播導致節點的特征表達變弱的問題,一定程度上減少了節點特征表達的語義模糊性,提高最后文本分類結果的質量,最后使用圖卷積網絡并選擇性地融合預訓練模型所得特征,利用有限的有標簽文本對無標簽文本進行分類預測。

總體而言,本文提出的融入標簽嵌入的方法在短文本數據集web_snippets、MR、R8和R52上優于TextGCN、HyperGAT、Bert_GCN、Bert_GAT等分類方法?;谄交挠绊?,未來針對文本分類的研究將會考慮在語義層面和更深層的圖卷積網絡上對文本中更多有價值的信息進一步探索。

猜你喜歡
標簽卷積單詞
基于3D-Winograd的快速卷積算法設計及FPGA實現
單詞連一連
從濾波器理解卷積
無懼標簽 Alfa Romeo Giulia 200HP
看圖填單詞
不害怕撕掉標簽的人,都活出了真正的漂亮
基于傅里葉域卷積表示的目標跟蹤算法
看完這些單詞的翻譯,整個人都不好了
標簽化傷害了誰
基于多進制查詢樹的多標簽識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合