?

基于ALBERT-Seq2Seq-Attention模型的數字化檔案多標簽分類

2024-03-14 07:38王少陽成新民王瑞琴陳靜雯費志高
湖州師范學院學報 2024年2期
關鍵詞:編碼器標簽向量

王少陽,成新民,王瑞琴,陳靜雯,周 陽,費志高

(湖州師范學院 信息工程學院,浙江 湖州 313000)

0 引 言

隨著大數據時代和數字化社會的到來,檔案數字化工作被提上日程.但隨著社會數據、檔案數量呈井噴式增長,人們難以從海量如山、五花八門的各級各類檔案中快速獲取目標檔案,而且在對不計其數的檔案進行手工分類等工作時,需要投入大量的人力物力,耗時較長.如何讓檔案管理人員對海量的數字化檔案信息進行準確的分類,并快速找到需要的檔案,是目前學界和業界比較關注的話題,也是檔案管理領域面臨的一項重大挑戰.

針對傳統的多標簽分類沒有考慮到多標簽間的關聯問題,本文提出一種新型的ALBERT-Seq2Seq-Attention模型方法,用于檔案多標簽分類,挖掘多標簽之間的關聯性.與傳統的多標簽文本分類輸入的不同之處在于:本模型沒有采用將標簽轉為由0和1組成的one-hot向量,而是采用類似字典的形式,通過標簽的指針找到不同標簽所對應的id,使其組合在一起,并將多標簽當作一個序列整體輸出,突出標簽之間的關聯性.ALBERT-Seq2Seq-Attention模型使用ALBERT預訓練語言學習模型作為提取文本特征的工具,考慮文本上下文語義信息,采用Seq2Seq-Attention完成多標簽的抽取,并進行分類.

1 ALBERT預訓練語言模型

ALBERT輕量化網絡模型的提出,是解決基于Transformer雙向編碼器表示的BERT[1](bidirectional encoder representations from transformers,BERT)預訓練語言模型參數量巨大和訓練時間過長的問題.ALBERT模型在實現參數數量減少為BERT的1/18的同時,還能使訓練速度提高17倍,從而增加模型效果.ALBERT在BERT的基礎上進行了以下改進:對Embedding進行因式分解操作,將詞嵌入層輸入的one-hot向量映射到低維空間進行降維,再經過一個高維度矩陣映射到隱藏層;采用跨層參數共享的方法降低內存占用率,并解決因網絡深度增加而導致參數數量增加的問題;以改用語序預測(Sentenc Order Prediction,SOP)代替后文預測(Next Sentence Predict,NSP)作為訓練任務,從而更有力地學習句子間的連貫性.

ALBERT小型中文預訓練語言模型是通過大量中文語料庫訓練得到的.該模型訓練超過125 000步,使用超過30 GB的中文語料庫Albert_small_zh進行訓練.中文語料庫涵蓋新聞、百科、互動社區等多種語境,學習文本內容累計超過100億漢字[2].ABERT的詞嵌入層是獲得檔案文本向量化序列特征表示的重要環節,詞嵌入將檔案文本映射為字向量,可以有效提取文本中的序列信息、位置信息和上下文語義關聯.文本通過ALBRT的詞嵌入層、編碼層的詞向量特征表示,將詞匯的語義信息與上下文語義特征結合,從而在句子層面生成更加豐富和準確的語義特征向量.ALBERT模型框架見圖1.

圖1 ALBERT模型框架圖

圖1中,Ei為文本序列經過詞嵌入后得到的向量表示;Ti為文本序列經過Transformer編碼器處理后從文本序列中提取出來的具有豐富語義信息的特征向量,Trm為T模型內置的多層雙向Transformer模塊.ansformer模塊結構見圖2.

圖2 Transformer模塊結構圖

(1)

(2)

式(3)是將多頭自注意力機制輸出的詞向量合并為矩陣,以作為前饋網絡層的輸入.

MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo,

(3)

其中,Wo是附加權重矩陣,其作用是將拼接后的矩陣壓縮成與序列長度相同的維度[5];dt為每個Q、K、V詞向量的維度大小.通過使用多頭注意力機制,ALBERT模型能夠計算句子中每個字詞與目標語句中所有字詞間的相互關系.這種計算可以在句子層面進行,從而更全面地捕捉句子中各個部分間的關聯關系,并通過這種相互關系調整每個字詞在整個句子中的權重,從而獲得新的向量表達,實現抽取文本序列詞向量特征的目的.

2 Seq2Seq-Attention模型

Seq2Seq常用于處理序列到序列的問題,是一種編碼器-解碼器結構的網絡[6].單獨的Seq2Seq網絡有一定的不足,如輸入序列一旦過長,其有效信息被分配的權重便會降低,輸入序列的全部信息就會被壓縮到固定長度的上下文向量中,使得整個模型處理信息的能力受到限制和削弱[7].本文通過引入Attention機制,可以有效地解決序列過長導致信息壓縮的問題.引入Attention機制的Seq2Seq網絡模型見圖3.

圖3 Seq2Seq-Attention網絡模型圖

Seq2Seq-Attention模型的核心思想是通過動態生成上下文向量Ct,使Ct能夠隨著解碼過程的動態變化,替代原有固定的上下文向量C,從而生成更加準確的序列[8],使得解碼層每個時刻都擁有自己獨特的上下文向量.這既避免了信息被壓縮的問題,又能夠使解碼層在每個時間步選擇自己最關注的編碼層序列內容,而且使模型的解碼器在解碼的各個時刻有不同的側重點,從而增強對文本特征的利用能力[9].

動態的上下文向量Ct的計算方式為:在t時刻進行解碼時,解碼器會計算編碼器獲取到的每個隱藏狀態hj與當前解碼時刻的相關性系數et,j.其計算公式為:

et,j=VT·tanh(Wst-1+Uhj),t,j=1,2,…,Ni,

(4)

其中,s為解碼層隱藏狀態,W、V和U為模型待訓練參數.模型在訓練過程中將對待訓練參數進行不斷調整.

對計算得到的相關性系數et,j進行歸一化處理,得到編碼器隱藏狀態hj的權重系數at,j.其計算公式為:

(5)

歸一化過程是將所有的相關性系數et,j除以它們的和,從而確保它們的總和為1.根據隱藏狀態的權重at,j,實現對編碼器隱藏狀態的加權求和操作,最終得到動態上下文向量Ct.其計算公式為:

(6)

3 ALBERT-Seq2Seq-Attention模型的檔案多標簽分類

ALBERT-Seq2Seq-Attention模型應用于檔案多標簽分類的訓練過程,包括兩個主要步驟:第一步,通過使用ALBERT模型的多層雙向Transformer編碼器訓練檔案文本,提取語義特征;第二步,基于Seq2Seq-Attention模型,該模型主要由編碼器和譯碼器組成.其中,編碼器部分由多層BiLSTM構成;解碼器部分由多層LSTM的局部注意力機制組成,并使用局部注意力機制突出臨近標簽間的相互影響力.ALBERT-Seq2Seq-Attention網絡模型見圖4.

圖4 ALBERT-Seq2Seq-Attention網絡模型圖

為有效解決傳統分類算法對檔案文本語義抽取不完整、分類精度低、分類結果標簽單一和標簽間缺乏相關性的問題,本文提出一種新型的基于ALBERT-Seq2Seq-Attention深層神經網絡學習結構的多標簽檔案文本分類模型.模型的算法流程為:

步驟1:將數字化檔案文本轉換為向量,其表示為:

X=[x1,x2,…,xn],

(7)

其中,每個向量的元素xi對應數字化檔案文本中的1個字符.

步驟2:將檔案向量用X表示,并將其輸入到ALBERT的詞嵌入層進行序列化操作,從而得到序列化后的檔案文本向量E.E向量用于后續的多標簽分類任務.

E=[E1,E2,…,En],

(8)

其中,Ei為文本第i個字符的序列化嵌入向量.

步驟3:在多層雙向Transformer編碼器中進行訓練,經多次的自注意力機制和前向傳遞,模型能夠提取并學習到輸入文本中的語義信息和特征,最終輸出文本特征向量T.

T=[T1,T2,…,Tn],

(9)

其中,Ti為第i個字符經Transformer編碼器編碼后的特征向量.

步驟4:將ALBERT編碼器提取的特征向量T作為Seq2Seq-Attention編碼器的輸入,編碼端使用雙向LSTM來更好地捕捉較長距離的依賴關系,從而輸出時刻t的隱藏狀態ht.

ht=BiLSTMenc(xt,ht-1),

(10)

其中,xt為目標文本中每個詞匯特征值,ht-1為上一個時間點的隱藏狀態.

步驟5:解碼端使用單向LSTM,輸出時刻t的隱藏狀態st.

st=LSTMdec(yt,ht-1),

(11)

其中,yt為目標句子中單詞的特征值,ht-1為上一個時間點的隱藏狀態.

步驟6:通過編碼器的隱藏狀態和解碼器的隱藏狀態計算相關系數et,j.其計算公式見式(4).

步驟7:對編碼器輸出的隱藏狀態進行加權平均,得到編碼器各個隱藏狀態hj的權重系數at,j,計算公式見式(5);利用權重系數得到動態上下文向量Ct,計算公式見式(6).

(12)

步驟9:計算最后的目標標簽yt的輸出概率:

(13)

結束模型訓練過程,輸出數字化檔案文本多標簽分類結果.

4 實 驗

4.1 標簽字典

實驗采用合作檔案館提供的數字化檔案制作標簽字典.檔案共分為3 865種類別,涵蓋軍事、外交、國際、政治、經濟、文化、環境、人事、宗教等方面.建立一套標簽字典體系,即對每個檔案類別標簽分配標簽id,以作為一個標簽庫.標注過程和訓練過程需要使用到的標簽均從標簽庫中獲取,標簽庫中每個標簽平均所對應的檔案數量為273篇.數字化檔案文本標簽字典的部分內容見表1.

表1 標簽字典部分內容

4.2 數據格式

content = '必須樹立和踐行綠水青山就是金山銀山的理念,堅持節約資源和保護環境的基本國策,像對待生命一樣對待生態環境'.

label = '領導人講話/方針政策/生態文明'.

與傳統多標簽文本分類輸入傳統的one-hot向量不同,其采用類似字典的形式,通過標簽的指針找到每一個標簽對應的id.其中,在字典中可以找到領導人講話、方針政策、生態文明,其id分別為11、26、87.one-hot向量為:

label(one-hot):11 26 87,

即以組合在一起的[17 26 87]作為整體輸出結果,其可以被理解為一個句子,只不過它的顆粒度是一個標簽,而不是我們平時理解的字或詞,以這樣的方式來表現標簽之間的相關性.

4.3 評價標準

采用Micro-precision、Micro-recall、Micro-F1和漢明損失(Hamming Loss)作為評價指標,其中將Micro-F1作為主要的評價指標.各指標的計算公式為:

(14)

(15)

(16)

其中,L為類別標簽數量,TP為正樣本被預測為正的數量,FP為正樣本被預測為負的數量,FN為負樣本被預測為正的數量.

Hamming Loss是指被錯分的標簽的比例大小,也就是兩個標簽集合的差別占比[10].漢明損失數值越低,表明模型的效果越好.其計算公式為:

(17)

其中,N為檔案個數,q為每篇檔案的標簽數,Z、Y分別為一篇檔案的預測標簽和真實標簽的集合,Δ為二者集合的對稱差.

4.4 對比實驗

采用ALBERT、ALBERT-TextCNN兩個模型進行對比實驗,以驗證本文所提出的ALBERT-Seq2Seq-Attention網絡模型相對傳統多標簽分類方法的有效性.

(1)ALBERT:采用ALBERT預訓練語言模型提取詞特征向量,改變交叉熵的計算方式,使下游任務使用全連接層實現多標簽分類.

(2)ALBERT-TextCNN:采用ALBERT預訓練語言模型提取詞特征向量,利用有監督學習的方法,將抽取到的特征向量輸入到TextCNN模型中進行訓練.

4.5 實驗結果與分析

按照3∶1∶1的比例將檔案文本隨機劃分為訓練集、驗證集和測試集.為避免實驗中偶然因素對實驗結果產生的干擾,實驗均運行10次后對結果求均值,得到對比實驗各個模型的精確率、召回率、調和平均值和漢明損失.結果見表2.

表2 對比實驗結果表

由表2結果可知,本文提出的基于ALBERT-Seq2Seq-Attention模型的檔案多標簽分類方法與其他所有模型方法相比,其精確率、召回率和F1值有更好的表現,三項指標都超過90%;與模型ALBERT-TxtCNN相比,其在F1值指標上提高約4個百分點,相對其他兩個模型,漢明損失降低了一個數量級,并在多標簽分類上表現出更加優越的性能.

由圖5和圖6可知,在數字化檔案多標簽分類表現中,ALBERT-Seq2Seq-Attention模型與其他兩個模型對比,訓練精度曲線在10k steps附近達到穩定,且曲線波動幅度較小.ALBERT-Seq2Seq-Attention模型訓練損失曲線下潛速度更快,模型穩步收斂,深度更深,損失更小.

圖5 模型訓練精度曲線對比

圖6 模型訓練損失曲線對比

另一組實驗采用Seq2Seq、ALBERT-TextRNN兩個模型進行對比實驗,以驗證本文所提出的ALBERT-Seq2Seq-Attention網絡模型相比其他采用序列建模在多標簽分類上的有效性.除使用合作檔案提供的文本數據外,本實驗還通過搜集并下載公開的多標簽文本分類數據集來補充實驗,以驗證ALBERT-Seq2Seq-Attention方法在較大數據集上的有效性和其他應用領域上的通用性.以下是補充實驗數據集的詳情.數據集Blurb Genre Collection(BGC)[11]是作者收集的,由書籍介紹和寫作題材組成,有91 892篇文本,共146個類別.中文新聞數據集[12]是作者收集得到的,其來自電視臺的真實新聞稿件,該數據集有932 354篇文本,共683個類別.

每輪實驗均按照3∶1∶1的比例,將檔案文本隨機劃分為訓練集、驗證集和測試集.為避免實驗中偶然因素對實驗結果的干擾,在實驗運行10次后對結果求均值,得到對比實驗各個模型的精確率、召回率、調和平均值和漢明損失.

使用檔案文本作為數據集進行對比實驗,結果見表3.

表3 對比實驗結果

使用BGC數據集進行對比實驗,結果見表4.

表4 對比實驗結果

使用中文新聞數據集進行對比實驗,結果見表5.

表5 對比實驗結果

將ALBERT-Seq2Seq-Attention模型與現有序列建模方法,在3種不同的數據集上進行實驗對比和分析,結果表明,ALBERT-Seq2Seq-Attention模型通過利用多個深度學習模型優化了分類效果,其精確率、召回率和F1值均有更好的表現;ALBERT-Seq2Seq-Attention方法在其他應用領域也具有很好的通用性.在訓練時間指標上,在相同的數據集、參數集、硬件環境和軟件環境中,ALBERT-Seq2Seq-Attention訓練完畢的平均每輪epoch時間是ALBERT-TextCNN模型的1.21倍,是ALBERT-TextRNN模型的1.27倍.

在對比實驗中,本文還計算了各個模型的推理時間.推理時間即在一次數據結果驗證中測試模型所運行的時間.實驗中各模型均處于相同的硬件環境和軟件環境,在等待當前設備中GPU異步執行和GPU預熱兩個步驟完成后,分別記錄驗證前時間戳T1和驗證后時間戳T2,計算T2與T1間的時間差作為推理時間.在推理時間指標中,ALBERT模型、Seq2Seq模型與ALBERT-TextRNN模型的推理時間接近,ALBERT-TextCNN模型與ALBERT-Seq2Seq-Attention模型的推理時間接近,且比ALBERT-TextRNN模型的推理時間快1.5倍.

5 結 語

ALBERT-Seq2Seq-Attention模型采用ALBERT預訓練語言模型,可以有效地提升詞向量的語義表達能力,且使用 Seq2Seq-Attention神經網絡可以構造多標簽分類器,也可以通過構建標簽字典策略來表現標簽之間的相關性.該模型在數字化檔案多標簽分類任務中表現優異,各項評估指標均有出色的表現,在數字化檔案應用上具有很大的發展前景和研究意義,符合當今我國數字化社會的變革要求和自然語言處理的發展潮流.

猜你喜歡
編碼器標簽向量
向量的分解
聚焦“向量與三角”創新題
無懼標簽 Alfa Romeo Giulia 200HP
基于FPGA的同步機軸角編碼器
不害怕撕掉標簽的人,都活出了真正的漂亮
基于PRBS檢測的8B/IOB編碼器設計
標簽化傷害了誰
向量垂直在解析幾何中的應用
JESD204B接口協議中的8B10B編碼器設計
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合