?

基于預訓練模型的基層治理敏感實體識別方法

2023-10-07 03:45汪杭軍
電子技術應用 2023年9期
關鍵詞:脫敏語料實體

吳 磊,汪杭軍

(1.浙江農林大學 數學與計算機科學學院,浙江 杭州 311300;2.浙江農林大學暨陽學院 工程技術學院,浙江 諸暨 311800)

0 引言

隨著中國特色社會主義進入新時代,構建現代化的基層治理體系對鄉村振興和國家長治久安意義重大,而治理體系現代化需要信息化要素的融入[1]?;鶎又卫頂底只a生的大量數據經過數據分析與挖掘,可用于鄉、鎮、街道的信息化、智慧化建設。這些數據難以避免地會包含個人隱私信息,且在現有安全條件下這些數據采集和使用可能存在數據泄露風險[2]。數據脫敏是一種將結構化或非結構化數據中的敏感信息按照一定脫敏規則進行數據變形的技術,經過脫敏后的數據兼顧了可用性和安全性,能夠在保護隱私的前提下正常應用于各個場景。文獻[3]闡述司法領域結構化文本和非結構化文本的脫敏問題,并以匈牙利法律文件作為案例研究可能的方案。該文獻提供了一種思路,即將命名實體識別與數據脫敏聯系起來。結構化數據中敏感數據較為明確,可依據不同的數據列劃分,但非結構化數據需要將敏感數據從大量文本中識別出來,這就需要命名實體識別技術應用于基層治理文本的數據脫敏過程中。

命名實體識別[4]是一種從非結構化文本中識別出具有特定意義實體的技術,為自然語言處理中的一項基礎任務。該任務有助于關系抽取、知識圖譜等下游任務[5]。常見的實體有人名、地名、機構名等,例如在“李彥宏在北京舉辦了百度AI 開發大會”識別出李彥宏(人名)、北京(地名)、百度(機構名)3 個實體。命名實體識別技術的發展可劃分為3 個階段:基于詞典和規則的方法、基于機器學習的方法和基于深度學習的方法[4]。除了通用語料的實體識別,還存在面向特定應用場景的領域命名實體識別(Domain Named Entity Recognition,DNER),例如醫療、生物、金融、司法、農業等領域[6]。雙向長短期記憶網絡(Bidirectional Long Short-Term Memory Networks,BiLSTM)和條件隨機場(Conditional Random Field,CRF)的組合模型由于良好的表現,在不同領域都被作為最經典的模型而廣泛使用。本文將基層治理非結構化文本的敏感詞識別任務轉換為命名實體識別任務,沿用常規的序列標注方法。

英文單詞之間有空格劃分,分詞邊界明確,以及首字母、詞根、后綴等區分信息使得命名實體識別表現較好。而中文最明顯的特點是詞界模糊,沒有分隔符來表示詞界[7]。由于中文字詞之間沒有空格分隔,中文命名實體識別若以詞粒度劃分,必須先進行分詞。分詞錯誤導致的誤差傳遞使得詞粒度識別效果差于字粒度。因此,中文命名實體識別常采用字粒度進行識別。文獻[8]綜述了中文命名實體識別的方法、難點問題和未來研究方向。文獻[9]通過在中文詞嵌入加入語義、語音信息以提升識別效果。目前,命名實體識別廣泛應用于各個領域,但在基層治理領域的相關應用較少。與通用領域數據相比,基層治理過程中的敏感信息識別實體嵌套、一詞多義和字詞錯誤等問題更為嚴重。

此外,通用領域的命名實體識別雖包含了人名、地名和機構名等部分敏感實體,但未能將身份證號、手機號和銀行卡號等數字類型的敏感實體作為數據標注,難以包含基層治理過程中產生的眾多敏感實體類型。

1 基層治理敏感詞實體識別模型

基層治理敏感實體識別模型由預訓練語言模型基于Transformers 的雙向編碼表示(Bidirectional Encoder Representation from Transformers,BERT)、BiLSTM 網絡和CRF 層構成,模型架構圖如圖1 所示。首先,將信訪語料輸入序列輸入BERT 模型中進行預訓練獲得上下文相關的表征,特征表示層采用BERT 模型可有效解決信訪文本一詞多義、實體嵌套等問題;表示層輸出特征向量輸入BiLSTM 進行編碼,從而將序列前向和后向的隱藏狀態拼接起來形成輸出,包含了字符的上下文聯系;最后經由CRF 層解碼優化輸出序列,獲得最優標簽序列。

圖1 敏感實體識別模型結構

1.1 BERT 預訓練模型

本文針對Word2Vec 等靜態詞向量無法解決信訪語料中存在的一詞多義、實體嵌套和表述不規范等問題,選擇BERT[10]預訓練語言模型作為特征表示層。BERT模型是谷歌公司在2018 年發布的一種預訓練模型。BERT 在自然語言處理11 項測試任務中均取得最佳表現[11]?;鶎又卫硇旁L文本數據量相較通用領域偏少,為此BERT 模型引入先驗知識顯得尤為重要。BERT 模型在大量通用文本語料上進行無監督學習訓練,其訓練不需要人工標注數據。由通用文本語料訓練得到的參數在參與特定任務訓練時再進行精調。這種先在通用文本數據建立模型再遷移至特定任務的方法,有效提升了特定任務的識別效果,同時大大縮短了新模型的訓練時間。BERT 的內部結構是雙向Transformer[12],其編碼時能從前后兩個方向提取上下文信息進行詞向量的表示。其模型結構如圖2 所示。

圖2 BERT 模型結構

Transformer 由encoder 和decoder 組 成,encoder 由self-attention 層和前饋神經網絡組成,decode 在encoder兩層中間還包含一個attention 層。BERT 模型只使用encoder。

在encoder 中,經過embedding 操作后的數據輸入self-attention 模塊得到一個加權特征向量,如式(1)所示:

式中,Q(Query,查詢向量)、K(Key,被查詢向量)、V(Value,特征向量)表示64 維的字向量矩陣,dk表示輸入向量的維度。

Self-attention 層依據詞的相互關系產生新權重下的表征,反映出各詞之間的關系和重要程度,較其他詞向量計算方式表達能力更強。

BERT 的輸入為字符級embedding 序列,句子之間以分隔符分割,開始和結尾處增加兩個標識符號。其輸入向量由Token Embedding(字符)、Segment Embedding(句子)和Position Embedding(位置)三者求和獲得[13],如圖3 所示。Token Embedding(字符)將單詞劃分為一組有限的公共子詞單元;Segment Embedding(句子)是句子的唯一向量表示,將句子整體的embedding 對應至每個單詞;Position Embedding(位置)將字符在向量中位置信息編碼,以表征單詞的順序。例如“李媛園住址諸暨市陶朱街道歡樂家園3 幢1 單元102 號”中人名的“園”和地址的“園”顯然不是一個含義,通過3 種Embedding求和獲得的輸入向量則表達出每個字符的不同含義。

圖3 BERT 模型的輸入

1.2 BiLSTM 模型

長短時記憶網絡(directional Long Short Tern Memory,LSTM)由Hochreiter 等于1997 年提出。該模型是為了解決循環神經網絡梯度消失和梯度爆炸問題而提出的改進模型。LSTM 構造了包含3 個控制門開關的可控記憶神經元,用于記錄到某一時刻t為止所有的歷史信息,并受到輸入門it、遺忘門ft 和輸出門ot 控制。輸入門it 控制應該保存哪些新輸入的信息中在內存中,遺忘門ft 控制應該忘記前一個時間步單元狀態的哪些信息,輸出門ot 決定在每個時間步應該將哪些信息作為輸出。

單向的LSTM 只能獲取當前信息的上文信息,BiLSTM(雙向長短時記憶網絡)則由前向LSTM 模型和后向LSTM 模型組合而成,兩個模型從兩個方向共同編碼句子,因此BiLSTM 能從前向后、從后向前兩個方面獲得上下文信息[14]。從上下文獲取信息幫助敏感實體識別的方式,一定程度上擴展了正則表達式匹配等傳統脫敏技術的范圍,使得能識別更復雜的實體。

1.3 CRF 層

雖然BiLSTM 可以學習到輸入序列的上下文信息,但其輸出序列沒有考慮到標簽之間的邏輯關系,各個狀態相互獨立。而CRF 能夠充分利用標簽之間的關系,得到全局最優標簽序列。因此,根據BiLSTM 模型的輸出結果,使用CRF 模型計算標注序列的概率分布。CRF 模型考慮了標注之間的轉移特征,輸出聯合概率最大的標注序列[15]。

CRF 層可以學習到句子的隱含約束條件。例如,實體詞的第一個字只能是“B-”或“S-”,絕對不可能以“I-”或“E-”為開頭。又如,“B-PER I-LOC“的預測結果必然為錯誤。依靠這些學習到的隱含規則,可以有效減少錯誤的預測序列。

訓練模型過程中將正確的標注序列生成實體和非實體的掩碼(Mask)序列,對假陰性FN 增加相應loss 權重,對假陽性FP 減少相應loss 權重,計算出新的loss 使得模型傾向于盡可能識別潛在的敏感實體,提升識別信訪文本敏感實體的召回率。

2 實驗與分析

2.1 數據集

此前雖有研究嘗試在數據脫敏中引入命名實體識別,但實驗數據集仍為僅包含人名、地名和機構名的通用領域公共語料。受此影響,現有數據集無法有效反映數據脫敏實際場景,更缺少基層治理領域數據集可供使用,且暫無對敏感實體的定義。本文收集了諸暨市“數字楓橋”項目建設過程中產生的基層治理信訪文本和網上問政平臺數據共同構建數據集,并參考數據脫敏常用敏感詞定義16 類敏感實體。

從基層治理信訪件選取文本內容作為待標注語料,需要進行數據清洗等預處理操作,去除其中空數據和無效數據。信訪文本語料與通用領域相比規范性較差,但考慮到模擬現實應用需要,不對其中的口語化表述等進行修正。預處理后的文本語料輸入標注工具,按照字粒度進行標注。

命名實體識別常用的標注方式有:BIO、BIOES、BMEOS 等。本文采用BMEOS 標注方式對基層治理信訪數據集和MSRA 公共數據集進行標注。其中,B 表示實體的開始,M 表示實體的中間部分,E 表示實體的結束,S 表示單個字符的實體,O 表示非實體的字符。標注敏感實體如表1 所示。

表1 敏感實體標簽含義

該基層治理信訪數據集具備可擴展性,后續研究可借由政務公開平臺或政府熱線提供信訪件文本,獲取更多基層的信訪語料后,添入或再構建一個更大規模和更廣范圍的基層治理信訪數據集。本文提出的敏感實體定義參考《中華人民共和國個人信息保護法》《信息安全技術個人信息安全規范》等相關法律及國家標準,數據脫敏通用領域標準和基層治理信訪件實際應用需要,構建起16 類常見敏感實體,為今后研究者提供一種可供借鑒的思路。

基層治理信訪數據集按8:1:1 劃分訓練集、驗證集和測試集。訓練集共5 101 條語料,驗證集共637 條語料,測試集共637 條語料。

此外,實驗選取微軟亞洲研究院公開的MSRA 數據集,在公共數據集上驗證模型泛用性。該數據集標注有人名、地名、機構名等26 類實體,訓練集包含41 728 條語料,驗證集包含4 636 條語料,測試集包含4 365 條語料。

2.2 實驗環境及參數

實驗環境采用Windows 10 操作系統,CPU 型號為Intel(R) Core(TM) i5-9400F CPU @ 2.90 GHz,內存為8 GB,實驗語言為Python3.6 版本,深度學習框架為TensorFlow1.12.0。

實驗參數設置迭代次數epoch 為20,編碼層單元數為300,隱藏層單元數為300,輸入維度seq_length 為128,訓練集batch_size 為8,驗證集batch_size 為128,測試集batch_size 為128,梯度優化器使用Adam,learning_rate 為0.001,dropout 為0.5,clip 為5。BERT 模型為Bert-Base-Chinese,參數為默認值。

2.3 評價指標

采用準確率(Precision,P)、召回率(Recall,R)和F1值(F1-score)作為基層治理敏感實體識別的評價指標。準確率P表示正確識別的實體數占識別出實體數的百分比,召回率R表示正確識別的實體數占全部實體數的百分比,F1 值是結合準確率P和召回率R的綜合評價指標。具體計算如式(2)~式(4)所示。

其中,TP 表示正確識別的實體數,FP 表示識別錯誤的實體數,FN 表示未識別出的實體數。

信訪文本中的敏感實體涉及群眾隱私,為盡可能識別出這些實體,減少隱私泄露風險,往往召回率比正確率更為重要。若部分的預測實體范圍大于正確實體,按正確率和召回率計算方式認定為識別錯誤,如預測實體為“市民張寶花”,正確實體“張寶花”。但在脫敏實際應用場景下,該將敏感實體作為預測實體的一部分包含的情況是值得考慮的。因此,本文采用敏感實體框選率(Box Selection,B)作為輔助評價敏感實體識別效果的指標,有助于了解模型快速篩選敏感實體的能力??蜻x率B定義為識別結果完全一致和部分包含的實體數之和占全部實體數的百分比。

2.4 實驗結果及分析

本文選取BiLSTM、BiLSTM+CRF、BERT、BERT+BiLSTM、BERT+CRF、BERT+BiLSTM+CRF 6 組模型進行實驗,在基層治理信訪數據集上對敏感詞實體識別結果如表2 所示。

表2 基層治理信訪數據集實驗結果 (%)

在公共數據集MSRA 上對26 類實體識別結果如表3所示。

表3 MSRA 數據集實驗結果 (%)

由表2 和表3 可見,BiLSTM 模型取得了良好的識別效果,這是由于該模型可以利用上下文信息,作為命名實體識別的經典模型表現不俗。CRF 具有良好的優化標注序列能力,無論是接在BiLSTM 模型還是BERT 模型后都能進一步提升對敏感實體的識別效果。

從實驗結果來看,BERT 模型的引入豐富了詞向量表示的信息,使向量表示中加入了先驗知識,且有效解決了一詞多義問題。由于BERT 預訓練模型生成了包含信息更準確的詞向量,將BERT 作為特征表示的模型識別效果普遍好于沒有采用BERT 的模型。

BiLSTM 模型能夠充分利用上下文信息進行編碼,在BERT 和CRF 之間加入BiLSTM 模型使得識別效果略有提升。最終,三者組合的BERT+BiLSTM+CRF 模型在信訪數據集上取得了較其他模型更好的效果。而MSRA 數據集的結果,在BERT 模型后加入BiLSTM 模型反而導致性能略微下降,這可能是由于該數據集實體長度短于基層治理數據集,BiLSTM 模型捕捉連續順序信息的能力未能很好地體現。

在MSRA 公共數據集上取得的實驗結果要好于在基層治理數據集,這可能是由于MSRA 數據集樣本量更大,模型能更好地學習到語料信息。此外,信訪語料中規范性差的口語表達和敏感實體的復雜性也可能是導致該結果的原因。

在兩個數據集上測試敏感實體框選率B表現,結果如表4 所示。

表4 框選率實驗結果 (%)

在實際應用中,該敏感實體識別模型能夠較好地識別敏感信息,但暴露出F1 值等評價指標的不足。由于實體識別作為序列標注任務固有的缺陷,難以保證敏感實體中每一個標簽的識別正確性,導致F1 值無法充分反映模型在數據脫敏應用時的效果。此外,本文采用的敏感實體框選率B雖能評價部分包含的情況,但未能體現出敏感實體之間的聯系,而在數據脫敏過程中不同數據之間的推理攻擊卻是不可忽視的。

綜上所述,BiLSTM 模型有效利用了上下文信息,在基層治理信訪數據集上表現良好。BiLSTM 模型輸出時無法利用輸出標簽序列之間的邏輯關系,BiLSTM+CRF的組合優化了輸出序列。將BERT 模型作為特征表示層,能一定程度上解決信訪數據集存在的一詞多義、實體嵌套和指代關系等問題,進一步提升敏感實體的識別效果。與此同時,針對數據脫敏實體完整性的需要,應當探索更好的評價指標用于敏感實體識別效果的評價。

3 結論

本文設計實現了基于BERT+BiLSTM+CRF 的基層治理敏感詞實體識別模型,利用BERT 預訓練模型生成包含更準確信息的詞向量,輸入BiLSTM 模型中進行編碼,最后由CRF 優化輸出序列。該模型能有效解決信訪數據集存在的一詞多義和嵌套實體等問題,與經典模型BiLSTM+CRF 相比識別性能更強。在收集標注好的基層治理信訪數據集和MSRA 數據集上進行了相關實驗,BERT+BiLSTM+CRF 模型表現出最好的識別效果,證明了模型的有效性。

由于BERT 預訓練模型采用字粒度的方式,未能充分結合詞粒度層面的信息,未來可以考慮融入詞粒度信息至BERT 模型中增強特征表示性能。此外,也可以嘗試探索將BiLSTM 模型替換為編碼能力更強的模型,以提升模型預測識別能力。值得注意的是,后續研究若期望進一步將數據脫敏和命名實體識別技術相融合,有必要探索新的敏感實體完整性的評價指標體系。

猜你喜歡
脫敏語料實體
激光聯合脫敏劑治療牙本質過敏癥
過敏體質與脫敏治療
前海自貿區:金融服務實體
讓青春脫敏
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
Nd:YAG激光作用下牙本質脫敏機制的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合