?

新能源專利文本術語抽取研究

2022-05-10 08:45陳海濤呂學強游新冬
小型微型計算機系統 2022年5期
關鍵詞:語料術語向量

孫 甜,陳海濤,呂學強,游新冬

1(北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101)

2(北京信息科技大學 外國語學院,北京 100192)

1 引 言

新能源主要是指可再生、可持續的非傳統清潔環保能源.新能源產業主要是指將太陽能、地熱能、風能、海洋能、生物質能和核聚變能等非傳統能源產業化的一種高新技術產業[1].基于1995-2019年全球以及中國專利公開的新能源產業數據信息統計,中國新能源專利總申請量為423134件,全球新能源專利總申請量為1734849件,年均申請增長率保持穩定,這表明世界各國政府和企業的大力關注和支持[2].如何推動中國專利文獻走向世界,更快速更準確地翻譯專利文本成為一個值得關注的問題.

當前專利文獻的翻譯方式主要有兩種,一種是經由專業領域人士的翻譯,但高質量翻譯是一項高要求且耗時的生產任務,對人類翻譯專家的要求較高,能滿足該要求的合格翻譯人才比較缺乏,況且由于專利文獻具有新穎性、可靠性和權威性的特點,翻譯人員在翻譯過程中需要利用領域術語表來把握對領域術語的準確翻譯,術語庫的構建就顯得尤為重要.另一種翻譯方式是先對專利文本進行機器翻譯,然后再進行譯后編輯,據統計,市面上翻譯引擎對專利文本的翻譯經常存在語義缺失、語義不準確、術語錯誤等問題,其中術語錯誤更是占了翻譯錯誤的很大比例[3],這就對機器翻譯技術提出了更高的要求,如何利用術語詞表改進機器翻譯的質量值得深入研究.無論是人工翻譯還是機器翻譯,都離不開領域術語庫的構建,這些現象都凸顯了領域術語抽取的重要性.

專利文獻中的領域術語為專利文獻分析提供了結構化知識單元,這些領域術語為查閱人員準確且快捷的掌握專利方向及其核心技術帶來了很大的方便.從專利文獻中自動抽取術語,構建術語庫的過程,對于機器翻譯[4]、對話系統[5]、信息檢索[6]等方面發揮著重要的基礎性作用.隨著科學技術的不斷發展、大量新能源領域專利文本的不斷申請,新能源領域術語的抽取需求也在與日俱增,往日依靠人工方法收集和傳統機器學習算法來抽取領域術語的方法也往往有其自身的局限性,還有很大的改善空間,利用深度學習實現更高效、更準確的自動抽取領域術語的方法已經成為必然的發展趨勢.

針對新能源領域專利文本進一步提升術語抽取準確率的任務,本文提出了基于BERT-BiLSTM-CRF的新能源專利術語抽取方法,主要包括以下3個貢獻點:1)構建了一個新能源領域專利文本的語料庫以及領域詞典,包含3002條新能源專利語料以及26873個術語詞匯.2)提出了基于BERT-BiLSTM-CRF的新能源專利術語抽取研究方法,通過BERT預訓練模型對新能源專利文本進行文本向量化,以更好地捕捉文本的語義,與其他深度學習抽取模型相比,本文提出的方法在準確率、召回率和F1值均有了顯著提升.3)在新能源專利文本語料上的實驗表明,本文提出的方法能有效識別字符較多的新能源專利長序列術語,對領域詞典的構建起到了很大的幫助作用.

2 相關研究

領域術語的抽取作為一項基礎性的研究,國內外也已經有許多學者對其抽取方法做了很多工作,研究方法主要包括基于規則、統計以及規則與統計兩者相結合的方法.2010年周浪等人[7]通過分析詞組型術語的特點及其在語料中的分布特征,使用子串歸并、搭配檢驗和領域相關度計算技術3個方法有效提升了低頻術語和基礎術語的排序位置,但缺陷在于研究者需具備豐富的語言知識來制定抽取術語所用的語言規則,語言學規則制定難度大,耗時耗力.2014年劉輝等人[8]分析了通訊領域的術語,并根據其特點制定規則進行人工標注,使用基于字符級特征的條件隨機場進行實現,分別達到了80.9%、75.6%、78.2%的精確率、召回率和F值.這種方法雖然優于將詞和詞性作為特征來進行抽取,但是不利于在大規模語料上進行,因為規則制定需要具備領域知識的專家,而且人工標注比較耗時耗力.2015年何宇[9]選取了6種特征,分別是詞、詞長、詞性、依存關系、詞典位置和停用詞作為特征模板,利用條件隨機場模型有效抽出了新能源汽車領域的術語,但該方法只提高了短術語抽取的效果,對長術語的抽取仍存在缺陷.綜上所述,利用基于統計和規則的方法雖然取得了一定的效果,但專業領域的中文術語實體識別仍舊依賴人工界定的特征和領域專業知識,術語的識別精確率和召回率因受到特定領域情境的限制而無法推廣應用.

神經網絡的深度學習方法和基于規則或統計機器學習的方法相比,有更強的泛化能力,更少依賴人工特征選擇的優點.深度神經網絡采用基于詞向量的特征表示,把詞向量作為深度神經網絡的輸入,自動學習文本上下文深層語義信息,把術語抽取任務轉化為序列標注任務,很大程度上減少了對人工特征和領域知識的依賴.2015年Huang等人[10]構建了Bi-LSTM-CRF模型,BiLSTM模型用于獲取輸入文本到深層隱藏特征并輸出,將BiLSTM的輸出作為CRF模型的輸入,實現了對文本信息的序列標注.2017年Gridach[11]首次在生物醫學領域利用BiLSTM-CRF實現了字符級神經網絡的命名實體識別并達到了90.27%的準確率.2018年孫娟娟等人[12]構建了Character-LSTM-CRF實體識別模型,并以字向量作為模型的輸入,避免了分詞不準確對命名實體識別效果造成的影響,實現了對漁業領域命名實體識別的研究.2019年武惠等人[13]提出了一種基于實例的遷移學習算法,將源域的知識遷移到目標域,有效緩解了對人工特征和專家知識的依賴,在小規模數據集上取得了80.0%的F值.2019年張應成等人[14]應用包含詞向量層、BiLSTM網絡層、CRF層結構的BiLSTM-CRF模型,以50000條招標平臺上的招標文件為語料,對招標人、招標編號、招標代理進行了識別,F1值最高達到了87.86%.他的研究也進一步指出,BiLSTM方法優于LSTM方法,并且引入CRF算法可以給不同模型帶來程度不等的效果提升.2019年馬建紅等人[15],提出了一種基于attention的雙向長短時記憶網絡與條件隨機場相結合的領域術語抽取模型,并使用基于詞典與規則相結合的方法對結果進行校正,準確率可達到86%以上.2020年李靈芳等人[16]利用中文電子病歷提出了BERT-BiLSTM-CRF命名實體識別模型,在準確率、召回率、F1值3個方面都有顯著提升.

鑒于近年來BERT預訓練語言模型[17]在英文自然語言處理(NLP)任務中的優異表現,自動挖掘隱含特征可以有效解決發現新詞的特點,同時減少人工定義特征和對領域知識過度依賴的問題.本文從深度學習的角度出發,提出基于BERT-BiLSTM-CRF的新能源專利術語抽取模型.該模型首先利用BERT中文預訓練向量將新能源專利文本轉為字符級嵌入向量訓練出單詞的字符集特征,然后將字符集特征輸送到BiLSTM模型進行訓練,更深層次地挖掘專利文本中術語與其它詞匯之間的語義信息,更好地捕捉前后文隱含的信息,最后與CRF層相結合,解決輸出標簽之間的依賴關系問題,得到全局最優的術語標記序列.

3 基于BERT-BiLSTM-CRF的術語抽取模型

近年來不依賴人工特征的端到端BiLSTM-CRF模型成為術語識別的主流模型,隨著自然語言處理在深度神經網絡模型研究的不斷深入,不少研究指出,經過預訓練的詞嵌入模型能更好理解文本語義信息,應用到專業術語識別這一類的命名實體識別任務中能取得不錯的效果,提升后續實驗任務的準確性.

3.1 BERT-BiLSTM-CRF新能源專利術語抽取模型整體框架

BERT-BiLSTM-CRF新能源專利術語抽取模型整體結構如圖1所示,首先是BERT預訓練語言模型層,被標注的字符級語料經過該層將每個字符轉化為低維詞向量.其次是BiLSTM層,將上一層輸出的詞向量序列輸入到這一層進行語義編碼,自動提取句子特征.最后是CRF層,利用這一層解碼輸出概率最大的預測標簽序列,得到每個字符的標注類型,對序列中的實體提取分類,最終實現新能源領域專利術語的抽取.該模型與其他深度學習術語抽取模型相比最主要的區別是利用了Google在大規模中文語料上習得的BERT預訓練中文向量,因為其更強的上下文長距離語義學習能力,可以更好地解決字向量一詞多義的問題,更深層次挖掘新能源領域專利文本的特征,為下游任務提供更豐富的語義信息.

圖1 BERT-BiLSTM-CRF新能源專利術語抽取模型

3.2 BERT預訓練語言模型

從one-hot語言模型的提出,再到Word2Vec[18]、Glove[19],近幾年又有ELMO[20]、GPT[21]到BERT預訓練模型的出現,語言模型的發展對文本語義的表征理解越來越充分.2018年Devlin等人提出的BERT模型綜合了ELMO和GPT兩者的優勢,利用Transformer[22]的編碼器作為語言模型的基礎,從前后兩個方向捕獲句子的信息,self-Attention機制獲取單詞與單詞之間的語義權重,相應生成的字嵌入分布式表示具有更強的語義表征優勢.

Transformer之所以具有較強的特征提取能力,是由于其內部的多頭注意力機制.self-attention機制主要是根據同一個句子中詞與詞之間的關聯程度調整權重系數矩陣來獲取詞的表征,也就是說,BERT模型對每個單詞編碼時,都會考慮到句子中其他單詞的語義權重,因此具有很強的編碼能力.具體操作可以解釋為:首先向量經過3個不同的全連接層,得到Q,K,V3個向量,然后Q和KT進行矩陣相乘得到單詞和其他單詞相關程度的向量QKT.最后將標準化的QKT放入到softmax激活函數中,得到詞與詞之間的關聯度向量,再乘以V得到最終向量,如公式(1)所示:

(1)

再通過多頭結構拼接向量結果:

MultiHead(Q,K,V)=Concat(head1,…,headh)WO

(2)

(3)

為了使網絡更容易訓練,Transformer還引入了殘差連接和層歸一化:

(4)

FFN=max(0,xW1+b1)W2+b2

(5)

為了解決注意力機制不提取時序特征這個問題,Transformer在數據預處理前加入了位置編碼,并與輸入向量數據進行求和,得到句子中每個字的相對位置.

(6)

(7)

最后,BERT將位置嵌入和詞嵌入拼接起來作為模型輸入,如圖2所示.

圖2 Transformer的編碼器

3.3 BiLSTM層

LSTM的全稱是Long Short Term Memory,它是循環神經網絡RNN的一種變體,巧妙地運用了門控概念實現長期記憶,有效解決了RNN訓練時所產生的梯度爆炸或梯度消失的題,非常適合文本類時序特征的數據,單元結構如圖3所示.

圖3 LSTM單元結構

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(8)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(9)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(10)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

(11)

ht=ottanh(ct)

(12)

改進的LSTM通過門控機制實現長時序類型數據的編碼,但是單向的LSTM只能對數據從一個方向編碼,即無法編碼從后到前的信息,這就導致句子語義理解不充分.BiLSTM綜合考慮了正向特征提取和逆向特征提取,構建了兩個方向相反的隱藏層,通過這種方式,BiLSTM可以更好地捕捉雙向的語義依賴,取得更好的語義表達效果.

3.4 CRF層

輸出的預測標簽之間的依賴關系也是術語抽取很重要的一個方面.比如以“I-TERM”作為單詞首詞的標簽就是一個非法標簽,因為一個單詞只可能是兩種情況,一種是術語,標簽是“B-TERM”,一種不是術語,標簽是“O-TERM”,利用條件隨機場模型[23]則可以規避這種非法情況的發生.通過為預測的標簽添加一些約束,通過概率轉移矩陣捕捉標簽之間的依賴關系,排除非法用語的情況,獲得一個最優的預測序列,彌補BiLSTM的缺點.

對于任一給定的輸入序列X=(x1,x2,…,xn),其對應標簽序列Y=(y1,y2,…,yn)的CRF評估分數函數可以由公式(13)表示:

(13)

公式中的W表示轉移分數矩陣,Wyi-1,yi表示標簽yi-1轉移到標簽yi的分數,Pi,yi表示第i個詞xi映射到標簽yi的非歸一化概率.

預測序列概率p(Y|X)可以通過如下的softmax函數來進行計算:

(14)

兩頭取對數得到預測序列的似然函數:

(15)

(16)

4 實 驗

本文利用BERT-BiLSTM-CRF模型抽取面向新能源領域的專利術語,整體流程如圖4所示,主要包括以下幾個方面,分別是新能源領域專利文本數據集的獲取與處理、新能源領域術語詞典的構建、語料的自動標注及人工校對、模型訓練和結果評測.

圖4 實驗整體流程圖

4.1 新能源語料及術語庫的構建

本文實驗所采用的新能源領域的專利文本是從SooPAT網站(1)http://www.soopat.com/上下載下來,然后經過處理手工構建的語料.以“新能源”、“太陽能”、“風能”、“生物質能”、“地熱能”、“核能”為關鍵詞對新能源專利進行搜索,將獲取下來的專利文本按一定規則進行預處理,以句號為分隔符將摘要和權利要求書進行切分,并進行標點符號規范化處理,隨機挑選其中3002條數據用作實驗對象,2101條句子用于訓練,601條用于驗證,300條用于測試.

新能源領域術語集的構建大致可以分為兩類:一類是對現有術語資源的整理,主要參考了《GB/T 10097-2018地熱能術語》《GB/T 30366-2013生物質術語》《GB/T 33543.1-2017海洋能術語第1部分通用》《GB/T 24548-2009燃料電池電動汽車術語》等標準文件中所包含的術語詞條以及專業詞典、相關論著、權威網站涉及到的專業術語等.另一類是對新能源專利文本里涉及的術語進行手工識別和整理.篩選的標準參考了標準文件中的樣式,術語需要具有領域代表性、單義性、準確性和簡明性,根據實際情況,對新能源領域術語集進行了修正和更新,術語樣例展示如表1所示.通過對以上資料進行整理及人工篩選,總共得到新能源領域術語26873個,其中訓練集中包含6206個術語,驗證集中包含術語2122個,測試集中包含術語1145個,數據集統計如表2所示.

表1 術語樣例展示

表2 數據集統計信息

4.2 人工標注及評估標準

為了減少人工標注的成本,本文采用基于以上手工構建的領域術語表自動標注訓練語料和測試語料中的術語,先利用jieba庫對新能源語料按自定義詞典進行分詞,然后采用代碼匹配的方式自動標注術語,如算法1所示.由于新能源領域詞典中的術語數量有限,不可能涵蓋文本中的全部術語,另外術語實體存在縮寫、嵌套、中英文混合等情況,本文的數據在自動標注以后又人工校對了一遍,把與新能源領域不相關的術語詞處理掉.采用BIO三元標注的方法,B-TERM表示術語實體的第一個詞,I-TERM表述術語實體的非首字,O表示當前字符不是術語實體.表3是新能源術語實體的示例標注,每一行是一個字及其對應的標簽,之間用空格分開,句與句之間用空行隔開.

表3 新能源專利文本標注樣例

算法1.Bert Char Tagging

Infile:each line is segmented by terms

Outfile:BERT-tagged format file

1.terms ← list of new energy terms

2.forline in Infiledo

3. word_list ← Split line with space separator

4.forword in word_listdo

5.iflen(word)==1then

6. Outfile ← word+O-TERM

7.elseif

8. Outfile ← word+B-TERM

9.forw in word[1:len(word)-1]do

10. Outfile ← word+I-TERM

11.endfor

12. Outfile ← word+I-TERM

13.else

14.forw in worddo

15. Outfile ← word+O

16.endfor

17.endif

18. Outfile ← “ ”

19.endfor

20.endfor

本文采取了準確率(P)、召回率(R)和F1值3個指標來驗證所提出模型的有效性,具體計算如公式(17)-公式(19)所示:

(17)

(18)

(19)

4.3 實驗設計、結果與分析

4.3.1 實驗環境配置

BERT-BiLSTM-CRF新能源專利術語抽取模型的運行環境為64位Ubuntu16.04操作系統,具體實驗的訓練環境如表4所示.

表4 訓練環境配置

4.3.2 實驗參數配置

本文實驗采用了Google提供的BERT中文預訓練BERT-base模型,transformer有12層,隱藏層維度為768,12個attention-head,共110M個參數.實驗中BERT模型參數設置batchsize為32,dropout為0.5,learning_rate為1e-5,BiLSTM中前后隱藏狀態維度為128,clip為0.5,使用Adam優化器最小化模型損失,具體超參數設定如表5所示.

表5 參數設置

4.3.3 實驗結果

為了驗證BERT-BiLSTM-CRF模型對新能源專利術語抽取結果的有效性,本文選取了以下兩種模型進行實驗對比.模型1是BiLSTM-CRF模型,該模型是序列標注領域的經典模型,采用傳統預訓練好的詞向量,對輸入字符序列進行上下文語義的學習,然后通過CRF模型輸出全局最優的標記序列.模型2是基于Glove字嵌入結合LSTM-CRF模型,先使用Glove預訓練模型完成詞向量訓練,接著BiLSTM-CRF神經網絡使用Glove輸出的文本詞嵌入向量繼續訓練.模型3是本文所研究的基于BERT-BiLSTM-CRF新能源專利術語抽取模型.實驗對比結果如表6所示,可以看到模型1達到了84.79%的F1值,模型2比模型1提高了約5個百分點,BERT-BiLSTM-CRF新能源專利術語抽取模型在準確率、召回率和F1值較其它兩個模型都有較高的提升,F1達到了92.28%.為了更加進一步直觀地對比3個模型在準確率,召回率和F1值的實驗效果,圖5列出了各個對比實驗的的柱狀圖結果:

表6 基于深度神經網絡的術語抽取模型實驗結果

圖5 3種術語抽取模型實驗結果

4.3.4 實驗分析

通過圖5和表6的結果我們可以看出,本文所提出的基于BERT-BiLSTM-CRF的新能源專利術語抽取模型在精確率、召回率和F1值3方面均優于其它模型.表7是3種模型對3個不同句子術語抽取結果的展示.可以觀察到,模型1僅使用了BiLSTM-CRF模型,雖然得到了84.79%的F1值,能抽取出句子中部分的新能源領域的專利術語,但是抽取的結果不夠全面,還有一些字符數量較長的術語未識別出來,最終抽取效果還有提高的空間.模型2在實驗1的基礎之上加入了Glove字嵌入向量,實驗的準確率提高了5.44%,召回率提高了5.14%,F1值提高了5.28%.由此可以得出,加入字嵌入的詞向量更好地結合了上下文,對提高新能源領域專利術語的抽取起到了一定的作用,但由于Glove模型是基于詞語進行的分詞,可能會存在專業術語詞切分不當、術語之間邊界切分不準確而導致詞向量學習效果不佳的問題,術語抽取結果不全.為了解決這個問題,本文所提出的BERT-BiLSTM-CRF新能源領域術語抽取模型是基于字粒度的,不存在分詞錯誤帶來的影響,因此對文本語義的理解會更加透徹,最終實驗取得了92.28%的F1值.而且在實際新能源專利文本術語抽取中能夠有效地識別出字符較多的新能源專利長序列術語,如表7中黑色加粗的字體所示,說明BERT預訓練語言模型生成的字向量能更好地學習到術語詞與其他詞語之間的關系,取得比傳統的詞嵌入向量更加準確的術語實體抽取效果.

表7 3種術語抽取模型結果的樣例說明

通過在新能源領域專利文本上的實驗驗證,本文設計的經過預訓練之后的基于BERT-BiLSTM-CRF的新能源專利術語抽取模型不需要在模型中添加人工特征,僅僅通過利用程序自動標注語料,然后需要少量的人工校對成本,就能夠取得有競爭力的實驗效果,節省了大量的人力物力.在實際的新能源專利文本的術語抽取中,尤其是針對字符數量較多的新能源專利術語也能有效抽出,因此具有較好的跨領域、跨行業應用前景

5 總 結

綜上所述,本文針對新能源領域中文術語的抽取任務,構建了一個新能源領域專利文本的語料庫和術語詞典,提出了一種基于深度學習的BERT-BiLSTM-CRF新能源專利術語抽取方法,通過對比實驗結果可以得出,利用BERT對新能源專利文本進行向量化,能有效提高術語抽取結果的準確率,抽取效果優于當前主流的深度學習術語抽取模型,并在新能源領域專利文本術語抽取中得到了實際應用,可以識別出字符較多的新能源專利長序列術語.本文下一步的工作重點是繼續擴大領域核心詞典,在現有模型抽取結果的基礎上制定高效可行的規則篩選新能源術語,自動標注并訓練更大規模的新能源領域專利術語抽取模型,進一步提高模型的泛化性,從而構建更豐富的新能源領域專利術語詞典.

猜你喜歡
語料術語向量
向量的分解
淺談視頻語料在對外漢語教學中的運用
可比語料庫構建與可比度計算研究綜述
如何使用第二外語學習者語料
文學術語詞典中的“經典”:艾布拉姆斯的《文學術語匯編》
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
英語教學中真實語料的運用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合