?

小粒度策略下基于CRFs的軍事命名實體識別方法

2017-03-20 05:03單赫源張海粟吳照林
裝甲兵工程學院學報 2017年1期
關鍵詞:分詞粒度命名

單赫源,張海粟,吳照林

(1.國防信息學院信息化建設系,湖北 武漢 430010; 2.空軍工程大學信息與導航學院,陜西 西安 710077)

小粒度策略下基于CRFs的軍事命名實體識別方法

單赫源1,2,張海粟1,吳照林1

(1.國防信息學院信息化建設系,湖北 武漢 430010; 2.空軍工程大學信息與導航學院,陜西 西安 710077)

軍事命名實體(Military Named Entities,MNEs)內部嵌套關系復雜、語法區分不明顯,從而影響實體識別效果,針對這一問題,提出了一種小粒度策略下基于條件隨機場(Conditional Random Fields,CRFs)的MNEs識別方法。運用小粒度策略,結合手工構建的MNEs標注語料進行建模,采用CRFs模型識別出不可再分的小粒度MNEs,再通過對小粒度MNEs進行組合得到完整的MNEs。最后,通過實驗對該方法進行了驗證,結果表明:在作戰文書語料的開放測試中,MNEs識別的召回率達到72%以上,準確率達到85%以上。

條件隨機場; 軍事命名實體; 命名實體識別; 小粒度策略

作戰文書是軍隊指揮鏈路中主要的信息載體,具有組織指揮、溝通聯絡作用,是部隊行動的直接依據。準確識別出作戰文書中的部隊、裝備、地點和任務等命名實體,是實現文本數據和結構化數據的跨模態關聯,進而使計算機理解作戰文書語義的前提,是提高指揮信息系統輔助決策能力的一個基礎性工作。命名實體識別方法包括基于規則和基于機器學習2類[1]?;谝巹t的命名實體識別方法對固定句式中的命名實體識別效果較好,但對領域知識要求高,且可移植性較差;與之相比,基于機器學習的命名實體識別方法對領域知識要求較低,具有良好的跨領域移植性?;跈C器學習的命名實體識別方法通常都需要大量的標注語料,由于軍事命名實體(Military Named Entities,MNEs)內部存在著嵌套關系,因此訓練集的標注粒度影響MNEs的識別效果。目前,對機器學習模型訓練集的標注主要有2種方法:1)對實體進行完整標注,標注實體的左右邊界和實體的內部組成部分[2-6];2)對簡單實體和嵌套實體分別進行標注[7-10],并分別采用不同的實體識別方法。以上方法不同程度地存在著實體標注復雜、耗時費力等問題。為此,基于機器學習的命名實體識別方法,筆者提出一種小粒度策略下基于條件隨機場(Conditional Random Fields,CRFs)[11]的MNEs識別方法,在訓練集中標注MNEs時依據小粒度策略,使被標注的MNEs粒度最小,在此基礎上訓練CRFs模型并采用該模型實現對MNEs的識別,不但能降低訓練集標注的復雜度,還有助于提高機器學習方法識別MNEs的準確度。最后,通過實驗對該方法進行驗證。

1 MNEs的特點

作戰文書中的MNEs包括單位類實體、地理類實體、裝備類實體、任務類實體和時間類實體。MNEs構成受有關條例和規范的約束,通常以軍語等術語及其組合的形式在作戰文書中呈現,具有獨特的構成特點,具體如下:

1)單位類命名實體中的序列標志多采用阿拉伯數字。如“陸軍第××集團軍”“炮兵團第×營”等。

2)標志部隊編制的單位類命名實體右邊界一般有軍、師、旅、團、營、連、排、班等代表層級的字符,多個標志部隊編制的命名實體經常以組合的方式出現,如“機械化步兵第×師第×團第×營”。

3)標志地區和地點的地理類命名實體經常以省、市、縣、鄉、鎮、村、莊、集、隊、寨、溝、山、峪、壩等字符作為右邊界。與單位類命名實體類似,標志地點的命名實體也經常疊加組合。

4)標志坐標的命名實體通常緊貼作戰文書中首次出現的標志地點的命名實體右邊界。標志坐標的命名實體通常以“(”開始,以“)”結束,經緯度之間用“,”區分。

5)在標志作戰編成的單位類命名實體或標志武器裝備的裝備類命名實體中,漢字、字母、數字和符號經常組合出現,如“T字布”“垂直/短距起降飛機”等。

6)MNEs存在全稱和簡稱,如全稱為“機械化步兵第×師”,簡稱為“機步第×師”。

7)MNEs中的詞語大都是規范的固定組合,不能任意增減、改換。

MNEs識別的難度在于:中文文本中詞語邊界沒有空格等明顯的區分標志,也沒有大小寫等字形上的區別;MNEs內部嵌套關系復雜,實體內部經常嵌套其他命名實體;MNEs的全稱、簡稱并存現象普遍。這些都使得選擇區分度高的MNEs分類特征較為困難,從而增加了識別的難度。

2 MNEs的標注策略及識別模型

2.1 小粒度策略

小粒度策略是在命名實體標注過程中,針對作戰文書中MNEs構成復雜且全稱、簡稱混合的特點所采取的一種命名實體標注策略。小粒度策略的內容是在標注MNEs時僅標注不可再分的MNEs,不可再分是指若去掉實體開頭或結尾的任何一個字符,都將引起歧義或使實體不再具有意義,如:“1團2營3連”,根據小粒度策略,分別標注為“1團”“2營”和“3連”3個不可再拆分的部隊編制實體。小粒度策略可有效地減小命名實體構成的差異化對命名實體識別的影響,采用該策略后,只需將識別結果中連續出現的小粒度MNEs組合在一起,并以最后一個實體的標注作為合并后實體的標注,即可獲得完整的MNEs。

2.2 CRFs模型

(1)

式中:Z(x)為標準化因子,只依賴于詞語序列,其表達式為

(2)

λk為通過訓練得到的第k個特征函數的權重,反映了特征函數代表的事件發生的可能性;fk(yi,yi-1,x)為特征函數,其一般表示形式為

(3)

3 MNEs的識別步驟

在小粒度策略下,基于CRFs的MNEs識別方法的識別步驟包括預處理、訓練集標注、特征模板選擇、識別模型訓練和預測等。

實驗材料是特征尺寸為65 nm、直徑為300 mm的12英寸銅晶圓。采用美國APPLIED MATERIALS公司生產的Reflexion? LK型拋光機,配備Rohm and Haas公司生產的Politex? Reg型拋光墊。拋光工藝參數為:拋頭轉速78 r/min,拋盤轉速80 r/min,體積流量300 mL/min,拋光壓力5.2 kPa,拋光時間60 s。

3.1 預處理

預處理是對原始的作戰文書進行分詞和詞性標注,使原始文本中隱含的詞語、詞性和上下文等特征能夠顯式表達。筆者采用中科院ICTCLAS工具[13]實現作戰文書的分詞和詞性標注,其含義示例如表1所示。

表1 ICTCLAS詞性標注的含義示例

3.2 訓練集標注

訓練集標注是通過人工方式將訓練集中的MNEs標注出來,為CRFs模型的訓練提供樣板。筆者以詞作為作戰文書語料的切分粒度,使用“BIO”標注方法,采取小粒度策略標注訓練集,得到訓練集的實體標注序列。其中:B(Begin)表示實體開始(左邊界);I(Internal)表示實體內部及結尾(右邊界);O(Other)表示除實體外的其他詞、字和標點。根據作戰文書的特點,選擇標注10類MNEs,其標注方法如表2所示。

表2 MNEs的類別及標注方法

例如:對句子[機步第×師為集團軍左翼突擊上陸梯隊。]采用中科院ICTCLAS工具進行分詞和詞性標注后,其MNEs標注如表3所示,得到MNEs標注序列為[B-Str,I-Str,I-Str,I-Str,O,B-Str,B-Az,B-Org,I-Org,I-Org,I-Org,O]。

表3 句子[機步第×師為集團軍左翼突擊上陸梯隊。]的分詞、詞性標注和MNEs標注

3.3 特征模板選擇

CRFs模型最大的優點就是能夠綜合使用字、詞、詞性和上下文信息等特征。在小粒度策略下采用CRFs模型進行MNEs識別時,特征選擇影響MNEs識別的效果,可選擇的特征主要有詞語特征、詞性特征和上下文特征等。特征模板是在CRFs模型訓練和識別MNEs時所要使用的預定義的識別特征組合方式。如:句子[集團軍前進指揮所信息通信樞紐開設在××莊。]在經過分詞、詞性標注和人工標注實體后,其MNEs標注如表4所示,選擇詞語和詞性作為識別特征。若特征%x[0,0]為句子中的詞[開設],則特征模板中所代表的特征及其內容如表5所示。

表4 句子[集團軍前進指揮所信息通信樞紐開設在××莊。]的分詞、詞性標注和MNEs標注

表5 特征模板中所代表的特征及其內容

3.4 識別模型訓練和預測

識別模型訓練的實質是獲得CRFs模型的最優化參數。在得到經過訓練的CRFs模型后,要利用測試集對模型性能進行測評,以判斷識別方法的優劣。通常采用召回率R、準確率P和F值3個指標對訓練后的CRFs模型的性能進行評價,其計算方法分別如下:

(4)

(5)

(6)

經過測評后,可選擇識別效果較好的模型對作戰文書中的MNEs進行預測。

4 實驗結果與分析

4.1 實驗條件設置

筆者通過構建一個小規模實驗語料來驗證以上方法的有效性。采用中科院ICTCLAS工具進行分詞和詞性標注,對分詞后的作戰文書語料進行MNEs的手工標注。選擇作戰文書200份,共計26 242字、534句;選擇其中的374句作為訓練集,共計15 790字;其他160句作為測試集,共計10 452字。實驗所用計算機的配置為:處理器Intel Core 2 Duo E7500 2.93 GHz,內存容量為4 GB,操作系統為Windows7 旗艦版64位。實驗采用召回率R、準確率P和F值作為評價指標。

語料文件由輸入、標注對序列構成。CRFs模型的訓練和測試采用CRFs工具CRF++0.53[14],其參數C的取值對CRFs模型的效果有較大影響,C越大,CRFs擬合訓練數據的程度越高,但過大的C值會引發過度擬合。因此,參數C的取值和特征模板都需要通過多次實驗進行擇優選擇。筆者通過在實驗中調整C值和遞加特征的方法來觀察算法的效果,從而選取合適的C值與特征模板。實驗選用的初始特征模板如表6所示。

表6 實驗選用的初始特征模板

4.2 實驗結果分析

4.2.1 特征變化對算法性能的影響

表7 在初始特征模板下參數C=10的MNEs識別結果

由表7可見:在使用初始特征模板時,采用本文的方法識別MNEs的準確率達到85.32%,召回率達到72.99%。

在增加特征U07(%x[-2,0]/%x[-1,0])以及U08(%x[1,0]/%x[2,0])后,模型訓練時間上升為25 min。在擴展特征模板下參數C=10的MNEs識別結果如表8所示??梢钥闯觯涸谠黾釉~語上下文特征數量后,召回率下降,而準確率得到小幅度提升??梢姡涸~語上下文特征的增加對識別的準確度影響不大,但對算法性能有較大影響。因此在采用本文方法識別MNEs時應選擇合適的上下文窗口:詞語、詞性和詞性上下文等特征以5詞窗口為宜;而詞語上下文特征以3詞窗口為宜。

表8 在擴展特征模板下參數C=10的MNEs識別結果

4.2.2 算法參數對識別結果的影響

為調整本文方法在生成模型時過度擬合和不擬合之間的平衡度,在擴展特征模板基礎上,分別改變參數C的取值。當參數C=2,4,6,8,10時,得到在擴展特征模板下變參數的MNEs識別準確率、召回率和模型訓練時間,分別如圖1、2所示。表9為在擴展特征模板下參數C=2的MNEs識別結果。

圖1 在擴展特征模板下變參數的MNEs識別準確率、召回率

圖2 在擴展特征模板下變參數的模型訓練時間

項目標注數量正確識別錯誤識別召回率/%準確率/%F值實體總數115583613571.0889.630.793部隊編制3693123884.5589.140.868作戰編成1971023051.7877.270.620地名2471991680.5792.560.861坐標1761761100.0099.440.997方位趨向22124.5533.330.080裝備型號369525.0064.290.360任務71014.29100.000.250時間185127.7883.330.417日期204220.0066.670.308數量6312019.05100.000.320

由圖1可見:隨著C值增大,召回率得到提升,而準確率下降;當C=10時,召回率出現大幅下降,而準確率出現較大反彈??梢?過小或過大的C值都會降低召回率,其取值在4~8之間較為合適。

由圖2可見:隨著C值增大,模型訓練時間從17 min上升為25 min。這表明:在增加特征數量的同時,若適當減小C值,不但可以防止出現過度擬合,而且可以有效縮短模型訓練時間。

綜合以上2點考慮,筆者設置參數C=4。

4.2.3 實體數量和特征對識別結果的影響

由表7-9可見:在所標注的10種MNEs中,部隊編制實體、地名實體和坐標實體的識別結果較好。其中:坐標實體識別的召回率達到100%,準確率達到98.88%以上,這是因為坐標實體的特征非常明顯,與其他實體的區分度高;而地名實體之所以識別效果好,很大程度上是因為地名與坐標經常一起出現,提高了地名實體識別的準確率。

4.2.4 實體標注粒度對識別結果的影響

在使用擴展特征模板且C=4時,不同標注粒度下部隊編制實體和作戰編成實體識別結果如表10所示。由于在MNEs中經常存在實體嵌套現象,因此不同的實體標注粒度會影響識別結果。MNEs存在2種嵌套類型:1)實體嵌套僅表示實體的層級,組合后實體的類別不會改變,如大粒度標注的實體[反坦克導彈連第3營]由小粒度標注的部隊編制實體[反坦克導彈連]和部隊編制實體[第3營]組成,仍為部隊編制實體;2)不同實體組合后類別發生改變,如由小粒度標注的部隊編制實體[集團軍]、方位趨向實體[左翼]、作戰編成實體[突擊梯隊]可組合成大粒度標注的作戰編成實體[集團軍左翼突擊梯隊]。因此,若MNEs的標注粒度大,則會出現命名實體內部嵌套其他命名實體的現象,勢必會降低詞作為實體特征的區分度,進而影響識別結果。

表10 不同標注粒度下部隊編制實體和作戰編成實體識別結果

5 結論

針對MNEs識別的任務需求,筆者提出了一種小粒度策略下基于CRFs的MNEs識別方法,并通過實驗進行了驗證,結果表明:在作戰文書語料的開放測試中,該方法的MNEs識別召回率達到72%以上,準確率達到85%以上,說明該方法具有良好的MNEs識別效果。由于該方法預處理環節使用的是通用分詞工具,使得在分詞過程中對軍事術語切分不準確,甚至1個術語會有多種切分方式,在一定程度上影響了MNEs識別效果;此外,該方法僅使用了詞語、詞性和上下文作為識別特征,對MNEs的領域特征利用還不充分,在一定程度上也制約了MNEs識別效果的提高。為了進一步提高MNEs識別效果,下一步筆者將采取以下2項措施改進本文方法:1)通過使用由軍事術語構成的用戶詞典來提高原始語料的分詞精度,以改善詞語特征;2)通過引入領域規則和增加外部語義特征來提高不同MNEs之間的區分度。

[1] 王丹,樊興華.面向短文本的命名實體識別[J].計算機應用,2009,29(1):143-145.

[2] 姜文志,顧佼佼,叢林虎.CRF與規則相結合的軍事命名實體識別研究[J].指揮控制與仿真,2011,33(8):13-15.

[3] 高強,游宏梁.基于層疊模型的國防領域命名實體識別研究[J].現代圖書情報技術,2012,28(11):47-51.

[4] 伊迪,周俊生,曲維光.基于聯合模型的中文嵌套命名實體識別[J].南京師大學報(自然科學版),2014,37(3):29-35.

[5] 鞠久朋,張偉偉,寧建軍,等.CRF與規則相結合的地理空間命名實體識別[J].計算機工程,2011,37(7):210-212.

[6] 馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機場的領域術語識別方法[J].計算機應用,2016,36(11):3146-3151.

[7] 王春雨,王芳.基于條件隨機場的農業命名實體識別研究[J].河北農業大學學報,2014,37(1):132-135.

[8] 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-94.

[9] 姜文志,顧佼佼,胡文萱,等.基于多模型結合的軍事命名實體識別[J].兵工自動化,2011,30(10):90-93.

[10] 萬靜,涂喆,馮曉.基于條件隨機場的醫藥領域癥狀信息抽取[J].北京化工大學學報(自然科學版),2016,43(1):98-103.

[11] LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[EB/OL].[2016-09-10].http:∥angieyen.bol.ucla.edu/ie/articles/lafferty-crf%20probabilistc-2001.pdf.

[12] 施水才,王鍇,韓艷鏵,等.基于條件隨機場的領域術語識別研究[J].計算機工程與應用,2013,49(10):147-149.

[13] 張華平.ICTCLAS2013版 [EB/OL].(2013-11-05) [2016-06-10].http:∥ictclas.nlpir.org/.

[14] TAKU K.CRF++ Toolkit [EB/OL].(2003-01-06) [2016-09-10].http:∥crfpp.sourceforge.net/.

(責任編輯: 尚彩娟)

A Military Named Entity Recognition Method Based on CRFs with Small Granularity Strategy

SHAN He-yuan1,2,ZHANG Hai-su1,WU Zhao-lin1

(1.Department of Information Construction,PLA Academy of National Defense Information,Wuhan 430010,China;2.Information and Navigation College,Air Force Engineering University,Xi’an 710077,China)

The recognition of Military Named Entities (MNEs) is restrained by the complex nested relation of MNEs and obscure grammatical distinction.To resolve this problem,the authors put forward MNEs recognition method based on Conditional Random Fields (CRFs) model with small granularity strategy.The authors construct a marked corpus to train the model,and use the model to recognize small granularity MNEs which can’t be divided,then get the complete MNEs by composing small granularity MNEs.Finally,the method is verified by the experiment,the results show that the recall rate and the precise rate of MNEs recognition is 72% and 85% respectively in the open test of operational document corpus.

Conditional Random Fields (CRFs); Military Named Entities (MNEs); Named Entity Re-cognition (NER); small granularity strategy

1672-1497(2017)01-0084-06

2016-11-11

單赫源(1979-),男,博士研究生。

TP391.1

A

10.3969/j.issn.1672-1497.2017.01.018

猜你喜歡
分詞粒度命名
粉末粒度對純Re坯顯微組織與力學性能的影響
命名——助力有機化學的學習
分詞在英語教學中的妙用
動態更新屬性值變化時的最優粒度
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
有一種男人以“暖”命名
為一條河命名——在白河源
組合多粒度粗糙集及其在教學評價中的應用
通信認知教學中多粒度可重用模型建模研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合