基于檢索和知識圖譜的軍事法規問答系統*

2023-12-06 03:00劉奕明謝振杰徐瑞麟

指揮控制與仿真 2023年6期

劉奕明,謝振杰,付偉,徐瑞麟

(1. 海軍工程大學電子工程學院,湖北武漢 430033;2. 中國人民解放軍92330部隊,山東青島 266000;3. 海軍工程大學信息安全系,湖北武漢 430033;4. 中國人民解放軍78156部隊,重慶 400039;5. 中國人民解放軍91001部隊,北京 100036)

隨著人類社會邁入信息化、智能化時代,戰爭和軍事行動面貌隨之發生深刻演變,尤其是輿論戰、心理戰和法律戰等認知領域作戰樣式的興起,對指揮信息系統的綜合信息服務能力提出了更高要求。軍事法規作為指導戰場行動的法理依據,重要性不可忽視,特別是在認知作戰領域,其作用早已從幕后走向前臺。指揮員做出決策需要詳細的法規支持,每一步都應做到有據可查。然而,在信息化條件下,人工查閱文本的傳統方式顯然已經跟不上戰爭節奏,難以滿足戰場決策需要。因此,構建準確、高效、靈活、智能的軍事法規問答系統,具有廣闊的應用前景。

目前,法規問答可歸納為七類,分別是判斷類、多選項類、檢索類、大數據類、本體類、神經網絡類與其他方法[1]?；谛畔z索(Information Retrieval,IR)的法規問答首先定位包含相關信息的段落,再確定具體答案。文獻[2]引入了一種詞匯至篇章級的語料庫建模方法。文獻[3]基于條件隨機場統計建模來分割和標記序列數據。文獻[4]使用網絡分析與可視化的方法來處理荷蘭判例法。文獻[5-6]研究在目標文檔中需推理才能獲得答案的問題。文獻[7]側重于包含答案的相關小節的檢索。文獻[8-10]嘗試利用深度學習技術構建法律問答系統。文獻[11-16]體現了知識圖譜(Knowledge Graph,KG)技術在軍事領域的運用,但目前尚未見可用于問答的軍事法規開源圖譜。

信息檢索技術可根據關鍵詞迅速找到相關法規和條款,但難以直接給出問題答案,需要人工閱讀條款。知識圖譜問答的效果依賴圖譜的規模和質量,工作量較大,且答案缺乏來源信息和可解釋性。因此,單獨采用檢索或知識圖譜技術構建的問答系統均不能契合軍事輔助決策的需求。本文綜合運用以上兩種技術構建軍事法規問答系統,先將問題定位到最相關的法規條款,再通過匹配語義關系得出短答案,以條款完整內容和層次脈絡作為補充,融合兩種技術的優勢。本文將闡述實現軍事法規問答的主要過程和關鍵技術,分析其底層數據結構的拓撲性質,并通過測試驗證問答效果。

1 軍事法規文本預處理

進行問答前,首先要對純文本形式的軍事法規進行預處理,生成便于計算機理解和檢索的數據結構。預處理過程包含法規標題識別、生成條款檢索樹和語義關系標注三個階段。

1.1 法規標題識別

軍事法規篇章結構嚴謹、層次鮮明,各級標題對所屬內容的概括凝練而準確,將法規文本以條款為單位進行分割,對于信息檢索十分重要。軍事法規的標題結構具有很強的規律性,通常一級標題為“第X章”、二級標題為“第X節”、三級標題為“第X條”。由高級編程語言不難實現對各級標題的識別與定位,具體不再贅述。

1.2 生成條款檢索樹

在標題識別的基礎上,為快速定位與問題最相關的條款,根據軍事法規特點對經典的TF-IDF算法進行調整,分以下三個步驟生成條款檢索樹。軍事法規檢索樹模型如圖1所示。

圖1 軍事法規檢索樹模型Fig.1 Retrieval tree model of military regulations

1)構建分詞計數器

分詞計數器是一種數據結構,用于保存一段文字中各分詞的詞頻(Term Frequency,TF)。本問答系統的各級目錄層級均具備上級標題計數器Cup、本級標題計數器Cnow和正文計數器Ctext。將本級標題與上級標題分別計數,是因為本級標題與本級內容相關性最強,權重更高。在正文或上級標題中,分詞出現頻率越高并不代表它與該條款的相關性越強。例如,隊列條令第二十條“步法變換”正文中“齊步”一詞出現8次,而第十八條“行進(一)齊步”正文中“齊步”僅出現2次,若以傳統意義上的詞頻計數,則會將“齊步”引向非期望條款。因此,本文的TF值已不單指分詞頻率,Cup和Ctext只統計分詞出現與否(值為0或1),Cnow中的值表示各分詞占總詞數的比率。

求分詞a在某層級的TF值,即按下式計算3個分詞計數器相應值的加權和:

TF[a]=Cup[a]×Wup+Cnow[a]×
Wnow+Ctext[a]×Wtext

(1)

式(1)中,Wup、Wnow和Wtext表示各分詞計數器的權重。

2)分詞計數器更新

為使各層級的分詞計數器準確反映分詞與所屬內容的最強相關性,每構建完一個條款的分詞計數器后,Cnow和Ctext要分別自下而上逐級更新至表示整部法規的頂部層級。相鄰兩層級間的更新方法如下:對于本級計數器包含的全部分詞,取本級計數器和上級計數器中的最大值更新上級計數器,即

C′[a]=max(C′[a],C[a]),a∈Σ

(2)

式(2)中,C表示本級的Cnow或Ctext,C′表示上級的Cnow或Ctext,Σ表示C中記錄的全部分詞集合。例如,隊列條令第十四條標題是“立正”,則第十四條的Cnow中分詞“立正”的TF值為1(最大值),因此第十四條所在的第四章的Cnow、隊列條令的Cnow中“立正”的TF值都更新為1,便于自上而下逐層找到與“立正”最相關的條款(隊列條令—第四章—第十四條)。

本文分詞計數器的設置與TF-IDF經典模型有所區別,是經反復實踐優化形成的,更貼合軍事法規特性。

3)計算分詞IDF

分詞的重要性取決于對定位條款提供的信息量。本文以末端層級(對于軍事法規而言通常是“條”)為基本單元,計算各分詞的逆文本頻率(Inverse Document Frequency,IDF)值,作為其全局重要性的度量,公式如下:

(3)

式(3)中,N表示系統內全部法規的條款總數,Na表示包含分詞a的條款數。

求詞組V與某層級的TF-IDF值,即將V中各分詞與該層級的TF-IDF值累加,公式如下:

TF·IDF[V]=∑a∈VTF[a]×IDF[a]

(4)

通過以上步驟構建條款檢索樹,將抽象的相關性度量問題轉化為分詞詞組與各層級TF-IDF值的計算問題,方便計算機快速求解。

1.3 語義關系標注

為了向簡單問題提供簡明扼要的短答案,需利用知識圖譜技術對法規條款進行語義關系標注,生成大量知識“三元組”,知識的規模和質量將直接影響問題理解能力與解答質量。主要有3種標注方式:一是人工標注,較為詳細準確,但費時費力;二是自動標注,可批量處理句式固定的條款,但需逐一編寫程序;三是從題庫提取簡潔的題目進行轉換,但受限于題庫規模。具體標注方法限于篇幅,不展開描述。

2 軍事法規問答

軍事法規文本預處理為問答準備了必要的數據結構,下面描述從提問到回答的處理過程,并簡述輔助答題模塊。問答系統實現的完整流程如圖2所示。

圖2 軍事法規問答系統實現流程Fig.2 Implementation process of military legal question answering system

2.1 問句處理

回答問題的前提是將自然語言形式的問句處理成可被計算機理解的數據,包含疑問詞替換、指定搜索范圍和分詞三個步驟。

1)疑問詞替換

自然語言中的疑問詞對于檢索是無用的,應在準確理解提問者意圖后將其去除。本系統通過枚舉常見的提問方式來理解意圖,對部分字詞進行近義替換可減少枚舉數量,如表1所示。

表1 問句字詞替換

例如,“X包含哪些條目”“X含有什么條款”“X包括哪些章節”都會替換成“X有什么內容”,只要識別后者,就能理解類似的一系列提法。

2)指定搜索范圍

對于“X法規對Y有何規定”“X法規附則有哪幾條”之類的提問,應在提問者指定的范圍內搜索,將范圍限定詞代表的層級作為初始搜索節點。如果未指定范圍,則從包含所有法規的根節點開始搜索。

3)問句分詞

除去開頭的范圍限定詞和末尾的疑問詞后,對問句其余部分進行分詞,由實詞構成問句詞組?！盾娬Z》詞匯、人工標注的軍事用語等可增強通用分詞工具在軍事法規領域的分詞效果。

2.2 答案組織

問句處理明確了搜索范圍和問句詞組,在此基礎上通過檢索相關條款、匹配語義關系和輸出答案三個步驟,完成一次問答。

1)檢索相關條款

首先,以問句詞組和代表搜索范圍的初始搜索節點為輸入,運行條款檢索算法。

算法1 條款檢索算法

輸出的答案列表即為相關度最高的條款集合。若答案列表為空,則表示找不到相關條款。

2)匹配語義關系

預處理過程中的語義關系標注為各條款添加了若干知識三元組,如果問句匹配了答案條款所包含的三元組,則給出短答案。例如,詢問“齊步的行進速度”,檢索到最相關的條款為隊列條令第十八條,該條款包含三元組“(齊步,速度,每分鐘116-122步)”,則將“每分鐘116-122步”作為短答案。

3)輸出答案

雖然短答案提供了關鍵信息,但詢問者可能還想了解更詳細的信息。此外,仍有大量知識難以用三元組表述,很多問題也不能用短答案解答。因此,還需要答案來源和條款全文作為補充,以增強說服力和準確性。上例中,將“每分鐘116-122步”作為短答案,將完整的層次脈絡“隊列條令-第四章單個軍人的隊列動作-第十八條行進-(一)齊步”作為答案來源,并將“齊步”的完整內容作為長答案一并輸出。

此外,知識圖譜除了難以解決找不到語義關系的問題,也不適合回答例如“XX法規包含哪些章節”“XX法規第十條的完整內容”等詢問章節條款的問題,而本系統建立了完善的目錄層級,便于回答此類問題。

2.3 輔助答題

利用條款檢索和語義匹配能力實現答題模塊,能嘗試解答判斷題、單選題、多選題和填空題。該功能可用于輔助軍事法規學習和測試,也可用于從題庫添加語義關系。實現方法如下:

1)將題干視為問題,檢索到最相關的法規條款;

2)對于單選題、多選題和填空題,嘗試通過匹配語義關系得出答案;

3)對于判斷題或無法匹配語義關系的情況,采用字符串匹配確定答案;

4)對于仍不能確定答案的單選題和多選題,將各選項分別與題干所在條款計算TF-IDF值,取相關性強的選項為答案。

3 分析與測試

利用Python編程實現包含中國人民解放軍內務條令、隊列條令和紀律條令三部法規[17]的軍事法規問答原型系統。本節首先對其底層數據結構的拓撲性質進行分析,再進行問答測試,最后與其他技術路線的問答系統展開對比分析。

3.1 拓撲性質分析

軍事法規預處理所生成的數據結構主要是各級標題和語義實體,以及從屬關系和語義關系。語義實體和語義關系可視為知識圖譜技術生成的結果,而本系統將各級標題及從屬關系納入拓撲網絡,將一些原本孤立的語義實體建立層次上的聯系,極大豐富了實體之間的關聯程度。圖3顯示了本系統數據的分層拓撲結構。

圖3 分層拓撲結構Fig.3 Hierarchical topology

圖3中相鄰的葉節點(語義實體)之間即使沒有標注語義關系,也因其屬于同一上級節點而具備了相關性。

本系統純語義數據和完整數據的基本拓撲性質對比如表2所示,圖4直觀顯示了二者實體和關系的豐富程度差異。

表2 純語義數據和完整數據的拓撲性質Tab.2 Topological properties of pure semantic data and complete data

圖4 純語義數據和完整數據的全局視圖Fig.4 Global views of pure semantic data and complete data

表2數據中,知識圖譜技術產生的純語義數據不包含標題層次要素,且舍棄“孤立”的語義實體,故節點和邊的數量明顯減少;平均度降低表明節點之間的聯系減少;平均聚類系數為0,反映其內部節點較為孤立,沒有聚集成環狀結構。

因此,對于本文涉及的軍事法規文檔集合,純語義信息失真較為嚴重,可見傳統知識圖譜技術并不直接適用于結構嚴謹、語言精練、語義豐富且篇章之間存在復雜關聯的軍事法規。而本系統通過引入標題層次作為框架,顯著改善了鏈接松散、關系稀疏、層次弱化等問題,大量無法以三元組形式存在的語義實體通過從屬關系得以保留,提升了知識網絡的語義豐富性與層次性,知識密度顯著增加,為問答等功能實現提供了更完善的底層數據支撐。

3.2 問答測試

通過多角度提問測試,驗證系統的問答能力,具有代表性的問答情況如表3所示。

表3 問答測試

表3中的前兩項詢問隊列動作要領,系統準確檢索到隊列條令中最相關的條款,并給出層級脈絡,第2問通過匹配語義關系得到短答案。后兩項詢問章節條款本身,答案涵蓋多個條款,第4問是模糊問題,涉及系統內所有法規。系統對以上4個問題均能給出合適的回答。

3.3 對比分析

本系統綜合運用了檢索和知識圖譜技術,如果僅使用通用模型分詞,不匹配語義關系,則演變為基于檢索的問答系統;將所有條款的三元組合并,僅通過匹配語義關系找短答案,則是基于知識圖譜的問答系統。表4展示了三種問答系統多維度比較的結果。

表4 采用不同技術路線的問答系統對比Tab.4 Comparison of question answering systems using different technologies

知識圖譜的優勢在于能夠通過匹配語義關系得出短答案,且人工標注的軍事用語有利于提高分詞準確性;檢索技術的優勢在于支持答案溯源、可顯示完整條款、支持詢問章節條款、能回應難以提煉語義關系的復雜問題,且答案搜索速度快。檢索技術還有一個顯著優勢,即可對新法規自動進行入庫處理;而知識圖譜的問答能力取決于三元組的數量和質量,需要人工參與;本系統添加新法規時,先通過自動預處理形成條款檢索能力,再按需補充三元組提升匹配短答案的能力。此外,當問題涉及描述近似而含義不同的條款時,由于三元組缺乏上下文信息,導致知識圖譜問答難以區分正確答案,而本系統則會羅列所有相關條款供詢問者自行判斷。

綜上,本文所述的軍事法規問答系統融合了檢索和知識圖譜技術的優勢,準確性和適用范圍均優于單獨運用以上兩種技術的問答系統。

4 結束語

本文設計了更貼合軍事法規特性的問答系統實現流程,重點描述改進TF-IDF模型生成條款檢索樹、條款檢索算法等關鍵技術。分析和測試表明,本系統能夠準確回答多角度提問,驗證了所述技術框架、實現流程和具體算法的有效性,融合了檢索和知識圖譜技術的優勢。本系統的適用范圍不局限于軍事法規,其他領域具有嚴格層級結構的法律法規等文件也可錄入本系統形成問答能力。原型系統的Python代碼已在碼云平臺開源,詳見https://gitee.com/basddsa/hgfgqa。