?

面向裝備試驗鑒定領域數據治理的知識圖譜本體構建

2024-03-05 10:21欒瑞鵬劉立坤
系統工程與電子技術 2024年3期
關鍵詞:層級本體圖譜

欒瑞鵬, 張 靜, 劉立坤

(1. 中國人民解放軍91550部隊, 遼寧 大連 116023; 2. 中國人民解放軍32801部隊, 北京 100000)

0 引 言

軍事裝備試驗鑒定是指通過規范化的組織形式和試驗活動,對被試對象進行全面考核并作出評價結論的檢驗行為,工作內容涵蓋武器系統、平臺系統、體系試驗、訓練演習,以及相關理論方法、技術、試驗專用裝備等領域,涉及面廣、專業性強,導致試驗鑒定領域數據具有高度的復雜性,為試驗鑒定機構(執行試驗鑒定任務的工作主體單位)開展數據治理工作,帶來了極大的困難。

數據治理是一整套標準、流程、要素、工具以及組織管理行為的統稱[1-2],其目標是支持組織機構對自身數據的有序管理[3]、應用并提升數據價值[4]。大數據時代,數據治理是組織機構實現自身數據戰略、提質增效、管控風險、應對挑戰的重要保障[5-6]。

本文結合工作實踐,深入分析試驗鑒定領域數據治理難點,提出以知識圖譜為核心的試驗鑒定機構開展數據治理技術思路。針對本體建模這一知識圖譜構建的關鍵問題,在分析試驗鑒定領域數據特點基礎上,融合斯坦福本體構建方法,設計了一種具有試驗鑒定領域普適性的本體構建方法,指導領域本體建模,進一步形成知識圖譜,為試驗鑒定領域數據治理工作提供支撐。

1 試驗鑒定領域數據治理與知識圖譜

1.1 試驗鑒定領域數據特點

裝備試驗鑒定是一個多層次、多維度復雜系統工程,試驗鑒定領域數據有著極強的復雜性,這種復雜性體現在數據需求、數據來源以及試驗數據本身3個方面。

數據需求的復雜性源自鑒定評估工作。鑒定評估是根據試驗數據,對被試對象進行全面考核并作出評價結論的過程。鑒定評估既要考核被試對象的技術性能,也要考核其作戰效能。相應的評估目標包括性能指標體系和效能指標體系,以及二者之間的交聯。被試對象尤其是戰略武器、作戰平臺等現代化裝備,無論自身功能還是所屬作戰體系均極為復雜,相關指標評定所采用的方法、技術、手段均有所不同,造成了數據需求的復雜性。

數據來源的復雜性源自保障條件及試驗活動。試驗保障條件是試驗數據的主要獲取載體,其主體是測試測量、環境構設、基礎保障等一系列試驗專用裝備及設施。這些裝備設施組成層次、網狀的試驗保障體系,支撐試驗鑒定任務的開展;試驗鑒定機構是試驗活動的實施主體,試驗活動產生試驗數據,試驗活動具有階段性,各階段均包括一系列子任務,子任務又由直接準備、組織實施、結果分析3個分階段組成,且子任務之間也可能交叉開展。上述特點造成了數據來源的復雜性。

試驗數據本身的復雜性體現在數據格式、存儲介質等方面。由于數據來源設備的不同,存儲介質上存在紙質、膠片、磁帶、磁盤、光盤和硬盤多種存儲型態;數據格式上存在著結構化、半結構化、非結構化多型并存的狀態,增加了數據來源、含義等方面的復雜性。

1.2 知識圖譜概述

知識圖譜用符號形式描述概念及其相互關系,一般可定義為“由作為節點的實體和作為邊的關系組成的多關系圖”[7]。目前,知識圖譜已在網絡安全[8]、電力建設[9]、情報分析[10]、醫療[11]、金融[12]等領域得到廣泛運用并發揮了顯著效益,涌現出Freebase[13]、Wikidata[14]、CN-DBpedia[15]、Zhishi.me[16]等著名通用領域知識庫,是人工智能技術的重要基石[17]。

知識圖譜的邏輯結構分為模式層和數據層兩部分,模式層描述知識類的層次結構和層級關系定義,由知識本體構成;數據層是模式層的實例化,一般采用資源描述框架(resource description framework, RDF)三元組描述。知識本體是一種共享概念模型的形式化規范說明,其核心思想是提供領域內概念、概念與概念間關系的形式化描述[18]。

知識圖譜構建及實際效益發揮的前提條件,是對知識進行科學、合理、系統、規范的建模,即知識本體的構建[19-20]。本體構建一般分為半自動化和人工構建兩類[21],試驗鑒定領域缺乏敘詞表、詞典、知識庫等形式化的數據累積,相關領域敘詞表缺乏內容且時間久遠,基于數據的本體映射、提取等自動化構建方法,往往無法實施;在人工構建方法方面,試驗鑒定機構承擔的任務不同、復雜性與作用域不同,相應的鑒定評估對象和保障條件不同,導致知識體系存在較大差異。領域專家長期從事指揮鏈路限定的細分崗位工作,不易形成全局知識體系,傳統人工本體構建方法缺乏指導性約束,導致本體構建的隨意性強、全面性差,影響圖譜構建質效,特別是難以形成廣域知識鏈接,制約著數據作用價值的發揮[22-23]。由于試驗鑒定工作的特殊性,試驗鑒定領域數據治理,以及試驗鑒定領域知識本體建模方法的相關研究十分匱乏。

1.3 知識圖譜輔助數據治理

數據治理的目標是通過對數據有序管理、使用,實現數據價值的全面發揮。從數據治理的角度看,傳統試驗數據管理重點集中在數據采集和數據使用兩個階段,兩個階段間的獨立性比較強,或是從采集設備到數據,或是從數據到鑒定評估,總體上缺乏能夠關聯全域、輻射全維、整合全局的數據體系。沒有數據體系支撐的數據治理,數據關聯鏈條短、完成對應業務后即被閑置,數據元、數據字典及相關標準無法深化。特別是數據與試驗活動的關聯缺失,導致試驗鑒定機構在鑒定評估之外的大量工作,如條件建設、科研訓練、組織管理、兵力調動等,無法通過數據描述,也就難以恢復裝備試驗壽命周期的全貌,數據處在關聯匱乏的狀態,缺乏反饋、沉淀、激活、增效的過程,難以拓展數據應用、挖掘數據價值。

而試驗鑒定領域數據的復雜性,特別是試驗活動的描述方面,相當一部分源自語義、概念等非結構信息,有很強的知識屬性。傳統關系型數據庫功能重點在結構化數據,即使完成建模,也會存在建模難度大、模型魯棒性差、計算效率低(多重跨表)等多種問題。也就是說,試驗鑒定領域數據的復雜性直接增加了數據體系構建的困難程度,是數據治理的難點所在。

知識圖譜是一種實體和關系組成的語義網絡,其實體定義靈活、多樣,可解耦數據來源、數據結構的復雜性;關系構建便捷、廣域,可有效聯通鑒定評估、保障條件、試驗活動。適用于復雜系統的聯通與整合,是構建數據體系、拓展數據關聯、支持試驗鑒定領域數據治理的有力技術手段。具體技術思路是,面向數據治理的數據體系,采用“知識圖譜+關系數據庫/數倉”的雙層結構,通過構建具有強業務針對性的知識圖譜,形成全域關聯的“網狀”數據體系上層,支持數據反饋、沉淀、激活、增效;傳統關系數據庫存儲遙測、外測等數據,支持傳統業務軟件(如數據處理、仿真等)的數據需求,具體結構如圖1所示。

圖1 基于知識圖譜的數據治理鏈路關系Fig.1 Data governance link relationship based on knowledge graph

2 試驗鑒定領域本體構建方法

現有的領域本體構建方法主要包括七步法[24]、五步循環法[25]、Methonotology法[26]、TOVE(Toronto virtual enterprise)法[27]、IDEF(icam definition method)5[28]、骨架法[29]和Kactus工程法[30]。

IDEF5、骨架法等多用于企業知識建模,一般建立在詳細的業務流程分解基礎上;Methonotology法源自化工領域知識工程建設,在本領域的應用實踐效果非常好;Kactus工程法、五步循環法等,強調已有本體的演進迭代。其中,七步法是目前使用頻率和成熟度最高的領域本體建模方法,由斯坦福大學開發,構建步驟包括確定范圍、重用考慮、列舉重要術語、定義類和層級結構關系、定義屬性、定義約束條件和創建實例。

本文綜合試驗鑒定工作、試驗鑒定機構與試驗鑒定數據的共性特點,在斯坦福本體構建流程(七步法)的基礎上,設計了一種具有試驗鑒定領域普適性的本體構建方法。該方法包括9個步驟,分別是:確定范圍、重用考慮、列舉重要術語、定義類和層級結構關系、關系模型映射、類和層級結構精化、定義屬性、定義約束條件、創建實例(見圖2)。方法的創新工作集中在定義類和層級結構關系、關系模型映射、類和層級結構精化3個步驟。

圖2 試驗鑒定領域本體構建方法Fig.2 Ontology construction method of test and identification field

2.1 定義類和層級結構關系

定義類和層級結構關系是本體體系構建的關鍵。試驗鑒定機構承擔的試驗任務不同,相應的試驗評估和保障條件不同,導致知識體系存在較大差異。在缺乏統一框架約束的情況下,各機構領域專家獨立開展類和層級結構定義的隨意性較大,加之試驗數據的復雜性,容易出現本體覆蓋不全面的情況,導致數據體系無法做到全域聯通,影響數據治理效能,也影響跨機構、跨領域之間的知識復用共享。

本文從試驗鑒定體系共性出發,給出類和層級結構定義指導框架及構建步驟,框架包括指標體系、試驗活動、保障條件、試驗數據4個一級類,每個一級類均包含相應子類及層級結構。在構建步驟上,指標體系、保障條件兩個一級類的內聚性強,可先行完成構建,試驗活動最為復雜且與保障條件、試驗數據之間關聯緊密,在步驟3完成,如圖3所示。設計的重要原則是,最終設計結果,所有本體之間全域聯通,不存在孤立本體。

圖3 總體層級結構Fig.3 Overall hierarchy

(1) 指標體系

指標評定是鑒定評估工作的核心內容,各試驗鑒定機構任務不同,但不論武器系統、平臺系統還是演訓任務,均需在任務之初完成相關指標體系設計,如性能指標、效能指標、貢獻率指標等,并逐級分解直至不可再分的指標項(實例為具體指標),指標體系之間的關系可直接映射為層級結構。個別試驗機構承擔任務確無指標體系的,可嘗試將試驗目的進行指標化,再仿照上述過程處理。

(2) 保障條件

保障條件一級類一般可分為組織指揮、測試測量、分析評估、環境構設、基礎保障5個子類,每一子類均可根據自身建設情況,向下逐級分解,直至具體設備設施。其類結構由“包含”“實例”“屬性”“管理約束”“空間約束”5種關系鏈接,“實例”關系指向的,均為實際設備設施。其中,組織指揮子類包括試驗設計、方案推演、通信保障、任務調度、過程監控、運維管理、態勢綜合子類;測試測量類包括測量系統、測試系統子類;環境構設子類包括模擬自然環境、電磁環境、靶標以及環境監測子類;分析評估類包括數據處理、建模仿真、性能評估子類;基礎保障類包括試驗航區、試驗設施、測繪導航、技術基礎、勤務保障等子類。類結構如圖4所示。

圖4 保障條件一級類的總體層級結構Fig.4 Overall hierarchical structure of the first level class of guarantee condition

(3) 試驗活動

試驗鑒定領域數據復雜,涉及數據來源、用途、組成、關系等方面,但從試驗鑒定機構,這一數據治理主體的角度看,試驗數據一定是試驗活動中具體工作產生的結果,對試驗活動進行類和層級設計,就是對整個試驗鑒定業務流程、試驗數據生命周期的全面梳理,是本體建模中最為復雜、關鍵的部分。

試驗活動的類和層級設計,需要按照實施流程結構,自頂向下依次開展,逐層分解直至具體事件,如圖5所示。具體事件是關聯全局資源的紐帶,是從數據角度描述型號裝備試驗壽命周期全貌,貫通性能試驗、作戰試驗等試驗環路,推動全面數據治理的關鍵。具體事件有嚴格的時間屬性。

圖5 試驗活動類總體結構示意圖Fig.5 Schematic diagram of overall structure of test process

① 總體層。按照裝備型號試驗鑒定全壽命階段展開,分為論證、總案、性能試驗、作戰試驗4個階段,呈遞進關系。② 子任務層。包括完成階段試驗任務所需要的各類子試驗任務,如性能試驗階段需要完成的“飛行試驗”“精度試驗”等。③ 任務執行層。各類子任務均包括直接準備、組織實施、分析評估3個階段,呈遞進關系。④ 具體事件層。各階段由具體事件組成,事件是人或單位利用設備、設施等保障條件實施某行動并得到結果的過程,事件根據任務情況及相似性進行分類,如陣地測試、文書發布、協同程序、飛行測控、數據處理、鑒定評估等,再分解至具體事件,如陣地測試事件類的分系統測試、總檢察等具體事件,鑒定評估事件類的指標評定具體事件等。每個具體事件類基本結構包括:人員機構,如該事件的執行人員、參與人員、指揮機構等;輸入類,如法規標準(執行該事件所依照的標準、法規等)、保障條件(執行該事件所使用的具體設備或設施)、命令指令等;輸出類,該事件生成的輸出,如數據、指標評定、指令等。試驗活動類結構由“包含”“遞進”“使能”“輸入”“輸出”5種關系鏈接,總體結構如圖6所示。

圖6 試驗活動一級類的總體層級結構Fig.6 Overall hierarchy structure of the frist level class of test process

(4) 試驗數據

試驗數據類分為數據庫、數據文件、電子表單、影音圖像、人工記錄表、試驗文書、條目數據7個子類。試驗數據類側重于描述數據的不同持久化狀態,其中數據庫、數據文件、影音圖像3個子類,是測試、測量、錄取等試驗設備、保障條件所獲取數據的主要持久化狀態。試驗文書主要包括試驗過程中產生的各類非結構文檔,如“試驗大綱、實施方案、操作規程”等。人工記錄表指各類人工填寫的紙質記錄表單,如“檢查記錄表、戰斗報告表”等。條目數據是指直接參與各類事件,特別是鑒定評估事件的具體數據記錄,如“射程、高度、分離時間”等。其類結構由“包含”“輸出”兩種關系鏈接,如圖7所示。除條目數據外的子類,都是試驗活動中具體事件的輸出,主要為各類應用提供定向鏈接,引導通過關系型數據庫/數倉實現功能應用。

圖7 數據類的總體層級結構Fig.7 Overall hierarchy structure of data class

2.2 關系模型映射

裝備試驗鑒定機構,通過型號裝備試驗條件建設,建成了大量基于關系型數據庫的業務系統,這些關系型數據庫的結構設計蘊含了一定的領域知識。需要采用相關處理技術,從關系型數據庫中提取知識本體,這既是對已有知識的復用,也是對數據資源的繼承,有著重要的實踐價值和意義。關系模型映射包括以下3個步驟。

步驟 1提取關系模型要素:提取關系型數據庫的數據模型,得到數據庫中所包含的表名稱、列名稱、主鍵、外鍵等信息。

步驟 2關系模型處理:多數試驗鑒定機構沒有專職信息化部門,其關系型數據庫的設計(特別是歷史業務信息系統),往往不夠科學。需進行拆分、合并等處理,使其至少滿足數據庫設計的第二范式。

步驟 3本體映射:將數據庫的數據模型信息映射為本體中的概念、屬性和關系,具體包括以下3個步驟。

步驟 3.1將關系數據庫模型中的表,映射為相應概念(表中的每一行,可以在數據層作為該概念的一個實例)。

步驟 3.2將表中外鍵列,映射為與其對應表概念的關系。

步驟 3.3將表中的其他列,映射為概念的屬性。

2.3 類和層級結構精化

本方法步驟4“定義類和層級結構關系”,屬于自上而下的本體構建過程,主要目的是構建整個試驗鑒定本體的體系結構,故強調覆蓋性,重點是不能缺“結構”,但也難以做到精細。步驟5的“關系模型映射”,從已有關系型數據庫中提取本體,屬于自下而上的本體構建過程,相當于在為步驟4“補漏”。步驟6“類和層級結構精化”是解決二者之間的適配性問題,對本體結構進行全面遍歷,對本體進行過濾、刪除、修改、調整以達到總體一致性。

該步驟的關鍵是解決全局命名一致性問題,站在全局高度設計“全局資源標識符”,試驗鑒定領域的“同名異義”是該問題的典型特征,需要在本體設計上做出相應區分。例如,“武器系統”,該詞組在試驗活動的論證、總案階段出現時,一般指抽象的概念;在性能試驗階段出現時,一般指有物理實體的具體實例;在作戰試驗階段出現時,所指的具體實例是“小批量試生產”后的產品,與性能試驗階段出現的實例在本體類繼承方面應做出區分。這是試驗鑒定領域知識的突出特點,在本體設計時,需要在步驟4和步驟5構建的本體體系基礎上,再從全局角度進行定義和區分,完成類和層級結構精化。

3 示例驗證

3.1 試驗鑒定領域數據治理知識圖譜構建過程

本文采用上述方法,構建面向該機構數據治理的本體體系。在本體基礎上,進一步通過實體識別、關系抽取、實體消歧等技術,完成知識抽取與知識圖譜構建。需要指出的是,由于裝備試驗鑒定相關子領域,有著典型的小樣本特點,當前的主流方法實現效果并不理想,故圖譜的構建過程,廣泛采用了領域專家“人在回路”的方式,包括通過人工標注構建基本訓練集、專家知識介入/半監督關系抽取等。

構建完整的知識圖譜,使用Neo4j數據庫作為存儲載體,Neo4j數據庫完全支持ACID(atomicity, consistency, isolation, durability)事務,具有良好的穩定性和可靠性[31],可以部署在多種平臺上,對當前技術生態兼容較好。

3.2 試驗鑒定領域數據治理知識圖譜基本功能

知識圖譜覆蓋數據范圍如表1所示。試驗鑒定領域數據治理知識圖譜,實現了試驗鑒定機構開展型號試驗任務所涉及各類信息的全面覆蓋,通過“試驗活動”中的“具體事件”本體,構建了一張關聯試驗鑒定機構全面工作的“圖”,從而打破了以往不同管理部門對數據獨立管控形成的條塊分割狀態,首次實現“人員、試驗對象、保障條件、組織指揮、理論科研”的直接集成,為數據治理工作乃至數字化轉型提供了有力支持。

表1 數據治理知識圖譜覆蓋數據范圍Table 1 Data governance knowledge graph coverage data scope

知識圖譜在支持全面數據治理的基礎上,也在具體應用方面形成了一些新質能力,包括以下3個方面:一是在試驗鑒定方面,貫通了“性能試驗、作戰試驗”兩個關鍵任務階段及兩類指標體系,首次成功構建面向型號裝備任務全試驗周期的數據體系,為新體制下的試驗鑒定管理數字化提供了新型數據產品;二是首次建立了“被試對象、指標、事件、條件、數據、人員”之間的全面關聯,數據追溯能力得到顯著增強,提高了任務響應的“時效性”,支持實現數據賦能試驗鑒定機構全面管理;三是結合領域專家知識,構建了如“高度表-脫靶量”之類的子圖結構,初步形成面向全域數據的圖分析、關系發現能力。這里考慮計算能力和顯示效果,提取其中“飛行試驗”子任務部分數據,形成局部圖譜作為示例,如圖8所示。

圖8 飛行試驗圖譜(局部)示例Fig.8 Example of flight test graph (local)

3.3 試驗鑒定領域數據治理知識圖譜計算效能

廣域、深度的數據關聯、追溯與分析,是試驗數據治理工作的深層次需求。知識圖譜在輔助實現全域數據治理的同時,在數據關聯、追溯與分析方面,相比傳統關系型數據庫建模,具有突出的計算效能優勢。

關系型數據庫一直是企業資源管理等各類信息管理系統的核心支撐,也是數據治理的重要工具。關系型數據庫基礎理論中,將關系定義為“在集合論基礎上構建的二維表”,將生產實踐中的各類“關系”概念,轉化成以集合論為基礎的二維表關系之間的連接操作。而關系型數據庫通過外鍵約束來實現兩個表或多個表之間某些記錄的互相引用,通過外鍵在主表中尋找匹配的主鍵記錄來進行搜索、匹配計算操作。對于多對多關系,則必須再添加一個中間表,保存兩個參與表的外鍵對應關系,進一步增加了連接操作成本。

例如下面的實踐場景:裝備試驗任務的飛行試驗中,一個時段內被試裝備的二級舵展開,哪些參試光測設備觀測到該過程?所有觀測到的光測設備,俯仰角反算精度是多少?歷次任務中,精度高于該數值的有哪些設備?找出該設備的研制生產單位、操管維護人員以及歷次任務的履歷書。

可見,通過傳統的關系型數據庫建模,進行復雜的數據關聯、追溯與分析,必然需要進行大量的跨表查詢、反向查詢,也就意味著大量的連接操作。同時,試驗任務實踐中的數據關聯、分析具有未知性,很難提前建立完備索引,故其資源消耗隨著數據體量與表結構復雜性增長而愈發嚴重,對于復雜的深層次關聯,計算代價幾乎不可接受。

相比傳統的關系型數據庫建模,知識圖譜可基于原生圖數據庫(如Neo4j數據庫)實現,原生圖數據庫的每個節點都會維護與其相臨節點的引用,相當于擁有與其“相鄰節點”的微索引。運行類似關系數據庫的連接操作時,將使用微縮引來直接訪問連接的節點,無需進行記錄的搜索、匹配計算操作。這意味著查詢時間和圖的整體規模無關,只與其附近節點的數量成正比,這在大數據量,廣域、復雜、深層次數據關聯與追溯方面,與關系型數據庫的連接操作相比,有著巨大的效率優勢,特別適合構建面向廣域、復雜數據治理的技術支撐能力。

4 結 論

本文提出通過構建知識圖譜輔助試驗鑒定機構開展數據治理的技術思路,針對本體建模這一知識圖譜構建的關鍵問題,提出一種具有試驗鑒定領域適用性的本體構建方法,該方法在斯坦福七步法的基本流程基礎上,增加了關系模型映射、類和層級結構精化步驟,在定義類和層級結構關系步驟,設計了相應的類結構框架。傳統數據治理的工作重點在狹義的“數據”,故對試驗鑒定機構的實際工作支撐有限,本方法從知識建模的角度,提供了方法論和基本框架,擴展了“數據”的范圍和內涵,實現了對試驗鑒定機構業務的全面支撐,提升了數據治理的層級和能力水平。實踐表明,基于該方法構建的試驗鑒定知識本體模型,具有明確的業務針對性與體系拓展性,在其基礎上構建的知識圖譜,在基本功能、計算效能等方面,相比傳統方法有著顯著優勢,是試驗鑒定領域數據深度治理工作的有力支撐,具有較強的應用推廣價值。

猜你喜歡
層級本體圖譜
Abstracts and Key Words
繪一張成長圖譜
軍工企業不同層級知識管理研究實踐
對姜夔自度曲音樂本體的現代解讀
基于軍事力量層級劃分的軍力對比評估
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
任務期內多層級不完全修復件的可用度評估
《我應該感到自豪才對》的本體性教學內容及啟示
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合