?

基于本體理論的紅色檔案知識服務探索

2023-06-16 03:01黃永勤楊安蓮平碩國防大學政治學院軍事信息與網絡輿論系
浙江檔案 2023年5期
關鍵詞:知識庫本體圖譜

黃永勤 楊安蓮 平碩/國防大學政治學院軍事信息與網絡輿論系

紅色檔案指中國共產黨成立以來,領導機關組織[1]和帶領廣大人民群眾在革命戰爭、社會主義建設、改革開放、新時代等各階段[2]矢志奮斗實現中華民族偉大復興進程中形成的能體現黨的初心使命并且具有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。紅色檔案具有客觀原始史料、內容信息豐富、紅色價值導向、教育意義深刻、情感走心共鳴等特點,是傳承紅色基因和賡續紅色血脈的重要載體。深度開發紅色檔案,開展知識服務能更好地滿足社會公眾多元化、個性化、知識化、深度化、智能化的利用需求,更好地服務社會經濟建設、弘揚革命傳統文化、強化主流價值引導、抵制歷史虛無主義、提高政治教育實效。

從紅色檔案開發與知識服務的理論研究看。檔案知識服務的研究重點包括:一是從理論研究維度探討相關概念、方法、機制等;二是從技術實踐維度討論檔案資源整合、館際資源利用、服務模式等[3]。目前相關研究多聚焦紅色檔案的生成機理、價值意蘊、開發路徑等,從知識服務的視角探索紅色檔案利用的成果很少,應用“本體”開展“檔案知識服務”的研究也較少。

從紅色檔案開發與知識服務的應用實踐看,還存在以下不足:一是紅色檔案資源整合不足。檔案館一般局限于本單位的資源開發紅色檔案,缺乏跨館、互聯網等資源的整合,資源建設方面存在“擁而難用、匯而不慧”的現象。二是紅色檔案開發深度欠缺,目前紅色檔案的開發主要以傳統的編研和檢索利用為主,已愈發難以滿足用戶對精準化/精細化數據分析、智慧搜索、自動問答、個性化推薦等知識性、深層次、智能化的信息需求。三是紅色檔案服務模式單一,有研究指出紅色檔案“敘事碎片化[4]”的問題,其根源還是紅色檔案的知識服務能力欠缺。

知識服務是解決紅色檔案開發利用與檔案用戶信息需求不匹配矛盾的重要途徑,而“本體”是實現該目標的最佳方案之一,本文試圖引入本體理論,探索其在紅色檔案知識服務的應用,以期為實踐提供有益參考。

1 基于本體的紅色檔案知識服務理論框架

本體(Ontology)源于西方哲學領域的“存在論”,是共享概念模型明確的形式化規范說明[5],相關國際標準[6-7]進一步指出本體是規定知識域中具體或抽象事物及其關系的規范。有學者[8]將本體在信息行業的作用概括為:支持標引、檢索、組織與瀏覽,以及充當知識庫,提供知識服務?;诒倔w的紅色檔案知識服務是在用戶興趣模型和紅色檔案知識庫的基礎之上構建用戶(需求)本體和知識本體,并基于本體映射機制、語義表示、邏輯推理等特性開展的相關知識服務應用。具體而言,主要包含以下內容:

1.1 服務模型

依據前述定義,基于本體的紅色檔案知識服務模型如圖1所示,主要包括以下部分:

圖1 基于本體的紅色檔案知識服務模型

1.1.1 從需求視角看。通過分析檔案用戶基本信息、行為信息等歸納并構建基于(需求)本體的用戶興趣模型。一是用戶興趣模型,旨在精確全面描述檔案用戶個性化需求,具體包括模型表示、模型初始化、模型進化等內容[9]。模型基于本體語義表示、知識推理等,其在結構化形式、興趣信息采集、智能處理、動態進化等方面優勢顯著。二是需求本體,基于概念層次結構和推理分析,一方面可實現將用戶自然語言轉換為形式化、概念化、層次化、機器可讀的檔案用戶需求,實現與知識本體的映射;另一方面也可實現用戶需求語義化、結構化存儲和表示,挖掘用戶潛在需求,優化用戶興趣模型。

1.1.2 從資源視角看。一是信息采集,用本體轉換非結構化、半結構化檔案信息資源為結構化存儲知識,并精確描述知識內容及其關聯,解決紅色檔案資源類型多的問題。二是知識表示,用本體描述語言序化、結構化異源異構檔案信息,將其轉換為可共享、互操作的形式化知識,解決紅色檔案資源的信息集成問題。三是知識組織,基于本體映射機制、語義標注等方法組織和集成相關檔案資源并導入本體知識庫,解決紅色檔案資源的信息組織問題。四是知識存儲,構建紅色檔案領域本體和知識庫。五是知識更新,關聯、更新紅色檔案領域本體、知識庫等。

1.1.3 從服務視角看。一是服務機制,將用戶瀏覽、提問、交互、檢索行為等需求通過用戶興趣模型調用需求本體,并通過映射機制關聯到知識本體,爾后知識本體調用知識庫資源為用戶提供服務。二是服務方式,目前常提供知識圖譜分析、個性化定制、知識導航、知識問答、知識推薦、知識檢索等。三是服務反饋,服務與評價形成閉環管理,便于優化服務方式、用戶興趣模型和本體庫。

1.2 本體構建

1.2.1描述語言。一是基于Web本體描述語言,如SGML、SHOE、XML、RDF、RDF(s)、DAML、OIL、OWL、XOL等。二是基于謂詞邏輯本體描述語言,如KIF、Ontolingua、Loom、Flogic、Cycl、OCML等。三是基于圖本體描述語言,如概念圖、WordNet語義網絡等。其中XML、OWL、RDF和RDF(s)等在檔案領域本體構建過程中廣受青睞。

1.2.2 構建原則。最具影響力的是Gruber[10]提出的五條標準,即清晰性、完整性、一致性、可擴展性和最小約束性?,F實情況中一般多靈活選擇,檔案領域可采用國際標準ISO 21127:2014(E)《信息與文獻——文化遺產信息交換參考本體》提出的建模原則:單調(推理)性、(本體)最小化、(屬性)簡便性、(類)不相交性、類型關聯性、動態擴展性、內容完整性[11]。

1.2.3 構建工具。一是基于Web本體描述語言的工具,如Protégé、OILEd、OntoEdit等。二是基于謂詞邏輯本體描述語言的工具,如Ontolingua、WebOnto等[12]。其中斯坦福大學開發的開源軟件Protégé是國內檔案領域本體構建最常用的工具,其支持XML、RDF(s)、OWL、Flogic等多種描述語言。

1.2.4 構建方法。常用的方法包括TOVE法、骨架法、METHONTOLOGY法、DEFS法、KACTUS法、SENSUS法、IDEF5法、七步法等。不同方法各有優劣,實際中多依據具體項目、領域特點等進行選擇,其中“七步法”是國內檔案領域本體構建最常用的方法。

1.3 架構體系

1.3.1 體系結構。一是B/S體系結構,其靈活易維護,但服務器負荷重且安全性一般,一般包含數據層、業務層、應用層,并有相應接口完成層間交互。二是C/S體系結構,其數據管理透明,但維護成本較高,一般包含客戶端和服務器端,對客戶端要求較高。三是聯合存儲,為保證知識服務效率,一般在數據層基礎之上采取本體庫、知識庫、用戶模型庫的聯合存儲模式。

1.3.2 功能模塊。一是知識輸入模塊,主要采集領域知識、用戶興趣和行為信息等。二是業務處理模塊,包括用戶需求建模、知識管理、檔案檢索、知識推理等。三是服務輸出模塊,包括結果顯示、評價反饋等。

1.3.3 架構流程。一是構建知識庫,通過對知識資源進行收集、處理,完成語義標注,構建紅色檔案領域本體知識庫。二是構建用戶興趣模型,基于用戶行為抽取信息偏好、特征存入用戶(需求)本體庫。三是服務應用,處理用戶檢索請求、檢索知識、匹配結果等。四是服務優化,收集顯性和隱性的反饋信息,修正紅色檔案領域本體和用戶需求模型。

2 基于本體的紅色檔案知識服務應用實現

“抗美援朝精神”是中央宣傳部梳理的第一批中國共產黨人精神譜系的偉大精神,2020年習近平總書記在紀念中國人民志愿軍抗美援朝出國作戰70周年大會講話指出:“偉大抗美援朝精神跨越時空、歷久彌新,必須永續傳承、世代發揚”?!翱姑涝瘧馉帯奔t色檔案是銘記歷史、弘揚精神和資政育人的珍貴資源,調研發現黨政機關、黨史研究、思政教育等領域對此有強烈的檔案利用和知識服務需求?;谇拔年U述的服務模型、本體構建和架構體系,本研究以共產黨員網《抗美援朝大事記》、抗美援朝紀念館館藏檔案等數據為例,探索紅色檔案知識服務的應用場景。

2.1 知識管理

一是本體設計。知識表示描述語言選擇OWL,構建方法選擇“七步法”,構建工具選擇Protégé。以RiC-CM和CIDOC-CRM本體概念框架作為主要標準,提煉出“時間”“地點”“參戰部隊”“參戰人員”“戰役”等核心概念集作為“抗美援朝戰爭”紅色檔案領域本體的頂層概念和規則,爾后進一步細化描述和實例化。本體概念模型如圖2所示,主要包含概念層、實例層、內容層三個方面。二是知識采集?;凇翱姑涝瘧馉帯奔t色檔案領域本體,采集和轉換非結構化的檔案信息為結構化存儲知識并精準描述知識內容及上下文關聯,如圖2內容層所示,主要關聯到具體的檔案資源,包括照片檔案(作戰場景)、實物檔案(繳獲的“北極熊團”團旗)、文書檔案(電報、戰斗經驗總結等)、專業檔案(作戰態勢圖等)。三是知識組織。利用本體映射規則、語義標注方法等構建知識鏈接關系,如圖2實例層所示,提煉并組織檔案信息中的知識及關系,圖中描述了“新興里進攻戰斗”的相關實例,包括參戰部隊“志愿軍第27軍”和“美第31團級戰斗隊”、參戰人員“彭德清”和“麥克里安”等。

圖2 “抗美援朝戰爭”紅色檔案領域本體概念模型示意圖

2.2 檢索服務

查詢檢索是基于本體的紅色檔案知識服務最為重要的應用場景,可實現以下服務:一是知識檢索。如圖2所示,以“新興里進攻戰斗”為例,借助Protégé工具中的OntoGraf插件可實現知識的拓展檢索,如檢索“彭德清”,可以得到與其相關的人物,其實例周邊有“參戰人員”類,有“中國人民志愿軍”“第9兵團”“第27軍”“新興里進攻戰斗”等實例,且每個類或實例都有帶箭頭的實線或虛線相連接。二是擴展檢索。展開“第9兵團”與“第27軍”、“第27軍”與“新興里進攻戰斗”的實例可以發現二者之間的隸屬和參與關系,同時可以逆向推理出其領導關系和涉及關系,由此實現本體概念模型的推理功能和擴展檢索。三是用戶畫像。依據檔案用戶檢索行為,可進一步更新優化用戶興趣模型,并結合需求本體構建用戶畫像,當前主要采用基于概念標簽的用戶畫像方法,后續可深化為基于深度學習的用戶畫像模型,以解決當前紅色檔案利用服務停留在基于檔案用戶共性需求普適化層面,無法關聯用戶行為特點、精準滿足新媒體環境下用戶個性化和差異化需求的困境。四是評價反饋。主要思路為通過檔案用戶提交的檢索行為和系統反饋的檔案知識,進一步計算需求本體和知識本體的相似度,具體包括本體概念相似度和本體關系相似度兩個維度的計算[13],相似度計算結果越高表明兩個本體越相似,也表明“資源視角”輸出的紅色檔案知識產品越符合“需求視角”中的檔案用戶興趣,反之則可以進一步優化用戶興趣模型和紅色檔案知識庫的資源管理,以更好響應檔案用戶的需求。

2.3 知識圖譜

本體作為知識圖譜生命周期中“知識框架”的基礎,亦是知識圖譜構建的核心。本研究在“抗美援朝戰爭”紅色檔案領域本體的基礎上,進一步完成知識融合、圖譜存儲、圖譜索引等環節,形成了“抗美援朝戰爭”紅色檔案知識圖譜,并開發了原型服務系統。初步實現了以下服務應用:一是知識導航。以可視化的方式展示知識的分布與關聯,圖中實體檢索“毛澤東”,其中之一的檢索結果展示了“毛澤東致電關系”的知識圖譜片段,可發現“彭德懷”“宋時輪”“高崗”等與“毛澤東”存在致電關系,同時圖譜中每個節點可以作為新的檢索點,進一步導航知識片段。二是資源鏈接。檢索結果不僅能展示相關實體,還可點擊鏈接,關聯與該實體對應的相關文檔、圖片、音視頻等素材,方便用戶直接瀏覽原始檔案,圖中展示了“彭德懷”實體對應的原始照片檔案。三是知識問答。區別于傳統以“關鍵詞”為主要字段的檔案檢索,知識圖譜服務系統能夠基于本體的推理,完成自然語言形式的問答互動,圖中展示了用戶通過自然語言提問“毛澤東都跟誰致過電”和系統智能回答:“賀晉年、陶勇、宋時輪……”;進一步追問“毛澤東致電周恩來說了什么內容”,系統會通過需求本體映射知識本體,進而調用知識庫中的檔案知識,回答通話的具體內容:“指示要及時補充兵力連續作戰……”。四是知識推薦。依據檔案用戶的提問和檢索行為,系統可依據前文所述的用戶模型和用戶畫像,推薦相關個性化知識服務,如圖中所示,系統自動向用戶推薦“想了解:毛澤東與彭德懷通話內容嗎”,若用戶需要可點擊該問題鏈接,系統會通過需求本體和知識本體調用檔案知識庫并自動回答。

3 結語

大數據時代,信息爆炸式增長與用戶有限資源處理能力的矛盾愈發突出,“認知過載”“知識迷航”的現象日益普遍,傳統的檔案信息服務已愈發難以滿足用戶多元化、精細化、知識化、智能化的需求。人工智能、元宇宙等新技術和新理念正加速各行各業向“數智”的變革升級,知識管理替代信息管理、知識服務替代信息服務已成大勢所趨?!丁笆奈濉比珖鴻n案事業發展規劃》便提出:積極探索知識管理、人工智能、數字人文等技術在檔案信息深層加工和利用中的應用。本體是知識管理的基石,也是解決個性化、智能化、精準化知識服務的最佳方案之一,本文創新性地提出了構建基于本體的紅色檔案知識服務模型,并以“抗美援朝戰爭”紅色檔案為例進行了相關開發利用的探索。后續研究可進一步關注以下幾個方向:一是融入知識圖譜構建鏈條,知識圖譜強大的深度知識推理和逐步擴展認知的能力,已成為助推紅色檔案信息資源深度開發的關鍵技術,而本體作為知識圖譜構建的重要環節,可進一步整合檔案領域的知識本體,積極向知識圖譜應用轉化。二是支撐檔案數字人文研究,紅色檔案應重視“非物質”特征的活態傳承,但目前紅色檔案資源還處在整合、開發和利用程度較低的層次,本體理論可支撐數字人文視角下紅色檔案元數據、采集方法、數據治理、呈現方式等領域的研究。三是探索人工智能技術應用,本體是機器學習和人工智能技術的重要理論根基,未來可關注利用人工智能技術探索檔案數據的自動分類組織、檔案本體的智能構建、檔案知識庫與用戶模型的自主更新等。

本文系國家社科基金軍事學青年項目“聯合作戰中開源軍事情報保障研究”(2019-SKJJ-C-064);國家社科基金青年項目“‘互聯網+’背景下多媒體檔案知識發現研究”(19CTQ033)階段性成果之一

猜你喜歡
知識庫本體圖譜
繪一張成長圖譜
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
補腎強身片UPLC指紋圖譜
基于本體的機械產品工藝知識表示
高速公路信息系統維護知識庫的建立和應用
主動對接你思維的知識圖譜
《我應該感到自豪才對》的本體性教學內容及啟示
基于Drupal發布學者知識庫關聯數據的研究
專題
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合