文物知識圖譜的構建與應用探討

2019-12-24 11:17劉紹南首都博物館北京100045

中國博物館 2019年4期

劉紹南 /首都博物館北京 100045

楊鴻波 /首都博物館北京 100045

侯霞 /首都博物館北京 100045

為了更好地展示、保護和研究文物遺產，世界各國建立了數以萬計各種類型的博物館，博物館逐漸成為文物保護和文化傳承的主要載體。博物館的發展可以劃分為傳統博物館、數字博物館和智慧博物館三個階段。

傳統實體博物館中，信息的傳遞主要以文物到人的形式存在，人到文物的信息傳遞需要考慮到文物展出的時間和空間要求。而數字博物館的建立克服了時空要求，通過集中式的數據采集將文物實體數字化，并借助互聯網和多媒體技術在終端上更好的將文物展示給人。但是文物與人的信息傳遞被數字化所阻隔，人看到的只是冷冰冰的數字化的文物，導致真實感、交互性和體驗感不足，尤其是對于文物與文物之間的關系挖掘和研究支持不足，不利于文物的維護、保管和研究。智慧博物館的提出是現代技術進步的產物，隨著互聯網、云計算、虛擬現實和人工智能技術的進步，數字博物館存在的問題也逐漸得到解決。其中知識圖譜是一種可以挖掘實體與實體之間關系的技術，可以有效挖掘文物與文物間的關系，構建知識數據庫，進而有效地解決文物的存儲、展示和管理問題。因此將知識圖譜引入到智慧博物館建設中，是目前的發展方向。

知識圖譜最早于2012年由谷歌提出并成功應用于搜索引擎，當前知識圖譜已為語義搜索、大數據分析、智能推薦和數據集成等提供強大的支撐，正在多種大型行業和領域中得到廣泛應用。除谷歌外典型的案例還有Facebook的圖譜搜索，Microsoft Satori以及商業、金融、生命科學等領域特定的知識圖譜。

數字博物館的廣泛建立，使得文物實體數據化，同時數據規模也越來越大。目前仍然主要依靠專家來分析和維護這些文物數據，由于工作量巨大，領域專家的稀缺，導致該工作越來越難以完成，需要耗費大量的人力、物力和時間。信息處理技術的進步使得自動分析文物實體間的聯系成為可能。因此，急需現代化手段來推動智慧博物館的發展。知識圖譜在文物資源保護與研究方面有三方面優勢：

（1）能夠深度挖掘文物實體間的內在聯系；

（2）優良的可擴展性，如想要把新的文物加入到圖譜中，只需要找到相關的節點進行添加即可，從而建立新的聯系，原來的文物實體連接關系并不會發生改變；

（3）推理檢索的便利性，知識圖譜的邊代表文物實體間的關系，對文物的檢索就是對知識圖譜的遍歷，本質上來講就是推理檢索。

因此，知識圖譜技術可以更好地表示文物知識及其之間的各種關聯，將有力推動文物信息資源的開放共享，推進文物信息資源、內容、產品、渠道、消費全鏈條設計，不斷豐富文化產品和服務，進一步發揮文物在培育弘揚社會主義核心價值觀、構建中華優秀傳統文化傳承體系和公共文化服務體系中的重要作用。

一、文物知識圖譜概述

（一）知識圖譜相關概念與技術

知識圖譜技術是在語義網絡的基礎上發展起來的，是一種知識庫表示方式，是實現人工智能的重要手段。2006年，萬維網之父Berners Lee提出了鏈接數據（linked data）的思想，旨在強調語義互聯網的目的是建立數據之間的鏈接，而不是發布結構化的數據。并且相關技術標準如RDF（resource description framework）、URI（uniform resource identifier）、OWL（Web ontology language）等的完善為語義網絡的研究提供了基礎[1]。

國內外對知識圖譜的研究已經取得了一定的進展。除了傳統搜索服務提供商如谷歌和微軟等先后推出用于網絡搜索的知識圖譜產品外，包括Facebook、Apple、IBM等互聯網領軍企業也加入了競爭，比如Facebook的Facebook KB、Apple的Wolfram Alpha、IBM的Watson KB等。國內對中文知識圖譜的研究起步較早，也取得了一系列的研究成果。中科院計算機語言信息中心董振東領導建立了知網（HowNet）項目[2]，但是該知識庫的數據規模相對較小、并且對于領域的限定較強，難以將其技術推廣。在工業界，百度知心和搜狗知立方等優化了搜索引擎。在學術界，清華大學建立了第一個大規模中英文跨語言知識圖譜XLore、中國科學院計算機技術研究所基于開放知識網絡（OpenKN）建立“人立方、事立方、知立方”原型系統，中國科學院數學與系統科學研究院陸汝鈐院士提出知件（Knowware）的概念，復旦大學GDM實驗室推出的中文知識圖譜項目，上海交通大學構建并發布了中文知識圖譜研究平臺zhishi.me等，這些項目的特點是知識庫規模較大，涵蓋的知識領域較廣泛，并且能為用戶提供智能搜索和知識問答。

（二）文物知識圖譜相關工作

2006年鏈接開放數據（linked open data,LOD）概念開啟了文化遺產領域的數字資源語義融合及知識圖譜構建的相關研究[4]。近年來文物知識圖譜在世界各個國家得到了快速發展，出現了多個具有代表性的文物知識圖譜項目，在數字資源和文化資源的語義描述、語義關聯和關聯數據網絡建設中，出現了具有一系列代表性的研究成果。下面從各項目采用的知識圖譜元數據模型的角度對相關工作做一個簡單的介紹。

文物知識圖譜項目絕大多數基于各種不同的知識圖譜元數據模型，主要有： DC[5]，DC terms[6]，SKOS[7]，CIDOC-CRM[8], FRBR[9]，EDM[10]等。其中國外應用較多的為CIDOC-CRM模型和Europeana推出的EDM模型。

1.CIDOC-CRM

CRM（Conceptual Reference Model）是文化遺產信息領域的概念參考模型，是由國際博協登記著錄委員會（CIDOC）花費十年以上時間完成的旨在促進多樣化的文化遺產信息的集成、轉移和相互交換的形式本體。CIDOC-CRM模型提供了一個通用并且可擴展的語義框架，以促進對文化遺產信息的共享共識，該框架可以映射任何文化遺產信息，并且利用其提供的定義和形式結構可以描述文化遺產中使用的隱含和顯性概念和關系。CIDOC-CRM于1998年發布第一個版本，經過多年的發展到目前已經演變到V5.0.4版本。該版本將文化遺產領域定義出90個實體、149個屬性，包含了特定文物實體的時間、地點、人物、歷史事件、人文藝術等信息。CIDOCCRM提供的大量的摘要概念（Abstract Concepts）可以用來描述不同類型的文化遺產，世界上大量的博物館已經廣泛使用CIDOC-CRM，將博物館的數據映射到該模型上。其中比較著名的有大英博物館關聯開放數據項目[11]、俄羅斯文化遺跡云平臺[12]、波蘭數字國家博物館項目、徐悲鴻博物館繪畫藏品項目[13]。

大英博物館是最早使用知識圖譜技術的博物館之一，2011年大英博物館關聯開放數據項目（https：//www.researchspace.org/Events.html）將文物數據映射到本體CIDOC-CRM上，共發布了1億條三元組，并將其連接到世界范圍的知識譜圖上，開發了語義檢索系統。在此基礎上大英博物館與Andrew Mellon基金會合作為藝術研究推出了虛擬研究環境ResearchSpace。大英博物館為該項目提供了2500條關聯開放數據，并利用這些開放數據陸續推出了多項語義檢索、語義數據注釋、語義圖像注釋等開放研究課題。

俄羅斯文化遺跡云平臺構建了包括俄羅斯博物館、彼得人類學和人種學博物館在內的俄羅斯最大文化知識圖譜，提供了豐富的知識呈現方式，包括時間軸、地圖、關系圖等，支持網站和手機應用多種終端。圖1（a）顯示了該圖譜中某藝術品表示的實例。

2.EDM

Europeana是一個大型數字博物館項目，由歐盟委員會和成員國的文化和教育部門贊助和支持，歐盟各國的圖書館、檔案館和博物館參與其中。2012年，為了適應語義網的發展，Europeana推出了關聯開放數據試點——data.europeana.eu，其中關聯數據資源類型包括文本、圖片、音頻、視頻、動畫等，這些數據來自歐盟成員國的1500多個不同的文化機構，使用元數據模型EDM（Europeana Data Model）作為資源內容的描述模型。包含有1000萬個數字文物對象和超過兩億條記錄，這些數據以關聯的形式對外開放，給歐洲的文物、文化遺產提供了新的共同接口[10，14]，構建了文化資源不同概念之間的關聯關系的語義知識本體模型。目前歐盟成員國的文化遺產知識圖譜項目多選用EDM作為數據模型，比較著名的有：荷蘭國立博物館知識圖譜項目[15-16]、歐洲圖書館項目、歐洲文化遺產資源在線訪問平臺（ATHEVA）、西班牙文博物館數字化項目（Hispana）等[17]。圖1（b）顯示了荷蘭國立博物館知識圖譜中某藝術品表示的實例。

二、文物知識圖譜構建

由于文物及文化遺產大數據的快速發展，數據量和數據形式都不斷發展，知識圖譜逐漸成為實現對異構文物海量數據的管理和相關內容挖掘的主要技術。

（一）文物知識圖譜構建過程

在文物領域，知識圖譜的構建過程可由數據源采集、數據融合、圖譜生成及應用幾個步驟構成，具體如下圖2所示。

構建圖譜的數據采集主要來源于數字化的文物記錄結構化數據以及描述文物的文本、音頻、圖像等非結構化數據。

圖1.元數據模型實例

圖2.文物知識圖譜的構建過程

構建圖譜的數據要根據不同的數據類型進行融合和鏈接。結構化數據主要是存儲在各大數字博物館的文物關系型數據庫中，由于不同機構的文物數據庫對記錄文物信息的字段定義各有不同，所以必須對結構化數據依照文物領域的元數據規定的本體和概念進行數據的對齊才能與非結構化數據進行融合的鏈接。非結構化數據主要有文物的文本描述、音頻和圖片數據組成。在進行文物知識的鏈接與融合之前需要根據文本、音頻和圖片信息進行實體抽取、關系抽取和屬性抽取產生文物知識的表示，通過進一步的共指消解、實體消歧等技術完成文物信息的智能理解與知識鏈接之后才能使用。特別對于某些文物的音頻和圖像信息還需要進行特征提取、內容理解和相關屬性識別后與其他相關知識進行鏈接和融合。

在數據采集和數據融合基礎上，為了能夠不斷挖掘文物信息組織深度的序化和資源內容關聯關系，需要對處理后的文物知識依據文物知識圖譜模型采用一定的規則和結構生成文物知識圖譜，并以圖譜為基礎完成語義檢索、知識推薦和自動問答等具體應用。

（二）知識圖譜關鍵技術

知識圖譜構建是一項龐大而復雜的工程，現階段知識圖譜構建基于現實世界中復雜而龐大的多源異構模式數據，因此圖譜建立和應用的技術，是語義網絡、自然語言處理和機器學習等的交叉學科。其中的關鍵技術主要包括了知識表示、信息抽取和知識融合等多項內容。

1.知識表示

無（半）結構化數據中包含大量的文物知識，而知識圖譜中的數據存儲形式則是結構化的。因此，文物知識圖譜的主要研究目標是從這些無（半）結構化數據中獲取文物的結構化知識，自動整合和構建文物知識圖譜，服務于文物知識推理的相關應用。文物知識圖譜構建和應用過程中的關鍵問題是文物的知識表示。例如：萬維網聯盟（W3C）發布的資源描述框架（RDF）技術標準以三元組表示為基礎，受到廣泛認可。然而目前的知識表示面臨著計算效率和數據稀疏問題[18]。

傳統的知識庫的知識表示是基于邏輯的符號知識表示，主要以一階謂詞為基礎，擴展了等價、缺省推理、斯科林化和部分二階謂詞邏輯等知識表示能力。而現代知識圖譜都在邏輯的語義表達方面降低了要求，以事實型知識為主。隨著表示學習和深度神經網絡的發展，基于向量的知識表示方法得到越來越多的重視?；谙蛄康闹R表示的目的是對文物實體的描述信息，比如無結構化的文本對象，運用機器學習、統計方法等技術提取其向量特征，從而將具體的文物抽象為數學化的向量表示，為文物關系的挖掘打下基礎。以下著重介紹基于向量的知識表示的發展和相關技術。

基于向量的知識表示通?？梢苑譃闊o學習表示和學習表示兩種方法。無學習的數據表示最常用是獨熱（one-hot）表示[19]。這種表示方法將信息表示為只有某一維非零的向量。為了將不同知識區分開，這就導致獨熱表示的向量維數很高。例如某文物文字介紹集合中共出現W個不同的詞，則使用一個W維的向量表示每個文物的文本描述，每一維的取值大小表示文物介紹集中的該詞匯在該特定文物描述中的重要性。獨熱表示無法有效利用對象間的語義相似度信息，容易受到數據稀疏問題影響，計算效率不高。

而學習表示與獨熱表示相比，通過學習階段可以充分利用對象間的語義信息，大大降低知識表示的向量維度。近年來，出現了許多知識表示技術，包括距離模型，單層神經網絡模型，雙線性模型，能量模型，張量神經網絡模型，矩陣分解模型和翻譯模型（TransE）[18]。在TransE基礎上研究者從不同角度嘗試解決復雜關系建模問題，又陸續提出了TransH，TransR，TransD，TransSparse，TransA，TransG和KG2E等模型[20，26]，不同程度的提高了表示性能。

2.信息抽取

形成知識圖譜的數據依靠人工加工工作量巨大，很難形成大規模的知識圖譜。構建知識圖譜的關鍵是如何自動地去抽取信息。對于文物知識圖譜的構建而言，大部分數據都是半結構化的網頁信息和非結構化的文本信息，由于其數據規模較大，手工抽取難以實現，因此需要借助當前較為成熟的機器學習、深度學習技術自動地去抽取文物信息。

知識抽取大部分是面向開放的半結構化和非結構化數據，通常典型的輸入是自然語言文本或者多媒體內容文檔等。知識抽取主要包括實體提取、關系抽取和屬性抽取三個方面，主要是借助統計方法和機器學習方法實現自動抽取。在知識抽取的基礎上，進而進行知識表示，然后考慮實體對齊、本體構建、知識更新等方面，最終構造完整的知識圖譜。

實體提取是從自然語言文本中查找相關實體，并標記實體的位置和類型，也被稱為命名實體識別（Named Entity Recognition，NER）。命名實體是構建知識圖譜的基礎，因此實體抽取的完整性、精確度和召回率等決定了知識圖譜構建的質量。實體抽取的方法分為4種：基于百科站點或垂直站點提取[27]、基于規則與詞典的方法、基于統計機器學習的方法[28]以及面向開放域的抽取方法。

關系抽取的目的是通過提取命名實體之間的關系來解決實體語義鏈接的問題。其中，實體間的關系包括參數類型、符合此關系的元組模式等。由此可見，關系抽取是在實體抽取的基礎上，把無結構的信息數據中所蘊含的實體之間的語義關系抽取出來，整理成結構化的三元組存儲在圖數據庫中，以便讓人們進一步的做知識融合和知識表示。這對于知識圖譜的構建非常關鍵。目前主流的關系抽取技術分為：基于規則的方法[30-31]、基于核函數的方法[32-33]和基于深度學習的方法[34-35]。

屬性抽取的任務是為每個本體語義類構造屬性列表，而屬性值提取則為一個語義類的實體附加屬性值。屬性和屬性值的抽取能夠形成完整的實體概念的知識圖譜維度，屬性抽取也可看作是關系抽取中“isa”關系的特例。

3.知識融合

除了知識表示和信息抽取技術以外，知識圖譜的構建還面臨著多源信息融合、復雜推理模式的重要問題。知識融合指將不同來源的知識進行對齊、合并的工作，形成全局統一的知識標識和關聯。知識融合是知識圖譜構建中不可缺少的一環，知識融合體現了開放鏈接數據中互聯的思想。

如著名的TransE僅利用知識圖譜中的三元組結構信息進行表示學習，尚有如實體和關系的描述、類別信息以及知識庫外的海量信息未得到充分利用的問題。如何充分整合這些異構多源信息實現知識融合具有重要意義。其中，基于實體描述的知識表示學習模型（DKRL）[29]和基于文本和知識庫融合的知識表示學習最為典型。多源信息融合可以有效地提高知識表示的性能，尤其是新實體的表示。多源信息融合的知識圖譜構建仍處于起步階段，相關工作較少，信息來源有限，有大量信息（如實體類別）未被考慮，所以具有廣闊的研究前景。此外，基于關系路徑的知識表示學習由于充分利用了實體間關系和關系路徑的推理模式也成為研究的重要方向[18]。

三、基于文物知識圖譜的應用展望

在文物領域構建知識圖譜后，語義檢索、推薦、問答是最典型的三類應用，是在智慧博物館建設中邁出的一大步。無論是對于僅是想要了解文物信息的普通用戶，還是對想要研究文物的專業人士，基于文物知識圖譜構建的這些應用，對于深層次地挖掘和利用文物領域的數字化資源都是非常具有研究價值和應用價值的。

（一）語義檢索

在信息爆炸的時代，大數據量的信息對于用戶來說具有很大的選擇壓力，用戶很難從海量數據中找尋到自己感興趣的資源，反而導致信息使用效率的降低。隨著數字化博物館的建設，數據資源無論是種類還是數量都很巨大，信息高效檢索利用問題也日益突出。

知識圖譜以圖的形式刻畫和管理數據及其之間的關系，構成一個知識庫，在這種知識庫上可以方便地進行多維相關信息的檢索，而不僅是基于關鍵詞的全文檢索。因此，在構建文物領域的知識圖譜后，可以清晰地描述文物、人物、時代、材質等各種實體及其之間的關系，并進行快速的數據導航。例如，當輸入一個名畫的名稱時，不但可以查詢到該畫作的詳細信息，同時還可以給出該畫作的作者、時期、簡介、圖像資料等相關信息?；诖私Y果，還可以進行深入地信息導航。例如，了解該作者的其他作品，了解同時期的同類作品等。類似地語義檢索更便于文物領域知識的高效導航和數據利用，對于博物館的管理人員和游客都具有非常好的應用價值。

（二）知識推薦

推薦技術是解決信息過載問題一個非常有潛力的辦法。用戶不僅僅只是主動去搜索信息，而是根據用戶的興趣特征主動向用戶推薦他們感興趣的信息?！巴扑]”目前在購物網站中應用很多。在頭條的帶領下，很多新聞類系統也開始采用推薦技術，使用戶更容易獲得感興趣的內容。通過推薦系統的幫助，可以實現信息的生成者和消費者雙方都獲利的局面。在文物領域，推薦技術也存在應用價值，但是目前并沒有大幅推廣應用。

經過數字化建設，很多博物館的網站建設已具規模，但是信息主要依靠用戶主動瀏覽。借助推薦技術，可以依靠系統收集用戶的屬性特征、行為歷史，在此基礎上通過推薦算法計算出用戶可能感興趣的相關信息，并對候選信息進行排序返回。

（三）文物領域的知識問答

問答系統（Question Answering，QA）是讓計算機自動回答用戶所提出的問題，和目前的搜索引擎不同，問答系統不再是返回基于關鍵字匹配的文檔排序，而是通過自然語言的形態給出確定的答案。智能問答系統是讓計算機理解人類語言的主要手段。這部分內容的體現主要集中在門戶社區或各種交互式的問答系統中。目前專門針對文物領域的問答系統還并不成熟。

構建文物領域的知識圖譜后，則可以為該領域的自動問答提供知識來源。例如，用戶提問“《墨梅》的作者是誰？”。文物圖譜中已經存儲了三元組數據[《墨梅》作者王冕]，問答系統會返回“王冕”。

自動問答是針對用戶輸入的自然語言問句進行理解，然后從知識圖譜中計算出用戶問題的答案。其中涉及的關鍵技術和難點包括：如何正確理解用戶的真實意圖；如何對候選答案進行評分以確定優先級順序等?；谥R圖譜，構建文物的自動問答系統，則可以在其上完成更人性化的應用服務。

四、國內文物知識圖譜的未來發展

（一）現有知識表示方法的擴展

現階段，基于本體工程的知識描述和表示仍是知識圖譜建模的主流方法，而且僅用到了一些 RDFS及OWL中定義的基礎元屬性來完成知識圖譜模式層構建，圖譜所關注的重點也仍然是數據中的概念、實體屬性等。由于文物描述承載了更多的時間、空間以及歷史事件的知識，所以隨著人們對文物背后蘊藏的文化知識的認知層次的提升，勢必會對現有的知識表示方法進行擴展，需要逐步擴展對現有的文物知識表示方法，擴充對于文物的時序知識、空間[37]、事件知識[38]等的表示。而知識圖譜本身也會逐步將關注重點轉移到時序、位置事件等動態知識中去，來更有效地描述事物發展的變化，為預測類的應用形態提供支持。

（二）多源異質數據的融合利用

國內各地文物博物館的數字化資源建設已經進行了若干年，效果顯著。數字化資源建設已獲得了大量的結構化數據。但是除此之外還有大量的文本、圖像等非結構化數據有待深入挖掘和利用。

文物領域中通常具有大量的文物知識語料是采用圖文配合的方式提供的，因此圖像和文本都含有了文物的信息。鑒于文物語料知識的這種特點，文物知識圖譜的研究急需構建一種同時處理文本和視覺的多模態信息文物知識表示和抽取方法，研究融合圖像和文本的特征提取方法，進而提升命名實體識別精度和召回率，達到增強文物知識的表示能力的目的。

（三）構建聚合式文物元數據模型

通過分析目前國內各博物館網站結構和數據發現，多數項目是獨立進行的，國內資源共享和管理模式還沒有達成。如果能夠借助知識圖譜技術，通過知識融合將各地的數字化資源進行關聯與鏈接，形成以知識為中心的大型知識庫，可為我國文物信息的資源整合和利用，提供技術和資源基礎。為了更好地完成這一設想，需要統一和規范跨類型、跨機構、跨領域數字文物資源內容的語義描述規則；轉換文物資源對象的完整格式記錄為特征內容的元素描述；突出文物對象具體內容特征的全方面描述，挖掘其內在的關聯關系；實現對數字文物文化資源內容的統一細粒度描述和去格式化語義描述。

多方面的實踐證明，目前國內文化遺產保護領域急需設計一個與多域元數據標準兼容的語義互操作框架模型。在該框架模型的基礎上，參考元數據應用程序概要（Metadata Application Profile），復用現有成熟元數據標準的元素、術語和修飾詞來擴展滿足文化遺產領域資源描述所需的其他類和屬性的定義、約束和規則，構建聚合式元數據模型以支持數字文化資源的語義描述和組織，并節省元數據開發的成本。

（四）提供泛在化文物知識圖譜應用服務

對文物大數據進行信息抽取形成文物知識圖譜，再通過推理和分析技術，挖掘文物極具價值的文化、歷史、藝術、哲學、宗教等信息，可使人們對文物所承載的文化歷史發展脈絡、社會規律和關聯的認識更全面、透徹。利用文物知識圖譜不斷挖掘文物信息組織深度的序化和資源內容關聯關系，支持用戶利用開放的應用程序接口（API）將獲取的數據集嵌入到移動APP、網站、社交網絡平臺、網絡社區等特定應用服務中，為用戶提供廣泛的數字文化遺產應用服務，促進文物信息資源的公開共享，促進文物信息資源、內容、產品、渠道和消費鏈的設計，不斷豐富文化產品和服務，使文物在培育和弘揚社會主義核心價值觀，建立中國優秀傳統文化和公共文化服務體系的傳承體系中發揮重要作用。