?

地球科學知識體系編輯平臺

2020-08-24 12:05石順中閭海榮董少春唐小芳周成虎
高校地質學報 2020年4期
關鍵詞:本體圖譜語義

石順中 ,閭海榮 *,董少春,李 艷,唐小芳,周成虎

1. 清華大學 自動化系,北京 100084;2. 福州數據技術研究院,福州 350207;3. 南京大學 地球科學與工程學院,南京 210023;4. 中國科學院 地理科學與資源研究所 資源與環境信息系統國家重點實驗室,北京 100101

1 概述

進入21世紀以來,人類社會發展高速進行。以互聯網的普及為代表的科技進步,帶來了各行業前所未有的井噴式數據(武延軍,2013)。而與之而來的海量數據也給存儲和檢索技術帶來的新的挑戰。不同于一般的數據,地球科學數據種類繁多、類型復雜、語義關系豐富,使得數據和知識的構建異常繁瑣。為了解決上述問題,基于本體的知識圖譜構建技術被引入到地球科學大數據的收集、處理和應用中。

1.1 本體

在計算機科學與信息科學領域,本體(ontology)是對概念進行建模的規范,是描述客觀世界的抽象模型,并且通過形式化的方式對概念及其之間的聯系給出明確定義。本體是同一領域內的不同主體之間進行交流的語義基礎(Neches et al.,1991),表達了概念的結構、概念之間的關系等領域中實體的固有特征,即“共享概念化”(張德政等,2017)(例如人是一個本體,小明和小張是人這個本體對應的兩個實體,人有性別屬性,小明和小張同樣也有性別屬性)。

對于本體的描述,也需要通過特定的計算機語言來實現。使用標準化語言對本體進行描述,可以避免在不同Web應用程序之間進行轉換。其中具有代表性的本體描述語言有:RDF、OIL、和OWL。RDF(Resource Description Framework) 是萬維網聯盟(The World Wide Web Consortium,W3C) 提出的一種知識表示方式,并用于支持網絡上的知識共享與交換。1999年2月,RDF成為W3C 的正式建議模型①W3C, https://www.w3.org/TR/REC-rdf-syntax/。OIL(Ontology Inference Layer)是歐洲科研機構在對于描述邏輯的長期研究基礎上建立起來的,其目標是提供對結構化信息的表達和推理支持(Fensel et al.,2001;McGuinness et al.,2002 ;Stevens et al.,2003)。OWL(Web Ontology Language)是W3C為了擴展RDF模式有限的表達能力定義了一種更具表達能力的Web本體語言(Antoniou and Van Harmelen,2004;McGuinness and Van Harmelen,2004)。

本體被廣泛的應用于各種領域(Brank et al.,2005),如知識管理、信息提取、語義網和知識圖譜等。在知識圖譜中,本體規范了知識的概念、屬性和關系,通過本體提高知識圖譜準確性②Oliveira D, Sahay R, d’Aquin M. Building a Knowledge Graph for Products and Solutions in the Automation Industry. in: Proceedings of the 1st Workshop on Knowledge Graph Building. 2019.。

1.2 知識圖譜

知識圖譜(Knowledge Graph)是一種基于圖的數據結構,由節點和線組成,通過語義關聯把各種概念或實體關聯起來。在知識圖譜里,每個節點表示“概念或實體”,每條線為點與點之間的“關系”。就目前的計算機技術而言,知識圖譜是關系的較為有效的表示方式之一(王云才和牛聚粉,2012;熊永蘭等,2014)。知識圖譜本質上就是一種語義網絡(Popping,2003)。

圖1 知識圖譜發展的驅動Fig. 1 Driving forces for the development of knowledge graph

受數據增長和應用需求的雙重驅動,語義網絡不斷融合了數據鏈接、文檔鏈接等相關概念和技術,朝著數據知識化的方向不斷發展成熟,確立了知識圖譜的基本概念(圖1),即對語義知識的一種形式化描述框架。2012年谷歌公司宣布它的搜索引擎中加入了知識圖譜,旨在實現更智能、高效的搜索引擎(例如用戶搜索比爾·蓋茨,搜索引擎不僅返回含有比爾·蓋茨字符的網頁,還會返回圖2所示和比爾·蓋茨相關的信息)。谷歌的擁抱對知識圖譜的興起起了很大的作用,知識圖譜開始被廣泛關注。知識圖譜從20世紀70年代開始出現在文獻中(Ehrlinger and W??,2016)。本文通過谷歌學術按年統計了含有知識圖譜的英文文獻數量(從1970年到2019年),從統計結果可以看到最近10年知識圖譜這一概念在各類文獻中出現的頻次急劇增長(圖3),已成為人工智能和大數據等相關研究的重要基礎。自2013 年后,知識圖譜逐步開始在學術界和工業界普及,并已在智能問答、情報分析、反欺詐等領域中發揮重要作用,是知識服務的重要基礎。

圖2 谷歌搜索返回和比爾·蓋茨相關的知識圖譜數據Fig. 2 Knowledge graph data about Bill Gates displayed on google search

圖3 1970~2019年含有知識圖譜的英文文獻Fig. 3 Number of english literatures containing knowledge graph, 1970-2019

就世界范圍而言,目前實體數最多的知識庫是Wolfram Alpha知識庫,實體總數已超過10萬億條。谷歌第二,擁有5億個實體和350億條實體間的關系,并且仍在不斷擴大規模。微軟的 Probase包含的概念總量達到千萬級,是當前包含概念數量最多的知識庫。而我們熟知的Siri - Apple等智能助理,正是建立在Wolfram Alpha知識庫基礎之上的(Christian et al.,2009 ;Wong et al.,2012)。2017年以來,美國逐步將知識圖譜的建設提升到新的戰略高度,并作為美國一項國家科技戰略予以重點推動。例如,美國自然科學基金會(National Science Foundation,NSF)在2019年資助學科融合加速先導項目一共43項(總預算3900萬美元),以知識圖譜為主題的項目就占到幾乎50% (21項),并且表示美國自然科學基金后續還有更大的預算投入。

知識圖譜通??梢苑譃殚_放知識圖譜和領域知識圖譜。地球科學知識圖譜就是一種領域知識圖譜,是對地球科學領域內知識的一種形式化描述框架。目前規模最大的地球科學知識圖譜是由美國宇航局地球科學技術辦公室(NASA Earth Science Technology Office)主導建設的SWEET(Semantic Web for Earth and Environmental Terminology), 包括7000多個基本概念,涵蓋了地球科學的主要研究領域。但該知識圖譜僅完成了框架的建設,尚缺乏對主體概念和語義關系的進一步描述。

1.3 基于本體的知識圖譜

基于本體的知識圖譜是在本體的基礎上進行豐富和擴充的(圖4),擴充主要體現在實體層面(張德政等,2017)。知識圖譜包含本體層和事實層,本體層突出和強調了概念以及概念之間的關聯關系,事實層則增加了更加豐富的關于實體的信息。事實層和本體層之間通過語義關系進行映射和鏈接,使得實體對象以及實體對象之間也能擁有規范的、形式化的語義描述。這種雙層結構使得知識圖譜能夠在基于真實數據(例如大數據)的知識發現中發揮語義翻譯和推理的作用,建立了現實世界與機器形式化表達之間的橋梁,成為機器理解的基礎。因此,它在很多領域知識圖譜的構建中被采納,比如基于本體的中醫知識圖譜的構建(張德政等,2017),基于領域本體和自然語言處理技術的非物質文化領域知識圖譜建設等(Dou et al.,2018)。

圖4 知識圖譜和本體關系Fig. 4 The relationship between knowledge graph and ontology

知識圖譜的構建大體有兩種方式:自頂向下和自底向上。開放知識圖譜的本體構建通常用自底向上的方法,自動地從各文本數據中抽取概念或實體,以及它們之間的關系,典型的如Google的Knowledge Vault。專業領域知識圖譜多采用自頂向下的方法,即事先規劃好需要構建的本體和實體,以保證專業知識的高精確。兩種方式也可以混合使用。例如,地球科學知識圖譜提供了地球科學領域內最全面的知識描述,涵蓋的學科范圍包括巖石學、古生物學、礦物學、構造、古地磁、地質年代學、地球化學、石油地質學、地熱學等。為保證概念和相互關系表達的準確性、系統性和完整性,地球科學知識圖譜的構建前期采用自頂向下的專家主導建設為主,后期采用文本自動提取、知識融合等技術補全。

2 已有知識體系編輯工具調研

隨著本體在知識工程、知識圖譜等領域的廣泛應用,構建實用本體的重要性愈加突出。而本體的構建離不開本體編輯工具的支持(張歡歡等,2005),本體編輯工具主要是用于本體的創建、存儲和重用等,目前有很多本體編輯工具:Ontolingua、OntoSaurus、Protégé、WebODE、OntoEdit、OilEd、WebOnto、TopBraid Composer 等(Lambrix et al.,2003;Roche,2003;Morbach et al.,2007)。這些工具既有商業版本,也有開源免費版本。本文把本體編輯工具也叫做知識體系編輯工具。下面分別對其中幾種系統進行介紹。

2.1 Protégé

Protégé是斯坦福大學醫學院生物信息研究中心開發的一款開源免費的本體編輯工具(Noy et al.,2001;Eriksson,2003;Gennari et al.,2003;Jain and Singh,2013 ;Musen,2015)。Protégé得到學術團體、政府和企業用戶社區的支持,這些用戶使用Protégé在生物醫學、電子商務和組織建模等領域構建了基于知識的解決方案。

Protégé是一個桌面軟件,包含 Mac、windows和Linux三個版本,到目前為止,最新版本為v5.5.0,界面風格如圖5所示。Protégé支持概念類、屬性和實例創建,支持多重繼承。用戶不用關心本體描述語言,只需在概念層次上進行領域本體模型的構建,系統可以自動生成RDF格式文件。

Protégé是 桌 面 軟 件, 不 利 于 多 人 協 作。WebProtégé是其網頁版本,主要功能和 Protégé相似,可以在站點(https://webprotege.stanford.edu/)體驗使用。WebProtégé也是開源,可以下載編譯部署到私有機器上。

2.2 TopBraid Composer

TopBraid Composer是TopQuadrant公司開發的商業應用程序,用于構建本體和開發語義應用程序(Horrocks,2007 ;García-Pe?alvo et al.,2012 ;Alatrish, 2013)。TopBraid Composer支持本體編輯、知識庫的建立、管理以及測試,支持W3C規范,支持多種視圖,支持不同格式數據導入。

TopBraid Composer支持W3C標準RDF、OWL Web本體語言、SPARQL查詢語言和語義網規則語言(SWRL)。Composer可用于編輯各種格式的RDFS/OWL文件,還提供可伸縮的數據庫后端(AllegroGraph、Jena、Oracle 11g和Sesame)以及多用戶支持①https://franz.com/agraph/tbc/。

圖5 Protégé軟件截圖① https://protege.stanford.edu/assets/img/screenshots/desktopprotege-screenshot-3.jpgFig. 5 The screenshot of Protégé

Composer提供了一組全面的特性,涵蓋了語義應用程序開發的整個生命周期。除了作為一個完整的本體編輯器之外,Composer還可以作為運行時環境來執行規則、查詢、推理程序?;贓clipse,還可以使用定制的Java插件對Composer進行擴展,使得在單一平臺上快速開發語義應用程序成為可能。TopBraid Composer的語義網應用程序集成開發環境如圖6所示。

2.3 OilEd

圖6 TopBraid Composer的語義網應用程序集成開發環境② https://franz.com/agraph/tbc/TBC-Geography.pngFig. 6 Integrated development environment for semantic web applications in TopBraid Composer

OilEd是一個由曼徹斯特大學計算機科學系信息管理組構建的基于OIL的本體編輯工具,允許用戶使用DAML+OIL構建本體(Bechhofer et al.,2001;Stevens et al.,2002a,b,2003 ;杜文華和董慧,2005)。OilEd是一個開源的項目,目前已停止維護和更新,不過用戶還可以到站點(http://oiled.semanticweb.org/index.shtml)下載使用。

由于OilEd的最初意圖僅僅是提供一個簡單的編輯器,用于演示對OIL語言的使用,并激發了人們對OIL語言的興趣。因此,OilEd的當前版本并沒有提供一個完整的本體開發環境,即該編輯器無法支持大型本體的開發、本體的遷移集成和許多其他涉及本體構建的活動。相反,它是本體編輯器的“記事本”,提供了足夠的功能來支持用戶構建本體,并演示如何使用事實推理器來檢查那些本體的一致性(孫瑾,2006)。OilEd軟件界面如圖7所示。

3 地球科學知識體系編輯工具的需求

圖7 OilEd軟件界面(Bechhofer et al.,2001)Fig. 7 The screenshot of OilEd (Bechhofer et al.,2001)

盡管國內外覆蓋整個地球科學領域的地學本體模型和知識圖譜尚屬空白,但地學領域本體模型的建設(如石油化工、地質年代學、水文地質、構造地質、地理空間等領域)已經積累了豐富的經驗,形成了領域專家和機器自動識別方法相結合的建設思路。由于地球科學知識圖譜涉及的學科門類多,內容廣,知識點眾多,學科內部知識點描述差異大,因此對知識體系編輯工具提出了更高的要求,除了必須具備描述標準化、存儲結構化,操作簡單化以及結果可視化之外,還需要滿足以下幾方面需求。

(1)在普適性和個性化需求之間達成平衡

地球科學知識圖譜涉及的學科門類眾多。這些學科的知識點既具有共性特征,又具備各自的特點。目前沒有一套元數據標準規范能夠適應地球科學所有分支,同時又能體現不同學科的特殊需求。因此需要建立一種靈活的描述方案,能夠在普適性和個性化需求之間達成平衡,既滿足地球科學各個分支學科的基本要求,同時又能兼顧各學科的不同需求。

(2)支持多用戶同時在線編輯

由于地球科學知識圖譜涉及的學科門類眾多,僅僅依靠某個機構或個人的力量是難以完成這一龐大的建設工作的,需要多學科專家共同參與建設,因此編輯系統必須允許多用戶協同編輯,才能支持知識圖譜的高效建設。

(3)去專業化程度要求高

現有知識圖譜建構工具對圖譜建設人員要求較高,必須具備本體標準化語言的背景。然而大部分地球科學專業人員并不了解本體及其標準編碼的基本要求,需要花大力氣進行培訓。而短時間培訓無法使眾多專業地球科學人員充分理解本體建模語言的要求,難免存在理解上的偏差,在分布式協同構建地球科學知識圖譜時難以實現統一,為知識圖譜的集成帶來新的困難。因此地球科學知識圖譜的建設工具必須滿足去專業化的要求,即對地球科學專業人員屏蔽知識圖譜建構的專業背景要求,使得建設人員在零培訓或較少培訓的基礎上就能進行圖譜的建設工作,最大限度的實現錄入簡單化,標準統一化,分布式協同工作高度可集成以及操作結果可視化等要求。

(4)具備特殊符號的在線顯示和編輯功能

地球科學很多概念和過程涉及復雜的數學公式、化學結構式、同位素比值等內容。例如地球物理學、數學地質、水文地質學等學科有大量基礎概念和知識點需要結合公式進行闡述。礦物學、地球化學等學科有大量分子式、同位素需要通過上下標表示(例如TiO2、87Sr/86Sr等)。此外,還有一些學科的知識點描述中對字體有特殊要求(例如有些古生物名稱需要以斜體顯示)。這些特殊的表示方式或顯示需求在現存的知識體系構建工具中無法滿足,使得概念的準確表達受到極大的限制,在錄入、檢索、可視化和存儲等方面都造成了困難。

(5)支持多種可視化瀏覽和檢索方式

地球科學知識圖譜包含對地球科學領域知識及其相互關系的全面、清晰、明確的形式化描述,具有科學性、系統性和規范性,能夠在不同層面上滿足各類用戶對地球科學知識的需求。除了為機器理解提供數字化、結構化的知識體系以外,也可以成為科普、教學和科研人員的知識庫。目前的知識圖譜建設工具大多以機器服務為主,為公眾提供地球科學基本知識瀏覽和檢索、為教學、科研提供專業術語解析等方面的功能較弱,需要提供靈活多樣的可視化瀏覽和檢索能力,使得不同需求的用戶能夠方便查閱知識圖譜中的內容,充分發揮知識圖譜滿足不同層面需求的特點。

(6)在線審核功能

地球科學知識圖譜要得到國際廣泛認可,需要進行嚴格的同行審核,而審核過程最好也能在知識體系編輯工具內進行,以保證同行評議公開、透明,接收更多監督和意見,同時又方便知識圖譜建設者根據審核結果在線協同修改,提高審核和修改的效率。

(7)對多角度建立的知識圖譜進行融合和集成

由領域專家通過自頂向下方式建立的知識圖譜奠定了知識圖譜的整體框架和大部分概念,而知識圖譜的完善還需要通過從大量文本、數據中自動提取,以自底向上的方式進行知識融合和補全。對兩種不同視角和方式建立的知識圖譜進行實體對齊、消除歧義、進行復雜語義關系的推理和演算,實現知識更新是建立健全知識圖譜的重要功能。

目前通用的商業和開源知識體系構建工具均難以滿足上述需求,因此需要定制開發適合地球科學知識圖譜在線協同編輯、檢索、存儲、可視化和導出的一體化系統,并且具有靈活的可擴展能力,以適應地球科學知識圖譜的建設以及更新維護的需求。

4 地球科學知識體系編輯平臺

為了滿足地球科學知識體系構建的需求,作者設計并實現了一種地球科學知識體系在線編輯平臺——“地球科學知識體系編輯平臺”(以下簡稱系統,圖8)。系統不僅支持協同本體編輯、屬性繼承、多種顯示和檢索、Word/Excel/RDF導出等需求,還具有圖文編輯、不同學科個性化邏輯處理、特殊符號處理、協同審核等定制功能。系統可為建設者、審核人員、普通用戶和管理員分配不同的權限。建設者可在零培訓或極少培訓的基礎上協同進行地球科學知識圖譜建設,審核人員可以方便進行在線協同審核。平臺支持中英文兩個版本,可以在兩種語言中自由切換。

4.1 總體框架

地球科學知識體系編輯平臺以Web服務形式向用戶提供服務,采用前后分離開發模式。系統從底到上大致分為4層:存儲層、業務層、控制層、應用層,總體框架如圖9所示。

存儲層主要負責知識體系數據、用戶信息、用戶操作日志等信息存儲,采用主從備份保證數據安全。業務層是系統核心部分,系統的主要邏輯都在這層實際,比如本體編輯、屬性繼承、數據檢索、文檔生成等??刂茖又饕秦撠熃尤氚踩刂?,知識產權保護,包含用戶身份驗證、權限控制、反爬蟲控制。應用層是最上面一層,是系統直接面向用戶的一層。

系統通過Docker容器化實現快速部署和擴展。根據實際情況,系統可以快速單機部署,也可以進行多點部署提高系統穩定性和安全性。

4.2 功能模塊

圖8 系統主頁面Fig. 8 System main surface

圖9 系統總體框架Fig. 9 General framework

圖10 系統主要功能Fig. 10 Main functions of the system

系統主要功能如圖10所示,涵蓋了知識點編輯(錄入、刪除和修改)、顯示和導出(即下載)功能,在線審核、用戶管理和訪問控制四大核心功能。

系統除了基本知識編輯功能外,具有如下顯著特點:

(1)定制核心元數據描述集和擴展屬性描述

針對地球科學不同學科門類知識點描述的共性特征和個性化需求,參照都柏林核心元數據集和CGI制定的GeoSciML元數據標準,為地球科學知識圖譜的知識點及其相互關系設計了核心元數據描述集,用于體現地球科學各學科的共性特點。同時為了滿足不同學科的個性化特征,系統允許用戶為不同學科的節點創建自定義屬性,以體現各學科對知識節點描述的特殊需求。

(2)支持多用戶同時在線編輯

本系統采用Web服務方式,服務端進行并發控制、特定操作的原子性控制、編輯目錄異步加載控制等措施,支持不同學科和相同學科下不同用戶同時在線圖文編輯,方便分散在不同地區的專業人員協同工作,大大提高了工作效率,為快速、高效建立地球科學知識圖譜提供了保障。

(3)操作簡單易學,無專業背景要求

系統所有操作均采用所見即所得的方式,編輯和審核操作設計友好,簡化和屏蔽了絕大多數知識圖譜的專業概念。界面簡潔清晰(圖11),不管是建設者還是審核人員都可以在零培訓基礎上快速上手,具有很強的推廣性和實用性。

(4)支持特殊符號的顯示和編輯

系統統一采用Unicode字符編碼,處理特殊字符。前端顯示則采用html語法,方便特殊格式(例如上下標、斜體等)的顯示。導出成Word或Excel格式時會通過API設置成相應格式,可以滿足地球科學各學科對特殊符號的要求。

圖11 系統錄入界面Fig. 11 System input surface

目前支持特殊格式:Unicode所有字符(萬國碼,支持世界各個語種,例如阿拉伯語、法語等)、粗體、斜體、下劃線、上標、下標、刪除線、列表。特殊符號和格式示例:“A2+B2= (A+B)2-2AB”、“TiO2”、“Genus Rosobolus Havlí?ek, 1982”。這些示例,系統都可以支持。

(5)提供靈活多樣的可視化瀏覽和檢索方式

系統提供了目錄樹(圖12)、字典(圖13)和網狀圖(圖14)三種可視化方式。在目錄樹瀏覽方式下,知識節點以樹狀結構顯示,知識點之間的層級關系一目了然。在字典瀏覽方式下,所有知識點按首字母排序,交互簡潔。在網狀圖瀏覽方式下,知識節點按照層級關系呈網狀組織,顯示時鼠標點擊節點可以逐級展開子節點,雙擊可以查看節點詳情,鼠標可以拖拽單個節點或整個網狀圖,鼠標滾輪可以放大縮小網狀圖。三種可視化瀏覽方式均提供了相應的檢索功能。

(6)在線審核功能

審核用戶登入系統后,可以對授權學科的知識點進行在線或離線審核。系統既支持逐個知識節點的審核,也可以批量對多個知識節點進行審核。建設者可以在系統上查看所有審核者的意見,并且對審核意見進行處理和回復。整個審核過程在系統中都有詳細的記錄,對審核人和建設者都是透明和公開的。審核意見和回復意見都提供了導出功能(例如導出成Word或Excel格式),以便形成正式的審核報告。

4.3 和已有工具對比

地球科學知識體系編輯平臺和其他工具從下面幾個方面對比(表1):文字的輸入和符號的支持,多語言的支持,數據可視化,協同編輯,協同審核等方面。

圖12 目錄樹顯示方式Fig. 12 Browsing in the tree mode

圖13 字典顯示方式Fig. 13 Display in the dictionary mode

圖14 網狀顯示模式Fig. 14 Display in the mesh mode

表1 各個工具對比Table 1 Comparison of various tools

4.4 使用效果

在系統上線之前,地球科學領域專業人員嘗試使用其他工具來構建地球科學知識體系,但是這些工具存在這樣或那樣問題:各個學科沒法集成,不支持圖片和特殊符號,不支持協同審核,學習成本太高等。導致地球科學知識體系構建工作推進緩慢,甚至某些學科沒法推進。

系統上線之后,地球科學領域專業人員借助系統進行地球科學知識體系構建。地球科學的18個分支學科專業人員進行在線協同編輯,在一個月之內就創建近4萬個節點。目前規模最大的地球科學知識圖譜SWEET才包含7000多個節點,而本系統在短時間內沉淀的節點數是SWEET的好幾倍,本文系統極大提高了地球科學知識體系建設效率。

5 總結和展望

本文對知識圖譜及知識體系構建工具進行了梳理,針對地球科學知識體系的需求設計并實現了定制化的專業編輯平臺,提供了在線協同編輯、靈活多樣的顯示方式以及在線審核等定制功能,最大限度地滿足了地球科學知識體系的建設需求。

地球科學知識體系編輯平臺上線以來,共有包括巖石學、古生物學等18個地球科學分支學科的領域專家在線協同編輯,在很短的時間內就建立了近4萬條知識節點和相互關聯。這些內容初步形成了規范化和標準化的地球科學知識圖譜描述框架,為機器理解打下了基礎,為文本自動提取、知識融合等提供了可能。同時,系統支持多種友好的瀏覽和檢索方式,可以成為科普、教學和科研人員的開放共享知識庫。

地球科學知識圖譜的建設是一項大工程,為進一步完善地球科學知識圖譜,并充分利用知識圖譜進行知識探索和發現,真正服務于地球科學相關領域的研究,地球科學知識體系編輯平臺還需要從下面幾個方面進行拓展和完善。

(1)實現知識融合和補全

地球科學知識圖譜的前期建設主要通過領域專家主導的方式進行,領域專家借助地球科學知識體系編輯平臺對領域內的主要知識點和簡單語義關系進行了標準化描述。但是知識完善還需要加入知識自動提取方式,并且融合人工方式和自動方式兩種方式生成的知識。因此系統需要支持排歧、去重、復雜語義關系的識別與描述、知識融合、推理和演化等,還有待OCR、自然語言處理、多模態融合等多項關鍵技術的參與,才能實現地球科學知識圖譜的進一步完善。如何在系統中實現兩種不同方式建立的知識圖譜的融合是下一步工作的重點之一。

(2)完善多模態知識圖譜建設的功能

編輯系統對于多模態知識圖譜的建設還需要在數據組織、人機交互、可視化等方面進一步加強,以完善對于復雜科學公式、地質過程示意圖等的支持,以增強地球科學基本概念和知識之間的邏輯和語義表達能力。

(3)分布式可信知識保護和安全共享

通過引入自主研發的數據共享平臺SOLAR(Smart Online Limbic Architecture Renaissance),充分利用區塊鏈、多方安全計算、同態加密等技術全程追蹤知識生成、質量評估、貢獻評估、知識產權保護和安全共享,對地球科學知識圖譜的網絡共享與安全保護提供服務。

(4)多方協同知識發現

隨著平臺的不斷發展和完善,在分布式存儲和計算系統的支持下,進一步融合協同學習、知識推理、聯邦學習、鏈式學習等多項技術,通過多方協作機制進行知識發現,基于地球科學知識圖譜和大數據對地球科學領域重大科學問題進行探索,必將深化地球科學的認識和研究。

猜你喜歡
本體圖譜語義
眼睛是“本體”
繪一張成長圖譜
語言與語義
補腎強身片UPLC指紋圖譜
基于本體的機械產品工藝知識表示
“社會”一詞的語義流動與新陳代謝
主動對接你思維的知識圖譜
“上”與“下”語義的不對稱性及其認知闡釋
“吃+NP”的語義生成機制研究
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合